Megatron - 搜索 News

资讯

腾讯网4 天

Linear-MoE：线性注意力遇上混合专家的开源实践

近年来随着大语言模型的爆火，旨在取代 Transformer 的高效模型架构及其预训练成为大模型领域的研究热点，主要包括线性序列建模（如 Linear Attention、SSM、Linear RNN ...

12 天

全球算力缺口：当 AI 狂奔遇上算力瓶颈

区域分布的不平衡加剧了算力紧张。中美两国占据全球 72% 的算力资源，但中国智能算力占比已达 41%，超过美国的 35%，这种结构性差异导致中国在 AI 训练算力上的缺口尤为突出。欧洲 "GAIA-X" 计划虽规划新建 50 ...

腾讯网4 天

FLAME-MoE：探秘专家混合模型的秘密花园——卡内基梅隆大学打造全 ...

近期，我们看到Gemini-1.5、DeepSeek-V3和Llama-4等顶尖大语言模型纷纷采用了一种名为"专家混合"（Mixture-of-Experts，简称MoE）的架构。这是怎样的一种技术？想象一下，传统的语言模型就像一个万能选手，必须处理 ...

14 天

黄仁勋Computex演讲：个人AI计算机已全面投产，将推出下一代GB300人工 ...

黄仁勋透露，英伟达推出的个人AI计算机DGX Spark已全面投产，预计将在数周内上市。这款AI计算机配备了英伟达最新的GB10超级芯片及先进的张量核心，针对企业和个人用户打造，可实现用户定制化定价，预计在圣诞节前实现大规模交付。

15 天

黄仁勋重磅演讲：Q3推出下一代GB300 将向合作者授权NVLink技术

黄仁勋介绍称，Grace Blackwell 已全面投入生产，并于2月开始交付。英伟达将于今年第三季度推出GB300硬件系统。据他介绍，GB300配备了升级版Blackwell芯片，其推理性能提升了1.5倍，HBM内存容量增加了1.5倍，网络连接能力翻倍，整体性能都得到加强。

腾讯网15 天

「英伟达星座」官宣！黄仁勋还谈了什么？

英伟达新总部概念图：“Nvidia Constellation”（“英伟达星座”）黄仁勋官宣，NVIDIA 新总部落地中国台湾！COMPUTEX 2025（台北国际电脑展）上，英伟达 CEO 黄仁勋发表演讲，展现其 AI 野心。他称 AI ...

搜狐14 天

阿里云：玩转AIGC

本文围绕AIGC（人工智能生成内容）展开，介绍了其在文本、图像、视频生成等方面的应用，并提供了基于阿里云GPU服务器的8个AIGC最佳实践案例。

IT之家24 天

支持原生 FP8 和 PyTorch 2.5.0，摩尔线程开源发布 Torch-MUSA v2.0.0

Torch-MUSA v2.0.0 在 MUSA 计算平台引入多项创新功能，进一步提升深度学习任务的执行效率：新增虚拟内存管理支持： MUSA 虚拟内存管理技术能够有效缓解 GPU 内存碎片化问题，降低模型训练过程中的峰值内存占用，特别适用于 FSDP、DeepSpeed 和 Megatron-LM 等主流大模型 ...

无忧资讯14 天

辉达火力全开秀技术！最新AI平台HB300问世

在2025年台北国际电脑展（Computex）今（19）日首场主题演讲中，辉达（NVIDIA）执行长黄仁勋一口气发布多项关键技术与芯片平台，宣示将从次世代GPU加速平台、量子运算、到大型AI芯片整合迈向新纪元。

搜狐14 天

英伟达新“桌面超算”800GB大内存，满血DeepSeek R1能装1个半

比如，Aerial和Sionna能够将AI带到5G和6G；Monai可以用于医学成像；Earth-2用于天气预报；Coup quantum用于量子经典计算架构；以及Megatron、Dynamo、NIXL等包含 ...

快科技24 天

国产GPU突破！摩尔线程发布Torch-MUSA v2.0.0：FP8原生支持

特别适用于FSDP、DeepSpeed和Megatron-LM等主流大模型训练框架。 MUSA Graph技术将多个MUSA内核整合到一个图中，通过单次CPU调度大幅减少启动开销 ...

科技行者 on MSN21 天

Bielik 11B v2：波兰语自然语言处理的突破性进展

2025年5月，来自SpeakLeash和ACK Cyfronet AGH合作团队的研究人员发布了一项重要成果——Bielik 11B v2语言模型。这个专为波兰语优化的大型语言模型由Krzysztof Ociepa、Lukasz Flis、Remigiusz Kinas、Krzysztof Wróbel和Adrian ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果