Megatron - 搜索 News

资讯

近年来随着大语言模型的爆火，旨在取代 Transformer 的高效模型架构及其预训练成为大模型领域的研究热点，主要包括线性序列建模（如 Linear Attention、SSM、Linear RNN ...

近期，我们看到Gemini-1.5、DeepSeek-V3和Llama-4等顶尖大语言模型纷纷采用了一种名为"专家混合"（Mixture-of-Experts，简称MoE）的架构。这是怎样的一种技术？想象一下，传统的语言模型就像一个万能选手，必须处理 ...

搜狐3 天

华为新突破：每2秒解高数题的准万亿MoE训练系统全解析

通过结合MindSpeed、Megatron等框架，华为实现了端到端的流畅训练，展现了超大规模集群的潜力。在当前的人工智能技术浪潮中，华为的这一突破不仅是技术上的创新，更是对国内AI生态系统的重要推动。随着技术的不断进步和应用场景的扩展，未来我们有理由 ...

搜狐3 天

每2秒吃透一道高数大题！华为终于揭秘准万亿MoE昇腾训练系统全流程

通过预训练和RL后训练加速技术，华为团队基于MindSpeed、Megatron以及vLLM框架，打造了昇腾全流程高效训练系统。这个系统可支持超大规模集群和超大规模MoE模型，并在Pangu Ultra MoE模型训练中实现了端到端的流畅训练。 Pangu Ultra MoE模型拥有7180亿参数量，具有大 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果