资讯

近年来随着大语言模型的爆火,旨在取代 Transformer 的高效模型架构及其预训练成为大模型领域的研究热点,主要包括线性序列建模(如 Linear Attention、SSM、Linear RNN ...
近期,我们看到Gemini-1.5、DeepSeek-V3和Llama-4等顶尖大语言模型纷纷采用了一种名为"专家混合"(Mixture-of-Experts,简称MoE)的架构。这是怎样的一种技术?想象一下,传统的语言模型就像一个万能选手,必须处理 ...
通过结合MindSpeed、Megatron等框架,华为实现了端到端的流畅训练,展现了超大规模集群的潜力。 在当前的人工智能技术浪潮中,华为的这一突破不仅是技术上的创新,更是对国内AI生态系统的重要推动。随着技术的不断进步和应用场景的扩展,未来我们有理由 ...
通过预训练和RL后训练加速技术,华为团队基于MindSpeed、Megatron以及vLLM框架,打造了昇腾全流程高效训练系统。 这个系统可支持超大规模集群和超大规模MoE模型,并在Pangu Ultra MoE模型训练中实现了端到端的流畅训练。 Pangu Ultra MoE模型拥有7180亿参数量,具有大 ...