Moe Takahashi - 搜索 News

资讯

新浪网22 天

中信建投 | 华为发布Pangu Ultra MoE 模型中文技术报告 - 新浪财经

文｜于芳博辛侠平华为盘古团队发布了 Pangu Ultra MoE 模型架构与训练方法的中文技术报告，披露了模型的细节，其核心突破在于实现了“全栈国产化 ...

深圳新闻网24 天

华为算力炼出业界一流大模型推出参数规模7180亿的盘古Ultra MoE_深圳 ...

近日，华为在MoE模型训练领域再进一步，重磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE，这是一个全流程在昇腾AI计算平台上训练的准万亿 ...

电子工程专辑25 天

盘古Pro MoE：昇腾原生的分组混合专家模型-电子工程专辑

导读：盘古Pro MoE ‌是华为推出的基于混合专家模型（MoE）架构的大模型，具体型号为72B总参数、16B激活参数。该模型在昇腾300I Duo 和800I A2平台上实现了优化的专家负载分布与计算效率，分别为321 tokens/s和1528 tokens/s‌1。本文 ...

IT之家27 天

全流程昇腾平台训练，华为推出准万亿参数盘古 Ultra MoE 模型 - IT之家

IT之家 5 月 30 日消息，华为今日推出参数规模高达 7180 亿的全新模型盘古 Ultra MoE，这是一个全流程在昇腾 AI 计算平台上训练的准万亿 MoE 模型。. 据IT之家了解，盘古团队提出 Depth-Scaled Sandwich-Norm（DSSN）稳定架构和 TinyInit 小初始化的方法，在昇腾平台上实现了超过 18TB 数据的长期稳定训练。

腾讯网27 天

Linear-MoE：线性注意力遇上混合专家的开源实践_腾讯新闻

1. 上海人工智能实验室团队发布了最新成果Linear-MoE，首次实现了线性序列建模与混合专家的高效结合。 2. Linear-MoE包括Modeling和Training两大部分，支持 ...

腾讯网27 天

为什么混合专家模型（MoE）如此高效：从架构原理到技术实现全解析

MoE架构通过将Transformer模块中的特定前馈层替换为MoE层来实现。 MoE层中的专家架构与标准前馈网络相似，但在单个MoE层中部署多个专家单元。并非 ...

51CTO27 天

Linear-MoE：线性注意力遇上混合专家的开源实践-51CTO.COM

目前 Linear-MoE 已全面开源，支持多种主流的线性序列建模方法和 MoE 实现。这一工作不仅填补了线性建模与 MoE 结合的技术空白，还为社区提供了可复现的高效训练方案。未来将进一步探索 Linear-MoE 在长上下文理解、Vision-Language 模型架构中的应用潜力。

新浪网28 天

华为盘古大模型首次打榜：昇腾原生 72B MoE 模型登顶 SuperCLUE 千亿内 ...

传统的 MoE 架构，虽有着理论上的优势，却在实际落地中遭遇 “滑铁卢”。专家激活频次不均衡，如同潜藏在高效运行背后的 “暗礁”，一旦专家 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果