MØ Immune - 搜索 News

资讯

新浪网22 天

中信建投 | 华为发布Pangu Ultra MoE 模型中文技术报告 - 新浪财经

文｜于芳博辛侠平华为盘古团队发布了 Pangu Ultra MoE 模型架构与训练方法的中文技术报告，披露了模型的细节，其核心突破在于实现了“全栈国产化 ...

深圳新闻网24 天

华为算力炼出业界一流大模型推出参数规模7180亿的盘古Ultra MoE_深圳 ...

近日，华为在MoE模型训练领域再进一步，重磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE，这是一个全流程在昇腾AI计算平台上训练的准万亿 ...

IT之家27 天

全流程昇腾平台训练，华为推出准万亿参数盘古 Ultra MoE 模型 - IT之家

IT之家 5 月 30 日消息，华为今日推出参数规模高达 7180 亿的全新模型盘古 Ultra MoE，这是一个全流程在昇腾 AI 计算平台上训练的准万亿 MoE 模型。. 据IT之家了解，盘古团队提出 Depth-Scaled Sandwich-Norm（DSSN）稳定架构和 TinyInit 小初始化的方法，在昇腾平台上实现了超过 18TB 数据的长期稳定训练。

腾讯网27 天

Linear-MoE：线性注意力遇上混合专家的开源实践_腾讯新闻

1. 上海人工智能实验室团队发布了最新成果Linear-MoE，首次实现了线性序列建模与混合专家的高效结合。 2. Linear-MoE包括Modeling和Training两大部分，支持 ...

51CTO27 天

Linear-MoE：线性注意力遇上混合专家的开源实践-51CTO.COM

目前 Linear-MoE 已全面开源，支持多种主流的线性序列建模方法和 MoE 实现。这一工作不仅填补了线性建模与 MoE 结合的技术空白，还为社区提供了可复现的高效训练方案。未来将进一步探索 Linear-MoE 在长上下文理解、Vision-Language 模型架构中的应用潜力。

新浪网28 天

华为盘古大模型首次打榜：昇腾原生 72B MoE 模型登顶 SuperCLUE 千亿内 ...

传统的 MoE 架构，虽有着理论上的优势，却在实际落地中遭遇 “滑铁卢”。专家激活频次不均衡，如同潜藏在高效运行背后的 “暗礁”，一旦专家 ...

GitHub2月

公共解析服务器 · yujincheng08/BiliRoaming Wiki · GitHub

由于biliplus停止解析服务，现在需要自行建立解析服务器，有能力的同学可以参考这里。如果不知道如何自建，可以使用以下热心网友们提供的解析服务器（请按照区域填写）。注意，由于获取高画质视频需要账号权限，解析 ...

虎嗅网2月

Meta发布最强开源Llama 4，超越DeepSeek V3 - 虎嗅网

Meta发布开源多模态模型Llama4系列，包含Scout和Maverick两款模型，采用MoE架构并支持超长上下文。Maverick在性能上超越DeepSeekV3，Scout以单H100支持1000万token处理。未来将推出的2万亿参数Behemoth在STEM测试中优于GPT-4.5等闭源模型，多模态..

腾讯网4月

MOIRAI-MOE: 基于混合专家系统的大规模时间序列预测模型

moirai-moe 标志着基础模型发展的重要里程碑,它在前代模型的基础上实现了显著突破。更值得关注的是基础模型的迭代速度,特别是在模型及其预训练 ...

51CTO4月

DeepSeek671B提到的MOE是什么？图解MOE（混合专家模型） - 51CTO

在 V-MoE 中，优先评分机制能够区分出重要和不重要的图像块。然而，图像块被分配给每个专家后，未被处理的图像块中的信息就会丢失。软 MoE（Soft-MoE）旨在通过混合图像块，从离散的图像块（token）分配转变为软分配。

极客公园7月

开源Hunyuan-Large：最大参数的MoE架构模型 - 极客公园

MoE模型的优势在于它通过专家路由机制，只激活部分专家进行计算，因此能够以较低的计算成本处理更大规模的任务。与Dense模型相比，MoE在训练和推理时的计算效率更高，同时可以通过增加专家数量，扩展模型的容量和智能水平。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果