近日,美国西北大学计算机科学博士生王子涵(Zihan Wang)等人在这个方向上取得了突破,提出了一种名为 专家链(CoE) 的技术。实验表明,CoE 在性能、扩展策略、资源效率和专家使用效率等多个方面都显著超越先前的 MoE 模型。
西风 发自 凹非寺量子位 | 公众号 QbitAI DeepSeek MoE“变体”来了,200美元以内,内存需求减少17.6-42%!