名叫 CoE(Chain-of-Experts) ,被认为是一种“免费午餐”优化方法,突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。 研究团队在实验中发现,经过2次迭代的CoE,在相同的计算预算下将数学任务的验证损失从1.20降低至1.12,仅仅通过重构信息流就获得了性能提升。
研究团队在实验中发现,经过2次迭代的CoE,在相同的计算预算下将数学任务的验证损失从1.20降低至1.12,仅仅通过重构信息流就获得了性能提升。 实验采取DeepSeek V2架构,在参数规模为500M的MoE模型上使用32K Tok的batch size训练1000步,以此来验证CoE的有效性。
Zihan Wang曾在DeepSeek工作过,是ESFT(Expert-Specialized Fine-Tuning)的论文一作。 ESFT通过仅调整与任务相关的部分高效地定制采用MoE,从而在减少资源和 ...