Scaling to Trillion Parameter Models with Simple and Efficient Sparsity [1])中对 MoE Layer 的分布介绍的非常隐晦,单看架构图很容易误解为是一个纯粹的 MoE 模型(每一个 Transformer Layer 都包含 MoE Block),一些非官方的代码实现中也是如此。然而实际上并非如此: 如下图 Table 1 ...