省一半算力跑出2倍效果,月之暗面开源优化器Muon,同预算下全面领先。 月之暗面和 DeepSeek 这次又「撞车」了。 上次是论文,两家几乎前后脚放出改进版的注意力机制,可参考《撞车 DeepSeek NSA,Kimi 杨植麟署名的新注意力架构 MoBA 发布,代码也公开》、《刚刚 ...