knives - 搜索 News

资讯

1 天

MiniMax秀了波AI视频杂技：越看越惊艳，指令遵循太强了

以及MiniMax提出了更快的强化学习算法CISPO，通过裁剪重要性采样权重（而非传统token更新）提升强化学习效率。MiniMax援引AIME的实验结果，表示这比包括字节近期提出的 DAPO 等强化学习算法收敛性能快了一倍，显著的优于 DeepSeek 早期使用的 GRPO。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果