艾伦·加 - 搜索 News

排序方式最佳匹配最新鲜

资讯

37 分钟

LLM加RL遭质疑：故意用错奖励，数学基准也显著提升，AI圈炸了

在使用标准 GRPO 裁剪的情况下，随机奖励为 Qwen2.5-Math-7B 带来了约 21% 的性能提升，并增加了代码推理模式。但是，当我们通过上述三种方法中的任何一种消除裁剪效应时，随机奖励并未带来任何改善。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果