Model Training - 搜索 News

资讯

知乎专栏 on MSN11 天

DeepSeek通用任务GenRM新作：Inference-Time Scaling for Generalist Reward Modeling

这篇DS的新作提出了一个 pointwise Generalist RMs的训练框架，仔细读下来有很多的细节可以回味，且该文有很大概率是DS主线上迭代的一篇工作（从DS-R1 -> R2）, 因为R1其实挖了个坑并没有把通用类的RL给做充分，后续 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果