资讯

这个研究挑战了强化学习仅能放大现有模型输出能力的传统观点,通过实验证明长期强化学习训练(ProRL)能够使基础模型发现全新的推理策略。ProRL方法体系包含KL散度控制机制、参考策略重置技术以及多元化任务训练集。
距离ChatGPT发布已经过去两年多了,现在的主流大模型已经很不同了,最大的区别就是推理Reasoning能力的发掘和应用。什么是推理?举一个很简单的例子。比如有一道很简单的数学题,27+62=?,传统大模型(LLM,Large Language ...