资讯

其思路是在推理阶段增加计算资源以获得更好的性能,具体到TTRL采用的是增加采样数量的方式,即对每个prompt,让模型采样生成N个不同的答案,而不是只生成一个确定性最高的输出。 作者的实验中,当在AIME ...
测试时缩放(TTS,Test-Time Scaling)是一种提升大语言模型推理能力的新兴策略,通过在测试阶段优化推理过程(如多数投票、蒙特卡洛树搜索等)提升大型语言模型(LLMs)的性能,而无需修改模型参数。
令人振奋的是,结合多个数据集的训练,模型在完成任务时展现出的适应能力竟然如此之强。这项技术的实践证明了伪标签不仅能促进学习,而且在其不完全准确的情况下,强化学习依旧能够引导模型优化方向,从而在实践中克服一些统计上的不足。