资讯

测试时缩放(TTS,Test-Time Scaling)是一种提升大语言模型推理能力的新兴策略,通过在测试阶段优化推理过程(如多数投票、蒙特卡洛树搜索等)提升大型语言模型(LLMs)的性能,而无需修改模型参数。
其思路是在推理阶段增加计算资源以获得更好的性能,具体到TTRL采用的是增加采样数量的方式,即对每个prompt,让模型采样生成N个不同的答案,而不是只生成一个确定性最高的输出。 作者的实验中,当在AIME ...