资讯

针对这个问题,UC Berkeley团队提出新训练方法Intuitor,计算模型预测分布与均匀分布之间的KL散度作为“自信程度”。 通过优化这个内在信号,INTUITOR鼓励模型生成它自己”更有把握”的回答,也能促使模型生成更结构化的推理过程。
在实验中, 1.5B和3B的小模型 也涌现出与DeepSeek-R1类似的长思维链推理行为。 在INTUITOR中,团队发现如果使用离线学习,在训练约100步的时候模型也学会了作弊:在回答中附加一个已经解决的简单问题来提高自信度分数。
归根结底,UC Berkeley团队的这项研究告诉我们一个简单但深刻的道理:有时候,提高AI的能力不仅仅是给它更多的数据、更大的模型或更强的硬件 ...