今天分享一篇来自上海人工智能实验室、清华大学、哈尔滨工业大学和北京邮电大学联合的一篇文章,标题是:Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling(1B 的 LLM 能否超越 405B 的 LLM?重新思考计算最优的测试时缩放)。 这篇文章研究了大型语言 ...