资讯

测试时缩放(TTS,Test-Time Scaling)是一种提升大语言模型推理能力的新兴策略,通过在测试阶段优化推理过程(如多数投票、蒙特卡洛树搜索等)提升大型语言模型(LLMs)的性能,而无需修改模型参数。
现有的基于强化学习的方法需要精心设计针对特定任务的奖励函数,这通常限制了任务的复杂性,并可能导致机器人动作的不自然;另一类基于遥操作的方法成本高昂、效率低下,且所采集的数据通常针对特定的本体,缺乏通用性。
今天,咱们就用通俗易懂的方式,深入剖析一下这个让 DeepSeek-R1 大放异彩的 GRPO 算法! 在大语言模型的微调环节,强化学习(RL)起着举足轻重的作用。一直以来,近端策略优化(PPO)算法都是 LLM 微调的常用手段。但随着模型规模越来越大,PPO 的问题逐渐暴露 ...
这是一个基于MATLAB的强化学习框架,包含近端策略优化(Proximal Policy Optimization, PPO)算法及其多智能体扩展版本(MAPPO),支持GPU加速和并行计算,适用于控制系统研究和工程应用。 欢迎通过Issue和Pull Request提交改进建议和贡献代码。
今天读了最近非常重要的一篇文章,来自 OpenAI 的 Agent 研究员 Shunyu Yao 姚顺雨。他参与的项目包括 ReAct, Reflexion, Tree of Thoughts, ...
这项由伊利诺伊大学厄巴纳-香槟分校的钱程、Emre Can Acikgoz、何琦、王宏儒、陈秀思、Dilek Hakkani-Tür、Gokhan ...
姚顺雨表示,AI接下来比拼的不是训练,而是“如何定义并评估真正有用的任务”,得像产品经理一样重新思考:AI究竟该为谁解决什么问题、又该如何衡量“解决得好不好”。 还记得 AlphaGo ...
还记得 AlphaGo 刚击败李世石时,全世界惊呼“人工智能时代来了”,转眼不过几年,ChatGPT、o‑系列 模型已经把“智能”从棋盘和试卷一路卷到代码、创作甚至电脑屏幕背后的每一次点击清华姚班出身大牛,现任OpenAI 研究科学家姚顺雨在最新长文 ...
在计算机与人工智能的发展历史中,强化学习的思想至少可以追溯到图灵(Alan Turing)。早在1950年,他就提出过一种基于奖惩机制的机器学习方法。而若将视野拓宽至更广阔的认知和心理学领域,强化学习显然也深受斯金纳(B.F.