资讯

机器之心发布机器之心编辑部想训练属于自己的高性能推理模型,却被同步强化学习(RL)框架的低效率和高门槛劝退?AReaL 全面升级,更快,更强,更好用!来自清华大学交叉信息院和蚂蚁技术研究院的联合团队,正式开源全异步强化学习训练系统 —— ...
导读:DeepSeek的训练用到了自研的强化学习算法GRPO,它由OpenAI发明的强化学习算法PPO发展而来。DeepSeek的GRPO算法和OpenAI的PPO算法有何区别?这两种算法相比有何优缺点?为什么DeepSeek要使用GRPO算法而不是PPO算法?本文对这些问题进行解答。本文先简要回顾PPO算法 ...
学术界也对强化学习的价值给出了极高评价。3月5日,对这项技术做出开创性贡献的安德鲁·巴托(Andrew Barto)和理查德·萨顿(Richard Sutton),获得本年度的图灵奖。
DeepSeek-R1 非常热门,而在其公布的训练配方中,GRPO(Group Relative Policy Optimization)非常关键,是 DeepSeek-R1 核心的强化学习算法。 相较于 PPO,GRPO 去掉 ...
这次,他用 OpenAI 公布的近端策略优化 (Proximal Policy Optimization,简称PPO) 算法,成功助力马里奥通过32关中的29关,近乎通关! 这个PPO是何来头?
ReMax 在计算效率(约减少 50% 的 GPU 内存和 2 倍的训练速度提升)和实现简易性(6 行代码)上超越了最常用的算法 PPO,且性能没有损失。 如未额外 ...
《超级马里奥兄弟》你能玩到第几关? 说起这款FC时代的经典游戏,大家可能再熟悉不过了,大鼻子、留胡子,永远穿着背带工装服的马里奥大叔 ...
随着全球能源转型步伐的加快,人工智能(AI)在智慧能源管理中的应用正迎来前所未有的技术革新。2025年,领先的AI科技公司通过融合深度学习、强化学习及联邦学习等前沿算法,打造出具有高度自适应能力的能源管理解决方案,显著提升了能源利用效率,助力行业迈向智能化新时代。这些技术的核心在于利用深度神经网络对复杂多变的用能场景进行实时建模,尤其以基于长短期记忆网络(LSTM)的负荷预测模型为代表,能够捕捉历 ...
针对股票市场高度动态和非线性的价格波动预测难题,韩国研究团队提出融合时空相关性的改进型PPO算法(CGPPO)。该研究通过构建股票相关性图,结合LSTM网络与深度强化学习(DRL),在三星电子等四支韩国股票数据中验证了模型有效性,训练阶段奖励收敛值达 ...
机械取栓(MT)是急性缺血性中风的金标准治疗方法,但存在诸多挑战。研究人员利用 stEVE 平台评估了 DDPG、TD3、SAC 和 PPO 算法。结果显示不同算法在不同条件下各有优势,该研究为推进自主血管内导航奠定基础。 在医疗领域,中风一直是全球范围内导致死亡和 ...
原标题:你的《超级马里奥兄弟》通关了没?基于PPO强化学习算法的AI成功拿下29个关卡! 来源:雷锋网 《超级马里奥兄弟 ...