资讯

在人工智能领域,特别是大语言模型的训练与优化上,一项重要的研究成果于2025年5月29日由微软研究院的研究团队发布在arXiv预印本平台上。这项名为《基于最优奖励基线的在策略强化学习》(On-Policy RL with Optimal Reward ...
为解决废旧电子电气设备(WEEE)闭环供应链(CLSC)中库存管理问题,研究人员构建多阶段库存模型,运用近端策略优化(PPO)算法训练强化学习(RL)智能体。结果显示 PPO 算法在成本控制和减少碳足迹方面表现更佳。该研究助力企业平衡经济与环境效益。
机械取栓(MT)是急性缺血性中风的金标准治疗方法,但存在诸多挑战。研究人员利用 stEVE 平台评估了 DDPG、TD3、SAC 和 PPO 算法。结果显示不同算法在不同条件下各有优势,该研究为推进自主血管内导航奠定基础。 在医疗领域,中风一直是全球范围内导致死亡和 ...
广义优势估计(Generalized Advantage Estimation, GAE)由Schulman等人在2016年的论文中提出,是近端策略优化(PPO)算法的重要基础理论,也是促使PPO成为高效强化 ...
最终,我们的优化目标便可以写成下面这样: TRPO算法和PPO算法 在理想情况下,如果我们能够采样足够多的次数,那么使用importance sampling估计得到的 ...
DeepSeek-R1 非常热门,而在其公布的训练配方中,GRPO(Group Relative Policy Optimization)非常关键,是 DeepSeek-R1 核心的强化学习算法。 相较于 PPO,GRPO 去掉 ...
大家都知道,LLM 的训练过程很复杂,其中有两个关键阶段:预训练和后训练。今天咱们就来深入聊聊在这一过程中发挥重要作用的近端策略优化(PPO)算法和组相对策略优化(GRPO)算法。这俩算法不仅在学术圈备受关注,在实际应用中也有着举足轻重的地位 ...
近端策略优化(Proximal Policy Optimization, PPO)算法作为一种高效的策略优化方法,在深度强化学习领域获得了广泛应用。特别是在大语言模型(LLM)的人类反馈强化学习(RLHF)过程中,PPO扮演着核心角色。本文将深入探讨PPO的基本原理和实现细节。 近端策略优化(Proximal ...
导读:DeepSeek的训练用到了自研的强化学习算法GRPO,它由OpenAI发明的强化学习算法PPO发展而来。DeepSeek的GRPO算法和OpenAI的PPO算法有何区别?这两种算法相比有何优缺点?为什么DeepSeek要使用GRPO算法而不是PPO算法?本文对这些问题进行解答。本文先简要回顾PPO算法 ...
策略梯度(Policy Gradient)和近端策略优化(Proximal Policy Optimization,简称PPO)是增强学习中两种广泛应用的算法,它们在各自的实现方式和效能上却有着显著的差异。本文将透彻解析这两种算法的核心特性、应用场景,以及它们的优势和不足。 策略梯度:直接 ...
PPO 是策略梯度的变形,也是同策略的算法。 在深度学习中,神经网络通常接受批量数据作为输入。这意味着输入数据通常具有批量维度,即一个维度用于表示输入数据的批量大小。例如,如果批量大小为32,则输入张量的形状将是(32, ...)。 在给定状态的情况下 ...