Ppo算法 - 搜索 News

5 小时

DeepSeek的华丽文风是怎样炼成的？

不止朱啸虎。在DeepSeek以假乱真，模仿梁文锋口吻回复冯骥的“国运论”造假文章出现后，作家兼脱口秀演员的李诞点评道，文章透露出一种非常DeepSeek的味道。这种味道被李诞概括为“科技抒情散文诗”。

51CTO3 天

HybridFlow：基于 Ray 构建灵活且高效的 RLHF 编程框架

收集到多个这样的 pair 后，就可以对奖励模型进行训练。强化学习训练（Reinforcement Learning Training）。有了奖励模型后，可以使用 PPO、DPO 等算法进行强化学习训练。这些算法的输入是 prompt。使用 RLHF 可以通过降低模型输出不正确或有害内容的概率，来提升模型 ...

来自MSN3 天

DeepSeek GRPO在简单控制系统上和PPO的对比

DeepSeek 的深度强化学算法 GRPO，在LLM领域提升数学推理上的效果非常好，所以我前几天就想着能不能把GRPO用到机器人控制系统上。最近几天春节，我抽空简单编程对比了一下，GRPO和PPO，在简单控制系统上的效果。（业余玩玩，请勿较真）实验环境：env = gym.make('CartPole-v1', ...

2 天

突发｜刚加入Anthropic的OpenAI联创John Schulman，又离职了！

Schulman 是去年众多从 OpenAI 离职的高层之一，其他知名专家包括首席技术官 Mira Murato、首席科学家 Ilya Sutskever。Jan Leike 是前 OpenAI 超级对齐小组的联合负责人，该小组致力于让其 AI ...

什么值得买 on MSN22 小时

排名 Top 5 的 DeepSeek 相关开源项目

之前提到过，DeepSeek 发布的 R1 模型凭借低成本、高性能推理能力引发全球 AI 社区震动。在 GitHub 搜索 DeepSeek 关键词 ...

3 天

OpenAI联创John Schulman，被曝火速离职Anthropic！刚刚入职6个月

另外，据Schulman透露，OpenAI将人类反馈强化学习（RLHF）引入ChatGPT的想法可以追溯到2017年，当时Jan Leike和Dario Amodei等人发表的一篇论文提到了这个方法。

2 天

机器人都开始扭秧歌了，钢铁侠还会远吗？

随着国产人形机器人不断突破极限，我们不妨看看国际舞台上还有哪些强劲的竞争者。特斯拉、波士顿动力、Agility Robotics、Unitree等科技巨头，正在推动人形机器人从实验室走向现实，赋予它们更强的感知、学习和执行能力。那么，这些机器人各自擅长什么领域？

刚加入Anthropic的OpenAI联创John Schulman，又离职了

机器之心报道编辑：杜伟、泽南距离他加入 Anthropic，仅仅过去了半年时间。本周四消息，去年刚刚加入知名 AI 创业公司 Anthropic 的 OpenAI 联合创始人约翰・舒尔曼 (John Schulman) ...

为DeepSeek辟谣：五大误解与真相解读

春节至今，DeepSeek 的热度持续攀升，伴随而来的，还有很多误解和争议，有人说它是"吊打OpenAI的国货之光"，也有人说它"不过是抄国外大模型作业的小聪明"。

多模态版DeepSeek-R1：评测表现超GPT-4o，模态穿透反哺文本推理能力 ...

当图文结合地询问它减肥时更适合喝哪一款饮品时，Align-DS-V精确地指出图中饮品的款数、饮品名称，以及减脂时最适合饮用的是“低糖原味豆奶”。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果