搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
过去 7 天
时间不限
过去 1 小时
过去 24 小时
过去 30 天
按相关度排序
按时间排序
5 小时
DeepSeek的华丽文风是怎样炼成的?
不止朱啸虎。在DeepSeek以假乱真,模仿梁文锋口吻回复冯骥的“国运论”造假文章出现后,作家兼脱口秀演员的李诞点评道,文章透露出一种非常DeepSeek的味道。这种味道被李诞概括为“科技抒情散文诗”。
51CTO
3 天
HybridFlow:基于 Ray 构建灵活且高效的 RLHF 编程框架
收集到多个这样的 pair 后,就可以对奖励模型进行训练。 强化学习训练(Reinforcement Learning Training)。有了奖励模型后,可以使用 PPO、DPO 等算法进行强化学习训练。这些算法的输入是 prompt。 使用 RLHF 可以通过降低模型输出不正确或有害内容的概率,来提升模型 ...
来自MSN
3 天
DeepSeek GRPO在简单控制系统上和PPO的对比
DeepSeek 的深度强化学算法 GRPO,在LLM领域提升数学推理上的效果非常好,所以我前几天就想着能不能把GRPO用到机器人控制系统上。 最近几天春节,我抽空简单编程对比了一下,GRPO和PPO,在简单控制系统上的效果。(业余玩玩,请勿较真) 实验环境:env = gym.make('CartPole-v1', ...
2 天
突发|刚加入Anthropic的OpenAI联创John Schulman,又离职了!
Schulman 是去年众多从 OpenAI 离职的高层之一,其他知名专家包括首席技术官 Mira Murato、首席科学家 Ilya Sutskever。Jan Leike 是前 OpenAI 超级对齐小组的联合负责人,该小组致力于让其 AI ...
什么值得买 on MSN
22 小时
排名 Top 5 的 DeepSeek 相关开源项目
之前提到过,DeepSeek 发布的 R1 模型凭借低成本、高性能推理能力引发全球 AI 社区震动。在 GitHub 搜索 DeepSeek 关键词 ...
3 天
OpenAI联创John Schulman,被曝火速离职Anthropic!刚刚入职6个月
另外,据Schulman透露,OpenAI将人类反馈强化学习(RLHF)引入ChatGPT的想法可以追溯到2017年,当时Jan Leike和Dario Amodei等人发表的一篇论文提到了这个方法。
2 天
机器人都开始扭秧歌了,钢铁侠还会远吗?
随着国产人形机器人不断突破极限,我们不妨看看国际舞台上还有哪些强劲的竞争者。特斯拉、波士顿动力、Agility Robotics、Unitree等科技巨头,正在推动人形机器人从实验室走向现实,赋予它们更强的感知、学习和执行能力。那么,这些机器人各自擅长什么领域?
腾讯网
3 天
刚加入Anthropic的OpenAI联创John Schulman,又离职了
机器之心报道编辑:杜伟、泽南距离他加入 Anthropic,仅仅过去了半年时间。本周四消息,去年刚刚加入知名 AI 创业公司 Anthropic 的 OpenAI 联合创始人约翰・舒尔曼 (John Schulman) ...
腾讯网
3 天
为DeepSeek辟谣:五大误解与真相解读
春节至今,DeepSeek 的热度持续攀升,伴随而来的,还有很多误解和争议,有人说它是"吊打OpenAI的国货之光",也有人说它"不过是抄国外大模型作业的小聪明"。
腾讯网
3 天
多模态版DeepSeek-R1:评测表现超GPT-4o,模态穿透反哺文本推理能力 ...
当图文结合地询问它减肥时更适合喝哪一款饮品时,Align-DS-V精确地指出图中饮品的款数、饮品名称,以及减脂时最适合饮用的是“低糖原味豆奶”。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈