RL - 搜索 News

22 小时

近日，清华 AIR 和字节联合 SIA Lab 发布了他们的第一项研究成果：DAPO，即 Decoupled Clip and Dynamic sAmpling Policy ...

2 天

在过去这一年间，RL从一度沉沦的位置，重新走回了AI研究的闪光灯中心。2024年下半年，OpenAI率先发布了它在LLM基础上，用RL实现“深度思考”的成果——o1，设定了新的终点线。今年初，DeepSeek将赛道上的迷雾更进一步迅速驱散了，把自己的 ...

6 天

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

具体地，研究者利用一类新的微调方法来优化测试时计算，通过最小化累积悔值的概念产生了一种被称为元强化微调（Meta Reinforcement Fine-Tuning，MRT）的解决方案（或范式），从而为评估现有推理模型（如 ...

腾讯网18 小时

九章云极DataCanvas加速AI应用助力新一代AI技术框架发布

强化学习（RL）领域再迎技术革新。继上周发布大模型慢思考推理技术获系列成果之后，九章云极DataCanvas联合研究团队再次发布新一代AI强化学习框架R1-Searcher及全链路工程代码。近日，中国人民大学STILL项目团队、九章云极DataCan ...

1 天

欧盟外长回应“美国喉舌”遭“断粮”：难过，但我们没法给钱

【文/观察者网齐倩】美国总统特朗普，美国国际媒体署旗下的“美国之音”“自由亚洲电台”“自由欧洲电台”等多个政府“喉舌”恐遭“断粮”与“噤声”。面对如此困境，这些“喉舌”开始寄希望于欧盟“接济”，但得到的回复却令他们大失所望。

腾讯网1 天

商汤、Waymo和地平线复制DeepSeek成功之道—强化学习

欢迎关注下方公众号阿宝1990，本公众号专注于自动驾驶和智能座舱，每天给你一篇汽车干货，我们始于车，但不止于车。DeepSeek ...

东方网20 小时

美停止资助自由欧洲电台捷克外长吁欧盟承接营运

（布拉格19日讯）美国政府宣布停止资助“自由欧洲电台/自由电台”，捷克外交部长利帕夫斯基表示，欧盟应承接资助电台的责任，因这个机构是民主力量的支柱，确保广播持续进行符合欧洲利益。台湾中央社援引布拉格国际广播电台（Radio Prague International）报导，美国政府宣布停止对“自由欧洲电台/自由电台”（Radio Free Europe/Radio Liberty，简称为RFE/RL ...

1 天

如何设计一款高可靠性的汽车CAN总线

CAN总线的应用不仅在工业领域，在汽车电子上的应用更是非常广泛。由于汽车的使用环境相对更复杂、更恶劣，这使得汽车 CAN总线非常容易受到外界的干扰，严重时甚至会遭到破坏。所以如何设计一款高可靠性的汽车 CAN总线 ...

东方网2 天

美国断资助自由欧洲电台停运捷克与欧洲商对策

（布拉格17日讯）美国停止对总部位于捷克首都布拉格的自由欧洲电台/自由电台（RFE/RL）资助后，捷克外交部长利帕夫斯基表示，他将与欧洲同行讨论该电台的未来。法新社报导，美国总统特朗普政府上周六暂停了对包括RFE/RL和美国之音在内的多家美国资助广播 ...

2 天

关闭对外广播是“否定美国80年来支持信息自由的历史”

记者无疆界组织也谴责特朗普政府的措施，称此举“威胁全球新闻自由，并否定了美国80年来支持资讯自由流动的历史”。此前特朗普政府对美国发展署USAID冻结资金、实施90天调查的行政令，对记者无疆界组织已产生一定影响。

18 小时

AI强化学习新突破：R1-Searcher如何重塑未来智能应用？

强化学习领域迎来重大突破！九章云极DataCanvas联合研究团队近日发布新一代AI强化学习框架R1-Searcher，引发行业广泛关注。这一技术革新不仅解决了现有模型在知识密集型任务中的不足，更通过两阶段奖励机制优化了模型的检索与推理能力，展现出颠覆性的潜力。

13 小时

o1/o3后训练负责人离职创业，奥特曼把OpenAI玩成另一个YC孵化器了

当时和Fedus同一拨晋升的，还有Mark Chen。他作为前OpenAI首席研究官的继任，在2024年9月晋升研究高级副总裁，和Ilya的继任者、OpenAI新首席科学家Jakub Pachocki一起领导研究工作。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果