RL - 搜索 News

强化学习（RL）领域再迎技术革新。继上周发布大模型慢思考推理技术获系列成果之后，九章云极DataCanvas联合研究团队再次发布新一代AI强化学习框架R1-Searcher及全链路工程代码。近日，中国人民大学STILL项目团队、九章云极DataCan ...

东方网20 小时

美停止资助自由欧洲电台捷克外长吁欧盟承接营运

（布拉格19日讯）美国政府宣布停止资助“自由欧洲电台/自由电台”，捷克外交部长利帕夫斯基表示，欧盟应承接资助电台的责任，因这个机构是民主力量的支柱，确保广播持续进行符合欧洲利益。台湾中央社援引布拉格国际广播电台（Radio Prague International）报导，美国政府宣布停止对“自由欧洲电台/自由电台”（Radio Free Europe/Radio Liberty，简称为RFE/RL ...

22 小时

超越DeepSeek GRPO的关键RL算法，字节、清华AIR开源DAPO

近日，清华 AIR 和字节联合 SIA Lab 发布了他们的第一项研究成果：DAPO，即 Decoupled Clip and Dynamic sAmpling Policy ...

凤凰热榜1 天

香港特首与东莞市委书记会面就深化港莞合作交流意见

中新网香港3月18日电香港特区行政长官李家超18日与东莞市委书记韦皓会面，就深化香港和东莞市合作及推动粤港澳大湾区高质量发展交流意见。 3月18日，香港特区行政长官李家超(右)与东莞市委书记韦皓(左)会面。香港特区政府新闻处供图 ...

1 天

特朗普政府一声令下美国之音被消音

特朗普政府上周末下令让1300多名美国之音的员工进入休假状态，该政令立即生效。一名此前在华盛顿总部工作的亚洲记者告诉德国之声，大约550名记者将在月底被解雇。她写道，“这550名记者中有许多人不是美籍公民，他们只持有在美国的培训签证，这些人必须离境。” ...

1 天

AI Agent的未来：从强化学习到大模型驱动，普通人如何应对AI时代的 ...

AI Agent技术正在经历一场深刻的变革，从传统的强化学习（RL）驱动到由大型语言模型（LLM）主导的新时代。在最近的AI智能体推理与决策研讨会（AIR 2025）上，多位顶尖专家分享了关于Agent技术的最新进展和未来趋势。从基于强化学习的智能体到由大型语言模型驱动的智能体，这一演变不仅改变了技术的实现方式，也对未来AI的发展提出了新的思考和挑战。在这场技术变革中，普通人如何应对AI时代的挑战 ...

1 天

欧盟外长回应“美国喉舌”遭“断粮”：难过，但我们没法给钱

【文/观察者网齐倩】美国总统特朗普，美国国际媒体署旗下的“美国之音”“自由亚洲电台”“自由欧洲电台”等多个政府“喉舌”恐遭“断粮”与“噤声”。面对如此困境，这些“喉舌”开始寄希望于欧盟“接济”，但得到的回复却令他们大失所望。

1 天

如何设计一款高可靠性的汽车CAN总线

CAN总线的应用不仅在工业领域，在汽车电子上的应用更是非常广泛。由于汽车的使用环境相对更复杂、更恶劣，这使得汽车 CAN总线非常容易受到外界的干扰，严重时甚至会遭到破坏。所以如何设计一款高可靠性的汽车 CAN总线 ...

2 天

关闭对外广播是“否定美国80年来支持信息自由的历史”

记者无疆界组织也谴责特朗普政府的措施，称此举“威胁全球新闻自由，并否定了美国80年来支持资讯自由流动的历史”。此前特朗普政府对美国发展署USAID冻结资金、实施90天调查的行政令，对记者无疆界组织已产生一定影响。

2 天

从蛰伏到王炸，RL启示录

在过去这一年间，RL从一度沉沦的位置，重新走回了AI研究的闪光灯中心。2024年下半年，OpenAI率先发布了它在LLM基础上，用RL实现“深度思考”的成果——o1，设定了新的终点线。今年初，DeepSeek将赛道上的迷雾更进一步迅速驱散了，把自己的 ...

商业新知 on MSN2 天

小参数出奇迹360开源最强14B推理模型，端侧部署春天来了？

作者｜参商编辑｜星奈媒体｜AI大模型工场 “人工智能教父”、“深度学习三巨头”Geoffrey ...

钛媒体APP on MSN4 天

【深度】从Manus到MCP：25年AI的三大新趋势

文 | AlphaEngineer，作者 | 费斌杰（北京市青联委员熵简科技CEO） 25年开年以来，AI发展如火如荼，DeepSeek R1、OpenAI CUA、Manus等重要创新层出不穷，眼花缭乱。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果