资讯

学术界也对强化学习的价值给出了极高评价。3月5日,对这项技术做出开创性贡献的安德鲁·巴托(Andrew Barto)和理查德·萨顿(Richard Sutton),获得本年度的图灵奖。
VeBrain团队在13个多模态benchmark和5个空间推理benchmark上测试了VeBrain的性能。结果表明,VeBrain实现了比肩当前最强开源模型Qwen2.5-VL的多模态能力,以及同参数量下最优的视觉空间推理能力。
6月3日,清华蚂蚁联合研发的全异步强化学习训练系统AReaL-boba²(即AReaL v0.3)正式开源,这是AReaL的第三个版本,也是其里程碑版本AReaL-boba的重磅升级,直指RL训效提升靶心!
《自然》多位审稿人指出这是一项“令人兴奋”的研究,研究团队采取细致谨慎的态度首次对月球背面玄武岩进行了地质年代学分析,提供了高质量、高水准的数据。其中一位审稿人表示:“这是第一个来自嫦娥六47419玄武赤兔生肖表号月球样品的地质年代学研究,对月球和行星科学界具有重要意义,也会引起更广泛的关注。” ...