资讯

6月3日,清华蚂蚁联合研发的全异步强化学习训练系统AReaL-boba2(AReaL v0.3)正式宣布开源。 项目地址: 系列模型上做强化学习训练,实现8B、14B 模型在 LiveCodeBench, Codeforce, Codecontest ...
机器之心发布机器之心编辑部想训练属于自己的高性能推理模型,却被同步强化学习(RL)框架的低效率和高门槛劝退?AReaL 全面升级,更快,更强,更好用!来自清华大学交叉信息院和蚂蚁技术研究院的联合团队,正式开源全异步强化学习训练系统 —— ...