禹棋赢,01年生,本科毕业于哈工大,直博进入清华AIR,目前博士三年级在读。去年年中,他以研究实习生的身份加入字节首次推出的「Top Seed人才计划」。 去年5月,字节启动「Top Seed人才计划」,最终录取多名应届和在读博士组成史无前例的AI研究团队,禹棋赢就在其中。
两者均可以复现出稳定的 accuracy reward 以及 response length 增长,并且具备 visual aha-moment! 惊人的数据效率:仅使用 54K 图文数据进行规则型 RL 训练,平均性能超过使用 1M 数据的 MPO 模型;整体基准准确率与使用 12M 数据进行 CoT SFT 训练的模型相当! MM-Eureka-Zero 仅 ...
近日,人工智能领域再传捷报——“灵感时刻”(Ahamoment AI)宣布完成千万级人民币天使轮融资,由美元基金Hi2 Capital领投,天使投资人Mike Green、Yipeng Li等持续加码。 这家成立仅一年的初创企业,凭借端侧AI技术创新 ...
让广大用户感觉到手机里的AI有一些不同,这是最难量化却又真实存在的市场竞争点。 DeepSeek出圈的一大原因,就是将理性的技术优势变为感性的产品讨论度。而手机自研AI,迟迟没有迎来“aha moment”。
开源框架: 我们基于 OpenRLHF 开发了一个高效可扩展的多模态大规模强化学习框架,支持 InternVL 等多种模型和 RL 算法。相比 R1-V 等已有框架,我们的方案成功训练了 InternVL 2.5-38B 等大型模型。 稳定训练: ...
如今,人与人之间的沟通与理解、人类文明的传承,都将因为AI将人类思维过程显性化而受到深远影响。借助AI所生成的思维过程,我们有机会进一步认清人类的认知与决策过程。“对,我就是像AI这样想的”,可能会成为未来人与人交流复杂问题求解思路的常态。
灵感时刻完成千万级天使轮融资,创立第一年ARR达近千万美元,天使轮,腾讯,融资,天使投资人,博士 ...
对于这个问题,其实有不少专业文章都做过解释,不过大家未必会想去看万字长文,也对枯燥的学术概念没啥兴趣。 所以小雷这次打算用通俗易懂的方式,向大家解释一下DeepSeek在AI模型的训练和设计中,到底有哪些让人眼前一亮的创新。
小米技术官方微博宣布,小米大模型团队在音频推理领域取得了显著进展。他们在受到 DeepSeek-R1的启发后,率先将强化学习算法应用于多模态音频理解任务。团队在短短一周内便以64.5% 的 SOTA(State Of The Art)准确率,登顶国际权威的 MMAU 音频理解评测榜,并同步 ...
近日,人工智能领域再传捷报——“灵感时刻”(Ahamoment AI)宣布完成千万级人民币天使轮融资,由美元基金Hi2 Capital领投,天使投资人Mike Green ...