禹棋赢,01年生,本科毕业于哈工大,直博进入清华AIR,目前博士三年级在读。去年年中,他以研究实习生的身份加入字节首次推出的「Top Seed人才计划」。 去年5月,字节启动「Top Seed人才计划」,最终录取多名应届和在读博士组成史无前例的AI研究团队,禹棋赢就在其中。
两者均可以复现出稳定的 accuracy reward 以及 response length 增长,并且具备 visual aha-moment! 惊人的数据效率:仅使用 54K 图文数据进行规则型 RL 训练,平均性能超过使用 1M 数据的 MPO 模型;整体基准准确率与使用 12M 数据进行 CoT SFT 训练的模型相当! MM-Eureka-Zero 仅 ...
近日,人工智能领域再传捷报——“灵感时刻”(Ahamoment AI)宣布完成千万级人民币天使轮融资,由美元基金Hi2 Capital领投,天使投资人Mike Green、Yipeng Li等持续加码。 这家成立仅一年的初创企业,凭借端侧AI技术创新 ...
让广大用户感觉到手机里的AI有一些不同,这是最难量化却又真实存在的市场竞争点。 DeepSeek出圈的一大原因,就是将理性的技术优势变为感性的产品讨论度。而手机自研AI,迟迟没有迎来“aha moment”。
开源框架: 我们基于 OpenRLHF 开发了一个高效可扩展的多模态大规模强化学习框架,支持 InternVL 等多种模型和 RL 算法。相比 R1-V 等已有框架,我们的方案成功训练了 InternVL 2.5-38B 等大型模型。 稳定训练: ...
前面一篇文章介绍了 《从0开发大模型之DeepSeek的GRPO》 ,并且实现了一个简单版本的 GRPO 代码,不过从工程领域来看,并没有复现DeepSeek-R1,于是最近申请了48G的显存,结合一些开源的方案复现aha monent,并给出完整的代码和工具链。 1、什么是 aha monent ...
如今,人与人之间的沟通与理解、人类文明的传承,都将因为AI将人类思维过程显性化而受到深远影响。借助AI所生成的思维过程,我们有机会进一步认清人类的认知与决策过程。“对,我就是像AI这样想的”,可能会成为未来人与人交流复杂问题求解思路的常态。
灵感时刻完成千万级天使轮融资,创立第一年ARR达近千万美元,天使轮,腾讯,融资,天使投资人,博士 ...
进而,《重组或封杀法》明确点名TikTok作为执法对象,从而没有给行政机关留下“未能发现隐秘的违法行为”的借口。因此,《重组或封杀法》给白宫并未留下太多晃动空间,也即白宫的手被绑住,必须在《重组或封杀法》的框架内对TikTok行事。
对于这个问题,其实有不少专业文章都做过解释,不过大家未必会想去看万字长文,也对枯燥的学术概念没啥兴趣。 所以小雷这次打算用通俗易懂的方式,向大家解释一下DeepSeek在AI模型的训练和设计中,到底有哪些让人眼前一亮的创新。
昨天,一个叫「Manus」的通用 AI Agent 产品引起热议。它可以完成从文件处理、数据分析、代码编写到内容创作等多种任务,比如帮助用户生成旅行计划、分析股票数据、筛选简历或开发简单的网页游戏。
此前,不少读者都在后台讨论,DeepSeek虽然牛逼,但是在其之上还有ChatGPT等更强的AI模型,难道仅凭开源就能够引起如此广泛的关注?再说回来,DeepSeek能够被AI从业者反复琢磨和研究,到底是有哪些过人之处?
一些您可能无法访问的结果已被隐去。
显示无法访问的结果