资讯

盖世汽车讯 5月28日,人工智能(AI)公司赛轮思(Cerence AI)宣布与Arm建立战略合作伙伴关系,Cerence AI将利用Arm的综合软件库Arm® Kleidi™,提升其嵌入式小语言模型(SLM)CaLLM™ Edge的功能和性能。
点击上方“Deephub Imba”,关注公众号,好文章不错过 !在使用 OpenAI、Claude、Gemini 等大语言模型 API ...
然而,模型参数量(如DeepseekR1的671B参数)和上下文窗口的急剧膨胀,带来了巨大的计算力(GPT-3训练约需3640Petaflop/s-days)、能源消耗和资金投入(GPT-3训练成本估计超460万美元)。
针对提升LLM推理能力面临的挑战,斯坦福大学研究人员提出了“思考、修剪、训练”(TPT)框架,让LLM利用自生成且验证正确的数据迭代优化。研究表明,无需强化学习、大型数据集或外部教师模型,TPT可以使较小模型推理性能媲美甚至超越大模型,凸显了TPT框 ...
Claude 团队来搞开源了 —— 推出“电路追踪”(circuit tracing)工具 ,可以帮大伙儿读懂大模型的“脑回路”,追踪其思维过程。 该工具的核心在于生成 归因图 (attribution graphs),其作用类似于大脑的神经网络示意图,通过可视化模型内部超节点及其连接关系,呈现 LLM 处理信息的路径。
Llama3.1-8B-Instruct在错误奖励在提升仅1.3%,而随机奖励性能暴减4.9%。 然而,这种频繁且高质量的代码推理能力在其他模型中并不存在。在应用RLVR后,无论奖励质量如何,Qwen-Math 的代码推理频率平均增加到超过90%。
来自南开大学和伊利诺伊大学厄巴纳-香槟分校的研究人员深入剖析了这些效率瓶颈,并提出了一套名为SearchAgent-X的高效推理框架。 AI越来越聪明,但如果它们反应慢,效率低,也难以满足我们的需求。
相比之下, GPT-o1 在 CalendarQA 任务中表现突出, 准确率达到80% ,展现出其在日期运算和逻辑推理方面的强大能力。其他模型则明显落后,表明日期计算和结构化布局解析仍然是AI面临的难点。
在使用标准 GRPO 裁剪的情况下,随机奖励为 Qwen2.5-Math-7B 带来了约 21% 的性能提升,并增加了代码推理模式。但是,当我们通过上述三种方法中的任何一种消除裁剪效应时,随机奖励并未带来任何改善。
全球开源解决方案 领导者 红帽公司近日宣布启动革命性开源项目llm-d,专门应对生成式AI大规模推理的迫切需求。该项目汇聚了CoreWeave、Google Cloud、IBM ...
华人研究者解决LLM过度思考,提升推理效率。 大模型虽然推理能力增强,却常常「想太多」,回答简单问题也冗长复杂。Rice大学的华人研究者提出 ...