资讯

DeepSeek在MoE和MLA方面的突破,标志着大规模LLM在边缘部署方式的根本性转变。通过优化计算和内存需求,这些创新为边缘AI应用开辟了新的可能性。移动和可穿戴设备上增强型实时AI助手、L4和L5自动驾驶、具有低延迟推理的更智能工业自动化,以及 ...
LeCun 团队的核心发现 指出,虽然 LLM 在粗粒度的概念分类任务上表现出色,例如识别“鸟类”或“家具”,但它们在理解细粒度语义,如“知更鸟”比“企鹅”更像鸟类等问题上,却显得力不从心。 这与人类的认知方式存在本质差异,人类能够通过 上下文 、 ...
然后,他们就得出了一个关键的洞察:衡量每个token的分布距离均匀分布有多远。KL散度KL (U‖P) ,可以量化模型在预测每个token时的「自信程度」。可以将这一度量称为「自我确定性」。
LLM自动化革新了人机交互模式,但其技术成熟度和安全性局限使其短期内难以取代UI自动化。未来,企业需根据场景需求选择技术组合:LLM用于敏捷、低代码的灵活需求,UI自动化确保核心流程的精准与安全 ...
人类的思维是非透明的,没有继承的记忆,因此需要通过语言交流的环境来学习。人类的知识传递长期依赖符号语言:从文字、数学公式到编程代码,我们通过符号系统将知识编码、解码。但这种方式存在天然瓶颈,比如信息冗余、效率低下等。
SPARCOM框架是这项研究的核心创新,它提供了一种系统化的方法来分析LLM内部的稀疏组件。这个框架就像是一台特殊的显微镜,能够让研究人员透视LLM的"大脑",观察它在处理不同指令时的内部活动。
BARL团队 投稿量子位 | 公众号 QbitAI 推理模型常常表现出类似自我反思的行为,但问题是—— 这些行为是否真的能有效探索新策略呢? 对此,西北大学与Google、谷歌DeepMind团队质疑了传统强化学习与反思的关系,并提出了贝叶斯自适应的强化学习方法,首次解释了为什么、如何、以及何时应该反思并探索新策略。 通过对比分别使用传统强化学习和新方法训练的模型,研究人员发现: 在完成“模型需要 ...
早在 2003 年,AI 先驱、LSTM 之父 Jürgen Schmidhuber 就提出过一种名为「哥德尔机(Gödel ...
全球开源解决方案 领导者 红帽公司近日宣布启动革命性开源项目llm-d,专门应对生成式AI大规模推理的迫切需求。该项目汇聚了CoreWeave、Google Cloud、IBM ...
华人研究者解决LLM过度思考,提升推理效率。 大模型虽然推理能力增强,却常常「想太多」,回答简单问题也冗长复杂。Rice大学的华人研究者提出 ...
Claude 团队来搞开源了 —— 推出“电路追踪”(circuit tracing)工具 ,可以帮大伙儿读懂大模型的“脑回路”,追踪其思维过程。 该工具的核心在于生成 归因图 (attribution graphs),其作用类似于大脑的神经网络示意图,通过可视化模型内部超节点及其连接关系,呈现 LLM 处理信息的路径。
【导读】来自UIUC等大学的华人团队,从LLM的基础机制出发,揭示、预测并减少幻觉!通过实验,研究人员揭示了LLM的知识如何相互影响,总结了幻觉 ...