资讯

【城主说】即日起,天空之城和大家日常分享最新AI科技长访的内容精读合集。感谢科技的进步,每一个长篇访谈都可以有万字全文,但或许更稀缺的是时间。希望本城日常精读可以帮助大家在最有限时间里掌握最新的科技商业认知。同时附上完整视频和全文的链接,感兴趣的同学 ...
Liquid AI近日在国际学习表示会议(ICLR)2025前发布了新款模型 “Hyena Edge”。这是一款基于卷积的多混合模型,旨在为智能手机及其他边缘设备提供更高效的人工智能解决方案。该公司成立于波士顿,源自麻省理工学院 (MIT),致力于超越目前大多数大型语言模型 (LLM)所依赖的 Transformer 架构。
【新智元导读】LLM的规模爆炸式增长,传统量化技术虽能压缩模型,却以牺牲精度为代价。莱斯大学团队的最新研究DFloat11打破这一僵局:它将模型压缩30%且输出与原始模型逐位一致!更惊艳的是,通过针对GPU的定制化解压缩内核,DFloat11使推理吞 ...
近年来,大语言模型(LLM)在人工智能领域取得了突破性进展,成为推动自然语言处理技术发展与通用人工智能实现的核心力量。上下文学习能力(In-Context Learning, ICL)是 LLM 最显著且重要的能力之一,它允许 LLM ...
这使得包括谷歌在内的一些科技巨头落后了。2017 年,谷歌发表了一篇关于支撑大型语言模型的 transformer 架构的突破性研究论文,但该公司往往因其在 2023 年推出的拙劣产品而被人们记住,而不是其创新的人工智能研究。
其实从本质上看,具身智能指的是“有身体的智能”,其核心在于智能决策与物理世界的深度融合。人形机器人之所以成为当前最受关注的具身智能形态,主要因为它们契合人类社会的环境需求——建筑、工具、交互方式,几乎所有基础设施都围绕人类身体设计。从适配性的角度来看,人形机器人无疑具有天然优势。因此,不止英伟达、特斯拉,OpenAI 也在今年首次开放机器人硬件相关职位招聘,苹果、Meta ...
设计高效和有效的架构骨干,一直是增强基础模型能力的核心研究方向。受注意力偏差这一人类认知现象的启发——优先考虑某些事件或刺激的自然倾向—— Google Research 团队将神经架构(包括 Transformers、Titans 和现代线性递归神经网络)重新概念化为关联记忆模块,通过内部目标(即注意力偏差)学习键值映射。
图2:预训练的OLMo-2-32B模型通过自我反思正确预测程序输入。OLMo-2拥有320亿参数、经4.8万亿token预训练,最初直接重复Python函数f的输出「avdropj ...
西风 发自 凹非寺量子位 | 公众号 QbitAI 微软以小搏大,发布首个开源2B参数规模“原生1bit”LLM—— BitNet b1.58 2B4T,单CPU就能跑,性能与同规模全精度开源模型相当。 它采用三进制{-1, 0, ...