“残差神经网络发明人”、麻省理工学院副教授何恺明与图灵奖得主、“卷积网络之父”Yann LeCun的最新合作论文提出“无需归一化的Transformer”,目前已入选CVPR 2025,该发现有望进一步改进AI模型性能,给开发者们带来新思路。
编辑:编辑部 ZYJ 【新智元导读】Transformer架构迎来历史性突破!刚刚,何恺明LeCun、清华姚班刘壮联手,用9行代码砍掉了Transformer「标配」归一化层,创造了性能不减反增的奇迹。
作者丨黎晓梅编辑丨刘恒涛一个馒头的热量(约20瓦),就能完成需要上万瓦电力的运算?这是陆兮科技冲击的目标。陆兮科技在2023年由两位95后女性创立,是国内首家“类脑计算生态链”企业。2024年,陆兮科技推出了首个非Transformer架构、采用类脑 ...
论文第四章试图解释 Transformer 是如何工作的,并从两个角度来实现这一目标。首先,他们建立了关于 Transformer 在解决经验贝叶斯任务中的表达能力的理论结果。其次,他们使用线性探针来研究 Transformer 的预测机制。
近日,Google首席科学家Jeff Dean与Transformer架构发明者Noam ...
过去十年,归一化层已经巩固了其作为现代神经网络最基本组件之一的地位。这一切可以追溯到 2015 年批归一化(batch ...
伊坎医学院(Icahn School of Medicine)的研究人员开发了一种强大的人工智能工具,该工具基于ChatGPT等大型语言模型使用的相同转换器架构,可以处理整个晚上的睡眠。迄今为止,这是规模最大的研究之一,分析了1,011,192小时的睡眠。研究结果的详细内容发表在3月13日的《睡眠》杂志 ...
LLM 在生成 long CoT 方面展现出惊人的能力,例如 o1 已能生成长度高达 100K tokens 的序列。然而,这也给 KV cache 的存储带来了严峻挑战。为应对这一难题,“hybrid model” ...
今日,腾讯在X平台上正式宣布推出其 最新 AI模型Hunyuan-TurboS,这款被誉为“ 首款 超大型Hybrid-Transformer-Mamba ...
在这项研究中,研究人员用到了多个关键技术方法。首先是多视图图像采集技术,通过从不同角度拍摄棉花植株,获取丰富的图像信息。然后利用运动恢复结构(Structure from Motion,SfM)技术进行 3D 重建,构建出棉花植株的点云数据集。在点云处理方面,引入 Transformer 注意力模块到 PointNet++ 模型中,形成 TPointNetPlus 网络进行语义分割,最后使用 ...
Jeff Dean与Noam Shazeer畅谈AI发展、低精度计算及未来挑战。 谷歌首席科学家Jeff Dean与Transformer作者Noam Shazeer在一场访谈中不仅揭秘了让模型速度提升三 ...