transformer - 搜索 News

重磅论文！何恺明、Yann LeCun等改造Transformer，CVPR 2025已收录

“残差神经网络发明人”、麻省理工学院副教授何恺明与图灵奖得主、“卷积网络之父”Yann LeCun的最新合作论文提出“无需归一化的Transformer”，目前已入选CVPR 2025，该发现有望进一步改进AI模型性能，给开发者们带来新思路。

知乎专栏 on MSN4 天

何恺明LeCun暴击Transformer命门，9行代码砍掉归一化层！性能反而更强了？

编辑：编辑部 ZYJ 【新智元导读】Transformer架构迎来历史性突破！刚刚，何恺明LeCun、清华姚班刘壮联手，用9行代码砍掉了Transformer「标配」归一化层，创造了性能不减反增的奇迹。

腾讯网1 小时

湖南95后女博士，力挑谷歌，要造思考时“不发烧”的AI

作者丨黎晓梅编辑丨刘恒涛一个馒头的热量(约20瓦)，就能完成需要上万瓦电力的运算？这是陆兮科技冲击的目标。陆兮科技在2023年由两位95后女性创立，是国内首家“类脑计算生态链”企业。2024年，陆兮科技推出了首个非Transformer架构、采用类脑 ...

19 天

MIT三人团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍

论文第四章试图解释 Transformer 是如何工作的，并从两个角度来实现这一目标。首先，他们建立了关于 Transformer 在解决经验贝叶斯任务中的表达能力的理论结果。其次，他们使用线性探针来研究 Transformer 的预测机制。

3 天

AI进化论：对话Google首席科学家Jeff Dean与Transformer之父，解密下一代AI ...

近日，Google首席科学家Jeff Dean与Transformer架构发明者Noam ...

5 天

没有归一化层的Transformer！刘壮带队，何恺明、Yann LeCun都参与了

过去十年，归一化层已经巩固了其作为现代神经网络最基本组件之一的地位。这一切可以追溯到 2015 年批归一化（batch ...

生物通12 小时

新的人工智能模型在同类研究中以高精度分析了整个晚上的睡眠

伊坎医学院（Icahn School of Medicine）的研究人员开发了一种强大的人工智能工具，该工具基于ChatGPT等大型语言模型使用的相同转换器架构，可以处理整个晚上的睡眠。迄今为止，这是规模最大的研究之一，分析了1,011,192小时的睡眠。研究结果的详细内容发表在3月13日的《睡眠》杂志 ...

9 天

优于o1预览版，推理阶段KV缓存缩减一半，LightTransfer降本还能增效

LLM 在生成 long CoT 方面展现出惊人的能力，例如 o1 已能生成长度高达 100K tokens 的序列。然而，这也给 KV cache 的存储带来了严峻挑战。为应对这一难题，“hybrid model” ...

8 天

腾讯发布Hunyuan-TurboS：首款超大型混合Transformer-Mamba MoE模型震撼登场

今日，腾讯在X平台上正式宣布推出其最新 AI模型Hunyuan-TurboS，这款被誉为“ 首款超大型Hybrid-Transformer-Mamba ...

生物通2 天

基于 Transformer 的棉花器官点云分割及表型测量新方法

在这项研究中，研究人员用到了多个关键技术方法。首先是多视图图像采集技术，通过从不同角度拍摄棉花植株，获取丰富的图像信息。然后利用运动恢复结构（Structure from Motion，SfM）技术进行 3D 重建，构建出棉花植株的点云数据集。在点云处理方面，引入 Transformer 注意力模块到 PointNet++ 模型中，形成 TPointNetPlus 网络进行语义分割，最后使用 ...

36氪23 天

谷歌AI掌门人Jeff Dean对话Transformer作者：AI提速300%，1000万倍工程师要来了

Jeff Dean与Noam Shazeer畅谈AI发展、低精度计算及未来挑战。谷歌首席科学家Jeff Dean与Transformer作者Noam Shazeer在一场访谈中不仅揭秘了让模型速度提升三 ...

当前正在显示可能无法访问的结果。

隐藏无法访问的结果