transformers - 搜索 News

资讯

导语：本文研究了模型中所有层级的稀疏变量，并提出了-Scaling Transformers。大型模型在许多任务上都产生了令人印象深刻的结果，但是训练和微调的 ...

该工作第一作者为蚂蚁技术研究院副研究员胡翔，蚂蚁技术研究院高级研究员武威为通讯作者。在大语言模型如火如荼的当下，长文本建模仍然是一个极具挑战的问题。纠其根源，一方面在于主流 LLMs 的架构 Transformers ...

10 天

本文介绍了一种名为「嫁接」的技术，用于在小计算预算下通过编辑预训练 Diffusion Transformers（简称 DiTs）来探索新的模型架构设计。这种方法允许研究者在不从头开始训练模型的情况下，通过替换模型中的某些算子（如 ...

9 天

在人工智能和深度学习领域，模型架构的设计一直是一个关键因素。近期，斯坦福大学的李飞飞团队和LiquidAI等机构的研究者们提出了一种名为“嫁接”的新技术，旨在通过编辑预训练的Diffusion ...

大数据文摘受权转载自数据派THU 作者：Fareed Khan 翻译：赵鉴开校对：赵茹萱 Transformer架构可能看起来很恐怖，您也可能在YouTube或博客中看到了各种 ...

科技行者 on MSN9 天

2025年6月1日，由Skywork AI团队发布的最新研究论文《SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion ...

来自MSN2月

这篇文章有何恺明和杨立昆两位大佬坐镇，不由得让人重视。核心发现是：Transformer可以在不使用任何归一化层的情况下，通过简单的Dynamic Tanh（DyT ...

一些您可能无法访问的结果已被隐去。