资讯

导语:本文研究了模型中所有层级的稀疏变量,并提出了-Scaling Transformers。 大型模型在许多任务上都产生了令人印象深刻的结果,但是训练和微调的 ...
该工作第一作者为蚂蚁技术研究院副研究员胡翔,蚂蚁技术研究院高级研究员武威为通讯作者。在大语言模型如火如荼的当下,长文本建模仍然是一个极具挑战的问题。纠其根源,一方面在于主流 LLMs 的架构 Transformers ...
本文介绍了一种名为「嫁接」的技术,用于在小计算预算下通过编辑预训练 Diffusion Transformers(简称 DiTs)来探索新的模型架构设计。这种方法允许研究者在不从头开始训练模型的情况下,通过替换模型中的某些算子(如 ...
在人工智能和深度学习领域,模型架构的设计一直是一个关键因素。近期,斯坦福大学的李飞飞团队和LiquidAI等机构的研究者们提出了一种名为“嫁接”的新技术,旨在通过编辑预训练的Diffusion ...
大数据文摘受权转载自数据派THU 作者:Fareed Khan 翻译:赵鉴开 校对:赵茹萱 Transformer架构可能看起来很恐怖,您也可能在YouTube或博客中看到了各种 ...
2025年6月1日,由Skywork AI团队发布的最新研究论文《SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion ...
这篇文章有何恺明和杨立昆两位大佬坐镇,不由得让人重视。核心发现是:Transformer可以在不使用任何归一化层的情况下,通过简单的Dynamic Tanh(DyT ...