资讯
MiniMax-M1采用了一种叫做"闪电注意力"的创新机制,这就像是给AI的大脑装上了一个高效的信息处理器。传统的注意力机制在处理长文本时,计算量会呈平方式增长——处理1000个词需要的计算量是处理100个词的100倍。而闪电注意力则实现了近似线性增 ...
MiniMax团队最近发布的M1模型改变了这个局面。他们创造了世界上第一个开源的大规模混合注意力推理模型,能够让AI在进行长达8万个token(相当于约6万个中文字符)的深度思考时,仍然保持极高的运行效率。而且M1模型支持处理100万个token的超 ...
在上文中,我们发现了一个重要的原则:通向超级智能的最佳路径在于文本数据。 换句话说,AGI很可能就是LLM,或根本不存在。
以色列数据安全初创公司Cyera于近日宣布完成5.4亿美元的E轮融资,这使得其总融资额超过13亿美元,投后估值达到60亿美元。相较2024年11月D轮融资的30亿美元估值,Cyera在6个月左右的时间内就实现了估值翻倍。此轮融资由Lightspeed ...
本文介绍了一种名为「嫁接」的技术,用于在小计算预算下通过编辑预训练 Diffusion Transformers(简称 DiTs)来探索新的模型架构设计。这种方法允许研究者在不从头开始训练模型的情况下,通过替换模型中的某些算子(如 ...
该工作第一作者为蚂蚁技术研究院副研究员胡翔,蚂蚁技术研究院高级研究员武威为通讯作者。在大语言模型如火如荼的当下,长文本建模仍然是一个极具挑战的问题。纠其根源,一方面在于主流 LLMs 的架构 Transformers ...
9 天
科技行者 on MSNSkyReels-Audio:让肖像“动”起来 - Skywork AI开创全能音频驱动的人像 ...2025年6月1日,由Skywork AI团队发布的最新研究论文《SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion ...
不是顶会论文,也没有发在 arXiv 上,甚至连“正式发表”都称不上——但就是这样的一篇纯博客文章,却让一名研究员成功拿到了 OpenAI 的 Offer,甚至据说这篇博客的技术还被用于 GPT-5 的训练工作。
不过,这篇论文的研究方法也受到了不少质疑,比如我们的一位读者就认为「给数学题题干加无关内容,发现大模型更容易答错,而质疑大模型不会推理」的做法并不十分合理。
人类从农耕时代到工业时代花了数千年,从工业时代到信息时代又花了两百多年,而 LLM 仅出现不到十年,就已将曾经遥不可及的人工智能能力普及给大众,让全球数亿人能够通过自然语言进行创作、编程和推理。
11 天
科技行者 on MSN对角线批处理技术:突破循环记忆Transformer模型在长上下文处理中的 ...近日,来自俄罗斯AIRI、Skoltech、MIPT和MBZUAI等研究机构的研究团队发表了一项重要研究成果,由Danil Sivtsov、Ivan Rodkin、Gleb Kuzmin、Yuri Kuratov和Ivan ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果