News

该论文第一作者为北京大学计算机学院硕士生袁境阳(北京大学,导师为张铭教授),合作者包括高华佐(DeepSeek),代达劢(DeepSeek),罗钧宇(北京大学)、肖之屏(华盛顿大学)等。
在2021年,研究人员描述了寻找能最大程度激活BERT模型中单个目标神经元的句子,最初发现了一个令人信服的模式。但当使用不同的数据集时,该模式消失,同一神经元对完全不同类型的句子反应最强烈。
近些年,多模态大语言模型(MLLMs)在视觉问答、推理以及 OCR 等任务上取得了显著的成功。然而,早期的 MLLMs 通常采用固定的分辨率(例如 LLaVA-v1.5 将输入图像缩放为),对于输入图像为高分辨率图像(例如 8K ...
现有方案硬生生将图像网格化为空间 token,强行塞入自回归架构。这像极了 NLP 早期用 CNN 建模语言的弯路 —— 当视觉表达被空间局部性束缚,因果链被切割得支离破碎,如何能真正拥抱 AR 的本质?
ChatGPT悄悄上线的直连Github新功能太强大!一旦连上Github,立马化身「研究怪兽」:不管是DeepSeek这样的明星开源项目,还是自己DIY的文档资料,只要放进仓库,就能交给深度研究,一键生成专业到飞起的报告。
他是OpenAI在多智能体推理领域的研究人员,以共同开发出首个超越人类水平的无限注德州扑克AI,以及首个达到人类水平的策略游戏《外交官》(Diplomacy)AI而闻名。
在当前大模型推理愈发复杂的时代,如何快速、高效地产生超长文本,成为了模型部署与优化中的一大核心挑战。随着 GPT-o3, DeepSeek R1 等具备 「超级上下文窗口」 能力的大模型持续刷新业界记录,百万甚至千万 Token ...
在红杉AI峰会上,奥特曼畅谈了AI未来:2025年智能体开始实用、2026年推动科学发现、2027年机器人进入现实世界。他回顾了OpenAI成果从实验室到ChatGPT的演进,并提出「核心AI订阅」愿景。
Nick Huber表示,这些推理模型别看还在发展初期,但解决复杂问题的能力特别强,给出的答案也更准确。那些喜欢尝鲜的用户发现了它的好处,就算用的时候成本高一点、花的时间长一点,他们也愿意,就为了能得到更好的结果。
这就是为什么说服CFO加大对网络安全投资以减轻此类威胁变得困难的原因。通常,这种对话充满了挫败感、误解和沟通不畅。虽然CISO将网络安全视为对迫在眉睫威胁的必要防护,但CFO寻求的是可衡量的回报和切实的结果,这使得双方都难以找到共同点。
对此,Meta高管Dave Arnold立即辟谣,80%员工逃离的消息不准确。他还特别强调,这些离职的仅是发表Llama 1团队的人,并非后续的团队。
其实,在撤稿事件发生前,这些关于AI复杂影响的“细致”观察,或许在一定程度上增加了论文的可信度,毕竟它似乎触及了技术影响下的多方面现实。但如今,支撑这些结论的研究基础遭到了否定,这无疑为整个事件增添了更多值得深思的层面。