资讯

智东西(公众号:zhidxcom)编译 | 王涵编辑 | ...
“在一次长谈中,导师向我描绘了未来科研的场景:将来科学家只需抛出假设,背后成百上千个 AI Agents 会在几分钟内设计并完成实验。要想抵达那个未来,首先得有一把可靠的‘尺子’去衡量大模型能否把一个研究想法成功转化为实验代码,而这便是我们做 ...
最近,麻省理工学院计算机科学与人工智能实验室(MIT CS AI L)的研究团队发表了一项令人瞩目的研究成果,这项研究将改变我们对软件调试的传统认知。这篇题为《基于大语言模型的自动化程序调试框架》的 论文发表 在2024年的顶级会议ACM ...
在七项系统综述中,otto-SR数据提取智能体的平均加权准确率高达93.1%(区间91.1-97.0%),显著优于双人评审组(79.7% [69.1-91.0%])和Elicit(74.8% [58.8-83.1%])。
首先 ,SSA损害了LRMs中面向安全的推理的可靠性,因为看似正确的响应可能源于根本上错误的推理过程。这种情况下的安全回复是不稳定的,尤其是在采用多次采样时。 此外,研究人员认为SSA这一现象的出现,是由于在推理模型的对齐训练过程中广泛使用了安全相关数据,这些数据可能与开源基准数据集中的样本表现出一定程度的相似性。
在2025年5月26日,一个由丹麦奥尔堡大学的马传涛和阿里吉特·汗,中国东南大学的陈永瑞和吴天星,以及中国同济大学的王浩芬组成的国际研究团队,在arXiv预印本平台发表了一篇题为《大语言模型遇上知识图谱的问答系统:综合与机遇》(Large ...
Palisade Research认为,o3模型的行为可能是为了“规避障碍以达成目标”。该公司表示,“人工智能模型会绕过障碍以实现目标”是有道理的。然而,它推测在训练过程中,该软件可能“无意中”因解决数学问题而获得更多的奖励,而不是遵循命令。 据报道 ...
IT之家5 月 27 日消息,微软研究院发文宣布开源旗下 Aurora AI 气象预报模型,该模型结合深度学习与大规模异构数据处理技术,不仅能精准预测天气,还可以在微调后应用到洋流、空气质量等多种自然环境监测领域。 根据微软团队发表在《Nature》期刊的论文 ...
IT之家5 月 27 日消息,阿里通义千问 Qwen 团队昨日(5 月 26 日)发布 QwenLong-L1-32B 模型,是其首个通过强化学习训练的长文本情境推理模型(LRM)。 在七个长文本 DocQA 基准测试中,表现超越 o3-mini 和 Qwen3-235B-A22B 等旗舰模型,与 Claude-3.7-Sonnet-Thinking 相当。
英国《每日电讯报》25日报道,美国开放人工智能研究中心(OpenAI)新款人工智能(AI)模型o3不听人类指令,拒绝自我关闭。 报道说,人类专家在 ...
在2025年5月21日发表于arXiv的一篇最新研究论文中,来自南洋理工大学、耶鲁大学、上海纽约大学以及新加坡阿里巴巴-南洋理工联合研究所的研究团队,包括Siyue Zhang、Yilun Zhao、Liyuan Geng、Arman Cohan、Anh Tuan Luu和Chen ...
本文系统综述挤压综合征(CS)研究进展,聚焦实验模型构建(动物选择、压缩参数、装置设计)及新兴疗法(气体分子干预、干细胞治疗、化学药物靶向、生物制剂免疫调节),为机制研究与临床转化提供多维理论参考。 挤压综合征(CS)是一种严重肌肉损伤 ...