资讯

MMSI-Bench的研究不仅是对当前AI空间推理能力的一次全面评估,也为我们思考AI未来发展提供了一个窗口。空间智能是人类认知的基础能力之一,它使我们能够在物理世界中有效导航和互动。随着AI系统越来越多地融入我们的日常生活,无论是家用机器人、智能助 ...
2025年5月29日,微软和上海人工智能实验室的研究团队联合发布了一篇重要论文《SWE-bench Goes Live!》(arXiv:2505.23419v1)。这项由微软实习生Linghao Zhang和对应作者Shilin ...
markdown 来自浙江大学、电子科技大学和香港中文大学的研究团队,于2025年5月发布了 ViewSpatial-Bench ...
榜单显示,大模型不仅总体正确率只有 15% ,在9×9的现代数独中,即使是高性能模型 o3 Mini High ,正确率也只有2.9%。 Sudoku-Bench项目在 2025NVIDIA GTC 开发者大会上进行了展示。
ViewSpatial-Bench和MVSM的提出不仅为多模态模型的空间理解能力提供了系统评估工具,也首次在数据和训练范式上重构了“视角采择”这一关键人类认知能力的建模方式。
加州大学洛杉矶分校(UCLA)与谷歌研究院的研究团队带来了最新进展: 3DLLM-MEM 模型与 3DMEM-BENCH 基准,让AI首次具备在复杂3D环境中构建、维护和利用长时记忆的能力。
在人工智能的快速发展中,空间推理能力的提升已成为各大研究机构和企业关注的焦点。最近,由浙江大学、电子科技大学和香港中文大学的研究团队联合推出的ViewSpatial-Bench,为视觉语言模型(VLMs)的空间理解能力设定了新的评估基准,这一进展引发了广泛的讨论和关注。\n\n### 视觉语言模型的挑战\n提到视觉语言模型,大家可能首先想到的是GPT-4o、Gemini2.0等先进的AI系统。然而 ...
过去的 AI 模型往往只能维持几分钟的“注意力”,而 Opus 4 的表现意味着,AI ...
近日,来自加州大学圣地亚哥分校、MBZUAI和加州大学伯克利分校的研究团队联合发表了一项有趣的研究:LMGAME-BENCH。这项研究由Lanxiang Hu和Mingjia Huo领衔,并得到了Eric P. Xing、Ion ...
快科技4月10日消息,今日,字节跳动豆包大模型团队宣布,正式开源首个多语言类SWE数据集——Multi-SWE-bench,可用于评估和提升大模型“自动修 Bug ...
IT之家 4月10日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集Multi-SWE-bench现已正式开源,可用于评估和提升大模型“自动 ...
Alphabet旗下谷歌公司援引美国第七修正案的权利,要求由法官审理(bench trial)美国多个州发起的广告科技反垄断诉讼。谷歌公司反对由陪审团审理 ...