BENCH - 搜索 News

资讯

MMSI-Bench：上海人工智能实验室打造的多图像空间智能新基准，揭示AI ...

MMSI-Bench的研究不仅是对当前AI空间推理能力的一次全面评估，也为我们思考AI未来发展提供了一个窗口。空间智能是人类认知的基础能力之一，它使我们能够在物理世界中有效导航和互动。随着AI系统越来越多地融入我们的日常生活，无论是家用机器人、智能助 ...

腾讯网1 天

SWE-bench直播上线！微软携手上海人工智能实验室推出实时更新的代码 ...

2025年5月29日，微软和上海人工智能实验室的研究团队联合发布了一篇重要论文《SWE-bench Goes Live!》（arXiv:2505.23419v1）。这项由微软实习生Linghao Zhang和对应作者Shilin ...

2 天

5700问答对拷问AI空间感：浙大等机构发布空间智能评测基准

markdown 来自浙江大学、电子科技大学和香港中文大学的研究团队，于2025年5月发布了 ViewSpatial-Bench ...

5 天

大模型玩不好数独？Transformer作者初创公司公布排行榜：o3 Mini High ...

榜单显示，大模型不仅总体正确率只有 15% ，在9×9的现代数独中，即使是高性能模型 o3 Mini High ，正确率也只有2.9%。 Sudoku-Bench项目在 2025NVIDIA GTC 开发者大会上进行了展示。

2 天

5700问答对全面评估拷问AI空间感！最新空间智能评测基准来了丨浙大 ...

ViewSpatial-Bench和MVSM的提出不仅为多模态模型的空间理解能力提供了系统评估工具，也首次在数据和训练范式上重构了“视角采择”这一关键人类认知能力的建模方式。

12 小时

让AI像人类一样认知真实世界！UCLA谷歌强强联手，长时记忆+3D空间 ...

加州大学洛杉矶分校（UCLA）与谷歌研究院的研究团队带来了最新进展： 3DLLM-MEM 模型与 3DMEM-BENCH 基准，让AI首次具备在复杂3D环境中构建、维护和利用长时记忆的能力。

2 天

5700问答引领AI空间智能评测新纪元！浙大等高校联手突破视觉语言 ...

在人工智能的快速发展中，空间推理能力的提升已成为各大研究机构和企业关注的焦点。最近，由浙江大学、电子科技大学和香港中文大学的研究团队联合推出的ViewSpatial-Bench，为视觉语言模型（VLMs）的空间理解能力设定了新的评估基准，这一进展引发了广泛的讨论和关注。\n\n### 视觉语言模型的挑战\n提到视觉语言模型，大家可能首先想到的是GPT-4o、Gemini2.0等先进的AI系统。然而 ...

12 天on MSN

超越OpenAI？Claude4大模型能连续工作7小时，创SWE-Bench得分纪录

过去的 AI 模型往往只能维持几分钟的“注意力”，而 Opus 4 的表现意味着，AI ...

科技行者 on MSN8 天

游戏测试揭秘：大语言模型玩游戏到底有多厉害？——加州大学 ...

近日，来自加州大学圣地亚哥分校、MBZUAI和加州大学伯克利分校的研究团队联合发表了一项有趣的研究：LMGAME-BENCH。这项研究由Lanxiang Hu和Mingjia Huo领衔，并得到了Eric P. Xing、Ion ...

快科技1 个月

提升大模型自动修Bug能力豆包正式开源首个多语言类SWE数据集

快科技4月10日消息，今日，字节跳动豆包大模型团队宣布，正式开源首个多语言类SWE数据集——Multi-SWE-bench，可用于评估和提升大模型“自动修 Bug ...

凤凰网1 个月

大模型“自动修bug”能力将提升，豆包团队开源首个多语言代码修复 ...

IT之家 4月10日消息，豆包大模型团队今日通过官方公众号宣布，首个多语言类 SWE 数据集Multi-SWE-bench现已正式开源，可用于评估和提升大模型“自动 ...

来自MSN6 个月

Alphabet旗下谷歌公司援引美国第七修正案的权利，要求由法官审理 ...

Alphabet旗下谷歌公司援引美国第七修正案的权利，要求由法官审理（bench trial）美国多个州发起的广告科技反垄断诉讼。谷歌公司反对由陪审团审理 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果