arXiv—— - 搜索 News

资讯

科技行者 on MSN7 小时

为了填补这一研究空白，研究团队开发了Open CaptchaWorld，这是首个专门设计用于测试多模态智能体解决验证码能力的网络平台。这个平台包含20种现代验证码类型，总计225个验证码样本，涵盖了拖拽式、序列点击、滑块对齐和计数式等多种验证码形式。

科技行者 on MSN1 天

SridBench作为首个专门评估科研插图绘制能力的基准测试，不仅提供了宝贵的数据资源，也建立了多维度的评估协议，为未来的研究提供了系统比较的基础。随着AI技术的不断发展，我们有理由相信，未来的图像生成模型将能更好地理解科学文本，生成更准确、更专业的 ...

科技行者 on MSN8 小时

NVIDIA研究团队的Mingjie Liu、Shizhe Diao、Ximing Lu、Jian Hu、Xin Dong、Yejin Choi、Jan Kautz和Yi Dong在2025年5月30日发表了一篇名为《ProRL: Prolonged ...

科技行者 on MSN7 小时

在人工智能和计算机视觉领域，一种名为CLIP（对比语言-图像预训练）的模型近年来取得了巨大成功，成为了许多视觉和多模态任务的基础。然而，最近的研究表明，CLIP在区分图像中的细节差异方面存在不足，在密集预测和以视觉为中心的多模态任务上表现不佳。针对这 ...

研究者们特别设计了一种基于注意力的融合策略，根据模型对不同模态内容的关注程度动态调整它们的权重。这就像一个平衡器，确保即使模型原本更"喜欢"看视频，也能被"说服"去认真倾听音频内容。

1 天

早在 2003 年，AI 先驱、LSTM 之父 Jürgen Schmidhuber 就提出过一种名为「哥德尔机（Gödel ...

科技行者 on MSN1 天

在视频内容创作成为当下热门趋势的背景下，来自字节跳动智能创作团队的研究者们带来了一项突破性的技术——MAGREF（Masked Guidance for Any-Reference Video ...

科技行者 on MSN1 天

在人工智能领域，特别是大语言模型的训练与优化上，一项重要的研究成果于2025年5月29日由微软研究院的研究团队发布在arXiv预印本平台上。这项名为《基于最优奖励基线的在策略强化学习》(On-Policy RL with Optimal Reward ...

传统的基准测试类似于让AI解决小型编程谜题或修复简单错误。而GSO则是让AI面对真实世界的大型代码库，完成专业开发者在实际工作中遇到的性能优化任务。这就像是从"在厨房做简单的三明治"升级到"在繁忙的五星级餐厅准备复杂的多道菜宴会"。

10 小时

4、对比分析详尽：对OpenAI-o3、GPT-4o、Claude-3.7、Gemini2.5-Pro等模型进行系统评估；人类解题成功率高达93.3%，最强模型OpenAI-o3仅为40.0%；并从策略偏差、视觉错误、执行失败等维度剖析失败原因。

5 天

腾讯研究院院长司晓在第15届中国（深圳）国际文化产业博览交易会上发表演讲，指出大模型技术正推动文化内容生产从"专业主导"转向"全民共创"。大模型已从工具赋能升级为生态重构，显著提升内容生产效率和质量，如腾讯混元模型支持实时图像生成与调整。AI技术加速 ...

一些您可能无法访问的结果已被隐去。