资讯
7 小时
科技行者 on MSN开放式验证码:解读MBZUAI团队多模态LLM智能体测试平台为了填补这一研究空白,研究团队开发了Open CaptchaWorld,这是首个专门设计用于测试多模态智能体解决验证码能力的网络平台。这个平台包含20种现代验证码类型,总计225个验证码样本,涵盖了拖拽式、序列点击、滑块对齐和计数式等多种验证码形式。
7 小时
科技行者 on MSN亚马逊Nova团队利用AI代理协作创建高质量策略链式思维数据2025年5月,亚马逊Nova责任AI团队和亚利桑那州立大学的研究人员在一篇引人注目的论文中,提出了一种全新的方法来解决语言模型安全问题。这篇题为《走向语言模型中的安全推理:基于AI代理协作的策略嵌入式链式思维数据创建》的研究由Tharindu ...
6 小时
科技行者 on MSN持久强化学习让大语言模型突破推理边界:NVIDIA研究团队解锁新型 ...NVIDIA研究团队的Mingjie Liu、Shizhe Diao、Ximing Lu、Jian Hu、Xin Dong、Yejin Choi、Jan Kautz和Yi Dong在2025年5月30日发表了一篇名为《ProRL: Prolonged ...
就像我们人类不会对每个问题投入同样的思考精力一样,AI系统也应该能够灵活调整其思考方式。这就是 蒙特利尔大学 ...
LegalSearchLM模型采用了一种全新的方法:将法律案例检索视为法律要素生成任务。当给定一个查询案例时,模型不是简单地寻找相似的文档,而是推理出该案例中的关键法律要素,然后直接生成这些要素,作为查找目标文档的钥匙。
前言目标是让仿人机器人在乒乓球表现上达到人类水平。据外媒 TechXplore 5 月 31 日报道,麻省理工学院仿生机器人实验室最新开发了一套机器人乒乓球系统,能够以极高的精度使用球拍击球,包括制造不同的击球方式与旋转。这项研究已在 arXiv ...
7 小时
科技行者 on MSNun?CLIP:通过反转unCLIP来提升CLIP模型的视觉细节捕捉能力在人工智能和计算机视觉领域,一种名为CLIP(对比语言-图像预训练)的模型近年来取得了巨大成功,成为了许多视觉和多模态任务的基础。然而,最近的研究表明,CLIP在区分图像中的细节差异方面存在不足,在密集预测和以视觉为中心的多模态任务上表现不佳。针对这 ...
Element AI 曾一度成为“全球最大独角兽”之一,仅仅成立 9 个月就筹集了 1.02 亿美元的风险投资,不到 4 年时间里,融资约 2.6 亿美元,微软、英特尔、麦肯锡、加拿大政府等大型机构均为其资方,估值高达 12 亿美元。
4、 对比分析详尽:对OpenAI-o3、GPT-4o、Claude-3.7、Gemini2.5-Pro等模型进行系统评估;人类解题成功率高达93.3%, 最强模型OpenAI-o3仅为40.0% ;并从策略偏差、视觉错误、执行失败等维度剖析失败原因 ...
数据最初来源于WebInstruct,其中包含约500万个从StackExchange和教育门户网站爬取的自然指令。这些数据虽然适用于一般的指令调优,但大部分缺乏可验证答案或推理结构。 随后利用Gemini-1.5-Pro识别具有简洁答案的可验证问题 ...
研究者实证了DGM修改自身代码的能力确实能加速其学习过程(见下图),而不具备递归式自我改进功能的对照版本(图中的DGM w/o Self-improve)表现明显较差。 这种分支结构正是DGM开放式探索策略的结果:它从此前生成的多样化智能体中采样,作为新改动的起点。这一机制让DGM能够同时探索多条进化路径。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果