Thinking - 搜索 News

资讯

11 天

质疑DeepSeek-R1、Claude Thinking根本不会推理！苹果争议论文翻车了？

苹果质疑当前基于最终准确率的评估范式，并借助确定性谜题模拟器将评估范围扩展到思维轨迹的中间解。分析表明，随着问题复杂度的增加，正确的解会系统性地出现在思维的后期，而错误的解则不然，这为理解推理模型 (LRM) 中的自我修正机制提供了定量层面的见解。

2 天

反转，AI推理能力遭苹果质疑后，Claude合著论文反击：不是不会推理 ...

争议的火苗很快被一篇名为《The Illusion of The Illusion of Thinking》的反驳论文点燃，作者是一位名叫Alex Lawsen的独立研究员——以及，他的合作伙伴：大语言模型Claude Opus 4。

3 天

Claude与人类共著论文，苹果再遭打脸！实验黑幕曝光

苹果一篇论文，再遭打脸。研究员联手Claude Opus用一篇4页论文再反击，揭露实验设计漏洞，甚至指出部分测试无解却让模型「背锅」的华点。几天前，苹果怒斥大模型根本不会推理论文，引发全网无数讨论与争议。在许多人看来，没有站在AI前沿的人，却质疑当今最领先推理模型o3-mini、DeepSeek-R1推理能力，实在没有说服力。论文一出，备受质疑。一位研究员发文称，其研究方法并不可靠，比如 ...

雷峰网1月

32B 稠密模型推理能力超越 R1？秘密 AI 团队发布推理小模型 AM-Thinking-v1

在当前主流评测中，AM-Thinking-v1 也交出了极具冲击力的成绩单，仅 32B 的结构在数学推理（AIME 系列）和代码生成（LiveCodeBench）中分别取得了 85.3 和 70.3 的高分，不仅全面超越了 DeepSeek-R1（671B MoE 架构），还逼近甚至追平了 Qwen3-235B-A22B 和 Seed1.5-Thinking 等超大规模 MoE 模型的成绩。

十轮网科技资讯 on MSN1 天

Google发布Gemini 2.5 Flash与2.5 Pro稳定版，预览入门级Gemini 2.5 Flash-Lite

Google在本周二（6/17）正式发布已预览数月的Gemini 2.5 Flash与2.5 Pro稳定版，同时宣布预览入门级的Gemini 2.5 Flash-Lite。

腾讯网5月

谷歌发布 Gemini 2.0 Flash Thinking：毫秒级响应速度、透明推理过程 ...

谷歌于近日正式发布多模态推理模型 Gemini 2.0 Flash Thinking，这一新型 AI 模型在推理能力、处理速度和透明度方面均实现突破性进展，向 OpenAI 的 o1 ...

凤凰网2月

IT之家 4 月 14 日消息，IT之家从豆包大模型团队获悉，字节跳动最新思考模型 Seed-Thinking-v1.5 技术细节今日公开，该模型将于 4 月 17 日通过火山引擎 ...

来自MSN3月

阿里通义千问新推“Thinking (QwQ)”深度思考模型，开启智能新篇章

近日，科技界传来新动态，阿里巴巴旗下的通义千问正式揭晓了其最新研发成果——“Thinking (QwQ)”深度思考模型。这一创新模型不仅支持深度思考 ...

凤凰网4月

谷歌Gemini 2.0 Flash系列AI模型登场，编程和推理性能迈上新台阶

2 月 6 日消息，谷歌公司昨日（2 月 5 日）发布博文，邀请所有 Gemini 应用用户，访问最新 Gemini 2.0 Flash 应用模型，并放开 2.0 Flash Thinking 推理实验模型。

当前正在显示可能无法访问的结果。

隐藏无法访问的结果