资讯
争议的火苗很快被一篇名为 《The Illusion of The Illusion of Thinking》 的反驳论文点燃,作者是一位名叫Alex Lawsen的独立研究员——以及,他的合作伙伴:大语言模型Claude Opus 4。
苹果质疑当前基于最终准确率的评估范式,并借助确定性谜题模拟器将评估范围扩展到思维轨迹的中间解。分析表明,随着问题复杂度的增加,正确的解会系统性地出现在思维的后期,而错误的解则不然,这为理解推理模型 (LRM) 中的自我修正机制提供了定量层面的见解。
在当前主流评测中,AM-Thinking-v1 也交出了极具冲击力的成绩单,仅 32B 的结构在数学推理(AIME 系列)和代码生成(LiveCodeBench)中分别取得了 85.3 和 70.3 的高分,不仅全面超越了 DeepSeek-R1(671B MoE 架构),还逼近甚至追平了 Qwen3-235B-A22B 和 Seed1.5-Thinking 等超大规模 MoE 模型的成绩。
还有人批评道,即使是人类,也大多无法准确无误的写出针对13个盘子的汉诺塔问题的一步步解法,如果没有进行这样的比较,苹果又如何知道这样随着问题规模变大而遇到的准确性下降,不会出现在人类身上。
14 天
至顶头条 on MSNKO 满血版DeepSeek?AM-Thinking-V1,32B干翻一众千亿级大模型在千亿模型满天飞,MOE架构正流行的当下,一个在AI领域名不见经传的企业,贝壳找房,发布了一款32B的稠密模型,AM-Thinking- V1。在包括AIME在内的多项AI基准测试中,这款中等参数模型碾压了满血版671B DeepSeek-R1,性能与阿里刚刚发布的Qwen3-235B-A22B持平。
谷歌于近日正式发布多模态推理模型 Gemini 2.0 Flash Thinking,这一新型 AI 模型在推理能力、处理速度和透明度方面均实现突破性进展,向 OpenAI 的 o1 ...
IT之家 4 月 14 日消息,IT之家从豆包大模型团队获悉,字节跳动最新思考模型 Seed-Thinking-v1.5 技术细节今日公开,该模型将于 4 月 17 日通过火山引擎 ...
近日,科技界传来新动态,阿里巴巴旗下的通义千问正式揭晓了其最新研发成果——“Thinking (QwQ)”深度思考模型。这一创新模型不仅支持深度思考 ...
As intelligent digital transformation has dramatically reshaped higher education globally, universities must strengthen ...
2 月 6 日消息,谷歌公司昨日(2 月 5 日)发布博文,邀请所有 Gemini 应用用户,访问最新 Gemini 2.0 Flash 应用模型,并放开 2.0 Flash Thinking 推理实验模型。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果