资讯

清华和新加坡国立大学的研究团队从三个维度展开了调查:首先,他们对不同类型的推理模型进行了全面评估;其次,他们分析了这些模型表现出的认知行为特征;最后,他们从模型不确定性的角度探究了幻觉产生的内在机制。
在千亿模型满天飞,MOE架构正流行的当下,一个在AI领域名不见经传的企业,贝壳找房,发布了一款32B的稠密模型,AM-Thinking- V1。在包括AIME在内的多项AI基准测试中,这款中等参数模型碾压了满血版671B DeepSeek-R1,性能与阿里刚刚发布的Qwen3-235B-A22B持平。