资讯
随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + ...
2025-06-01 11:31发布于北京机器之心官方账号 「尽管经过 SFT 的模型可能看起来在进行推理,但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理 ...
而具体过程,从SFT(监督微调)和RL(强化学习)两方面下手。 研究人员默认使用MATH的7500个训练样本提示集来提供可验证的真值答案。 SFT对长CoT的 ...
这个团队上周刚刚在 Hugging Face 低调开源了32B稠密模型,但在多项关键推理评测中击败了 DeepSeek-R1,并与超大规模的 MoE 模型Qwen3-235B-A22B、Seed1.5-Thinking ...
DeepSeek R1 的技术报告验证了知识蒸馏+SFT的方法能够让小模型获得优越的推理能力。这种看似极具性价比的方案引发了大量关注和剖析。由于业界对 ...
DeepSeek R1/R1-Zero让RL大火,SFT就无用了吗?滑铁卢与卡内基梅隆大学带来一种全新范式批判微调(CFT:Critique Fine-Tuning,已开源),即让模型学习对有 ...
olve for Tomrrow探知未来第十届全国青年科普创新实验暨作品大赛(以下简称 SFT第十届科普创新大赛)福建赛区复赛现场。彼时,从南至北,无数像福建赛区学生们一样的年轻人,在SFT科普创新大赛的全国多个省级赛区舞台上,展示着对科学探索的热爱和追求 ...
他们将 d1-LLaDA 的性能与基础 LLaDA 模型以及仅使用 SFT 和仅使用 diffu-GRPO 训练的 LLaDA 模型进行比较。结果表明,d1 在四个数学和逻辑推理基准测试中 ...
来自中国科学技术大学MIRA实验室的王杰教授团队提出了提出了一个创新的框架——知识图谱驱动的监督微调(KG-SFT),该框架通过引入知识图谱(KG ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果