sft - 搜索 News

资讯

4 天

随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世，学界普遍采用「监督微调 + ...

2025-06-01 11:31发布于北京机器之心官方账号「尽管经过 SFT 的模型可能看起来在进行推理，但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理 ...

而具体过程，从SFT（监督微调）和RL（强化学习）两方面下手。研究人员默认使用MATH的7500个训练样本提示集来提供可验证的真值答案。 SFT对长CoT的 ...

这个团队上周刚刚在 Hugging Face 低调开源了32B稠密模型，但在多项关键推理评测中击败了 DeepSeek-R1，并与超大规模的 MoE 模型Qwen3-235B-A22B、Seed1.5-Thinking ...

DeepSeek R1 的技术报告验证了知识蒸馏+SFT的方法能够让小模型获得优越的推理能力。这种看似极具性价比的方案引发了大量关注和剖析。由于业界对 ...

来自MSN4 个月

DeepSeek R1/R1-Zero让RL大火，SFT就无用了吗？滑铁卢与卡内基梅隆大学带来一种全新范式批判微调（CFT：Critique Fine-Tuning，已开源），即让模型学习对有 ...

olve for Tomrrow探知未来第十届全国青年科普创新实验暨作品大赛（以下简称 SFT第十届科普创新大赛）福建赛区复赛现场。彼时，从南至北，无数像福建赛区学生们一样的年轻人，在SFT科普创新大赛的全国多个省级赛区舞台上，展示着对科学探索的热爱和追求 ...

他们将 d1-LLaDA 的性能与基础 LLaDA 模型以及仅使用 SFT 和仅使用 diffu-GRPO 训练的 LLaDA 模型进行比较。结果表明，d1 在四个数学和逻辑推理基准测试中 ...

36氪2 个月

来自中国科学技术大学MIRA实验室的王杰教授团队提出了提出了一个创新的框架——知识图谱驱动的监督微调（KG-SFT），该框架通过引入知识图谱（KG ...

一些您可能无法访问的结果已被隐去。