随着 DeepSeek R1 的发布,如果想复刻 R1 或者在某个领域实践 RFT(Reinforcement Fine-Tuning),可以看看我整理的清单,会持续更新。 同时我个人尝试的结果也会更新上。 DeepSeek R1:DeepSeek R1 本体论文,写的引人入胜。Kimi K1.5:Kimi K1.5 推理模型的思路和 R1 类似,在数据 ...