资讯

这就像开卷考试,书太厚,你找不到答案在哪,开卷也等于零分。 研究者把这种瓶颈正式命名为“长上下文推理 RL”,强调模型必须先检索并定位片段,再进行多步逻辑链生成,而不是直接“凭存货作答”。
结果显示,经过LASER训练后,模型生成中冗余的Backtracking(反复自我否定)显著减少,而Verification(验证)、Subgoal Setting(子目标拆解)等关键推理行为得以保留甚至增强。
机器之心发布机器之心编辑部上下文长度达 13 万 ...
论文提到,经过QwenLong-L1训练后,模型明显更擅长信息定位(Grounding)、子目标设定(Subgoal Setting)、回溯(Backtracking)和验证(Verification)。
我们的分析揭示了长上下文推理强化学习的三项关键洞察:渐进式上下文扩展对实现稳定适应的重要作用、优先强化学习对最优性能的必要性,以及强化学习训练过程中长文本推理模式的增加对性能提升的促进作用。
有趣发现: 长上下文推理行为的涌现和变化 探索训练过程中推理模式的动态变化:包括长上下文推理相关的 Grounding 和通用推理相关的 Backtracking ...