资讯

这就像开卷考试,书太厚,你找不到答案在哪,开卷也等于零分。 研究者把这种瓶颈正式命名为“长上下文推理 RL”,强调模型必须先检索并定位片段,再进行多步逻辑链生成,而不是直接“凭存货作答”。
结果显示,经过LASER训练后,模型生成中冗余的Backtracking(反复自我否定)显著减少,而Verification(验证)、Subgoal Setting(子目标拆解)等关键推理行为得以保留甚至增强。
论文提到,经过QwenLong-L1训练后,模型明显更擅长信息定位(Grounding)、子目标设定(Subgoal Setting)、回溯(Backtracking)和验证(Verification)。
在人工智能快速发展的今天,大型语言模型的能力边界不断被突破。然而,如何让这些智能系统有效处理和理解长篇幅文本,并在此基础上进行复杂推理,一直是一个尚未完全解决的难题。2025年5月,阿里巴巴Qwen-Doc团队的研究人员范凡奇、沈卫洲、廖胜义等发布了 ...
有趣发现: 长上下文推理行为的涌现和变化 探索训练过程中推理模式的动态变化:包括长上下文推理相关的 Grounding 和通用推理相关的 Backtracking ...