资讯

对于大语言模型,虽然策略熵的典型行为尚未得到充分研究,但我们在大量实验中发现了一个有趣且一致的模式:策略熵在短短几步训练内就会急剧下降至接近零,表明策略变得极度确定。这种探索能力的缺失直接导致性能停滞,验证集表现也同步陷入瓶颈。定量分析进一步揭示,在 ...