资讯

大语言模型通过可验证奖励的强化学习(RLVR)方法,在数学和编程等领域取得了显著进步。然而,现有的拼图数据集往往缺乏多样性和可扩展性,覆盖的拼图类型有限,难度也不可控。 Enigmata的创新之处在于,它是第一个全面的解决方案,不仅提供了丰富多样的拼图数据,还配备了训练方法,让大语言模型在逻辑推理能力上实现质的飞跃。