资讯

这正是明尼苏达大学研究团队要解决的核心问题。他们提出了一种新方法,能够在多步骤任务中为大语言模型(LLM)智能体的每一个决策步骤分配准确的奖励或惩罚,而不是简单地对整个过程进行评价。这种细粒度的回合级信誉分配机制,极大地提高了AI在多步骤任务中的学习 ...