资讯

使用使用无监督方法「单样本熵最小化」(One-shot Entropy Minimization, 简称One-shot EM),仅需一条未标注样本和约10步优化,即可在推理任务上达到甚至超越依赖成千上万条数据和精心设计的奖励机制的RL方法的效果。