资讯

实验表明,经过DataRater筛选的数据大幅减少了训练所需的浮点运算次数(最高可达46.6%的净计算收益),并且可以提高跨多种预训练语料库(例如,Pile、C4/noclean)语言模型的最终性能。