资讯

Sholto Douglas表示,从结构上来说,没有什么可以阻止强化学习算法“向神经网络注入新知识”。他以 DeepMind ...
像 AlphaZero 这样的系统展示了令人难以置信的智力复杂性,并且可以从 RL 信号中学习新知识。然而,它们是在结构严谨的双人完美信息游戏中运作的,其中奖励信号清晰且始终可用(总有一个玩家获胜)这个环境“对强化学习算法非常友好”。