Transformer模型源于论文《Attention is All You Need》,如今已成为谷歌云TPU的推荐参考模型。该论文相关的TensorFlow代码可以在GitHub上找到,哈佛的NLP团队也成功实现了一个基于PyTorch的版本,并进行了详细注释。为了让普通读者能够轻松理解,我们将对Transformer进行简化分析。