Motivation: 靠attention机制,不使用rnn和cnn,并行度高 通过attention,抓长距离依赖关系比rnn强 创新点: 通过self-attention,自己和自己做attention,使得每个词都有全局的语义信息(长依赖 由于 Self-Attention 是每个词和所有词都要计算 Attention,所以不管他们中间有多长距离,最大的路径长度也都只是 1.可以捕获长距离依赖关系 提出multi-head attention,可以看成attention的ensemble