字面意思理解,self attention就是计算句子中每个单词的重要程度. 1. Structure 通过流程图,我们可以看出,首先要对输入数据做Embedding 1. 在编码层,输入的word-embedding就是key,value和query,然后做self-attention得到编码层的输出.这一步就模拟了图1中的编码层,输出就可以看成图1中的h.2. 然后模拟图1中的解码层,解码层的关键是如何得到s,即用来和编码层做attention的query,我们发现,s与上个位置的真实lab