实现细节; 1.embedding 层 2.positional encoding层:添加位置信息 3,MultiHeadAttention层:encoder的self attention 4,sublayerConnection层:add&norm,使用layerNorm, 5,FeedForward层:两层全连接 6,Masked MultiHeadAttention:decoder中的self attention层,添加mask,不考虑计算当前位置的后面信息 7,MultiHeadAtte