参考: 1. Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context https://arxiv.org/pdf/1901.02860.pdf 2. Self-Attention with Relative Position Representations (shaw et al.2018): https://arxiv.org/pdf/1803.02155.pdf 3. [NLP] 相对位置编码(一) Re…
对于Transformer模型的positional encoding,最初在Attention is all you need的文章中提出的是进行绝对位置编码,之后Shaw在2018年的文章中提出了相对位置编码,就是本篇blog所介绍的算法RPR:2019年的Transformer-XL针对其segment的特定,引入了全局偏置信息,改进了相对位置编码的算法,将在相对位置编码(二)的blog中介绍. 本文参考链接: 1. 翻译:https://medium.com/@_init_/how-se…
本节课将开始学习Deep NLP的基础--词向量模型. 背景 word vector是一种在计算机中表达word meaning的方式.在Webster词典中,关于meaning有三种定义: the idea that is represented by a word, phrase, etc. the idea that a person wants to express by using words, signs, etc. the idea that is expressed in a w…