推荐系统实践 0x13 Word2Vec

Word2Vec是谷歌团队提出的，让词向量在自然语言处理当中再度流行，并且推广到了广告、搜索、推荐等各个领域当中。Word2Vec顾名思义，就是一个生成对词的向量表达的模型。假设我们使用一组句子组成的语料库作为训练数据，其中一句长度为\(T\)的句子为\(w_1,w_2,...,w_T\)，假设每个词都与最相邻的词关系最为密切。那么这种密切的关系可以分为两种：

CBOW。每个词都是由相邻的词决定的。cbow输入是某一个特征词的上下文相关的词对应的词向量，而输出就是这特定的一个词的词向量，即先验概率。
Skip-gram。每个词都都决定了相邻的词。Skip-Gram模型和CBOW的思路是反着来的，即输入是特定的一个词的词向量，而输出是特定词对应的上下文词向量，即后验概率。

这里借用一下参考图示：

不过从经验上来讲，Skip-gram效果要好一些。

训练过程

假如我们选取了\(2c+1\)长度的滑动窗口，从语料库中抽取一个句子然后从左到右不断滑动窗口。每移动一次，窗口中的词就形成了一个训练样本。有了训练样本，我们就可以定义优化目标。以Skip-gram为例，每个词\(w_t\)都决定了相邻词\(w_{t+j}\)，基于极大似然估计的方法，我们希望所有样本的条件概率\(p(w_{t+j}|w_t)\)之积最大，我们使用对数概率来表示目标函数为

\[\frac{1}{T}\sum_{t=1}^{T}\sum_{-c\le j \le c,j\ne 0}\log p(w_{t+j}|w_t)
\]

那么我们如何定义条件概率\(p(w_{t+j}|w_t)\)呢？在多分类问题当中，通常使用softmax函数。我们希望，通过词向量的向量表示，可以用内积直观的表示出语义的接近程度。那么我们可以用\(w_o\)代表\(w_{t+j}\)，也就是输出词；用\(w_i\)表示\(w_t\)，也就是输入词。

\[p(w_o|w_i)=\frac{exp(V_{w_o}'^T V_{w_1})}{\sum_{w_1}^{W}exp(V_{w_o}'^T V_{w_1})}
\]

我们容易忽略一个事实，那就是输入词和输出词的向量表达并不在一个向量空间当中，输入向量表达和输出向量表达可以用如下图来表示：

在这里，输入向量表达就是输入层到隐层的权重矩阵\(W_{v\times N}\)，而输出向量表达就是隐层到输出层的权重矩阵\(W'_{Nt\times V}\)。由于输入向量一般是one-hot形式的向量，那么输入向量矩阵\(W_{v\times N}\)的每一行对应的权重向量就是同样意义上的“词向量”，它也可以被看做是一个查找表，如如数向量是10000词的one-hot向量，隐层维度为300，那么输入层到隐层的权重向量为\(10000\times 300\)。在转化为词向量的查找表之后，每行的权重变成了对应词的Embedding向量。

负采样

由于语料库中的词数量巨大，对每个词都要预测误差是巨大的计算量，因此，为了减轻训练复旦，往往采用负样本的方法进行训练，也就是需要对采样出的几个负样本进行计算预测误差。从多分类问题退化成了一个近似二分类问题。如下所示：

\[E=-\log\sigma({v'_{w_o}}^T h)-\sum_{w_j \in W'_{neg}}\log \sigma({v'_{w_j}}^T h)
\]

\(v'_{w_o}\)是输出词向量（正样本），而\(W_{neg}\)是负样本集合，\(v'_{w_j}\)是负样本词向量，由于负样本集合的大小非常有限，通常来说小于10，在每次梯度下降爹地啊过程中，计算复杂度可以缩小为原来的1/1000（假设词表为10000）。

参考

cbow与skip-gram

（二）通俗易懂理解——Skip-gram和CBOW算法原理

随机推荐

大数据-redis-redis启动出错
redis启动出错Creating Server TCP listening socket 127.0.0.1:6379: bind: No error 解决方法(1) 首先如果你是从官方redis官 ...
腾讯牛逼！终于开源了自家的 Tencent JDK——Kona！！.md
是的,继阿里 2019/03 开源基于 OpenJDK 的长期支持版本 Alibaba Dragonwell 之后,腾讯也发布了自家的开源免费的 JDK 版本--Tencent Kona,必须替小马哥 ...
老猿学5G扫盲贴：NEF、NRF、AF、UPF以及DN的功能
专栏:Python基础教程目录专栏:使用PyQt开发图形界面Python应用专栏:PyQt入门学习老猿Python博文目录 NEF:Network Exposure Function ,网络开放 ...
转：Cookie详解
没怎么坐过客户端相关的工作,所以写爬虫的时候,很多概念都很模糊,学习起来很困难.现在想攻坚一下,所以找了一下cookies相关的内容. HTTP cookies,通常又称作"cookies& ...
第十六章、Model/View开发：QColumnView的作用及对应Model
老猿Python博文目录专栏:使用PyQt开发图形界面Python应用老猿Python博客地址一.概述在Qt Designer的Item Views(Model-based)部件中,Colum ...
第15.8节 PyQt入门学习：Designer的界面功能介绍
进入Qt Designer以后,打开或新建一个ui文件,Qt Designer窗口展示的页面如下图所示: 老猿将界面各部分使用红色数字进行标记,按照数字顺序各区域对应功能分别为: 1.界面元素控件区域 ...
CobaltStrike 生成office宏病毒进行钓鱼攻击
关于WORD宏: 在百度百科上有: 宏是一个批量处理程序命令,正确地运用它可以提高工作效率.微软的office软件允许用户自己编写,叫VBA的脚本来增加其灵活性,进一步扩充它的能力.如完打开word文 ...
学生证申请Idea
1.地址:https://www.jetbrains.com/shop/eform/students2.英语不好的一键翻译,说明:三五天下来3.上图:
C++ 虚函数表与多态 —— 关键字 override 的用法
override 仅能用于虚函数,他属于C++新特性,是重写覆盖的意思,他的存在仅仅是为了提高代码的可阅读性: 作用: 1. 提示程序的阅读者,这个函数是重写父类的功能. 2. 防止程序员在重写父类的 ...
Sublime2-3 Package Control安装
从菜单 View - Show Console 或者 ctrl + ~ 快捷键,调出 console.将以下 Python 代码粘贴进去并 enter 执行,不出意外即完成安装.以下提供 ST3 和 ...

推荐系统实践 0x13 Word2Vec

训练过程

负采样

参考

推荐系统实践 0x13 Word2Vec的更多相关文章

随机推荐

热门专题