一、Word2vec

word2vec是Google与2013年开源推出的一个用于获取word vecter的工具包，利用神经网络为单词寻找一个连续向量看空间中的表示。word2vec是将单词转换为向量的算法，该算法使得具有相似含义的单词表示为相互靠近的向量。

此外，它能让我们使用向量算法来处理类别，例如着名等式King−Man+Woman=Queen。

　　　　　　　　　　　　　　来源:国王-男人+女人=皇后，背后的词向量工作原理

word2vec一般分为CBOW(Continuous Bag-of-Words 与Skip-Gram两种模型：

1、CBOW:根据中心词周围的词来预测中心词，有negative sample和Huffman两种加速算法；

2、Skip-Gram:根据中心词来预测周围词；

二者的结构十分相似，理解了CBOW，对于Skip-Gram也就基本理解了。下面主要来讲讲CBOW。

　　　　　　来源:word2vec原理(一) CBOW与Skip-Gram模型基础

二、CBOW

来源:word2vec是如何得到词向量的？

上图为CBOW的主要结构形式。对于上图，假设单词的向量空间维度为V，上下文单词个数为C，求解两个权重均值W和W'。对于上图的解释如下：

1、输入层:上下文单词的onehot形式；

2、隐藏层:将输入层所有onehot后的向量乘以第一个权重矩阵W（所有的权重矩阵相同，即共享权重矩阵），然后相加求平均作为隐藏层向量，该向量的大小与输入层的每一个样本大小相同；

3、输出层:将隐藏层向量乘以第二权重矩阵W‘，得到一个V维的向量，然后再通过激活函数（softmax）得到每一维词的概率分布，概率最大的位置所指示的单词为预测出的中间词；

4、一般使用使用的损失函数为交叉熵损失函数，采用梯度下降的方式来更新W和W’；这实际上是一个假任务，即我们需要的只是第一个权重矩阵W。得到第一个矩阵W之后，我们就能得到每个单词的词向量了。

更具体的结构以及流程如下：

　　　　　　来源:究竟什么是Word2vec ? Skip-Gram模型和Continuous Bag of Words(CBOW)模型 ?

假设我们现在的语料是这一个简单的只有四个单词的句子：
I drink coffee everyday
我们使用的window size设为2。

则训练这么一个句子，我们会需要训练4个batch，即句子中的单词个数的batch。

首先对单词onehot则可以得到

X_I = [1,0,0,0]；X_drink = [0,1,0,0]；X_coffee = [0,0,1,0] ； X_everyday = [0,0,0,1]；

1、第一个batch：I为中心词，drink coffee为上下文，即使用单词drink coffee来预测单词I，即输入为X_drink和X_coffee，输出为X_I，然后训练上述网络；

2、第二个batch：drink为中心词，I和 coffee everyday为上下文，即使用单词I和coffee everyday，即输入为X_I和X_coffee、X_everyday，输出为X_drink，然后训练上述网络；

3、第三个batch：coffee为中心词，I coffee 和 everyday为上下文，同理训练网络；

4、第四个batch：everyday为中心词，drink coffee为上下文，同理训练网络。

然后重复上述过程（迭代）3-5次（epoehs）左右即得到最后的结果。

具体的第三个batch的过程可见word2vec是如何得到词向量的？。得到的结果为[0.23,0.03,0.62,0.12]，此时结果是以coffee为中心词的词向量，每个位置表示的是对应单词的概率，例如该词向量coffee的概率为0.62。

需要注意的是每个batch中使用的权重矩阵都是一模一样的

三、word2vec的python使用

可以使用python中的gensim库。

具体可以见谈谈Word2Vec的CBOW模型最后一个部分，以及官网https://radimrehurek.com/gensim/models/word2vec.html

Word2vec之CBOW的更多相关文章

DL4NLP——词表示模型（二）基于神经网络的模型：NPLM；word2vec（CBOW/Skip-gram）
本文简述了以下内容: 神经概率语言模型NPLM,训练语言模型并同时得到词表示 word2vec:CBOW / Skip-gram,直接以得到词表示为目标的模型 (一)原始CBOW(Continuous ...
word2vec原理CBOW与Skip-Gram模型基础
转自http://www.cnblogs.com/pinard/p/7160330.html刘建平Pinard word2vec是google在2013年推出的一个NLP工具,它的特点是将所有的词向量 ...
DL4NLP——词表示模型（三）word2vec（CBOW/Skip-gram）的加速：Hierarchical Softmax与Negative Sampling
上篇博文提到,原始的CBOW / Skip-gram模型虽然去掉了NPLM中的隐藏层从而减少了耗时,但由于输出层仍然是softmax(),所以实际上依然“impractical”.所以接下来就介绍一下 ...
word2vec模型cbow与skip-gram的比较
cbow和skip-gram都是在word2vec中用于将文本进行向量表示的实现方法,具体的算法实现细节可以去看word2vec的原理介绍文章.我们这里大体讲下两者的区别,尤其注意在使用当中的不同特点 ...
词表征 2：word2vec、CBoW、Skip-Gram、Negative Sampling、Hierarchical Softmax
原文地址:https://www.jianshu.com/p/5a896955abf0 2)基于迭代的方法直接学相较于基于SVD的方法直接捕获所有共现值的做法,基于迭代的方法一次只捕获一个窗口内的词 ...
word2vec （CBOW、分层softmax、负采样）
本文介绍 wordvec的概念语言模型训练的两种模型CBOW+skip gram word2vec 优化的两种方法:层次softmax+负采样 gensim word2vec默认用的模型和方法未经 ...
NLP中word2vec的CBOW模型和Skip-Gram模型
参考:tensorflow_manual_cn.pdf Page83 例子(数据集): the quick brown fox jumped over the lazy dog. (1)CBO ...
word2vec原理(一) CBOW与Skip-Gram模型基础
word2vec原理(一) CBOW与Skip-Gram模型基础 word2vec原理(二) 基于Hierarchical Softmax的模型 word2vec原理(三) 基于Negative Sa ...
word2vec原理(一) CBOW与Skip-Gram模型基础——转载自刘建平Pinard
转载来源:http://www.cnblogs.com/pinard/p/7160330.html word2vec是google在2013年推出的一个NLP工具,它的特点是将所有的词向量化,这样词与 ...

随机推荐

MarkDown/Html在线转换（支持代码高亮，可复制到微信公众号、今日头条）
MarkDown/Html在线转换能够将md渲染成html并且能保持代码高亮,可以方便的复制待格式的html粘贴到微信公众号,CSDN,简书,博客园,开源中国等. 扫码体验在线助手小程序我是java ...
Spring知识点总结(六)之Spring事务
**************************************************************************************************** ...
石头剪刀布的JAVA小程序供初学者参考
package youxi; public class Player { private String name; private double score; public Player(String ...
he lover you 用python 搞为 eh revol uoy 。
1.字符串序列翻转 ---- 字符串切片 a_str = “abc”[::-1] 2.字符串分割: b_str = ‘ ds fdf ds ’ b_str .split(" 空格& ...
给xcode项目重命名
在xcode项目开发中,经常会遇到需要修改项目名字的问题, 但是xcode本身修改项目名字比较麻烦,有时候修改的不完全,有时候修改了项目无法打开,无奈只能建一个新项目.这里提供一种修改xcode项目名 ...
Lucene作为一个全文检索引擎
Lucene作为一个全文检索引擎,其具有如下突出的优点: (1)索引文件格式独立于应用平台.Lucene定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件. ...
小A点菜
题目背景 uim神犇拿到了uoi的ra(镭牌)后,立刻拉着基友小A到了一家--餐馆,很低端的那种. uim指着墙上的价目表(太低级了没有菜单),说:"随便点". 题目描述不过ui ...
使用 form 和 iframe 实现图片上传回显
主要利用 form 的 target 属性,在提交表单之后 response 返回到 iframe 中 form 的 action 可以自己写,也可以直接利用富文本编辑器的接口实现上传 <fo ...
洛谷P1196 [NOI2002]银河英雄传说(带权并查集)
题目描述公元五八○一年,地球居民迁至金牛座α第二行星,在那里发表银河联邦创立宣言,同年改元为宇宙历元年,并开始向银河系深处拓展. 宇宙历七九九年,银河系的两大军事集团在巴米利恩星域爆发战争.泰山压顶 ...
第一次使用Git上传本地项目到github
看了好多帖子,终于在混乱中找到自己适合的方法......自我感觉这个比较简单. 先安装本地git,官方下载地址:http://git-scm.com/download/ 根据你自己的系统下载对应版 ...

Word2vec之CBOW

一、Word2vec

二、CBOW

三、word2vec的python使用

Word2vec之CBOW的更多相关文章

随机推荐

热门专题