[转] word2vec

from: https://www.cnblogs.com/peghoty/p/3857839.html

另附一个比较好的介绍：https://zhuanlan.zhihu.com/p/26306795

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包，它简单、高效，因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节，因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟。

第一次接触 word2vec 是 2013 年的 10 月份，当时读了复旦大学郑骁庆老师发表的论文[7]，其主要工作是将 SENNA 的那套算法（[8]）搬到中文场景。觉得挺有意思，于是做了一个实现（可参见[20]），但苦于其中字向量的训练时间太长，便选择使用 word2vec 来提供字向量，没想到中文分词效果还不错，立马对 word2vec 刮目相看了一把，好奇心也随之增长。

后来，陆陆续续看到了 word2vec 的一些具体应用，而 Tomas Mikolov 团队本身也将其推广到了句子和文档（[6]），因此觉得确实有必要对 word2vec 里的算法原理做个了解，以便对他们的后续研究进行追踪。于是，沉下心来，仔细读了一回代码，算是基本搞明白里面的做法了。第一个感觉就是，“明明是个很简单的浅层结构，为什么会被那么多人沸沸扬扬地说成是 Deep Learning 呢？”

解剖 word2vec 源代码的过程中，除了算法层面的收获，其实编程技巧方面的收获也颇多。既然花了功夫来读代码，还是把理解到的东西整理成文，给有需要的朋友提供点参考吧。

在整理本文的过程中, 和深度学习群的群友@北流浪子（[15,16]）进行了多次有益的讨论，在此表示感谢。另外，也参考了其他人的一些资料，都列在参考文献了，在此对他们的工作也一并表示感谢。

[转] word2vec的更多相关文章

word2vec 中的数学原理详解
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单.高效,因此引起了很多人的关注.由于 word2vec 的作者 Tomas Miko ...
Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据
在上篇实现了电影详情和短评数据的抓取.到目前为止,已经抓了2000多部电影电视以及20000多的短评数据. 数据本身没有规律和价值,需要通过分析提炼成知识才有意义.抱着试试玩的想法,准备做一个有关情感 ...
word2vec参数调整及lda调参
一.word2vec调参 ./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -window 5 -neg ...
[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型
深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展.深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法,那为什么深度学习在语义分析领域仍然没有实质性的进展呢? ...
Word2Vec 使用总结
word2vec 是google 推出的做词嵌入(word embedding)的开源工具. 简单的说,它在给定的语料库上训练一个模型,然后会输出所有出现在语料库上的单词的向量表示,这个向量称为&qu ...
Word2vec多线程(tensorflow)
workers = [] for _ in xrange(opts.concurrent_steps): t = threading.Thread(target=self._train_thread_ ...
Word2vec 模型载入(tensorflow)
opts = Options() with tf.Graph().as_default(), tf.Session() as session: model = Word2Vec(opts, sessi ...
Forward-backward梯度求导(tensorflow word2vec实例)
考虑不可分的例子通过使用basis functions 使得不可分的线性模型变成可分的非线性模型最常用的就是写出一个目标函数并且使用梯度下降法来计算梯度的下降法的梯度 ...
Tensorflow word2vec编译运行
Word2vec 更完整版本(非demo)的代码在 tensorflow/models/embedding/ 首先需要安装bazel 来进行编译 bazel可以下载最新的binary安装文件, ...
中英文维基百科语料上的Word2Vec实验
最近试了一下Word2Vec, GloVe 以及对应的python版本 gensim word2vec 和 python-glove,就有心在一个更大规模的语料上测试一下,自然而然维基百科的语料进入了 ...

随机推荐

openstack第二章：glance
第二篇glance— 镜像服务一.glance介绍: Glance是Openstack项目中负责镜像管理的模块,其功能包括虚拟机镜像的查找.注册和检索等. Glance提供 ...
[转帖]windows10,business版和consumer版本区别
windows10,business版和consumer版本区别时间:2018-07-08 10:50来源:原创作者:5分享点击: 7113 次 windows10系统(1803)busines ...
FJUTOJ-周赛2016-12-16
注:fjutoj基本每周都有一次周赛,欢迎大家都来参加! 网址:http://59.77.139.92/index.jsp A题:来源 POJ 2773 题意:给两个数m和k,问第k 个和m 互素的数 ...
webpack基本用法
1. 压缩代码(production模式) optimization: { minimizer: [new UglifyJsPlugin({ cache: true, parallel: true, ...
jquery ajax几种书写方式的总结
Ajax在前端的应用极其广泛,因此,我们有必要对其进行总结,以方便后期的使用. AJAX优点: 可以异步请求服务器的数据,实现页面数据的实时动态加载, 在不重新加载整个页面的情况下,可以与服务器交换数 ...
rockchip 3128 平台USB接口鼠标U盘功能调试日记
2019-04-12 关键词: rk3128 OTG.rk3128外接鼠标U盘.RK外接鼠标U盘本篇文章是笔者根据自己当前所掌握知识对 rk3128 平台 USB 接口接鼠标实现输入功能调试的一个记 ...
上板子在线抓波发现app_rdy一直为低
现象使用Xilinx的MIG IP测试外挂DDR3的读写发现一段很短的时间后app_rdy恒为低,并且最后一个读出的数据全是F. (1)不读写数据,app_rdy正常为高,MIG IP初始化信号为高 ...
【BZOJ4030】[HEOI2015]小L的白日梦
[BZOJ4030][HEOI2015]小L的白日梦题面 BZOJ 洛谷题解要求的是最小的不开心连续段的期望. 然后发现自己就不会做了. 然后就可以来抄题解啦. 首先来猜性质: 第一个,一定是按 ...
关于mysql 自定义@row的使用
应用场景:在对成绩或者积分排名时,往往需要显示排名; 成绩排名:相同分数的人,名次相同 Select s.Score, case when @rowtotal = s.Score then cast( ...
react native 封装TextInput组件
上一篇 react-native文章提到了TextInput组件对安卓的适配问题,因此对该组件进行封装很有必要. 文章地址 react native定报预披项目知识点总结 TextInput介绍官 ...

[转] word2vec

[转] word2vec的更多相关文章

随机推荐

热门专题