机器学习之路： python 实践 word2vec 词向量技术

git: https://github.com/linyi0604/MachineLearning

词向量技术 Word2Vec

     每个连续词汇片段都会对后面有一定制约 称为上下文context

     找到句子之间语义层面的联系

 from sklearn.datasets import fetch_20newsgroups

 from bs4 import BeautifulSoup

 import nltk, re

 from gensim.models import word2vec

 # nltk.download('punkt')

 '''

 词向量技术 Word2Vec

     每个连续词汇片段都会对后面有一定制约 称为上下文context

     找到句子之间语义层面的联系

 '''

 # 联网下载新闻数据

 news = fetch_20newsgroups(subset="all")

 x, y = news.data, news.target

 # 定义一个函数 将每条新闻中的句子分离,并返回一个句子的列表

 def news_to_sentences(news):

     news_text = BeautifulSoup(news).get_text()

     tokenizer = nltk.data.load("tokenizers/punkt/english.pickle")

     raw_sentences = tokenizer.tokenize(news_text)

     sentences = []

     for sent in raw_sentences:

         temp = re.sub("[^a-zA-Z]", " ", sent.lower().strip()).split()

         sentences.append(temp)

     return sentences

 # 将长新闻中的句子剥离出来用于训练

 sentences = []

 for i in x:

     sentence_list = news_to_sentences(i)

     sentences += sentence_list

 # 配置词向量的维度

 num_features = 300

 # 保证被考虑的词汇的频度

 min_word_count = 20

 # 并行计算使用cpu核心数量

 num_workers = 2

 # 定义训练词向量的上下文窗口大小

 context = 5

 downsapling = 1e-3

 # 训练词向量模型

 model = word2vec.Word2Vec(sentences,

                           workers=num_workers,

                           size=num_features,

                           min_count=min_word_count,

                           window=context,

                           sample=downsapling)

 # 这个设定代表当前训练好的词向量为最终版, 也可以加速模型训练的速度

 model.init_sims(replace=True)

 # 利用训练好的模型 寻找文本中与college相关的十个词汇

 print(model.most_similar("college"))

 '''

 [('wisconsin', 0.7664438486099243),

 ('osteopathic', 0.7474539279937744),

 ('madison', 0.7433826923370361),

 ('univ', 0.7296794652938843),

 ('melbourne', 0.7212647199630737),

 ('walla', 0.7068545818328857),

 ('maryland', 0.7038443088531494),

 ('carnegie', 0.7038302421569824),

 ('institute', 0.7003713846206665),

 ('informatics', 0.6968873143196106)]

 '''

机器学习之路： python 实践 word2vec 词向量技术的更多相关文章

word2vec词向量训练及中文文本类似度计算
本文是讲述怎样使用word2vec的基础教程.文章比較基础,希望对你有所帮助! 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ 官网Python ...
机器学习算法与Python实践之（四）支持向量机（SVM）实现
机器学习算法与Python实践之(四)支持向量机(SVM)实现机器学习算法与Python实践之(四)支持向量机(SVM)实现 zouxy09@qq.com http://blog.csdn.net/ ...
机器学习算法与Python实践之（三）支持向量机（SVM）进阶
机器学习算法与Python实践之(三)支持向量机(SVM)进阶机器学习算法与Python实践之(三)支持向量机(SVM)进阶 zouxy09@qq.com http://blog.csdn.net/ ...
机器学习算法与Python实践之（二）支持向量机（SVM）初级
机器学习算法与Python实践之(二)支持向量机(SVM)初级机器学习算法与Python实践之(二)支持向量机(SVM)初级 zouxy09@qq.com http://blog.csdn.net/ ...
word2vec词向量处理中文语料
word2vec介绍 word2vec官网:https://code.google.com/p/word2vec/ word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间 ...
机器学习算法与Python实践之（五）k均值聚类（k-means）
机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书.因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学 ...
文本分布式表示（三）：用gensim训练word2vec词向量
今天参考网上的博客,用gensim训练了word2vec词向量.训练的语料是著名科幻小说<三体>,这部小说我一直没有看,所以这次拿来折腾一下. <三体>这本小说里有不少人名和一 ...
机器学习算法与Python实践之（六）二分k均值聚类
http://blog.csdn.net/zouxy09/article/details/17590137 机器学习算法与Python实践之(六)二分k均值聚类 zouxy09@qq.com http ...
机器学习算法与Python实践之（七）逻辑回归（Logistic Regression）
http://blog.csdn.net/zouxy09/article/details/20319673 机器学习算法与Python实践之(七)逻辑回归(Logistic Regression) z ...

随机推荐

Collections -- 集合的工具类
Collections是JDK针对集合提供的一个工具类,他提供一系列静态方法实现对各种集合的搜索.排序.线程安全化等操作. 1.搜索如可以使用Collections提供的二分查找方法binarySe ...
JS模块规范
ES6标准发布后,module成为标准,标准的使用是以export指令导出接口,以import引入模块,但是在我们一贯的node模块中,我们采用的是CommonJS规范,使用require引入模块,使 ...
IE安全系列之——RES Protocol
IE安全系列之--RES Protocol res Protocol用于从一个文件里面提取指定资源.语法为:res://sFile[/sType]/sID 各Token含义: sfile:百分号编码. ...
aarch64_l1
L-function-1.23-18.fc26.aarch64.rpm 2017-02-14 08:01 139K fedora Mirroring Project L-function-devel- ...
jQuery-对标签元素文本操作-属性操作-文档的操作
一.对标签元素文本操作 1.1 对标签中内容的操作 // js var div1 = document.getElementById("div1"); div1.innerText ...
32 Profiling Go Programs 分析go语言项目
Profiling Go Programs 分析go语言项目 24 June 2011 At Scala Days 2011, Robert Hundt presented a paper titl ...
sqlserver中一些常用的函数总结
去掉空格方面 LTRIM('内容'):去掉字符串左边的空格 RTRIM('内容'):去掉右边的空格 LTRIM(RTRIM('内容')):去掉字符串左边和右边的空格 REPLACE(‘内容’,' ', ...
洛谷P3119 草鉴定
这个题调了一天.. 传送门读完题目之后我们不难想出这个题是个tarjan缩点问题,因为尽量多的经过草场,所以一号点所在的强连通分量里左右的点都是不需要在进行走逆向边,所能到达的. 然后问题就落在怎么 ...
Kubernetes监控:部署Heapster、InfluxDB和Grafana
本节内容: Kubernetes 监控方案 Heapster.InfluxDB和Grafana介绍安装配置Heapster.InfluxDB和Grafana 访问 grafana 访问 influx ...
CCF CSP 201312-4 有趣的数
CCF计算机职业资格认证考试题解系列文章为meelo原创,请务必以链接形式注明本文地址 CCF CSP 201312-4 有趣的数问题描述我们把一个数称为有趣的,当且仅当: 1. 它的数字只包含0 ...

机器学习之路： python 实践 word2vec 词向量技术

机器学习之路： python 实践 word2vec 词向量技术的更多相关文章

随机推荐

热门专题