ip install gensim安装好库后，即可导入使用：

1、训练模型定义

from gensim.models import Word2Vec  

model = Word2Vec(sentences, sg=1, size=100,  window=5,  min_count=5,  negative=3, sample=0.001, hs=1, workers=4)

参数解释：

0.sentences是训练所需语料，可通过以下方式进行加载

sentences=word2vec.Text8Corpus(file)

此处训练集的格式为英文文本或分好词的中文文本

1.sg=1是skip-gram算法，对低频词敏感；默认sg=0为CBOW算法。

2.size是输出词向量的维数，值太小会导致词映射因为冲突而影响结果，值太大则会耗内存并使算法计算变慢，一般值取为100到200之间。

3.window是句子中当前词与目标词之间的最大距离，3表示在目标词前看3-b个词，后面看b个词（b在0-3之间随机）。

4.min_count是对词进行过滤，频率小于min-count的单词则会被忽视，默认值为5。

5.negative和sample可根据训练结果进行微调，sample表示更高频率的词被随机下采样到所设置的阈值，默认值为1e-3。

6.hs=1表示层级softmax将会被使用，默认hs=0且negative不为0，则负采样将会被选择使用。

7.workers控制训练的并行，此参数只有在安装了Cpython后才有效，否则只能使用单核。

详细参数说明可查看word2vec源代码。

2、训练后的模型保存与加载

model.save(fname)  

model = Word2Vec.load(fname)

3、模型使用

model.most_similar(positive=['woman', 'king'], negative=['man'])  

#输出[('queen', 0.50882536), ...]  

  

model.doesnt_match("breakfast cereal dinner lunch".split())  

#输出'cereal'  

  

model.similarity('woman', 'man')  

#输出0.73723527  

  

model['computer']  # raw numpy vector of a word  

#输出array([-0.00449447, -0.00310097,  0.02421786, ...], dtype=float32)

gensim word2vec实战

我选择的《人民的名义》的小说原文作为语料，语料原文在这里。

完整代码参见 github: https://github.com/ljpzzz/machinelearning/blob/master/natural-language-processing/word2vec.ipynb

拿到了原文，我们首先要进行分词，这里使用结巴分词完成。在中文文本挖掘预处理流程总结中，我们已经对分词的原理和实践做了总结。

加入下面的一串人名是为了结巴分词能更准确的把人名分出来。

# -*- coding: utf-8 -*-

import jieba

import jieba.analyse

jieba.suggest_freq('沙瑞金', True)

jieba.suggest_freq('田国富', True)

jieba.suggest_freq('高育良', True)

jieba.suggest_freq('侯亮平', True)

jieba.suggest_freq('钟小艾', True)

jieba.suggest_freq('陈岩石', True)

jieba.suggest_freq('欧阳菁', True)

jieba.suggest_freq('易学习', True)

jieba.suggest_freq('王大路', True)

jieba.suggest_freq('蔡成功', True)

jieba.suggest_freq('孙连城', True)

jieba.suggest_freq('季昌明', True)

jieba.suggest_freq('丁义珍', True)

jieba.suggest_freq('郑西坡', True)

jieba.suggest_freq('赵东来', True)

jieba.suggest_freq('高小琴', True)

jieba.suggest_freq('赵瑞龙', True)

jieba.suggest_freq('林华华', True)

jieba.suggest_freq('陆亦可', True)

jieba.suggest_freq('刘新建', True)

jieba.suggest_freq('刘庆祝', True)

with open('./in_the_name_of_people.txt') as f:

    document = f.read()

    #document_decode = document.decode('GBK')

    document_cut = jieba.cut(document)

    #print  ' '.join(jieba_cut)  //如果打印结果，则分词效果消失，后面的result无法显示

    result = ' '.join(document_cut)

    result = result.encode('utf-8')

    with open('./in_the_name_of_people_segment.txt', 'w') as f2:

        f2.write(result)

f.close()

f2.close()

　拿到了分词后的文件，在一般的NLP处理中，会需要去停用词。由于word2vec的算法依赖于上下文，而上下文有可能就是停词。因此对于word2vec，我们可以不用去停词。

　现在我们可以直接读分词后的文件到内存。这里使用了word2vec提供的LineSentence类来读文件，然后套用word2vec的模型。

这里只是一个示例，因此省去了调参的步骤，实际使用的时候，你可能需要对我们上面提到一些参数进行调参。

# import modules & set up logging

import logging

import os

from gensim.models import word2vec

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

sentences = word2vec.LineSentence('./in_the_name_of_people_segment.txt') 

model = word2vec.Word2Vec(sentences, hs=1,min_count=1,window=3,size=100)

模型出来了，我们可以用来做什么呢？这里给出三个常用的应用。

第一个是最常用的，找出某一个词向量最相近的词集合，代码如下：

req_count = 5

for key in model.wv.similar_by_word('沙瑞金'.decode('utf-8'), topn =100):

    if len(key[0])==3:

        req_count -= 1

        print key[0], key[1]

        if req_count == 0:

            break;

我们看看沙书记最相近的一些3个字的词（主要是人名）如下：

高育良 0.967257142067

李达康 0.959131598473

田国富 0.953414440155

易学习 0.943500876427

祁同伟 0.942932963371

第二个应用是看两个词向量的相近程度，这里给出了书中两组人的相似程度：

print model.wv.similarity('沙瑞金'.decode('utf-8'), '高育良'.decode('utf-8'))

print model.wv.similarity('李达康'.decode('utf-8'), '王大路'.decode('utf-8'))

输出如下：

0.961137455325

0.935589365706

第三个应用是找出不同类的词，这里给出了人物分类题：

print model.wv.doesnt_match(u"沙瑞金 高育良 李达康 刘庆祝".split())

word2vec也完成的很好，输出为"刘庆祝"。

gensim word2vec ：https://www.cnblogs.com/pinard/p/7278324.html

word2vec原理：http://www.cnblogs.com/pinard/p/7160330.html

原文：https://blog.csdn.net/angus_monroe/article/details/76999920

Python gensim库word2vec 基本用法的更多相关文章

python numpy库np.percentile用法说明
在python中计算一个多维数组的任意百分比分位数,此处的百分位是从小到大排列,只需用np.percentile即可…… a = range(1,101) #求取a数列第90%分位的数值 np.per ...
Python模板库Mako的用法
官网地址:http://www.makotemplates.org/ 文档地址:http://docs.makotemplates.org/ 中文文档基本用法地址:http://www.open-op ...
python Gensim库建立word2vec参数说明
from gensim.models import word2vec model = word2vec.Word2Vec(sentences, size=80, window=10,workers=6 ...
Python numpy中矩阵的用法总结
关于Python Numpy库基础知识请参考博文:https://www.cnblogs.com/wj-1314/p/9722794.html Python矩阵的基本用法 mat()函数将目标数据的类 ...
python标准库总的random函数用法
Python标准库中的random函数,可以生成随机浮点数.整数.字符串,甚至帮助你随机选择列表序列中的一个元素,打乱一组数据等.random中的一些重要函数的用法:1 ).random() 返回0& ...
Python爬虫入门之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
NLP：Gensim库之word2vec
Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达.它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法, ...
python BeautifulSoup库用法总结
1. Beautiful Soup 简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.pyt ...
Python爬虫Urllib库的高级用法
Python爬虫Urllib库的高级用法设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Head ...

随机推荐

【BZOJ】3123: [Sdoi2013]森林
题解 ------------------ 我莫不是一个智障吧我把testdata的编号当成数据组数读进来我简直有毒以为哪里写错了自闭了好久实际上这题很简单,只要愉悦地开个启发式合并,然后每 ...
python全栈开发day13-迭代器、生成器、列表推导式等
昨日内容:函数的有用信息.带参数的装饰器.多个装饰器修饰一个函数迭代器可迭代对象:内部含有__iter__方法迭代器定义:可迭代对象.__iter__()就是迭代器,含有__iter__且__ ...
类属性判断 hasattr getattr
laravel5 项目上线后务必将开发环境更改为生产环境
如果以开发环境上线,出错信息将全通过json暴露出来了,屏蔽方式如下: .env 文件设置如下APP_ENV=productionAPP_DEBUG=false 改完设置后把缓存清理一遍如果更改后清 ...
python新手总结(二)
random模块随机小数 random uniform 随机整数 randint randrange 随机抽取 choice sample 打乱顺序 shuffle random.random() ...
scikit-learn全局图
https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
scss、less 对浏览器兼容的处理方法, css 的单行溢出、多行溢出
1. scss @mixin rounded($param1,$param2) { #{$param1}:$param2; -webkit-#{$param1}: $param2; ...
BZOJ.4793.[CERC2016]Hangar Hurdles(Kruskal重构树 BFS)
题目链接 $Description$ 有一个$n\times n$的正方形网格,上面有若干障碍点.$q$次询问,每次询问把一个正方形箱子从$(x1,y1)$推到$(x2,y2)$ ...
Postman使用记录
1. 情况: 当本地需要测试,线上的项目也需要同时测试时,地址了输入还需要打开多个窗口,麻烦点击圆圈部分 testForm是我新建的输入请求的action名字点击齿轮按钮: 地址栏填入方式: ...
java定义一个二维数组
https://zhidao.baidu.com/question/2052557356110840027.html https://blog.csdn.net/houpengfei111/artic ...

Python gensim库word2vec 基本用法

gensim word2vec实战

gensim word2vec ：https://www.cnblogs.com/pinard/p/7278324.html

word2vec原理：http://www.cnblogs.com/pinard/p/7160330.html

Python gensim库word2vec 基本用法的更多相关文章

随机推荐

热门专题