gensim的word2vec如何得出词向量（python）

首先需要具备gensim包，然后需要一个语料库用来训练，这里用到的是skip-gram或CBOW方法，具体细节可以去查查相关资料，这两种方法大致上就是把意思相近的词映射到词空间中相近的位置。

语料库test8下载地址:

http://mattmahoney.net/dc/text8.zip

这个语料库是从http://blog.csdn.net/m0_37681914/article/details/73861441这篇文章中找到的。

检查语料是否需要做预处理：
将数据下载好了解压出来，在做词向量之前我们需要了解数据的存储结构，判断它是否满足gensim包里word2vec函数对输入数据的形式要求。word2vec函数的输入最好是一整篇文字，不含标点符号以及换行符。那么我们应该检查test8数据是否符合。然而双击打开test8是行不通的，因为文件过大。那么就需要我们用程序打开它。代码如下：

with open('/text8','r',encoding='utf-8') as file:
for line in file.readlines():
print(line)
程序会返回警告，内存不够，打印不出来。明显是因为有一行内容太多导致的。可以进行如下验证：

with open('/text8','r',encoding='utf-8') as file:
for line in file.readlines():
print(len(line))

输出只有一个值，表示数据只有一行，且显示这一行有100000000个字符长度。由于文件内数据结构一致，那么我们没有必要将数据全部输出来看，只需要输出一部分就知道它的数据结构，那么修改代码如下：

a = 0
b = 0
with open('/text8','r',encoding='utf-8') as file:
line = file.read()
for char in line:
b+=1
print(char,end='')
if b-a == 100:
a = b
print('\n')
if a == 5000:
break
我们输出前5000个字符来看看，并且每100个字符换一行。

这里只是开头一部分，可以看到数据完全没有标点符号，且之前验证过所有数据都是在同一行，表示没有换行符。那么我们无需对数据进行预处理。接下来是数据处理部分。

数据处理部分：
from gensim.models import word2vec
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
sentences = word2vec.Text8Corpus('/text8')
model = word2vec.Word2Vec(sentences, sg=1, size=100, window=5, min_count=5, negative=3, sample=0.001, hs=1, workers=4)
model.save('/text82.model')
print(model['man'])
那么
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
这一行表示我们的程序会输出日志信息，形式（format）为日期（asctime）：信息级别（levelname）：日志信息（message），信息级别为正常信息（logging.INFO）。关于logging的知识，大家可以去自行学习。https://www.cnblogs.com/bjdxy/archive/2013/04/12/3016820.html点击打开链接

上图就是输出的日志信息。实际工作中，我们也可以不加这个日志，但这么做的前提是我们确定程序一定正确，不会出错，因为一旦出错我们就需要根据日志信息来推断错误发生的可能。

将语料库保存在sentence中

sentences = word2vec.Text8Corpus('/text8')
生成词向量空间模型

model = word2vec.Word2Vec(sentences, sg=1, size=100, window=5, min_count=5, negative=3, sample=0.001, hs=1, workers=4)
这里讲下参数含义：

class gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5, min_count=5,max_vocab_size=None, sample=0.001,seed=1, workers=3,min_alpha=0.0001, sg=0, hs=0, negative=5, cbow_mean=1,hashfxn=<built-in function hash>,iter=5,null_word=0, trim_rule=None, sorted_vocab=1, batch_words=10000)
参数：
1.sentences：可以是一个List，对于大语料集，建议使用BrownCorpus,Text8Corpus或·ineSentence构建。
2.sg：用于设置训练算法，默认为0，对应CBOW算法；sg=1则采用skip-gram算法。
3.size：是指输出的词的向量维数，默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。
4.window：为训练的窗口大小，8表示每个词考虑前8个词与后8个词（实际代码中还有一个随机选窗口的过程，窗口大小<=5)，默认值为5。
5.alpha: 是学习速率
6.seed：用于随机数发生器。与初始化词向量有关。
7.min_count: 可以对字典做截断. 词频少于min_count次数的单词会被丢弃掉, 默认值为5。
8.max_vocab_size: 设置词向量构建期间的RAM限制。如果所有独立单词个数超过这个，则就消除掉其中最不频繁的一个。每一千万个单词需要大约1GB的RAM。设置成None则没有限制。
9.sample: 表示采样的阈值，如果一个词在训练样本中出现的频率越大，那么就越会被采样。默认为1e-3，范围是(0,1e-5)
10.workers:参数控制训练的并行数。
11.hs: 是否使用HS方法，0表示不使用，1表示使用。默认为0
12.negative: 如果>0,则会采用negativesamp·ing，用于设置多少个noise words
13.cbow_mean: 如果为0，则采用上下文词向量的和，如果为1（default）则采用均值。只有使用CBOW的时候才起作用。
14.hashfxn： hash函数来初始化权重。默认使用python的hash函数
15.iter：迭代次数，默认为5。
16.trim_rule：用于设置词汇表的整理规则，指定那些单词要留下，哪些要被删除。可以设置为None（min_count会被使用）或者一个接受()并返回RU·E_DISCARD,uti·s.RU·E_KEEP或者uti·s.RU·E_DEFAU·T的函数。
17.sorted_vocab：如果为1（defau·t），则在分配word index 的时候会先对单词基于频率降序排序。
18.batch_words：每一批的传递给线程的单词的数量，默认为10000
这里再把生成的空间模型保存下来，以便下次使用。

model.save('/text8.model')

下次使用就不在需要加载语料库和生成模型了。只需要：

'''
sentences = word2vec.Text8Corpus('/text8')
model = word2vec.Word2Vec(sentences, sg=1, size=100, window=5, min_count=5, negative=3, sample=0.001, hs=1, workers=4)
model.save('/text8.model')
'''
model = word2vec.Word2Vec.load('/text8.model')
最后是查看某个词的词向量：

print(model['man'])

当然model函数还可以做更多的事情，比如查看两个词的相似度等等，想知道的请自行百度
---------------------
作者：lwn556u5ut
来源：CSDN
原文：https://blog.csdn.net/weixin_40292043/article/details/79571346
版权声明：本文为博主原创文章，转载请附上博文链接！

gensim的word2vec如何得出词向量（python）的更多相关文章

文本分类实战（一）—— word2vec预训练词向量
1 大纲概述文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...
word2vec 构建中文词向量
词向量作为文本的基本结构——词的模型,以其优越的性能,受到自然语言处理领域研究人员的青睐.良好的词向量可以达到语义相近的词在词向量空间里聚集在一起,这对后续的文本分类,文本聚类等等操作提供了便利,本文 ...
使用word2vec训练中文词向量
https://www.jianshu.com/p/87798bccee48 一.文本处理流程通常我们文本处理流程如下: 1 对文本数据进行预处理:数据预处理,包括简繁体转换,去除xml符号,将单词 ...
gensim中word2vec和其他一些向量的使用
直接上代码吧,word2vec # test from gensim.models.word2vec import Word2Vec txt_file = open('data.txt') sente ...
word2vec预训练词向量
NLP中的Word2Vec讲解 word2vec是Google开源的一款用于词向量计算的工具,可以很好的度量词与词之间的相似性: word2vec建模是指用CBoW模型或Skip-gram模型来计算 ...
[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型
深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展.深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法,那为什么深度学习在语义分析领域仍然没有实质性的进展呢? ...
文本分布式表示（二）：用tensorflow和word2vec训练词向量
看了几天word2vec的理论,终于是懂了一些.理论部分我推荐以下几篇教程,有博客也有视频: 1.<word2vec中的数学原理>:http://www.cnblogs.com/pegho ...
基于word2vec训练词向量(二)
转自:http://www.tensorflownews.com/2018/04/19/word2vec2/ 一.基于Hierarchical Softmax的word2vec模型的缺点上篇说了Hi ...
文本情感分析(二)：基于word2vec、glove和fasttext词向量的文本表示
上一篇博客用词袋模型,包括词频矩阵.Tf-Idf矩阵.LSA和n-gram构造文本特征,做了Kaggle上的电影评论情感分类题. 这篇博客还是关于文本特征工程的,用词嵌入的方法来构造文本特征,也就是用 ...

随机推荐

Oracle存储函数，存储过程
一.Oracle存储函数:存储的PL/SQL语法块,完成特定的功能.1.语法: 函数关键字: function (1)创建函数 CREATE [OR REPLACE] FUNCTION <fun ...
2019-8-31-dotnet-Framework-源代码-类库的意思
title author date CreateTime categories dotnet Framework 源代码类库的意思 lindexi 2019-08-31 16:55:58 +0800 ...
The content of element type must match解决方法
当我在mybatis的核心配置文件SqlMapConfig.xml中配置别名的时候,老是提示错误. 把鼠标移到上去就可以看到详细的内容如下图所示: 问题原因: 通过错误的提示信息,原来这个xml文件 ...
第一次接触node.JS
1.初识node.js node.js平时可以关注: 一.nodejs.org看看nodejs的版本升级,新特性的加入,重要bug的修复等二.www.npmjs.com模块社区,看他人源代码,省力 ...
洛谷 P1948 [USACO08JAN]电话线Telephone Lines 最短路+二分答案
目录题面题目链接题目描述输入输出格式输入格式输出格式输入输出样例输入样例输出样例说明思路 AC代码题面题目链接 P1948 [USACO08JAN]电话线Telephone ...
IIS 设置 FTP 服务器添加多个账户
我们有很多童鞋经常开不动IIS自带的FTP如何创建,就算创建了也不会实现多用户,下面我来分享一下我的经验吧: 使用 IIS 设置 FTP 服务器依次单击“开始”按钮.“控制面板”和“添加或删除程序” ...
JavaScript--查看代码运行效率console.time()与console.timeEnd()用法
程序运行时间计算: <!DOCTYPE html> <html lang="en"> <head> <meta charset=" ...
Introduction to 3D Game Programming with DirectX 12 学习笔记之 --- 第五章：渲染流水线
原文:Introduction to 3D Game Programming with DirectX 12 学习笔记之 --- 第五章:渲染流水线学习目标了解几个用以表达真实场景的标志和2D图像 ...
Java练习 SDUT-2737_小鑫の日常系列故事（六）——奇遇记
小鑫の日常系列故事(六)--奇遇记 Time Limit: 1000 ms Memory Limit: 65536 KiB Problem Description 今天,小鑫在山上玩的时候,意外被推下 ...
突破！阿里云CDN实现毫秒级全网刷新
通常在某网站使用了CDN节点来实现内容分发加速后,当源站内容更新的时候,CDN刷新系统会通过提交刷新请求将CDN节点上的指定缓存内容强制过期.当用户访问的时候,CDN节点将回源获取最新内容返回给用户, ...

gensim的word2vec如何得出词向量（python）

gensim的word2vec如何得出词向量（python）的更多相关文章

随机推荐

热门专题