使用genism训练词向量【转载】

转自：https://blog.csdn.net/qq_16912257/article/details/79099581

https://blog.csdn.net/thriving_fcl/article/details/51406780

1.简单使用

from gensim.models import word2vec

sents = [

'I am a good student'.split(),

'Good good study day day up'.split()

]

model = word2vec.Word2Vec(sents, size=100, window=5, min_count=2, workers=10)

# 打印单词'good'的词向量

print(model.wv.word_vec('good'))

# 打印和'good'相似的前2个单词

print(model.wv.most_similar('good', topn=2))

# 保存模型到文件

model.save('w2v.model')

参数：

size：词向量输出维度
window：上下文窗口
min_count：忽略词频小于此阈值的单词
workers：使用的线程数

2.增量训练

def retrain(data_file, old_model_file, new_model_file):

    sents = XXX

    model = word2vec.Word2Vec.load(old_model_file)

    model.build_vocab(sents, update=True)

    model.train(sents, total_examples=model.corpus_count, epochs=model.iter)

    model.save(new_model_file)

3.大语料库输入

将语料都转换为一个python的list作为输入是很方便，但是如果输入的语料特别大，大到内存都装不下，就不能采用这种方式。gensim的API并不要求sentences必须是list对象，只要输入的sentences是iterable的就行，那我们只要一次载入一个句子，训练完之后再将其丢弃，内存就不会因为语料过大而不够了。我们通过下面的代码就可以生成一个iterator。事先已经将训练语料分词，词与词之间采用空格分开，并保存在一个文档里。

class sentences_generator():

    def __init__(self, filename):

        self.filename = filename

    def __iter__(self):

        for line in open(self.filename):

            sentence = line.rstrip().split(' ')

            yield sentence

使用genism训练词向量【转载】的更多相关文章

PyTorch在NLP任务中使用预训练词向量
在使用pytorch或tensorflow等神经网络框架进行nlp任务的处理时,可以通过对应的Embedding层做词向量的处理,更多的时候,使用预训练好的词向量会带来更优的性能.下面分别介绍使用ge ...
文本分布式表示（二）：用tensorflow和word2vec训练词向量
看了几天word2vec的理论,终于是懂了一些.理论部分我推荐以下几篇教程,有博客也有视频: 1.<word2vec中的数学原理>:http://www.cnblogs.com/pegho ...
文本分类实战（一）—— word2vec预训练词向量
1 大纲概述文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...
tensorflow如何正确加载预训练词向量
使用预训练词向量和随机初始化词向量的差异还是挺大的,现在说一说我使用预训练词向量的流程. 一.构建本语料的词汇表,作为我的基础词汇二.遍历该词汇表,从预训练词向量中提取出该词对应的词向量三.初始化 ...
基于word2vec训练词向量(二)
转自:http://www.tensorflownews.com/2018/04/19/word2vec2/ 一.基于Hierarchical Softmax的word2vec模型的缺点上篇说了Hi ...
基于word2vec训练词向量(一)
转自:https://blog.csdn.net/fendouaini/article/details/79905328 1.回顾DNN训练词向量上次说到了通过DNN模型训练词获得词向量,这次来讲解 ...
DNN模型训练词向量原理
转自:https://blog.csdn.net/fendouaini/article/details/79821852 1 词向量在NLP里,最细的粒度是词语,由词语再组成句子,段落,文章.所以处 ...
pytorch中如何使用预训练词向量
不涉及具体代码,只是记录一下自己的疑惑. 我们知道对于在pytorch中,我们通过构建一个词向量矩阵对象.这个时候对象矩阵是随机初始化的,然后我们的输入是单词的数值表达,也就是一些索引.那么我们会根据 ...
word2vec预训练词向量
NLP中的Word2Vec讲解 word2vec是Google开源的一款用于词向量计算的工具,可以很好的度量词与词之间的相似性: word2vec建模是指用CBoW模型或Skip-gram模型来计算 ...

随机推荐

CodeForces 286E Ladies' Shop 多项式 FFT
原文链接http://www.cnblogs.com/zhouzhendong/p/8781889.html 题目传送门 - CodeForces 286E 题意首先,给你$n$个数(并告诉你$m$ ...
原生HttpClient详细使用示例
一.HttpClient类 import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; ...
分布式session解决——Spring-data-redis
1.如果没有集成shiro来管理session,可以直接使用spring-session 2.若集成了shiro,需要Spring-data-redis (或 shiro-redis) 3.nginx ...
Django——发送邮件
Django--发送邮件在web应用中,服务器对客户发送邮件来通知用户一些信息,可以使用邮件来实现. Django中提供了邮件接口,使我们可以快捷的建设一个邮件发送系统. 以下是一个简单实例: se ...
（转）RBAC权限模型——项目实战
一.前言权限一句话来理解就是对资源的控制,对web应用来说就是对url的控制,关于权限可以毫不客气的说几乎每个系统都会包含,只不过不同系统关于权限的应用复杂程序不一样而已,现在我们在用的权限模型基本 ...
Telephone Lines [POJ3662] [二分答案]
Description Farmer John打算将电话线引到自己的农场,但电信公司并不打算为他提供免费服务.于是,FJ必须为此向电信公司支付一定的费用. FJ的农场周围分布着N(1 <= N ...
Java虚拟机一运行时数据区（栈、堆、方法区等）
Java虚拟机的内存管理主要分两点:内存分配以及内存回收.· 一.内存分配图: 注: 所占区域的大小与实际的内存大小比例并无直接关系. 解读: 1.如图,分成两种颜色的内存区域,其中蓝色的是线程隔离的 ...
java jdbc操作数据库通用代码
1.准备工作 1> 新建一个配置文件,名为jdbc.properties将其放入src中 2>在项目中导入jdbc驱动,注意连接不同的数据库,所用到的驱动是不一样的,这些在网上都能找到具 ...
20 由属性查询学习到的ArcMap、javaScripts API相关操作
因项目需要,想要在属性查询的时候连同相关的图片一并查出来,但是因为要查询的图层众多,且字段不固定,而且还要方便后期维护,因此一个个单独配置并不是最优的解决方法为实现这个功能,我想到如下几种解决方法 ...
solr 入门
这个博客写的不错,很详细 https://blog.csdn.net/wzy18210825916/article/details/80946454