python3 doc2vec文本聚类实现

import sys    #doc2vev

import gensim

import sklearn

import numpy as np

from gensim.models.doc2vec import Doc2Vec, LabeledSentence

TaggededDocument = gensim.models.doc2vec.TaggedDocument

def get_datasest():

    with open("ttt.txt", 'r') as cf:

        docs = cf.readlines()

        print (len(docs))

    x_train = []

    #y = np.concatenate(np.ones(len(docs)))

    for i, text in enumerate(docs):

        word_list = text.split(' ')

        l = len(word_list)

        word_list[l-1] = word_list[l-1].strip()

        document = TaggededDocument(word_list, tags=[i])

        x_train.append(document)

    return x_train

def getVecs(model, corpus, size):

    vecs = [np.array(model.docvecs[z.tags[0]].reshape(1, size)) for z in corpus]

    return np.concatenate(vecs)

def train(x_train, size=200, epoch_num=1):

    model_dm = Doc2Vec(x_train,min_count=1, window = 3, size = size, sample=1e-3, negative=5, workers=4)

    model_dm.train(x_train, total_examples=model_dm.corpus_count, epochs=70)

    model_dm.save('test/test')

    return model_dm

def test():

    model_dm = Doc2Vec.load("test/test")

    print(model_dm)

    test_text = ['《', '舞林', '争霸' '》', '十强' '出炉', '复活', '舞者', '澳门', '踢馆']

    inferred_vector_dm = model_dm.infer_vector(test_text)

    print (inferred_vector_dm)

    sims = model_dm.docvecs.most_similar([inferred_vector_dm], topn=10)

    return sims

if __name__ == '__main__':

    x_train = get_datasest()

    model_dm = train(x_train)

    sims = test()

    for count, sim in sims:

        sentence = x_train[count]

        words = ''

        for word in sentence[0]:

            words = words + word + ' '

        print (words, sim, len(sentence[0]))

print('ok')

python3 doc2vec文本聚类实现的更多相关文章

K-means算法及文本聚类实践
K-Means是常用的聚类算法,与其他聚类算法相比,其时间复杂度低,聚类的效果也还不错,这里简单介绍一下k-means算法,下图是一个手写体数据集聚类的结果. 基本思想 k-means算法需要事先指定 ...
灵玖软件NLPIRParser智能文本聚类
随着互联网的迅猛发展,信息的爆炸式增加,信息超载问题变的越来越严重,信息的更新率也越来越高,用户在信息海洋里查找信息就像大海捞针一样.搜索引擎服务应运而生,在一定程度上满足了用户查找信息的需要.然而互 ...
[python] 使用Jieba工具中文分词及文本聚类概念
声明:由于担心CSDN博客丢失,在博客园简单对其进行备份,以后两个地方都会写文章的~感谢CSDN和博客园提供的平台. 前面讲述了很多关于Python爬取本体Ontology.消息盒Inf ...
pyhanlp 文本聚类详细介绍
文本聚类文本聚类简单点的来说就是将文本视作一个样本,在其上面进行聚类操作.但是与我们机器学习中常用的聚类操作不同之处在于. 我们的聚类对象不是直接的文本本身,而是文本提取出来的特征.因此如何提取特征 ...
[转]python进行中文文本聚类（切词以及Kmeans聚类）
简介查看百度搜索中文文本聚类我失望的发现,网上竟然没有一个完整的关于Python实现的中文文本聚类(乃至搜索关键词python 中文文本聚类也是如此),网上大部分是关于文本聚类的Kmeans聚类的原 ...
文本挖掘之文本聚类（MapReduce）
刘勇 Email:lyssym@sina.com 简介针对大数量的文本数据,采用单线程处理时,一方面消耗较长处理时间,另一方面对大量数据的I/O操作也会消耗较长处理时间,同时对内存空间的消耗也是 ...
文本挖掘之文本聚类（DBSCAN）
刘勇 Email:lyssym@sina.com 简介鉴于基于划分的文本聚类方法只能识别球形的聚类,因此本文对基于密度的文本聚类算法展开研究.DBSCAN(Density-Based Spat ...
10.HanLP实现k均值--文本聚类
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP 10. 文本聚类正所谓物以类聚,人以群分.人们在获取数据时需要整理,将相似的数据 ...
文本挖掘之文本聚类（OPTICS）
刘勇 Email:lyssym@sina.com 简介鉴于DBSCAN算法对输入参数,邻域半径E和阈值M比较敏感,在参数调优时比较麻烦,因此本文对另一种基于密度的聚类算法OPTICS(Order ...

随机推荐

LR12中针对WebServices协议的三种脚本开发模式
一,webservices协议简介 webservices是建立可交互操作的分布式应用程序的新平台,它通过一系列的标准和协议来保证程序之间的动态连接, 其中最基本的协议包括soap,wsdl,uddi ...
[NOIP2017普及组]棋盘
题目题目描述有一个m × m的棋盘,棋盘上每一个格子可能是红色.黄色或没有任何颜色的.你现在要从棋盘的最左上角走到棋盘的最右下角. 任何一个时刻,你所站在的位置必须是有颜色的(不能是无色的),你只 ...
Python数据基础--列表、元组、字典、函数
一.数据结构列表(List)和元组序列是Python中最基本的数据结构.序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推. Python有6个序列的内 ...
go语言time包的使用
时间类型 time.Time类型表示时间. //时间类型 func timeDemo() { now := time.Now() fmt.Println(now) //2019-04-20 13:52 ...
package.json的配置理解
一.初步理解 1. npm安装package.json时直接转到当前项目目录下用命令npm install 或npm install --save-dev安装即可,自动将package.json中 ...
Web 前端编程运维必备
Html 1.Html 标签初知 2.Html 标签种类 3.Html 符号 4.Html Title 标签 5.Html meta 标签 6.Html Link 标签 7.Html p 标签 8.H ...
自制操作系统Antz(8)——实现内核 (中) 扩展内核
Antz系统更新地址: https://www.cnblogs.com/LexMoon/category/1262287.html 在前几天的任务中,我们已经简单实现了MBR,直接操作显示器和硬盘操作 ...
《Java程序设计》课程实验要求
目录 <Java程序设计>课程实验要求注册实验楼账号实验一 Java开发环境的熟悉实验二<Java面向对象程序设计> 实验三 <敏捷开发与XP实践> 实验四 ...
七夕节快到了，做个图钉画以及学习下Pillow吧
又有时间写东西了,最近深感世事并不以人的美好愿望而改变,还是要以积极地心态来适应新变化,多多关心身边的人. 图钉画中一个图钉代表一个像素,所以关键在于像素渣化,降低分辨率,图钉的色彩有限,还需要降低图 ...
javascript面向对象知识
<html> <head> <script></script> </head> <body> <!-- <scrip ...

python3 doc2vec文本聚类实现

python3 doc2vec文本聚类实现的更多相关文章

随机推荐

热门专题