word2vec_文本相似度

#提取关键词
#关键词向量化
#相似度计算
 
from jieba import analyse
import numpy
import gensim
 
# 实现给出任意字符串，获取字符串中某字符的位置以及出现的总次数
def get_char_pos(string,char):
  chPos=[]
  try:
    chPos=list(((pos,char) for pos,val in enumerate(string) if(val == char)))
  except:
    pass
  return chPos
#提取关键词
def keyword_extract(data,filename):
    tfidf=analyse.extract_tags
    keywords=tfidf(data)
    return keywords
#将文档的每句话进行关键词提取，并将结果保存在txt文件中
def getKeywords(docpath,savepath):
    with open(docpath,'r',encoding='utf-8') as docf,open(savepath,'w',encoding='utf-8') as outf:
        for data in docf:#每句话
            data=data[:len(data)-1]
            keywords=keyword_extract(data,savepath)
            for word in keywords:
                outf.write(word+'/')
            outf.write('\n ')
#利用训练好的词向量获取关键词的词向量
import codecs
def word2vec(file_name,model):
 
    DataFile = codecs.open(file_name, "r",encoding='utf-8')
    DataSet = DataFile.readlines()[:-1]
 
    wordvec_size =100
    word_vec_all = numpy.zeros(wordvec_size)
 
    for data in DataSet:#
 
            space_pos=get_char_pos(data,'/')
            first_word=data[0:space_pos[0][0]]
            if first_word in model:
 
                word_vec_all=word_vec_all+model[first_word]
 
            for i in range(len(space_pos)-2):
                word=data[space_pos[i][0]:space_pos[i+1][0]]
 
                try:
                    c=model[word]
 
                except KeyError:
                    c=0
                word_vec_all=word_vec_all+c
 
    return word_vec_all
#词向量相似度计算代码：余弦
def simlarityCalu(vector1,vector2):
    vector1Mod=numpy.sqrt(vector1.dot(vector1))
    vector2Mod=numpy.sqrt(vector2.dot(vector2))
    if vector2Mod!=0 and vector1Mod!=0:
        simlarity=(vector1.dot(vector2))/(vector1Mod*vector2Mod)
    else:
        simlarity=0
    return simlarity
 
if __name__=='__main__':
    #下载模型
    model=gensim.models.Word2Vec.load('zhiwiki_news.word2vec')
    p1='P1.txt'
    p2='P2.txt'
    p1_keywords='P1_keyword.txt'
    p2_keywords = 'P2_keyword.txt'
    #获取关键词
    getKeywords(p1,p1_keywords)
    getKeywords(p2,p2_keywords)
    p1_vec=word2vec(p1_keywords,model)
    p2_vec=word2vec(p2_keywords,model)
    #计算相似度
    print(simlarityCalu(p1_vec,p2_vec))

word2vec_文本相似度的更多相关文章

NLP点滴——文本相似度
[TOC] 前言在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性.而有了文本之间相似性的度 ...
TF-IDF 文本相似度分析
前阵子做了一些IT opreation analysis的research,从产线上取了一些J2EE server运行状态的数据(CPU,Menory...),打算通过训练JVM的数据来建立分类模型, ...
文本相似度算法——空间向量模型的余弦算法和TF-IDF
1.信息检索中的重要发明TF-IDF TF-IDF是一种统计方法,TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分 ...
【机器学习】使用gensim 的 doc2vec 实现文本相似度检测
环境 Python3, gensim,jieba,numpy ,pandas 原理:文章转成向量,然后在计算两个向量的余弦值. Gensim gensim是一个python的自然语言处理库,能够将文档 ...
文本离散表示（三）：TF-IDF结合n-gram进行关键词提取和文本相似度分析
这是文本离散表示的第二篇实战文章,要做的是运用TF-IDF算法结合n-gram,求几篇文档的TF-IDF矩阵,然后提取出各篇文档的关键词,并计算各篇文档之间的余弦距离,分析其相似度. TF-IDF与n ...
从0到1，了解NLP中的文本相似度
本文由云+社区发表作者:netkiddy 导语 AI在2018年应该是互联网界最火的名词,没有之一.时间来到了9102年,也是项目相关,涉及到了一些AI写作相关的功能,为客户生成一些素材文章.但是, ...
C# 比较两文本相似度
这个比较文本用到的主要是余弦定理比较文本相似度,具体原理右转某度,主要适用场景是在考试系统中的简答题概述,可根据权重自动打分,感觉实用性蛮广的. 先说下思路: 文本分词,中文于英文不同,规范的英文每个 ...
NLP文本相似度
NLP文本相似度相似度相似度度量:计算个体间相似程度相似度值越小,距离越大,相似度值越大,距离越小最常用--余弦相似度: 一个向量空间中两个向量夹角的余弦值作为衡量两个个体之间差异的大小余 ...
【NLP】Python实例：基于文本相似度对申报项目进行查重设计
Python实例:申报项目查重系统设计与实现作者:白宁超 2017年5月18日17:51:37 摘要:关于查重系统很多人并不陌生,无论本科还是硕博毕业都不可避免涉及论文查重问题,这也对学术不正之风起 ...

随机推荐

Java中Properties集合总结
一:定义表示一个持久的集,可以存在流中或者从流中加载.用来读取Java的配置文件,在Java中为.properties为后缀名的文本文件. 二:特点是 Hashtable子类,map集合方法都可以 ...
用js实现九九乘法口诀两种方式
js实现九九乘法口诀两种方式: 第一种是用户输入一个数弹出所对应的乘法口诀: <script type="text/javascript"> function art( ...
Transparency Sort Mode
[Transparency Sort Mode] Transparency Sort Mode, which allows you to control how Sprites are sorted ...
ROW_NUMBER() OVER(PARTITION BY ORDER BY )RN 只选一行
') ; SELECT DISTINCT PEGGED_SO_ID,PEGGED_SO_LINE_ID ,ITEM_ID ,QUANTITY ,LOCATION ,SITEID ,ROW_NUMBER ...
centos磁盘满了，查找大文件并清理
今天发现vps敲入crontab -e 居然提示 “Disk quota exceeded” 无法编辑.于是"df -h"查了查发现系统磁盘空间使用100%了.最后定位到是/var ...
HOOK -- DLL的远程注入技术详解(1)
DLL的远程注入技术是目前Win32病毒广泛使用的一种技术.使用这种技术的病毒体通常位于一个DLL中,在系统启动的时候,一个EXE程序会将这个DLL加载至某些系统进程(如Explorer.exe)中运 ...
vue打包后，接口请求404的完美解决方案
在开发环境中,和后台对接为了解决跨域问题,使用了代理,也就是vue的proxyTable,但是打包放到生产环境中去时,接口请求不到,404,原因是开发环境的代理并不能用到生产环境,但是直接在请求接口是 ...
computed
Vue.js在模板表达式中限制了,绑定表达式最多只能有一条表达式,但某些数据需要一条以上的表达式运算实现,此时就可以将此数据放在计算属性(computed)当中. Vuejs中关于computed ...
模板】AC自动机（简单版）
模板]AC自动机(简单版) https://www.luogu.org/problemnew/show/P3808 这是一道简单的AC自动机模板题. 用于检测正确性以及算法常数. 为了防止卡OJ,在保 ...
从零开始写bootloader(2)
下图是设置内核启动参数的存放图示,由于bootloader启动内核时,需要给内核传输一些启动参数,但是由于当bootloader把内核启动之后,程序就跳转到内核中执行了,再也不会回到bootload ...

word2vec_文本相似度

word2vec_文本相似度的更多相关文章

随机推荐

热门专题