python 用gensim进行文本相似度分析

http://blog.csdn.net/chencheng126/article/details/50070021

参考于这个博主的博文。

原理

1、文本相似度计算的需求始于搜索引擎。

搜索引擎需要计算“用户查询”和爬下来的众多”网页“之间的相似度，从而把最相似的排在最前返回给用户。

2、主要使用的算法是tf-idf

tf：term frequency 词频

idf：inverse document frequency 倒文档频率

主要思想是：如果某个词或短语在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

第一步：把每个网页文本分词，成为词包（bag of words）。

第三步：统计网页（文档）总数M。

第三步：统计第一个网页词数N，计算第一个网页第一个词在该网页中出现的次数n，再找出该词在所有文档中出现的次数m。则该词的tf-idf 为：n/N * 1/(m/M) （还有其它的归一化公式，这里是最基本最直观的公式）

第四步：重复第三步，计算出一个网页所有词的tf-idf 值。

第五步：重复第四步，计算出所有网页每个词的tf-idf 值。

3、处理用户查询

第一步：对用户查询进行分词。

第二步：根据网页库（文档）的数据，计算用户查询中每个词的tf-idf 值。

4、相似度的计算

使用余弦相似度来计算用户查询和每个网页之间的夹角。夹角越小，越相似。

 #coding=utf-8

 # import warnings

 # warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')

 import logging

 from gensim import corpora, models, similarities

 datapath = 'D:/hellowxc/python/testres0519.txt'

 querypath = 'D:/hellowxc/python/queryres0519.txt'

 storepath = 'D:/hellowxc/python/store0519.txt'

 def similarity(datapath, querypath, storepath):

     logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

     class MyCorpus(object):

         def __iter__(self):

             for line in open(datapath):

                 yield line.split()

     Corp = MyCorpus()

     dictionary = corpora.Dictionary(Corp)

     corpus = [dictionary.doc2bow(text) for text in Corp]

     tfidf = models.TfidfModel(corpus)

     corpus_tfidf = tfidf[corpus]

     q_file = open(querypath, 'r')

     query = q_file.readline()

     q_file.close()

     vec_bow = dictionary.doc2bow(query.split())

     vec_tfidf = tfidf[vec_bow]

     index = similarities.MatrixSimilarity(corpus_tfidf)

     sims = index[vec_tfidf]

     similarity = list(sims)

     sim_file = open(storepath, 'w')

     for i in similarity:

         sim_file.write(str(i)+'\n')

     sim_file.close()

 similarity(datapath, querypath, storepath)

贴一下我的test代码。

我的test文件querypath是一个问题，datapath是对这个问题的各种回答，我试图通过文本相似度来分析问题和哪个答案最匹配。。

原博客的测试是querypath是商品描述，datapath是商品的评论，通过文本相似度来分析，商品描述和实际的商品是否差异过大。

贴一下我的测试数据。很小的数据，就是测试一下这个：

注意所有的数据已经经过分词处理，分词怎么处理，可以用python的jieba库分词处理。可以参考http://www.cnblogs.com/weedboy/p/6854324.html

query

data

store(也就是结果）

测试结果和问题实际上最应该匹配的对不上。。

总结：

1.gensim 除了提供了tf-idf 算法，好好利用

2.我用jieba分词的忘记删掉停用词了，给结果带来很大影响，jieba库里有函数可以删停用词的

3.问答系统中，关于问题和答案匹配，如果不用有监督的机器学习是不行的。。

python 用gensim进行文本相似度分析的更多相关文章

【Pyhton 数据分析】通过gensim进行文本相似度分析
环境描述 Python环境:Python 3.6.1 系统版本:windows7 64bit 文件描述一共有三个文件,分别是:file_01.txt.file_02.txt.file_03.txt ...
转：Python 文本挖掘：使用gensim进行文本相似度计算
Python使用gensim进行文本相似度计算转于:http://rzcoding.blog.163.com/blog/static/2222810172013101895642665/ 在文本处理 ...
文本相似度分析（基于jieba和gensim）
基础概念本文在进行文本相似度分析过程分为以下几个部分进行, 文本分词语料库制作算法训练结果预测分析过程主要用两个包来实现jieba,gensim jieba:主要实现分词过程 gensim: ...
文本离散表示（三）：TF-IDF结合n-gram进行关键词提取和文本相似度分析
这是文本离散表示的第二篇实战文章,要做的是运用TF-IDF算法结合n-gram,求几篇文档的TF-IDF矩阵,然后提取出各篇文档的关键词,并计算各篇文档之间的余弦距离,分析其相似度. TF-IDF与n ...
Python 文本相似度分析
环境 Anaconda3 Python 3.6, Window 64bit 目的利用 jieba 进行分词,关键词提取利用gensim下面的corpora,models,similarities ...
基于python语言使用余弦相似性算法进行文本相似度分析
编写此脚本的目的: 本人从事软件测试工作,近两年发现项目成员总会提出一些内容相似的问题,导致开发抱怨.一开始想搜索一下是否有此类工具能支持查重的工作,但并没找到,因此写了这个工具.通过从纸上谈兵到着手 ...
【NLP】Python实例：基于文本相似度对申报项目进行查重设计
Python实例:申报项目查重系统设计与实现作者:白宁超 2017年5月18日17:51:37 摘要:关于查重系统很多人并不陌生,无论本科还是硕博毕业都不可避免涉及论文查重问题,这也对学术不正之风起 ...
TF-IDF 文本相似度分析
前阵子做了一些IT opreation analysis的research,从产线上取了一些J2EE server运行状态的数据(CPU,Menory...),打算通过训练JVM的数据来建立分类模型, ...
LSTM 句子相似度分析
使用句子中出现单词的Vector加权平均进行文本相似度分析虽然简单,但也有比较明显的缺点:没有考虑词序且词向量区别不明确.如下面两个句子: "北京的首都是中国"与"中国的 ...

随机推荐

python自动开发之（算法）第二十七天
1.什么是算法? 算法(Algorithm):一个计算过程,解决问题的方法 2.复习:递归递归的两个特点:(1) 调用自身 (2)结束条件 def func1(x): print(x) func1( ...
C++之模板编程
当我们越来越多的使用C++的特性, 将越来越多的问题和事物抽象成对象时, 我们不难发现:很多对象都具有共性. 比如数值可以增加.减少:字符串也可以增加减少. 它们的动作是相似的, 只是对象的类型不同 ...
python操作上级子文件
. └── folder ├── data │ └── data.txt └── test1 └── test2 └── test.py import os '***获取当前目录***'print o ...
React 16 源码瞎几把解读【三点一】把react组件对象弄到dom中去(矛头指向fiber，fiber不解读这个过程也不知道)
一.ReactDOM.render 都干啥了我们在写react的时候,最后一步肯定是 ReactDOM.render( <div> <Home name="home&qu ...
elk系列8之logstash+redis+es的架构来收集apache的日志【转】
preface logstash--> redis --> logstash --> es这套架构在讲究松耦合关系里面是最简单的,架构图如下: 解释下这个架构图的流程首先前端log ...
u-boot引导内核过程
目标板:2440 u-boot引导内核启动时,传入内核的参数为bootcmd=nand read.jffs2 0x30007FC0 kernel; bootm 0x30007FC0 一.nand re ...
python_异常处理
常用异常种类 AttributeError 试图访问一个对象没有的树形,比如foo.x,但是foo没有属性x IOError 输入/输出异常:基本上是无法打开文件 ImportError 无法引入模块 ...
HDU 3342 Legal or Not（拓扑排序判断成环）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=3342 题目大意:n个点,m条有向边,让你判断是否有环. 解题思路:裸题,用dfs版的拓扑排序直接套用即 ...
HDU 1217 Arbitrage(Bellman-Ford判断负环+Floyd)
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1217 题目大意:问你是否可以通过转换货币从中获利如下面这组样例: USDollar 0.5 Brit ...
深度学习方法（九）：自然语言处理中的Attention Model注意力模型
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.NET/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入. 上一篇博文深度学习方法(八):Enc ...

python 用gensim进行文本相似度分析

python 用gensim进行文本相似度分析的更多相关文章

随机推荐

热门专题