Python 文本相似度分析

环境

Anaconda3 Python 3.6, Window 64bit

目的

利用 jieba 进行分词，关键词提取

利用gensim下面的corpora，models，similarities 进行语料库建立，模型tfidf算法，稀疏矩阵相似度分析

代码

# -*- coding: utf-8 -*-

import jieba

from gensim import corpora, models, similarities

from collections import defaultdict

# 定义文件目录

work_dir = "D:/workspace/PythonSdy/data"

f1 = work_dir + "/t1.txt"

f2 = work_dir + "/t2.txt"

# 读取文件内容

c1 = open(f1, encoding='utf-8').read()

c2 = open(f2, encoding='utf-8').read()

# jieba 进行分词

data1 = jieba.cut(c1)

data2 = jieba.cut(c2)

data11 = ""

# 获取分词内容

for i in data1:

    data11 += i + " "

data21 = ""

# 获取分词内容

for i in data2:

    data21 += i + " "

doc1 = [data11, data21]

# print(doc1)

t1 = [[word for word in doc.split()]

      for doc in doc1]

# print(t1)

# # frequence频率

freq = defaultdict(int)

for i in t1:

    for j in i:

        freq[j] += 1

# print(freq)

# 限制词频

t2 = [[token for token in k if freq[j] >= 3]

      for k in t1]

print(t2)

# corpora语料库建立字典

dic1 = corpora.Dictionary(t2)

dic1.save(work_dir + "/yuliaoku.txt")

# 对比文件

f3 = work_dir + "/t3.txt"

c3 = open(f3, encoding='utf-8').read()

# jieba 进行分词

data3 = jieba.cut(c3)

data31 = ""

for i in data3:

    data31 += i + " "

new_doc = data31

print(new_doc)

# doc2bow把文件变成一个稀疏向量

new_vec = dic1.doc2bow(new_doc.split())

# 对字典进行doc2bow处理，得到新语料库

new_corpor = [dic1.doc2bow(t3) for t3 in t2]

tfidf = models.TfidfModel(new_corpor)

# 特征数

featurenum = len(dic1.token2id.keys())

# similarities 相似之处

# SparseMatrixSimilarity 稀疏矩阵相似度

idx = similarities.SparseMatrixSimilarity(tfidf[new_corpor], num_features=featurenum)

sims = idx[tfidf[new_vec]]

print(sims)

结果展示

从结果可以得出：被对比的文件3 和文件2内容更相近。

Python 文本相似度分析的更多相关文章

文本离散表示（三）：TF-IDF结合n-gram进行关键词提取和文本相似度分析
这是文本离散表示的第二篇实战文章,要做的是运用TF-IDF算法结合n-gram,求几篇文档的TF-IDF矩阵,然后提取出各篇文档的关键词,并计算各篇文档之间的余弦距离,分析其相似度. TF-IDF与n ...
文本相似度分析（基于jieba和gensim）
基础概念本文在进行文本相似度分析过程分为以下几个部分进行, 文本分词语料库制作算法训练结果预测分析过程主要用两个包来实现jieba,gensim jieba:主要实现分词过程 gensim: ...
【Pyhton 数据分析】通过gensim进行文本相似度分析
环境描述 Python环境:Python 3.6.1 系统版本:windows7 64bit 文件描述一共有三个文件,分别是:file_01.txt.file_02.txt.file_03.txt ...
python 文本相似度计算
参考:python文本相似度计算原始语料格式:一个文件,一篇文章. #!/usr/bin/env python # -*- coding: UTF-8 -*- import jieba from g ...
python 用gensim进行文本相似度分析
http://blog.csdn.net/chencheng126/article/details/50070021 参考于这个博主的博文. 原理 1.文本相似度计算的需求始于搜索引擎. 搜索引擎需要 ...
基于python语言使用余弦相似性算法进行文本相似度分析
编写此脚本的目的: 本人从事软件测试工作,近两年发现项目成员总会提出一些内容相似的问题,导致开发抱怨.一开始想搜索一下是否有此类工具能支持查重的工作,但并没找到,因此写了这个工具.通过从纸上谈兵到着手 ...
TF-IDF 文本相似度分析
前阵子做了一些IT opreation analysis的research,从产线上取了一些J2EE server运行状态的数据(CPU,Menory...),打算通过训练JVM的数据来建立分类模型, ...
【NLP】Python实例：基于文本相似度对申报项目进行查重设计
Python实例:申报项目查重系统设计与实现作者:白宁超 2017年5月18日17:51:37 摘要:关于查重系统很多人并不陌生,无论本科还是硕博毕业都不可避免涉及论文查重问题,这也对学术不正之风起 ...
LSTM 句子相似度分析
使用句子中出现单词的Vector加权平均进行文本相似度分析虽然简单,但也有比较明显的缺点:没有考虑词序且词向量区别不明确.如下面两个句子: "北京的首都是中国"与"中国的 ...

随机推荐

shell正则式解析身份证和手机号
cat test2.html | sed -e 's/\(^\|[^0-9]\)\(13[0-9][0-9]\{8\}\|14[579][0-9]\{8\}\|15[0-3,5-9][0-9]\{8\ ...
创建使用pycharm virtualenv
创建使用pycharm virtualenv 在python的世界里,真该感谢有PyCharm,pip,virtualenv 这些好东东,为python程序员提供了极大的方便. virtualenv ...
Redis核心解读（转）
原文:Redis核心解读 Redis是知名的键值数据库,它广泛用于缓存系统.关于Redis的信息已经不用我多介绍了.这个系统的Redis文章主要从另外一个角度关注,Redis作为一个开源项目,短短2W ...
python线程间数据共享(示例演示)
``` import threading data_list = [] def task(arg): data_list.append(arg) print(data_list) def run(): ...
TI C66x DSP 系统events及其应用 - 5.7（IST）
当CPU開始处理一个中断(INT4~15)时,它将引用中断服务表(IST).IST是一个获取包括中断服务代码的包的表. IST包括16个连续的获取包.每个中断服务获取包(ISFP)包括最多14条指令( ...
查询dubbo服务
1.公司内网肯定会有服务治理平台,把自己提供的服务接口当关键字查询即可. 2.命令方式实现查看本机Dubbo服务是否启动,telnet localhost [端口号],端口号是在注册dubbo服务的 ...
python库numpy的reshape的终极解释
a = np.arange(2*4*4) b = a.reshape(1,4,4,2) #应该这样按反序来理解:最后一个2是一个只有2个元素的向量,最后的4,2代表4×2的矩阵,最 ...
C# 事件浅析
前言对于搞.net的朋友来说,经常会遇到关于事件和委托的问题:事件与委托有什么关系?事件的本质是什么?委托的本质又是什么?由于.net 做了大量的封装,对于初学者,这两个概念确实不怎么好理解.事件是 ...
oracle ORA-01704: string literal too long
导出数据时,在SQL拼接处,提示 oracle ORA-01704: string literal too long sql: WITH already_in AS (SELECT distinct ...
2018 ACM 国际大学生程序设计竞赛上海大都会 F - Color it (扫描线)
题意:一个N*M的矩形,每个点初始都是白色的,有Q次操作,每次操作将以(x,y)为圆心,r为半径的区域涂成黑点.求最后剩余白色点数. 分析:对每行,将Q次操作在该行的涂色视作一段区间,那么该行最后的白 ...

Python 文本相似度分析

Python 文本相似度分析的更多相关文章

随机推荐

热门专题