TF-IDF学习（python实现）

从大一开始接触TF-IDF，一直觉得这个特别简单，，但是图样图森破，，，

即使现在来说，也似乎并非完全搞懂

核心思想：

　　计算词语在该文章中权重，与词语出现次数和词语价值有关

　　词语出现次数，重复即强调，越重要

　　词语价值，出现在越多的文档中越滥情，越廉价

公式：

　　词频TF = 出现次数 / 总次数

　　逆向文件频率IDF = log( 总文档数 / ( 出现文档数+1) )

　　TF-IDF = TF * IDF

具体计算：

1.我的代码：

　　# 由于算这个是为了求feature值，因此用了jieba，轻量级好用的分词包，具体可参见它的github：https://github.com/hosiet/jieba

　　# 并且最终计算结果用json存储在文件中

　　起初，自己写了个代码计算

 #coding=utf-8

 import jieba

 import re

 import math

 import json

 with open('stop_words.txt', 'r', encoding='utf-8') as f:

     stopwords = [x[:-1] for x in f]

 data = []

 tf = {}

 doc_num = {}

 tfidf = {}

 def calcu_tf():

     '''计算tf值'''

     with open('exercise.txt', 'r', encoding='utf-8') as f:

         lines = f.readlines()

         global TOTAL

         TOTAL = 0

         for l in lines:

             # 使用jieba分词

             lx = re.sub('\W', '', l)

             list = jieba.lcut(lx)

             # 每句话中一个词可能出现多次

             tmp = {}

             for i in list:

                 if(i not in doc_num):

                     doc_num[i] = 0

                 if (i not in stopwords)and(i not in tmp):

                     data.append(i)

                     # 计算出现在多少个文档里

                     tmp[i] = 1

                     doc_num[i] += 1

             # 计算总文档数

             TOTAL += 1

     dataset = set(data)

     for i in dataset:

         tf[i] = data.count(i)

 def calcu_tfidf():

     '''计算TF-IDF值'''

     for i in tf:

         tfidf[i] = tf[i] * math.log10(TOTAL / (doc_num[i]+1))

 if __name__ == '__main__' :

     calcu_tf()

     calcu_tfidf()

     print(tfidf)

     with open('tfidf.json', 'w', encoding="utf-8") as file:

         # json.dumps需要设置一下参数，不然文件中全是/u什么的

         file.write(json.dumps(tfidf, ensure_ascii=False, indent=2))

是自己设置的测试文档。。以及运算结果（部分截图）

最终用时1.54041444018928秒

2.使用sklearn包

但后来觉得，有现成能用就用现成的，毕竟少好多代码

于是，使用scikit-learn计算TF-IDF值就诞生了

　　# sklearn包的安装另一篇博客中有写http://www.cnblogs.com/rucwxb/p/7297733.html

计算过程：

　　CountVectorizer计算TF

　　TFidfTransformer计算IDF

核心代码：

 from sklearn.feature_extraction.text import CountVectorizer

 from sklearn.feature_extraction.text import TfidfTransformer

 from numpy import *

 import time

 import jieba

 import re

 def calcu_tfidf():

     corpus = []

     idfDic = {}

     tf = {}

     tfs = []

     tfidf = {}

     with open('exercise.txt', 'r', encoding='utf-8') as f:

         for x in f:

             lx = re.sub('\W', '', x)

             jb = jieba.lcut(lx)

             list = []

             for i in jb:

                 if i not in stopwords:

                     list.append(i)

             list = " ".join(list)

             corpus.append(list)

     #将文本中的词语转换为词频矩阵

     vectorizer = CountVectorizer(ngram_range=(1, 1), lowercase=False, token_pattern = r'\b\w+\b', min_df = 1)

     #类调用

     transformer = TfidfTransformer()

     #计算个词语出现的次数

     tf_mat = vectorizer.fit_transform(corpus)

     tfidf = transformer.fit_transform(tf_mat)

     #获取词袋中所有文本关键词

     words = vectorizer.get_feature_names()

     # 获得IDF和TF值

     tfs = tf_mat.sum(axis=0).tolist()

     for i, word in enumerate(words):

         idfDic[word] = transformer.idf_[i]

         tf[word] = tfs[i]

     # 计算TF-IDF

     for i in words:

         tfidf[i] = idfDic[i] * tf[i]

 if __name__ == '__main__' :

     startT = time.clock()

     with open('stop_words.txt', 'r', encoding='utf-8') as f:

         stopwords = [x[:-1] for x in f]

     calcu_tfidf()

     with open('tfidf2.json', 'w', encoding="utf-8") as file:

         # json.dumps需要设置一下参数，不然文件中全是/u什么的

         file.write(json.dumps(tfidf, ensure_ascii=False, indent=2))

     endT = time.clock()

     print(endT-startT)

TF-IDF学习（python实现）的更多相关文章

tf–idf算法解释及其python代码实现(下)
tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四 ...
tf–idf算法解释及其python代码
tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四 ...
tf–idf算法解释及其python代码实现(上)
tf–idf算法解释 tf–idf, 是term frequency–inverse document frequency的缩写,它通常用来衡量一个词对在一个语料库中对它所在的文档有多重要,常用在信息 ...
文本分类学习（三）特征权重（TF/IDF）和特征提取
上一篇中,主要说的就是词袋模型.回顾一下,在进行文本分类之前,我们需要把待分类文本先用词袋模型进行文本表示.首先是将训练集中的所有单词经过去停用词之后组合成一个词袋,或者叫做字典,实际上一个维度很大的 ...
Elasticsearch学习之相关度评分TF&IDF
relevance score算法,简单来说,就是计算出,一个索引中的文本,与搜索文本,他们之间的关联匹配程度 Elasticsearch使用的是 term frequency/inverse doc ...
学习python
最近感觉Python 很不错的样子,乘着这次寒假,不如就先学一下吧. 翻看了一些教程,发现<python 简明教程>质量上乘. 我目前学习python就是打算做一些上位机之类的,好像有点杀 ...
Python学习--Python基础语法
第一个Python程序交互式编程交互式编程不需要创建脚本文件,是通过 Python 解释器的交互模式进来编写代码. linux上你只需要在命令行中输入 Python 命令即可启动交互式编程,提示窗 ...
Linux运维人员如何学习python编程
Linux运维人员如何学习python编程从不会写代码,到自己独立能写代码解决问题 .这个问题很重要!盲目学习所谓的项目,最后还是不会自己写代码解决问题.首先解决了独立能写代码解决问题,再通过项目 ...
新手学习Python时常见的错误
最近学习Python,现在把一些常见的错误总结如下: 1)忘记在 if , elif , else , for , while , class ,def 声明末尾添加 :(导致 "Synta ...
学习Python的三种境界
前言王国维在<人间词话>中将读书分为了三种境界:"古今之成大事业.大学问者,必经过三种之境界:'昨夜西风凋碧树,独上高楼,望尽天涯路'.此第一境也.'衣带渐宽终不悔,为伊消得人 ...

随机推荐

内核对象kobject和sysfs（4）——kset分析
内核对象kobject和sysfs(4)--kset分析从狭义上来说,kset就是kobj的一个再封装而已.在封装之后,提供了针对kset之下所有kobj统一管理的一些方法. 我们还是从结构说起: ...
HDU1036 Average is not Fast Enough!
Problem Description A relay is a race for two or more teams of runners. Each member of a team runs o ...
解决 CefSharp WPF控件不能使用输入法输入中文的问题（代码已提交到 github）
首先,本文所有代码已经提交到github,需要的可以直接从github获取:https://github.com/starts2000/CefSharp,希望可以帮助到有需要的朋友们. CEF 简介 ...
.NET MVC与三层架构
虽然接触了两者有一段时间了,但是有时还是会混淆概念,在此处不打算说明二者的区别,因为二者都是架构模式,并且也有一定的共存度,在实际开发中,严格区分意义不大.基于最近涉及到这部分知识就在复习下,编程过程 ...
jvm系列 (二) ---垃圾收集器与内存分配策略
垃圾收集器与内存分配策略前言:本文基于<深入java虚拟机>再加上个人的理解以及其他相关资料,对内容进行整理浓缩总结.本文中的图来自网络,感谢图的作者.如果有不正确的地方,欢迎指出. 目 ...
oracle 修改表空间文件路径方法
比如说修改 user01.dbf 文件的路径 1.先登录sqlplus: C:\Documents and Settings\chezh>sqlplus system/passwo ...
倒水问题（Fill,UVA 10603) lrj白书 p202
看着lrj的代码自己敲了一遍,还没调试成功.... 有时间再进行完善 /* 状态start到各个状态u1,u2,u3..... 的倒水量分别为u1.dist,u2.dist,u3.dist.... * ...
浅谈JavaScript和DOM中的类数组对象
JavaScript是一门弱类型语言,它的数据类型分为两大类:简单数据类型(5种:Undefined.Null.Boolean.Number.String)和复杂数据类型(1种:Object).Obj ...
NYOJ--27--dfs--水池数目
/* Name: NYOJ--27--水池数目 Author: shen_渊 Date: 17/04/17 15:42 Description: 经典dfs水题,,, */ #include<i ...
pickle和json模块
json模块 json模块是实现序列化和反序列化的,主要用户不同程序之间的数据交换,首先来看一下: dumps()序列化 import json '''json模块是实现序列化和反序列话功能的''' ...

TF-IDF学习（python实现）

TF-IDF学习（python实现）的更多相关文章

随机推荐

热门专题