tf–idf算法解释及其python代码实现(下)

tf–idf算法python代码实现

这是我写的一个tf-idf的简单实现的代码，我们知道tfidf=tf*idf，所以可以分别计算tf和idf值在相乘，首先我们创建一个简单的语料库，作为例子，只有四句话，每句表示一个文档

copus=['我正在学习计算机','它正在吃饭','我的书还在你那儿','今天不上班']

由于中文需要分词，jieba分词是python里面比较好用的分词工具，所以选用jieba分词，文末是jieba的链接。首先对文档进行分词：

import jieba

copus=['我正在学习计算机','它正在吃饭','我的书还在你那儿','今天不上班']

copus= [[word for word in jieba.cut(doc)] for doc in copus]

print(copus)

输出结果：

[['我', '正在', '学习', '计算机'], ['它', '正在', '吃饭'], ['我', '的', '书', '还', '在', '你', '那儿'], ['今天', '不', '上班']]

文档变成我们想要的格式了，然后开始词频统计，计算tf值，这里用Counter类来把每篇文档都转换成词和词频的字典，其实就已经得到tf值了

tf = []

for doc in copus:

tf.append(Counter(doc))

print(tf)

输出结果：

[Counter({'我': 1, '正在': 1, '学习': 1, '计算机': 1}), Counter({'它': 1, '正在': 1, '吃饭': 1}), Counter({'的': 1, '书': 1, '你': 1, '在': 1, '那儿': 1, '我': 1, '还': 1}), Counter({'今天': 1, '不': 1, '上班': 1})]

计算idf值

import math

from collections import defaultdict

idf = defaultdict(int)

for doc in tf:

    for word in doc:

        idf[word] += 1

for word in idf:

    idf[word] = math.log(len(idf)/(idf[word]+1))

print(idf)

输出结果：

defaultdict(<class 'int'>, {'的': 2.0149030205422647, '正在': 1.6094379124341003, '学习': 2.0149030205422647, '计算机': 2.0149030205422647, '今天': 2.0149030205422647, '书': 2.0149030205422647, '那儿': 2.0149030205422647, '它': 2.0149030205422647, '不': 2.0149030205422647, '在': 2.0149030205422647, '吃饭': 2.0149030205422647, '我': 1.6094379124341003, '你': 2.0149030205422647, '还': 2.0149030205422647, '上班': 2.0149030205422647})

剩下的事情就很简单了，只需要把tf和idf相乘就可以了。

下面是一个tfidf的实现代码

from collections import Counter,defaultdict

import jieba

import math

def file2list(file):

    '''

    把文件转换成列表，并对数据进行简单的预处理

    '''

    with open(file) as f:

        corpus = f.readlines()

        corpus = [[word.replace('\n','') for word in jieba.cut(line)] for line in corpus if line.strip()]

    return corpus

#c = file2list('E:\hei.txt')

def get_tf(corpus):

    return [Counter(doc) for doc in corpus]#用Counter函数把每篇文档转换成词和词频的字典

def get_idf(tf_dict):

    idf = defaultdict(int)

    for doc in tf_dict:

        for word in doc:

            idf[word] += 1

    for word in idf:

        idf[word] = math.log(len(idf)/(idf[word]+1))#idf的公式

    return idf

def get_tfidf(doc_id,file):

    '''doc_id是语料库中文档的id，file是txt的路径'''

    corpus = file2list(file)

    tf = get_tf(corpus)

    idf = get_idf(tf)

    if doc_id > len(tf):

        print("doc_id should smaller than %i"%len(tf))

    else:

        id_tf= tf[doc_id-1]

        for word in id_tf:

            id_tf[word] = id_tf[word]*idf[word]#计算tfidf值

        print(id_tf)

tf–idf算法解释及其python代码实现(下)的更多相关文章

tf–idf算法解释及其python代码实现(上)
tf–idf算法解释 tf–idf, 是term frequency–inverse document frequency的缩写,它通常用来衡量一个词对在一个语料库中对它所在的文档有多重要,常用在信息 ...
tf–idf算法解释及其python代码
tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四 ...
Elasticsearch由浅入深（十）搜索引擎：相关度评分 TF&IDF算法、doc value正排索引、解密query、fetch phrase原理、Bouncing Results问题、基于scoll技术滚动搜索大量数据
相关度评分 TF&IDF算法 Elasticsearch的相关度评分(relevance score)算法采用的是term frequency/inverse document frequen ...
55.TF/IDF算法
主要知识点: TF/IDF算法介绍查看es计算_source的过程及各词条的分数查看一个document是如何被匹配到的一.算法介绍 relevance score算法,简单来说 ...
神经网络BP算法C和python代码
上面只显示代码. 详BP原理和神经网络的相关知识,请参阅:神经网络和反向传播算法推导首先是前向传播的计算: 输入: 首先为正整数 n.m.p.t,分别代表特征个数.训练样本个数.隐藏层神经元个数.输 ...
光照问题之常见算法比较(附Python代码)
一.灰度世界算法 ① 算法原理灰度世界算法以灰度世界假设为基础,该假设认为:对于一幅有着大量色彩变化的图像,R,G,B三个分量的平均值趋于同一灰度值Gray.从物理意义上讲,灰色世界法假设自然界景物 ...
KNN算法原理（python代码实现）
kNN(k-nearest neighbor algorithm)算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性 ...
25.TF&IDF算法以及向量空间模型算法
主要知识点: boolean model IF/IDF vector space model 一.boolean model 在es做各种搜索进行打分排序时,会先用boolean mo ...
kNN算法基本原理与Python代码实践
kNN是一种常见的监督学习方法.工作机制简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k各训练样本,然后基于这k个“邻居”的信息来进行预测,通常,在分类任务中可使用“投票法”,即选择这k ...

随机推荐

解决libc.so.6: version `GLIBC_2.14' not found问题, 升级glibc,glibc-2.15
0.以下在系统CentOS 6.3 x86_64上操作 1.试图运行程序,提示"libc.so.6: version `GLIBC_2.14' not found",原因是系统的g ...
HDU 5893 List wants to travel（树链剖分）
[题目链接]http://acm.hdu.edu.cn/showproblem.php?pid=5893 [题目大意] 给出一棵树,每条边上都有一个边权,现在有两个操作,操作一要求将x到y路径上所有边 ...
ios app唤起页面跳转
有些时候我们需要再其他地方把app唤起,并打开跳转到指定的vc上面.这里我自己写了一个vc的mgr,最主要的技术是method swizzle.原理就不详述,看代码吧. // // ViewContr ...
简单使用SimpleCursorAdapter
http://my.oschina.net/javaeye/blog/14846 果使用Sqlite,建议和ContentProvider结合使用.这样数据库的生命周期就不用自己管了.然后,如果要在比 ...
汉诺塔 python版
汉诺塔问题:如果将n个盘子(由小到大)从a通过b,搬到c,搬运过程中不能出现小盘子在大盘子下面的情况. 思路分析:假设前要移动第100个盘子,分两步走,移动第99个:再移动第100个:而要移动第99个 ...
！！！易控INSPEC组态软件开发小结——-一次工程文件损坏和处理经过
从加入红橡开始熟悉和使用易控(INSPEC)组态软件,值得赞扬的是INSPEC的开放性和对C#语言的支持,除此之外,便也没有感觉它与其他组态软件有太多优势,有人说INSPEC软件授权比国内其他同类的组 ...
iOS 设置状态栏的颜色
1.在plist文件中设置如下属性: 2.在delegate中设置 [[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarSt ...
Windows 配置JAVA的环境变量
Java是由Sun公司开发的一种应用于分布式网络环境的程序设计语言,Java语言拥有跨平台的特性,它编译的程序能够运行在多种操作系统平台上,可以实现“一次编写,到处运行”的强大功能. 工具/原料 JD ...
HDU 1695 GCD（欧拉函数+容斥原理）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1695 题意:x位于区间[a, b],y位于区间[c, d],求满足GCD(x, y) = k的(x, ...
08-C语言循环
目录: 一.for循环二.break,continue 三.循环嵌套四.while 五.do while 六.三个循环的对比七.空语句回到顶部一.for循环标识每次循环,循环终止条件,循环 ...

tf–idf算法解释及其python代码实现(下)

tf–idf算法解释及其python代码实现(下)的更多相关文章

随机推荐

热门专题