TF-IDF笔记(直接调用函数、手写)
首先TF-IDF 全称:term frequency–inverse document frequency,是一种用于信息检索与数据挖掘的常用加权技术。
TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
上面是百度的结果
我的理解就是用来筛选特征的,看看那些词用来当特征比较好。
词频(TF):就是一个词在一个文本里出现的次数除以文本词数。(文本内词出现次数 /文本内词总数)
逆文本频率指数(IDF):就是总文本数除以包含这个词的文本数的10的对数,有点饶哈哈。lg(总文本数/包含这个词的文本数)
TF-IDF = TF*IDF
先看下调用的:
# CountVectorizer会将文本中的词语转换为词频矩阵
vectorizer = CountVectorizer(max_features=1200, min_df=12)
# TfidfTransformer用于统计vectorizer中每个词语的TF-IDF值
tf_idf_transformer = TfidfTransformer()
# vectorizer.fit_transform()计算每个词出现的次数
# tf_idf_transformer.fit_transform将词频矩阵统计成TF-IDF值
tf_idf = tf_idf_transformer.fit_transform(vectorizer.fit_transform(train_features['features'].values.astype('U'))) # .values.astype('U')
x_train_weight = tf_idf.toarray() # 训练集TF-IDF权重矩阵
然后是我手写的:
参数格式是,[词1 词2 词3,词1 词2 词3,词1 词2 词3]
一个字符串列表,词与词间用空格隔开。
print("-"*5+"构建tf-idf权重矩阵中"+"-"*5)
def get_tf_idf(list_words):
# 构建词典
wordSet = list(set(" ".join(list_words).split()))
# 统计词数
def count_(words):
wordDict = dict.fromkeys(wordSet, 0)
for i in words:
wordDict[i] += 1
return wordDict
# 计算tf
def computeTF(words):
cnt_dic = count_(words)
tfDict = {}
nbowCount = len(words)
for word, count in cnt_dic.items():
tfDict[word] = count / nbowCount
return tfDict
# 计算idf
def get_idf():
filecont = dict.fromkeys(wordSet, 0)
for i in wordSet:
for j in list_words:
if i in j.split():
filecont[i] += 1
idfDict = dict.fromkeys(wordSet, 0)
le = len(list_words)
for word, cont in filecont.items():
idfDict[word] = math.log10(le/cont+1)
return idfDict
# 计算每个词的TF*IDF的值
def get_tf_idf(list_words):
idf_dic = get_idf()
ret = []
for words in list_words:
tf_dic = computeTF(words.split())
tf_idf_dic = {}
temp = []
for word, tf in tf_dic.items():
idf = idf_dic[word]
tf_idf = tf * math.log(len(list_words) / (idf+1))
tf_idf_dic[word] = tf_idf
for word in wordSet:
temp.append(tf_idf_dic.get(word, 0))
ret.append(temp)
return ret
return np.array(get_tf_idf(list_words))
tf-idf矩阵:
word_tf_idf = get_tf_idf(features)
慢的飞起,哈哈哈哈。
TF-IDF笔记(直接调用函数、手写)的更多相关文章
- JDBC学习笔记(10)——调用函数&存储过程
如何使用JDBC调用存储在数据库中的函数或存储过程: * 1.通过COnnection对象的prepareCall()方法创建一个CallableStatement * 对象的实例,在使用Con ...
- SVM学习笔记(二)----手写数字识别
引言 上一篇博客整理了一下SVM分类算法的基本理论问题,它分类的基本思想是利用最大间隔进行分类,处理非线性问题是通过核函数将特征向量映射到高维空间,从而变成线性可分的,但是运算却是在低维空间运行的.考 ...
- 【转】JDBC学习笔记(10)——调用函数&存储过程
转自:http://www.cnblogs.com/ysw-go/ 如何使用JDBC调用存储在数据库中的函数或存储过程: * 1.通过COnnection对象的prepareCall()方法创建一个C ...
- 5 TensorFlow入门笔记之RNN实现手写数字识别
------------------------------------ 写在开头:此文参照莫烦python教程(墙裂推荐!!!) ---------------------------------- ...
- tensorflow笔记(五)之MNIST手写识别系列二
tensorflow笔记(五)之MNIST手写识别系列二 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7455233.html ...
- 10分钟教你用python 30行代码搞定简单手写识别!
欲直接下载代码文件,关注我们的公众号哦!查看历史消息即可! 手写笔记还是电子笔记好呢? 毕业季刚结束,眼瞅着2018级小萌新马上就要来了,老腊肉小编为了咱学弟学妹们的学习,绞尽脑汁准备编一套大学秘籍, ...
- 一套手写ajax加一般处理程序的增删查改
倾述下感受:8天16次驳回.这个惨不忍睹. 好了不说了,说多了都是泪. 直接上代码 : 这个里面的字段我是用动软生成的,感觉自己手写哪些字段太浪费时间了,说多了都是泪 ajax.model层的代码: ...
- python笔记六(函数的参数、返回值)
一 调用函数 在写函数之前,我们先尝试调用现有的函数 >>> abs(-9) 9 除此之外,还有我们之前使用的len()等.可以用于数据类型转换的 int() float() str ...
- 第三节,TensorFlow 使用CNN实现手写数字识别(卷积函数tf.nn.convd介绍)
上一节,我们已经讲解了使用全连接网络实现手写数字识别,其正确率大概能达到98%,这一节我们使用卷积神经网络来实现手写数字识别, 其准确率可以超过99%,程序主要包括以下几块内容 [1]: 导入数据,即 ...
随机推荐
- 有标号DAG计数(生成函数)
有标号DAG计数(生成函数) luogu 题解时间 首先考虑暴力,很容易得出 $ f[ i ] = \sum\limits_{ j = 1 }^{ i } ( -1 )^{ j - 1 } \bino ...
- Maven项目报错:“No goals have been specified for this build”解决办法
clean install scf:run第一种解决办法:找到pom.xml文件,在<build>标签里面添加如下所示的代码即可.<defaultGoal> compile & ...
- github新手使用指南
常用命令: Git 速查表(摘自 AI有道) 一.常见命令 git init : 初始化 git 仓库,即将一个文件夹初始化为一个 git 仓库.具体的操作是创建一个 .git 隐藏文件夹 git ...
- 什么是Spring IOC 容器?
Spring IOC 负责创建对象,管理对象(通过依赖注入(DI),装配对象,配置对象,并且管理这些对象的整个生命周期.
- CHAR 和 VARCHAR 的区别?
1.CHAR 和 VARCHAR 类型在存储和检索方面有所不同 2.CHAR 列长度固定为创建表时声明的长度,长度值范围是 1 到 255 当 CHAR 值被存储时,它们被用空格填充到特定长度,检索 ...
- React+Webpack+ES6 兼容低版本浏览器(IE9)解决方案
虽然过了兼容IE6的噩梦时代,IE依旧阴魂不散,因为你可能还要兼容IE9.在ES6已经普及的今天,用ES6写react已经成了标配.但是babel编译的js语法,由于某些不规范的写法,可能在IE9下不 ...
- 适配手机端rpx像素
<script src="static/js/adaptive.js"></script> <script type="text/javas ...
- 【java】密码检查
[问题描述] 开发一个密码检查软件,密码要求: 长度超过8位 包括大小写字母.数字.其它符号,以上四种至少三种 不能有相同长度超2的子串重复 [输入形式] 一组或多组长度超过2的子符串.每组占一行 [ ...
- FastAPI(七十)实战开发《在线课程学习系统》接口开发--留言功能开发
在之前的文章:FastAPI(六十九)实战开发<在线课程学习系统>接口开发--修改密码,这次分享留言功能开发 我们能梳理下对应的逻辑 1.校验用户是否登录 2.校验留言的用户是否存在 3. ...
- ruby 版本管理RVM (ruby version manager)
macOS. 自带的ruby 版本目录权限比较高, 经常有很多 操作需要权限而不能执行 虽然 macOS 自带了一个 ruby 环境,但是是系统自己使用的,所以权限很小,只有 system. 而/Li ...