sklearn.feature_extraction.text 的TfidfVectorizer函数

TfidfVectorizer函数主要用于，将文档（句子）等通过 tf-idf值来进行表示，也就是用一个tf-idf值的矩阵来表示文档（句子也可）。

from sklearn.feature_extraction.text import TfidfVectorizer

1. 其函数源代码很长，这里只展示：

class TfidfVectorizer(CountVectorizer):

    """Convert a collection of raw documents to a matrix of TF-IDF features.

    Equivalent to CountVectorizer followed by TfidfTransformer.

    Read more in the :ref:`User Guide <text_feature_extraction>`.

其参数主要有：

input，encoding，decode_error，strip_accents，analyzer，preprocessor，tokenizer，ngram_range，stop_words，lowercase，token_pattern，max_df，min_df，max_features，vocabulary，binary，dtype，norm，use_idf，smooth_idf，sublinear_tf

其属性主要有：

vocabulary_，idf_，stop_words_

2. 常用的参数意义：

encoding：编码格式，默认是 utf-8

ngram_range：N元Gram，元组形式 tuple (min_n, max_n)，表示最后得到的特征可以由几个单部分（词/句子等）构成，min_n <= n <= max_n，例如(1,2)表示，得到的特征可以由1个或者2个连续的部分构成。

stop_words：string {'english'}, list, or None (default)，停用词，可以用列表导入自己的停用词

lowercase：将英文全部小写，默认是True

max_df：float in range [0.0, 1.0] or int, default=1.0，表示得到的词/部分出现在文档中的最大次数，如果大于该次数，则会去掉该词/部分，例如，若设置为0-1之间的浮点数0.6，表示所提取的特征出现在60%以下的文档中，如果大于60%，则会从特征中删除。如果为整数mm，表示该特征（很多时候是词或者句子）出现的文档数必须不大于mm，否则也会删除。

min_df：float in range [0.0, 1.0] or int, default=1，同理max_df，只不过是设置的下阈值，表示该特征出现的文档数小于该值则会被删除。

vocabulary：Mapping or iterable, optional，可以用字典，例如{"华为":0, "小米":1,"ov":2}，其中键值keys表示要关注的词/句子等特征，values值表示该值在特征矩阵中的索引；用于传入需要重点关注的词/句子等特征。不为空None时，max_df 和 min_df参数会失效。

use_idf：表示是否使用idf，也就是逆文档词频方法，默认是True

smooth_idf：表示在计算 idf 的时候，为了防止出现除以0的错误，会在公式中加上1。

3. 代码示例：

from sklearn.feature_extraction.text import TfidfVectorizer

import pandas as pd

test_txt = [

    '一向年光有限身。等闲离别易销魂。酒筵歌席莫辞频。满目山河空念远，落花风雨更伤春。不如怜取眼前人。',

    '燕鸿过后莺归去，细算浮生千万绪。长于春梦几多时，散似秋云无觅处。闻琴解佩神仙侣，挽断罗衣留不住。劝君莫作独醒人，烂醉花间应有数。',

    '绿杨芳草长亭路，年少抛人容易去。楼头残梦五更钟，花底离愁三月雨。无情不似多情苦，一寸还成千万缕。天涯地角有穷时，只有相思无尽处。',

    '槛菊愁烟兰泣露，罗幕轻寒，燕子双飞去。明月不谙离恨苦，斜光到晓穿朱户。昨夜西风凋碧树，独上高楼，望尽天涯路。欲寄彩笺兼尺素，山长水阔知何处。'

]

tfidf_ = TfidfVectorizer(max_df = 0.6, ngram_range = (1,1))  #中文是按照单个句子作为N元句法的，以标点为边界

tfidf_matrix = tfidf_.fit_transform(test_txt)

print(tfidf_.get_feature_names())  # 输出所提取的文本关键字，也就是特征，或者说词/句子

print(tfidf_.vocabulary_)          # 输出文本的关键字和其索引

print(tfidf_matrix.toarray())      # 输出最终形成的词频矩阵

X = pd.DataFrame(tfidf_matrix.toarray(), columns=tfidf_.get_feature_names())  #即可形成训练集的样本数据，加上自己的标签(例如y)就可以作为正式的训练集

输出为：

这里解释一下 ngram_range = (1,1)，所以出现的是单个的部分，也就是单个句子组成的特征，例如'一向年光有限身'，如果是(1,2)，则出现的特征会更多，形成的是['一向年光有限身','一向年光有限身等闲离别易销魂', '一寸还成千万缕', '一寸还成千万缕天涯地角有穷时'......]的形式，其他的(1,3), (2,4)等都与此类似。

可以看到：句子依然是句子，如果想要得到词，该怎么办呢？

当然是先将各个句子分词，然后形成list，同样传入list参数取代上面的test_txt即可。

分词：可以使用jieba分词。

import jieba

stop_words = [] #停用词需要自己加入

def cut_word(sentence):

    words = [i for i in jieba.cut(sentence) if i not in stop_words]

    # sentence是传入的单个句子，切完的词用空格隔开

    result = ' '.join(words)

    return result  #返回的值形成了一个以空格分隔的字符串

参考：

https://blog.csdn.net/blmoistawinde/article/details/80816179

https://www.cnblogs.com/my-love-is-python/p/10324709.html

sklearn.feature_extraction.text 的TfidfVectorizer函数的更多相关文章

sklearn.feature_extraction.text.CountVectorizer 学习
CountVectorizer: CountVectorizer可以将文本文档集合转换为token计数矩阵.(token可以理解成词) 此实现通过使用scipy.sparse.csr_matrix产生 ...
理解sklearn.feature.text中的CountVectorizer和TfidfVectorizer
""" 理解sklearn中的CountVectorizer和TfidfVectorizer """ from collections im ...
特征抽取: sklearn.feature_extraction.FeatureHasher
sklearn.feature_extraction.FeatureHasher(n_features=1048576, input_type="dict", dtype=< ...
特征抽取: sklearn.feature_extraction.DictVectorizer
sklearn.featture_extraction.DictVectorizer: 将特征与值的映射字典组成的列表转换成向量. DictVectorizer通过使用scikit-learn的est ...
sklearn.feature_extraction.DictVectorizer
sklearn.feature_extraction.DictVectorizer:将字典组成的列表转换成向量.(将特征与值的映射字典组成的列表转换成向量) 1. 特征矩阵行代表数据,列代表特征,0表 ...
sklearn中，数据集划分函数 StratifiedShuffleSplit.split() 使用踩坑
在SKLearn中,StratifiedShuffleSplit 类实现了对数据集进行洗牌.分割的功能.但在今晚的实际使用中,发现该类及其方法split()仅能够对二分类样本有效. 一个简单的例子如下 ...
Python初探——sklearn库中数据预处理函数fit_transform()和transform()的区别
敲<Python机器学习及实践>上的code的时候,对于数据预处理中涉及到的fit_transform()函数和transform()函数之间的区别很模糊,查阅了很多资料,这里整理一下: ...
【学亮IT手记】jQuery text()/html()回调函数实例
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <script sr ...
显示定位方法，提取中间text 封装成函数的方法
tager='工作台' element=WebDriverWait(self.dr,15,0.1).until( eval("lambda x: x."+'find_element ...

随机推荐

僵尸进程bug排除方法
多进程处理存在的问题直接return 200 子进程 signal.signal(signal.SIGCHLD, signal.SIG_IGN) #不管子进程,不然R的多进程切图会产生僵尸进程
awk（gawk）文本报告生成器
awk是gawk的链接文件,是一种优良的文本处理工具,实现格式化文本输出,是Linux和Unix现有环境中功能最强大的数据处理引擎之一.这种编程及数据操作语言的最大功能取决于一个人拥有的知识量,使用& ...
C# 将DataTable数据写入到txt文件中
见代码: /// <summary> /// 将DataTable里面的内容写入txt文件 /// </summary> /// <param name="dt ...
【Spring Boot学习之一】Spring Boot简介
环境 Java1.8 Spring Boot 1.3.2 一.Spring Boot特点1.使用java运行项目,内置tomcat,无需外部容器:2.减少XML配置,使用properties文件和注解 ...
QT+OPENCV实现录屏功能
本文使用QT+opencv来实现对指定窗体画面录制,并保存为avi文件. (1)获取窗体界面 QScreen类有一个grabWindow函数,可以用来获取窗体的画面,这个函数使用很简单,就是传入窗体句 ...
maven的依赖范围scope
compile(编译范围) compile是默认的范围:如果没有提供一个范围,那该依赖的范围就是编译范围.编译范围依赖在所有的classpath中可用,同时它们也会被打包. provided(已提供 ...
jquery对div元素进行鼠标移动（稍稍修改下可以实现div跟随鼠标）
/* 网上找了资料都是对于event.clientX和offset().left进行了计算,但是去掉了这个计算方式,直接使用当前坐标也一样,效果都一样不太好 strHeader:标题 jquery定位 ...
LeNet-5 卷积神经网络结构图
LeNet-5是Yann LeCun在1998年设计的用于手写数字识别的卷积神经网络,当年美国大多数银行就是用它来识别支票上面的手写数字的,它是早期卷积神经网络中最有代表性的实验系统之一.可以说,Le ...
vs code 自定义配置记录
java环境安装:https://devblogs.microsoft.com/visualstudio/announcing-visual-studio-code-java-installer/ 保 ...
Codeforces Round #604
Beautiful Regional Contest 题意题解代码 Beautiful Sequence 题意题解代码一个思路不够清晰的代码 Beautiful Mirrors with q ...

sklearn.feature_extraction.text 的TfidfVectorizer函数

sklearn.feature_extraction.text 的TfidfVectorizer函数的更多相关文章

随机推荐

热门专题