sklearn.feature_extraction.DictVectorizer

sklearn.feature_extraction.DictVectorizer：将字典组成的列表转换成向量。(将特征与值的映射字典组成的列表转换成向量)

1. 特征矩阵行代表数据，列代表特征，0表示该数据没有该特征

from sklearn.feature_extraction import DictVectorizer

# 设置sparse=False获得numpy ndarray形式的结果

v = DictVectorizer(sparse=False)

D = [{'foo':1, 'bar':2}, {'foo':3, 'baz':1}]

# 对字典列表D进行转换，转换成特征矩阵

X = v.fit_transform(D)

# 特征矩阵行代表数据，列代表特征，0表示该数据没有该特征

print(X)

[[ 2.  0.  1.]

 [ 0.  1.  3.]]

2. get_feature_names()获取特征列名

# 获取特征列名

print(v.get_feature_names())

['bar', 'baz', 'foo']

3. inverse_transform将特征矩阵还原成原始数据

# inverse_transform将特征矩阵还原成原始数据

# inverse:相反的

print(v.inverse_transform(X) == D)

True

4. 直接进行转换，不先进行拟合的话，无法识别新的特征

# 直接进行转换，不先进行拟合的话，无法识别新的特征。即没有fit。

print(v.transform([{'foo':4, 'unseen_feature':3}]))

[[ 0.  0.  4.]]

5. 配合特征选择

from sklearn.feature_selection import SelectKBest, chi2

# 使用卡方统计筛选出最好的2个特征

support = SelectKBest(chi2, k=2).fit(X, [0,1])

# 进行筛选，筛选的结果会自动覆盖原有特征矩阵

print(v.restrict(support.get_support()))

print(v.get_feature_names())

DictVectorizer(dtype=<class 'numpy.float64'>, separator='=', sort=True,

               sparse=False)

['bar', 'foo']

来自：https://www.cnblogs.com/hufulinblog/p/10591339.html

sklearn.feature_extraction.DictVectorizer的更多相关文章

特征抽取: sklearn.feature_extraction.DictVectorizer
sklearn.featture_extraction.DictVectorizer: 将特征与值的映射字典组成的列表转换成向量. DictVectorizer通过使用scikit-learn的est ...
特征抽取: sklearn.feature_extraction.FeatureHasher
sklearn.feature_extraction.FeatureHasher(n_features=1048576, input_type="dict", dtype=< ...
sklearn.feature_extraction.text 的TfidfVectorizer函数
TfidfVectorizer函数主要用于,将文档(句子)等通过 tf-idf值来进行表示,也就是用一个tf-idf值的矩阵来表示文档(句子也可). from sklearn.feature_extr ...
sklearn.feature_extraction.text.CountVectorizer 学习
CountVectorizer: CountVectorizer可以将文本文档集合转换为token计数矩阵.(token可以理解成词) 此实现通过使用scipy.sparse.csr_matrix产生 ...
《机学一》特征工程1 ——文本处理：sklearn抽取、jieba中文分词、TF和IDF抽取
零.机器学习整个实现过程: 一.机器学习数据组成特征值: 目标值: 二.特征工程和文本特征提取 1.概要: 1.特征工程是什么 2.特征工程的意义:直接影响预测结果 3.scikit-learn库 ...
利用sklearn进行字典&文本的特征提取
写在前面这篇博客主要内容: 应用DictVectorizer实现对类别特征进行数值化.离散化应用CountVectorizer实现对文本特征进行数值化特征提取API sklearn.featur ...
Sklearn 与 TensorFlow 机器学习实战—一个完整的机器学习项目
本章中,你会假装作为被一家地产公司刚刚雇佣的数据科学家,完整地学习一个案例项目.下面是主要步骤: 项目概述. 获取数据. 发现并可视化数据,发现规律. 为机器学习算法准备数据. 选择模型,进行训练. ...
[占位-未完成]scikit-learn一般实例之十一:异构数据源的特征联合
[占位-未完成]scikit-learn一般实例之十一:异构数据源的特征联合 Datasets can often contain components of that require differe ...
AI学习---特征工程【特征抽取、特征预处理、特征降维】
学习框架特征工程(Feature Engineering) 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已什么是特征工程: 帮助我们使得算法性能更好发挥性能而已 sklearn主 ...

随机推荐

ERA-interim
数据介绍整理中... https://software.ecmwf.int/wiki/display/UER/Time-integrated+surface+solar+radiation+downw ...
npoi c#
没有安装excel docx的情况下操作excel docx
Elasticsearch改动
随着Elasticsearch的版本升级,Elasticsearch的一些特性也在改变,下面是一些需要注意的地方 v6.x 版本之前 : 一个index下面是可以创建多个type v6.x 版本 : ...
C语言/C++知识
<C与指针>pdf 下载: 新浪微盘: https://vdisk.weibo.com/s/A6gkKkHrGH0g
Java程序员必备的一些流程图
Java程序员必备的一些流程图转自https://juejin.im/post/5d214639e51d4550bf1ae8df 前言: 整理了一些Java基础流程图/架构图,做一下笔记,大家一起学 ...
http协议和i/o模型
http协议----基于请求报文和响应报文完成一次http事务应用层协议格式有两种: 文本(开发容易,但交互解析困难如http smtp),二进制(交互解析容易,但理解起来困难memocache) ...
jquery 图片切换
仿着写的一个jquery的图片切换小插件,代码如下: html: <!DOCTYPE html> <html lang="en"> <head> ...
[Atcoder2292] Division into Two
题目大意给定n个不同的整数,求将它们分成两个集合X,Y,并且X集合中任意两个数的差>=A,Y集合中任意两个数的差>=B的方案数. 样例输入 5 3 7 1 3 6 9 12 样例输出 5 ...
MAC使用终端DISKUTIL命令给U盘分区(解决window优盘只有200M)
1.先使用diskutil list命令查看U盘代号 2.然后用下面的命令把它格式化: sudo diskutil eraseDisk FAT32 USB_NAME MBRFormat /dev/di ...
【C#-去空格】去掉字符串后空字符串\0\0\0\0\0\0
使用变量.Replace(@“\0”,"") string str="abcde\0\0\0\0\0\0"; str=str.Replace(@" ...

sklearn.feature_extraction.DictVectorizer

sklearn.feature_extraction.DictVectorizer的更多相关文章

随机推荐

热门专题