scikit-learn 中 OneHotEncoder 解析

概要

在 sklearn 包中，OneHotEncoder 函数非常实用，它可以实现将分类特征的每个元素转化为一个可以用来计算的值。本篇详细讲解该函数的用法，也可以参考官网 sklearn.preprocessing.OneHotEncoder。

解析

该函数在 sklearn.preprocessing 类中，格式为：

OneHotEncoder(n_values=’auto’,  categorical_features=’all’,  dtype=<class ‘numpy.float64’>,  sparse=True,  handle_unknown=’error’)

为了方便理解，我们先看下面一个例子：

# -*- coding: utf-8 -*-

from sklearn.preprocessing import  OneHotEncoder

enc = OneHotEncoder()

enc.fit([[0, 0, 3],

         [1, 1, 0],

         [0, 2, 1],

         [1, 0, 2]])

ans = enc.transform([[0, 1, 3]]).toarray()  # 如果不加 toarray() 的话，输出的是稀疏的存储格式，即索引加值的形式，也可以通过参数指定 sparse = False 来达到同样的效果

print(ans) # 输出 [[ 1.  0.  0.  1.  0.  0.  0.  0.  1.]]

下面解释输出结果的意思。对于输入数组，这依旧是把每一行当作一个样本，每一列当作一个特征，

我们先来看第一个特征，即第一列 $[0, 1, 0, 1]$，也就是说它有两个取值 0 或者 1，那么 one-hot 就会使用两位来表示这个特征，$[1,0]$ 表示 0， $[0,1]$ 表示 1，在上例输出结果中的前两位 $[1,0...]$ 也就是表示该特征为 0
第二个特征，第二列 $[0,1,2,0]$，它有三种值，那么 one-hot 就会使用三位来表示这个特征，$[1,0,0]$ 表示 0， $[0,1,0]$ 表示 1，$[0,0,1]$ 表示 2，在上例输出结果中的第三位到第六位 $[...0,1,0,0...]$ 也就是表示该特征为 1
第二个特征，第三列 $[3,0,1,2]$，它有四种值，那么 one-hot 就会使用四位来表示这个特征，$[1,0,0,0]$ 表示 0， $[0,1,0,0]$ 表示 1，$[0,0,1,0]$ 表示 2，$[0,0,0,1]$ 表示 3，在上例输出结果中的最后四位 $[...0,0,0,1]$ 也就是表示该特征为 3

好了，到此相信我们已经很明白它的意思了。值得注意的是，虽然训练样本中的数值仅仅代表类别，但是也必须使用数值格式的数据，如果使用字符串格式的数据会报错。

下面解释一下函数中参数的意思，

n_values=’auto’，表示每个特征使用几维的数值由数据集自动推断，即几种类别就使用几位来表示。当然也可以自己指定，看下面这个例子：

# -*- coding: utf-8 -*-

from sklearn.preprocessing import  OneHotEncoder

enc = OneHotEncoder(n_values = [2, 3, 4])

enc.fit([[0, 0, 3],

         [1, 1, 0]])

ans = enc.transform([[0, 2, 3]]).toarray()

print(ans) # 输出 [[ 1.  0.  0.  0.  1.  0.  0.  0.  1.]]

注意到训练样本中第二个特征列没有类别 2，但是结果中依然将类别 2 给编码了出来，这就是自己指定维数的作用了（我们使用 3 位来表示第二个特征，自然包括了类别 2），第三列特征同样如此。这也告诫我们，如果训练样本中有丢失的分类特征值，我们就必须显示地设置参数 n_values 了，这样防止编码出错。

categorical_features = 'all'，这个参数指定了对哪些特征进行编码，默认对所有类别都进行编码。也可以自己指定选择哪些特征，通过索引或者 bool 值来指定，看下例：

# -*- coding: utf-8 -*-

from sklearn.preprocessing import  OneHotEncoder

enc = OneHotEncoder(categorical_features = [0,2]) # 等价于 [True, False, True]

enc.fit([[0, 0, 3],

         [1, 1, 0],

         [0, 2, 1],

         [1, 0, 2]])

ans = enc.transform([[0, 2, 3]]).toarray()

print(ans) # 输出 [[ 1.  0.  0.  0.  0.  1.  2.]]

输出结果中前两位 $[1,0]$ 表示 0，中间四位 $[0,0,0,1]$ 表示对第三个特征 3 编码，第二个特征 2 没有进行编码，就放在最后一位。

dtype=<class ‘numpy.float64’> 表示编码数值格式，默认是浮点型。
sparse=True 表示编码的格式，默认为 True，即为稀疏的格式，指定 False 则就不用 toarray() 了
handle_unknown=’error’，其值可以指定为 "error" 或者 "ignore"，即如果碰到未知的类别，是返回一个错误还是忽略它。

方法 transform(X) 就是对 $X$ 进行编码了。在实际应用中，我们更常用方法 fit_transform()，也就是一步到位，看下例：

# -*- coding: utf-8 -*-

from sklearn.preprocessing import  OneHotEncoder

enc = OneHotEncoder(sparse = False)

ans = enc.fit_transform([[0, 0, 3],

                         [1, 1, 0],

                         [0, 2, 1],

                         [1, 0, 2]])

print(ans) # 输出 [[ 1.  0.  1. ...,  0.  0.  1.]

           #      [ 0.  1.  0. ...,  0.  0.  0.]

           #      [ 1.  0.  0. ...,  1.  0.  0.]

           #      [ 0.  1.  1. ...,  0.  1.  0.]]

scikit-learn 中 OneHotEncoder 解析的更多相关文章

(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
2016 - 1- 23 iOS中xml解析（！！！！！！！有坑要解决！！！！！！）
一: iOS中xml解析的几种方式简介 1.官方原生 NSXMLParser :SAX方式解析,使用起来比较简单 2.第三方框架 libxml2 :纯C 同时支持DOM与SAX GDataXML: D ...
WCF中配置文件解析
WCF中配置文件解析[1] 2014-06-14 WCF中配置文件解析参考 WCF中配置文件解析返回在WCF Service Configuration Editor的使用中,我们通过配置工具自 ...
Hadoop 中疑问解析
Hadoop 中疑问解析 FAQ问题剖析一.HDFS 文件备份与数据安全性分析1 HDFS 原理分析1.1 Hdfs master/slave模型 hdfs采用的是master/slave模型,一个 ...
JAVA方法调用中的解析与分派
JAVA方法调用中的解析与分派本文算是<深入理解JVM>的读书笔记,参考书中的相关代码示例,从字节码指令角度看看解析与分派的区别. 方法调用,其实就是要回答一个问题:JVM在执行一个方法 ...
Android中XML解析-Dom解析
Android中需要解析服务器端传过来的数据,由于XML是与平台无关的特性,被广泛运用于数据通信中,有的时候需要解析xml数据,格式有三种方式,分别是DOM.SAX以及PULL三种方式,本文就简单以D ...

随机推荐

帝都Day6——图论
//P2O5呢? 一.图的存储: 邻接矩阵:邻接表. 邻接矩阵:n*n的[][],[i][j]节点有边记1没边0 缺点空间复杂度O(n^2) 占用内存较大(我为什么要把这些东西写到这里呢???) 邻 ...
SSM+Druid的搭建
SSM+druid开发配置工程目录 1.先从pom文件开始吧 <project xmlns="http://maven.apache.org/POM/4.0.0" xmln ...
CF446B DZY Loves Modification 优先队列
As we know, DZY loves playing games. One day DZY decided to play with a n × m matrix. To be more pre ...
groovy使用小记
下载groovy的sdk, 解压后设置GROOVY_HOME和PATH变量 http://groovy-lang.org/download.html 使用IDEA创建java项目勾选Groovy组件 ...
bitnami-redmine Apache服务启动不起来
方法一: 通过 netstat -a -o 查看端口占用情况,关闭调用相关端口的进程. c:\> netstat -a -o Active Connections Proto Local ...
RMAN restore fails with ORA-01180: can not create datafile 1 (文档 ID 1265151.1)
http://blog.itpub.net/26655292/viewspace-2131269/ ########Q&A issue1:ORA-01180: can not create d ...
oracle 容灾库日常维护 ,健康检查脚本以及常见问题分析
select DEST_ID, APPLIED_SCN FROM v$archive_dest select * from v$dataguard_status; SELECT gvi.thread# ...
斗鱼扩展初识Chrome扩展(一)
看斗鱼有些时间了,也写了不少辅助的js,但是昨天不小心把硬盘分区表搞没了,自己写了好久的代码不见了,DiskGenius 也没恢复成功,所以要重写一次,大家要引以为鉴,常备份代码,github是个不错 ...
谷歌地图自定义popup框
谷歌地图的infowindow 不提供官方的定制化 <!DOCTYPE html> <html> <head> <meta name="viewpo ...
C 碎片一计算机知识
一.计算机知识 1, 计算机组成及工作原理计算机是硬件和软件的结合体.硬件由主机箱和外部设备组成,主机主要包括CPU.内存.主板.硬盘.光驱.各种扩展卡.连接线.电源等:外部设备包括鼠标.键盘等.软 ...

scikit-learn 中 OneHotEncoder 解析

概要

解析

scikit-learn 中 OneHotEncoder 解析的更多相关文章

随机推荐

热门专题