One-Hot 编码即独热编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效。这样做的好处主要有：1. 解决了分类器不好处理属性数据的问题； 2. 在一定程度上也起到了扩充特征的作用。

将离散型特征进行one-hot编码的作用，是为了让距离计算更合理，但如果特征是离散的，并且不用one-hot编码就可以很合理的计算出距离，那么就没必要进行one-hot编码。离散特征进行one-hot编码，编码后的特征，其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样，对每一维特征进行归一化。比如归一化到[-1,1]或归一化到均值为0,方差为1。

基于树的方法是不需要进行特征的归一化，例如随机森林，bagging 和 boosting等。基于参数的模型或基于距离的模型，都是要进行特征的归一化。Tree Model不太需要one-hot编码：对于决策树来说，one-hot的本质是增加树的深度。

one hot encoding的优点就是它的值只有0和1，不同的类型存储在垂直的空间。缺点就是，当类别的数量很多时，特征空间会变得非常大。在这种情况下，一般可以用PCA来减少维度。而且one hot encoding+PCA这种组合在实际中也非常有用。总的来说，要是one hot encoding的类别数目不太多，建议优先考虑。

one hot 编码及数据归一化
对于非负数类型编码利用onehotEncode
对于字符以及混合类型编码利用labelEncode

# 简单来说 LabelEncoder 是对不连续的数字或者文本进行编号

# sklearn.preprocessing.LabelEncoder()：标准化标签，将标签值统一转换成range(标签值个数-1)范围内

from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()

le.fit([1,5,67,100])

le.transform([1,1,100,67,5])

out： array([0, 0, 3, 2, 1], dtype=int64)

#OneHotEncoder 用于将表示分类的数据扩维：

from sklearn.preprocessing import OneHotEncode

ohe = OneHotEncoder()

ohe.fit([[1],[2],[3],[4]])

ohe.transform([[2],[3],[1],[4]]).toarray()

out：array([[ 0.,  1.,  0.,  0.],

       [ 0.,  0.,  1.,  0.],

       [ 1.,  0.,  0.,  0.],

       [ 0.,  0.,  0.,  1.]])

- 源码：

 Examples

    --------

    Given a dataset with three features and four samples, we let the encoder

    find the maximum value per feature and transform the data to a binary

    one-hot encoding.

    >>> from sklearn.preprocessing import OneHotEncoder

    >>> enc = OneHotEncoder()

    >>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], \

[1, 0, 2]])  # doctest: +ELLIPSIS

    OneHotEncoder(categorical_features='all', dtype=<... 'numpy.float64'>,

           handle_unknown='error', n_values='auto', sparse=True)

    >>> enc.n_values_

    array([2, 3, 4])

    >>> enc.feature_indices_

    array([0, 2, 5, 9])

    >>> enc.transform([[0, 1, 1]]).toarray()

    array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.]])

 Examples

    --------

    `LabelEncoder` can be used to normalize labels.

    >>> from sklearn import preprocessing

    >>> le = preprocessing.LabelEncoder()

    >>> le.fit([1, 2, 2, 6])

    LabelEncoder()

    >>> le.classes_

    array([1, 2, 6])

    >>> le.transform([1, 1, 2, 6]) #doctest: +ELLIPSIS

    array([0, 0, 1, 2]...)

    >>> le.inverse_transform([0, 0, 1, 2])

    array([1, 1, 2, 6])

    It can also be used to transform non-numerical labels (as long as they are

    hashable and comparable) to numerical labels.

    >>> le = preprocessing.LabelEncoder()

    >>> le.fit(["paris", "paris", "tokyo", "amsterdam"])

    LabelEncoder()

    >>> list(le.classes_)

    ['amsterdam', 'paris', 'tokyo']

    >>> le.transform(["tokyo", "tokyo", "paris"]) #doctest: +ELLIPSIS

    array([2, 2, 1]...)

    >>> list(le.inverse_transform([2, 2, 1]))

    ['tokyo', 'tokyo', 'paris']

LabelEncoder和OneHotEncoder 在特征工程中的应用
下面引入scikit learn中的OneHotEncoder的介绍。

http://scikit-learn.org/stable/modules/preprocessing.html#preprocessing

一、One-Hot Encoding

One-Hot编码，又称为一位有效编码，主要是采用 $N$ 位状态寄存器来对 $N$ 个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

有如下三个特征属性：

二、One-Hot Encoding的处理方法

三、实际的Python代码

在实际的机器学习的应用任务中，特征有时候并不总是连续值，有可能是一些分类值，如性别可分为“male”和“female”。在机器学习任务中，对于这样的特征，通常我们需要对其进行特征数字化，如下面的例子：

性别：["male"，"female"]
地区：["Europe"，"US"，"Asia"]
浏览器：["Firefox"，"Chrome"，"Safari"，"Internet Explorer"]

对于某一个样本，如["male"，"US"，"Internet Explorer"]，我们需要将这个分类值的特征数字化，最直接的方法，我们可以采用序列化的方式：[0,1,3]。但是这样的特征处理并不能直接放入机器学习算法中。

对于上述的问题，性别的属性是二维的，同理，地区是三维的，浏览器则是4维的，这样，我们可以采用One-Hot编码的方式对上述的样本“["male"，"US"，"Internet Explorer"]”编码，“male”则对应着[1，0]，同理“US”对应着[0，1，0]，“Internet Explorer”对应着[0,0,0,1]。则完整的特征数字化的结果为：[1,0,0,1,0,0,0,0,1]。这样导致的一个结果就是数据会变得非常的稀疏。

python 数据处理中的 LabelEncoder 和 OneHotEncoder的更多相关文章

python 数据处理中各种存储方式里数据类型的转换
自己记录,仅供参考在数据处理时经常会遇到数据类型不匹配的事情,为了方便查看各种存储方式中数据类型的改变.我把一些自己常用的整理方式记录下来,希望可以为以后数据类型的处理工作提供便利. 数据常用的基本 ...
Python数据处理PDF
Python数据处理(高清版)PDF 百度网盘链接:https://pan.baidu.com/s/1h8a5-iUr4mF7cVujgTSGOA 提取码:6fsl 复制这段内容后打开百度网盘手机A ...
Python 数据处理库 pandas 入门教程
Python 数据处理库 pandas 入门教程2018/04/17 · 工具与框架 · Pandas, Python 原文出处: 强波的技术博客 pandas是一个Python语言的软件包,在我们使 ...
参考《Python数据处理》中英文PDF+源代码
在实际操作中掌握数据处理方法,比较实用.采用基于项目的方法,介绍用Python完成数据获取.数据清洗.数据探索.数据呈现.数据规模化和自动化的过程.主要内容包括:Python基础知识,如何从CSV.E ...
python数据处理技巧二
python数据处理技巧二(掌控时间) 首先简单说下关于时间的介绍其中重点是时间戳的处理,时间戳是指格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00 ...
Python数据处理pdf （中文版带书签）、原书代码、数据集
Python数据处理前言 xiii第1 章 Python 简介 11.1 为什么选择Python 41.2 开始使用Python 41.2.1 Python 版本选择 51.2.2 安装Python ...
Python 数据处理库pandas教程（最后附上pandas_datareader使用实例）
0 简单介绍 pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库.本文是对它的一个入门教程. pandas提供了快速,灵活和富有 ...
解析Python编程中的包结构
解析Python编程中的包结构假设你想设计一个模块集(也就是一个"包")来统一处理声音文件和声音数据.通常由它们的扩展有不同的声音格式,例如:WAV,AIFF,AU),所以你可能 ...
python数据处理书pdf版本|内附网盘链接直接提取|
Python数据处理采用基于项目的方法,介绍用Python完成数据获取.数据清洗.数据探索.数据呈现.数据规模化和自动化的过程.主要内容包括:Python基础知识,如何从CSV.Excel.XML.J ...

随机推荐

CSUOJ 1011 Counting Pixels
Description Did you know that if you draw a circle that fills the screen on your 1080p high definiti ...
Could not get constructor for org.hibernate.persister.entity.SingleTableEntityPersister报错解决办法
在做Hibernate框架数据库的关联关系映射练习中出现了Could not get constructor for org.hibernate.persister.entity.SingleTabl ...
富文本插件KindEditor
具体用法查看官网http://kindeditor.net/doc.php {% load staticfiles %} <!DOCTYPE html> <html lang=&qu ...
模型构建<1>:模型评估-分类问题
对模型的评估是指对模型泛化能力的评估,主要通过具体的性能度量指标来完成.在对比不同模型的能力时,使用不同的性能度量指标可能会导致不同的评判结果,因此也就意味着,模型的好坏只是相对的,什么样的模型是较好 ...
SpringBoot+SpringSecurity+Thymeleaf认证失败返回错误信息踩坑记录
Spring boot +Spring Security + Thymeleaf认证失败返回错误信息踩坑记录步入8102年,现在企业开发追求快速,Springboot以多种优秀特性引领潮流,在众多使 ...
php模块组成
php总共有三个模块:内核.ZEND引擎.扩展. 内核是用来处理请求.文件流.错误处理等操作的: ZEND引擎是将源文件转换成机器语言,然后在虚拟机上运行: 扩展层是一组函数.类库和流,php使用它们 ...
JavaScript RegExp对象的exec()方法
JavaScript RegExp对象的exec()方法用来匹配字符串,它的行为与match()有些不同. 对于RegExpObject.exec(),w3school上面是这样介绍的: exec() ...
BrowserRouter和HashRouter的区别
BrowserRouter: 原理是H5的history API,IE9及以下不兼容,需要由web server支持,在web client这边window.location.pathname被rea ...
成为一名JAVA高级工程师你需要学什么【转】
宏观上: 1.技术广度方面至少要精通多门开源技术吧,研究过struts\spring等的源码. 2.项目经验方面从头到尾跟过几个大项目,头是指需求阶段,包括需求调研.尾是指上线交付之后,包括维护阶段. ...
Tracing mysqld Using DTrace
http://dev.mysql.com/doc/refman/5.6/en/dba-dtrace-server.html MySQL 5.6 Reference Manual -> 5 MyS ...

python 数据处理中的 LabelEncoder 和 OneHotEncoder

一、One-Hot Encoding

二、One-Hot Encoding的处理方法

三、实际的Python代码

python 数据处理中的 LabelEncoder 和 OneHotEncoder的更多相关文章

随机推荐

热门专题