独热编码OneHotEncoder简介

在分类和聚类运算中我们经常计算两个个体之间的距离，对于连续的数字（Numric）这一点不成问题，但是对于名词性（Norminal）的类别，计算距离很难。即使将类别与数字对应，例如{‘A’，‘B’，‘C’}与[0,1,2]对应，我们也不能认为A与B，B与C距离为1，而A与C距离为2。独热编码正是为了处理这种距离的度量，该方法认为每个类别之间的距离是一样的。该方法将类别与向量对应，例如{‘A’，‘B’，‘C’}分别与[1,0,0],[0,1,0],[0,0,1]对应，注意现在各个类别之间的欧式距离是相同的。

现在我们说明OneHotEncoder函数的使用

 data=np.array([[1,0,3.25],

                [0,0,5.2],

                [2,1,3.6]])

 enc=OneHotEncoder(categorical_features=np.array([0,1]),n_values=[3,2])

 enc.fit(data)

 data=enc.transform(data).toarray()

 print(data)

运行结果为

[[ 0.    1.    0.    1.    0.    3.25]

 [ 1.    0.    0.    1.    0.    5.2 ]

 [ 0.    0.    1.    0.    1.    3.6 ]]

　　categorical_features是需要独热编码的列索引，n_values是对应categorical_features中各列下类别的数目，也就是原来的列拓展出新的列数。注意这里两个值可以不指定，直接使用fit_transform函数也可以，程序将统计各列中类别的多少。但是只对整数有效，对浮点数会转换为整数之后再统计，也就是对于3.5和3.6默认都是3，也就是同一类。如果指定了这两个参数，就要对未转换的数据提出要求，各列必须是以{0,1,2,3,4......}来编码，而不能以{1,10,100,200.........}这种随意的方式来编码。否则会出现数组越界的错误

独热编码OneHotEncoder简介的更多相关文章

OneHotEncoder独热编码和 LabelEncoder标签编码
学习sklearn和kagggle时遇到的问题,什么是独热编码?为什么要用独热编码?什么情况下可以用独热编码?以及和其他几种编码方式的区别. 首先了解机器学习中的特征类别:连续型特征和离散型特征拿到 ...
【转】数据预处理之独热编码（One-Hot Encoding）
原文链接:http://blog.csdn.net/dulingtingzi/article/details/51374487 问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值. ...
机器学习实战：数据预处理之独热编码（One-Hot Encoding）
问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值. 例如,考虑一下的三个特征: ["male", "female"] ["from ...
数据预处理：独热编码（One-Hot Encoding）
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
数据预处理：独热编码（One-Hot Encoding）和 LabelEncoder标签编码
一.问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值. 离散特征的编码分为两种情况: 1.离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one- ...
数据预处理之独热编码（One-Hot Encoding）（转载）
问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值. 例如,考虑一下的三个特征: ["male", "female"] ["from ...
机器学习数据预处理之独热编码（One-Hot Encoding）
问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值. 例如,考虑一下的三个特征: ["male", "female"] ["from ...
机器学习：数据预处理之独热编码（One-Hot）
前言 ———————————————————————————————————————— 在机器学习算法中,我们经常会遇到分类特征,例如:人的性别有男女,祖国有中国,美国,法国等.这些特征值并不是连续的 ...
One-Hot独热编码
One-Hot独热编码 Dummy Encoding VS One-Hot Encoding二者都可以对Categorical Variable做处理,定性特征转换为定量特征,转换为定量特征其实就是将 ...

随机推荐

Maven搭建SpringMVC+MyBatis+Json项目（多模块项目）
一.开发环境 Eclipse:eclipse-jee-luna-SR1a-win32; JDK:jdk-8u121-windows-i586.exe; MySql:MySQL Server 5.5; ...
SharedPreferences的使用
12 Nonlinear Transformation
一.二次假设实际上线性假设的复杂度是受到限制的, 需要高次假设打破这个限制假设数据不是线性可分的,但是可以被一个圆心在原点的圆分开, 需要我们重新设计基于该圆的PLA等算法吗不用, 只需要通过非 ...
Maven在Windows中的配置以及IDE中的项目创建
Maven在Windows下的配置 1.Maven下载地址:http://maven.apache.org/download.cgi,下载红框里的版本即可. 2.解压到D盘: 3.修改配置文件sett ...
spark与hive的集成
一:介绍 1.在spark编译时支持hive 2.默认的db 当Spark在编译的时候给定了hive的支持参数,但是没有配置和hive的集成,此时默认使用hive自带的元数据管理:Derby数据库. ...
关于 HashTable
hashTable 的一些认识: 底层使用散列表,存贮键值对,键值非null 使用synchronize 保证线程安全 (线程安全) ■全局变量 //The hash table data. //底层 ...
dubbo负载均衡策略及对应源码分析
在集群负载均衡时,Dubbo 提供了多种均衡策略,缺省为 random 随机调用.我们还可以扩展自己的负责均衡策略,前提是你已经从一个小白变成了大牛,嘻嘻 1.Random LoadBalance 1 ...
python---random模块使用详解
random与随机操作有关的模块常用方法: random() --- 返回0-1之见得一个随机浮点数. 调用:random.random() 例如: >>> random.rand ...
util包里的一些类的使用
好几天没有更新我的博客了 .国庆放假出去玩了一趟,这回来应该收心回到我的事业上了,哈哈哈!废话不多说,开始学习吧!首先今天来学习一些例子,这些例子可以回顾假期遗忘的知识,还能提高自己的能力.程序也会相 ...
LeetCode-Palindromic Substrings
package Classify.DP.Medium; import org.junit.jupiter.api.Test; public class PalindromicSubstrings { ...

独热编码OneHotEncoder简介

独热编码OneHotEncoder简介的更多相关文章

随机推荐

热门专题