• 实际应用pandas过程中,经常会用到category数据类型,通常以string的形式显示,包括颜色(红,绿,蓝),尺寸的大小(大,中,小),还有地理信息等(国家,省份),这些数据的处理经常会有各种各样的问题,pandas以及scikit-learn两个包可以将category数据转化为合适的数值型格式,这篇主要介绍通过这两个包处理category类型的数据转化为数值类型,也就是encoding的过程。
  • 数据来源UCI Machine Learning Repository,这个数据集中包含了很多的category类型的数据,可以从链接汇总查看数据的代表的含义。
  • 下面开始导入需要用到的包
  1. import numpy as np
  2. import pandas as pd
  1. # 规定一下数据列的各个名称,
  2. headers = ["symboling", "normalized_losses", "make", "fuel_type", "aspiration",
  3. "num_doors", "body_style", "drive_wheels", "engine_location",
  4. "wheel_base", "length", "width", "height", "curb_weight",
  5. "engine_type", "num_cylinders", "engine_size", "fuel_system",
  6. "bore", "stroke", "compression_ratio", "horsepower", "peak_rpm",
  7. "city_mpg", "highway_mpg", "price"]
  8. # 从pandas导入csv文件,将?标记为NaN缺失值
  9. df=pd.read_csv("http://mlr.cs.umass.edu/ml/machine-learning-databases/autos/imports-85.data",header=None,names=headers,na_values="?")
  10. df.head()
symboling normalized_losses make fuel_type aspiration num_doors body_style drive_wheels engine_location wheel_base ... engine_size fuel_system bore stroke compression_ratio horsepower peak_rpm city_mpg highway_mpg price
0 3 NaN alfa-romero gas std two convertible rwd front 88.6 ... 130 mpfi 3.47 2.68 9.0 111.0 5000.0 21 27 13495.0
1 3 NaN alfa-romero gas std two convertible rwd front 88.6 ... 130 mpfi 3.47 2.68 9.0 111.0 5000.0 21 27 16500.0
2 1 NaN alfa-romero gas std two hatchback rwd front 94.5 ... 152 mpfi 2.68 3.47 9.0 154.0 5000.0 19 26 16500.0
3 2 164.0 audi gas std four sedan fwd front 99.8 ... 109 mpfi 3.19 3.40 10.0 102.0 5500.0 24 30 13950.0
4 2 164.0 audi gas std four sedan 4wd front 99.4 ... 136 mpfi 3.19 3.40 8.0 115.0 5500.0 18 22 17450.0

5 rows × 26 columns

  1. df.dtypes
  1. symboling int64
  2. normalized_losses float64
  3. make object
  4. fuel_type object
  5. aspiration object
  6. num_doors object
  7. body_style object
  8. drive_wheels object
  9. engine_location object
  10. wheel_base float64
  11. length float64
  12. width float64
  13. height float64
  14. curb_weight int64
  15. engine_type object
  16. num_cylinders object
  17. engine_size int64
  18. fuel_system object
  19. bore float64
  20. stroke float64
  21. compression_ratio float64
  22. horsepower float64
  23. peak_rpm float64
  24. city_mpg int64
  25. highway_mpg int64
  26. price float64
  27. dtype: object
  1. # 如果只关注category 类型的数据,其实根本没有必要拿到这些全部数据,只需要将object类型的数据取出,然后进行后续分析即可
  2. obj_df = df.select_dtypes(include=['object']).copy()
  3. obj_df.head()
make fuel_type aspiration num_doors body_style drive_wheels engine_location engine_type num_cylinders fuel_system
0 alfa-romero gas std two convertible rwd front dohc four mpfi
1 alfa-romero gas std two convertible rwd front dohc four mpfi
2 alfa-romero gas std two hatchback rwd front ohcv six mpfi
3 audi gas std four sedan fwd front ohc four mpfi
4 audi gas std four sedan 4wd front ohc five mpfi
  1. # 在进行下一步处理的之前,需要将数据进行缺失值的处理,对列进行处理axis=1
  2. obj_df[obj_df.isnull().any(axis=1)]
make fuel_type aspiration num_doors body_style drive_wheels engine_location engine_type num_cylinders fuel_system
27 dodge gas turbo NaN sedan fwd front ohc four mpfi
63 mazda diesel std NaN sedan fwd front ohc four idi
  1. # 处理缺失值的方式有很多种,根据项目的不同或者填补缺失值或者去掉该样本。本文中的数据缺失用该列的众数来补充。
  2. obj_df.num_doors.value_counts()
  1. four 114
  2. two 89
  3. Name: num_doors, dtype: int64
  1. obj_df=obj_df.fillna({"num_doors":"four"})

在处理完缺失值之后,有以下几种方式进行category数据转化encoding

  • Find and Replace
  • label encoding
  • One Hot encoding
  • Custom Binary encoding
  • sklearn
  • advanced Approaches
  1. # pandas里面的replace文档非常丰富,笔者在使用该功能时候,深感其参数众多,深感提供的功能也非常的强大
  2. # 本文中使用replace的功能,创建map的字典,针对需要数据清理的列进行清理更加方便,例如:
  3. cleanup_nums= {
  4. "num_doors":{"four":4,"two":2},
  5. "num_cylinders":{
  6. "four":4,"six":6,"five":5,"eight":8,"two":2,"twelve":12,"three":3
  7. }
  8. }
  9. obj_df.replace(cleanup_nums,inplace=True)
  10. obj_df.head()
make fuel_type aspiration num_doors body_style drive_wheels engine_location engine_type num_cylinders fuel_system
0 alfa-romero gas std 2 convertible rwd front dohc 4 mpfi
1 alfa-romero gas std 2 convertible rwd front dohc 4 mpfi
2 alfa-romero gas std 2 hatchback rwd front ohcv 6 mpfi
3 audi gas std 4 sedan fwd front ohc 4 mpfi
4 audi gas std 4 sedan 4wd front ohc 5 mpfi

label encoding 是将一组无规则的,没有大小比较的数据转化为数字

  • 比如body_style 字段中含有多个数据值,可以使用该方法将其转化
  • convertible > 0
  • hardtop > 1
  • hatchback > 2
  • sedan > 3
  • wagon > 4

这种方式就像是密码编码一样,这,个比喻很有意思,就像之前看电影,记得一句台词,他们俩亲密的像做贼一样

  1. # 通过pandas里面的 category数据类型,可以很方便的或者该编码
  2. obj_df["body_style"]=obj_df["body_style"].astype("category")
  3. obj_df.dtypes
  1. make object
  2. fuel_type object
  3. aspiration object
  4. num_doors int64
  5. body_style category
  6. drive_wheels object
  7. engine_location object
  8. engine_type object
  9. num_cylinders int64
  10. fuel_system object
  11. dtype: object
  1. # 我们可以通过赋值新的列,保存其对应的code
  2. # 通过这种方法可以舒服的数据,便于以后的数据分析以及整理
  3. obj_df["body_style_code"] = obj_df["body_style"].cat.codes
  4. obj_df.head()
make fuel_type aspiration num_doors body_style drive_wheels engine_location engine_type num_cylinders fuel_system body_style_code
0 alfa-romero gas std 2 convertible rwd front dohc 4 mpfi 0
1 alfa-romero gas std 2 convertible rwd front dohc 4 mpfi 0
2 alfa-romero gas std 2 hatchback rwd front ohcv 6 mpfi 2
3 audi gas std 4 sedan fwd front ohc 4 mpfi 3
4 audi gas std 4 sedan 4wd front ohc 5 mpfi 3

one hot encoding

  • label encoding 因为将wagon转化为4,而convertible变成了0,这里面是不是会有大大小的比较,可能会造成误解,然后利用one hot encoding这种方式

    是将特征转化为0或者1,这样会增加数据的列的数量,同时也减少了label encoding造成的衡量数据大小的误解。
  • pandas中提供了get_dummies 方法可以将需要转化的列的值转化为0,1,两种编码
  1. # 新生成DataFrame包含了新生成的三列数据,
  2. # drive_wheels_4wd
  3. # drive_wheels_fwd
  4. # drive_wheels_rwd
  5. pd.get_dummies(obj_df,columns=["drive_wheels"]).head()
make fuel_type aspiration num_doors body_style engine_location engine_type num_cylinders fuel_system body_style_code drive_wheels_4wd drive_wheels_fwd drive_wheels_rwd
0 alfa-romero gas std 2 convertible front dohc 4 mpfi 0 0 0 1
1 alfa-romero gas std 2 convertible front dohc 4 mpfi 0 0 0 1
2 alfa-romero gas std 2 hatchback front ohcv 6 mpfi 2 0 0 1
3 audi gas std 4 sedan front ohc 4 mpfi 3 0 1 0
4 audi gas std 4 sedan front ohc 5 mpfi 3 1 0 0
  1. # 该方法之所以强大,是因为可以同时处理多个category的列,同时选择prefix前缀分别对应好
  2. # 产生的新的DataFrame所有数据都包含
  3. pd.get_dummies(obj_df, columns=["body_style", "drive_wheels"], prefix=["body", "drive"]).head()
make fuel_type aspiration num_doors engine_location engine_type num_cylinders fuel_system body_style_code body_convertible body_hardtop body_hatchback body_sedan body_wagon drive_4wd drive_fwd drive_rwd
0 alfa-romero gas std 2 front dohc 4 mpfi 0 1 0 0 0 0 0 0 1
1 alfa-romero gas std 2 front dohc 4 mpfi 0 1 0 0 0 0 0 0 1
2 alfa-romero gas std 2 front ohcv 6 mpfi 2 0 0 1 0 0 0 0 1
3 audi gas std 4 front ohc 4 mpfi 3 0 0 0 1 0 0 1 0
4 audi gas std 4 front ohc 5 mpfi 3 0 0 0 1 0 1 0 0

自定义0,1 encoding

  • 有的时候回根据业务需要,可能会结合label encoding以及not hot 两种方式进行二值化。
  1. obj_df["engine_type"].value_counts()
  1. ohc 148
  2. ohcf 15
  3. ohcv 13
  4. dohc 12
  5. l 12
  6. rotor 4
  7. dohcv 1
  8. Name: engine_type, dtype: int64
  1. # 有的时候为了区分出 engine_type是否是och技术的,可以使用二值化,将该列进行处理
  2. # 这也突出了领域知识是如何以最有效的方式解决问题
  3. obj_df["engine_type_code"] = np.where(obj_df["engine_type"].str.contains("ohc"),1,0)
  4. obj_df[["make","engine_type","engine_type_code"]].head()
make engine_type engine_type_code
0 alfa-romero dohc 1
1 alfa-romero dohc 1
2 alfa-romero ohcv 1
3 audi ohc 1
4 audi ohc 1

scikit-learn中的数据转化

  • sklearn.processing模块提供了很多方便的数据转化以及缺失值处理方式(Imputer),可以直接从该模块导入LabelEncoder,LabelBinarizer,0,1归一化(最大最小标准化),Normalizer正则化(L1,L2)一般用的不多,标准化(最大最小标准化max_mix),非线性转换,生成多项式特征(PolynomialFeatures),将每个特征缩放在同样的范围或分布情况下
  • sklearn processing 模块官网文档链接
  • category_encoders包官方文档

至此,数据预处理以及category转化大致讲完了。

pandas category数据类型的更多相关文章

  1. Pandas高级教程之:category数据类型

    目录 简介 创建category 使用Series创建 使用DF创建 创建控制 转换为原始类型 categories的操作 获取category的属性 重命名categories 使用add_cate ...

  2. Python数据分析与展示[第三周](pandas数据类型操作)

    数据类型操作 如何改变Series/ DataFrame 对象 增加或重排:重新索引 删除:drop 重新索引 .reindex() reindex() 能够改变或重排Series和DataFrame ...

  3. Python: Pandas的DataFrame如何按指定list排序

    本文首发于微信公众号“Python数据之道”(ID:PyDataRoad) 前言 写这篇文章的起由是有一天微信上一位朋友问到一个问题,问题大体意思概述如下: 现在有一个pandas的Series和一个 ...

  4. Pandas系列(十六)- 你需要学会的骚操作

    pandas有一种功能非常强大的方法,它就是accessor,可以将它理解为一种属性接口,通过它可以获得额外的方法.其实这样说还是很笼统,下面我们通过代码和实例来理解一下. pd.Series._ac ...

  5. Pandas透视表(pivot_table)详解

    介绍 也许大多数人都有在Excel中使用数据透视表的经历,其实Pandas也提供了一个类似的功能,名为pivot_table.虽然pivot_table非常有用,但是我发现为了格式化输出我所需要的内容 ...

  6. 使用pandas的部分问题汇总

    pandas(我所用版本0.17)是一个强大数据处理库,在开发金融类系统中我应用到了pandas.Dataframe数据类型,它的数据结构类似一张图表(如下图所示),左边一列为index既行的索引: ...

  7. pandas 数据类型转换

    数据处理过程的数据类型 当利用pandas进行数据处理的时候,经常会遇到数据类型的问题,当拿到数据的时候,首先需要确定拿到的是正确类型的数据,一般通过数据类型的转化,这篇文章就介绍pandas里面的数 ...

  8. (转)Python科学计算之Pandas详解,pythonpandas

    https://www.cnblogs.com/linux-wangkun/p/5903380.html-------pandas 学习(1): pandas 数据结构之Series https:// ...

  9. 10分钟了解 pandas - pandas官方文档译文 [原创]

    10 Minutes to pandas 英文原文:https://pandas.pydata.org/pandas-docs/stable/10min.html 版本:pandas 0.23.4 采 ...

随机推荐

  1. 在AD的环境下,更改计算机名导致TFS,无法连接解决办法

    D:\vs2015>tf workspaces /collection:http://10.1.0.104:8080/tfs/dahua.adrms /updateComputerName:WI ...

  2. redis sentinels哨兵集群环境配置

    # Redis configuration file example. # # Note that in order to read the configuration file, Redis mus ...

  3. UDP通信-UdpClient

    static void Main(string[] args) { Console.WriteLine("发送端"); byte[] buffer = System.Text.En ...

  4. Python中的yield和Generators(生成器)

    本文目的 解释yield关键字到底是什么,为什么它是有用的,以及如何来使用它. 协程与子例程 我们调用一个普通的Python函数时,一般是从函数的第一行代码开始执行,结束于return语句.异常或者函 ...

  5. 利用shell脚本自动获取awr报表

    观察Oracle数据库性能,oracle自带的awr功能为我们提供了一个近乎完美的解决方案,通过awr特性我们可以随时从数据库提取awr报告.通过报告可以了解一个系统的整个运行情况,生成的报告包括多个 ...

  6. 【RF库测试】算法运算

  7. 十款不错的Hybrid App移动开发框架

    本文转载至http://www.pureasme.com/blog/2015/0419476.html ionic 是个高级的 HTML5 移动端应用框架,是个很漂亮的使用 HTML5 开发混合移动应 ...

  8. PyQt4简单的窗口程序

    下面的程序显示了一个简单的小窗口. #!/usr/bin/python # -*- coding:utf-8 -*- import sys from PyQt4 import QtGui app = ...

  9. Objective-c官方文档 封装数据属性

    版权声明:原创作品,谢绝转载!否则将追究法律责任. 很多对象需要跟踪信息为了执行他们的任务.一些对象设计模型一个或者多个值.例如NSNumber 类用来保存一个值或者自定义的类有一些属性.有一些对象不 ...

  10. Win8交互UX——触摸板交互

    针对触摸输入优化 Window 应用商店应用设计,并在默认情况下获得触摸板支持. 设计用户可以通过触摸板交互的 Windows 应用商店应用. 触摸板结合间接的多点触控输入和指针设备(如鼠标)的精确输 ...