pandas 数据类型转换

数据处理过程的数据类型

当利用pandas进行数据处理的时候，经常会遇到数据类型的问题，当拿到数据的时候，首先需要确定拿到的是正确类型的数据，一般通过数据类型的转化，这篇文章就介绍pandas里面的数据类型（data types也就是常用的dtyps），以及pandas与numpy之间的数据对应关系。
主要介绍object，int64，float64，datetime64，bool等几种类型，category与timedelta两种类型会单独的在其他文章中进行介绍。当然本文中也会涉及简单的介绍。

数据类型的问题一般都是出了问题之后才会发现的，所以有了一些经验之后就会拿到数据之后，就直接看数据类型，是否与自己想要处理的数据格式一致，这样可以从一开始避免一些尴尬的问题出现。那么我们以一个简单的例子，利用jupyter notebook进行一个数据类型的介绍。

####按照惯例导入两个常用的数据处理的包，numpy与pandas

import numpy as np

import pandas as pd

# 从csv文件读取数据，数据表格中只有5行，里面包含了float，string，int三种数据python类型，也就是分别对应的pandas的float64，object，int64

# csv文件中共有六列，第一列是表头，其余是数据。

df = pd.read_csv("sales_data_types.csv")

print(df)

   Customer Number     Customer Name          2016            2017  \

0            10002  Quest Industries  $125,000.00     $162,500.00

1           552278    Smith Plumbing  $920,000.00   $1,012,000.00

2            23477   ACME Industrial   $50,000.00      $62,500.00

3            24900        Brekke LTD  $350,000.00     $490,000.00

4           651029         Harbor Co   $15,000.00      $12,750.00    

  Percent Growth Jan Units  Month  Day  Year Active

0         30.00%       500      1   10  2015      Y

1         10.00%       700      6   15  2014      Y

2         25.00%       125      3   29  2016      Y

3          4.00%        75     10   27  2015      Y

4        -15.00%    Closed      2    2  2014      N

df.dtypes

Customer Number     int64

Customer Name      object

2016               object

2017               object

Percent Growth     object

Jan Units          object

Month               int64

Day                 int64

Year                int64

Active             object

dtype: object

# 假如想得到2016年与2017年的数据总和，可以尝试,但并不是我们需要的答案，因为这两列中的数据类型是object，执行该操作之后，得到是一个更加长的字符串，

# 当然我们可以通过df.info() 来获得关于数据框的更多的详细信息，

df['2016']+df['2017']

0      $125,000.00 $162,500.00

1    $920,000.00 $1,012,000.00

2        $50,000.00 $62,500.00

3      $350,000.00 $490,000.00

4        $15,000.00 $12,750.00

dtype: object

df.info()

# Customer Number 列是float64，然而应该是int64

# 2016 2017两列的数据是object，并不是float64或者int64格式

# Percent以及Jan Units 也是objects而不是数字格式

# Month，Day以及Year应该转化为datetime64[ns]格式

# Active 列应该是布尔值

# 如果不做数据清洗，很难进行下一步的数据分析，为了进行数据格式的转化，pandas里面有三种比较常用的方法

# 1. astype()强制转化数据类型

# 2. 通过创建自定义的函数进行数据转化

# 3. pandas提供的to_nueric()以及to_datetime()

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 5 entries, 0 to 4

Data columns (total 10 columns):

Customer Number    5 non-null int64

Customer Name      5 non-null object

2016               5 non-null object

2017               5 non-null object

Percent Growth     5 non-null object

Jan Units          5 non-null object

Month              5 non-null int64

Day                5 non-null int64

Year               5 non-null int64

Active             5 non-null object

dtypes: int64(4), object(6)

memory usage: 480.0+ bytes

首先介绍最常用的astype()

比如可以通过astype()将第一列的数据转化为整数int类型

df['Customer Number'].astype("int")

#  这样的操作并没有改变原始的数据框，而只是返回的一个拷贝

0     10002

1    552278

2     23477

3     24900

4    651029

Name: Customer Number, dtype: int32

# 想要真正的改变数据框，通常需要通过赋值来进行，比如

df["Customer Number"] = df["Customer Number"].astype("int")

print(df)

print("--------"*10)

print(df.dtypes)

   Customer Number     Customer Name          2016            2017  \

0            10002  Quest Industries  $125,000.00     $162,500.00

1           552278    Smith Plumbing  $920,000.00   $1,012,000.00

2            23477   ACME Industrial   $50,000.00      $62,500.00

3            24900        Brekke LTD  $350,000.00     $490,000.00

4           651029         Harbor Co   $15,000.00      $12,750.00    

  Percent Growth Jan Units  Month  Day  Year Active

0         30.00%       500      1   10  2015      Y

1         10.00%       700      6   15  2014      Y

2         25.00%       125      3   29  2016      Y

3          4.00%        75     10   27  2015      Y

4        -15.00%    Closed      2    2  2014      N

--------------------------------------------------------------------------------

Customer Number     int32

Customer Name      object

2016               object

2017               object

Percent Growth     object

Jan Units          object

Month               int64

Day                 int64

Year                int64

Active             object

dtype: object

# 通过赋值在原始的数据框基础上进行了数据转化，可以重新看一下我们新生成的数据框

print(df)

   Customer Number     Customer Name          2016            2017  \

0            10002  Quest Industries  $125,000.00     $162,500.00

1           552278    Smith Plumbing  $920,000.00   $1,012,000.00

2            23477   ACME Industrial   $50,000.00      $62,500.00

3            24900        Brekke LTD  $350,000.00     $490,000.00

4           651029         Harbor Co   $15,000.00      $12,750.00    

  Percent Growth Jan Units  Month  Day  Year Active

0         30.00%       500      1   10  2015      Y

1         10.00%       700      6   15  2014      Y

2         25.00%       125      3   29  2016      Y

3          4.00%        75     10   27  2015      Y

4        -15.00%    Closed      2    2  2014      N

# 然后像2016,2017 Percent Growth，Jan Units 这几列带有特殊符号的object是不能直接通过astype("flaot)方法进行转化的，

# 这与python中的字符串转化为浮点数，都要求原始的字符都只能含有数字本身，不能含有其他的特殊字符

# 我们可以试着将将Active列转化为布尔值，看一下到底会发生什么,五个结果全是True，说明并没有起到什么作用

#df["Active"].astype("bool")

df['2016'].astype('float')

---------------------------------------------------------------------------

ValueError                                Traceback (most recent call last)

<ipython-input-19-47cc9d68cd65> in <module>()

----> 1 df['2016'].astype('float')

C:\Anaconda3\lib\site-packages\pandas\core\generic.py in astype(self, dtype, copy, raise_on_error, **kwargs)

   3052         # else, only a single dtype is given

   3053         new_data = self._data.astype(dtype=dtype, copy=copy,

-> 3054                                      raise_on_error=raise_on_error, **kwargs)

   3055         return self._constructor(new_data).__finalize__(self)

   3056 

C:\Anaconda3\lib\site-packages\pandas\core\internals.py in astype(self, dtype, **kwargs)

   3187

   3188     def astype(self, dtype, **kwargs):

-> 3189         return self.apply('astype', dtype=dtype, **kwargs)

   3190

   3191     def convert(self, **kwargs):

C:\Anaconda3\lib\site-packages\pandas\core\internals.py in apply(self, f, axes, filter, do_integrity_check, consolidate, **kwargs)

   3054

   3055             kwargs['mgr'] = self

-> 3056             applied = getattr(b, f)(**kwargs)

   3057             result_blocks = _extend_blocks(applied, result_blocks)

   3058 

C:\Anaconda3\lib\site-packages\pandas\core\internals.py in astype(self, dtype, copy, raise_on_error, values, **kwargs)

    459                **kwargs):

    460         return self._astype(dtype, copy=copy, raise_on_error=raise_on_error,

--> 461                             values=values, **kwargs)

    462

    463     def _astype(self, dtype, copy=False, raise_on_error=True, values=None,

C:\Anaconda3\lib\site-packages\pandas\core\internals.py in _astype(self, dtype, copy, raise_on_error, values, klass, mgr, **kwargs)

    502

    503                 # _astype_nansafe works fine with 1-d only

--> 504                 values = _astype_nansafe(values.ravel(), dtype, copy=True)

    505                 values = values.reshape(self.shape)

    506 

C:\Anaconda3\lib\site-packages\pandas\types\cast.py in _astype_nansafe(arr, dtype, copy)

    535

    536     if copy:

--> 537         return arr.astype(dtype)

    538     return arr.view(dtype)

    539 

ValueError: could not convert string to float: '$15,000.00 '

以上的问题说明了一些问题

如果数据是纯净的数据，可以转化为数字
astype基本也就是两种用作，数字转化为单纯字符串，单纯数字的字符串转化为数字，含有其他的非数字的字符串是不能通过astype进行转化的。
需要引入其他的方法进行转化，也就有了下面的自定义函数方法

通过自定义函数清理数据

通过下面的函数可以将货币进行转化

def convert_currency(var):

    """

    convert the string number to a float

    _ 去除$

    - 去除逗号，

    - 转化为浮点数类型

    """

    new_value = var.replace(",","").replace("$","")

    return float(new_value)

# 通过replace函数将$以及逗号去掉，然后字符串转化为浮点数，让pandas选择pandas认为合适的特定类型，float或者int，该例子中将数据转化为了float64

# 通过pandas中的apply函数将2016列中的数据全部转化

df["2016"].apply(convert_currency)

0    125000.0

1    920000.0

2     50000.0

3    350000.0

4     15000.0

Name: 2016, dtype: float64

# 当然可以通过lambda 函数将这个比较简单的函数一行带过

df["2016"].apply(lambda x: x.replace(",","").replace("$","")).astype("float64")

0    125000.0

1    920000.0

2     50000.0

3    350000.0

4     15000.0

Name: 2016, dtype: float64

#同样可以利用lambda表达式将PercentGrowth进行数据清理

df["Percent Growth"].apply(lambda x: x.replace("%","")).astype("float")/100

0    0.30

1    0.10

2    0.25

3    0.04

4   -0.15

Name: Percent Growth, dtype: float64

# 同样可以通过自定义函数进行解决，结果同上

# 最后一个自定义函数是利用np.where() function 将Active 列转化为布尔值。

df["Active"] = np.where(df["Active"] == "Y", True, False)

df["Active"]

0     True

1     True

2     True

3     True

4    False

Name: Active, dtype: bool

# 此时可查看一下数据格式

df["2016"]=df["2016"].apply(lambda x: x.replace(",","").replace("$","")).astype("float64")

df["2017"]=df["2017"].apply(lambda x: x.replace(",","").replace("$","")).astype("float64")

df["Percent Growth"]=df["Percent Growth"].apply(lambda x: x.replace("%","")).astype("float")/100

df.dtypes

Customer Number      int32

Customer Name       object

2016               float64

2017               float64

Percent Growth     float64

Jan Units           object

Month                int64

Day                  int64

Year                 int64

Active                bool

dtype: object

# 再次查看DataFrame

# 此时只有Jan Units中格式需要转化，以及年月日的合并，可以利用pandas中自带的几个函数进行处理

print(df)

   Customer Number     Customer Name      2016       2017  Percent Growth  \

0            10002  Quest Industries  125000.0   162500.0            0.30

1           552278    Smith Plumbing  920000.0  1012000.0            0.10

2            23477   ACME Industrial   50000.0    62500.0            0.25

3            24900        Brekke LTD  350000.0   490000.0            0.04

4           651029         Harbor Co   15000.0    12750.0           -0.15   

  Jan Units  Month  Day  Year Active

0       500      1   10  2015   True

1       700      6   15  2014   True

2       125      3   29  2016   True

3        75     10   27  2015   True

4    Closed      2    2  2014  False

利用pandas中函数进行处理

# pandas中pd.to_numeric()处理Jan Units中的数据

pd.to_numeric(df["Jan Units"],errors='coerce').fillna(0)

0    500.0

1    700.0

2    125.0

3     75.0

4      0.0

Name: Jan Units, dtype: float64

# 最后利用pd.to_datatime()将年月日进行合并

pd.to_datetime(df[['Month', 'Day', 'Year']])

0   2015-01-10

1   2014-06-15

2   2016-03-29

3   2015-10-27

4   2014-02-02

dtype: datetime64[ns]

# 做到这里不要忘记重新赋值，否则原始数据并没有变化

df["Jan Units"] = pd.to_numeric(df["Jan Units"],errors='coerce')

df["Start_date"] = pd.to_datetime(df[['Month', 'Day', 'Year']])

df

	Customer Number	Customer Name	2016	2017	Percent Growth	Jan Units	Month	Day	Year	Active	Start_date
0	10002	Quest Industries	125000.0	162500.0	0.30	500.0	1	10	2015	True	2015-01-10
1	552278	Smith Plumbing	920000.0	1012000.0	0.10	700.0	6	15	2014	True	2014-06-15
2	23477	ACME Industrial	50000.0	62500.0	0.25	125.0	3	29	2016	True	2016-03-29
3	24900	Brekke LTD	350000.0	490000.0	0.04	75.0	10	27	2015	True	2015-10-27
4	651029	Harbor Co	15000.0	12750.0	-0.15	NaN	2	2	2014	False	2014-02-02

df.dtypes

Customer Number             int32

Customer Name              object

2016                      float64

2017                      float64

Percent Growth            float64

Jan Units                 float64

Month                       int64

Day                         int64

Year                        int64

Active                       bool

Start_date         datetime64[ns]

dtype: object

# 将这些转化整合在一起

def convert_percent(val):

    """

    Convert the percentage string to an actual floating point percent

    - Remove %

    - Divide by 100 to make decimal

    """

    new_val = val.replace('%', '')

    return float(new_val) / 100

df_2 = pd.read_csv("sales_data_types.csv",dtype={"Customer_Number":"int"},converters={

    "2016":convert_currency,

    "2017":convert_currency,

    "Percent Growth":convert_percent,

    "Jan Units":lambda x:pd.to_numeric(x,errors="coerce"),

    "Active":lambda x: np.where(x=="Y",True,False)

})

df_2.dtypes

Customer Number      int64

Customer Name       object

2016               float64

2017               float64

Percent Growth     float64

Jan Units          float64

Month                int64

Day                  int64

Year                 int64

Active              bool

dtype: object

df_2

	Customer Number	Customer Name	2016	2017	Percent Growth	Jan Units	Month	Day	Year	Active
0	10002	Quest Industries	125000.0	162500.0	0.30	500.0	1	10	2015	True
1	552278	Smith Plumbing	920000.0	1012000.0	0.10	700.0	6	15	2014	True
2	23477	ACME Industrial	50000.0	62500.0	0.25	125.0	3	29	2016	True
3	24900	Brekke LTD	350000.0	490000.0	0.04	75.0	10	27	2015	True
4	651029	Harbor Co	15000.0	12750.0	-0.15	NaN	2	2	2014	False

至此，pandas里面数据类型目前还有timedelta以及category两个,之后会着重介绍category类型，这是类型是参考了R中的category设计的，在pandas 0.16 之后添加的，之后还会根据需要进行整理pandas的常用方法。

pandas 数据类型转换的更多相关文章

pandas 数据类型转换及描述统计
处理数据的时候往往需要对原始数据进行类型转换和预览等操作,下面介绍常用的处理预览和数据转换方法预览:例: import pandas as pdsec_weather = pd.read_table ...
Pandas复杂查询、数据类型转换、数据排序
Pandas高级操作 1.复杂查询 (1)逻辑运算以DataFrame其中一列进行逻辑计算,会产生一个对应的bool值组成的Series 于是我们可以利用返回的bool列表进行一系列的数据查询 (2 ...
JavaScript中数据类型转换总结
JavaScript中数据类型转换总结在js中,数据类型转换分为显式数据类型转换和隐式数据类型转换. 1, 显式数据类型转换 a:转数字: 1)Number转换: 代码: var a = " ...
Sql Server函数全解<三>数据类型转换函数和文本图像函数
阅读目录一:数据类型转换函数二:文本和图像函数一:数据类型转换函数在同时处理不同数据类型的值时,SQL Server一般会自动进行隐士类型转换.对于数据类型相近的值是有效的,比如int和flo ...
JS 数据类型转换
JS 数据类型转换方法主要有三种转换函数.强制类型转换.利用js变量弱类型转换. 1. 转换函数: js提供了parseInt()和parseFloat()两个转换函数.前者把值转换成整数,后者把 ...
使用变量数据类型转换逻辑控制语句(begin ...end; case...end; if...else; while)
一:变量变量分为局部变量和全局变量 (全局变量是系统自定的,是不可手动给值的,若想自己定义全局变量可考虑创建全局临时表!) 局部变量的定义: declare @变量名数据类型 (局部变量只能 ...
Util应用程序框架公共操作类(三):数据类型转换公共操作类（扩展篇）
上一篇以TDD方式介绍了数据类型转换公共操作类的开发,并提供了单元测试和实现代码,本文将演示通过扩展方法来增强公共操作类,以便调用时更加简化. 下面以字符串转换为List<Guid>为例进 ...
Util应用程序框架公共操作类(二):数据类型转换公共操作类（源码篇）
上一篇介绍了数据类型转换的一些情况,可以看出,如果不进行封装,有可能导致比较混乱的代码.本文通过TDD方式把数据类型转换公共操作类开发出来,并提供源码下载. 我们在应用程序框架实战十一:创建VS解决 ...
Util应用程序框架公共操作类（一）:数据类型转换公共操作类（介绍篇）
本系列文章将介绍一些对初学者有帮助的辅助类,这些辅助类本身并没有什么稀奇之处,如何能发现需要封装它们可能更加重要,所谓授之以鱼不如授之以渔,掌握封装公共操作类的技巧才是关键,我会详细说明创建这些类的动 ...

随机推荐

iphone弹出窗口效果的制作(Core animation, CALayer)
效果类似人人网微薄客户端的弹出效果 static CGFloat kTransitionDuration = 0.3; - (void)initView { UIWindow *window = [U ...
Android 程序打包及签名(转)
为什么要签名??? 开发Android的人这么多,完全有可能大家都把类名,包名起成了一个同样的名字,这时候如何区分?签名这时候就是起区分作用的. 由于开发商可能通过使用相同的Package Name来 ...
Dubbo -- 系统学习笔记 -- 示例 -- 负载均衡
Dubbo -- 系统学习笔记 -- 目录示例想完整的运行起来,请参见:快速启动,这里只列出各种场景的配置方式负载均衡在集群负载均衡时,Dubbo提供了多种均衡策略,缺省为random随机调 ...
Jackson Gson Json.simple 比较
为公司做了小任务,需要用到Java Json库,Json库我几个月之前就用过,不过那时候是跟着项目来的,延续了项目的使用习惯直接用了jackson Json,而这次我觉得好好比较一下几个常见的Json ...
centos7 更改主机名
在CentOS或RHEL中,有三种定义的主机名:a.静态的(static),b.瞬态的(transient),以及 c.灵活的(pretty).“静态”主机名也称为内核主机名,是系统在启动时从/etc ...
Android应用程序的结构
1.src目录存放该项目的源代码 2.gen目录该目录文件是ADT自动生成的,并不需要认为地去修改 3.Android2.1 该目录存放的是该项目支持的JAR包,同时还包含项目打包时需要的META ...
[Command] lrzsz - 文件传输工具包
lrzsz 是一个支持 XMODEM.YMODEM.ZMODEM 文件传输协议的 Unix 程序包.它是 Omen Technologies 公司所有的 rzsz 程序包的公开发行增强版,遵守 GNU ...
JQuery学习的尾声
今天是最后一天学习JQuery,上周我们在狠狠的学习JavaScript,然后在这周我们又把JQuery扼杀在了摇篮里面,纵然学习的太快我们导致我们知识不牢固,可是我们没有那么多的时间学习的如此详细, ...
《C++标准程序库》笔记之三
本篇博客笔记顺序大体按照<C++标准程序库(第1版)>各章节顺序编排. ---------------------------------------------------------- ...
RabbitMQ Queue中Arguments属性参数过期队列，过期消息，超时队列的声明
开发十年,就只剩下这套Java开发体系了 >>> 创建队列时指定参数队列属性:x-message-ttl 可以控制被publish到queue中的message 被丢弃前能够存 ...

pandas 数据类型转换

数据处理过程的数据类型

首先介绍最常用的astype()

比如可以通过astype()将第一列的数据转化为整数int类型

以上的问题说明了一些问题

通过自定义函数清理数据

利用pandas中函数进行处理

至此，pandas里面数据类型目前还有timedelta以及category两个,之后会着重介绍category类型，这是类型是参考了R中的category设计的，在pandas 0.16 之后添加的，之后还会根据需要进行整理pandas的常用方法。

pandas 数据类型转换的更多相关文章

随机推荐

热门专题