人生苦短,我用 Python

前文传送门:

小白学 Python 数据分析(1):数据分析基础

小白学 Python 数据分析(2):Pandas (一)概述

小白学 Python 数据分析(3):Pandas (二)数据结构 Series

小白学 Python 数据分析(4):Pandas (三)数据结构 DataFrame

小白学 Python 数据分析(5):Pandas (四)基础操作(1)查看数据

小白学 Python 数据分析(6):Pandas (五)基础操作(2)数据选择

小白学 Python 数据分析(7):Pandas (六)数据导入

小白学 Python 数据分析(8):Pandas (七)数据预处理

引言

前一篇文章我们介绍了数据预处理中数据有问题的几种情况以及一般处理办法。

很经常,当我们拿到数据的时候,首先需要确定拿到的是正确类型的数据,如果数据类型不正确,一般通过数据类型的转化

数据类型转化

大家应该都知道 Excel 中数据类型比较多,常用的有文本、数字、货币、时间、日期等等,在 Pandas 中,相对而言数据类型就少了很多,常用的有 int64 , float64 , object , datetime64 等等。

还是使用前面的示例,我们先看下当前数据表中的数据类型,这里使用的 dtypes ,示例如下:

  1. import pandas as pd
  2. # 相对路径
  3. df = pd.read_excel("result_data.xlsx")
  4. print(df)
  5. # 输出结果
  6. plantform read_num fans_num rank_num like_num create_date
  7. 0 cnblog 215.0 0 118.0 0 2019-11-23 23:00:10
  8. 1 cnblog 215.0 0 118.0 0 2019-11-23 23:00:10
  9. 2 juejin NaN 0 -2.0 1 2019-11-23 23:00:03
  10. 3 csdn 1652.0 69 0.0 24 2019-11-23 23:00:02
  11. 4 cnblog 650.0 3 NaN 0 2019-11-22 23:00:15
  12. .. ... ... ... ... ... ...
  13. 404 juejin 212.0 0 -1.0 2 2020-02-20 23:00:02
  14. 405 csdn 1602.0 1 0.0 1 2020-02-20 23:00:01
  15. 406 cnblog 19.0 0 41.0 0 2020-02-21 23:00:05
  16. 407 juejin 125.0 1 -4.0 0 2020-02-21 23:00:02
  17. 408 csdn 1475.0 8 0.0 3 2020-02-21 23:00:02
  18. print(df.dtypes)
  19. # 输出结果
  20. plantform object
  21. read_num float64
  22. fans_num int64
  23. rank_num float64
  24. like_num int64
  25. create_date datetime64[ns]
  26. dtype: object

当然,我们如果想单独知道某一列的数据类型,也可以这么用:

  1. import pandas as pd
  2. # 相对路径
  3. df = pd.read_excel("result_data.xlsx")
  4. print(df['read_num'].dtypes)
  5. # 输出结果
  6. float64

当我们需要转换数据类型的时候,可以使用 astype() 这个方法,在使用的时候讲需要转化的目标类型写在 astype() 后面括号里即可:

  1. import pandas as pd
  2. # 相对路径
  3. df = pd.read_excel("result_data.xlsx")
  4. print(df['fans_num'].astype('float64'))
  5. # 输出结果
  6. 0 0.0
  7. 1 0.0
  8. 2 0.0
  9. 3 69.0
  10. 4 3.0
  11. ...
  12. 404 0.0
  13. 405 1.0
  14. 406 0.0
  15. 407 1.0
  16. 408 8.0
  17. Name: fans_num, Length: 409, dtype: float64

添加索引

有些时候,我们拿到的数据表是没有索引的,如果没有索引, Pandas 会默认的为我们添加从 0 开始的自然数作为行索引。而列索引会默认取第一行。比如我们创建了一个没有表头的 Excel ,如下:

没有表头这样的数据看起来很难懂,我们先导入到 Pandas 中看下效果:

  1. import pandas as pd
  2. df1 = pd.read_excel("demo.xlsx")
  3. print(df1)
  4. # 输出结果
  5. A1 1001 小红 1000
  6. 0 A2 1002 小王 2000
  7. 1 A3 1003 小明 3000
  8. 2 A4 1004 小朱 4000
  9. 3 A5 1005 小黑 5000

这时,我们想给这个数据表加上列索引,这里可以使用 columns ,如下:

  1. import pandas as pd
  2. df1 = pd.read_excel("demo.xlsx")
  3. df1.columns = ['编号', '序号', '姓名', '消费金额']
  4. print(df1)
  5. # 输出结果
  6. 编号 序号 姓名 消费金额
  7. 0 A2 1002 小王 2000
  8. 1 A3 1003 小明 3000
  9. 2 A4 1004 小朱 4000
  10. 3 A5 1005 小黑 5000

现在我们有了列索引,但是如果这时我并不想用自动生成的自然数作为行索引,想替换成数据表中的序号,可以怎么做呢?

这里需要使用到的是 set_index() 这个方法,在括号中指明需要使用的列名即可:

  1. import pandas as pd
  2. df1 = pd.read_excel("demo.xlsx")
  3. print(df1.set_index('编号'))
  4. # 输出结果
  5. 序号 姓名 消费金额
  6. 编号
  7. A2 1002 小王 2000
  8. A3 1003 小明 3000
  9. A4 1004 小朱 4000
  10. A5 1005 小黑 5000

本篇的内容就到这里结束了,今天的内容有点短,溜了溜了~~

示例代码

老规矩,所有的示例代码都会上传至代码管理仓库 Github 和 Gitee 上,方便大家取用。

示例代码-Github

示例代码-Gitee

小白学 Python 数据分析(9):Pandas (八)数据预处理(2)的更多相关文章

  1. 小白学 Python 数据分析(10):Pandas (九)数据运算

    人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):P ...

  2. 小白学 Python 数据分析(11):Pandas (十)数据分组

    人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):P ...

  3. 小白学 Python 数据分析(12):Pandas (十一)数据透视表(pivot_table)

    人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):P ...

  4. 小白学 Python 数据分析(13):Pandas (十二)数据表拼接

    人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):P ...

  5. 小白学 Python 数据分析(5):Pandas (四)基础操作(1)查看数据

    在家为国家做贡献太无聊,不如跟我一起学点 Python 人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Panda ...

  6. 小白学 Python 数据分析(6):Pandas (五)基础操作(2)数据选择

    人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):P ...

  7. 小白学 Python 数据分析(7):Pandas (六)数据导入

    人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):P ...

  8. 小白学 Python 数据分析(8):Pandas (七)数据预处理

    人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):P ...

  9. 小白学 Python 数据分析(15):数据可视化概述

    人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):P ...

随机推荐

  1. Java入门 - 高级教程 - 06.邮件收发

    原文地址:http://www.work100.net/training/java-email.html 更多教程:光束云 - 免费课程 邮件收发 序号 文内章节 视频 1 概述 2 发送一封简单的邮 ...

  2. 从0开发3D引擎(九):实现最小的3D程序-“绘制三角形”

    目录 上一篇博文 运行测试截图 需求分析 目标 特性 头脑风暴 确定需求 总体设计 具体实现 新建Engine3D项目 实现上下文 实现_init 实现"获得WebGL上下文" 实 ...

  3. 调用Excel.Application报错的解决方法

    之前由于装了WPS后,VBA和python调用某些OFFICE的端口一直报错.网上找了无数的解决办法.也没有解决. 将注册表清理.不行. 将WPS卸载.不行. 将office重装.不行. 之后找到了个 ...

  4. 夜晚 十点 React-Native 源码 暴力畜 系列

    百度 上 给的 关于 React-Native 的 排名 前三 继续 跟

  5. 使用Razor表达式 举数组和集合 精通ASP-NET-MVC-5-弗瑞曼

  6. ThreeJS 物理材质shader源码分析(顶点着色器)

    再此之前推荐一款GLTF物理材质在线编辑器https://tinygltf.xyz/ ThreeJS 物理材质shader源码分析(顶点着色器) Threejs将shader代码分为ShaderLib ...

  7. Python和JS实现的Web SSH工具webssh,牛逼

    这个工具是使用Python开发,可以从下面地址了解详情. 官网:https://pypi.org/project/webssh/ webssh这个工具可以干啥: 在linux机器上安装python环境 ...

  8. Web自动化测试项目搭建(一) 需求与设计

    一.项目需求 测试/生产环境更新后,自动化回归测试 项目易于维护和运行 支持多种测试策略 支持可视化测试报告 运行结果,支持多种方式通知相关人员 可定时/触发的方式运行自动化测试用例 二.设计 2.1 ...

  9. 使用自定义注解和springAOP捕获Service层异常,并处理自定义异常

    一 自定义异常 /** * 自定义参数为null异常 */ public class NoParamsException extends Exception { //用详细信息指定一个异常 publi ...

  10. vue计算属性和方法的区别

    计算属性: <div id="example"> <p>{{ now }}"</p> </div> <script& ...