首先，我们先要读入数据：

然后检查数据出现的问题：

1.没有表头，增加表头

2.去除重复值：

df.duplicate()使用布尔数据查看数据表中是否有重复值,df.drop_duplicates(),删去重复的值

这里有两点需要说明：第一，数据表中两个条目间所有列的内容都相等时duplicated才会判断为重复值。(Duplicated也可以单独对某一列进行重复值判断)。第二，duplicated支持从前向后(first)，

和从后向前(last)两种重复值查找模式。默认是从前向后进行重复值的查找和判断。换句话说就是将后出现的相同条件判断为重复值。

df.drop_duplicates(),删去重复的值

Pandas中查找数据表中空值的函数有两个，一个是函数isnull，如果是空值就显示True。另一个函数notnull正好相反，如果是空值就显示False。

以下两个函数的使用方法以及通过isnull函数获得的空值数量。

对于空值有两种处理的方法，第一种是使用fillna函数对空值进行填充，可以选择填充0值或者其他任意值。第二种方法是使用dropna函数直接将包含空值的数据删除。

df.fillna(0), df.dropna()

还有一种经常的用法是使用平均值代替,比如假设loan amount列中与空值，我们可以采用平均值代表空值

df['loan amount']=df['loan amount'].fillna(df['loan amount'].mean())

接下来换索引：

用法是df.set_index('column')

数据间的空格：

空格会影响我们后续会数据的统计和计算。从下面的结果中就可以看出空格对于常规的数据统计造成的影响。

df['LOAN_Status'].value_counts()

Python中去除空格的方法有三种，第一种是去除数据两边的空格，第二种是单独去除左边的空格，第三种是单独去除右边的空格。

df['LOAN_Status']=df['LOAN_Status'].map(str.strip)#删除左右俩边的空格
df['LOAN_Status']=df['LOAN_Status'].map(str.lstrip)#删除左边空格
df['LOAN_Status']=df['LOAN_Status'].map(str.rstrip)#删除右边空格

大小写转换

大小写转换的方法也有三种可以选择，分别为全部转换为大写，全部转换为小写，和转换为首字母大写。

df['LOAN_Status']=df['LOAN_Status'].map(str.upper)#全部大写
df['LOAN_Status']=df['LOAN_Status'].map(str.lower)#全部小写
df['LOAN_Status']=df['LOAN_Status'].map(str.title)#首字母写

最后我们还需要对数据表中关键字段的内容进行检查，确保关键字段中内容的统一。主要包括数据是否全部为字符，字母或数字。

df['weight'].apply(lambda x:
x.isalpha())#检查该列是否全部为字符

df['weight'].apply(lambda x:
x.isalnum())#检查该列是否全部为数字
df['weight'].apply(lambda x:
x.isalpha())#检查该列是否全部为字母

第一步是更改和规范数据格式，所使用的函数是astype。下面是更改数据格式的代码：

df['loan amount']=df['loan amount'].astype(np.int64)#数据格式处理
df['register_date']=pd.to_datetime(df['register_date'])#日期格式的数据需要使用to_datatime函数进行处理

数据中的异常和极端值

用describe函数可以生成描述统计结果。其中我们主要关注最大值(max)和最小值(min)情况。

使用平均值代替，公式：

df.replace([23],df['loan amount'].mean())

数据分组

把weight数据进行分组

bins=[30,35,40,45]
group_names=['A','B','C','D']
df['categories']= pd.cut(df['weight'],bins, labels=group_names)

数据分列

pandas数据清洗策略2的更多相关文章

pandas数据清洗策略1
Pandas常用的数据清洗5大策略如下: 1.删除 DataFrame 中的不必要 columns 2.改变 DataFrame 的 index 3.使用 .str() 方法来清洗 columns 4 ...
2.pandas数据清洗
pandas是用于数据清洗的库,安装配置pandas需要配置许多依赖的库,而且安装十分麻烦. 解决方法:可以用Anaconda为开发环境,Anaconda内置了许多有关数据清洗和算法的库. 1.安装p ...
Python | Pandas数据清洗与画图
准备数据 2016年北京PM2.5数据集数据源说明:美国驻华使馆的空气质量检测数据数据清洗 1. 导入包 import numpy as np import matplotlib.pyplot a ...
Pandas 数据清洗常用篇
一.缺失值 sklearn中的preprocessing下有imputer,可进官方文档参考.这里主讲pandas. 拿到数据,一般先检查是否有缺失值,用isnul()或notnull(). 再决定d ...
pandas数据清洗
1.我已安装好Anavonda3.5.所以我只用打开"jupyter notebook",然后打开浏览器然后点击右侧的“new",然后打开python3
数据清洗记录，pandas
pandas数据清洗:http://www.it165.net/pro/html/201405/14269.html data=pd.Series([1,2,3,4]) data.replace([1 ...
Pandas模块
前言: 最近公司有数据分析的任务,如果使用Python做数据分析,那么对Pandas模块的学习是必不可少的: 本篇文章基于Pandas 0.20.0版本话不多说社会你根哥!开干! pip insta ...
Python数据处理常用工具(pandas)
目录数据清洗的常用工具--Pandas 数据清洗的常用工具 Pandas常用数据结构series和方法 Pandas常用数据结构dataframe和方法常用方法数据清洗的常用工具--Pandas ...
Python 3爬虫、数据清洗与可视化实战PDF高清完整版免费下载|百度云盘
百度云盘:Python 3爬虫.数据清洗与可视化实战PDF高清完整版免费下载提取码: 内容简介 <Python 3爬虫.数据清洗与可视化实战>是一本通过实战教初学者学习采集数据.清洗和组 ...

随机推荐

IL范围不正确
一.昨晚在改过一个bug之后在本机测试没问题,于是提交代码在测试服务器上发布之后测试的也没问题. 既然测试的都没问题,那就要往正式环境中发布咯,然而,发布到正式环境中就报错:IL范围不正确,这个错是打 ...
LeetCode算法题-Reverse Vowels of a String（Java实现-四种解法）
这是悦乐书的第206次更新,第218篇原创 01 看题和准备今天介绍的是LeetCode算法题中Easy级别的第74题(顺位题号是345).编写一个函数,它将一个字符串作为输入,并仅反转一个字符串的 ...
Servlet（六）：连接数据库，完整的CRUD
Servlet的知识点大致讲完了,今天补充下与之相关的一些小知识,然后做一个完整的小例子. 一.MVC设计模式 1.MVC设计模式是什么? 在了解MVC之前,先聊聊Model1.Model2开发模式. ...
mybatis : ERROR. token : COMMA, pos : 373
查询的字段符号问题,可能是多了" , " 也可能是少了 " , " 仔细检查, 都能解决
[福大软工] Z班第13次成绩排行榜
注:本次成绩排行榜是针对华为软件云评测博客作业要求 http://www.cnblogs.com/easteast/p/7772637.html 评分细则 (1)寻找软件的bug,功能的评测与黑箱测 ...
vue中父组件调用子组件函数
用法: 子组件上定义ref="refName", 父组件的方法中用 this.$refs.refName.method 去调用子组件方法详解: 父组件里面调用子组件的函数,父组 ...
React项目中那些奇怪的写法
1.在一个React组件里看到一个奇怪的写法: const {matchs} = this.props.matchs; 原来,是解构赋值,虽然听说过,但是看起来有点奇怪下面做个实验: <scr ...
Linux的常见问题解答和管理技巧
Linux的常见问题解答和管理技巧一. 如何建立多用户提醒大家一句,别一直使用root用户,因为root用户在系统中有着至高无上的权力,一不小心就可能破坏系统.比如我们想删除/temp目录下的文件 ...
poj2635
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/chaoweilanmao/article/details/33417423 这道题一看是大数题就知道 ...
CONTRO4 系列
软件下载 https://getcomposer.org/download/ 0技术手册 https://wenku.baidu.com/view/4b511ead376baf1ffd4fad36.h ...

pandas数据清洗策略2

数据中的异常和极端值

数据分组

pandas数据清洗策略2的更多相关文章

随机推荐

热门专题