基于pandas进行数据预处理

很久没用pandas，有些有点忘了，转载一个比较完整的利用pandas进行数据预处理的博文：https://blog.csdn.net/u014400239/article/details/70846634

引入包和加载数据

 import pandas as pd

 import numpy as np

 train_df =pd.read_csv('../datas/train.csv')  # train set

 test_df  = pd.read_csv('../datas/test.csv')   # test  set

 combine  = [train_df, test_df]

清洗数据

查看数据维度以及类型
缺失值处理
查看object数据统计信息
数值属性离散化
计算特征与target属性之间关系

查看数据维度以及类型

 #查看前五条数据

 print train_df.head(5)

 #查看每列数据类型以及nan情况

 print train_df.info()

 # 获得所有object属性

 print train_data.describe().columns

查看object数据统计信息

 #查看连续数值属性基本统计情况

 print train_df.describe()

 #查看object属性数据统计情况

 print train_df.describe(include=['O'])

 # 统计Title单列各个元素对应的个数

 print train_df['Title'].value_counts()

 # 属性列删除

 train_df = train_df.drop(['Name', 'PassengerId'], axis=0)

Ps.原文中axis的处理是不对的，Python中axis = 0是按列处理，axis = 1 是按行处理。

缺失值处理

 # 直接丢弃缺失数据列的行

 print df4.dropna(axis=1,subset=['col1'])  # 丢弃nan的行,subset指定查看哪几列

 print df4.dropna(axis=0)  # 丢弃nan的列

 # 采用其他值填充

 dataset['Cabin'] = dataset['Cabin'].fillna('U')

 dataset['Title'] = dataset['Title'].fillna(0)

 # 采用出现最频繁的值填充

 freq_port = train_df.Embarked.dropna().mode()[0]

 dataset['Embarked'] = dataset['Embarked'].fillna(freq_port)

 # 采用中位数或者平均数填充

 test_df['Fare'].fillna(test_df['Fare'].dropna().median(), inplace=True)

 test_df['Fare'].fillna(test_df['Fare'].dropna().mean(), inplace=True)

数值属性离散化，object属性数值化

 # 创造一个新列，FareBand，将连续属性Fare切分成四份

 train_df['FareBand'] = pd.qcut(train_df['Fare'], 4)

 # 查看切分后的属性与target属性Survive的关系

 train_df[['FareBand', 'Survived']].groupby(['FareBand'], as_index=False).mean().sort_values(by='FareBand', ascending=True)

 # 建立object属性映射字典

 title_mapping = {"Mr": 1, "Miss": 2, "Mrs": 3, "Master": 4, "Royalty":5, "Officer": 6}

 dataset['Title'] = dataset['Title'].map(title_mapping)

计算特征与target属性之间关系

object与连续target属性之间，可以groupby均值
object与离散target属性之间，先将target数值化，然后groupby均值，或者分别条形统计图
连续属性需要先切割然后再进行groupby计算，或者pearson相关系数

 print train_df[['AgeBand', 'Survived']].groupby(['AgeBand'], as_index=False).mean().sort_values(by='AgeBand', ascending=True)

总结pandas基本操作

 ”’

 创建df对象

 ””’

 s1 = pd.Series([1,2,3,np.nan,4,5])

 s2 = pd.Series([np.nan,1,2,3,4,5])

 print s1

 dates = pd.date_range(“20130101”,periods=6)

 print dates

 df = pd.DataFrame(np.random.rand(6,4),index=dates,columns=list(“ABCD”))

 # print df

 df2 = pd.DataFrame({“A”:1,

 ‘B’:pd.Timestamp(‘20130102’),

 ‘C’:pd.Series(1,index=list(range(4)),dtype=’float32’),

 ‘D’:np.array([3]*4,dtype=np.int32),

 ‘E’:pd.Categorical([‘test’,’train’,’test’,’train’]),

 ‘F’:’foo’

 })

 # print df2.dtypes

 df3 = pd.DataFrame({'col1':s1,

                     'col2':s2

 })

 print df3

 '''

 2.查看df数据

 '''

 print df3.head(2) #查看头几条

 print df3.tail(3) #查看尾几条

 print df.index  #查看索引

 print df.info()  #查看非non数据条数

 print type(df.values)  #返回二元数组

 # print df3.values

 print df.describe()   #对每列数据进行初步的统计

 print df3

 print df3.sort_values(by=['col1'],axis=0,ascending=True) #按照哪几列排序

 '''

 3.选择数据

 '''

 ser_1 = df3['col1']

 print type(ser_1) #pandas.core.series.Series

 print df3[0:2] #前三行

 print df3.loc[df3.index[0]]  #通过index来访问

 print df3.loc[df3.index[0],['col2']]  #通过行index，和列名来唯一确定一个位置

 print df3.iloc[1] #通过位置来访问

 print df3.iloc[[1,2],1:2] #通过位置来访问

 print "==="

 print df3.loc[:,['col1','col2']].as_matrix()   # 返回nunpy二元数组

 print type(df3.loc[:,['col1','col2']].as_matrix())

 '''

 4.布尔索引，过滤数据

 '''

 print df3[df3.col1 >2]

 df4 = df3.copy()

 df4['col3']=pd.Series(['one','two','two','three','one','two'])

 print df4

 print df4[df4['col3'].isin(['one','two'])]

 df4.loc[:,'col3']="five"

 print df4

 '''

 5.缺失值处理，pandas将缺失值用nan代替

 '''

 print pd.isnull(df4)

 print df4.dropna(axis=0,subset=['col1'])  # 丢弃nan的行,subset指定查看哪几列

 print df4.dropna(axis=1)  # 丢弃nan的列

基于pandas进行数据预处理的更多相关文章

使用pandas进行数据预处理01
数据预处理有四种技术:数据合并,数据清洗,数据标准化,以及数据转换. 数据合并技术:(1)横向或纵向堆叠合数据 (2)主键合并数据 (3)重叠合并数据 1.堆叠合并数据: 堆叠就是简单的把两个表拼接在 ...
Python数据预处理之清及
使用Pandas进行数据预处理数据清洗中不是每一步都是必须的,按实际需求操作. 内容目录 1.数据的生成与导入 2.数据信息查看 2.1.查看整体数据信息 2.2.查看数据维度.列名称.数据格式 2 ...
Python的工具包[1] -> pandas数据预处理 -> pandas 库及使用总结
pandas数据预处理 / pandas data pre-processing 目录关于 pandas pandas 库 pandas 基本操作 pandas 计算 pandas 的 Series ...
pandas 数据预处理
pandas 数据预处理缺失数据处理 csv_data=''' A,B,C,D 1.0,2.0,3.0,4.0 5.6,6.0,,8.0 0.0,11.0,12.0,,''' import pand ...
第一章：AI人工智能の数据预处理编程实战 Numpy, Pandas, Matplotlib, Scikit-Learn
本课主题数据中 Independent 变量和 Dependent 变量 Python 数据预处理的三大神器:Numpy.Pandas.Matplotlib Scikit-Learn 的机器学习实战 ...
机器学习之数据预处理，Pandas读取excel数据
Python读写excel的工具库很多,比如最耳熟能详的xlrd.xlwt,xlutils,openpyxl等.其中xlrd和xlwt库通常配合使用,一个用于读,一个用于写excel.xlutils结 ...
小白学 Python 数据分析（9）：Pandas （八）数据预处理（2）
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
python data analysis | python数据预处理（基于scikit-learn模块）
原文:http://www.jianshu.com/p/94516a58314d Dataset transformations| 数据转换 Combining estimators|组合学习器 Fe ...
[机器学习]-[数据预处理]-中心化缩放 KNN（二）
上次我们使用精度评估得到的成绩是 61%,成绩并不理想,再使 recall 和 f1 看下成绩如何? 首先我们先了解一下召回率和 f1. 真实结果预测结果预测结果正例反例正例 TP 真 ...

随机推荐

浅谈python的深浅拷贝
python中有两种数据类型:一种是可变数据类型,一种是不可变数据类型不可变数据类型包括(整型及其他数据类型,字符串及元组) 可变数据类型(列表,集合,字典,类和类实例) 鉴定是否为拷贝还是只是引用 ...
Github站点搭建 gh-pages
首先:把完整代码放在 gh-pages 分支上,设置 gh-pages 为默认分支(习惯性设置,也可以不设置). 网址: http://你的github域名.github.io/项目入口文件夹/ 本宝 ...
Ubuntu 14.04 软件源服务器集合
http://wiki.ubuntu.com.cn/Template:14.04source 服务器列表可将 http://cn.archive.ubuntu.com/ubuntu/ 替换为下列任意 ...
Azure 3 月新公布
Azure 3 月新发布:Power BI Embedded,R Server 和 IoT 套件预测性维护预配置解决方案正式发布,ExpressRoute 部署变更,以及计量名称变更 Power BI ...
python生成url测试用例
generate_url.py #!/usr/bin/env python import random import os, sys channels = [ \ "BTV2", ...
vue-cli -- > 项目基本构建的方法
本文档目的在于让对vue了解比较少的同学,能够快速搭建属于自己的vue项目.(window) 一.构建项目的前提条件 1.确保本机安装了node.js ^6 --> javascript 的服务 ...
mysql ：SQL语句中的替换函数replace
replace() 用第三个表达式替换第一个字符串表达式中出现的所有第二个给定字符串表达式. 语法 REPLACE ( 'string_expression1' , 'string_expressio ...
两台windows内网之间快速复制大量（上百万个）小文件（可用于两台服务器之间）
用各种FTP工具(各种主动被动)都不好使.经测试,用以下的(协议.工具等),在双千兆网卡下,传输大量1M的文件可以达到每秒60多M: windows文件共享(SMB协议)(若是08 r2 数据中心版, ...
屏蔽各类弹窗广告（WPS、智能云输入法）
托盘中的广告“领取双11红包,最高1111元”的罪魁祸首是“智能云输入法” 广告在托盘中闪动: 结束SCSkinInst.exe后,托盘中的广告消失: 智能云输入法的安装路径可参考: C:\Progr ...
centos开启rewrite功能
首先找到 /etc/httpd/conf/httpd.conf 文件,然后修改以下两个地方: 1.取消下面一句的注释 LoadModule rewrite_module modules/mod_rew ...

基于pandas进行数据预处理

引入包和加载数据

清洗数据

查看数据维度以及类型

查看object数据统计信息

缺失值处理

数值属性离散化，object属性数值化

计算特征与target属性之间关系

总结pandas基本操作

基于pandas进行数据预处理的更多相关文章

随机推荐

热门专题