【Sklearn系列】使用Sklearn进行数据预处理

这篇文章主要讲解使用Sklearn进行数据预处理，我们使用Kaggle中泰坦尼克号事件的数据作为样本。

读取数据并创建数据表格，查看数据相关信息

import pandas as pd

import numpy as np

from pandas import Series,DataFrame

data = pd.read_csv('tanic_train.csv')#导入进来的是dataframe格式

#data 可以打开data的具体信息，是dataframe的格式

#data.info()  #显示了基本信息的总和，包括有多少行，多少列，每列包含多少的数据，可以看出是否具有缺失值

#data.describe() #可以得到一些方差均值等统计信息，当然这是针对于数据，对于文本信息这里是没有显示的

#data['Sex'].unique()#可以判断出函数值取值范围

data.head(5) #显示数据集合前五行的内容

表格内容如下所示

填充缺失值（数据预处理的第一步就是处理缺失值）

对于缺失值不多不少的数据特征，我们可以使用机器学习模型进行缺失值得填充，例如随机森林，逻辑回归，线性回归

# 把已有的数值型特征取出来形成一个新的数据框

from sklearn.ensemble import RandomForestRegressor

age_df = data[['Age','Fare','Parch','SibSp','Pclass']]

# 乘客分成已知年龄和未知年龄两部分

known_age = age_df[age_df.Age.notnull()].as_matrix()# as_matrix()是为了将dataframe格式转为数组的格式，方便用于机器学习模型

#known_age

unknown_age = age_df[age_df.Age.isnull()].as_matrix()

#unknown_age

#y 即目标年龄

y = known_age[:,0]

# x即特征属性值

x = known_age[:,1:]##

#fit到随机森林回归算法中去

rfr =  RandomForestRegressor(random_state = 0,n_estimators = 2000, n_jobs = -1)

rfr.fit(x,y)

# 用得到的模型进行位置年龄的结果预测

predictedAges = rfr.predict(unknown_age[:,1:]) #看一下里面是啥

#用得到的预测结果填补原缺失数据

data.loc[data.Age.isnull(),'Age'] = predictedAges  ##去掉括号试试

对于缺失值太多的特征，我们可以直接删去，或者采取让不是缺失值的为1，缺失值为0

data.loc[data_train.Cabin.notnull(),'Cabin'] = 0

data.loc[data_train.Cabin.isnull(),'Cabin'] = 1

对于数据缺失值很少的我们可以采用均值或者中位数替代的方法

data["Age"] = data["Age"].fillna(data["Age"].median()/mean())

处理类目型数据

data['Embarked'].unique()

data['Embarked'] = data['Embarked'].fillna('S')

data.loc[data["Embarked"] == "S", "Embarked"] = 0

data.loc[data["Embarked"] == "C", "Embarked"] = 1

data.loc[data["Embarked"] == "Q", "Embarked"] =2

data.loc[data.Cabin.notnull(),'Cabin'] = 0

data.loc[data.Cabin.isnull(),'Cabin'] = 1

data.loc[data['Sex']=='male','Sex'] = 1

data.loc[data['Sex']=='female','Sex'] = 0

从dataframe中挑选我们需要的特征值

data=data[['Age','Survived','Fare','Pclass','Parch','Sex','SibSp','Cabin','Embarked']]

数据标准化（标准差标准化，经过处理的数据符合均值为0，标准差为1的标准正态分布）

st=np.array(X[['Age']])

scaler = preprocessing.StandardScaler().fit(st)

#在fit函数中，如果特征值只是一列的话，一定要注意在从数据集合挑选这一列特征的时候要使用X[['someting']],这样在使用np.array()之后才是可以被使用的

X['Age']=scaler.transform(st)

st2=np.array(X[['Fare']])

scaler = preprocessing.StandardScaler().fit(st2)

X['Fare']=scaler.transform(st2)

【Sklearn系列】使用Sklearn进行数据预处理的更多相关文章

【深度学习系列】PaddlePaddle之数据预处理
上篇文章讲了卷积神经网络的基本知识,本来这篇文章准备继续深入讲CNN的相关知识和手写CNN,但是有很多同学跟我发邮件或私信问我关于PaddlePaddle如何读取数据.做数据预处理相关的内容.网上看的 ...
sklearn系列之 sklearn.svm.SVC详解
首先我们应该对SVM的参数有一个详细的认知: sklearn.svm.SVC 参数说明: 本身这个函数也是基于libsvm实现的,所以在参数设置上有很多相似的地方.(PS: libsvm中的二次规划问 ...
吴裕雄 python 机器学习——数据预处理过滤式特征选取SelectPercentile模型
from sklearn.feature_selection import SelectPercentile,f_classif #数据预处理过滤式特征选取SelectPercentile模型 def ...
吴裕雄 python 机器学习——数据预处理嵌入式特征选择
import numpy as np import matplotlib.pyplot as plt from sklearn.svm import LinearSVC from sklearn.li ...
使用sklearn进行数据挖掘-房价预测(4)—数据预处理
在使用机器算法之前,我们先把数据做下预处理,先把特征和标签拆分出来 housing = strat_train_set.drop("median_house_value",axis ...
sklearn数据预处理－scale
对数据按列属性进行scale处理后,每列的数据均值变成0,标准差变为1.可通过下面的例子加深理解: from sklearn import preprocessing import numpy as ...
【sklearn】数据预处理 sklearn.preprocessing
数据预处理标准化 (Standardization) 规范化(Normalization) 二值化分类特征编码推定缺失数据生成多项式特征定制转换器 1. 标准化Standardization ...
sklearn数据预处理
一.standardization 之所以标准化的原因是,如果数据集中的某个特征的取值不服从标准的正太分布,则性能就会变得很差 ①函数scale提供了快速和简单的方法在单个数组形式的数据集上来执行标准 ...
sklearn学习笔记（一）——数据预处理 sklearn.preprocessing
https://blog.csdn.net/zhangyang10d/article/details/53418227 数据预处理 sklearn.preprocessing 标准化 (Standar ...

随机推荐

关于th,td,tr的一些相关标签
tr表示行,td表示列,th其实也是表示列但是在这个标签中的文字会以粗体出现 <th>为表格标题,属性summar为摘要, <caption>标签为首部说明, <thea ...
centos yum 安装jdk后配置JAVA_HOME
centos6.4 yum 安装jdk和JAVA_HOME的设置 2014-06-17 16:13 1176人阅读评论(0) 收藏举报分类: linux(3) 版权声明:本文为博主原创文章, ...
从零开始的全栈工程师——js篇2.21（事件对象 arguments 阻止事件默认行为兼容事件委托事件源对象）
一.事件对象 1.常用的事件2.每个元素身上的事件都是天生存在的不需要我们去定义只需要我们给这个事件绑定一个方法当事件触发的时候就会执行这个方法 3.事件绑定的写法 ①div.onclick=f ...
设置Tomcat的字符编码
在 server.xml 中的 Connector 标签在加入 URIEncoding="UTF-8" 属性. <Connector port="8080" ...
OSI七层模型含义
应用层:由用户自己规定,只要形成的消息能与表示层接口.这包括各机互访协议,分布式数据库协议等. 表示层:是在满足用户需求的基础上,尽可能的节省传输费用而设置的.如文本压缩.常用词转换.加密.变更文件格 ...
SharePoint 2010 技术参数（整理）
今天整理一些 SharePoint 2010 的技术参数,其内容都来自 SharePoint-Sandbox 网站. 有些参数值是硬性的,比如列表单条记录的尺寸:而有些是为了使用和性能考虑的推荐值. ...
[转]Android中Spinner下拉列表（使用ArrayAdapter和自定义Adapter实现）
今天学习了Spinner组件,使用Spinner相当于从下拉列表中选择项目,下面演示一下Spinner的使用(分别使用ArrayAdapter和自定义Adapter实现) (一):使用ArrayAda ...
POST信息模拟登录获取页面内容
最近项目里有一个是要模拟登录后,访问固定页面获取内容的要求,一开始用JQ AJAX好像不支持跨域请求.后使用.net中HttpWebRequest对象来获取.一开始访问总是无法在第二个页面正常访问,好 ...
VUE在页面没加载完的时候会显示原代码的处理方法
CSS: [v-cloak] { display: none; } HTML : <div v-cloak> {{ message }} </div> 其中 v-cloak官方 ...
Android（java）学习笔记150：开源项目使用之gif view
1. 由于android没有自带的gif动画,我在Android(java)学习笔记198:Android下的帧动画(Drawable Animation) 播客中提到可以使用AnimationVie ...

【Sklearn系列】使用Sklearn进行数据预处理

读取数据并创建数据表格，查看数据相关信息

填充缺失值（数据预处理的第一步就是处理缺失值）

处理类目型数据

从dataframe中挑选我们需要的特征值

数据标准化（标准差标准化，经过处理的数据符合均值为0，标准差为1的标准正态分布）

【Sklearn系列】使用Sklearn进行数据预处理的更多相关文章

随机推荐

热门专题