数据预处理（Python scikit-learn）

在机器学习任务中，经常会对数据进行预处理．如尺度变换，标准化，二值化，正规化．至于采用哪种方法更有效，则与数据分布和采用算法有关．不同算法对数据的假设不同，可能需要不同的变换，而且有时无需进行变换，也可能得到相对更好的效果．因此推荐使用多种数据变换方式，用多个不同算法学习和测试，选择相对较好的变换方式和算法．

下面对在 Python scikit-learn 库（也称 sklearn 库）中的预处理过程进行介绍：

1. 加载数据集；

2. 将数据集分为用于机器学习的输入变量和输出变量；

3. 对输入变量进行变换（或预处理）；

4. 显示变换结果（可选）．

本文采用 scikit-learn 库自带的鸢尾花数据集(Iris Plants Database)作为示例．

首先，加载数据集，获取输入变量 X 和输出变量 y ，示例代码如下：

from sklearn import datasets

import numpy as np

data = datasets.load_iris()

X, y = data.data, data.target

np.set_printoptions(precision=3)

print ("\n" "Preprocess input variables: " "\n")

print ("Raw Data: ")

print (X[:5, :])

然后，变换输入变量 X (类型为 <type 'numpy.ndarray'>)，具体变换如下：

尺度变换

将输入变量变换到某一范围，如 0 ~ 1 区间．在 sklearn 库中，使用 MinMaxScaler 类实现．常用于类似梯度下降的优化算法，回归和神经网络中的加权输入，以及类似 K 近邻的距离度量．示例代码如下：

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler(feature_range=(0,1))

rescaledX = scaler.fit_transform(X)

# Print transformed data

print ("\nRescaled Data: ")

print(rescaledX[0:5,:])

标准化

通常适用于高斯分布的输入变量．具体来说，将输入变量中的每个属性值减去其平均值，然后除以标准差，得到标准正态分布的属性值．在 sklearn库中，使用 StandardScaler 类实现．常用于假定输入变量高斯分布的线性回归，Logistic回归和线性判决分析．

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler().fit(X)

standardizedX = scaler.transform(X)

print ("\nStandardized Data: ")

print (standardizedX[0:5,:])

正规化

将输入变量变换为具有单位范数长度的数据．常用的范数有L1，L2，详见我之前的博文 "数据正规化 (data normalization) 的原理及实现 (Python sklearn)". 在 sklearn 库中，使用 Normalizer 类实现．常用于含有许多 0 的稀疏数据集，像神经网络的采用加权输入的算法和像 K 近邻采用距离度量的算法．

from sklearn.preprocessing import Normalizer

scaler = Normalizer().fit(X)

normalizedX = scaler.transform(X)

print ("\nNormalized Data: ")

print (normalizedX[0:5,:])

二值化

使用门限值，将输入数据二值化．当输入变量值大于门限值时，变换为 1；当输入变量值小于或等于门限值时，变换为 0．在 sklearn 库中，使用 Binarizer 类实现．常用于获取清晰的值的概率，产生新的有意义的属性的特征工程．

from sklearn.preprocessing import Binarizer

binarizer = Binarizer(threshold=0.0).fit(X)

binaryX = binarizer.transform(X)

print ("\nBinarized Data: ")

print (binaryX[0:5,:])

参考资料

Jason Brownlee. How To Prepare Your Data For Machine Learning in Python with Scikit-Learn.

https://machinelearningmastery.com/prepare-data-machine-learning-python-scikit-learn/

数据预处理（Python scikit-learn）的更多相关文章

数据预处理 | python 第三方库 imblearn 处理样本分布不均衡问题
说明:目前只记录了过采样和欠采样的代码部分 1 样本分布不均衡描述: 主要出现在与分类相关的建模问题上,不均衡指的是不同类别的样本量差异非常大. 样本量差距过大会影响到建模结果 2 出现的场 ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
python data analysis | python数据预处理（基于scikit-learn模块）
原文:http://www.jianshu.com/p/94516a58314d Dataset transformations| 数据转换 Combining estimators|组合学习器 Fe ...
[Python数据挖掘]第4章、数据预处理
数据预处理主要包括数据清洗.数据集成.数据变换和数据规约,处理过程如图所示. 一.数据清洗 1.缺失值处理:删除.插补.不处理 ## 拉格朗日插值代码(使用缺失值前后各5个未缺失的数据建模) impo ...
Python数据预处理：机器学习、人工智能通用技术（1）
Python数据预处理:机器学习.人工智能通用技术白宁超 2018年12月24日17:28:26 摘要:大数据技术与我们日常生活越来越紧密,要做大数据,首要解决数据问题.原始数据存在大量不完整.不 ...
python中常用的九种数据预处理方法分享
Spyder Ctrl + 4/5: 块注释/块反注释本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍; 1. 标准化(St ...
2 python大数据挖掘系列之淘宝商城数据预处理实战
preface 在上一章节我们聊了python大数据分析的基本模块,下面就说说2个项目吧,第一个是进行淘宝商品数据的挖掘,第二个是进行文本相似度匹配.好了,废话不多说,赶紧上车. 淘宝商品数据挖掘数 ...
Python数据挖掘——数据预处理
Python数据挖掘——数据预处理数据预处理数据质量准确性.完整性.一致性.时效性.可信性.可解释性数据预处理的主要任务数据清理数据集成数据归约维归约数值归约数据变换规范化数据 ...
Python的工具包[1] -> pandas数据预处理 -> pandas 库及使用总结
pandas数据预处理 / pandas data pre-processing 目录关于 pandas pandas 库 pandas 基本操作 pandas 计算 pandas 的 Series ...

随机推荐

OpenERP how to set the tree view limit
return { 'name':u'库存报表', 'view_type':'form', 'view_mode':'tree,form', 'res_model':'rainsoft.account. ...
（转）史上最全的MSSQL复习笔记
1.什么是SQL语句 sql语言:结构化的查询语言.(Structured Query Language),是关系数据库管理系统的标准语言. 它是一种解释语言:写一句执行一句,不需要整体编译执行.语法 ...
Ngin 简单配置文件
#user nobody; worker_processes ; #error_log logs/error.log; #error_log logs/error.log notice; #error ...
vSphere虚拟主机安装Centos7系统
经过上一帖的主机设置,这一步就可以开始安装系统了,本次详细记录各个过程并分析结果. Centos7 1.右键点击列表中的虚拟主机,打开控制台. 点击绿色开机键,开始安装. 这里有一个很关键的点,就是上 ...
【转载】伪静态SQL注入
伪静态,主要是为了隐藏传递的参数名,伪静态只是一种URL重写的手段,既然能接受参数输入,所以并不能防止注入.目前来看,防止注入的最有效的方法就是使用LINQ.常规的伪静态页面如下:http://www ...
使用Java Servlet进行简单登录
效果图登录页面代码:login.html <%@ page language="java" contentType="text/html; charset=UTF ...
CC2530串口工作
前言嘿嘿,我只是写给我自己的一篇博客,今天研究了一天的CC2530,感觉好累,虽然是已经落伍的技术了,但是我觉得不要小看它,还是能够学到点东西的,随着学习的深入,渐渐感觉有点突破的苗头了!哈哈 CC ...
UUID 压缩为22位
public class Generator { private static char[] BASE64 = "abcdefghijklmnopqrstuvwxyz_ABCDEFGHIJK ...
[转]HTTP Error 502.5 - Process Failure asp.net core error in IIS
本文转自:http://www.cnblogs.com/autohome7390/p/6840652.html 在windows server 2012 上安装完dotnet-win-x64.1.1. ...
微信小程序 c#后台支付结果回调
又为大家带来简单的c#后台支付结果回调方法,首先还是要去微信官网下载模板(WxPayAPI),将模板(WxPayAPI)添加到服务器上,然后在打开WxPayAPI项目中的example文件下的 Nat ...

数据预处理（Python scikit-learn）

数据预处理（Python scikit-learn）的更多相关文章

随机推荐

热门专题