对于学习机器学习算法来说，肯定会涉及到数据的处理，因此一开始，对数据的预处理进行学习

对于数据的预处理，大概有如下几步:

步骤1 —— 导入所需库

导入处理数据所需要的python库，有如下两个库是非常重要的两个库，每次必导入

numpy

该库包含数学函数功能的库

pandas

该库用于导入和管理数据集

步骤2 —— 导入数据集

数据集通常以 .csv 格式进行保存，csv文件是以普通文本的形式存储列表数据，文件中每一行是一个数据记录。

对于csv文件，使用pandas模块中的 read_cvs 方法进行读取。

步骤3 —— 处理丢失数据

由于实际获取到的数据很少是同一类型的，由于各种原因会导致数据丢失，因此需要处理，以便不会降低机器学习模型的性能。

我们可以使用整列数据中的均值或者中值来替换丢失的数据， python中使用sklearn.preprocessing中的imputer类来完成该任务。

步骤4 —— 编码分类数据

分类数据通常包括的分类类型是标签值，例如是”Yes”或”No”，而不是数值，例如0或1。

由于标签值是不能用在机器学习模型的数学等式中的，因此，需要把标签值转换为数值。

python中使用sklearn.preprocessing库中的LabelEncoder类可以完成该任务。

步骤5 —— 划分数据为训练集和测试集

机器学习中，需要把数据集划分为两部分，用于训练机器学习模式的称之为 训练集, 用于测试训练出来的模型性能的称之为 测试集。通常按80/20比例把需数据集划分为训练集和测试集。

python中使用sklearn.crossvalidation库中的train_test_split()方法进行划分。

步骤6 —— 特征缩放

大部分的机器学习算法在计算过程中使用两个数据点之间的欧几里德距离。如果数据集中的特征值的变化范围比较大的话，大的数值比小的数值在计算距离上会导致不同的权重。因此需要进行特征标准化或Z-score正规化。

python中可以使用sklearn.preprocessing库中的StandardScalar

代码实现

# -*- coding: utf-8 -*-

"""

Author: wxer

"""

# step 1 - import the libraries

import numpy as np

import pandas as pd

from sklearn.preprocessing import Imputer

from sklearn.preprocessing import LabelEncoder, OneHotEncoder

from sklearn.cross_validation import train_test_split

from sklearn.preprocessing import StandardScaler

# step 2 - import dataset

dataset = pd.read_csv('Data.csv')

X = dataset.iloc[:, :-1].values

Y = dataset.iloc[: 大专栏  机器学习 —— 数据预处理, 3].values

# step 3 - handing the missing data

imputer = Imputer(missing_values='NaN', strategy='mean', axis=0)

imputer = imputer.fit(X[:, 1: 3])

X[:, 1: 3] = imputer.transform(X[:, 1: 3])

# step 4 - encoding  categorical data

labelencoder_X = LabelEncoder()

X[:, 0] = labelencoder_X.fit_transform(X[:, 0])

onehotencoder = OneHotEncoder(categorical_features=[0])

X = onehotencoder.fit_transform(X).toarray()

labelencoder_Y = LabelEncoder()

Y = labelencoder_Y.fit_transform(Y)

# step 5 - splitting the datasets into training sets and test sets

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

# step 6 - feature scaling

sc_X = StandardScaler()

X_train = sc_X.fit_transform(X_train)

X_test = sc_X.fit_transform(X_test)

参考

机器学习 —— 数据预处理的更多相关文章

[机器学习]-[数据预处理]-中心化缩放 KNN（二）
上次我们使用精度评估得到的成绩是 61%,成绩并不理想,再使 recall 和 f1 看下成绩如何? 首先我们先了解一下召回率和 f1. 真实结果预测结果预测结果正例反例正例 TP 真 ...
python大战机器学习——数据预处理
数据预处理的常用流程: 1)去除唯一属性 2)处理缺失值 3)属性编码 4)数据标准化.正则化 5)特征选择 6)主成分分析 1.去除唯一属性如id属性,是唯一属性,直接去除就好 2.处理缺失值 ( ...
吴裕雄 python 机器学习——数据预处理过滤式特征选取SelectPercentile模型
from sklearn.feature_selection import SelectPercentile,f_classif #数据预处理过滤式特征选取SelectPercentile模型 def ...
吴裕雄 python 机器学习——数据预处理过滤式特征选取VarianceThreshold模型
from sklearn.feature_selection import VarianceThreshold #数据预处理过滤式特征选取VarianceThreshold模型 def test_Va ...
吴裕雄 python 机器学习——数据预处理正则化Normalizer模型
from sklearn.preprocessing import Normalizer #数据预处理正则化Normalizer模型 def test_Normalizer(): X=[[1,2,3, ...
吴裕雄 python 机器学习——数据预处理标准化MaxAbsScaler模型
from sklearn.preprocessing import MaxAbsScaler #数据预处理标准化MaxAbsScaler模型 def test_MaxAbsScaler(): X=[[ ...
吴裕雄 python 机器学习——数据预处理标准化StandardScaler模型
from sklearn.preprocessing import StandardScaler #数据预处理标准化StandardScaler模型 def test_StandardScaler() ...
吴裕雄 python 机器学习——数据预处理标准化MinMaxScaler模型
from sklearn.preprocessing import MinMaxScaler #数据预处理标准化MinMaxScaler模型 def test_MinMaxScaler(): X=[[ ...
吴裕雄 python 机器学习——数据预处理二元化OneHotEncoder模型
from sklearn.preprocessing import OneHotEncoder #数据预处理二元化OneHotEncoder模型 def test_OneHotEncoder(): X ...

随机推荐

Linux 安装python3.x步骤
本文转发自博客园非真的文章,内容略有改动本文已收录至博客专栏linux安装各种软件及配置环境教程中 linux系统本身默认安装有2.x版本的python,版本x根据不同版本系统有所不同,通过pyth ...
tensorflow中使用指定的GPU及GPU显存
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 本文目录 1 终端执行程序时设置使用的GPU 2 python代码中设置使用的GPU 3 设置tensorflow使用的显 ...
吴裕雄--天生自然 PYTHON3开发学习：面向对象
class MyClass: """一个简单的类实例""" i = 12345 def f(self): return 'hello wor ...
讯飞语音的中的bug用户校验失败
用户校验失败:原因是目录没有复制粘贴正确. 下面是刚刚下载的SDK目录: 下面的是自己Android工程中的目录:注意复制粘贴的文件路径要正确
CodeForces - 977E
题:https://codeforces.com/problemset/problem/977/E 题意:给你一个图,问你有几个没有杂边的单环(度全为2) 分析:单环点的度数一定是2,连续边,判断是否 ...
MTF的倾斜边缘计算方法
光学系统性能的衡量方法有很多,常见的有点扩散函数法.瑞利判断法.点列图法.光学传递函数(MTF)法等,其中 MTF 法在光学系统和镜头加工制造中使用最为广泛.MTF 曲线真实的反映了成像系统将物 ...
C++ lock_guard 互斥锁
概述根据对象的析构函数自动调用的原理,c++11推出了std::lock_guard自动释放锁,其原理是:声明一个局部的lock_guard对象,在其构造函数中进行加锁,在其析构函数中进行解锁.最终的 ...
Android 5.0 5.1 webview 闪退问题
自定义webview /** * 处理Android 5.0 5.1 webview 闪退 */ class MyWebView : WebView { companion object{ priva ...
CondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://repo.anaconda.com/pkgs/main/win-64/repodata.json.bz2> Elapsed: -
将C:\Users\<本机用户名>\.condarc文件修改为 channels: - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/ ...
skip-list（跳表）原理及C++代码实现
跳表是一个很有意思的数据结构,它实现简单,但是性能又可以和平衡二叉搜索树差不多. 据MIT公开课上教授的讲解,它的想法和纽约地铁有异曲同工之妙,简而言之就是不断地增加“快线”,从而降低时间复杂度. 当 ...

机器学习 —— 数据预处理

代码实现

参考

机器学习 —— 数据预处理的更多相关文章

随机推荐

热门专题