机器学习中数据清洗&预处理
数据预处理是建立机器学习模型的第一步,对最终结果有决定性的作用:如果你的数据集没有完成数据清洗和预处理,那么你的模型很可能也不会有效
第一步,导入数据
进行学习的第一步,我们需要将数据导入程序以进行下一步处理
加载 nii
文件并转为 numpy 数组
import nibabel as nib
from skimage import transform
import os
import numpy as np
img = nib.load(img_file)
img = img.get_fdata()
img = transform.resize(img[:, :, :, 0], (256, 256, 5))
img = np.squeeze(img)
train_img[i - 1, :, :, :] = img[:, :, :]
第二步,数据预处理
Python提供了多种多样的库来完成数据处理的的工作,最流行的三个基础的库有:Numpy、Matplotlib 和 Pandas。Numpy 是满足所有数学运算所需要的库,由于代码是基于数学公式运行的,因此就会使用到它。Maplotlib(具体而言,Matplotlib.pyplot)则是满足绘图所需要的库。Pandas 则是最好的导入并处理数据集的一个库。对于数据预处理而言,Pandas 和 Numpy 基本是必需的
在导入库时,如果库名较长,最好能赋予其缩写形式,以便在之后的使用中可以使用简写。如
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
导入数据
import pandas as pd
def read_data(file_name : str):
suffix = file_name.split('.')
if suffix[1] == "csv":
dataset = pd.read_csv(file_name)
return dataset
return None
读取的数据为
animal | age | worth | friendly | |
---|---|---|---|---|
0 | cat | 3 | 1200.0 | yes |
1 | dog | 4 | 2400.0 | yes |
2 | dog | 3 | 7000.0 | no |
3 | cat | 2 | 3400.0 | yes |
4 | moose | 6 | 4000.0 | no |
5 | moose | 3 | NaN | yes |
将数据划分为因变量和自变量($ y = f(x)$)
dataset = read_data("data.csv") # pandas.core.frame.DataFrame
print(dataset)
x = dataset.iloc[:, :-1].values # 将Dataframe转为数组,且不包括最后一列
y = dataset.iloc[:, 3].values # dataset最后一列
\begin{bmatrix}
{'cat'} & {3} & {1200.0} \\
{'dog'} & {4} & {2400.0} \\
{'dog'} & {3} & {7000.0} \\
{'cat'} & {2} & {3400.0} \\
{'moose'} & {6} & {4000.0} \\
{'moose'} & {3} & {nan}
\end{bmatrix} \\
y = ['yes', 'yes', 'no', 'yes', 'no', 'yes']
\]
可见 \(x\) 中是有一项数据是缺失的,此时可以使用 scikit-learn 预处理模型中的 imputer 类来填充缺失项
from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values = np.nan, strategy = 'mean', axis = 0) # 使用均值填充缺失数据
imputer = imputer.fit(x[:, 1:3])
x[:, 1:3] = imputer.transform(x[:, 1:3])
其中 missing_values
指定了待填充的缺失项值, strategy
指定填充策略,此处填充策略使用的是均值填充,也可以使用中值,众数等策略
填充结果
{'cat'} & {3} & {1200.0} \\
{'dog'} & {4} & {2400.0} \\
{'dog'} & {3} & {7000.0} \\
{'cat'} & {2} & {3400.0} \\
{'moose'} & {6} & {4000.0} \\
{'moose'} & {3} & {3600.0} \\
\end{bmatrix}
\]
这种填充适用于数字的填充,如果是属性填充,我们可以将属性数据编码为数值。此时我们可以使用 sklearn.preprocessing 所提供的 LabelEncoder 类
from sklearn.preprocessing import LabelEncoder
print(y)
labelencoder = LabelEncoder()
y = labelencoder.fit_transform(y)
print(y)
编码结果
\Downarrow \\
y = [1, 1, 0, 1, 0, 1]
\]
训练集与测试集的划分
此时我们可以使用 sklearn.model_selection.train_test_split
来进行划分
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0)
进行测试集与训练集划分的一种常见的方法是将数据集按 80/20 进行划分,其中 80% 的数据用作训练,20% 的数据用作测试,由 test_size = 0.2
指明,random_state
指定是否随机划分
特征缩放
当我们的数据跨度很大的话或者在某些情况下(如:学习时,模型可能会因数据的大小而给予不同的权重,而我们并不需要如此的情况),我们可以将数据特征进行缩放,使用 sklearn.preprocessing.StandardScaler
from sklearn.preprocessing import StandardScaler
x[:, 0] = labelencoder.fit_transform(x[:, 0]) # 将属性变为数字
print(x_train)
sc_x = StandardScaler() #
x_train = sc_x.fit_transform(x_train)
x_test = sc_x.transform(x_test)
print(x_train)
结果
{1} & {4.0} & {2400.0} \\
{0} & {2.0} & {3400.0} \\
{0} & {3.0} & {1200.0} \\
{2} & {6.0} & {4000.0}
\end{bmatrix}
\]
\]
{0.30151134} & {0.16903085} & {-0.32961713} \\
{-0.90453403} & {-1.18321596} & {0.61214609} \\
{-0.90453403} & {-0.50709255} & {-1.45973299} \\
{1.50755672} & {1.52127766} & {1.17720402}
\end{bmatrix}
\]
机器学习中数据清洗&预处理的更多相关文章
- 100天搞定机器学习|Day1数据预处理
数据预处理是机器学习中最基础也最麻烦的一部分内容 在我们把精力扑倒各种算法的推导之前,最应该做的就是把数据预处理先搞定 在之后的每个算法实现和案例练手过程中,这一步都必不可少 同学们也不要嫌麻烦,动起 ...
- 机器学习PAL数据预处理
机器学习PAL数据预处理 本文介绍如何对原始数据进行数据预处理,得到模型训练集和模型预测集. 前提条件 完成数据准备,详情请参见准备数据. 操作步骤 登录PAI控制台. 在左侧导航栏,选择模型开发和训 ...
- 机器学习中的相似性度量(Similarity Measurement)
机器学习中的相似性度量(Similarity Measurement) 在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间 ...
- paper 127:机器学习中的范数规则化之(二)核范数与规则项参数选择
机器学习中的范数规则化之(二)核范数与规则项参数选择 zouxy09@qq.com http://blog.csdn.net/zouxy09 上一篇博文,我们聊到了L0,L1和L2范数,这篇我们絮叨絮 ...
- paper 126:[转载] 机器学习中的范数规则化之(一)L0、L1与L2范数
机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化. ...
- 机器学习中的范数规则化之(一)L0、L1与L2范数
L1正则会产生稀疏解,让很多无用的特征的系数变为0,只留下一些有用的特征 L2正则不让某些特征的系数变为0,即不产生稀疏解,只让他们接近于0.即L2正则倾向于让权重w变小.见第二篇的推导. 所以,样本 ...
- ML 07、机器学习中的距离度量
机器学习算法 原理.实现与实践 —— 距离的度量 声明:本篇文章内容大部分转载于July于CSDN的文章:从K近邻算法.距离度量谈到KD树.SIFT+BBF算法,对内容格式与公式进行了重新整理.同时, ...
- paper 56 :机器学习中的算法:决策树模型组合之随机森林(Random Forest)
周五的组会如约而至,讨论了一个比较感兴趣的话题,就是使用SVM和随机森林来训练图像,这样的目的就是 在图像特征之间建立内在的联系,这个model的训练,着实需要好好的研究一下,下面是我们需要准备的入门 ...
- 机器学习中的范数规则化之(一)L0、L1与L2范数(转)
http://blog.csdn.net/zouxy09/article/details/24971995 机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http: ...
随机推荐
- Goldwave-5.7[逆向流程+算法分析]
目标程序:Goldwave 5.7 分析工具: 1.OllyDbg 2.IDAPro 目的:用C语言写Goldwave-5.7的注册机. 0x0思路: 1.注册机准备: 功能:输入用户名后经过计算输出 ...
- oracle执行计划走偏处理步骤
-- sql执行时间select a.EXECUTIONS,a.ELAPSED_TIME,a.ELAPSED_TIME/a.EXECUTIONS/1000/1000 as 秒,a.SQL_ID,a.H ...
- 第二次OO总结
作业5——多线程电梯 好像失忆了,竟然对这三部电梯很陌生,我尽量回忆一下当时挣扎的场景orz 整体思路和第二次电梯差不多,但是将调度器类套在了电梯类里 优点可能是没有无效,足矣!!!缺点emmmm要是 ...
- django 如何接收bootstrap-table传送的 ajax数组
今天在用django传递id的时候,使用 alert(ids)以及console.log("id:",ids),都可以看到是把选中的数据的id打印出来的,用console.log可 ...
- XSSearch 说明文档保存
XSSearch All Packages | 属性 | 方法(函数) 包 XS 继承关系 class XSSearch » XSServer » XSComponent 版本 1.0.0 源代码 s ...
- 2.0vue导出excel
如果没有插件导入 import FileSaver from 'file-saver' import XLSX from 'xlsx'导入依赖 import FileSaver from 'file- ...
- android 界面设计
wm = (WindowManager) getSystemService(Context.WINDOW_SERVICE); DisplayMetrics dm = new DisplayMetric ...
- 我的C#跨平台之旅(四):使用AOP(filter、attribute)进行系统增强
1.使用OData提速REST API开发 引入NuGet包:Microsoft.AspNet.WebApi.OData 在启动类中添加如下配置(示例为全局配置,也可基于Controller或Acti ...
- 恢复oracle数据从delete
今天维护系统的时候没仔细看,误删了50行数据,然后想起来以前学过delete语句删除的数据是可以回复的,但是那个时候比较慌乱,也没有心情仔细看,反而是想到了一个歪招解决了问题,我有个良好的嗜好就是经常 ...
- vue的学习之路
一.vs code中,适合vue的前端插件 查看网址:http://blog.csdn.net/caijunfen/article/details/78749766 二.如何使用git从gitub上拉 ...