python大战机器学习——数据预处理

【python大战机器学习——数据预处理】的更多相关文章

python大战机器学习——数据预处理

数据预处理的常用流程: 1)去除唯一属性 2)处理缺失值 3)属性编码 4)数据标准化.正则化 5)特征选择 6)主成分分析 1.去除唯一属性如id属性,是唯一属性,直接去除就好 2.处理缺失值 (1)直接使用含有缺失值的特征如决策树算法就可以直接使用含有缺失值的特征 (2)删除含有缺失值的特征 (3)缺失值补全 1)均值插补若样本属性的距离是可度量的,则该属性的缺失值就以该属性有效值的平均值来插补缺失的值.如果样本的属性的距离是不可度量的,则该属性的缺失值就以该属性有效值的众数来插补缺失…

python大战机器学习——数据降维

注:因为公式敲起来太麻烦,因此本文中的公式没有呈现出来,想要知道具体的计算公式,请参考原书中内容降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中 1.主成分分析(PCA) 将n维样本X通过投影矩阵W,转换为K维矩阵Z 输入:样本集D,低维空间d 输出:投影矩阵W 算法步骤: 1)对所有样本进行中心化操作 2)计算样本的协方差矩阵 3)对协方差矩阵做特征值分解 4)取最大的d个特征值对应的特征向量,构造投影矩阵W 注:通常低维空间维数d的选取有两种方法:1)通过交叉验证法选…

Python: sklearn库——数据预处理

Python: sklearn库 —— 数据预处理数据集转换之预处理数据: 将输入的数据转化成机器学习算法可以使用的数据.包含特征提取和标准化. 原因:数据集的标准化(服从均值为0方差为1的标准正态分布(高斯分布))是大多数机器学习算法的常见要求. 如果原始数据不服从高斯分布,在预测时表现可能不好.在实践中,我们经常进行标准化(z-score 特征减去均值/标准差). 一.标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性…

机器学习 —— 数据预处理

对于学习机器学习算法来说,肯定会涉及到数据的处理,因此一开始,对数据的预处理进行学习对于数据的预处理,大概有如下几步: 步骤1 -- 导入所需库导入处理数据所需要的python库,有如下两个库是非常重要的两个库,每次必导入 numpy 该库包含数学函数功能的库 pandas 该库用于导入和管理数据集步骤2 -- 导入数据集数据集通常以 .csv 格式进行保存,csv文件是以普通文本的形式存储列表数据,文件中每一行是一个数据记录. 对于csv文件,使用pandas模块中的 read_cvs…

[机器学习]-[数据预处理]-中心化缩放 KNN（二）

上次我们使用精度评估得到的成绩是 61%,成绩并不理想,再使 recall 和 f1 看下成绩如何? 首先我们先了解一下召回率和 f1. 真实结果预测结果预测结果正例反例正例 TP 真正例 FN 假反例反例 FP 假正例 TN 真反例召回率:TP/(TP+FN) f1:2TP/(2TP+FN+FP) 我们使用scikit-learn的分类报告来查看各种其他指标: 现在我们来介绍一下缩放和中心化,他们是预处理数值数据最基本的方法,接下来,看看它们是否对模型有影响,以及怎样的影响…

吴裕雄 python 机器学习——数据预处理过滤式特征选取SelectPercentile模型

from sklearn.feature_selection import SelectPercentile,f_classif #数据预处理过滤式特征选取SelectPercentile模型 def test_SelectKBest(): X=[[1,2,3,4,5], [5,4,3,2,1], [3,3,3,3,3,], [1,1,1,1,1]] y=[0,1,0,1] print("before transform:",X) selector=SelectPercentile(s…

吴裕雄 python 机器学习——数据预处理过滤式特征选取VarianceThreshold模型

from sklearn.feature_selection import VarianceThreshold #数据预处理过滤式特征选取VarianceThreshold模型 def test_VarianceThreshold(): X=[[100,1,2,3], [100,4,5,6], [100,7,8,9], [101,11,12,13]] selector=VarianceThreshold(1) selector.fit(X) print("Variances is %s"…

吴裕雄 python 机器学习——数据预处理正则化Normalizer模型

from sklearn.preprocessing import Normalizer #数据预处理正则化Normalizer模型 def test_Normalizer(): X=[[1,2,3,4,5], [5,4,3,2,1], [1,3,5,2,4,], [2,4,1,3,5]] print("before transform:",X) normalizer=Normalizer(norm='l2') print("after transform:",no…

吴裕雄 python 机器学习——数据预处理标准化MaxAbsScaler模型

from sklearn.preprocessing import MaxAbsScaler #数据预处理标准化MaxAbsScaler模型 def test_MaxAbsScaler(): X=[[1,5,1,2,10], [2,6,3,2,7], [3,7,5,6,4,], [4,8,7,8,1]] print("before transform:",X) scaler=MaxAbsScaler() scaler.fit(X) print("scale_ is :&quo…

吴裕雄 python 机器学习——数据预处理标准化StandardScaler模型

from sklearn.preprocessing import StandardScaler #数据预处理标准化StandardScaler模型 def test_StandardScaler(): X=[[1,5,1,2,10], [2,6,3,2,7], [3,7,5,6,4,], [4,8,7,8,1]] print("before transform:",X) scaler=StandardScaler() scaler.fit(X) print("scale_…