数据的预处理是数据分析，或者机器学习训练前的重要步骤。
通过数据预处理，可以

提高数据质量，处理数据的缺失值、异常值和重复值等问题，增加数据的准确性和可靠性
整合不同数据，数据的来源和结构可能多种多样，分析和训练前要整合成一个数据集
提高数据性能，对数据的值进行变换，规约等（比如无量纲化），让算法更加高效

本篇介绍的标准化处理，可以消除数据之间的差异，使不同特征的数据具有相同的尺度，
以便于后续的数据分析和建模。

1. 原理

数据标准化的过程如下：

计算数据列的算术平均值（mean）
计算数据列的标准差（sd）
标准化处理：\(new\_data = (data - mean) / sd\)

data 是原始数据，new_data 是标准化之后的数据。

根据原理，实现的对一维数据标准化的示例如下：

import numpy as np

# 标准化的实现原理

data = np.array([1, 2, 3, 4, 5])

mean = np.mean(data)  # 平均值

sd = np.std(data)   # 标准差

# 标准化

data_new = (data-mean)/sd

print("处理前: {}".format(data))

print("处理后: {}".format(data_new))

# 运行结果

处理前: [1 2 3 4 5]

处理后: [-1.41421356 -0.70710678  0.          0.70710678  1.41421356]

使用scikit-learn库中的标准化函数scale，得到的结果也和上面一样。

from sklearn import preprocessing as pp

data = np.array([1, 2, 3, 4, 5])

pp.scale(data)

# 运行结果

array([-1.41421356, -0.70710678,  0.        ,  0.70710678,  1.41421356])

scikit-learn库中的标准化函数scale不仅可以处理一维的数据，也可以处理多维的数据。

2. 作用

标准化处理的作用主要有：

2.1. 消除数据量级的影响

数据分析时，不一样量级的数据放在一起分析会增加很多不必要的麻烦，比如下面三组数据：

data_min = np.array([0.001, 0.002, 0.003, 0.004, 0.005])

data = np.array([1, 2, 3, 4, 5])

data_max = np.array([10000, 20000, 30000, 40000, 50000])

三组数据看似差距很大，但是标准化处理之后：

from sklearn import preprocessing as pp

print("data_min 标准化：{}".format(pp.scale(data_min)))

print("data     标准化：{}".format(pp.scale(data)))

print("data_max 标准化：{}".format(pp.scale(data_max)))

# 运行结果

data_min 标准化：[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]

data     标准化：[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]

data_max 标准化：[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]

标准化处理之后，发现三组数据其实是一样的。
将数据转化为相同的尺度，使得不同变量之间的比较更加方便和有意义，避免对分析结果产生误导。

2.2. 增强可视化效果

此外，标准化之后的数据可视化效果也会更好。
比如下面一个对比学生们数学和英语成绩的折线图：

math_scores = np.random.randint(0, 150, 10)

english_scores = np.random.randint(0, 100, 10)

fig, ax = plt.subplots(2, 1)

fig.subplots_adjust(hspace=0.4)

ax[0].plot(range(1, 11), math_scores, label="math")

ax[0].plot(range(1, 11), english_scores, label="english")

ax[0].set_ylim(0, 150)

ax[0].set_title("标准化之前")

ax[0].legend()

ax[1].plot(range(1, 11), pp.scale(math_scores), label="math")

ax[1].plot(range(1, 11), pp.scale(english_scores), label="english")

ax[1].set_title("标准化之后")

ax[1].legend()

plt.show()

随机生成10个数学和英语的成绩，数学成绩的范围是0~150，英语成绩的范围是0~100。

标准化前后的折线图对比如下：

标准化之前的对比，似乎数学成绩要比英语成绩好。
而从标准化之后的曲线图来看，其实两门成绩是差不多的。

这就是标准化的作用，使得可视化结果更加准确和有意义。

2.3. 机器学习的需要

许多机器学习算法对输入数据的规模和量纲非常敏感。
如果输入数据的特征之间存在数量级差异，可能会影响算法的准确性和性能。

标准化处理可以将所有特征的数据转化为相同的尺度，从而避免这种情况的发生，提高算法的准确性和性能。

3. 总结

总的来说，数据标准化处理是数据处理中不可或缺的一步，它可以帮助我们消除数据之间的差异，提高分析结果的性能和稳定性，增加数据的可解释性，从而提高我们的决策能力。

【scikit-learn基础】--『预处理』之标准化的更多相关文章

Python基础『一』
内置数据类型数据名称例子数字: Bool,Complex,Float,Integer True/False; z=a+bj; 1.23; 123 字符串: String '123456' 元组: ...
Python基础『二』
目录语句,表达式赋值语句打印语句分支语句循环语句函数函数的作用函数的三要素函数定义 DEF语句 RETURN语句函数调用作用域闭包递归函数匿名函数迭代语句,表达式赋值 ...
『TensorFlow』TFR数据预处理探究以及框架搭建
一.TFRecord文件书写效率对比(单线程和多线程对比) 1.准备工作 # Author : Hellcat # Time : 18-1-15 ''' import os os.environ[&q ...
『TensorFlow』SSD源码学习_其五：TFR数据读取&数据预处理
Fork版本项目地址:SSD 一.TFR数据读取创建slim.dataset.Dataset对象在train_ssd_network.py获取数据操作如下,首先需要slim.dataset.Dat ...
『cs231n』计算机视觉基础
线性分类器损失函数明细: 『cs231n』线性分类器损失函数最优化Optimiz部分代码: 1.随机搜索 bestloss = float('inf') # 无穷大 for num in range ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
『TensorFlow』专题汇总
TensorFlow:官方文档 TensorFlow:项目地址本篇列出文章对于全零新手不太合适,可以尝试TensorFlow入门系列博客,搭配其他资料进行学习. Keras使用tf.Session训 ...
『计算机视觉』Mask-RCNN_从服装关键点检测看KeyPoints分支
下图Github地址:Mask_RCNN Mask_RCNN_KeyPoints『计算机视觉』Mask-RCNN_论文学习『计算机视觉』Mask-RCNN_项目文档翻译『计算机视觉』Mas ...
『计算机视觉』Mask-RCNN
一.Mask-RCNN流程 Mask R-CNN是一个实例分割(Instance segmentation)算法,通过增加不同的分支,可以完成目标分类.目标检测.语义分割.实例分割.人体姿势识别等多种 ...
『TensorFlow』SSD源码学习_其一：论文及开源项目文档介绍
一.论文介绍读论文系列:Object Detection ECCV2016 SSD 一句话概括:SSD就是关于类别的多尺度RPN网络基本思路: 基础网络后接多层feature map 多层feat ...

随机推荐

[初学C#] 第二习题 : 快递跟踪信息查询
刚学C#, 折腾的一个小玩意. 熟悉和了解C#这门编程语言. 没有啥特殊意义解锁技能 - System.Net 的 WebRequest等http请求 - Newtonsoft.Json 这个第三方 ...
想转行DevOps工程师？快来看看DevOps工程师的学习路径，少走弯路
DevOps方法论 :::tips DevOps方法论的主要来源是Agile, Lean 和TOC, 独创的方法论是持续交付. ::: DevOps 是一种软件开发方法,涉及持续开发,持续测试,持续集 ...
C#/.NET/.NET Core优秀项目和框架2023年9月简报
前言公众号每月定期推广和分享的C#/.NET/.NET Core优秀项目和框架(公众号每周至少推荐两个优秀的项目和框架当然节假日除外),公众号推文有项目和框架的介绍.功能特点以及部分截图等(打不开或 ...
DICOM PS3.7 2021a - Message Exchange
PS3.7 DICOM PS3.7 2021a - Message Exchange DICOM Standards Committee Copyright 2021 NEMA A DICOM pub ...
docker入门加实战——docker安装并配置阿里云加速
docker入门加实战--docker安装并配置阿里云加速为什么要学习docker 在开发和部署项目的过程中,经常会遇到如下问题: 软件安装包名字复杂,不知道去哪里找安装软件和部署项目步骤复杂,容 ...
ORA-10456: cannot open standby database; media recovery session may be in progress
SQL> alter database recover managed standby database disconnect from session;Database altered.SQL ...
爽。。。一键导出 MySQL 表结构，告别手动梳理表结构文档了。。。
背景系统需要交付,客户要求提供交维材料,包括系统的表结构,安排开发人员进行梳理,效率比较慢,遂自己花点时间捣鼓一下,发现有此插件,记录一下方便与同事分享前提条件必须有 go语言环境,有的话直接看 ...
Java 队列Queue的一些基本操作与概念!!!!!!!!
首先Java中的队列(Queue)是一种先进先出的数据结构. 其中常见的一些基本操作与方法,包括: 1.创建队列对象.例如:ArrayDeque.LinkedList等. 2.入队操作.将元素添加到队 ...
强化学习的一周「GitHub 热点速览」
当强化学习遇上游戏,会擦出什么样的火花呢?PokemonRedExperiments 将经典的 Pokeman 游戏接上了强化学习,效果非同凡响,不然能一周获得 4.5k star 么?看看效果图就知 ...
sprintf函数内存越界
最近在做项目的时候遇到sprintf函数内存越界的问题,现在分享给大家,希望对大家有用. 首先介绍了sprintf 这个函数. 函数原型: int sprintf(char *str, const ...

【scikit-learn基础】--『预处理』之 标准化