sklearn 数据预处理1: StandardScaler

作用：去均值和方差归一化。且是针对每一个特征维度来做的，而不是针对样本。
【注：】
并不是所有的标准化都能给estimator带来好处。
“Standardization of a dataset is a common requirement for many machine learning estimators: they might behave badly if the individual feature do not more or less look like standard normally distributed data (e.g. Gaussian with 0 mean and unit variance).”

实例代码

# coding=utf-8

# 统计训练集的 mean 和　std 信息

from sklearn.preprocessing import StandardScaler

import numpy as np

def test_algorithm():

    np.random.seed(123)

    print('use sklearn')

    # 注：shape of data: [n_samples, n_features]

    data = np.random.randn(10, 4)

    scaler = StandardScaler()

    scaler.fit(data)

    trans_data = scaler.transform(data)

    print('original data: ')

    print data

    print('transformed data: ')

    print trans_data

    print('scaler info: scaler.mean_: {}, scaler.var_: {}'.format(scaler.mean_, scaler.var_))

    print('\n')

    print('use numpy by self')

    mean = np.mean(data, axis=0)

    std = np.std(data, axis=0)

    var = std * std

    print('mean: {}, std: {}, var: {}'.format(mean, std, var))

    # numpy 的广播功能

    another_trans_data = data - mean

    # 注：是除以标准差

    another_trans_data = another_trans_data / std

    print('another_trans_data: ')

    print another_trans_data

if __name__ == '__main__':

    test_algorithm()

程序的输出如下：

use sklearn

    original data:

    [[-1.0856306   0.99734545  0.2829785 - 1.50629471]

     [-0.57860025  1.65143654 - 2.42667924 - 0.42891263]

    [1.26593626 - 0.8667404 - 0.67888615 - 0.09470897]

    [1.49138963 - 0.638902 - 0.44398196 - 0.43435128]

    [2.20593008

    2.18678609

    1.0040539

    0.3861864]

    [0.73736858  1.49073203 - 0.93583387  1.17582904]

    [-1.25388067 - 0.6377515

    0.9071052 - 1.4286807]

    [-0.14006872 - 0.8617549 - 0.25561937 - 2.79858911]

    [-1.7715331 - 0.69987723

    0.92746243 - 0.17363568]

    [0.00284592  0.68822271 - 0.87953634  0.28362732]]

    transformed

    data:

    [[-0.94511643  0.58665507  0.5223171 - 0.93064483]

     [-0.53659117  1.16247784 - 2.13366794  0.06768082]

    [0.9495916 - 1.05437488 - 0.42049501

    0.3773612]

    [1.13124423 - 0.85379954 - 0.19024378  0.06264126]

    [1.70696485

    1.63376764

    1.22910949

    0.8229693]

    [0.52371324  1.02100318 - 0.67235312  1.55466934]

    [-1.08067913 - 0.85278672

    1.13408114 - 0.858726]

    [-0.18325687 - 1.04998594 - 0.00561227 - 2.1281129]

    [-1.49776284 - 0.9074785

    1.15403514

    0.30422599]

    [-0.06810748  0.31452186 - 0.61717074  0.72793583]]

    scaler info: scaler.mean_: [0.08737571  0.33094968 - 0.24989369 - 0.50195303], scaler.var_: [1.54038781  1.29032409

                                                                                          1.04082479  1.16464894]

    use numpy by self

    mean: [0.08737571  0.33094968 - 0.24989369 - 0.50195303], std: [1.24112361  1.13592433  1.02020821

                                                                    1.07918902], var: [1.54038781  1.29032409

                                                                                       1.04082479  1.16464894]

    another_trans_data:

    [[-0.94511643  0.58665507  0.5223171 - 0.93064483]

     [-0.53659117  1.16247784 - 2.13366794  0.06768082]

    [0.9495916 - 1.05437488 - 0.42049501

    0.3773612]

    [1.13124423 - 0.85379954 - 0.19024378  0.06264126]

    [1.70696485

    1.63376764

    1.22910949

    0.8229693]

    [0.52371324  1.02100318 - 0.67235312  1.55466934]

    [-1.08067913 - 0.85278672

    1.13408114 - 0.858726]

    [-0.18325687 - 1.04998594 - 0.00561227 - 2.1281129]

    [-1.49776284 - 0.9074785

    1.15403514

    0.30422599]

    [-0.06810748  0.31452186 - 0.61717074  0.72793583]]

sklearn 数据预处理1: StandardScaler的更多相关文章

吴裕雄 python 机器学习——数据预处理标准化StandardScaler模型
from sklearn.preprocessing import StandardScaler #数据预处理标准化StandardScaler模型 def test_StandardScaler() ...
sklearn数据预处理－scale
对数据按列属性进行scale处理后,每列的数据均值变成0,标准差变为1.可通过下面的例子加深理解: from sklearn import preprocessing import numpy as ...
sklearn数据预处理
一.standardization 之所以标准化的原因是,如果数据集中的某个特征的取值不服从标准的正太分布,则性能就会变得很差 ①函数scale提供了快速和简单的方法在单个数组形式的数据集上来执行标准 ...
数据预处理及sklearn方法实现
1.标准化(中心化) 在许多机器学习执行前,需要对数据集进行标准化处理.因为很对算法假设数据的特征服从标准正态分布.所以如果不对数据标准化,那么算法的效果会很差. 例如,在学习算法的目标函数,都假设数 ...
Python数据预处理(sklearn.preprocessing)—归一化(MinMaxScaler)，标准化(StandardScaler)，正则化(Normalizer, normalize)
关于数据预处理的几个概念归一化 (Normalization): 属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现. 常 ...
使用sklearn进行数据挖掘-房价预测(4)—数据预处理
在使用机器算法之前,我们先把数据做下预处理,先把特征和标签拆分出来 housing = strat_train_set.drop("median_house_value",axis ...
【sklearn】数据预处理 sklearn.preprocessing
数据预处理标准化 (Standardization) 规范化(Normalization) 二值化分类特征编码推定缺失数据生成多项式特征定制转换器 1. 标准化Standardization ...
sklearn学习笔记（一）——数据预处理 sklearn.preprocessing
https://blog.csdn.net/zhangyang10d/article/details/53418227 数据预处理 sklearn.preprocessing 标准化 (Standar ...
【Sklearn系列】使用Sklearn进行数据预处理
这篇文章主要讲解使用Sklearn进行数据预处理,我们使用Kaggle中泰坦尼克号事件的数据作为样本. 读取数据并创建数据表格,查看数据相关信息 import pandas as pd import ...

随机推荐

转载：如何在Ubuntu 18.04上使用UFW设置防火墙
https://blog.csdn.net/u013068789/article/details/82051943 介绍 UFW或Uncomplicated Firewall是iptables一个接口 ...
go 利用orm简单实现接口分布式锁
在开发中有些敏感接口,例如用户余额提现接口,需要考虑在并发情况下接口是否会发生问题.如果用户将自己的多条提现请求同时发送到服务器,代码能否扛得住呢?一旦没做锁,那么就真的会给用户多次提现,给公司带来损 ...
使用Visual Studio Team Services持续集成（二）——为构建定义属性
使用Visual Studio Team Services持续集成(二)--为构建定义属性 1.从VSTS帐户进入到Build 2.编辑构建定义并单击Options Description:如果这里明 ...
智能ERP主副机设置
智能ERP主副机设置 1. 将主机的电脑设置成固定IP,IP地址请自行设置,设置好后需要记住,配置副机的时候会用到 2. 在主机上安装智能ERP,安装完后,会弹出数据库配置,主机直接点校验 3. 校验 ...
[20170612]FOR ALL COLUMNS SIZE repeat(12c).txt
[20170612]FOR ALL COLUMNS SIZE repeat(12c).txt --//昨天看了https://jonathanlewis.wordpress.com/2017/06/0 ...
e lisp 自定义函数
自定义函数 (defun multi-by-seven (number) "multi number by seven" (interactive "p") ( ...
python爬虫起步...开发环境搭建，最简单的方式
研究一门编程语言,一般第一步就是配置安装部署相关的编程环境.我认为啊,在学习的初期,大家不是十分了解相关的环境,或者是jar包,python模块等的相关内容,就不需要花费大量的时间去研究如何去安装它. ...
python shell与反弹shell
python shell与反弹shell 正常shell需要先在攻击端开机情况下开启程序,然后攻击端运行程序,才能连接反弹shell,攻击端是服务端,被攻击端是客户端正常shell,攻击端是客户端, ...
IO Redirect 与 Pipe
对于任何一个进程,在启动时,都会打开三个流:stdin(标准输入), stdout(标准输出), stderr(标准错误输出).Stdout,stderr是process与Display之间,stdi ...
Python中关于with open file as 的用法
最近用到python来处理文本文件了,然后需要处理文件.发现python中提供的with open as 这个还是用的不错的!好的,废话不多说了,看下例子: with open('./sig ...

sklearn 数据预处理1: StandardScaler

实例代码

sklearn 数据预处理1: StandardScaler的更多相关文章

随机推荐

热门专题