本文參考:http://scikit-learn.org/stable/data_transforms.html

本篇主要讲数据预处理,包含四部分:

数据清洗、数据降维(PCA类)、数据增维(Kernel类)、提取自己定义特征。

哇哈哈。还是关注预处理比較靠谱。

。。

重要的不翻译:scikit-learn providesa library of transformers, which mayclean (see Preprocessing
data
), reduce (seeUnsupervised
dimensionality reduction
), expand (see Kernel
Approximation
) or generate (see Feature
extraction
) feature representations.

fit、transform、fit_transform三者差别:

fit:从训练集中学习模型的參数(比如,方差、中位数等;也可能是不同的词汇表)

transform:将训练集/測试集中的数据转换为fit学到的參数的维度上(測试集的方差、中位数等;測试集在fit得到的词汇表下的向量值等)。

fit_transform:同一时候进行fit和transform操作。

Like
other estimators, these are represented by classes with fit method,
which learns model parameters (e.g. mean and standard deviation for normalization) from a training set, and a transform method
which applies this transformation model to unseen data. fit_transform may
be more convenient and efficient for modelling and transforming the training data simultaneously.

八大块内容。翻译会在之后慢慢更新:

4.1.
Pipeline and FeatureUnion: combining estimators

4.1.1.
Pipeline: chaining estimators

4.1.2.
FeatureUnion: composite feature spaces

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/46991465

4.2.
Feature extraction

4.2.3.
Text feature extraction

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/46997379

4.2.4.
Image feature extraction

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/46992105

4.3.
Preprocessing data

翻译之后的文章。參考:http://blog.csdn.net/mmc2015/article/details/47016313

4.3.1.
Standardization, or mean removal and variance scaling

4.3.2.
Normalization

4.3.3.
Binarization

4.3.4.
Encoding categorical features

4.3.5.
Imputation of missing values

4.4.
Unsupervised dimensionality reduction

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/47066239

4.4.1.
PCA: principal component analysis

4.4.2.
Random projections

4.4.3.
Feature agglomeration
 (特征聚集)

4.5.
Random Projection

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/47067003

4.5.1.
The Johnson-Lindenstrauss lemma

4.5.2.
Gaussian random projection

4.5.3.
Sparse random projection

4.6.
Kernel Approximation

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/47068223

4.6.1.
Nystroem Method for Kernel Approximation

4.6.2.
Radial Basis Function Kernel

4.6.3.
Additive Chi Squared Kernel

4.6.4.
Skewed Chi Squared Kernel

4.6.5.
Mathematical Details

4.7.
Pairwise metrics, Affinities and Kernels

翻译之后的文章。參考:http://blog.csdn.net/mmc2015/article/details/47068895

4.7.1.
Cosine similarity

4.7.2.
Linear kernel

4.7.3.
Polynomial kernel

4.7.4.
Sigmoid kernel

4.7.5.
RBF kernel

4.7.6.
Chi-squared kernel

4.8.
Transforming the prediction target (y)

翻译之后的文章。參考:http://blog.csdn.net/mmc2015/article/details/47069869

4.8.1.
Label binarization

4.8.2.
Label encoding

scikit-learn:4. 数据集预处理(clean数据、reduce降维、expand增维、generate特征提取)的更多相关文章

  1. scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类 (python代码)

    scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...

  2. Scikit Learn: 在python中机器学习

    转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...

  3. (原创)(四)机器学习笔记之Scikit Learn的Logistic回归初探

    目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优 一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...

  4. WCF分布式开发步步为赢(8):使用数据集(DataSet)、数据表(DataTable)、集合(Collection)传递数据

    数据集(DataSet).数据表(DataTable).集合(Collection)概念是.NET FrameWork里提供数据类型,在应用程序编程过程中会经常使用其来作为数据的载体,属于ADO.NE ...

  5. (原创)(三)机器学习笔记之Scikit Learn的线性回归模型初探

    一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价 模型训练好后,度量模型拟合效果的 ...

  6. Scikit Learn

    Scikit Learn Scikit-Learn简称sklearn,基于 Python 语言的,简单高效的数据挖掘和数据分析工具,建立在 NumPy,SciPy 和 matplotlib 上.

  7. 大数据学习day39----数据仓库02------1. log4j 2. 父子maven工程(子spring项目的创建)3.项目开发(埋点日志预处理-json数据解析、清洗过滤、数据集成实现、uid回补)

    1. log4j(具体见log4j文档) log4j是一个java系统中用于输出日志信息的工具.log4j可以将日志定义成多种级别:ERROR  /  WARN  /  INFO  /  DEBUG ...

  8. Deep Learning 16:用自编码器对数据进行降维_读论文“Reducing the Dimensionality of Data with Neural Networks”的笔记

    前言 论文“Reducing the Dimensionality of Data with Neural Networks”是深度学习鼻祖hinton于2006年发表于<SCIENCE > ...

  9. Deep learning:三十四(用NN实现数据的降维)

    数据降维的重要性就不必说了,而用NN(神经网络)来对数据进行大量的降维是从2006开始的,这起源于2006年science上的一篇文章:reducing the dimensionality of d ...

随机推荐

  1. 基于c语言中调试工具的用法汇总(不包含gdb)【转】

    转自:http://www.jb51.net/article/36829.htm 是不是只有编译的时候才知道程序写了错误?有没有在未编译的时候就让机器帮你检查错误的工具呢? 答案是:有!! splin ...

  2. activity dialog生命周期

    Android生命周期包括以下几个状态: onCreate(Bundle savedInstanceState):可以进行一些初始化的工作在activity第一次被创建的时候调用.这里是你做所有初始化 ...

  3. JDK1.5新特性:

    1.自动装箱与拆箱: 自动装箱的过程:每当需要一种类型的对象时,这种基本类型就自动地封装到与它相同类型的包装中. 自动拆箱的过程:每当需要一个值时,被装箱对象中的值就被自动地提取出来,没必要再去调用i ...

  4. iscroll 子表左右滚动同时保持页面整体上下滚动

    if ( this.options.preventDefault && !utils.isBadAndroid && !utils.preventDefaultExce ...

  5. Linux下Reids的安装和使用

    简单记录一下 redis的官网:https://redis.io/ 官网介绍: Installation Download, extract and compile Redis with: $ wge ...

  6. ExtJS4 自己主动生成控制grid的列显示、隐藏的checkbox

    因为某种原因.须要做一个控制grid列显示的checkboxgroup,尽管EXTJS4中的gridpanel自带列表能够来控制列的显示隐藏,可是有这种需求(须要一目了然) 以下先上图 waterma ...

  7. js 中文校验并过滤掉中文

      js中文校验并过滤掉中文 CreateTime--2017年9月6日09:10:19 Author:Marydon 思路: 1.判断字符串中是否包含中文: 2.存在中文时,过滤掉. 举例: var ...

  8. shell循环,判断介绍,以及实例

    shell的循环主要有3种,for,while,until shell的分支判断主要有2种,if,case 一,for循环 #!/bin/bash for file in $(ls /tmp/test ...

  9. eclipse右下角总显示自动下载xml和jar,如何关闭

    windows->preference->查找download-选择Models->右侧下方Enable auto-download去掉 2.Automatic Updates-&g ...

  10. C#命名空间大全详细教程

    www.51rgb.com System 命名空间包含了定义数据类型.事件和事件处理程序等基本类: System.Data 命名空间包含了提供数据访问功能的命名空间和类: System.IO 命名空间 ...