本文參考:http://scikit-learn.org/stable/data_transforms.html

本篇主要讲数据预处理,包含四部分:

数据清洗、数据降维(PCA类)、数据增维(Kernel类)、提取自己定义特征。

哇哈哈。还是关注预处理比較靠谱。

。。

重要的不翻译:scikit-learn providesa library of transformers, which mayclean (see Preprocessing
data
), reduce (seeUnsupervised
dimensionality reduction
), expand (see Kernel
Approximation
) or generate (see Feature
extraction
) feature representations.

fit、transform、fit_transform三者差别:

fit:从训练集中学习模型的參数(比如,方差、中位数等;也可能是不同的词汇表)

transform:将训练集/測试集中的数据转换为fit学到的參数的维度上(測试集的方差、中位数等;測试集在fit得到的词汇表下的向量值等)。

fit_transform:同一时候进行fit和transform操作。

Like
other estimators, these are represented by classes with fit method,
which learns model parameters (e.g. mean and standard deviation for normalization) from a training set, and a transform method
which applies this transformation model to unseen data. fit_transform may
be more convenient and efficient for modelling and transforming the training data simultaneously.

八大块内容。翻译会在之后慢慢更新:

4.1.
Pipeline and FeatureUnion: combining estimators

4.1.1.
Pipeline: chaining estimators

4.1.2.
FeatureUnion: composite feature spaces

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/46991465

4.2.
Feature extraction

4.2.3.
Text feature extraction

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/46997379

4.2.4.
Image feature extraction

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/46992105

4.3.
Preprocessing data

翻译之后的文章。參考:http://blog.csdn.net/mmc2015/article/details/47016313

4.3.1.
Standardization, or mean removal and variance scaling

4.3.2.
Normalization

4.3.3.
Binarization

4.3.4.
Encoding categorical features

4.3.5.
Imputation of missing values

4.4.
Unsupervised dimensionality reduction

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/47066239

4.4.1.
PCA: principal component analysis

4.4.2.
Random projections

4.4.3.
Feature agglomeration
 (特征聚集)

4.5.
Random Projection

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/47067003

4.5.1.
The Johnson-Lindenstrauss lemma

4.5.2.
Gaussian random projection

4.5.3.
Sparse random projection

4.6.
Kernel Approximation

翻译之后的文章,參考:http://blog.csdn.net/mmc2015/article/details/47068223

4.6.1.
Nystroem Method for Kernel Approximation

4.6.2.
Radial Basis Function Kernel

4.6.3.
Additive Chi Squared Kernel

4.6.4.
Skewed Chi Squared Kernel

4.6.5.
Mathematical Details

4.7.
Pairwise metrics, Affinities and Kernels

翻译之后的文章。參考:http://blog.csdn.net/mmc2015/article/details/47068895

4.7.1.
Cosine similarity

4.7.2.
Linear kernel

4.7.3.
Polynomial kernel

4.7.4.
Sigmoid kernel

4.7.5.
RBF kernel

4.7.6.
Chi-squared kernel

4.8.
Transforming the prediction target (y)

翻译之后的文章。參考:http://blog.csdn.net/mmc2015/article/details/47069869

4.8.1.
Label binarization

4.8.2.
Label encoding

scikit-learn:4. 数据集预处理(clean数据、reduce降维、expand增维、generate特征提取)的更多相关文章

  1. scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类 (python代码)

    scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...

  2. Scikit Learn: 在python中机器学习

    转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...

  3. (原创)(四)机器学习笔记之Scikit Learn的Logistic回归初探

    目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优 一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...

  4. WCF分布式开发步步为赢(8):使用数据集(DataSet)、数据表(DataTable)、集合(Collection)传递数据

    数据集(DataSet).数据表(DataTable).集合(Collection)概念是.NET FrameWork里提供数据类型,在应用程序编程过程中会经常使用其来作为数据的载体,属于ADO.NE ...

  5. (原创)(三)机器学习笔记之Scikit Learn的线性回归模型初探

    一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价 模型训练好后,度量模型拟合效果的 ...

  6. Scikit Learn

    Scikit Learn Scikit-Learn简称sklearn,基于 Python 语言的,简单高效的数据挖掘和数据分析工具,建立在 NumPy,SciPy 和 matplotlib 上.

  7. 大数据学习day39----数据仓库02------1. log4j 2. 父子maven工程(子spring项目的创建)3.项目开发(埋点日志预处理-json数据解析、清洗过滤、数据集成实现、uid回补)

    1. log4j(具体见log4j文档) log4j是一个java系统中用于输出日志信息的工具.log4j可以将日志定义成多种级别:ERROR  /  WARN  /  INFO  /  DEBUG ...

  8. Deep Learning 16:用自编码器对数据进行降维_读论文“Reducing the Dimensionality of Data with Neural Networks”的笔记

    前言 论文“Reducing the Dimensionality of Data with Neural Networks”是深度学习鼻祖hinton于2006年发表于<SCIENCE > ...

  9. Deep learning:三十四(用NN实现数据的降维)

    数据降维的重要性就不必说了,而用NN(神经网络)来对数据进行大量的降维是从2006开始的,这起源于2006年science上的一篇文章:reducing the dimensionality of d ...

随机推荐

  1. /* Dr黄的技术博客开通啦 */

    以前懒得写技术日志, 现在终于发现重要性.. mark一下这个里程碑.

  2. asp.net core 2.1 将控制器抽离到类库中

    startup.cs的ConfigureServices中添加: public void ConfigureServices(IServiceCollection services) { var ma ...

  3. Linked List Cycle - LeetCode

    Given a linked list, determine if it has a cycle in it. Follow up:Can you solve it without using ext ...

  4. POJ 2486 Apple Tree [树状DP]

    题目:一棵树,每个结点上都有一些苹果,且相邻两个结点间的距离为1.一个人从根节点(编号为1)开始走,一共可以走k步,问最多可以吃多少苹果. 思路:这里给出数组的定义: dp[0][x][j] 为从结点 ...

  5. python GIL

    https://www.cnblogs.com/MnCu8261/p/6357633.html 全局解释器锁,同一时间只有一个线程获得GIL,

  6. MFC中 获取新输入编辑框的内容

    //得到原始内容的长度 int len = m_editPoemFileStr.GetLength(); UpdateData(true); //得到新增加的内容 CString  sNewStrin ...

  7. Hadoop之Linux源代码编译

    Hadoop开篇,按惯例.先编译源代码.导入到Eclipse.这样以后要了解那块,或者那块出问题了.直接找源代码. 编译hadoop2.4.1源代码之前.必须安装Maven和Ant环境,而且Hadoo ...

  8. 深入Java----集合----BitSet

    BitSet类    大小可动态改变, 取值为true或false的位集合.用于表示一组布尔标志. java中有三种移位运算符 <<      :     左移运算符,num <&l ...

  9. [Django]中建立数据库视图

    Django中建立数据库视图 Django中没有建立视图的接口.假设要建立一个视图须要一些手动的改变. 这里使用的Django 版本号>1.5, 使用的数据库为mysql 第一步 建立视图,比如 ...

  10. JDK8 下载地址 http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

    JDK8 下载地址 http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 安装时最好在 ...