sklearn官方学习资料
https://scikit-learn.org/stable/user_guide.html
1 Supervised learning监督学习
1.1 线性模型
1.2 线性模型和二次判别分析
1.3 核岭回归
1.4 SVM
1.5 随机梯度下降
1.6 最近邻
1.7 高斯过程
1.8 交叉分解cross decomposition
1.9 朴素贝叶斯
1.10 决策树
1.11 集成算法
1.12 多类别算法
1.13 特征选择
1.14 半监督
1.15 保序回归
1.16 probability calibration
1.17 神经网络

2 非监督学习
2.1 高斯混合模型
2.2 流型学习
2.3 聚类
2.4 双聚类
2.5 矩阵分解
2.6 协方差估计
2.7 异常点、离群点检测
2.8 密度估计
2.9 神经网络

3 模型选择和评估
3.1 交叉验证
3.2 调参
3.3 指标和评分
3.4 模型的持续性
3.5 验证曲线

4 检查inspection
4.1 依赖曲线
4.2 排序(置换)特征重要性

5 可视化

6 数据转化
6.1 管道
6.2 特征抽取
6.3 预处理数据
6.4 缺失值插补
6.5 非监督降维
6.6 随机投影
6.7 核近似
6.8 pairwise metrics,affinities and kernels
6.9 转化预测目标

7 数据集

6.3 preprocessing data数据预处理
https://scikit-learn.org/stable/modules/preprocessing.html#standardization-or-mean-removal-and-variance-scaling
归一化、正则化、标准化的区别
https://blog.csdn.net/tianguiyuyu/article/details/80694669
6.3.1 Standardization, or mean removal and variance scaling标准化(均值为0,方差为1)
preprocessing.scale
preprocessing.StandardScaler 在训练样本上使用后,可以同时应用到测试样本
6.3.1.1. Scaling features to a range
preprocessing.MinMaxScaler 把数据标准化到指定的最大值最小值之间
preprocessing.MaxAbsScaler 把数据标准化到指定的最大的绝对值之间
6.3.1.2. Scaling sparse data
preprocessing.MaxAbsScaler(要用transform API)
preprocessing.maxabs_scale
6.3.1.3. Scaling data with outliers
robust_scale
RobustScaler(要用transform API)
6.3.1.4. Centering kernel matrices
KernalCenterer
6.3.2. Non-linear transformation 非线性转化
6.3.2.1. Mapping to a Uniform distribution
QuantileTransformer
quantile_transform
6.3.2.2. Mapping to a Gaussian distribution
PowerTransformer
6.3.3. Normalization 归一化
Normalization is the process of scaling individual samples to have unit norm.
normalize
Normalizer(要用transform API)
6.3.4. Encoding categorical features
OrdinalEncoder(顺序编码)
OneHotEncoder
6.3.5. Discretization离散化
For instance, pre-processing with a discretizer can introduce nonlinearity to linear models.
6.3.5.1. K-bins discretization
The ‘uniform’ strategy uses constant-width bins. The ‘quantile’ strategy uses the quantiles values to have equally populated bins in each feature. The ‘kmeans’ strategy defines bins based on a k-means clustering procedure performed on each feature independently.
6.3.5.2. Feature binarization(二值化)
preprocessing.Binarizer(threshold=1.1)
6.3.6. Imputation of missing values
6.3.7. Generating polynomial features
from sklearn.preprocessing import PolynomialFeatures
PolynomialFeatures(degree=3, interaction_only=True)
6.3.8. Custom transformers(定制化转化)
convert an existing Python function into a transformer to assist in data cleaning or processing

sklearn包的更多相关文章

  1. sklearn包中有哪些数据集你都知道吗?

    注册了博客园一晃有3个月了,同时接触机器学习也断断续续的算是有1个月了.今天就用机器学习神器sklearn包的相关内容作为我的开篇文章吧. 本文将对sklearn包中的数据集做一个系统介绍,并简单说一 ...

  2. Python: 安装 sklearn 包出现错误的解决方法

    今天在安装 Python 的 sklearn 包时出现了 Cannot uninstall 'numpy' 和 Cannot uninstall 'scipy' 错误,下面记录了我尝试了很多网上的方法 ...

  3. sklearn包源码分析(二)——ensemble(未完成)

    网络资源 sklearn包tree模型importance解析

  4. sklearn包学习

    1首先是sklearn的官网:http://scikit-learn.org/stable/ 在官网网址上可以看到很多的demo,下边这张是一张非常有用的流程图,在这个流程图中,可以根据数据集的特征, ...

  5. 调用sklearn包中的PLA算法[转载]

    转自:https://blog.csdn.net/u010626937/article/details/72896144#commentBox 1.Python的机器学习包sklearn中也包含了感知 ...

  6. sklearn包源码分析(一)--neighbors

    python如何查看内置函数的用法及其源码? 在anaconda的安装目录下,有一块会放着我们安装的所有包,在里面可以找到所有的包 找到scikit learn包,进入 这里面又有了多个子包,每个子包 ...

  7. python matplotlib绘图/sklearn包--make_blobs()

    1.make_bolbs() 函数 from sklearn.datasets.samples_generator import make_blobs import numpy as np impor ...

  8. 安装Python的机器学习包Sklearn 出错解决方法

    1 首先须要安装Cython.网上下载后进行本地安装 python setup.py install 2 下载Sklearn包,https://pypi.python.org/pypi/scikit- ...

  9. 机器学习之sklearn——SVM

    sklearn包对于SVM可输出支持向量,以及其系数和数目: print '支持向量的数目: ', clf.n_support_ print '支持向量的系数: ', clf.dual_coef_ p ...

随机推荐

  1. 全面掌握Nginx配置+快速搭建高可用架构 一 random_index_module 随机主页

    修改default.conf 保存重载Nginx,完成配置 自动随机选择主页 string要替换的内容,replacement表示替换后的内容 示例 效果,只替换了第一个 如果要替换所有的,需要用到s ...

  2. 吴裕雄--天生自然JAVA SPRING框架开发学习笔记:Spring Bean的生命周期

    Spring 容器可以管理 singleton 作用域 Bean 的生命周期,在此作用域下,Spring 能够精确地知道该 Bean 何时被创建,何时初始化完成,以及何时被销毁. 而对于 protot ...

  3. 设置Apache(httpd)和Nginx 开机自启动

     方法1: 进入目录: vi  /etc/rc.d/rc.local #设置apache 和 nginx 开机自启动/usr/sbin/apachectl start/usr/sbin/nginx s ...

  4. VEH&VCH

    本文99.9%的代码及内容作者:mengwuji 来自:http://www.mengwuji.net/forum.php?mod=viewthread&tid=1371 VEH:向量化异常处 ...

  5. 如何在MySQL目录下找到my.ini

    1. 打开ProgramData目录 2. 进入目录C:\ProgramData\MySQL\MySQL Server 8.0

  6. 监听配置问题,SID与Service_Name区别

    监听配置问题,SID与Service_Name区别 1.数据库实例名SID 概念:数据库实例名用于和操作系统进行联系的标识,是数据库和操作系统之间的交互用的书数据库实例名.实例名也被写入参数文件中,该 ...

  7. Spring原理系列一:Spring Bean的生命周期

    一.前言 在日常开发中,spring极大地简化了我们日常的开发工作.spring为我们管理好bean, 我们拿来就用.但是我们不应该只停留在使用层面,深究spring内部的原理,才能在使用时融汇贯通. ...

  8. python笔记(很乱)、打算抽个时间再好好整理

    最近刚开始学python.总结的可能不是很好 print:打印值 input:可以进行等候赋值.进行一个交互 python中 需要两个==才为判断 变量:数字.字母.下划线组成 类型:int整数.st ...

  9. 模拟jenkins通过shell给ansible传入变量

    jenkins.sh #!/bin/bash name1='robin h h li' age1='11' declare -A dic dic=( [name1]="${name1}&qu ...

  10. POJ 1850:Code 组合数学

    Code Time Limit: 1000MS   Memory Limit: 30000K Total Submissions: 8710   Accepted: 4141 Description ...