ML modeling process

一、数据读取Load Data

二、数据分析EDA

三、数据预处理

四、特征工程Feature engineering

五、modeling & Tuning

六、Result

七、other theory

L1 or L2?

------------------------------------------------

一、数据读取Load Data

二、数据分析EDA

import matplotlib.pyplot as plt

import seaborn as sns

sns.stripplot() 分类散点图

sns.distplot() 直方图

sns.barplot() 条形图

sns.pairplot() 散点图矩阵

三、数据预处理

1.缺失值

2.离群值

3.标准化

数据的标准化是一个比较常用的数据预处理方法，其目的是处理不同量纲的数据，使其缩放到相同的数据区间和范围，以减少规模，特征、分布差异对模型的影响。标准化后的数据还具有了直接计算并生成符合指标的意义。

encoder = LabelEncoder()

encoder.fit_transform(train[your_feature + "_qbinned"].values.reshape(-1, 1)) ：归一化

np.round(train.loc[:, your_feature].values) ：标准化

数据的标准化：Z-score、Max-Min、MaxAbs、RobustScaler https://blog.csdn.net/weixin_37536446/article/details/81435461

from sklearn import preprocessing

#scaler = preprocessing.StandardScaler()

#scaler = preprocessing.MaxAbsScaler()

scaler = preprocessing.RobustScaler()

all_data.loc[:,numcols] = scaler.fit_transform(all_data[numcols])

4.降维技术

PCA 主成分分析、factor analysis 因子分析、ICA 独立成分分析，（KernelPCA、IncrementalPCA、Sparse PCA）

矩阵分解：SVD（奇异值分解）

四、特征工程Feature engineering

1.分箱：

pd.qcut(train.loc[:, your_feature].values,q=10,labels=False) ： quantile based binning（基于分位数的分箱，等分）

卡方分箱

2.标准化

3.删掉高相关性变量

all_data.corr()

corr_matrix = all_data.corr().abs() #相关系数的绝对值

upper = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(np.bool))

to_drop = [c for c in upper.columns if any(upper[c] > 0.95)] #相关系数大于0.95的删掉

4.kmeans ,对自变量进行聚类

5.LDA ，线性判别分析

6.NB 朴素贝叶斯算法：GaussianNB ，BernoulliNB ，MultinomialNB

bnb = BernoulliNB(fit_prior=True)

bnb.fit(X_train, Y_train)

X_train_bnb = bnb.predict_log_proba(X_train)[:,1]

X_test_bnb = bnb.predict_log_proba(X_test)[:,1]
在scikit-learn中，一共有3个朴素贝叶斯的分类算法类。分别是GaussianNB，MultinomialNB和BernoulliNB。其中GaussianNB就是先验为高斯分布的朴
素贝叶斯，MultinomialNB就是先验为多项式分布的朴素贝叶斯，而BernoulliNB就是先验为伯努利分布的朴素贝叶斯。
https://www.cnblogs.com/pinard/p/6074222.html

7.LogisticRegression

8.SGDClassifier，梯度下降分类法

9.from sklearn.feature_selection import SelectKBest

10.Data augmentation 数据增强

数据增强程序（数据增强就是过采样，此程序实现了对y=1的样本增加了2倍，对y=0的样本增加了1倍。中间对行数据进行了shuffle随机排列。）

五、modeling & tuning

5.1 modeling

LightGBM

GBDT

XGBoost

训练、测试样本的产生：Kfold、StratifiedKFold

GridSearch

5.2 Tuning 参数调优（精度、效率）

1.网络超参数自动化搜索 【调超参数】

Grid Search、Random Search、Heuristic Tuning启发式（手动调参）、

Automatic Hyperparameter Tuning 自动超参数调优（贝叶斯优化搜索、SMAC、TPE）

贝叶斯优化 https://www.cnblogs.com/marsggbo/p/9866764.html

https://www.cnblogs.com/marsggbo/p/10242962.html

2.最优化理论 【调模型参数】

BGD批量梯度下降、SGD随机梯度下降、MBGD小批量梯度下降、

牛顿法、拟牛顿法、共轭梯度法

六、Result

roc curve / auc

ML modeling process的更多相关文章

Scoring and Modeling—— Underwriting and Loan Approval Process
https://www.fdic.gov/regulations/examinations/credit_card/ch8.html Types of Scoring FICO Scores V ...
Threat Risk Modeling Learning
相关学习资料 http://msdn.microsoft.com/en-us/library/aa302419(d=printer).aspx http://msdn.microsoft.com/li ...
2016年美国数学建模比赛（MCM/ICM） E题环境科学 Are we heading towards a thirsty planet? 人工精准翻译。
第二次参加建模,觉得建模太有趣了,用几天的时间,迅速学习新知识,并解决实际问题. ——————————————————————————————————————————————————————————— ...
UNIX标准及实现
UNIX标准及实现引言在UNIX编程环境和C程序设计语言的标准化方面已经做了很多工作.虽然UNIX应用程序在不同的UNIX操作系统版本之间进行移植相当容易,但是20世纪80年代UNIX版本 ...
Data Visualization – Banking Case Study Example (Part 1-6)
python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_camp ...
PID控制器（比例-积分-微分控制器）- II
Table of Contents Practical Process Control Proven Methods and Best Practices for Automatic PID Cont ...
UV mapping
[UV mapping] UV mapping is the 3D modeling process of making a 2D image representation of a 3D model ...
kaggle Cross-Validation
The Cross-Validation Procedure In cross-validation, we run our modeling process on different subsets ...
（翻译）2016美国数学建模MCM E题(环境)翻译:我们朝向一个干旱的星球？
PROBLEM E: Are we heading towards a thirsty planet? Will the world run out of clean water? According ...

随机推荐

Mac OS 终端利器 iTerm2配置大全
之前一直使用 Mac OS 自带的终端,用起来虽然有些不太方便,但总体来说还是可以接受的,是有想换个终端的想法,然后今天偶然看到一个终端利器 iTerm2,发现真的很强大,也非常的好用,按照网上配置了 ...
git高级用法之cheery-pick
前言想象一种情况,你在分支上开发多个功能,现在要将第一个功能推到另一个分支上 master 1_2 | dev \__3_4_5 例如上面的,先基于master创建了分支dev, 然后提交了3个co ...
docker安装宝塔面板
1.下载centos docker docker pull centos:7.2.1511 2.运行镜像设置端口 docker run -d -it -p 4001:8888 -p 4000:80 - ...
详细的git入门级别，从安装到实战
拥有自己码云开源网站,想要上传项目到码云怎么操作?公司新技术提升由Svn转为Git,慌不慌?想要从Github开源网站下载开源项目,难道还依赖直接下载项目然后解压导入项目工程?下面可以通过及其简易且好 ...
python import xx和from xx import x 中的坑
先回顾一下理解程度什么是不可变类型和可变类型? 可变类型是,修改变量后引用的内存地址不变,引用的内存中的内容发生变化(是针对变量名的引用来理解). # 在a.py中定义了一个test属性 test ...
centos 下使用 pytesseract 识别文字
偶发一个想法搭一个验证码识别工具,网上查了一下有Tesseract 这个工具可以识别,所以有了后面一小时的搭建过程 ps:Ubuntu 下似乎可以直接用包管理工具来安装,我使用的源码编译安装前提由 ...
scrapy补充-分布式爬虫
spiders 介绍:在项目中是创建爬虫程序的py文件 #1.Spiders是由一系列类(定义了一个网址或一组网址将被爬取)组成,具体包括如何执行爬取任务并且如何从页面中提取结构化的数据. #2.换句 ...
MySQL--mysqldump(数据导出工具)
mysqldump 客户端工具用来备份数据库或在不同数据库之间进行数据迁移.备份内容包含创建表或装载表的 SQL 语句.mysqldump 目前是 MySQL 中最常用的备份工具. 有 3 种方式来调 ...
JavaScript学习笔记 - 入门篇（3）- DOM操作
认识DOM 文档对象模型DOM(Document Object Model)定义访问和处理HTML文档的标准方法.DOM 将HTML文档呈现为带有元素.属性和文本的树结构(节点树). 先来看看下面代码 ...
Python笔记_第四篇_高阶编程_GUI编程之Tkinter_2.控件类
1. Label控件: 说明:标签控件,可显示文本图示1: 实例1: import tkinter # 创建主窗口__编程头部 win = tkinter.Tk() # 设置标题 win.title ...

ML modeling process

ML modeling process的更多相关文章

随机推荐

热门专题