sklearn-woe/iv-乳腺癌分类器实战】的更多相关文章

已迁移到我新博客,阅读体验更佳基于sklearn的分类器实战 完整代码实现见github:click me 一.实验说明 1.1 任务描述 1.2 数据说明 一共有十个数据集,数据集中的数据属性有全部是离散型的,有全部是连续型的,也有离散与连续混合型的.通过对各个数据集的浏览,总结出各个数据集的一些基本信息如下: 连续型数据集: 1. diabets(4:8d-2c) 2. mozilla4(6:5d-2c) 3. pc1(7:21d-2c) 4. pc5(8:38d-2c) 5. wavefo…
sklearn实战-乳腺癌细胞数据挖掘 https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 医药统计项目联系QQ:231469242 如果样本量太小,数据必须做分段化处理,否则会有很多空缺数据,woe效果不能有效发挥 随机森林结果 iv>0.02的因子在随机…
官方英文文档地址:http://scikit-learn.org/dev/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression 导包: from sklearn.linear_model import LogisticRegression 使用: classifier = LogisticRegression(solver='sag',max_i…
 sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share Toby,项目合作QQ:231469242 随机森林就是由多个决策树组合而成的投票机制. 理解随机森林,要先了解决策树 随机森林是一个集成机器学习算法…
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 医药统计项目可联系  QQ:231469242     决策树优点和缺点 决策树优点 1.简单易懂,很好解读,可视化 2.可以变量筛选 缺点 1.决策树…
几种分类器的基本调用方法 本节的目的是基本的使用这些工具,达到熟悉sklearn的流程而已,既不会设计超参数的选择原理(后面会进行介绍),也不会介绍数学原理(应该不会涉及了,打公式超麻烦,而且近期也没有系统的学习机器学习数学原理的计划,下学期可能会重拾cs229,当然如果在上课展示或者实验室任务中用到的特定方法还是很可能用博客记录一下的,笑). Logistic & SGDC '''Logistic & SGDC''' '''数据预处理''' import numpy as np impo…
1 概述 基础的理论知识参考线性SVM与Softmax分类器. 代码实现环境:python3 2 数据预处理 2.1 加载数据 将原始数据集放入"data/cifar10/"文件夹下. ### 加载cifar10数据集 import os import pickle import random import numpy as np import matplotlib.pyplot as plt def load_CIFAR_batch(filename): ""&q…
1 概述 基础的理论知识参考线性SVM与Softmax分类器. 代码实现环境:python3 2 数据处理 2.1 加载数据集 将原始数据集放入"data/cifar10/"文件夹下. ### 加载cifar10数据集 import os import pickle import random import numpy as np import matplotlib.pyplot as plt def load_CIFAR_batch(filename): ""&q…
转自:https://zhuanlan.zhihu.com/p/78809853 1.IV值的用途 IV,即信息价值(Information Value),也称信息量. 目前还只是在对LR建模时用到过这两个关键指标,当我们使用决策树时可以通过限制树的深度间接筛选掉一些对于当前任务贡献比较小的变量, 而LR则是给多少变量就使用多少变量(L2正则下).通常我们为了保证模型的有效性以及数据的全面性,在特征工程中会尽可能多的提供特征变量,包括衍生变量,这些衍生变量不会全部进入模型进行训练,否则模型会因为…
sklearn实战-乳腺癌细胞数据挖掘(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share author: Toby,项目合作QQ:231469242 https://www.youtube.com/watch?v=lAaCeiqE6CE…