sklearn.tree.DecisionTreeClassifier 详细说明

sklearn.tree.DecisionTreeClassifier()函数用于构建决策树，默认使用CART算法，现对该函数参数进行说明，参考的是scikit-learn 0.20.3版本。

sklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)

criterion：选择结点划分质量的度量标准，默认使用‘gini’，即基尼系数，基尼系数是CART算法中采用的度量标准，该参数还可以设置为 “entropy”，表示信息增益，是C4.5算法中采用的度量标准。

splitter：结点划分时的策略，默认使用‘best’。‘best’ 表示依据选用的criterion标准，选用最优划分属性来划分该结点，一般用于训练样本数据量不大的场合，因为选择最优划分属性需要计算每种候选属性下划分的结果；该参数还可以设置为“random”，表示最优的随机划分属性，一般用于训练数据量较大的场合，可以减少计算量，但是具体如何实现最优随机划分暂时不太明白，这需要查看该部分的源码。

max_depth：设置决策树的最大深度，默认为None。None表示不对决策树的最大深度作约束，直到每个叶子结点上的样本均属于同一类，或者少于min_samples_leaf参数指定的叶子结点上的样本个数。也可以指定一个整型数值，设置树的最大深度，在样本数据量较大时，可以通过设置该参数提前结束树的生长，改善过拟合问题，但一般不建议这么做，过拟合问题还是通过剪枝来改善比较有效。

min_samples_split：当对一个内部结点划分时，要求该结点上的最小样本数，默认为2。

min_samples_leaf：设置叶子结点上的最小样本数，默认为1。当尝试划分一个结点时，只有划分后其左右分支上的样本个数不小于该参数指定的值时，才考虑将该结点划分，换句话说，当叶子结点上的样本数小于该参数指定的值时，则该叶子节点及其兄弟节点将被剪枝。在样本数据量较大时，可以考虑增大该值，提前结束树的生长。

min_weight_fraction_leaf ：在引入样本权重的情况下，设置每一个叶子节点上样本的权重和的最小值，一旦某个叶子节点上样本的权重和小于该参数指定的值，则该叶子节点会联同其兄弟节点被减去，即其父结点不进行划分。该参数默认为0，表示不考虑权重的问题，若样本中存在较多的缺失值，或样本类别分布偏差很大时，会引入样本权重，此时就要谨慎设置该参数。

max_features：划分结点、寻找最优划分属性时，设置允许搜索的最大属性个数，默认为None。假设训练集中包含的属性个数为n，None表示搜索全部n个的候选属性；‘auto’表示最多搜索sqrt(n)个属性；sqrt表示最多搜索sqrt(n)个属性；‘log2’表示最多搜索log2(n)个属性；用户也可以指定一个整数k，表示最多搜索k个属性。需要说明的是，尽管设置了参数max_features，但是在至少找到一个有效（即在该属性上划分后，criterion指定的度量标准有所提高）的划分属性之前，最优划分属性的搜索不会停止。

random_state :当将参数splitter设置为‘random’时，可以通过该参数设置随机种子号，默认为None，表示使用np.random产生的随机种子号。

max_leaf_nodes : 设置决策树的最大叶子节点个数，该参数与max_depth等参数参数一起，限制决策树的复杂度，默认为None，表示不加限制。

min_impurity_decrease :打算划分一个内部结点时，只有当划分后不纯度(可以用criterion参数指定的度量来描述)减少值不小于该参数指定的值，才会对该结点进行划分，默认值为0。可以通过设置该参数来提前结束树的生长。

min_impurity_split : 打算划分一个内部结点时，只有当该结点上的不纯度不小于该参数指定的值时，才会对该结点进行划分，默认值为1e-7。该参数值0.25版本之后将取消，由min_impurity_decrease代替。

class_weight：设置样本数据中每个类的权重，这里权重是针对整个类的数据设定的，默认为None，即不施加权重。用户可以用字典型或者字典列表型数据指定每个类的权重，假设样本中存在4个类别，可以按照 [{0: 1, 1: 1}, {0: 1, 1: 5}, {0: 1, 1: 1}, {0: 1, 1: 1}] 这样的输入形式设置4个类的权重分别为1、5、1、1，而不是 [{1:1}, {2:5}, {3:1}, {4:1}]的形式。该参数还可以设置为‘balance’，此时系统会按照输入的样本数据自动的计算每个类的权重，计算公式为：n_samples / ( n_classes * np.bincount(y) )，其中n_samples表示输入样本总数，n_classes表示输入样本中类别总数，np.bincount(y) 表示计算属于每个类的样本个数，可以看到，属于某个类的样本个数越多时，该类的权重越小。若用户单独指定了每个样本的权重，且也设置了class_weight参数，则系统会将该样本单独指定的权重乘以class_weight指定的其类的权重作为该样本最终的权重。

presort : 设置对训练数据进行预排序，以提升结点最优划分属性的搜索，默认为False。在训练集较大时，预排序会降低决策树构建的速度，不推荐使用，但训练集较小或者限制树的深度时，使用预排序能提升树的构建速度。

sklearn.tree.DecisionTreeClassifier 详细说明的更多相关文章

树型权限管理插件：jQuery Tree Multiselect详细使用指南
1.认识jQuery Tree Multiselect 这个插件允许用户以树型的形式来呈现列表复选框的选择.多用于权限管理中用于分配不同的权限.使用文档,请参考: https://github ...
easyui -tree的详细讲解
代码的具体实现 @{ ViewBag.Title = "人员查找"; ViewBag.LeftWidth = "200px"; ViewBag ...
sklearn.neighbors.NNeighborsClassifier 详细说明
平时会用到sklearn.neighbors.NNeighborsClassifier函数来构建K最邻近分类器,所以这里对NNeighborsClassifier中的参数进行说明,文中参考的是scik ...
sklearn 学习之分类树
概要基于 sklearn 包自带的 iris 数据集,了解一下分类树的各种参数设置以及代表的意义. iris 数据集介绍 iris 数据集包含 150 个样本,对应数据集的每行数据,每行数据包含 ...
sklearn官网-多分类问题
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
sklearn学习总结（超全面）
https://blog.csdn.net/fuqiuai/article/details/79495865 前言sklearn想必不用我多介绍了,一句话,她是机器学习领域中最知名的python模块之 ...
决策树在sklearn中的实现
1 概述 1.1 决策树是如何工作的 1.2 构建决策树 1.2.1 ID3算法构建决策树 1.2.2 简单实例 1.2.3 ID3的局限性 1.3 C4.5算法 & CART算法 1.3.1 ...
基于sklearn的分类器实战
已迁移到我新博客,阅读体验更佳基于sklearn的分类器实战完整代码实现见github:click me 一.实验说明 1.1 任务描述 1.2 数据说明一共有十个数据集,数据集中的数据属性有全部 ...
机器学习之决策树原理和sklearn实践
1. 场景描述时间:早上八点,地点:婚介所 '闺女,我有给你找了个合适的对象,今天要不要见一面?' '多大?' '26岁' '长的帅吗?' '还可以,不算太帅' '工资高吗?' '略高于平均水平' ...

随机推荐

MeteoInfoLab脚本示例：SeaWiFS HDF Grid数据
SeaWiFS HDF Grid数据读取,特别是涉及到了文件的众多属性数据的读取,数据取对数后绘图.脚本程序: #Add data file f = addfile('D:/Temp/hdf/S199 ...
数据库SQL Server 2016“功能选择”详细说明及精简安装选择
前言在平时大家安装数据库的时候,一般默认功能选择都会选择全选.但是前两天公司同事问我:"那么多功能为什么都能用到嘛?"顿时,我思考了一下确实没有详细了解每个功能的详细作用,于是花 ...
IE下文件上传， SCRIPT5: 拒绝访问问题
最近遇到一个比较奇葩的问题,某些ie浏览器在页面中上传文件时,无法上传.查看控制台报错: SCRIPT5: 拒绝访问. jquery-3.2.1.min.js, 行4 字符5725 .并且我的最新版I ...
rabbitmq 交换机模式 -主题模式 topic
建立一个交换机 tpc 并且绑定了各自的路由到 Q1 Q2 <?php require_once "./vendor/autoload.php"; use PhpAmqpLi ...
linux(centos8):lnmp环境编译安装zabbix5.0
一,zabbix的用途: zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案 zabbix能监视各种网络参数,保证服务器系统的安全运营: 并提供灵活的通知机制以 ...
电子阅读器.vbs
CreateObject("SAPI.SpVoice").Speak"你要说的话!"
JavaScript实现异步的4中方法
一:背景简介 Javascript语言的执行环境是"单线程"(single thread). 所谓"单线程",就是指一次只能完成一件任务.如果有多个任务,就必须 ...
conda回滚
1. 查看历史版本: conda list --revision 2. 安装上次版本: conda install revision 13 13是历史序号.从上面看出,最近的历史序号是14,因此上一个 ...
ECMAScript 6 入门 - 阮一峰
body #home { width: 100%; max-width: 1368px } #inlineFrame { width: 100%; height: calc(100vh - 30px) ...
Libevent库基础(2)
带缓冲区的事件 bufferevent #include <event2/bufferevent.h> read/write 两个缓冲. 借助队列. 创建.销毁bufferevent: ...

sklearn.tree.DecisionTreeClassifier 详细说明

sklearn.tree.DecisionTreeClassifier 详细说明的更多相关文章

随机推荐

热门专题