机器学习实战-ch3-决策树

决策树是一种新算法：

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。
缺点：可能会产生过度匹配问题。

决策树算法可用于数据类型：数值型和标称型。

决策树的核心在于选择正确的属性对数据进行划分。选择的标准是数据增益。信息增益：讲无序的数据变得更加有序。

信息增益熵：如果把X分成n个类，每个类的概率为p（i），那么-log（p（i））的期望就是熵。

如果分成1类，则熵为0，表示没有增益。

如果分成两类，各占1半，熵为1；

如果分成4类，各占1/4,则熵为2；

可以直观的感觉分成类越多，熵就越大。

---

[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

按照最后一个属性划分，熵为0.97

加上一个元素[1,1,’maybe’]，熵就变成1.47

-----

为了计算数据增益，需要定义一个子函数。按照特定的维度，以及维度上的值，划分dataSet。

-----

利用上面的子函数可以选择增益最大的维度。

对每个维度di进行遍历

对di上的value进行切分，得到k个集合

计算一个熵si

选择最大的si，对应的维度就是用来做决策的维度。

-----

每次选择一个维度后，对应的维度就会从数据集消失。然后dataSet分成若干个小集合。如果某个dataSet子集中所有元素label一致，则不需要再次划分。否则继续选择增益最大的属性继续划分。直到构成完整的决策树。

机器学习实战-ch3-决策树的更多相关文章

【Python机器学习实战】决策树和集成学习（一）
摘要:本部分对决策树几种算法的原理及算法过程进行简要介绍,然后编写程序实现决策树算法,再根据Python自带机器学习包实现决策树算法,最后从决策树引申至集成学习相关内容. 1.决策树决策树作为一种常 ...
【Python机器学习实战】决策树与集成学习（七）——集成学习（5）XGBoost实例及调参
上一节对XGBoost算法的原理和过程进行了描述,XGBoost在算法优化方面主要在原损失函数中加入了正则项,同时将损失函数的二阶泰勒展开近似展开代替残差(事实上在GBDT中叶子结点的最优值求解也是使 ...
【Python机器学习实战】决策树和集成学习（二）——决策树的实现
摘要:上一节对决策树的基本原理进行了梳理,本节主要根据其原理做一个逻辑的实现,然后调用sklearn的包实现决策树分类. 这里主要是对分类树的决策进行实现,算法采用ID3,即以信息增益作为划分标准进行 ...
【Python机器学习实战】决策树与集成学习（四）——集成学习（2）GBDT
本打算将GBDT和XGBoost放在一起,但由于涉及内容较多,且两个都是比较重要的算法,这里主要先看GBDT算法,XGBoost是GBDT算法的优化和变种,等熟悉GBDT后再去理解XGBoost就会容 ...
【Python机器学习实战】决策树与集成学习（六）——集成学习（4）XGBoost原理篇
XGBoost是陈天奇等人开发的一个开源项目,前文提到XGBoost是GBDT的一种提升和变异形式,其本质上还是一个GBDT,但力争将GBDT的性能发挥到极致,因此这里的X指代的"Extre ...
03机器学习实战之决策树CART算法
CART生成 CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支.这样的决策树等价于递归地二分每个特征,将输入空间即特征空间划分为有 ...
机器学习实战python3 决策树ID3
代码及数据:https://github.com/zle1992/MachineLearningInAction 决策树优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特 ...
机器学习实战：决策树的存储读写文件报错（Python3）
错误原因:pickle模块存储的是二进制字节码,需要以二进制的方式进行读写 1. 报错一:TypeError: write() argument must be str, not bytes 将决策树 ...
03机器学习实战之决策树scikit-learn实现
sklearn.tree.DecisionTreeClassifier 基于 scikit-learn 的决策树分类模型 DecisionTreeClassifier 进行的分类运算 http://s ...
【Python机器学习实战】决策树与集成学习（三）——集成学习（1）
前面介绍了决策树的相关原理和实现,其实集成学习并非是由决策树演变而来,之所以从决策树引申至集成学习是因为常见的一些集成学习算法与决策树有关比如随机森林.GBDT以及GBDT的升华版Xgboost都是以 ...

随机推荐

word2vec_文本相似度
#提取关键词#关键词向量化#相似度计算 from jieba import analyseimport numpyimport gensim # 实现给出任意字符串,获取字符串中某字符的位置以及出现的 ...
图解http学习笔记【一】
不想单纯的把书里的知识点罗列一遍这周,我们的安全代码终于改完了.我在微信上报了个叫一修读书的课程,现在已经听了6天.感觉并不是很神奇,聊胜于无.倒是趁着当当搞活动买回来好几本书,其中就有这本图解h ...
通过flask中的Response返回json数据
使用flask的过程中,发现有时需要生成一个Response并返回.网上查了查,看了看源码,找到了两种办法: from flask import Response, json Response(jso ...
【Web】Nginx 反向代理与负载均衡
反向代理反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给internet上请求连接的客 ...
车站(NOIP1998)
题目链接:车站这一题,首先你要会推导,推到出式子后,就会像我一样简单AC. 给一张图: 这里,t是第二个车站上车人数. 有什么规律? 其实很好找.有如下规律: 第x车站的人数增量为第x-2车站的上车 ...
Java HttpURLConnection 下载图片图片全是“加密图片”文字,怎么解决？
package com.qzf.util; import java.io.FileOutputStream;import java.io.IOException;import java.io.Inpu ...
安卓逆向学习---初始APK、Dalvik字节码以及Smali
参考链接:https://www.52pojie.cn/thread-395689-1-1.html res目录下资源文件在编译时会自动生成索引文件(R.java ), asset目录下的资源文件无需 ...
cyclone iv中DDR2的本地接口时序
本地接口信号名方向描述 local_burstbegin input 如果local_ready无效不起作用.IP核在local_write_req为高时,在phy_clk上升沿采样.当lo ...
Asp.net 修改已有数据的DataTable中某列的数据类型
DataTable dt_PI = new DataTable(); //克隆表结构 dt_PI = ds.Tables[].Clone(); dt_PI.Columns["FLTFullP ...
快速创建一个 Servlet 项目（2）
1. 新建一个 webapp 参考 http://www.cnblogs.com/zno2/p/5909019.html 2.调整jdk版本修改 pom.xml 文件,将jdk 调整为适当的版本,比 ...

机器学习实战-ch3-决策树

机器学习实战-ch3-决策树的更多相关文章

随机推荐

热门专题