机器学习笔记（九）---- 集成学习（ensemble learning）【华为云技术分享】

集成学习不是一种具体的算法，而是在机器学习中为了提升预测精度而采取的一种或多种策略。其原理是通过构建多个弱监督模型并使用一定策略得到一个更好更全面的强监督模型。集成学习简单的示例图如下：

通过训练得到若干个个体学习器，并通过一定策略得到一个集成学习器。

集成方式因为学习算法的不同又分为“同质”和“异质”，如果个体学习器中只包含一种学习算法，例如都是决策树，或都是神经网络，这样的集成就是同质集成，如果个体学习器中包含了多种学习算法，则称为异质集成。

集成学习的目的是得到一个比单一学习器预测性能更好的集成学习器，这就要求个体学习器“好而不同”，要求个体学习器有一定的准确性，同时又有一定的差异性。

下图是西瓜书中的一个图示，浅显易懂地表示出了个体学习器对集成学习效果的影响，用四个字来归纳就是“好而不同”

现在的集成学习大致可以分为两大类：Boosting和Bagging。

Boosting：个体学习器间存在强依赖关系，根据其表现，对训练样本进行调整，使得之前分类错误的样本后续更受关注，用改变后的样本学习下一个分类器。重复学习N个分类器。

Bagging：个体学习器间不存在强依赖关系，可同时训练生成，要求个体学习器之间有较大的差异性。

-- Boosting

Boosting的算法原理如下图：

Boosting方法可以看做是一个不断迭代训练的方法，首先用初始权重训练一个弱分类器1，根据1的误差来更新训练样本的权重，正确的样本权重下降，错误样本的权重变高，使得前一个分类器中分类错误的样本在下一个弱分类器训练中得到更多的重视。这样经过T个迭代后，得到T个弱分类器，将这T个弱分类器通过一定策略进行组合，最后得到效果较好的强分类器。

Adaboost是Boosting方法的典型代表，下面以Adaboost为例简单讲述下整个集成学习的过程。

1、如下图1所示，有两类共10个数据样本，开始时，训练数据中每个样本被赋予一个相等的初始权重，都为0.1，构成权重向量D

2、在训练集上训练出一个弱分类器并计算该分类器的错误率和分类器权重，我们采用直线对数据集进行分类（实际情况中可能是决策树等经典学习算法），从图上来看，有3个数据样本分类错误，可根据公式计算误差

、分类器权重

，然后再根据公式分别更新正确分类样本权重和错误分类样本权重；

正确分类样本权重更新：

错误分类样本权重更新：

3、第二次迭代再进行分类，如下图，同样有3个点分错了，分类器2的错误率和分类器权重根据公式可计算如下：

4、第三次迭代进行分类，同样可以计算出分类器3的错误率和分类器权重：

5、将每个弱分类器按照分类结果与分类器权重相乘累加的形式组合起来，如果得到的分类结果误差为0或者分类器数目达到用户指定的值，则迭代结束。本例经过3次迭代，最后的集成分类器分类效果如下：

sklearn中已经实现了Adaboost的方法，可直接调用，下面示例代码展示了采用单一分类器和Adaboost方法的准确率的差别，可以看到集成学习在分类准确率上有明显的提升。

-Python 代码

import pandas as pd

from sklearn import datasets

from sklearn.cross_validation import train_test_split

from sklearn.metrics import accuracy_score

from sklearn.ensemble import AdaBoostClassifier

from sklearn import tree

breast_data = datasets.load_breast_cancer()

data = pd.DataFrame(datasets.load_breast_cancer().data)

data.columns = breast_data['feature_names']

data_np = breast_data['data']

target_np = breast_data['target']

x_train, x_test, y_train, y_test = train_test_split(data_np,target_np,test_size = 0.3,random_state = 0)

# 采用一个弱分类器（决策树）进行分类

model = tree.DecisionTreeClassifier()

model.fit(x_train, y_train)

y_pred = model.predict(x_test)

print(accuracy_score(y_test, y_pred))

# 基分类器采用决策树的Adaboost分类，迭代10次

model = AdaBoostClassifier(n_estimators=10, algorithm='SAMME')

model.fit(x_train, y_train)

y_pred = model.predict(x_test)

print(accuracy_score(y_test, y_pred))

=============================================================

0.9064327485380117

0.9473684210526315

-- Bagging

Bagging的算法原理如下图：

bagging相比boosting最大的不同在于多个弱学习器之间没有依赖关系，可以并行训练生成，通过T次对训练样本的随机采样（有放回的随机采样），可以得到T个训练集，进而可以训练出T个弱分类器。再将这T个分类器按照一定策略进行结合，最终得到分类准确率较高的集成分类器。

随机森林是最有代表性的bagging方法，它是以决策树为基学习算法，通过多个采样训练集训练多个决策树，并通过投票（Voting）或是加权投票的策略确定分类结果的强分类器。

如下示例代码展示了随机森林在sklearn中是如何应用的，同样相比单一的决策树模型，随机森林的分类准确率也有较大的提升：

-Python 代码

import pandas as pd

from sklearn import datasets

from sklearn.cross_validation import train_test_split

from sklearn.metrics import accuracy_score

from sklearn import tree

from sklearn.ensemble import RandomForestClassifier

breast_data = datasets.load_breast_cancer()

data = pd.DataFrame(datasets.load_breast_cancer().data)

data.columns = breast_data['feature_names']

data_np = breast_data['data']

target_np = breast_data['target']

x_train, x_test, y_train, y_test = train_test_split(data_np,target_np, test_size = 0.3,random_state = 0)

# 通过决策树模型进行预测

model = tree.DecisionTreeClassifier()

model.fit(x_train, y_train)

y_pred = model.predict(x_test)

print(accuracy_score(y_test, y_pred))

# 通过随机森林进行分类预测

model = RandomForestClassifier()

model.fit(x_train, y_train)

y_pred = model.predict(x_test)

print(accuracy_score(y_test, y_pred))

================================================

0.9181286549707602

0.9649122807017544

作者：华为云专家周捷

机器学习笔记（九）---- 集成学习（ensemble learning）【华为云技术分享】的更多相关文章

笔记︱集成学习Ensemble Learning与树模型、Bagging 和 Boosting
本杂记摘录自文章<开发 | 为什么说集成学习模型是金融风控新的杀手锏?> 基本内容与分类见上述思维导图. . . 一.机器学习元算法随机森林:决策树+bagging=随机森林梯度提升树 ...
【Supervised Learning】集成学习Ensemble Learning & Boosting 算法（python实现）
零. Introduction 1.learn over a subset of data choose the subset uniformally randomly (均匀随机地选择子集) app ...
机器学习笔记（六） ---- 支持向量机（SVM）【华为云技术分享】
版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/devcloud/article/detai ...
【华为云技术分享】跟唐老师学习云网络： Kubernetes网络实现
当今K8s独霸天下之时,咱们站在更高的角度,好好的看看K8s网络是以什么理念构筑的.以及一个容器集群的好保姆,是如何分别照顾南北流量和东西流量的. 一.简单介绍下Kubernetes 略..容器集群 ...
【华为云实战开发】8.如何快速搭建C#网站并实现持续集成？【华为云技术分享】
1 概述 1.1 文章目的本文通过一个实例介绍如何使用软件开发服务DevCloud完成一个C#Web项目的开发. 1.2 项目详情 1. 项目名称:超级冷笑话网站 2. 项目简介:一个Web网站,包 ...
【华为敏捷/DevOps实践】7. 敏捷，DevOps，傻傻不分清楚【华为云技术分享】
文:姚冬(华为云DevCloud首席技术布道师,资深DevOps与精益/敏捷专家,金融解决方案技术Leader,中国DevOpsDays社区核心组织者) 前言敏捷是什么?DevOps是什么?两者有什 ...
Spring Boot 最流行的 16 条实践解读！【华为云技术分享】
置顶:华为云618大促火热进行中,全场1折起,免费抽主机,消费满额送P30 Pro,点此抢购. Spring Boot是最流行的用于开发微服务的Java框架.在本文中,将与大家分享自2016年以来笔者 ...
webpack4.0各个击破（6）—— Loader篇【华为云技术分享】
版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/devcloud/article/detai ...
华为云实战开发】5.如何快速创建免费Git代码仓库【华为云技术分享】
1 文章目的本文主要帮助已经掌握或者想要掌握Git的开发者,如何更好的应用Git,以及更好的将Git与DevCloud结合应用. 2 概述 2.1 版本控制系统介绍从狭义上来说,版本控制系统是软件 ...

随机推荐

[考试反思]1013csp-s模拟测试72：距离
最近总是这个样子. 看上去排名好像还可以,但是实际上离上面的分差往往能到80分,但是身后的分差其实只有10/20分. 比上不足,比下也不怎么的. 所以虽然看起来没有出rank10,但是在总分排行榜上却 ...
pxe批量部署
功能: 批量全自动安装操作系统方法: dhcp 自动分配IP tftp 微系统用来安装系统 httpd 网络源操作流程: #检查环境 getenforce #检查selinux systemctl ...
ES6学习笔记01 -- 暂时性死区（ temporal dead zone ）
参考文档: let 和 const 命令 - ECMAScript6入门暂时性死区(temporal dead zone) 理解ES6中的TDZ(暂时性死区) ES6 中 let 暂时性死区详解 ...
XML解析之Jsoup
操作xml文件解析(读取):将文档中的数据解读到内存中写入:将内存中的数据保存到XML文档中.持久化的存储解析xml的方式 DOM:将标记语言文档一次性加载进内存,在内存中形成一颗dom树优点 ...
ubuntu开机自启动服务
ubuntu下一个用来管理开机自启动服务的程序,今天在ss vps上安装时老是提示这个错误,百度后,下面的这个方法可行: vi /etc/apt/source.list 输入i,进入Insert模式 ...
nyoj 77-开灯问题 (倍数遍历)
77-开灯问题内存限制:64MB 时间限制:3000ms 特判: No 通过数:13 提交数:24 难度:1 题目描述: 有n盏灯,编号为1~n,第1个人把所有灯打开,第2个人按下所有编号为2 的倍 ...
ArcGIS API For Javascript ：双屏（多屏）地图联动的方法
在遇到地图对比的应用场景下,我们需要双屏地图或者多屏地图来满足我们的业务需求. 解决思路:首先生成两份(多份)地图,然后通过监听地图缩放拖拽,用地图四至将不同的地图对象做绑定,实现多地图联动. 前端部 ...
搭建Nginx七层反向代理
基于https://www.cnblogs.com/Dfengshuo/p/11911406.html这个基础上,在来补充下七层代理的配置方式.简单理解下四层和七层协议负载的区别吧,四层是网络层,负载 ...
Error: invalid "instanceof" keyword value Promise的解决方法
执行npm run dev 时,发现错误 Error: invalid "instanceof" keyword value Promise 经过一番查找,发现原因是webpack ...
linux 6.5操作系统建立
VM上redhat enterprise linux6 ---> 使用仅主机模式网络连接开始安装: ——>是否检查镜像:skip ——>选择语言: 中文/英文 ——>存储设备 ...

机器学习笔记（九）---- 集成学习（ensemble learning）【华为云技术分享】

机器学习笔记（九）---- 集成学习（ensemble learning）【华为云技术分享】的更多相关文章

随机推荐

热门专题