[论文]Clustering-Based Ensembles as an Alternative to Stacking

Clustering-Based Ensembles as an Alternative to Stacking

作者：Anna Jurek, Yaxin Bi, Shengli Wu, and Chris D. Nugent, Member, IEEE

杂志：IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 26, NO. 9, SEPTEMBER 2014

这篇论文是聚类集成问题，聚类框架是传统的框架，按论文的说法有点创新，是将传统的分类集成框架，后半部分用聚类集成代替，最终的框架便是：

前半部分通过多个分类器获得类标号。
后半部分通过将类标号看左样本新的属性，结合旧的属性作聚类集成（kmeans）。DBI 作为衡量指标。
最终样本的划分通过k中心。

　　这样简单的结合其实很多发表论文已经用过，我认为这篇论文主要创新点是后半部分的论述：

为什么结合了分类标号作为新的属性，能够提升准确度。

论文指出以前论文的做法其实属于经验主义，而该论文则通过理论来推论证明。

　　对于监督学习，这个其实便是按传统的分类集成框架，如下：

对于数据集，通过N 个分类器划分，得出了N 列结果。
将N 个分类器的结果，与数据集的属性结合，获得新的属性。
通过信息增益函数计算各个属性的信息熵。
选择最具代表性的属性。
对于提取后的属性，进行kmeans，聚类，通过DBIndex 衡量。
模型训练结束，样本的类标号通过k 中心划分。

　　模型的训练如上，在模型训练后，对于新输入的数据集，便只计算样本原来的属性。

下面是论文的论述：

对于连个确定的集合（validation sets）：

　　V1，V2，其实便是初始数据集通过了N个分类器之后的分类结果，作为样本的新属性C₁ to C_n，与就的属性 F₁ to F_k结合，这里的n k 小写意思是提取过的，P 是样本个数。

　　既然是讨论：为什么结合了分类标号作为新的属性，能够提升准确度。

　　那么便是一个添加了分类结果，一个没有添加，前者便是V1，后者便是V2.

　　问题便是：分别使用者两个确定集合，作kmeans 聚类，然后样本的类标号通过k 中心确定，为什么V1比V2准确率高。

　　分别对V1 V2进行kmeans 聚类，假设例子如下，左图的是V1，有图的是V2，其中的Y* Z* 便是类中心，可以看出V1 聚类成8个，V2聚类成7个：

　　怎么确定一个聚类结果的类标号？　因为这是监督学习，所以是知道样本的类标号的，那么便是一个类中属于哪个类标号多的，这个类标号便是类中心的标号。这句话比较重要，因为后边的论述是以其为基础。

　　当然并不是全部的都考虑，例如上面划分直线附近的点，容易导致overlap，所以引入了如下约束：

　　意思是便是只考虑距离类中心一定距离的样本点，其中d_C、d_F 表示样本X与中心Y* 之间的欧式距离，可以看出是拆开考虑，这两个临界值的取值如下：

　　对于第一条，每个类中心，在其类中的样本点，选出到中心点最大的距离（dc），每个类都有一个这样的距离，最后选择最小的作为θ1。

　　第二条，跟上面的类似的，只是衡量有dc 变成df，同时选择V1 V2 中较小的作为θ2.

　　这样的图示如下：

　　这样加了约束后，影响的是类中心的类标号确定，因为只考虑了约束内的样本点。在知道了类中心的类标号后，考虑分类阶段，对于一个不知道标号的样本X，通过原始属性F1 to Fk，来计算他离得最近的中心，然后用这个中心的类标号作为其标号，假设这个样本X的真实类标号为c_r,通过公式表示便是：

　　其中L₁，表示类的个数，上图中L₁ =8.

　　衡量准确度，便是衡量被预测样本X将要归属的类中心的标号是否与X 的真实类标号一样。通过概率表现如下：

其中：

V1：I II 是为了为了约束的，III约束X 将要被分配到的类中心。

　　这样来看，其实证明上面的概率比下面的概率大，即X最近的聚类中心，通过添加分类标号作为属性的话，更有可能被确认为c_r标号。

　通过一定推导可以得出下面公式，推导过程见论文附录。

　　左边其实是V1 概率，右边是V2 概率。那么假如中间部分>=1，便可以得出左边>=右边。

　　上面这个条件的成立，只需要下面条件成立，推导过程也在附录中。

　　上面这条件的意思是：两个真实标号一样的样本，被分配到同一个分类中的概率，比两个真实标号不同的样本，分配到同一个分类中的概率大。

　　这其实是分类的作用了，论文中附录还证明了对于真实标号数目只有2时候，分类器的准确率达到0.5便可以使上式成立。

　　上面的是分类标号+样本属性 > 样本属性，同时论文还证明分类标号+样本属性 > 分类标号，只需满足一下条件：

　　意思是：两个真实标号一样的样本，比两个真实标号不一样的样本更相似。

[论文]Clustering-Based Ensembles as an Alternative to Stacking的更多相关文章

Science论文"Clustering by fast search and find of density peaks"学习笔记
"Clustering by fast search and find of density peaks"是今年6月份在<Science>期刊上发表的的一篇论文,论文中 ...
PP: Deep clustering based on a mixture of autoencoders
Problem: clustering A clustering network transforms the data into another space and then selects one ...
【论文:麦克风阵列增强】An alternative approach to linearly constrained adaptive beamforming
作者:桂. 时间:2017-06-03 21:46:59 链接:http://www.cnblogs.com/xingshansi/p/6937259.html 原文下载:http://pan.ba ...
Science14年的聚类论文——Clustering by fast search and find of density peaks
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 这是一个比较新的聚类方法(文章中没看见作者对其取名,在这里我姑且称该方法为local density clu ...
论文阅读 SNAPSHOT ENSEMBLES
引入 1. 随机梯度下降的特点随机梯度下降法(Stochastic Gradient Descent)作为深度学习中主流使用的最优化方法, 有以下的优点: 躲避和逃离假的鞍点和局部极小点的能力这篇 ...
Self-paced Clustering Ensemble自步聚类集成论文笔记
Self-paced Clustering Ensemble自步聚类集成论文笔记 2019-06-23 22:20:40 zpainter 阅读数 174 收藏更多分类专栏: 论文版权声明 ...
Memory Networks02 记忆网络经典论文
目录 1 Recurrent Entity Network Introduction 模型构建 Input Encoder Dynamic Memory Output Model 总结 2 hiera ...
MapReduce的核心资料索引 [转]
转自http://prinx.blog.163.com/blog/static/190115275201211128513868/和http://www.cnblogs.com/jie46583173 ...
### Paper about Event Detection
Paper about Event Detection. #@author: gr #@date: 2014-03-15 #@email: forgerui@gmail.com 看一些相关的论文. 1 ...

随机推荐

DevOps - 日志分析 -ELK
wget --no-check-certificate --no-cookies --header "Cookie: oraclelicense=accept-securebackup-co ...
课时5.什么是URL（理解）
其实浏览器的地址栏中输入的地址就是一个URL. http://127.0.0.1/index.html(浏览器会自动添加:80) http://127.0.0.1:80/index.html(这是浏览 ...
JZOJ 4725. 质数序列
Description 由于去NOI的火车“堵”了数不清时间,小Z和小D打完ETG,闲着无聊开始看今年的JSOI省选题,并尝试着修改题目:对于一个长度为L ≥ 2的序列,X:x1,x2,...,xL ...
pip3 的安装同时安装lxml和pygame
ubuntu18.04中首先查看自己电脑的python版本,一般都会有2, 和3 python -V python3 -V 查看pip版本 pip -V pip3 -V 现在我们就可以开始安装我们的 ...
1 > 2 and 3 < 4 or 4 > 5 and 2 > 1 or 9 < 8
a,b,c,d,e,f,g=1,2,3,4,5,8,9 m = a > b and c < d or c > e n = b > a or g < f x = m and ...
笔记-python-build-in-types
笔记-python-build-in-types 注:文档内容来源为Python 3.6.5 documentation 1. built-in types 1.1. 真值测试所有对 ...
自动检测ARouter路由地址分组使用冲突问题
背景项目中使用ARouter进行路由,由于不同上层业务模块都可能会使用到同一目标的路由地址,因此,将所有业务模块的路由地址以一种类似静态常量的方式设置在Base模块中.这样,在实际目前上加上对应此地 ...
laravel5.2总结--文件上传
1 配置文件系统的配置文件在 config/filesystems.php 文件中,此处我们新建一个uploads本地磁盘空间用于存储上传的文件,具体配置项及说明如下: <?php retur ...
Asp.net Mvc 页面静态化
http://www.cnblogs.com/gowhy/archive/2013/01/01/2841472.html
getshell不用英文数字或者不用下划线
getshell不用英文字母和数字上代码实际代码没有echo strlen($code);我测试的时候加上去的思路是eval执行getFlag函数. 过滤了字母和数字,长度得小于40 直接看pa ...

[论文]Clustering-Based Ensembles as an Alternative to Stacking

[论文]Clustering-Based Ensembles as an Alternative to Stacking的更多相关文章

随机推荐

热门专题