[论文]Coordination of Cluster Ensembles via Exact Methods
作者:Ioannis T. Christou, Member, IEEE
IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 33, NO. 2, FEBRUARY 2011
Index Terms—Clustering, machine learning, constrained optimization, combinatorial algorithms
一遍关于聚类集成的论文,作者提出了一种新方法:EXAMCE,适用于类内部准则(intracluster criteria),例如Minimum-Sum-of-Squares-Clustering (MSSC)。什么意思,就是通过计算类内部的关系、距离等进行类划分的方法,例如MSSC,类间距离不考虑。
算法的优点:
- 关注全局最优解,不是局部最优解(kmeans)
- 算法的迭代与扩展都是基于最终结果(应该指当前迭代的最终结果)
- 在类标号比较多的时候效果好
算法描述前需要理解两个定义:
Intracluster criterion-based clustering (IC3):
简单点的描述是,如果一个数据集S,划分成k 个类,分别为C1 C2 ...Ck,使用一个成本函数c(.)来衡量各个类,那么样本的划分最优解便是使成本函数之和最小。
Monotone Clustering Property (MCP)
一个聚类结果Ci,如果其包含的样本越多,那么其成本函数的值将越大。
论文中选用了两种例子,一个是MSSC,minimum-entropy clustering criterion,
MSSC:
MSSC 其实描述的是这样一个问题:如果将数据集划分成多个类,那么怎样的划分可以使得类内部样本到内中心的欧式距离之和最小。公式的描述如下:
第一条公式是目标函数,对于每个类,内中的样本到类中心的距离之和,使和最小;第二条公式是求类中心;第三条表示数据集S 中的样本都有有类标号,第四条表示样本不会有两个或以上的类标号。
容易知道MSSC 是符合上面的两个定义的,目标函数的第二个累加号其实就是cost function,同时很容知道其满足MCP。
minimum-entropy clustering criterion
最小信息熵聚类也符合,其目标函数是:
理想情况:
对于瞒住IC3 及MCP 的聚类,最理想的解决过程如下:
我们的样本数一共有n 个,那么由这n 个样本组成的子集数目则为2^n -1,我们记这个数为N,使用一个n-by-N 矩阵A,来表示这全部的子集,矩阵A 的一列n-by-1表示一个子集,样本属于这个子集的对应位为1,否则为0,其实就是穷举,那么我们有目标函数:
这里需要解释的如下:
ci:i-th 子集需要的cost
x:一个N-by-1向量,取值为0,1,表示选取那个子集为最终划分的结果。
k: 最终划分类的个数,其实就是选了多少个子集,x 向量的叠加。
e:单位向量。
理想情况的问题在于我们需要列出样本集的全部非空子集,这是不现实的,作者提出的方法,便是在知道部分子集的情况下,选出最优划分。
论文方法:
既然只知道部分子集,那么A 矩阵便被约束为AB,其中有为 n-by-q 矩阵,q为子集个数,x同样表示最优选择。论文的思路:知道了部分子集,那么选取出当前的最优结果x,去掉重复分类的部分Rm_Dup(有可能一个样本属于了两个子集),进行局部查找Local(C),对选出的子集进行部分替换Expand(C),将新的子集添加到AB,计算新的目标函数值,迭代到收敛。
上面的是论文算法的流程,解释一下:
Rm_Dup:
我们知道当前迭代步的x 的取值,即选取了哪些子集作为最终划分,那么如果一个样本属于两个或以上的类,求这个样本对于这么多个类中的cost function,然后选取cost 最小的保留这个样本,其他的删除,对于MSSC,即样本离类中心最近,那么久保留,其他的便剔除,这样我们便得到了一个样本划分(结果)记为C'。
Local(C):
Rm_Dup我们获得了一个样本划分(C'),那么便调用知道初始化的一个局部最优的算法,对于MSSC,用的是kmeans,对于信息熵,作者调用的是另外一篇论文的方法。这样获得的聚类结果记为C''。
Expand(C):
这一步是局部扩展,前两步获得的子集C'''=C' U C",对每个子集都进行一下操作,设定一个变量γ(论文中为10),一个子集中,离中心最远的γ个样本,从远到近逐步剔除,这样便获得γ个新子集;子集外,离中心最近的γ个样本,逐步加入到子集中,便获得γ个新的子集。作者称这一步对结果的提升有0.5 percent。
这样将这2γ个子集 与C''' 一同并入AB ,作为新的已知子集。结束循环的条件是没有新的子集加入。
论文方法的介绍结束。
[论文]Coordination of Cluster Ensembles via Exact Methods的更多相关文章
- [论文]CA-Tree: A Hierarchical Structure for Efficient and Scalable Coassociation-Based Cluster Ensembles
作者:Tsaipei Wang, Member, IEEE 发表:IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PART B: CYBERNET ...
- [论文]A Link-Based Cluster Ensemble Approach for Categorical Data Clustering
http://www.cnblogs.com/Azhu/p/4137131.html 这篇论文建议先看了上面这一遍,两篇作者是一样的,方法也一样,这一片论文与上面的不同点在于,使用的数据集是目录数据, ...
- [论文]A Link-Based Approach to the Cluster Ensemble Problem
论文作者:Natthakan Iam-On, Tossapon Boongoen, Simon Garrett, and Chris Price 下次还是在汇报前先写了论文总结,不然有些点汇报时容易忘 ...
- Self-paced Clustering Ensemble自步聚类集成论文笔记
Self-paced Clustering Ensemble自步聚类集成论文笔记 2019-06-23 22:20:40 zpainter 阅读数 174 收藏 更多 分类专栏: 论文 版权声明 ...
- zz【清华NLP】图神经网络GNN论文分门别类,16大应用200+篇论文最新推荐
[清华NLP]图神经网络GNN论文分门别类,16大应用200+篇论文最新推荐 图神经网络研究成为当前深度学习领域的热点.最近,清华大学NLP课题组Jie Zhou, Ganqu Cui, Zhengy ...
- Spark: Cluster Computing with Working Sets
本文是对spark作者早期论文<Spark: Cluster Computing with Working Sets>做的翻译(谷歌翻译),文章比较理论,阅读起来稍微有些吃力,但读完之后总 ...
- R--基本统计分析方法(包及函数)
摘要:目前经典的统计学分析方法主要有回归分析,Logistic回归,决策树,支持向量机,聚类分析,关联分析,主成分分析,对应分析,因子分析等,那么对于这些经典的分析方法在R中的使用主要有那些程序包及函 ...
- 当我们在谈论kmeans(3)
本系列意在长期连载分享,内容上可能也会有所删改: 因此如果转载,请务必保留源地址,非常感谢! 博客园:http://www.cnblogs.com/data-miner/(暂时公式显示有问题) ...
- Machine Learning and Data Mining(机器学习与数据挖掘)
Problems[show] Classification Clustering Regression Anomaly detection Association rules Reinforcemen ...
随机推荐
- Aliyun ECS简单的安装nginx(1.8.0)
1. yum install gcc-c++ 2. yum install -y pcre pcre-devel 3. yum install -y zlib zlib-devel 4. yum in ...
- 谭浩强C第四版(p141)16.输出以下图案
运行结果: * *** ***** ******* ***** *** * Press any key to continue #include<stdio.h> int main() { ...
- 分数调查 HihoCoder - 1515
小Hi的学校总共有N名学生,编号1-N.学校刚刚进行了一场全校的古诗文水平测验. 学校没有公布测验的成绩,所以小Hi只能得到一些小道消息,例如X号同学的分数比Y号同学的分数高S分. 小Hi想知道利用这 ...
- Computer HDU - 2196
Computer HDU - 2196 A school bought the first computer some time ago(so this computer's id is 1). Du ...
- B1061 判断题 (15分)
B1061 判断题 (15分) 判断题的评判很简单,本题就要求你写个简单的程序帮助老师判题并统计学生们判断题的得分. 输入格式: 输入在第一行给出两个不超过 100 的正整数 N 和 M,分别是学生人 ...
- 水题:HDU-1088-Write a simple HTML Browser(模拟题)
解题心得: 1.仔细读题,细心细心...... 2.题的几个要求:超过八十个字符换一行,<br>换行,<hr>打印一个分割线,最后打印一个新的空行.主要是输出要求比较多. 3. ...
- 【java】实体类中 Set<对象> 按照对象的某个字段对set排序
Java利用hibernate进行一对多查询时,把另一张表作为一个属性存进这张表的字段中,返回的类型是set类型,要对返回的set类型进行排序 user表 package onlyfun.caterp ...
- python上数据存储 .h5格式或者h5py
最近在做城市计算的项目,数据文件是以.h5的格式存储的,总结下其用法和特点 来自百度百科的简介: HDF(Hierarchical Data Format),可以存储不同类型的图像和数码数据的文件格式 ...
- mac攻略(八) -- 神器zsh和iterm2的配置
1. 安装oh my zsh 安装命令: curl -L http://install.ohmyz.sh | sh 修改shell的方式: chsh -s /bin/zsh 2.安装cask( ...
- 使用bat命令实现拖动快速安装APK包
平时安装APK包,每次都要打命令adb install *********** 很繁琐,网上找到一个用BAT命令快速安装的方法 在桌面创建一个bat文件,输入: @echo off title i ...