Self-paced Clustering Ensemble自步聚类集成论文笔记
0.摘要
- 现有的聚类集成方法大多利用所有的数据来学习一致的聚类结果,没有充分考虑一些困难实例所带来的不利影响。
- 为了解决这个问题,提出Self-Paced Clustering Ensemble(SPCE)方法。逐步将例子从简单到困难的纳入到集成学习中。
- 将实例的难易度评价和集成学习集成在一个框架中
- 联合学习算法获得最终的一致的聚类结果
1.introduction
传统聚类的问题
- 在给定的数据集中,不同的目标函数会有非常不同的结构。
- 没有ground truth
- 比如k-means,高度依赖初始化
clustering ensemble定义
- Clustering ensemble provides an elegant framework for combining multiple weak base clusterings of a data set to generate a consensus clustering.
之前的clustering ensemble方法
- information theoretic based clustering ensemble methods 基于信息论的集成聚类方法
[3] A. Strehl and J. Ghosh, “Cluster ensembles — a knowledge reuse framework for combining multiple partitions,” Journal of Machine Learning Research, vol. 3, no. 3, pp. 583–617, 2003.
[4] A. Topchy, A. K. Jain, and W. F. Punch, “Combining multiple weak clusterings,” in ICDM, 2003, pp. 331–338.
an alignment method to combine multiple k-means clustering results 一种组合多个k均值聚类结果的对齐方法
[5] Z. Zhou and W. Tang, “Clusterer ensemble,” Knowledge Based Systems, vol. 19, no. 1, pp. 77–83, 2006.
extended graph cut method into clustering ensemble 扩展图切割的方法到集成聚类
[8]X. Z. Fern and C. E. Brodley, “Solving cluster ensemble problems by bipartite graph partitioning,” in ICML, 2004, p. 36
spectral clustering based ensemble method 基于谱聚类的集成方法
[9] H. Liu, T. Liu, J. Wu, D. Tao, and Y. Fu, “Spectral ensemble clustering,” in SIGKDD, 2015, pp. 715–724.
[10] Z. Tao, H. Liu, and Y. Fu, “Simultaneous clustering and ensemble.” in AAAI, 2017, pp. 1546–1552.
utilized non-negative matrix factorization (NMF) to learn a consensus clustering result 利用非负矩阵分解来学习一致的聚类结果
[11] T. Li, C. H. Q. Ding, and M. I. Jordan, “Solving consensus and semisupervised clustering problems using nonnegative matrix factorization,” in ICDM, 2007, pp. 577–582.
[12] T. Li and C. H. Q. Ding, “Weighted consensus clustering.” in SDM, 2008, pp. 798–809.
introduced probabilistic graphical model into clustering ensemble 将概率图模型引入集成聚类
[13] H. Wang, H. Shan, and A. Banerjee, “Bayesian cluster ensembles,” in SDM, 2009, pp. 211–222.
[14] D. Huang, J. Lai, and C. Wang, “Ensemble clustering using factor graph,” Pattern Recognition, vol. 50, pp. 131–142, 2016.
- Besides these work which ensemble all base clustering results, some work tried to select some informative and non-redundant base clustering results for ensemble. 除了这些集合所有基本聚类结果的工作之外,还有的工作致力于为集成学习选择一些信息性和非冗余的基本聚类结果。
adaptive clustering ensemble selection method to select the base results 自适应聚类集成选择方法选择基础结果
[15] J. Azimi and X. Fern, “Adaptive cluster ensemble selection,” in Twenty-First International Joint Conference on Artificial Intelligence, 2009.
transferred the clustering selection to feature selection and designed a hybrid strategy to select base results 将聚类选择转移到特征选择并设计混合策略以选择基础结果
[16] Z. Yu, L. Li, Y. Gao, J. You, J. Liu, H. Wong, and G. Han, “Hybrid clustering solution selection strategy,” Pattern Recognition, vol. 47,no. 10, pp. 3362–3375, 2014.
Zhao et al. proposed internal validity indices for clustering ensemble selection 提出内部有效性指标来进行集成聚类选择
[17] X. Zhao, J. Liang, and C. Dang, “Clustering ensemble selection for categorical data based on internal validity indices,” Pattern Recognition, vol. 69, pp. 150–168, 2017.
存在问题
- 使用所有的数据进行聚类集成,可能有些样本很难聚类,甚至有些是异常值,可能会导致聚类性能差。
改进
- 将基础的聚类集成到课程学习(Curriculum Learning)框架中。
- 课程学习关键思想是,在早期,模型相对较弱,需要一些简单的实例进行训练;随着时间的推移,模型的能力越来越强,可以处理越来越多的困难实例;最后,它足够强大,可以处理几乎所有的实例。
- 将权重矩阵学习和一致连接矩阵学习集成在一个目标函数中。
- 将基础的聚类集成到课程学习(Curriculum Learning)框架中。
2.Related Work
2.1聚类集成相关定义
- 给定数据集,对数据集做m次聚类可以得到m个聚类结果 [Math Processing Error]C^i = \{C^1, C^2, …,C^m\}Ci={C1,C2,…,Cm},每一个聚类结果[Math Processing Error]C^iCi包含簇的集合[Math Processing Error]\{\pi_1^i,\pi_2^i,…,\pi_k^i\}{π1i,π2i,…,πki},[Math Processing Error]kk是[Math Processing Error]C^iCi中的簇的数目。
- 根据聚类结果可以得到实例之间的关系,根据[Math Processing Error]C^iCi可以构建连接矩阵[Math Processing Error]S^{(i)} \in R^{n*n}S(i)∈Rn∗n
- 聚类集成的目标就是从[Math Processing Error]S^{(1)},S^{(2)},…,S^{(m)}S(1),S(2),…,S(m)中学习一个一致矩阵[Math Processing Error]SS,最后的聚类结果就可以直接从[Math Processing Error]SS中获得。
2.2Self-paced Learning自步学习
[Math Processing Error]f(\omega_i, \lambda)f(ωi,λ)是自步正则化项,最优的[Math Processing Error]\omega_i^*ωi∗随着[Math Processing Error]\lambdaλ的增加而增加,随着[Math Processing Error]l_ili的增加而减小。也就是说损失越小,越简单,权重越大,越先学习。[Math Processing Error]\lambdaλ随着学习的过程的进行而增加,越来越多的实例被采用。
3.自步聚类集成
目标函数
- (1)S是一致矩阵,我们希望使得它与所有连接矩阵之间的差异性越小越好,既 [Math Processing Error]\sum_{i=1}^m\Vert S-S^{(i)}\Vert_F^2∑i=1m∥S−S(i)∥F2
- (2)但是不能每种结果都是相同的权重,加个权重:[Math Processing Error]\sum_{i=1}^m\alpha_i\Vert S-S^{(i)}\Vert_F^2∑i=1mαi∥S−S(i)∥F2
- (3)[Math Processing Error]\alphaα的取值采用auto-weighted的方法,定义[Math Processing Error]\alpha_i=\frac{1}{\Vert S-S^(i)\Vert_F}αi=∥S−S(i)∥F1,也就是说越相似,权重越大。objective function:
- (4)添加自步学习框架:添加自步函数 [Math Processing Error]f(W, \lambda)=-\lambda\Vert W\Vert_1f(W,λ)=−λ∥W∥1
- (5)Theorem 1 说明如果S的拉普拉斯矩阵的秩为 n-c,就可以直接得到一致矩阵有c个连通分量,也就是c个簇。所以添加约束[Math Processing Error]rank(L)=n-crank(L)=n−c。
- (6)又希望一致矩阵S尽可能的稀疏,这样得到的聚类结果会更加清晰,会占喜出更加清晰的图结构、聚类结构。所以对S添加一个一范约束。[Math Processing Error]\gammaγ是调节S稀疏程度的超参数。
优化
Self-paced Clustering Ensemble自步聚类集成论文笔记的更多相关文章
- 挑子学习笔记:两步聚类算法(TwoStep Cluster Algorithm)——改进的BIRCH算法
转载请标明出处:http://www.cnblogs.com/tiaozistudy/p/twostep_cluster_algorithm.html 两步聚类算法是在SPSS Modeler中使用的 ...
- Using SMOTEBoost(过采样) and RUSBoost(使用聚类+集成学习) to deal with class imbalance
Using SMOTEBoost and RUSBoost to deal with class imbalance from:https://aitopics.org/doc/news:1B9F7A ...
- 【Ensemble methods】组合方法&集成方法
机器学习的算法中,讨论的最多的是某种特定的算法,比如Decision Tree,KNN等,在实际工作以及kaggle竞赛中,Ensemble methods(组合方法)的效果往往是最好的,当然需要消耗 ...
- iOS开发- 三步快速集成社交化分享工具ShareSDK
1.前言 作为现在App里必不可少的用户分享需要,社交化分享显然是我们开发app里较为常用的. 最近因为公司App有社交化分享的需要,就特此研究了会,拿出来与大家分享. 想要集成社交会分享,我们可以使 ...
- iOS- 三步快速集成社交化分享工具ShareSDK
http://www.cnblogs.com/qingche/p/3727559.html 1.前言 作为现在App里必不可少的用户分享需要,社交化分享显然是我们开发app里较为常用的. 最近因为公司 ...
- Hierarchical clustering:利用层次聚类算法来把100张图片自动分成红绿蓝三种色调—Jaosn niu
#!/usr/bin/python # coding:utf-8 from PIL import Image, ImageDraw from HierarchicalClustering import ...
- 机器学习-聚类-k-Means算法笔记
聚类的定义: 聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小,它是无监督学习. 聚类的基本思想: 给定一个有N个对象的数据集 ...
- Typecho集成ueditor笔记
前言:萝卜青菜各有所爱,因为个人需求所以需要在博客中集成ueditor,并非是我不喜欢md语法 其实本篇的笔记的书写最早也是在本地的md编辑器上完成的 1. 首先下载ueditor编辑器,然后重命名文 ...
- php持续集成环境笔记
记录下php集成环境中若干个工具的安装步骤和过程: 安装pear wget http://pear.php.net/go-pear.phar $ php go-pear.phar 使用:pear in ...
随机推荐
- 计蒜客 39270.Angel's Journey-简单的计算几何 ((The 2019 ACM-ICPC China Shannxi Provincial Programming Contest C.) 2019ICPC西安邀请赛现场赛重现赛
Angel's Journey “Miyane!” This day Hana asks Miyako for help again. Hana plays the part of angel on ...
- 模板 - 部分C++库
__builtin系列 据说是GCC自带的系列,在本地装有 GNU GCC Compiler 的 Codeblocks 和 Codeforces 等平台都可以使用这些.但是没办法从 Codeblock ...
- 带状矩阵的存储(c++)
2 1 0 0 3 1 3 0 0 5 2 7 0 0 9 0 这个程序对于三对角矩阵都是有效的,为了精 ...
- 【2019.11.06】SDN上机第2次作业
参考资料网址:https://www.cnblogs.com/TITIN24/p/11794970.html 利用mininet创建如下拓扑 要求拓扑支持OpenFlow 1.3协议,主机名.交换机名 ...
- NIO 选择器 Selector
选择器提供选择执行已经就绪的任务的能力,这使得多元 I/O 成为可能.就像在第一章中描述的那样,就绪选择和多元执行使得单线程能够有效率地同时管理多个 I/O 通道(Channels).C/C++代码的 ...
- 多线程 interrupt()方法
java interrupt()方法只是设置线程的中断标记,当对处于阻塞状态的线程调用interrupt方法时(处于阻塞状态的线程是调用sleep, wait, join 的线程),会抛出Interr ...
- python-使用阿里云镜像加速
1. 在当前用户根目录下建立.pip文件夹 mkdir ~/.pip2.在.pip文件夹下创建文件pip.conf,并追加内容 [global]trusted-host=mirrors.aliyun. ...
- APP性能测试工具GT的使用总结:app内存测试
APP性能测试工具GT的使用总结:app内存测试 GT(随身调)是APP的随身调测平台,它是直接运行在手机上的“集成调测环境”(IDTE, Integrated Debug Environment). ...
- PHP正则匹配中文汉字会得到�
preg_match('/^[a-zA-Z\x{4e00}-\x{9fa5}]+$/u', $str)
- Android 编译 product 分区
https://source.android.google.cn/devices/bootloader/product-partitions 编译 product 分区 Android 9 支持使用 ...