文章提出了一种分布式聚类的算法,这是第一个有理论保障的考虑离群点的分布式聚类算法(文章里自己说的).与之前的算法对比有以下四个优点: 1.耗时短O(max{k,logn}*n), 2.传递信息规模小:对抗分区O(klogn+t),随机分区O(klogn+t/s) 3.算法有良好的近似保证, 4.能够有效的检测出离群点. 其中,k聚类中心个数,n数据集大小,t离群点个数,s站点数(分区个数) 符号说明: 算法总体描述: 文中提出的算法分为两个阶段,第一阶段的算法是在[1]中改进,将[1]中纯净的数…