http://www.cnblogs.com/Azhu/p/4137131.html 这篇论文建议先看了上面这一遍,两篇作者是一样的,方法也一样,这一片论文与上面的不同点在于,使用的数据集是目录数据,即数据不能数字化,例如: An example of categorical attribute is Sex={fmale,female} or shape= {circle,rectangle. . .}. 论文方法一样,只是处理目录数据不同,获得聚类结果的选择方法如下: Type I…
论文作者:Natthakan Iam-On, Tossapon Boongoen, Simon Garrett, and Chris Price 下次还是在汇报前先写了论文总结,不然有些点汇报时容易忘了说,以前看的论文看补不补上来吧,有时间再说. 前言: 这篇论文是关于聚类集成的,成熟的聚类集成框架是将多个聚类算法的结果汇聚在一起,然后使用一致性函数得出最终的聚类结果,论文中认为这两步中间的操作属于原数据上的操作,比较粗糙,所以提出了一种算法,对汇总后聚类结果进行进一步处理,然后再使用一致性函数…
本文是对spark作者早期论文<Spark: Cluster Computing with Working Sets>做的翻译(谷歌翻译),文章比较理论,阅读起来稍微有些吃力,但读完之后总算是对spark有了一个初步的认知,对于后续学习使用spark还是很有帮助的. 摘要 MapReduce及其各种变种,在商业集群,实现大规模数据密集型应用方面取得了巨大成功.然而,这些系统大多都是围绕非迭代数据模型构建的,不适合其他主流应用.本文侧重于此类应用:可以并行操作重用一组工作数据集的应用.包括许…
本系列意在长期连载分享,内容上可能也会有所删改: 因此如果转载,请务必保留源地址,非常感谢! 博客园:http://www.cnblogs.com/data-miner/(暂时公式显示有问题) 其他:建设中- 当我们在谈论kmeans:论文概述(2) 算法历程 2001年 在Estlick, Mike, et al. "Algorithmic transformations in the implementation of K- means clustering on reconfigu…