Mahout canopy聚类】的更多相关文章

Canopy 聚类 一.Canopy算法流程 Canopy 算法,流程简单,容易实现,一下是算法 (1)设样本集合为S,确定两个阈值t1和t2,且t1>t2. (2)任取一个样本点p,作为一个Canopy,记为C,从S中移除p. (3)计算S中所有点到p的距离dist (4)若dist<t1,则将相应点归到C,作为弱关联. (5)若dist<t2,则将相应点移出S,作为强关联. (6)重复(2)~(5),直至S为空. 上面的过程可以看出,dist<t2的点属于有且仅有一个簇,t2&…
Mahout  K-means聚类 一.Kmeans 聚类原理 K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一.K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类.通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果. 假设要把样本集分为c个类别,算法描述如下: (1)适当选择c个类的初始中心: (2)在第k次迭代中,对任意一个样本,求其到c各中心的距离,将该样本归到距离最短的中心所在的类: (3)利用均值等方法更新该类的…
只有这个算法思想比较对,其他 的都没有一开始的remove: 原网址:http://www.shahuwang.com/?p=1021 Canopy Clustering 这个算法是2000年提出来的,此后与Hadoop配合,已经成为一个比较流行的算法了.确切的说,这个算法获得的并不是最终结果,它是为其他算法服务的,比如k-means算法.它能有效地降低k-means算法中计算点之间距离的复杂度.Mahout中已经实现了这个算法,不知道其他的机器学习类库和工具中,有多少是实现了这个算法的.感觉上…
      原文链接:http://blog.csdn.net/yclzh0522/article/details/6839643 Canopy聚类算法是可以并行运行的算法,数据并行意味着可以多线程进行,加快聚类速度,开源ML库Mahout使用. 一.概念 与传统的聚类算法(比如 K-means )不同,Canopy 聚类最大的特点是不需要事先指定 k 值( 即 clustering 的个数),因此具有很大的实际应用价值.与其他聚类算法相比,Canopy聚类虽然精度较低,但其在速度上有很大优势,…
Mahout LDA 聚类 一.LDA简介   (一)主题模型 在主题模型中,主题表示一个概念.一个方面,表现为一系列相关的单词,是这些单词的条件概率.形象来说,主题就是一个桶,里面装了出现概率较高的单词,这些单词与这个主题有很强的相关性. 怎样才能生成主题?对文章的主题应该怎么分析?这是主题模型要解决的问题. 首先,可以用生成模型来看文档和主题这两件事.所谓生成模型,就是说,我们认为一篇文章的每个词都是通过"以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语"这样一个过程…
Canopy聚类算法(经典,看图就明白) 聚类算法. 这个算法获得的并不是最终结果,它是为其他算法服务的,比如k-means算法.它能有效地降低k-means算法中计算点之间距离的复杂度. 图中有一个T1,一个T2,我们称之为距离阀值,显然T1>T2,这两个值有什么用呢?我们先确定了一个中心,然后计算其他点到这个中心间的距离,当距离大于T1时,小于T1大于T2时,小于T2时,对这个点的处理都是不一样的. 算法伪代码: while D is not empty select element d f…
canopy聚类算法的MATLAB程序 凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 1. canopy聚类算法简介 Canopy聚类算法是一个将对象分组到类的简单.快速.精确地方法.每个对象用多维特征空间里的一个点来表示.这个算法使用一个快速近似距离度量和两个距离阈值T1>T2来处理.基本的算法是,从一个点集合开始并且随机删除一个,创建一个包含这个点的Canopy,并在剩余的点集合上迭代.对于每个点,如果它的距离第一个点的距离小于T1,然后这个点就加…
Canopy 算法,流程简单,容易实现,一下是算法 (1)设样本集合为S,确定两个阈值t1和t2,且t1>t2. (2)任取一个样本点p属于S,作为一个Canopy,记为C,从S中移除p. (3)计算S中所有点到p的距离dist (4)若dist<t1,则将相应点归到C,作为弱关联. (5)若dist<t2,则将相应点移出S,作为强关联. (6)重复(2)~(5),直至S为空. 上面的过程可以看出,dist<t2的点属于有且仅有一个簇,t2<dist<t1 的点可能属于…
Canopy一般用在Kmeans之前的粗聚类.考虑到Kmeans在使用上必须要确定K的大小,而往往数据集预先不能确定K的值大小的,这样如果 K取的不合理会带来K均值的误差很大(也就是说K均值对噪声的抗干扰能力较差).总之基于以下三种原因,选择利用Canopy聚类做为Kmeans的前奏 比较科学.也是Canopy的优点. 一.canopy算法的优缺点 Canopy的优点: 1.Kmeans对噪声抗干扰较弱,通过Canopy对比较小的NumPoint的Cluster直接去掉 有利于抗干扰. 2.Ca…
本文讲一下mahout中kmeans算法和Canopy算法实现原理. 一. Kmeans是一个很经典的聚类算法,我想大家都非常熟悉.虽然算法较为简单,在实际应用中却可以有不错的效果:其算法原理也决定了其比较容易实现并行化. 学习mahout就先从简单的kmeans算法开始学起,就当抛砖引玉了. 1. 首先来简单的回顾一下KMeans算法: (1)   根据事先给定的k值建立初始划分,得到k个Cluster,比如,可以随机选择k个点作为k个Cluster的重心,又或者用其他算法得到的Cluster…