数据挖掘之clara算法原理及实例(代码中有bug)

继上两篇文章介绍聚类中基于划分思想的k-means算法和k-mediod算法

本文将继续介绍另外一种基于划分思想的k-mediod算法-----clara算法

clara算法可以说是对k-mediod算法的一种改进,就如同k-mediod算法对k-means算法的改进一样.

clara(clustering large application)算法是应用于大规模数据的聚类.而其核心算法还是利用k-mediod算法.

只是这种算法弥补了k-mediod算法只能应用于小规模数据的缺陷.

clara算法的核心是,先对大规模数据进行多次采样,每次采样样本进行med-diod聚类,然后将多次

采样的样本聚类中心进行比较,选出最优的聚类中心.当然clara算法也有一定的缺陷,因为它依赖于

抽样次数,每次样本数据是否均匀分布,以及抽样样本的大小.尽管这样,clara算法还是为我们提供了

一种进行大规模数据聚类的方法.

clara算法的具体描述如下：

1.对大规模数据进行多次采样得到采样样本

2.对每次采样的样本进行k-mediod聚类,得到多组聚类中心

3.求出每组聚类中心到其他所有点距离和.

4.找出这几组距离和的最小值.距离和最小的那组就是最优的聚类中心.

5.然后将大规模数据按照距离聚类到这组最优聚类中心

matlab仿真代码如下：

 clc;

 clear;

 load Data3.mat;

 k=3; %给定的类别数目

 time=5;%time为抽样的次数

 number=30;%number为抽样本个数

 for T=1:time

     ClomStaticSample=zeros(1,number);

     ClomStaticSample=randsample(ClomStatic,number);   %ClomStaticSample就是样本数据

                                                       %接下来对样本数据使用kmediod算法进行聚类

     %产生三个随机整数，随机聚类中心

     p=randperm(number);

     Temp=p(1:k);

     Center=zeros(1,k);

     for j=1:k

         Center(j)=ClomStaticSample(Temp(j));

     end

     [ClomStaticSample]=sort(ClomStaticSample);

     TempDistance=zeros(number,3);           %暂存差值

      while 1

         Circulm=1;                          %循环控制

         p1=1;

         p2=1;

         p3=1;

         if(Circulm~=1)

             clear Group1 Group2 Group3;

         end

         for i=1:number

             for j=1:3

                 TempDistance(i,j)=abs(ClomStaticSample(i)-Center(j));

             end

             [RowMin RowIndex]=min(TempDistance(i,:));

             if(RowIndex(1)==1)

                 Group1(p1)=ClomStaticSample(i);

                 p1=p1+1;

             elseif(RowIndex(1)==2)

                 Group2(p2)=ClomStaticSample(i);

                 p2=p2+1;

             elseif(RowIndex(1)==3)

                 Group3(p3)=ClomStaticSample(i);

                 p3=p3+1;

             end

         end

             len1=length(Group1);

             len2=length(Group2);

             len3=length(Group3);

                   %分别计算每个类中除开类中心的点到其他所有点的距离和E,E最小时为该类新的聚类中心.

                   E=zeros(1,len1-1);

                   q1=1;

                   for j=1:len1

                       for i=1:number

                         if(Group1(j)~=Center(1)&&i~=j)

                             E(q1)=floor(abs(Group1(j)-ClomStaticSample(i)));

                             q1=q1+1;

                         end

                       end

                   end

                   NewCenter(1)=min(E);

                  E=zeros(1,len2-1);

                   q2=1;

                   for j=1:len2

                       for i=1:number

                         if(Group2(j)~=Center(2)&&i~=j)

                             E(q2)=floor(abs(Group2(j)-ClomStaticSample(i)));

                             q2=q2+1;

                         end

                       end

                   end

                   NewCenter(2)=min(E);

                   E=zeros(1,len3-1);

                   q3=1;

                   for j=1:len3

                       for i=1:number

                         if(Group3(j)~=Center(3)&&i~=j)

                             E(q3)=floor(abs(Group3(j)-ClomStaticSample(i)));

                             q3=q3+1;

                         end

                       end

                   end

                   NewCenter(3)=min(E);

             %判断新的类和旧类的聚类中心是否不同,不同则继续聚类,否则聚类结束

             JudgeEqual=zeros(1,k);

             for i=1:k

                 JudgeEqual=(NewCenter==Center);

             end

             S=0;

             for i=1:k

                 if(JudgeEqual(i)==1)

                     S=S+1;

                 end

             end

             if(S==3)

                 break;

             end

             Circulm=Circulm+1;

      end

      CenterSum5=zeros(time,k);           %保存每次抽样后kmediod聚类中心的结果值.

      CenterSum5(i,1)=Center(1);

      CenterSum5(i,2)=Center(2);

      CenterSum5(i,3)=Center(3);

 end

 %计算每次聚类中心点到其他所有点的距离和的最小值即为最优聚类中心

 Sum=zeros(1,time);

 for i=1:time

     for j=1:k

         for r=1:number-1

             if( CenterSum5(i,j)~=ClomStaticSample(r))

             Sum(i)=Sum(i)+CenterSum5(i,j)-ClomStaticSample(r);

             end

         end

     end

 end

 [SumOrder CenterEnd]=sort(Sum);%最优聚类中心即为Center(CenterEnd);

 %对大数据进行最终的聚类（按照选择出来的最优聚类中心）

         q1=1;

         q2=1;

         q3=1;

         for i=1:length(ClomStatic)

             for j=1:3

                 EndTempDistance(i,j)=abs(ClomStatic(i)-CenterSum5(CenterEnd,j));

             end

             [RowMin RowIndex]=min(EndTempDistance(i,:));

             if(RowIndex(1)==1)

                 EndGroup1(q1)=ClomStatic(i);

                 q1=q1+1;

             elseif(RowIndex(1)==2)

                 EndGroup2(q2)=ClomStatic(i);

                 q2=q2+1;

             elseif(RowIndex(1)==3)

                 EndGroup3(q3)=ClomStatic(i);

                 q3=q3+1;

             end

         end

数据挖掘之clara算法原理及实例(代码中有bug)的更多相关文章

Logistic回归分类算法原理分析与代码实现
前言本文将介绍机器学习分类算法中的Logistic回归分类算法并给出伪代码,Python代码实现. (说明:从本文开始,将接触到最优化算法相关的学习.旨在将这些最优化的算法用于训练出一个非线性的函数 ...
第一篇：K-近邻分类算法原理分析与代码实现
前言本文介绍机器学习分类算法中的K-近邻算法并给出伪代码与Python代码实现. 算法原理首先获取训练集中与目标对象距离最近的k个对象,然后再获取这k个对象的分类标签,求出其中出现频数最大的标签. ...
最短路径A*算法原理及java代码实现（看不懂是我的失败）
算法仅仅要懂原理了,代码都是小问题,先看以下理论,尤其是红色标注的(要源代码请留下邮箱,有測试用例,直接执行就可以) A*算法百度上的解释: A*[1](A-Star)算法是一种静态路网中求解最短路 ...
一致性Hash算法原理及C#代码实现
一.一致性Hash算法原理基本概念一致性哈希将整个哈希值空间组织成一个虚拟的圆环,如假设某哈希函数H的值空间为0-2^32-1(即哈希值是一个32位无符号整形),整个哈希空间环如下: 整个空间按顺 ...
第七篇：Logistic回归分类算法原理分析与代码实现
前言本文将介绍机器学习分类算法中的Logistic回归分类算法并给出伪代码,Python代码实现. (说明:从本文开始,将接触到最优化算法相关的学习.旨在将这些最优化的算法用于训练出一个非线性的函数 ...
Apriori 关联分析算法原理分析与代码实现
前言想必大家都听过数据挖掘领域那个经典的故事 - "啤酒与尿布" 的故事. 那么,具体是怎么从海量销售信息中挖掘出啤酒和尿布之间的关系呢? 这就是关联分析所要完成的任务了. 本文 ...
第十四篇：Apriori 关联分析算法原理分析与代码实现
前言想必大家都听过数据挖掘领域那个经典的故事 - "啤酒与尿布" 的故事. 那么,具体是怎么从海量销售信息中挖掘出啤酒和尿布之间的关系呢? 这就是关联分析所要完成的任务了. 本文 ...
常见排序算法原理及JS代码实现
目录数组 sort() 方法冒泡排序选择排序插入排序希尔排序归并排序堆排序快速排序创建时间:2020-08-07 本文只是将作者学习的过程以及算法理解进行简单的分享,提供多一个角度的 ...
KNN算法原理（python代码实现）
kNN(k-nearest neighbor algorithm)算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性 ...

随机推荐

SQL Server 2008空间数据应用系列八：基于Bing Maps(Silverlight)的空间数据存储
原文:SQL Server 2008空间数据应用系列八:基于Bing Maps(Silverlight)的空间数据存储友情提示,您阅读本篇博文的先决条件如下: 1.本文示例基于Microsoft S ...
C语言的本质（38）——makefile之变量
我们详细看看Makefile中关于变量的语法规则.先看一个简单的例子: foo = $(bar) bar = Huh? all: @echo$(foo) 我们执行make将会打出Huh?.当make读 ...
【转】Android虚拟平台的编译和整合
原文网址:http://blog.csdn.net/rickleaf/article/details/6369065 概要 Android从2008年开始到本文写的2011年,短短三年的时间里成为手机 ...
LRU Cache 解答
Question Design and implement a data structure for Least Recently Used (LRU) cache. It should suppor ...
FZU1862(线段树或者 DP）
Problem 1862 QueryProblem Accept: 100 Submit: 249Time Limit: 2000 mSec Memory Limit : 32768 KB ...
hdu 4649 Professor Tian 多校联合训练的题
这题起初没读懂题意,悲剧啊,然后看了题解写完就AC了题意是给一个N,然后给N+1个整数接着给N个操作符(只有三种操作即或 ,与 ,和异或 | & ^ )这样依次把操作符插入整 ...
Hide a file in a picture
有时候.假设你想在电脑上隐藏关键的文件而不想让其它人看见.你会怎么做呢?找一个专业的工具?为目录设置password?更改文件属性?这些方法可行.但它们可能不太方便和安全.这里,我给大家共享一个在图片 ...
win7 绿色版MySQL安装与配置
操作步骤: 一.安装MySQL数据库 1.下载MySQL-5.6.17-winx64.zip文件.2.解压到指定目录,本例为D:\mysql-5.6.17-winx64.3.修改配置文件,my-def ...
JQ图片跟着鼠标走
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
天坑之 Eclipse J2EE Preview 运行正确项目一直显示http 404
昨天下载了几个新Demo学习,结果不知道改了哪里,导致运行原先自己写的项目(JSP+Servlet+JDBC)(这理论上不会出什么大的问题吧?这么底层),结果莫名其妙的出现Http 404. 搞的我一 ...

数据挖掘之clara算法原理及实例(代码中有bug)

数据挖掘之clara算法原理及实例(代码中有bug)的更多相关文章

随机推荐

热门专题