聚类

聚类任务

背景

在无监督学习(密度估计、异常检测等)中,训练样本的标记信息是未知的(即不人为指定),旨在发现数据之间的内在联系和规律,为进一步的数据分析提供基础。 
此类学习任务中研究最多、应用最广的是聚类。

定义

聚类将数据集中的样本划分为若干个通常是不相交(有的时候会相交)的子集(簇,也叫类),即将样本分类,但是分类后得到的簇的标记是未指定的,这里需要使用者自行定义。

作用

聚类既能作为一个单独过程,用于寻找数据内在的分布结构,可以作为分类等其他学习任务的前驱过程。 
主要概括起来,就是寻找数据内在的规律和联系,进行整合,分类,得到的一些数据集(类)。

性能度量(有效性指标)

类似于监督性学习的性能度量。

聚类理想情况就是,簇内相似度高,簇间相似度低。

聚类的性能度量大致有两类,分为外部指标(具有参考模型)和内部指标(直接考察聚类结果)。

外部指标举例的话,比如给你一群人的特征,一种理想情况就是聚类为男|女。

外部指标

书上根据上面的数据给出了如下四个式子 
 
其中 第一个S 表示C中属于相同簇, D 表示C中不属于相同簇, 第二个S 表示C∗中属于相同簇,D表示C∗中不属于相同簇。 
很明显,只有这四种情况,所有得出 a + b + c + d = m (m - 1) / 2,其中m (m - 1) / 2 为所有数据两两相对的情况数。 
基于上面的四个式子可以导出下面这些常用的聚类性能度量外部指标:

  • Jaccard系数(JC)

    JC=aa+b+c
  • FM指数(FMI) 
    FMI=aa+b⋅aa+c−−−−−−−−−−−√
  • Rand指数(RI) 
    RI=2(a+d)m(m−1)

显然,上述的三个性能度量的结果值均在[0, 1]区间,值越大越好。

内部指标

接着,又能得出下面这四个式子(基于样本之间的距离dist来得出: avg簇内平均,diam簇内最远,min簇间最近,cen簇间中心点间的距离) 
 
基于上面四个式子,我们可以导出下面这些常用的聚类性能度量的内部指标

  • DB指数(DBI)

    DBI=1k∑i=1kmaxj≠i(avg(Ci)+avg(Cj)dcen(ui,uj))

分析可知,上式求得的就是簇之间两两比较,计算出二个簇的平均距离之和除以二个簇之间的中心距离,取最大值,并求和,最后得出的结果代表着簇间相似度,为什么呢? 
这里就要说一下,dist,是一个函数,能够计算二个样本之间的距离,那么,这个得出的距离是什么呢?就是二者的相似性,距离越大,代表相似性越低,差异性越高,那么,cen就代表着二个簇之间的相似性,越小越相似,即上述式子就越大。 
但是为什么是簇间相似度而不是簇内相似度,他计算的是cen簇内中间距离,得出的是二个簇之间的相似度。

  • Dunn指数(DI)

    DI=min1⩽i⩽k{minj≠i(dmin(Ci,Cj)max1⩽l⩽kdiam(Cl))}

类似于DBI的分析,也可以得出DI代表的是簇内相似度,比较的是diam簇内最远。

综上所述,DBI越小越号,DI越大越好(不懂分子那里为什么)。

距离计算

这里主要说的就是上面说的dist函数,若他是一个距离度量,则需满足一些基本性质

  • 非负性(即算出的差异性不能为负数)

    dist(xi,xj)⩽0
  • 同一性(即自己跟自己距离要为0) 
    dist(xi,xj)=0当且仅当xi=xj
  • 对称性(即二点之间距离从这走和从对面走是一样的) 
    dist(xi,xj)=dist(xj,xi)
  • 直递性(三角不等式) 
    dist(xi,xj)⩽dist(xi,xk)+dist(xk,xj)
闵可夫斯基距离(MinkovDM)

预备知识:范数

distmk(xi,xj)=(∑u=1n|xui−xju|p)1p

上面这个式子就是范数||xi−xj||p

当p=2时,计算的就是欧式距离。 
当p=1时,计算的就是曼哈顿距离(街区距离)。

属性分为连续属性(数值属性)和离散属性(列名属性),连续属性一般为有序属性,离散属性一般为无序属性,闵可夫斯基距离可用于有序属性的计算, 如果需要对无序属性进行计算,则需要使用VDM。

VDM(不同值的标量)

 
看到这里,感觉就是在计算二个值(a,b)在不同簇被引用的比例。 
接着,我们就可以使用以下这些小连招- -,处理混合属性的时候 

有的时候,距离度量可能不满足直递性,这样的距离成为非度量距离。

原型聚类(基于原型的聚类)

此类算法假设聚类结构能通过一组原型刻画,在现实聚类任务中极为常用。

原理

先对原型进行初始化,然后对原型进行迭代更新求解,采用不同的原型表示、不同的求解方式,将产生不同的算法。

k均值算法(kmeans)


算法流程 

kmeans(X,k)

idx = kmeans(X,k) 
idx = kmeans(X,k,Name,Value) 
[idx,C] = kmeans(_
[idx,C,sumd] = kmeans(_
[idx,C,sumd,D] = kmeans(_
X :N*P的数据矩阵 
K: 表示将X划分为几类,为整数 
Idx :N*1的向量,存储的是每个点的聚类标号 
C: K*P的矩阵,存储的是K个聚类质心位置 
sumd 1*K的和向量,存储的是类间所有点与该类质心点距离之和 
D N*K的矩阵,存储的是每个点与所有质心的距离 
[…]=Kmeans(…,’Param1’,Val1,’Param2’,Val2,…) 
这其中的参数Param1、Param2等,主要可以设置为如下:

  1. ‘Distance’(距离度量) 
    ‘sqEuclidean’ 欧式距离(默认时,采用此距离方式) 
    ‘cityblock’ 绝度误差和,又称:L1 
    ‘cosine’ 针对向量 
    ‘correlation’ 针对有时序关系的值 
    ‘Hamming’ 只针对二进制数据
  2. ‘Start’(初始质心位置选择方法) 
    ‘sample’ 从X中随机选取K个质心点 
    ‘uniform’ 根据X的分布范围均匀的随机生成K个质心 
    ‘cluster’ 初始聚类阶段随机选择10%的X的子样本(此方法初始使用’sample’方法) 
    matrix 提供一K*P的矩阵,作为初始质心位置集合
  3. ‘Replicates’(聚类重复次数) 
    整数
%第一类数据
mu1=[0 0 0]; %均值
S1=[0.3 0 0;0 0.35 0;0 0 0.3]; %协方差
data1=mvnrnd(mu1,S1,100); %产生高斯分布数据 %%第二类数据
mu2=[1.25 1.25 1.25];
S2=[0.3 0 0;0 0.35 0;0 0 0.3];
data2=mvnrnd(mu2,S2,100); %第三个类数据
mu3=[-1.25 1.25 -1.25];
S3=[0.3 0 0;0 0.35 0;0 0 0.3];
data3=mvnrnd(mu3,S3,100); %显示数据
figure, hold on;
plot3(data1(:,1),data1(:,2),data1(:,3),'b+');
hold on;
plot3(data2(:,1),data2(:,2),data2(:,3),'r+');
plot3(data3(:,1),data3(:,2),data3(:,3),'g+');
grid on; %三类数据合成一个不带标号的数据类
data=[data1;data2;data3]; %这里的data是不带标号的,即没有分好类 k = 3;
[idx, c] = kmeans(data, k); %分成3份 figure, hold on;
for i=1:300
if idx(i) == 1
plot3(data(i,1),data(i,2),data(i,3), 'b+');
elseif idx(i) == 2
plot3(data(i,1),data(i,2),data(i,3), 'r+');
else
plot3(data(i,1),data(i,2),data(i,3), 'g+');
end
end
for i=1:k
plot3(c(i, 1), c(i, 2), c(i, 3), 'ko'); % 画出中心点
end
grid on;
  • 输入: 
  • 输出: 

图中原点就是簇的中心。

附赠一个plot的point style 图 

学习向量量化(LVQ)

与k均值算法类似,LVQ也是基于原型的聚类,但与一般的不同,LVQ假设数据样本带有类别标记,学习过程利用样本的这些监督信息来辅助聚类。 
这个是用来建立神经网络的- -。

算法描述 

newlvq(P,S1,PC,LR,LF) 建立LVQ向量化神经网络

P为一个Rx2维的网络输入向量取值范围的矩阵[Pmin Pmax]; 
Sl表示隐含层神经元的数目; 
PC表示在第二层的权值中列所属类别的百分比; 
LR表示学习速率,默认值为0.01; 
Lf表示学习函数,默认值为learnlv1。

P = [-3 -2 -2  0  0  0  0 +2 +2 +3; ...
0 +1 -1 +2 +1 -1 -2 +1 -1 0];
Tc = [1 1 1 2 2 2 2 1 1 1];
T = ind2vec(Tc);
net = newlvq(P,4,[.6 .4]);
net = train(net,P,T);
  • 输入: 
  • 输出: 

高斯混合聚类(EM算法)

利用概率模型来表达聚类原型。

这个算法会算法每个样本可能在每个簇的概率。

算法流程 

%第一类数据
mu1=[0 0 0]; %均值
S1=[0.3 0 0;0 0.35 0;0 0 0.3]; %协方差
data1=mvnrnd(mu1,S1,100); %产生高斯分布数据 %%第二类数据
mu2=[1.25 1.25 1.25];
S2=[0.3 0 0;0 0.35 0;0 0 0.3];
data2=mvnrnd(mu2,S2,100); %第三个类数据
mu3=[-1.25 1.25 -1.25];
S3=[0.3 0 0;0 0.35 0;0 0 0.3];
data3=mvnrnd(mu3,S3,100); %显示数据
figure, hold on;
plot3(data1(:,1),data1(:,2),data1(:,3),'b+');
hold on;
plot3(data2(:,1),data2(:,2),data2(:,3),'r+');
plot3(data3(:,1),data3(:,2),data3(:,3),'g+');
grid on; %三类数据合成一个不带标号的数据类
data=[data1;data2;data3]; %这里的data是不带标号的,即没有分好类 k = 3;
[px, model] = gmm(data, k); %分成3份 figure, hold on;
for i=1:300
[m, idx] = max(px(i, :));
if idx == 1
plot3(data(i,1),data(i,2),data(i,3), 'b+');
elseif idx == 2
plot3(data(i,1),data(i,2),data(i,3), 'r+');
else
plot3(data(i,1),data(i,2),data(i,3), 'g+');
end
end
c = model.Miu;
for i=1:k
plot3(c(i, 1), c(i, 2), c(i, 3), 'ko'); % 画出中心点
end
grid on;
  • 输入: 
  • 输出: 

密度聚类(基于密度的聚类)

此类算法假设聚类结构能通过样本分布的紧密程度确定。

原理

从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。

DBSCAN


基于上面的条件,这个算法给出了下面几个概念 

算法流程 

层次聚类

层次聚类视图在不同层次对数据集进行划分,从而形成属性的聚类结构。 
数据集的划分可以采用自底向上的聚合策略,也可采用自顶向下的分拆策略。

AGNES

AGNES是采用自底向上聚合策略的层次聚类算法。 
算法流程 

clusterdata(X, cutoff)
X = [gallery('uniformdata',[10 3],12);...
gallery('uniformdata',[10 3],13)+1.2;...
gallery('uniformdata',[10 3],14)+2.5];
subplot(1, 2, 1), plot3(X(:, 1), X(:, 2), X(:, 3), '*');
grid on;
T = clusterdata(X,'maxclust',3);
subplot(1, 2, 2), scatter3(X(:,1),X(:,2),X(:,3),100,T,'filled');
    • 输入: 
    • 输出: 

CODE大全——机器学习的更多相关文章

  1. CODE大全告诉你java是否开始没落了

    CODE大全告诉你java是否开始没落了! 22 岁,对于一个技术人来说可谓正当壮年.但对于一门编程语言来说,情况可能又有不同.各类编程语言横空出世,纷战不休,然而 TIOBE 的语言排行榜上,Jav ...

  2. CODE大全给你推荐几个免费的leapftp 注册码

    leapftp 2.7.6 注册码, Name: Kmos/CiA in 1999 s/n: MOD1-MO2D-M3OD-NOPQ LeapFTP2.7.5 注册名:swzn 注册码:214065- ...

  3. CODE大全浅谈谷歌adsense与PIN码

    我的博客:CODE大全:www.codedq.net:业余草:www.xttblog.com:爱分享:www.ndislwf.com或ifxvn.com. 近期由于校园招聘笔试和面试等诸多忙碌时间,博 ...

  4. CODE大全大量Flash网站收藏

    我的博客:CODE大全:www.codedq.net:业余草:www.xttblog.com:爱分享:www.ndislwf.com或ifxvn.com. http://www.wallop.com在 ...

  5. CODE 大全网站整站源码分享(带数据库)

    CODE 大全是一个偏向于 JavaEE.JavaWeb,WEB 前端,HTML5,数据库,系统运维,编程技术开发的纯个人学习.交流性质的技术博客,一个很不错的网站,现在我免费分享给大家.对 java ...

  6. HTTP错误code大全

    100 - Continue 101 - Switching Protocols Top Success Codes 200 - OK 201 - Created 202 - Accepted 203 ...

  7. 面试总结之人工智能AI(Artificial Intelligence)/ 机器学习(Machine Learning)

    刚面完 AI 岗,这几点分享给你!- AI科技大本营 https://mp.weixin.qq.com/s/05G5HKSkZwhwnmskijToLQ 1.训练决策树时的参数是什么? 2.在决策树的 ...

  8. HyperLedger Fabric 资料网址大全

    BLOCKCHAIN FOR DEVELOPERS 官方网址 i. 这个网址是ibm给的测试网址,注册进去就可以设置4个节点的区块链,而且有智能合约可以测试 区块链和HyperLedger开源技术讲堂 ...

  9. 业余草教你解读Spark源码阅读之HistoryServer

    HistoryServer服务可以让用户通过Spark UI界面,查看历史应用(已经执行完的应用)的执行细节,比如job信息.stage信息.task信息等,该功能是基于spark eventlogs ...

随机推荐

  1. java中调用本地动态链接库(*.DLL)的两种方式详解和not found library、打包成jar,war包dll无法加载等等问题解决办法

    我们经常会遇到需要java调用c++的案例,这里就java调用DLL本地动态链接库两种方式,和加载过程中遇到的问题进行详细介绍 1.通过System.loadLibrary("dll名称,不 ...

  2. JS实现AOP拦截方法调用

    //JS实现AOP拦截方法调用function jsAOP(obj,handlers) {    if(typeof obj == 'function'){        obj = obj.prot ...

  3. jquery实现导航栏效果

    <html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="C ...

  4. 利用php做出简单的发布信息和回复功能

    题目要求 1.建一个pinglun的数据库,自己建表2.完成一个简单的发布信息回复功能3.布局可以随便,主要是功能要实现4.注意回复是可以回复每一条的评论5.评论回复功能类似于qq空间的发布信息和回复 ...

  5. 利用浏览器查找font-family的css编码

    提供一种利用Chrome快速查找字体编码的小技巧 打开浏览器,按下键盘F12 点击Console控制台 输入escape("要查询的字体中文名称")(注意:括号与引号都是英文输入法 ...

  6. # ? & 号在url中的的作用

    1. # 10年9月,twitter改版.一个显著变化,就是URL加入了"#!"符号.比如,改版前的用户主页网址为http://twitter.com/username改版后,就变 ...

  7. 增强学习 | AlphaGo背后的秘密

    "敢于尝试,才有突破" 2017年5月27日,当今世界排名第一的中国棋手柯洁与AlphaGo 2.0的三局对战落败.该事件标志着最新的人工智能技术在围棋竞技领域超越了人类智能,借此 ...

  8. 愚公oracle数据库同步工具

    最近,利用一些时间对oracle数据库实时同步工具做了一些调研分析,主要关注了linkedin的databus和阿里的yugong两个中间件,其中databus需要在每个待同步的表上增加额外的列和触发 ...

  9. linux 系统中的 /bin /sbin /usr/bin /usr/sbin /usr/local/bin /usr/local/sbin 目录的区别

    先来段英文的: /bin This directory contains executable programs which are needed in single user mode and to ...

  10. 我的IT开源之路

    我开通博客这么久也从没有写过什么,那时只是喜欢看别人的技术博客,然后转发到我的私人空间有空时候读一读.这几年下来,我关注了有几百个博客.公众号.头条号.新浪微博等等,里面有无数的好文章.但是,一直也没 ...