了凡春秋USTC

谱聚类

http://chunqiu.blog.ustc.edu.cn/?p=505

最近忙着写文章,好久不写博客了。最近看到一个聚类方法--谱聚类,号称现代聚类方法,看到它简洁的公式推导、实现代码,不禁要尝试一把。关于它的理论,google一搜有很多博客讲,这里就不赘述了,反正最后还是归结为一个SVD分解问题,参考网址如下

    看到下面的图,乐了
    上网搜索,看到了几个相关的工具箱,下面一一介绍:
1.这个是加利福尼亚大学一个实验室为他们的论文《Parallel Spectral Clustering in Disributed Systems》而写的测试代码,这篇文章发在IEEE Transactions on Pattern Analysis and Machine Intelligence上,机器学习方面的顶级期刊。不过看了看作者,怎么感觉都是中国人啊,下载地址见http://alumni.cs.ucsb.edu/~wychen/sc.html#FAQ
    压缩包内有Readme,有工具箱的使用介绍,不过由于是为文章效果而写的,所以感觉并不能称得上工具箱吧,我自己编了个测试例子试了试,效果、速度确实不错:
原始待聚类数据
聚类后
    代码如下:
% 谱聚类算法测试
clc
clear
close all
 
% 构造原始数据
ang = 0:pi/200:pi/2*3;
x1 = sin(ang) + randn(size(ang))*0.1;
y1 = cos(ang) + randn(size(ang))*0.1;
x2 = 2.3*sin(ang+pi) + randn(size(ang))*0.1;
y2 = 2.3*cos(ang) + randn(size(ang))*0.1;
x3 = 6*sin(ang+pi/2*3+pi/6) + randn(size(ang))*0.1;
y3 = 5*cos(ang+pi/2*3) + randn(size(ang))*0.1;
 
X = [x1, x2, x3; y1, y2, y3]';
figure
plot(X(:, 1), X(:, 2), '.')
axis equal
 
% 谱聚类
num_neighbors = 20;
block_size = 5;
gen_nn_distance(X, num_neighbors, block_size, 0); % 计算相似矩阵,保存到NN_sym_distance.mat文件中
 
filename = [num2str(num_neighbors), '_NN_sym_distance'];
load(filename)
 
num_clusters = 3;
sigma = 10;
cluster_labels = sc(A, sigma, num_clusters); % 谱聚类
 
figure
plot(X(cluster_labels == 1, 1), X(cluster_labels == 1, 2), 'r.', ...
    X(cluster_labels == 2, 1), X(cluster_labels == 2, 2), 'b.', ...
    X(cluster_labels == 3, 1), X(cluster_labels == 3, 2), 'g.')
axis equal
 
2.有个matlab exchange上的工具箱,是德国斯图加特大学一个博士整齐其博士论文的研究而写的GUI,下载链接如下(压缩包内有其博士论文)
    同样,Readme里有详细使用说明,只要运行MAIN.m文件即可弹出GUI。运行可能会出个警告
影响不大,Readme里是这么说的:
recommended: export_fig configured to save to pdf files (Mathworks File Exchange ID #23629)
如果你不用保存图片,不用理会。
    GUI如下
    对其给的twomoons的例子做测试,结果如下
额,是不是有点自己打脸的赶脚!自己给的例子,效果也不够完美。。。估计调整一些参数能得到理想的效果吧!
 
Matlab exchange上还有个谱聚类的文件,提供了谱聚类各种算法的简单实现,对于学习谱聚类具体实现挺有帮助!
 
3.很多介绍谱聚类的博客都有提到算法的matlab实现,因为实现代码太简单了,如下
% 谱聚类简单实现
function idx = spectral_clustering(W, k)
D = diag(sum(W));
L = D-W;
opt = struct('issym', true, 'isreal', true);
[V, ~] = eigs(L, D, k, 'SM', opt);
idx = kmeans(V, k);
end
 
    谱聚类复杂的理论最终归结为代码就这几句,当然这是考虑最简化的情况,如果考虑细节,就得靠上面提到的工具箱了。对于这个代码,我做了测试,效果还行(使用第一个代码里的计算相似矩阵的函数),不过多次测试的效果说明,不同数据对效果是有影响的,有时就得不到好的分离效果。
% 谱聚类算法测试
clc
clear
close all
 
% 构造原始数据
ang = 0:pi/200:pi/2*3;
x1 = sin(ang) + randn(size(ang))*0.1;
y1 = cos(ang) + randn(size(ang))*0.1;
x2 = 2.3*sin(ang+pi) + randn(size(ang))*0.1;
y2 = 2.3*cos(ang) + randn(size(ang))*0.1;
x3 = 6*sin(ang+pi/2*3+pi/6) + randn(size(ang))*0.1;
y3 = 5*cos(ang+pi/2*3) + randn(size(ang))*0.1;
 
X = [x1, x2, x3; y1, y2, y3]';
figure
plot(X(:, 1), X(:, 2), '.')
axis equal
 
% 谱聚类
num_neighbors = 20;
block_size = 5;
gen_nn_distance(X, num_neighbors, block_size, 0); % 计算相似矩阵,保存到NN_sym_distance.mat文件中
 
filename = [num2str(num_neighbors), '_NN_sym_distance'];
load(filename)
 
idx = spectral_clustering(A, 3);
 
figure
plot(X(idx == 1, 1), X(idx == 1, 2), 'r.', ...
    X(idx == 2, 1), X(idx == 2, 2), 'b.', ...
    X(idx == 3, 1), X(idx == 3, 2), 'g.')
axis equal
 
 
    如果对那个博士论文的例子做测试,效果如下
貌似这个图确实很难分,这个效果不如那个德国博士的效果。
% 谱聚类算法测试
clc
clear
close all
 
% 构造原始数据
M = csvread('twomoon-2d-50s.test.csv');
X = M(:, 2:3);
 
figure
plot(X(:, 1), X(:, 2), '.')
axis equal
 
% 谱聚类
num_neighbors = 20;
block_size = 5;
gen_nn_distance(X, num_neighbors, block_size, 0); % 计算相似矩阵,保存到NN_sym_distance.mat文件中
 
filename = [num2str(num_neighbors), '_NN_sym_distance'];
load(filename)
 
idx = spectral_clustering(A, 2);
 
figure
plot(X(idx == 1, 1), X(idx == 1, 2), 'r.', ...
    X(idx == 2, 1), X(idx == 2, 2), 'b.')
axis equal
 
    如果用第一个工具箱的方法再测试这个例子
效果也就那样!
% 谱聚类算法测试
clc
clear
close all
 
% 构造原始数据
M = csvread('twomoon-2d-50s.test.csv');
X = M(:, 2:3);
 
figure
plot(X(:, 1), X(:, 2), '.')
axis equal
 
% 谱聚类
num_neighbors = 20;
block_size = 5;
gen_nn_distance(X, num_neighbors, block_size, 0); % 计算相似矩阵,保存到NN_sym_distance.mat文件中
filename = [num2str(num_neighbors), '_NN_sym_distance'];
load(filename)
 
num_clusters = 2;
sigma = 10;
cluster_labels = sc(A, sigma, num_clusters); % 谱聚类
 
figure
plot(X(cluster_labels == 1, 1), X(cluster_labels == 1, 2), 'r.', ...
    X(cluster_labels == 2, 1), X(cluster_labels == 2, 2), 'b.')
axis equal
 

[zz]谱聚类的更多相关文章

  1. 谱聚类python实践

    聚类后: # -*- coding: utf-8 -*-"""Created on 09 05 2017 @author: similarface"" ...

  2. 用scikit-learn学习谱聚类

    在谱聚类(spectral clustering)原理总结中,我们对谱聚类的原理做了总结.这里我们就对scikit-learn中谱聚类的使用做一个总结. 1. scikit-learn谱聚类概述 在s ...

  3. 谱聚类(spectral clustering)原理总结

    谱聚类(spectral clustering)是广泛使用的聚类算法,比起传统的K-Means算法,谱聚类对数据分布的适应性更强,聚类效果也很优秀,同时聚类的计算量也小很多,更加难能可贵的是实现起来也 ...

  4. 大数据下多流形聚类分析之谱聚类SC

    大数据,人人都说大数据:类似于人人都知道黄晓明跟AB结婚一样,那么什么是大数据?对不起,作为一个本科还没毕业的小白实在是无法回答这个问题.我只知道目前研究的是高维,分布在n远远大于2的欧式空间的数据如 ...

  5. Laplacian matrix 从拉普拉斯矩阵到谱聚类

    谱聚类步骤 第一步:数据准备,生成图的邻接矩阵: 第二步:归一化普拉斯矩阵: 第三步:生成最小的k个特征值和对应的特征向量: 第四步:将特征向量kmeans聚类(少量的特征向量):

  6. 谱聚类Ng算法的Matlab简单实现

    请编写一个谱聚类算法,实现"Normalized Spectral Clustering-Algorithm 3 (Ng 算法)" 结果如下 谱聚类算法核心步骤都是相同的: •利用 ...

  7. 【聚类算法】谱聚类(Spectral Clustering)

    目录: 1.问题描述 2.问题转化 3.划分准则 4.总结 1.问题描述 谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图 ...

  8. 谱聚类--SpectralClustering

    谱聚类通常会先对两两样本间求相似度. 然后依据相似度矩阵求出拉普拉斯矩阵,然后将每一个样本映射到拉普拉斯矩阵特诊向量中,最后使用k-means聚类. scikit-learn开源包中已经有现成的接口能 ...

  9. 谱聚类(Spectral Clustering)详解

    谱聚类(Spectral Clustering)详解 谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似 ...

随机推荐

  1. flex(兼容写法)

    CSS样式 flex:定义布局为盒模型 flex-v:盒模型垂直布局 flex-1:子元素占据剩余的空间 flex-align-center:子元素垂直居中 flex-pack-center:子元素水 ...

  2. Redis 常用链接

    安装部署 http://www.linuxidc.com/Linux/2014-05/101979.htm 更改访问权限配置(如密码,可访问地址):http://www.jb51.net/articl ...

  3. Android ——单元测试

    什么是单元测试 首先需要介绍一下什么是单元测试.很多人像我一样,本科并不是计算机专业出身的,如果在职的公司不要求做单元测试的话,可能对这个词并没有一个确切的概念.而即使是计算机专业出身,如果毕业以后写 ...

  4. OD调试17

    程序先出现一个nag 然后出现主窗口 然后出现第二个nag窗口        我们查个壳   没有壳 那就载入OD看看,继续用调用堆栈的方法 发现一直执行用的都是这一个call,最后执行到程序结束.之 ...

  5. 十个最适合 Web 和 APP 开发的 NodeJS 框架

    在浏览器以外运行 JavaScript 对于 JavaScript 爱好者来说非常神奇,同时也肯定是 web 应用程序开发界最受欢迎的进步之一.全球各地的开发者张开双臂拥抱 NodeJS. 对于新手来 ...

  6. 最新ecshop v2.7.3版本去版权完全版

    该偏文章模板堂搜集总结,包括ecshop前台版权,ecshop后台版权,一个都不留,干干净净,推荐收藏 一.去掉网页标题 Powered by ECShop 打开includes/lib_main.p ...

  7. javascript常用数组算法总结

    1.数组去重 方法1: JavaScript //利用数组的indexOf方法 function unique (arr) { var result = []; for (var i = 0; i & ...

  8. Python 3.5 RuntimeError: can't start new thread

    /*********************************************************************** * Python 3.5 RuntimeError: ...

  9. Kafka Topic ISR不全,个别Spark task处理时间长

    现象 Spark streaming读kafka数据做业务处理时,同一个stage的task,有个别task的运行时间比多数task时间都长,造成业务延迟增大. 查看业务对应的topic发现当topi ...

  10. mongodb字段类型转化

    最近在使用mongoDB, 发现mongo对字段类型的定义并不是很严格,完全依赖传入数据的类型,在加上PHP是弱类型的语言,所以难免会出现一些错误.如果预想的类型是Int型,但数据存储的是String ...