了凡春秋USTC

谱聚类

http://chunqiu.blog.ustc.edu.cn/?p=505

最近忙着写文章，好久不写博客了。最近看到一个聚类方法--谱聚类，号称现代聚类方法，看到它简洁的公式推导、实现代码，不禁要尝试一把。关于它的理论，google一搜有很多博客讲，这里就不赘述了，反正最后还是归结为一个SVD分解问题，参考网址如下

http://www.cnblogs.com/phinecos/archive/2009/05/11/1453853.html

http://blog.pluskid.org/?p=287

看到下面的图，乐了

上网搜索，看到了几个相关的工具箱，下面一一介绍：

1.这个是加利福尼亚大学一个实验室为他们的论文《Parallel Spectral Clustering in Disributed Systems》而写的测试代码，这篇文章发在IEEE Transactions on Pattern Analysis and Machine Intelligence上，机器学习方面的顶级期刊。不过看了看作者，怎么感觉都是中国人啊，下载地址见http://alumni.cs.ucsb.edu/~wychen/sc.html#FAQ

压缩包内有Readme，有工具箱的使用介绍，不过由于是为文章效果而写的，所以感觉并不能称得上工具箱吧，我自己编了个测试例子试了试，效果、速度确实不错：

原始待聚类数据

聚类后

代码如下：

% 谱聚类算法测试

clc

clear

close all

% 构造原始数据

ang = 0:pi/200:pi/2*3;

x1 = sin(ang) + randn(size(ang))*0.1;

y1 = cos(ang) + randn(size(ang))*0.1;

x2 = 2.3*sin(ang+pi) + randn(size(ang))*0.1;

y2 = 2.3*cos(ang) + randn(size(ang))*0.1;

x3 = 6*sin(ang+pi/2*3+pi/6) + randn(size(ang))*0.1;

y3 = 5*cos(ang+pi/2*3) + randn(size(ang))*0.1;

X = [x1, x2, x3; y1, y2, y3]';

figure

plot(X(:, 1), X(:, 2), '.')

axis equal

% 谱聚类

num_neighbors = 20;

block_size = 5;

gen_nn_distance(X, num_neighbors, block_size, 0); % 计算相似矩阵，保存到NN_sym_distance.mat文件中

filename = [num2str(num_neighbors), '_NN_sym_distance'];

load(filename)

num_clusters = 3;

sigma = 10;

cluster_labels = sc(A, sigma, num_clusters); % 谱聚类

figure

plot(X(cluster_labels == 1, 1), X(cluster_labels == 1, 2), 'r.', ...

X(cluster_labels == 2, 1), X(cluster_labels == 2, 2), 'b.', ...

X(cluster_labels == 3, 1), X(cluster_labels == 3, 2), 'g.')

axis equal

2.有个matlab exchange上的工具箱，是德国斯图加特大学一个博士整齐其博士论文的研究而写的GUI，下载链接如下（压缩包内有其博士论文）

http://www.mathworks.com/matlabcentral/fileexchange/26354-spectral-clustering-algorithms

同样，Readme里有详细使用说明，只要运行MAIN.m文件即可弹出GUI。运行可能会出个警告

影响不大，Readme里是这么说的：

recommended: export_fig configured to save to pdf files (Mathworks File Exchange ID #23629)

如果你不用保存图片，不用理会。

GUI如下

对其给的twomoons的例子做测试，结果如下

额，是不是有点自己打脸的赶脚！自己给的例子，效果也不够完美。。。估计调整一些参数能得到理想的效果吧！

Matlab exchange上还有个谱聚类的文件，提供了谱聚类各种算法的简单实现，对于学习谱聚类具体实现挺有帮助！

http://www.mathworks.com/matlabcentral/fileexchange/26354-spectral-clustering-algorithms

3.很多介绍谱聚类的博客都有提到算法的matlab实现，因为实现代码太简单了，如下

% 谱聚类简单实现

function idx = spectral_clustering(W, k)

D = diag(sum(W));

L = D-W;

opt = struct('issym', true, 'isreal', true);

[V, ~] = eigs(L, D, k, 'SM', opt);

idx = kmeans(V, k);

end

谱聚类复杂的理论最终归结为代码就这几句，当然这是考虑最简化的情况，如果考虑细节，就得靠上面提到的工具箱了。对于这个代码，我做了测试，效果还行（使用第一个代码里的计算相似矩阵的函数），不过多次测试的效果说明，不同数据对效果是有影响的，有时就得不到好的分离效果。

% 谱聚类算法测试

clc

clear

close all

% 构造原始数据

ang = 0:pi/200:pi/2*3;

x1 = sin(ang) + randn(size(ang))*0.1;

y1 = cos(ang) + randn(size(ang))*0.1;

x2 = 2.3*sin(ang+pi) + randn(size(ang))*0.1;

y2 = 2.3*cos(ang) + randn(size(ang))*0.1;

x3 = 6*sin(ang+pi/2*3+pi/6) + randn(size(ang))*0.1;

y3 = 5*cos(ang+pi/2*3) + randn(size(ang))*0.1;

X = [x1, x2, x3; y1, y2, y3]';

figure

plot(X(:, 1), X(:, 2), '.')

axis equal

% 谱聚类

num_neighbors = 20;

block_size = 5;

gen_nn_distance(X, num_neighbors, block_size, 0); % 计算相似矩阵，保存到NN_sym_distance.mat文件中

filename = [num2str(num_neighbors), '_NN_sym_distance'];

load(filename)

idx = spectral_clustering(A, 3);

figure

plot(X(idx == 1, 1), X(idx == 1, 2), 'r.', ...

X(idx == 2, 1), X(idx == 2, 2), 'b.', ...

X(idx == 3, 1), X(idx == 3, 2), 'g.')

axis equal

如果对那个博士论文的例子做测试，效果如下

貌似这个图确实很难分，这个效果不如那个德国博士的效果。

% 谱聚类算法测试

clc

clear

close all

% 构造原始数据

M = csvread('twomoon-2d-50s.test.csv');

X = M(:, 2:3);

figure

plot(X(:, 1), X(:, 2), '.')

axis equal

% 谱聚类

num_neighbors = 20;

block_size = 5;

gen_nn_distance(X, num_neighbors, block_size, 0); % 计算相似矩阵，保存到NN_sym_distance.mat文件中

filename = [num2str(num_neighbors), '_NN_sym_distance'];

load(filename)

idx = spectral_clustering(A, 2);

figure

plot(X(idx == 1, 1), X(idx == 1, 2), 'r.', ...

X(idx == 2, 1), X(idx == 2, 2), 'b.')

axis equal

如果用第一个工具箱的方法再测试这个例子

效果也就那样！

% 谱聚类算法测试

clc

clear

close all

% 构造原始数据

M = csvread('twomoon-2d-50s.test.csv');

X = M(:, 2:3);

figure

plot(X(:, 1), X(:, 2), '.')

axis equal

% 谱聚类

num_neighbors = 20;

block_size = 5;

gen_nn_distance(X, num_neighbors, block_size, 0); % 计算相似矩阵，保存到NN_sym_distance.mat文件中

filename = [num2str(num_neighbors), '_NN_sym_distance'];

load(filename)

num_clusters = 2;

sigma = 10;

cluster_labels = sc(A, sigma, num_clusters); % 谱聚类

figure

plot(X(cluster_labels == 1, 1), X(cluster_labels == 1, 2), 'r.', ...

X(cluster_labels == 2, 1), X(cluster_labels == 2, 2), 'b.')

axis equal

来自为知笔记(Wiz)

[zz]谱聚类的更多相关文章

谱聚类python实践
聚类后: # -*- coding: utf-8 -*-"""Created on 09 05 2017 @author: similarface"" ...
用scikit-learn学习谱聚类
在谱聚类(spectral clustering)原理总结中,我们对谱聚类的原理做了总结.这里我们就对scikit-learn中谱聚类的使用做一个总结. 1. scikit-learn谱聚类概述在s ...
谱聚类（spectral clustering）原理总结
谱聚类(spectral clustering)是广泛使用的聚类算法,比起传统的K-Means算法,谱聚类对数据分布的适应性更强,聚类效果也很优秀,同时聚类的计算量也小很多,更加难能可贵的是实现起来也 ...
大数据下多流形聚类分析之谱聚类SC
大数据,人人都说大数据:类似于人人都知道黄晓明跟AB结婚一样,那么什么是大数据?对不起,作为一个本科还没毕业的小白实在是无法回答这个问题.我只知道目前研究的是高维,分布在n远远大于2的欧式空间的数据如 ...
Laplacian matrix 从拉普拉斯矩阵到谱聚类
谱聚类步骤第一步:数据准备,生成图的邻接矩阵: 第二步:归一化普拉斯矩阵: 第三步:生成最小的k个特征值和对应的特征向量: 第四步:将特征向量kmeans聚类(少量的特征向量):
谱聚类Ng算法的Matlab简单实现
请编写一个谱聚类算法,实现"Normalized Spectral Clustering-Algorithm 3 (Ng 算法)" 结果如下谱聚类算法核心步骤都是相同的: •利用 ...
【聚类算法】谱聚类(Spectral Clustering)
目录: 1.问题描述 2.问题转化 3.划分准则 4.总结 1.问题描述谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图 ...
谱聚类--SpectralClustering
谱聚类通常会先对两两样本间求相似度. 然后依据相似度矩阵求出拉普拉斯矩阵,然后将每一个样本映射到拉普拉斯矩阵特诊向量中,最后使用k-means聚类. scikit-learn开源包中已经有现成的接口能 ...
谱聚类(Spectral Clustering)详解
谱聚类(Spectral Clustering)详解谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似 ...

随机推荐

新手码农浅谈观察者模式（java语言简单实现）
一:什么是观察者模式: 官方定义:定义对象间一种一对多的依赖关系.当一个对象的状态发生改变时,所有依赖于它的对象都得到通知并被自动更新. 举个例子,很多人都会订阅天气预报,当气象台获得明天的天气情况( ...
jsRender绑定数据
首先,引入jquery(很重要),其次引入jsRender.js <script type="text/javascript" src="js/jquery-1.7 ...
debug和release之间的时间优化问题
最近跑了一个Vibe的代码,其中加了一句向量的声明: vector<int> binary_delete1,binary_delete2,binary_delete3; 之后程序就会变得 ...
sql文件批量导入mysql数据库
有一百多个sql文件肿么破?一行一行地导入数据库肯定是极其愚蠢的做法,但是我差点就这么做了... 网上首先找到的方法是:写一个xxx.sql文件,里边每一行都是source *.sql ...,之后再 ...
android view ：事件
在view绘制完成后,要想在和view交互一定就要使用事件了,这些事件包括触屏,按键,以及轨迹球,说起轨迹球,在黑莓的手机上常见,现在触屏出来之后基本上就没有这个东西了.这些事件从屏幕上产生出来,会进 ...
ionic 打包签名
IONIC用一下命令打包会自动签名并且打包 ionic build android 自己签名并且打包方法: 1>在你项目app\platforms\android目录下新建文件:debug-si ...
linux find
find 命令用于查找文件系统中的指定文件,其命令格式为:find 要查找的路径表达式例如:find . -name 1.txt 在当前目录及其子目录下查找文件 1.txtfind ...
The Non-Inverting Amplifier Output Resistance by Adrian S. Nastase [ Copied ]
Source Address: http://masteringelectronicsdesign.com/the-non-inverting-amplifier-output-resistance/ ...
css 居中
今天来总结一下自己知道的居中方法: 一.水平居中 1.text-align:center; 文字水平居中,也可以放在父元素中,强行让子元素居中. 2.margin: 0 auto; 使子元素在父 ...
一些新的ideas
k-means可以在不同的聚类点间加入计算该方向类内方差的方法改进,可以获得更好的效果: 可以通过爬虫方法在facebook上爬取与happy.sad相关的图片进行图片情感分类,并通过语义分析的方法提 ...

[zz]谱聚类

了凡春秋USTC

谱聚类

[zz]谱聚类的更多相关文章

随机推荐

热门专题