简单易学的机器学习算法—基于密度的聚类算法DBSCAN

一、基于密度的聚类算法的概述

我想了解下基于密度的聚类算法,熟悉下基于密度的聚类算法与基于距离的聚类算法,如K-Means算法之间的区别。

   
基于密度的聚类算法主要的目标是寻找被低密度区域分离的高密度区域。与基于距离的聚类算法不同的是,基于距离的聚类算法的聚类结果是球状的簇,而基于密度的聚类算法可以发现任意形状的聚类,这对于带有噪音点的数据起着重要的作用。

二、DBSCAN算法的原理

1、基本概念

   
DBSCAN(Density-Based Spatial Clustering of Application with
Noise)是一种典型的基于密度的聚类算法,在DBSCAN算法中将数据点分为一下三类:

核心点。在半径Eps内含有超过MinPts数目的点

边界点。在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内

噪音点。既不是核心点也不是边界点的点

在这里有两个量,一个是半径Eps,另一个是指定的数目MinPts。

   
一些其他的概念

Eps邻域。简单来讲就是与点p的距离小于等于Eps的所有的点的集合,可以表示为

直接密度可达。如果p在核心对象q的Eps邻域内,则称对象p从对象q出发是直接密度可达的。

密度可达。对于对象链:是从关于Eps和MinPts直接密度可达的,则对象是从对象关于Eps和MinPts密度可达的。

2、算法流程



(流程)

三、实验仿真

   
在实验中使用了两个测试数据集,数据集的原始图像如下:



(数据集1)



(数据集2)

数据集1相对比较简单。显然我们可以发现数据集1共有两个类,数据集2有四个类,下面我们通过DBSCAN算法实现数据点的聚类:



MATLAB代码

主程序





[plain] view plain copy 在CODE上查看代码片派生到我的代码片

%% DBSCAN  

clear all;  

clc;  

 

%% 导入数据集  

% data = load('testData.txt');  

data = load('testData_2.txt');  

 

% 定义参数Eps和MinPts  

MinPts = 5;  

Eps = epsilon(data, MinPts);  

 

[m,n] = size(data);%得到数据的大小  

 

x = [(1:m)' data];  

[m,n] = size(x);%重新计算数据集的大小  

types = zeros(1,m);%用于区分核心点1,边界点0和噪音点-1  

dealed = zeros(m,1);%用于判断该点是否处理过,0表示未处理过  

dis = calDistance(x(:,2:n));  

number = 1;%用于标记类  

 

%% 对每一个点进行处理  

for i = 1:m  

    %找到未处理的点
 

    if dealed(i)
== 0  

       
xTemp = x(i,:);  

       
D = dis(i,:);%取得第i个点到其他所有点的距离  

       
ind = find(D<=Eps);%找到半径Eps内的所有点
 

        
 

       
%% 区分点的类型  

        
 

       
%边界点  

       
if length(ind) > 1
&& length(ind) <
MinPts 1  

           
types(i) = 0;  

           
class(i) = 0;  

       
end  

       
%噪音点  

       
if length(ind) == 1  

           
types(i) = -1;  

           
class(i) = -1;  

           
dealed(i) = 1;  

       
end  

       
%核心点(此处是关键步骤)  

       
if length(ind) >= MinPts 1  

           
types(xTemp(1,1)) = 1;  

           
class(ind) = number;  

            
 

           
% 判断核心点是否密度可达  

           
while ~isempty(ind)  

               
yTemp = x(ind(1),:);  

               
dealed(ind(1)) = 1;  

               
ind(1) = [];  

               
D = dis(yTemp(1,1),:);%找到与ind(1)之间的距离  

               
ind_1 = find(D<=Eps);  

                
 

               
if length(ind_1)>1%处理非噪音点  

                   
class(ind_1) = number;  

                   
if length(ind_1) >= MinPts 1
 

                       
types(yTemp(1,1)) = 1;  

                   
else  

                       
types(yTemp(1,1)) = 0;  

                   
end  

                    
 

                   
for j=1:length(ind_1)  

                      
if dealed(ind_1(j)) == 0  

                         
dealed(ind_1(j)) = 1;  

                         
ind=[ind
ind_1(j)];   
 

                         
class(ind_1(j))=number;  

                      
end                    
 

                  
end  

               
end  

           
end  

           
number = number 1;  

       
end  

    end
 

end  

 

% 最后处理所有未分类的点为噪音点  

ind_2 = find(class==0);  

class(ind_2) = -1;  

types(ind_2) = -1;  

 

%% 画出最终的聚类图  

hold on  

for i = 1:m  

    if class(i)
== -1  

       
plot(data(i,1),data(i,2),'.r');  

    elseif
class(i) == 1  

       
if types(i) == 1  

           
plot(data(i,1),data(i,2),' b');  

       
else  

           
plot(data(i,1),data(i,2),'.b');  

       
end  

    elseif
class(i) == 2  

       
if types(i) == 1  

           
plot(data(i,1),data(i,2),' g');  

       
else  

           
plot(data(i,1),data(i,2),'.g');  

       
end  

    elseif
class(i) == 3  

       
if types(i) == 1  

           
plot(data(i,1),data(i,2),' c');  

       
else  

           
plot(data(i,1),data(i,2),'.c');  

       
end  

    else
 

       
if types(i) == 1  

           
plot(data(i,1),data(i,2),' k');  

       
else  

           
plot(data(i,1),data(i,2),'.k');  

       
end  

    end
 

end  

hold off  



距离计算函数

[plain] view plain copy 在CODE上查看代码片派生到我的代码片

%% 计算矩阵中点与点之间的距离  

function [ dis ] = calDistance( x )  

    [m,n] =
size(x);  

    dis =
zeros(m,m);  

    
 

    for i = 1:m
 

       
for j = i:m  

           
%计算点i和点j之间的欧式距离  

           
tmp =0;  

           
for k = 1:n  

               
tmp = tmp (x(i,k)-x(j,k)).^2;  

           
end  

           
dis(i,j) = sqrt(tmp);  

           
dis(j,i) = dis(i,j);  

       
end  

    end
 

end  



epsilon函数

[plain] view plain copy 在CODE上查看代码片派生到我的代码片

function [Eps]=epsilon(x,k)  

 

% Function: [Eps]=epsilon(x,k)  

%  

% Aim:   

% Analytical way of estimating neighborhood radius for DBSCAN
 

%  

% Input:   

% x - data matrix (m,n); m-objects, n-variables
 

% k - number of objects in a neighborhood of an object
 

% (minimal number of objects considered as a cluster)
 

 

 

[m,n]=size(x);  

 

Eps=((prod(max(x)-min(x))*k*gamma(.5*n 1))/(m*sqrt(pi.^n))).^(1/n);
 



最终的结果



(数据集1的聚类结果)



(数据集2的聚类结果)

在上面的结果中,红色的点代表的是噪音点,点代表的是边界点,十字代表的是核心点。不同的颜色代表着不同的类。数据分析师培训

简单易学的机器学习算法—基于密度的聚类算法DBSCAN的更多相关文章

  1. 简单易学的机器学习算法——基于密度的聚类算法DBSCAN

    一.基于密度的聚类算法的概述     最近在Science上的一篇基于密度的聚类算法<Clustering by fast search and find of density peaks> ...

  2. 【机器学习】DBSCAN Algorithms基于密度的聚类算法

    一.算法思想: DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法.与划分和层 ...

  3. 基于密度的聚类之Dbscan算法

    一.算法概述 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法.与划分和层次 ...

  4. DBSCAN聚类︱scikit-learn中一种基于密度的聚类方式

    一.DBSCAN聚类概述 基于密度的方法的特点是不依赖于距离,而是依赖于密度,从而克服基于距离的算法只能发现"球形"聚簇的缺点. DBSCAN的核心思想是从某个核心点出发,不断向密 ...

  5. 简单易学的机器学习算法——EM算法

    简单易学的机器学习算法——EM算法 一.机器学习中的参数估计问题 在前面的博文中,如“简单易学的机器学习算法——Logistic回归”中,采用了极大似然函数对其模型中的参数进行估计,简单来讲即对于一系 ...

  6. 简单易学的机器学习算法—SVD奇异值分解

    简单易学的机器学习算法-SVD奇异值分解 一.SVD奇异值分解的定义     假设M是一个的矩阵,如果存在一个分解: 其中的酉矩阵,的半正定对角矩阵,的共轭转置矩阵,且为的酉矩阵.这样的分解称为M的奇 ...

  7. 聚类:层次聚类、基于划分的聚类(k-means)、基于密度的聚类、基于模型的聚类

    一.层次聚类 1.层次聚类的原理及分类 1)层次法(Hierarchicalmethods)先计算样本之间的距离.每次将距离最近的点合并到同一个类.然后,再计算类与类之间的距离,将距离最近的类合并为一 ...

  8. SIGAI机器学习第二十四集 聚类算法1

    讲授聚类算法的基本概念,算法的分类,层次聚类,K均值算法,EM算法,DBSCAN算法,OPTICS算法,mean shift算法,谱聚类算法,实际应用. 大纲: 聚类问题简介聚类算法的分类层次聚类算法 ...

  9. 密度峰值聚类算法(DPC)

    密度峰值聚类算法(DPC) 凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 1. 简介 基于密度峰值的聚类算法全称为基于快速搜索和发现密度峰值的聚类算法(cl ...

随机推荐

  1. VS2010-MFC(对话框:一般属性页对话框的创建及显示)

    转自:http://www.jizhuomi.com/software/169.html 属性页对话框包括向导对话框和一般属性页对话框两类,上一节演示了如何创建并显示向导对话框,本节将继续介绍一般属性 ...

  2. Linux后台运行java的jar包后台运行java -jar 命令

    为什么java -jar 的命令终端的窗口关闭就停止运行了??tomcat中war的就不会? 关闭终端的窗口相当于ctrl+c的命令,关闭了窗口就相当于停止了java -jar这个进程,即ctrl+c ...

  3. 使用 /proc 文件系统

    /proc 文件系统是一个特殊的软件创建的文件系统, 内核用来输出消息到外界. /proc 下 的每个文件都绑到一个内核函数上, 当文件被读的时候即时产生文件内容. 我们已经见到 一些这样的文件起作用 ...

  4. JS规则 较量较量(比较操作符) 两个操作数通过比较操作符进行比较,得到值为真(true)和假(false)。【>; <; >=; <=; !=;==】

    较量较量(比较操作符) 我们先来做道数学题,数学考试成绩中,小明考了90分,小红考了95分,问谁考的分数高? 答: 因为"95 > 90",所以小红考试成绩高. 其中大于号& ...

  5. C++: Basic knowledge Part 1

    1.在 C++ 程序中调用被 C 编译器编译后的函数,为什么要加 extern “C”? 首先,extern 是 C/C++ 语言中表明函数和全局变量作用范围的关键字,该关键字告诉编译器,其声明的函数 ...

  6. Android开发 多媒体提取器MediaExtractor详解_入门篇

    前言 MediaExtractor字面意思是多媒体提取器,它在Android的音视频开发里主要负责提取视频或者音频中的信息和数据流(例如将视频文件,剥离出音频与视频).本章博客将讲解一些入门简单的东西 ...

  7. 下面分享一下RHEL/CentOS7 安装图形化桌面详细图解

    Linux是一个多任务的多用户的操作系统,好多linux爱好者在安装完linux后经常遇到一个问题——没有图形化桌面(http://www.xcmnyy.com)今天小编在安装RHEL7的时候,一步留 ...

  8. Apache Flink 进阶入门(二):Time 深度解析

    前言 Flink 的 API 大体上可以划分为三个层次:处于最底层的 ProcessFunction.中间一层的 DataStream API 和最上层的 SQL/Table API,这三层中的每一层 ...

  9. TF坐标变换

    一.什么是TF  二.TF使用方法 三.TF包内的指令工具 四.相关API 1.广播变换发布坐标之间的坐标关系   #include <ros/ros.h> #include <tf ...

  10. 19-10-29-Night-X

    布谷. 欢迎大家来不耻下问. 这里是正解不会,暴力写跪,乱搞鸡肋的某虻 . 好想放假啊!!!! 话说猫厂现在产量低迷…… ZJ一下: T1,三维偏序,只码了$\Theta(N^2)$暴力 T2,暴力愉 ...