一、DBSCAN算法

1.介绍

DBSCAN是一种著名的密度聚类算法，它基于一组邻域参数$(\epsilon,MinPts)$来刻画样本分布的紧密程度。

2.密度直达/可达/相连

给定数据集$D=\{X_1,X_2,...,X_N\}$，定义：

$\epsilon$-邻域：$N_{\epsilon}\left({\mathbf{x}}_{i}\right)=\left\{{\mathbf{x}}_{j} \in \mathbb{D} | \operatorname{distance}\left({\mathbf{x}}_{i}, {\mathbf{x}}_{j}\right) \leq \epsilon\right\}$
核心对象core object：若$|N_{\epsilon}(X_i)| \ge MinPts$，则称$X_i$是一个核心对象。即：若$X_i$的$\epsilon$-邻域中至少包含$MinPts$个样本，则$X_i$是一个核心对象。
密度直达directly density-reachable：若$X_i$是一个核心对象，且$X_j \in N_{\epsilon} (X_i)$，则称$X_j$由$X_i$密度直达，记作$X_i \rightarrow X_j$
密度可达density-reachable：对于$X_i$和$X_j$，若存在样本序列$(P_0,P_1,...,P_m,P_{m+1})$，其中$P_0=X_i,P_{m+1}=X_j,P_s \in D$，如果$P_{s+1}$由$P_s$密度直达，则称$X_j$由$X_i$密度可达，记作$X_i \leadsto X_j$
密度相连density-connected：对于$X_i$和$X_j$，若存在$X_k$，使得$X_i$与$X_j$均由$X_k$密度可达，则称$X_i$与$X_j$密度相连，记作：$X_i \sim X_j$

3.簇

给定邻域参数$(\epsilon,MinPts)$，一个簇$C \subseteq D$是满足下列性质的非空样本子集：

连接性connectivity：若$X_i \in C,X_j \in C$，则$X_i \sim X_j$
最大性maximality：若$X_i \in C$，且$X_i \leadsto X_j$，则$X_j \in C$

即一个簇是由密度可达关系导出的最大的密度相连样本集合。

4.算法的思想

若$X$为核心对象，则$X$密度可达的所有样本组成的集合记作$\mathbb{X}=\left\{\overrightarrow{\mathrm{x}}^{\prime} \in \mathbb{D} | \overrightarrow{\mathrm{x}} \leadsto \overrightarrow{\mathrm{x}}^{\prime}\right\}$。可以证明：$\mathbb{X}$就是满足连接性与最大性的簇。

于是DBSCAN算法首先任选数据集中的一个核心对象作为种子seed，再由此出发确定相应的聚类簇。

5.DBSCAN算法

输入：数据集$D={X_1,X_2,...,X_N}$，邻域参数$(\epsilon,MinPts)$

输出：簇划分$C=\{C_1,C_2,...,C_K\}$

算法步骤：

初始化核心对象集合为空集：$\Omega=\phi$
寻找核心对象：
1. 遍历所有的样本点$X_i,i=1,2,...,N$，计算$N_{\epsilon}(X_i)$
2. 如果$|N_{\epsilon}(X_i)| \ge MinPts$，则$\Omega = \Omega \cup \{X_i\}$
迭代：以任一未访问过的核心对象为出发点，找出有其密度可达的样本生成的聚类簇，直到所有核心对象都被访问为止。

6.注意

若在核心对象$o_1$的寻找密度可达的样本的过程中，发现核心对象$o_2$是由$o_1$密度可达的，且$o_2$尚未被访问，则将$o_2$加入$o_1$所属的簇，并且标记$o_2$为已访问。

对于$D$中的样本点，它只可能属于某一个聚类簇，因此在核心对象$o_i$的寻找密度可达的样本的过程中，它只能在标记为未访问的样本中寻找（标记为已访问的样本已经属于某个聚类簇了）。

7.优点

簇的数量由算法自动确定，无需人工指定。
基于密度定义，能够对抗噪音。
可以处理任意形状和大小的簇。

8.缺点

若样本集的密度不均匀，聚类间距差相差很大时，聚类质量较差。因为此时参数$\epsilon$和$MinPts$的选择比较困难。
无法应用于密度不断变化的数据集中。

31(1).密度聚类---DBSCAN算法的更多相关文章

密度聚类 - DBSCAN算法
参考资料:python机器学习库sklearn——DBSCAN密度聚类, Python实现DBScan import numpy as np from sklearn.cluster impo ...
31(2).密度聚类---Mean-Shift算法
Mean-Shift 是基于核密度估计的爬山算法,可以用于聚类.图像分割.跟踪等领域.
聚类——密度聚类DBSCAN
Clustering 聚类密度聚类——DBSCAN 前面我们已经介绍了两种聚类算法:k-means和谱聚类.今天,我们来介绍一种基于密度的聚类算法——DBSCAN,它是最经典的密度聚类算法,是很多算 ...
吴裕雄 python 机器学习——密度聚类DBSCAN模型
import numpy as np import matplotlib.pyplot as plt from sklearn import cluster from sklearn.metrics ...
密度聚类 DBSCAN
刘建平:DBSCAN密度聚类算法 https://www.cnblogs.com/pinard/p/6208966.html API 的说明: https://www.jianshu.com/p/b0 ...
基于密度聚类的DBSCAN和kmeans算法比较
根据各行业特性,人们提出了多种聚类算法,简单分为:基于层次.划分.密度.图论.网格和模型的几大类. 其中,基于密度的聚类算法以DBSCAN最具有代表性. 场景一假设有如下图的一组数据, 生成数据 ...
机器学习（十）—聚类算法（KNN、Kmeans、密度聚类、层次聚类）
聚类算法任务:将数据集中的样本划分成若干个通常不相交的子集,对特征空间的一种划分. 性能度量:类内相似度高,类间相似度低.两大类:1.有参考标签,外部指标:2.无参照,内部指标. 距离计算:非负性, ...
机器学习（六）K-means聚类、密度聚类、层次聚类、谱聚类
本文主要简述聚类算法族.聚类算法与前面文章的算法不同,它们属于非监督学习. 1.K-means聚类记k个簇中心,为$\mu_{1}$,$\mu_{2}$,...,$\mu_{k}$,每个 ...
DBSCAN密度聚类算法
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-M ...

随机推荐

显示cifar图片
# coding:utf-8 import numpy as np import matplotlib.pyplot as plt import pickle FILE_PATH = r"D ...
浅谈C++虚函数机制
0.前言在后端面试中语言特性的掌握直接决定面试成败,C++语言一直在增加很多新特性来提高使用者的便利性,但是每种特性都有复杂的背后实现,充分理解实现原理和设计原因,才能更好地掌握这种新特性. 只要出 ...
html小工具——文章注释编辑器
在网上阅读文章时,读者时常会想针对某段文字写一些自己的感想,可惜大部分阅读网站并不提供这样的功能,读者往往只能将文本复制到本地或在线的编辑器中编辑注释,之后如果想在其他地方回顾这些注释也必须先本地安装 ...
SQL中Group By和having的用法
转自 ITGirl笑笑一.GROUP BY GROUP BY语句用来与聚合函数(aggregate functions such as COUNT, SUM, AVG, MIN, or MAX. ...
Vue ---- 项目与环境搭建初始项目结构 Vue生命周期
目录 1. vue环境搭建 2. Vue项目搭建 pycharm配置并启动vue项目 3 . 认识项目 1. vue项目目录结构 2. 配置文件:vue.config.js 3. main.js 4. ...
廉价OpenVZ的VPS如何在solusvm下保证永不死
行业里面有openvz架构的其实是一个不错的架构,资源的利用效率挺高的,当然也有一些限制,同时也带来一些缺点,其中最大的缺点莫过于超售了,卖1G的RAM可能连128都没有,这样的直接后果就是某些不良玩 ...
3、看源码MVC中的Controllr的Json方法
无论ViewResult还是JsonResult都继承ActionResult,ActionResult里只有一个方法ExecuteResult 1.Controllr的Json方法实际上是new ...
jTopo HTML5 Canvas 画图组件
jTopo是什么? jTopo(Javascript Topology library)是一款完全基于HTML5 Canvas的关系.拓扑图形化界面开发工具包. jTopo关注于数据的图形展示,它是面 ...
JSON2ABAPType：根据JSON数据结构生成ABAP类型定义
一图表明本文将要介绍的工具: JSON是常见的数据格式,经常用于接口开发.ABAP开发者通常使用/ui2/cl_json来把JSON数据转换为相应的ABAP类型. 在转换前,必须要定义相应的ABAP类 ...
Android 日期对话框 DatePickerDialog
private int year; private int monthOfYear; private int dayOfMonth; @Override protected void onCreate ...

31(1).密度聚类---DBSCAN算法