一简介

DBSCAN：Density-based spatial clustering of applications with noise

is a data clustering algorithm proposed by Martin Ester, Hans-Peter Kriegel, Jörg Sander and Xiaowei Xu in 1996.It is a density-based clustering algorithm: given a set of points in some space, it groups together points that are closely packed together (points with many nearby neighbors), marking as outliers points that lie alone in low-density regions (whose nearest neighbors are too far away). DBSCAN is one of the most common clustering algorithms and also most cited in scientific literature.

二原理

DBSCAN是一种基于密度的聚类算法，算法过程比较简单，即将相距较近的点（中心点和它的邻居点）聚成一个cluster，然后不断找邻居点的邻居点并加到这个cluster中，直到cluster无法再扩大，然后再处理其他未访问的点；

三算法伪代码

子方法伪代码

DBSCAN requires two parameters: ε (eps) and the minimum number of points required to form a dense region (minPts).

DBSCAN算法主要有两个参数，一个是距离Eps，一个是最小邻居的数量MinPts，即在中心点半径Eps之内的邻居点数量超过MinPts时，中心点和邻居点才可以组成一个cluster；

四应用代码实现

python

示例代码

def main_fun():

    loc_data = [(40.8379295833, -73.70228875), (40.750613794,-73.993434906), (40.6927066969, -73.8085984165), (40.7489736586, -73.9859616017), (40.8379525833, -73.70209875), (40.6997066969, -73.8085234165), (40.7484436586, -73.9857316017)]

    epsilon = 10

    db = DBSCAN(eps=epsilon, min_samples=1, algorithm='ball_tree', metric='haversine').fit(np.radians(loc_data))

    labels = db.labels_

    print(labels)

    print(db.core_sample_indices_)

    print(db.components_)

    n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)

    for i in range(0, n_clusters_):

        print(i)

        indexs = np.where(labels == i)

        for j in indexs:

            print(loc_data[j])

if __name__ == '__main__':

    main_fun()

主要结果说明

core_sample_indices_ : array, shape = [n_core_samples]: Indices of core samples.
components_ : array, shape = [n_core_samples, n_features]: Copy of each core sample found by training.
labels_ : array, shape = [n_samples]: Cluster labels for each point in the dataset given to fit(). Noisy samples are given the label -1.

详见官方文档：https://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html

scala

依赖

<dependency>
  <groupId>org.scalanlp</groupId>
  <artifactId>nak_2.11</artifactId>
  <version>1.3</version>
</dependency>

<dependency>
  <groupId>org.scalanlp</groupId>
  <artifactId>breeze_2.11</artifactId>
  <version>0.13</version>
</dependency>

示例代码

import breeze.linalg.DenseMatrix

import nak.cluster.{DBSCAN, GDBSCAN, Kmeans}

    val matrix = DenseMatrix(

      (40.8379295833, -73.70228875),

      (40.6927066969, -73.8085984165),

      (40.7489736586, -73.9859616017),

      (40.8379525833, -73.70209875),

      (40.6997066969, -73.8085234165),

      (40.7484436586, -73.9857316017),

      (40.750613794,-73.993434906))

    val gdbscan = new GDBSCAN(

      DBSCAN.getNeighbours(epsilon = 1000.0, distance = Kmeans.euclideanDistance),

      DBSCAN.isCorePoint(minPoints = 1)

    )

    val clusters = gdbscan cluster matrix

    clusters.foreach(cluster => {

        println(cluster.id + ", " + cluster.points.length)

        cluster.points.foreach(p => p.value.data.foreach(println))

      })

详见官方文档：https://github.com/scalanlp/nak

算法细节详见参考

参考：A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise

其他：

http://www.cs.fsu.edu/~ackerman/CIS5930/notes/DBSCAN.pdf

https://www.oreilly.com/ideas/clustering-geolocated-data-using-spark-and-dbscan

【原创】大叔算法分享（5）聚类算法DBSCAN的更多相关文章

机器学习算法总结(五)——聚类算法（K-means，密度聚类，层次聚类）
本文介绍无监督学习算法,无监督学习是在样本的标签未知的情况下,根据样本的内在规律对样本进行分类,常见的无监督学习就是聚类算法. 在监督学习中我们常根据模型的误差来衡量模型的好坏,通过优化损失函数来改善 ...
数据挖掘十大算法--K-均值聚类算法
一.相异度计算在正式讨论聚类前,我们要先弄清楚一个问题:怎样定量计算两个可比較元素间的相异度.用通俗的话说.相异度就是两个东西区别有多大.比如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能 ...
【算法】K-Means聚类算法（k-平均或k-均值）
1.聚类算法和分类算法的区别 a)分类分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类. 举例: 假如你有一堆 ...
关于k-means聚类算法的matlab实现
在数据挖掘中聚类和分类的原理被广泛的应用. 聚类即无监督的学习. 分类即有监督的学习. 通俗一点的讲就是:聚类之前是未知样本的分类.而是根据样本本身的相似性进行划分为相似的类簇.而分类是已知样本分类 ...
一步步教你轻松学K-means聚类算法
一步步教你轻松学K-means聚类算法(白宁超 2018年9月13日09:10:33) 导读:k-均值算法(英文:k-means clustering),属于比较常用的算法之一,文本首先介绍聚类的理 ...
python聚类算法实战详细笔记 (python3.6+(win10、Linux))
python聚类算法实战详细笔记 (python3.6+(win10.Linux)) 一.基本概念: 1.计算TF-DIF TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库 ...
模糊聚类算法（FCM）
伴随着模糊集理论的形成.发展和深化,RusPini率先提出模糊划分的概念.以此为起点和基础,模糊聚类理论和方法迅速蓬勃发展起来.针对不同的应用,人们提出了很多模糊聚类算法,比较典型的有基于相似性关系和 ...
ML.NET技术研究系列-2聚类算法KMeans
上一篇博文我们介绍了ML.NET 的入门: ML.NET技术研究系列1-入门篇本文我们继续,研究分享一下聚类算法k-means. 一.k-means算法简介 k-means算法是一种聚类算法,所谓聚 ...
SIGAI机器学习第二十四集聚类算法1
讲授聚类算法的基本概念,算法的分类,层次聚类,K均值算法,EM算法,DBSCAN算法,OPTICS算法,mean shift算法,谱聚类算法,实际应用. 大纲: 聚类问题简介聚类算法的分类层次聚类算法 ...
【Python机器学习实战】聚类算法（1）——K-Means聚类
实战部分主要针对某一具体算法对其原理进行较为详细的介绍,然后进行简单地实现(可能对算法性能考虑欠缺),这一部分主要介绍一些常见的一些聚类算法. K-means聚类算法 0.聚类算法算法简介聚类算法算 ...

随机推荐

Java里的不能与无用.
不能获取参数名 , 导致函数的参数名无用. 在MyBatis的方法里. 参数名是无法反射得到的. 导致必须使用注解,指定参数名. 这样的话. 参数名就没有了意义.
virtualbox 设置centos7 双网卡上网
上次用virtualbox安装centos6.6,这次装了一个centos7.0.用两个版本的配置还是大同小异的. 1.修改/etc/sysconfig/network-scripts/ifcfg-e ...
MyBatis 传List参数 nested exception is org.apache.ibatis.binding.BindingException: Parameter 'idList' not found.
在MyBatis传入List参数时,MyBatis报错:nested exception is org.apache.ibatis.binding.BindingException: Paramete ...
CRM专业术语
客户关系管理(管理学词汇CRM)_百度百科https://baike.baidu.com/item/%E5%AE%A2%E6%88%B7%E5%85%B3%E7%B3%BB%E7%AE%A1%E7%9 ...
【zabbix教程系列】一、初识zabbix
一.zabbix是什么? Zabbix是最终的企业级软件,专为实时监控从数以万计的服务器,虚拟机和网络设备收集的数百万个指标而设计. 二.zabbix能做什么? 监控任何事物,为任何类型的IT基础设备 ...
Linux(Ubuntu)使用日记(零)------使用Linux的理由
我为什么要使用Linux呢,也许在某些人看来或许是装B,但是我的原因有点复杂,简单做下总结(以事情的发展历程为顺序) 升级后开机慢关机慢,崩溃.最近刚刚升级了windows,自己原来的win10其实是 ...
Navicat for MySQL 安装和破解
1 下载 navicat_trial_11.1.20.0.1449226634.exe .PatchNavicat.exe 2 安装 navicat 3 打开 patchnavicat-选择安装文件 ...
python 条件分支与循环
一.if判断: 语法一: if 条件: # 条件成立时执行的子代码块代码1 代码2 代码3 示例: sex='female' age=18 is_beautiful=True if sex == ' ...
Tensorflow--矩阵切片与连接
博客转载自:https://blog.csdn.net/davincil/article/details/77893185 函数原型:slice(input_, begin, size, name=N ...
【BZOJ5507】[GXOI/GZOI2019]旧词（树链剖分，线段树）
[BZOJ5507][GXOI/GZOI2019]旧词(树链剖分,线段树) 题面 BZOJ 洛谷题解如果\(k=1\)就是链并裸题了... 其实\(k>1\)发现还是可以用类似链并的思想,这 ...

【原创】大叔算法分享（5）聚类算法DBSCAN

一 简介

二 原理

三 算法伪代码

四 应用代码实现