初探DBSCAN聚类算法

DBSCAN介绍

一种基于密度的聚类算法

他最大的优势是可以发现任意形状的聚类簇，而传统的聚类算法只能使用凸的样本聚集类

两个参数：

邻域半径R和最少点数目minpoints。

当邻域半径R内的点的个数大于最少点数目minpoints时，就是密集。

补充：根据经验计算半径R

根据得到的所有点的k-距离集合E，对集合E进行升序排序后得到k-距离集合E’，需要拟合一条排序后的E’集合中k-距离的变化曲线图，然后绘出曲线，通过观察，将急剧发生变化的位置所对应的k-距离的值，确定为半径Eps的值。

3种点的类别：核心点，边界点和噪声点。

邻域半径R内样本点的数量大于等于minpoints的点叫做核心点。不属于核心点但在某个核心点的邻域内的点叫做边界点。既不是核心点也不是边界点的是噪声点。

sklearn实例

官方文档 <---

生成样本点

import numpy as np

import pandas as pd

from sklearn import datasets

%matplotlib inline

X,_ = datasets.make_moons(500,noise = 0.1,random_state=1)

df = pd.DataFrame(X,columns = ['feature1','feature2'])

df.plot.scatter('feature1','feature2', s = 100,alpha = 0.6, title = 'dataset by make_moon')

调用dbscan接口完成聚类

from sklearn.cluster import dbscan

# eps为邻域半径，min_samples为最少点数目

core_samples,cluster_ids = dbscan(X, eps = 0.2, min_samples=20)

# cluster_ids中-1表示对应的点为噪声点

df = pd.DataFrame(np.c_[X,cluster_ids],columns = ['feature1','feature2','cluster_id'])

df['cluster_id'] = df['cluster_id'].astype('i2')

df.plot.scatter('feature1','feature2', s = 100,

    c = list(df['cluster_id']),cmap = 'rainbow',colorbar = False,

    alpha = 0.6,title = 'DBSCAN cluster result')

自己改的例子，比较好理解

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

from sklearn import datasets

%matplotlib inline

#生成数据

X=np.empty((100,2))

X[:,0]=np.random.uniform(0.,100.,size=100)

X[:,1]=0.75*X[:,0]+3+np.random.normal(0,10,size=100)

plt.scatter(X[:,0],X[:,1])

plt.show()

df=pd.DataFrame(X,columns=['feature1','feature2'])

df.plot.scatter('feature1','feature2')

print(df)

#调用DBSCAN接口完成聚类

from sklearn.cluster import dbscan

# eps为邻域半径，min_samples为最少点数目

core_samples,cluster_ids = dbscan(X, eps = 10, min_samples=3)

df = pd.DataFrame(np.c_[X,cluster_ids],columns = ['feature1','feature2','cluster_id'])

# df['cluster_id'] = df['cluster_id'].astype('i2')   #这个有啥用啊

df.plot.scatter('feature1','feature2', s = 100,

    c = list(df['cluster_id']),cmap = 'rainbow',colorbar = False,

    alpha = 0.6,title = 'DBSCAN cluster result')

初探DBSCAN聚类算法的更多相关文章

机器学习入门-DBSCAN聚类算法
DBSCAN 聚类算法又称为密度聚类,是一种不断发张下线而不断扩张的算法,主要的参数是半径r和k值 DBSCAN的几个概念: 核心对象:某个点的密度达到算法设定的阈值则其为核心点,核心点的意思就是一个 ...
5.机器学习——DBSCAN聚类算法
1.优缺点优点: (1)聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类: (2)与K-MEANS比较起来,不需要输入要划分的聚类个数: (3)聚类簇的形状没有偏倚: (4)可以在需要时输入过 ...
5.无监督学习-DBSCAN聚类算法及应用
DBSCAN方法及应用 1.DBSCAN密度聚类简介 DBSCAN 算法是一种基于密度的聚类算法: 1.聚类的时候不需要预先指定簇的个数 2.最终的簇的个数不确定DBSCAN算法将数据点分为三类: 1 ...
机器学习之DBSCAN聚类算法
可以看该博客:https://www.cnblogs.com/aijianiula/p/4339960.html 1.知识点 """ 基本概念: 1.核心对象:某个点的密 ...
Python实现DBSCAN聚类算法（简单样例测试）
发现高密度的核心样品并从中膨胀团簇. Python代码如下: # -*- coding: utf-8 -*- """ Demo of DBSCAN clustering ...
DBSCAN密度聚类算法
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-M ...
【转】DBSCAN密度聚类算法
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-M ...
DBSCAN聚类︱scikit-learn中一种基于密度的聚类方式
一.DBSCAN聚类概述基于密度的方法的特点是不依赖于距离,而是依赖于密度,从而克服基于距离的算法只能发现"球形"聚簇的缺点. DBSCAN的核心思想是从某个核心点出发,不断向密 ...
用scikit-learn学习DBSCAN聚类
在DBSCAN密度聚类算法中,我们对DBSCAN聚类算法的原理做了总结,本文就对如何用scikit-learn来学习DBSCAN聚类做一个总结,重点讲述参数的意义和需要调参的参数. 1. scikit ...

随机推荐

$(( )) 与 $( ) 还有${ } 差在哪？-- Shell十三问<第八问>
$(( )) 与 $( ) 还有${ } 差在哪?-- Shell十三问<第八问> 我们上一章介绍了 ( ) 与 { } 的不同,这次让我们扩展一下,看看更多的变化:$( ) 与 \( ...
[树形DP]没有上司的晚会
没有上司的晚会没有上司的晚会没有上司的晚会题目描述 Ural大学有N个职员,编号为1~N.他们有从属关系,也就是说他们的关系就像一棵以校长为根的树,父结点就是子结点的直接上司.每个职 ...
tensorflow学习--数据加载
文章主要来自Tensorflow官方文档,同时加入了自己的理解以及部分代码数据读取 TensorFlow程序读取数据一共有3种方法: 供给数据(Feeding): 在TensorFlow程序运行的每 ...
对象存储服务MinIO安装部署分布式及Spring Boot项目实现文件上传下载
目录一.MinIO快速入门 1. MinIO简介 2. CentOS7更换成阿里云镜像 3. 安装 3.1 下载 3.2 运行测试 4. 配置脚本执行文件 4.1 创建配置执行文件 4.2 执行二 ...
自动化kolla-ansible部署ubuntu20.04+openstack-victoria之镜像制作centos7.8-15
自动化kolla-ansible部署ubuntu20.04+openstack-victoria之镜像制作centos7.8-15 欢迎加QQ群:1026880196 进行交流学习制作OpenS ...
Salesforce学习之路（九）Org的命名空间
1. 命名空间的适用场景每个组件都是命名空间的一部分,如果Org中设置了命名空间前缀,那么需使用该命名空间访问组件.否则,使用默认命名空间访问组件,系统默认的命名空间为"c". ...
《C++ primer》学习笔记整理
简介本笔记目前已包含<C++ Primer>中的绝大部分内容,但尚有部分小节有所缺漏,如 19.1.19.2 节的笔记尚未整理,会持续更新. 本项目中的学习笔记是在学完一章内容后,对其要 ...
【Redis破障之路】二：Redis安装和基本数据结构
1.安装Redis Redis6.0在2020年已经发布,所以我们安装Redis3.0. 1.1.在Linux上安装Redis 我们在CentOS上安装Redis.常见的的有三种安装方式: yum/a ...
记一次go中map并发引起的事故
错误使用map引发的血案前言场景复原原因参考错误使用map引发的血案前言最近业务中,同事使用map来接收返回的结果,使用waitGroup来并发的处理执行返回的结果,结果上线之后,直接崩 ...
Ancient Cipher UVA - 1339
Ancient Roman empire had a strong government system with various departments, including a secret s ...