Python实现DBScan

运行环境

Pyhton3
numpy(科学计算包)
matplotlib(画图所需，不画图可不必)

计算过程

st=>start: 开始

e=>end: 结束

op1=>operation: 读入数据

cond=>condition: 是否还有未分类数据

op2=>operation: 找一未分类点扩散

op3=>operation: 输出结果

st->op1->op2->cond

cond(yes)->op2

cond(no)->op3->e

输入样例

/* 788points.txt */

15.55,28.65

14.9,27.55

14.45,28.35

14.15,28.8

13.75,28.05

13.35,28.45

13,29.15

13.45,27.5

13.6,26.5

12.8,27.35

12.4,27.85

12.3,28.4

12.2,28.65

13.4,25.1

12.95,25.95

788points.txt完整文件：下载

代码实现

# -*- coding: utf-8 -*-

__author__ = 'Wsine'

import numpy as np

import matplotlib.pyplot as plt

import math

import time

UNCLASSIFIED = False

NOISE = 0

def loadDataSet(fileName, splitChar='\t'):

	"""

	输入：文件名

	输出：数据集

	描述：从文件读入数据集

	"""

	dataSet = []

	with open(fileName) as fr:

		for line in fr.readlines():

			curline = line.strip().split(splitChar)

			fltline = list(map(float, curline))

			dataSet.append(fltline)

	return dataSet

def dist(a, b):

	"""

	输入：向量A, 向量B

	输出：两个向量的欧式距离

	"""

	return math.sqrt(np.power(a - b, 2).sum())

def eps_neighbor(a, b, eps):

	"""

	输入：向量A, 向量B

	输出：是否在eps范围内

	"""

	return dist(a, b) < eps

def region_query(data, pointId, eps):

	"""

	输入：数据集, 查询点id, 半径大小

	输出：在eps范围内的点的id

	"""

	nPoints = data.shape[1]

	seeds = []

	for i in range(nPoints):

		if eps_neighbor(data[:, pointId], data[:, i], eps):

			seeds.append(i)

	return seeds

def expand_cluster(data, clusterResult, pointId, clusterId, eps, minPts):

	"""

	输入：数据集, 分类结果, 待分类点id, 簇id, 半径大小, 最小点个数

	输出：能否成功分类

	"""

	seeds = region_query(data, pointId, eps)

	if len(seeds) < minPts: # 不满足minPts条件的为噪声点

		clusterResult[pointId] = NOISE

		return False

	else:

		clusterResult[pointId] = clusterId # 划分到该簇

		for seedId in seeds:

			clusterResult[seedId] = clusterId

		while len(seeds) > 0: # 持续扩张

			currentPoint = seeds[0]

			queryResults = region_query(data, currentPoint, eps)

			if len(queryResults) >= minPts:

				for i in range(len(queryResults)):

					resultPoint = queryResults[i]

					if clusterResult[resultPoint] == UNCLASSIFIED:

						seeds.append(resultPoint)

						clusterResult[resultPoint] = clusterId

					elif clusterResult[resultPoint] == NOISE:

						clusterResult[resultPoint] = clusterId

			seeds = seeds[1:]

		return True

def dbscan(data, eps, minPts):

	"""

	输入：数据集, 半径大小, 最小点个数

	输出：分类簇id

	"""

	clusterId = 1

	nPoints = data.shape[1]

	clusterResult = [UNCLASSIFIED] * nPoints

	for pointId in range(nPoints):

		point = data[:, pointId]

		if clusterResult[pointId] == UNCLASSIFIED:

			if expand_cluster(data, clusterResult, pointId, clusterId, eps, minPts):

				clusterId = clusterId + 1

	return clusterResult, clusterId - 1

def plotFeature(data, clusters, clusterNum):

	nPoints = data.shape[1]

	matClusters = np.mat(clusters).transpose()

	fig = plt.figure()

	scatterColors = ['black', 'blue', 'green', 'yellow', 'red', 'purple', 'orange', 'brown']

	ax = fig.add_subplot(111)

	for i in range(clusterNum + 1):

		colorSytle = scatterColors[i % len(scatterColors)]

		subCluster = data[:, np.nonzero(matClusters[:, 0].A == i)]

		ax.scatter(subCluster[0, :].flatten().A[0], subCluster[1, :].flatten().A[0], c=colorSytle, s=50)

def main():

	dataSet = loadDataSet('788points.txt', splitChar=',')

	dataSet = np.mat(dataSet).transpose()

	# print(dataSet)

	clusters, clusterNum = dbscan(dataSet, 2, 15)

	print("cluster Numbers = ", clusterNum)

	# print(clusters)

	plotFeature(dataSet, clusters, clusterNum)

if __name__ == '__main__':

	start = time.clock()

	main()

	end = time.clock()

	print('finish all in %s' % str(end - start))

	plt.show()

输出样例

cluster Numbers =  7

finish all in 32.712135628590794

Python实现DBScan的更多相关文章

Python机器学习——DBSCAN聚类
密度聚类(Density-based Clustering)假设聚类结构能够通过样本分布的紧密程度来确定.DBSCAN是常用的密度聚类算法,它通过一组邻域参数(ϵϵ,MinPtsMinPts)来描述样 ...
Python实现DBSCAN聚类算法（简单样例测试）
发现高密度的核心样品并从中膨胀团簇. Python代码如下: # -*- coding: utf-8 -*- """ Demo of DBSCAN clustering ...
密度聚类 - DBSCAN算法
参考资料:python机器学习库sklearn——DBSCAN密度聚类, Python实现DBScan import numpy as np from sklearn.cluster impo ...
（数据科学学习手札15）DBSCAN密度聚类法原理简介&Python与R的实现
DBSCAN算法是一种很典型的密度聚类法,它与K-means等只能对凸样本集进行聚类的算法不同,它也可以处理非凸集. 关于DBSCAN算法的原理,笔者觉得下面这篇写的甚是清楚练达,推荐大家阅读: ht ...
Python机器学习笔记：K-Means算法，DBSCAN算法
K-Means算法 K-Means 算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛.K-Means 算法有大量的变体,本文就从最传统的K-Means算法学起,在其基础上学习 ...
DBSCAN——python实现
# -*- coding: utf-8 -*- from matplotlib.pyplot import * from collections import defaultdict import r ...
挑子学习笔记：DBSCAN算法的python实现
转载请标明出处:https://www.cnblogs.com/tiaozistudy/p/dbscan_algorithm.html DBSCAN(Density-Based Spatial Clu ...
[MCM] K-mean聚类与DBSCAN聚类 Python
import matplotlib.pyplot as plt X=[56.70466067,56.70466067,56.70466067,56.70466067,56.70466067,58.03 ...
吴裕雄 python 机器学习——密度聚类DBSCAN模型
import numpy as np import matplotlib.pyplot as plt from sklearn import cluster from sklearn.metrics ...

随机推荐

Windbg 进程与线程《第三篇》
Windbg既可以显示进程和线程列表,又可以显示指定进程或线程的详细信息.调试命令可以提供比taskmgr更详尽的进程资料,在调试过程中不可或缺. 一.进程命令进程命令包括这些内容:显示进程列表.进 ...
序列化和反序列化，异步调用web/wcf/函数
//xml序列化 public static string Seria(DataSet ds) { XmlSerializer serializer = new XmlSerializer(typeo ...
sublineText
https://github.com/thinkpixellab/flatland { "color_scheme": "Packages/Theme - Flatlan ...
jsp-status 404错误的解决方法汇总
接下来的解决方法实在一下情况下进行的: 1.tomcat配置是对的,能打开tomcat的主页(网址:http://localhost:8080/),如图, 但是在输入具体网址的时候,例如:http:/ ...
Html.ActionLink
一 Html.ActionLink("linkText","actionName") 该重载的第一个参数是该链接要显示的文字,第二个参数是对应的控制器的方法, ...
抢滩登陆游戏android源码
是3d游戏开发技术详解与技术案例书里的一个例子不多说上图{:soso_e113:} 源码下载地址:http://code.662p.com/view/2271.html <ignore_js_ ...
logcat保存当前应用程序的日志并上传服务器或指定邮箱
给大家分享一个项目中用到的日志统计并提交服务器的日志工具类.通过过得当前app的PID,采用命令行的方式实用logcat工具过滤日志.代码区: package org.and.util; import ...
The given path's format is not supported.
问题编程以来今本没有使用input[type=file]这个控件过,今天突然使用尽然报错了,在本地chrome,firefox等其他的浏览器都是好的,唯独ie报错了.在服务器的时候,尽然chrome ...
PL/SQL Developer基本用法
一.新建存储过程
Hbase Interface HConnection
HTablePool 在Hbase 0.94.0.95.0.97被废弃,在0.98中被清除( HTablePool 对比HConnection.getTable),hbase0.98 HTablePo ...

Python实现DBScan

Python实现DBScan

运行环境

计算过程

输入样例

代码实现

输出样例

Python实现DBScan的更多相关文章

随机推荐

热门专题