R与数据分析旧笔记（十六）基于密度的方法：DBSCAN

基于密度的方法：DBSCAN

DBSCAN=Density-Based Spatial Clustering of Applications with Noise
本算法将有足够高密度的区域划分为簇，并可以发现任何形状的聚类

若干概念

r-邻域：给定点半径r内的区域

核心点：如果一个点的r-邻域至少包含最少数目M个点，则称该点为核心点

直接密度可达：如果点p在核心点q的r-邻域内，则称p是从q出发可以直接密度可达

如果存在点链是从关于r和M直接密度可达，则称点p是从q关于r和M密度可达的

如果样本集D中存在点o，使得点p、q是从 o关于r和M密度可达的，那么点p、q是关于r和M密度相连的

DBSCAN基本思想

指定合适的r和M
计算所有的样本点，如果点p的r邻域里有超过M个点，则创建一个以p为核心点的新簇
反复寻找这些核心点，直接密度可达（之后可能是密度可达）的点，将其加入到相应的簇，对于核心点发生”密度相连“状况的簇，给予合并
当没有新的点可以被添加到任何簇时，算法结束

DBSCAN算法描述

输入：包含n个对象的数据库，半径e，最少数目MinPts

输出：所有生成的簇，达到密度要求

(1) Repeat

(2) 从数据库中抽出一个未处理的点

(3) IF抽出的点是核心点THEN找出所有从该点密度可达的对象，形成一个簇

(4) ELSE抽出的点是边缘点（非核心对象），跳出本次循环，寻找下一个点

(5) UNTIL所有的点都被处理

DBSCAN对用户定义的参数很敏感，细微的不同都可能导致差别很大的结果，而参数的选择无规律可循，只能靠经验确定

R与数据分析旧笔记（十六）基于密度的方法：DBSCAN的更多相关文章

R与数据分析旧笔记（六）多元线性分析下
逐步回归向前引入法:从一元回归开始,逐步加快变量,使指标值达到最优为止向后剔除法:从全变量回归方程开始,逐步删去某个变量,使指标值达到最优为止逐步筛选法:综合上述两种方法多元线性回归的核心问题 ...
R与数据分析旧笔记（六）多元线性分析上
> x=iris[which(iris$Species=="setosa"),1:4] > plot(x) 首先是简单的肉眼观察数据之间相关性多元回归相较于一元回归的 ...
R与数据分析旧笔记（十五）基于有代表性的点的技术：K中心聚类法
基于有代表性的点的技术:K中心聚类法基于有代表性的点的技术:K中心聚类法算法步骤随机选择k个点作为"中心点" 计算剩余的点到这个k中心点的距离,每个点被分配到最近的中心点组成 ...
R与数据分析旧笔记（十八完结）因子分析
因子分析因子分析降维的一种方法,是主成分分析的推广和发展是用于分析隐藏在表面现象背后的因子作用的统计模型.试图用最少的个数的不可测的公共因子的线性函数与特殊因子之和来描述原来观测的每一分量因子 ...
R与数据分析旧笔记（十四）动态聚类：K-means
动态聚类:K-means方法动态聚类:K-means方法算法选择K个点作为初始质心将每个点指派到最近的质心,形成K个簇(聚类) 重新计算每个簇的质心重复2-3直至质心不发生变化 kmeans ...
R与数据分析旧笔记（十二）分类（支持向量机）
支持向量机(SVM) 支持向量机(SVM) 问题的提出:最优分离平面(决策边界) 优化目标决策边界边缘距离最远数学模型问题转化为凸优化拉格朗日乘子法--未知数太多 KKT变换和对偶公式问题的 ...
R与数据分析旧笔记（十）非线性模型
非线性模型非线性模型例子:销售额x与流通费率y > x=c(1.5,2.8,4.5,7.5,10.5,13.5,15.1,16.5,19.5,22.5,24.5,26.5)> y=c( ...
R与数据分析旧笔记（⑦）回归诊断
回归诊断回归诊断 1.样本是否符合正态分布假设? 2.是否存在离群值导致模型发生较大误差? 3.线性模型是否合理? 4.误差是否满足独立性.等方差.正态分布等假设条件? 5.是否存在多重共线性正态 ...
R与数据分析旧笔记（八）多重共线性
多重共线性(线性代数叫线性相关) 多重共线性(线性代数叫线性相关) 1.什么是多重共线性 2.多重共线性对回归模型的影响 3.利用计算特征根发现多重共线性 4.Kappa()函数例题1 考虑一个有六 ...

随机推荐

css3 翻转和旋转的差别
我曾经一直以为旋转跟翻转一样,今日自己旋转了好久都发觉跟翻转差一点点,纠结了十几分钟才明确,仅仅能怪自己的立体感太差了. css3中的transform中有旋转,放缩,倾斜,平移的功能,分别相应的属性 ...
HBASE学习笔记--概述
定义: HBase是一个分布式的.面向列的开源数据库,HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理H ...
20151222--Ajax三级无刷新
<%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding= ...
Node.js（转） -- 临时来说还看不懂！
转自:http://blog.jobbole.com/53736/ 本文由伯乐在线 - Lellansin 翻译.未经许可,禁止转载!英文出处:toptal.欢迎加入翻译组. 介绍 JavaScri ...
如何用SQL操作数据------告别标题党
额,首先跟大家道一个歉,由于本人上次利用标题来骗访问,对各位大哥大姐,叔叔阿姨,弟弟妹妹,and舅子老表的时间及流量造成了严重的浪费,本人深表歉意(好吧,其实本人内心还是有那么一丢丢的自豪的,毕竟是一 ...
trie tree（字典树）
hihocoder题目(http://hihocoder.com/problemset):#1014 trie树 #include <iostream> using namespace s ...
谁能告诉我为什么sum_area输出总是0（多边形重心问题）
多边形重心问题时间限制:3000 ms | 内存限制:65535 KB 难度:5 描述在某个多边形上,取n个点,这n个点顺序给出,按照给出顺序将相邻的点用直线连接, (第一个和最后一个连接 ...
QF——OC中的SEL类型和Block
@selector(): 可以理解@selector()就是取类方法的编号,他的基本行为类似于C语言中的函数指针(指向函数的指针).它们通过传递方法的地址(或编号)来实现把方法当做参数的效果. 不过在 ...
hadoop 2.6.0 yarn total memory metrics 不正常
https://issues.apache.org/jira/browse/YARN-3432
Android Every day a new function:two
分享功能: 效果图: 代码(分享TEXT,视频或者图片设置type即可): @Override protected void onCreate(Bundle savedInstanceState) { ...

R与数据分析旧笔记（十六） 基于密度的方法：DBSCAN