数据挖掘算法之聚类分析（二）canopy算法

canopy是聚类算法的一种实现

它是一种快速，简单，但是不太准确的聚类算法

canopy通过两个人为确定的阈值t1，t2来对数据进行计算，可以达到将一堆混乱的数据分类成有一定规则的n个数据堆

由于canopy算法本身的目的只是将混乱的数据划分成大概的几个类别，所以它是不太准确的

但是通过canopy计算出来的n个类别可以用在kmeans算法中的k值的确定（因为人为无法准确的确定k值到底要多少才合适，而有kmeans算法本身随机产生的话结果可能不是很精确。有关kmeans算法的解释请看点击打开链接）

canopy算法流程如下：

（1）确定两个阈值t1，t2（确保t1一定大于t2）

（2）从数据集合中随机选出一个数据，计算这个数据到canopy的距离（如果当前没有canopy，则该点直接作为canopy）

（3）如果这个距离小于t1，则给这个数据标上弱标记，将t1加入这个canopy中（同时这个数据可以作为新的canopy来计算其他数据到这个点的距离）

（4）如果这个距离小于t2，则给这个数据标上强标记，并将其中数据集合中删除，此时认为这个数据点距离该canopy已经足够近了，不可能在形成新的canopy

（5）重复2-4的过程，直至数据集合中没有数据

这里的canopy指的是作为要划分数据的中心点，以这个canopy为中心，t2为半径，形成一个小圆。t1为半径，形成一个大圆。在小圆范围内的数据点被认为一定属于这个canopy，不能作为一个新的canopy来划分数据，而小圆范围外，大圆范围内的数据则又可以作为新的canopy来划分数据

划分完之后的数据类似下图

虚线的圈是t2，实线的圈是t1

可以看到canopy算法将可以将一堆杂乱的数据大致的划分为几块

所以canopy算法一般会和kmeans算法配合使用来到达使用者的目的

在使用canopy算法时，阈值t1，t2的确定是十分重要的

t1的值过大，会导致更多的数据会被重复迭代，形成过多的canopy；值过小则导致相反的效果

t2的值过大，会导致一个canopy中的数据太多，反之则过少

这样的情况都会导致运行的结果不准确

数据挖掘算法之聚类分析（二）canopy算法的更多相关文章

Canopy算法聚类
Canopy一般用在Kmeans之前的粗聚类.考虑到Kmeans在使用上必须要确定K的大小,而往往数据集预先不能确定K的值大小的,这样如果 K取的不合理会带来K均值的误差很大(也就是说K均值对噪声的抗 ...
计科1111-1114班第一次实验作业（NPC问题——回溯算法、聚类分析）
实验课安排地点: 科技楼423 时间: 计科3-4班---15周周一上午.周二下午计科1-2班---15周周一下午.周二晚上(晚上时间从18:30-21:10) 请各班学委在实验课前飞信通知大家 ...
(转载)微软数据挖掘算法：Microsoft Naive Bayes 算法（3）
介绍: Microsoft Naive Bayes 算法是一种基于贝叶斯定理的分类算法,可用于探索性和预测性建模. Naïve Bayes 名称中的 Naïve 一词派生自这样一个事实:该算法使用贝叶 ...
mahout中kmeans算法和Canopy算法实现原理
本文讲一下mahout中kmeans算法和Canopy算法实现原理. 一. Kmeans是一个很经典的聚类算法,我想大家都非常熟悉.虽然算法较为简单,在实际应用中却可以有不错的效果:其算法原理也决定了 ...
聚类分析K均值算法讲解
聚类分析及K均值算法讲解吴裕雄当今信息大爆炸时代,公司企业.教育科学.医疗卫生.社会民生等领域每天都在产生大量的结构多样的数据.产生数据的方式更是多种多样,如各类的:摄像头.传感器.报表.海量网络 ...
数据挖掘案例:基于 ReliefF和K-means算法的应用
数据挖掘案例:基于 ReliefF和K-means算法的应用数据挖掘方法的提出,让人们有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识.数据挖掘(DataMiriing),指的是从大型数据库 ...
(转载)微软数据挖掘算法：Microsoft 决策树分析算法（1）
微软数据挖掘算法:Microsoft 目录篇介绍: Microsoft 决策树算法是分类和回归算法,用于对离散和连续属性进行预测性建模. 对于离散属性,该算法根据数据集中输入列之间的关系进行预测. ...
第1次实验——NPC问题(回溯算法、聚类分析)
题目:八皇后问题,是一个古老而著名的问题,是回溯算法的典型案例.该问题是国际西洋棋棋手马克斯·贝瑟尔于1848年提出:在8X8格的国际象棋上摆放八个皇后,使其不能互相攻击,即随意两个皇后都不能处于同一 ...
js算法集合（二） javascript实现斐波那契数列（兔子数列）
js算法集合(二) 斐波那契数列 ★ 上一次我跟大家分享一下做水仙花数的算法的思路,并对其扩展到自幂数的算法,这次,我们来对斐波那契数列进行研究,来加深对循环的理解. Javascript实 ...

随机推荐

HDU2389（二分图匹配Hopcroft-Carp算法）
Rain on your Parade Time Limit: 6000/3000 MS (Java/Others) Memory Limit: 655350/165535 K (Java/Ot ...
【转】使用者角度看bionic pthread_mutex和linux futex实现
使用者角度看bionic pthread_mutex和linux futex实现本文所大篇幅引用的参考文章主要描述针对glibc和pthread实现:而本文的考察代码主要是android的bioni ...
CentOS RabbitMQ安装
1. 安装erlang,参考另外一篇文章: http://www.cnblogs.com/wanpengcoder/p/5287302.html 2. 安装libxslt和: yum install ...
twilio打电话和发短信
# -*- coding: utf-8 -*- # @Time : 2018/03/09 14:53 # @Author : cxa # @File : call.py # @Software: Py ...
[设计模式-行为型]状态模式(State)
一句话在一个类的对象中维护状态的类的对象概括
hdu5076
好题,首先观察可得w[i][j]选择只有可能两种,一种比阀值大,一种比阀值小比阀值大就一定选满足条件最大的w,比阀值小同样一定选满足条件最大的w 那么一个最小割模型就呼之欲出了,注意w可能是负数那么 ...
dokcer常用命令
文章来自于 CSDN docker常用命令详解 docker常用命令分类常用命令 docker run -d --name express-docker-demo --restart=always ...
Hibernate——5.2配置
Hibernate 5.2才刚刚出来不久,很多资料都并不可靠,终于完成了Hibernate的启动,的确和Hibernate4.x有些不同. 官方文档中的代码代码会报错如下: 目前在我所知的范围内有两 ...
最小生成树(Minimum Spanning Tree)——Prim算法与Kruskal算法+并查集
最小生成树——Minimum Spanning Tree,是图论中比较重要的模型,通常用于解决实际生活中的路径代价最小一类的问题.我们首先用通俗的语言解释它的定义: 对于有n个节点的有权无向连通图,寻 ...
hdu1823（二维线段树模板题）
hdu1823 题意单点更新,求二维区间最值. 分析二维线段树模板题. 二维线段树实际上就是树套树,即每个结点都要再建一颗线段树,维护对应的信息. 一般一维线段树是切割某一可变区间直到满足所要查询 ...

数据挖掘算法之聚类分析（二）canopy算法

数据挖掘算法之聚类分析（二）canopy算法的更多相关文章

随机推荐

热门专题