一.相异度计算  在正式讨论聚类前,我们要先弄清楚一个问题:怎样定量计算两个可比較元素间的相异度.用通俗的话说.相异度就是两个东西区别有多大.比如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能我们直观感受到的. 可是,计算机没有这样的直观感受能力,我们必须对相异度在数学上进行定量定义.       设 ,当中X.Y是两个元素项,各自具有n个可度量特征属性,那么X和Y的相异度定义为:  ,当中R为实数域. 也就是说相异度是两个元素对实数域的一个映射.所映射的实数定量表示两个元素的相异度.…
1.聚类算法和分类算法的区别 a)分类 分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类. 举例: 假如你有一堆动物的头像图片样本,想把它们进行分类,分成:猫,狗,鱼等.当在有新的动物图片进来之后,能够自动的识别出属于哪一类,这就是分类,而猫,狗,鱼等就是标签 b)聚类 聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程.聚类是在没有划分类别的情况下,根据数据相似度进行样本分组的一种方…
本文介绍无监督学习算法,无监督学习是在样本的标签未知的情况下,根据样本的内在规律对样本进行分类,常见的无监督学习就是聚类算法. 在监督学习中我们常根据模型的误差来衡量模型的好坏,通过优化损失函数来改善模型.而在聚类算法中是怎么来度量模型的好坏呢?聚类算法模型的性能度量大致有两类: 1)将模型结果与某个参考模型(或者称为外部指标)进行对比,私认为这种方法用的比较少,因为需要人为的去设定外部参考模型. 2)另一种是直接使用模型的内部属性,比如样本之间的距离(闵可夫斯基距离)来作为评判指标,这类称为内…
聚类 和 k-means简单概括. 聚类是一种 无监督学习 问题,它的目标就是基于 相似度 将相似的子集聚合在一起. k-means算法是聚类分析中使用最广泛的算法之一.它把n个对象根据它们的属性分为k个聚类,以便使得所获得的聚类满足: 同一聚类中的对象相似度较高:而不同聚类中的对象相似度较小. k - means的算法原理: (文/qinm08(简书作者) 原文链接:http://www.jianshu.com/p/32e895a940a2) 使用K-Means算法进行聚类,过程非常直观:(a…
聚类介绍 本章包含 1 实战操作了解聚类 2.了解相似性概念 3 使用mahout执行一个简单的聚类实例 4.用于聚类的各种不同的距离測算方法 作为人类,我们倾向于与志同道合的人合作-"鸟的羽毛聚集在一起. 我们可以发现反复的模式通过联系在我们的记忆中的我们看到的.听到的.问道的.尝到的东 西. 比如,相比較盐 ,糖可以是我们很多其它地想起蜜.所以我们把糖和蜜的味道结合起来叫他们甜蜜. 甚至我们不知道甜蜜的味道,可是知道他跟世界上全部的含糖的东西是相似的.是同 一类的.我们还知道它与盐是不同类的…
ISODATA聚类算法的matlab程序 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 参考:Kmeans及ISODATA算法的matlab实现 算法简介:聚类算法:ISODATA算法 数据见:MATLAB实例:PCA降维中的iris数据集,保存为:iris.data,最后一列是类标签. demo_isodata.m clear clc data_load=dlmread('iris.data'); [~,dim]=size(data_load)…
mean shift聚类算法的MATLAB程序 凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 1. mean shift 简介 mean shift, 写的更符合国人的习惯,应该是mean of shift,也就是平均偏移量,或者偏移均值向量.在明确了含义之后,就可以开始如下的具体讲解了. <img src="https://pic1.zhimg.com/50/v2-b5f01fcdfc7b8503…
关注我们的公众号哦!获取更多精彩哦! 1.问题导入 假如有这样一种情况,在一天你想去某个城市旅游,这个城市里你想去的有70个地方,现在你只有每一个地方的地址,这个地址列表很长,有70个位置.事先肯定要做好攻略,你要把一些比较接近的地方放在一起组成一组,这样就可以安排交通工具抵达这些组的"某个地址",然后步行到每个组内的地址.那么,如何确定这些组,如何确定这些组的"某个地址"?答案就是聚类.而本文所提供的k-means聚类分析方法就可以用于解决这类问题. 2. k均值…
实战部分主要针对某一具体算法对其原理进行较为详细的介绍,然后进行简单地实现(可能对算法性能考虑欠缺),这一部分主要介绍一些常见的一些聚类算法. K-means聚类算法 0.聚类算法算法简介 聚类算法算是机器学习中最为常见的一类算法,在无监督学习中,可以说聚类算法有着举足轻重的地位. 提到无监督学习,不同于前面介绍的有监督学习,无监督学习的数据没有对应的数据标签,我们只能从输入X中去进行一些知识发现或者预处理. 过去在有监督学习中,我们(让机器)通过X去预测Y,而到了无监督学习中,我们(让机器)只…
Kmeans聚类算法 1 Kmeans聚类算法的基本原理 K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一.K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类.通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果. 假设要把样本集分为k个类别,算法描述如下: (1)适当选择k个类的初始中心,最初一般为随机选取: (2)在每次迭代中,对任意一个样本,分别求其到k个中心的欧式距离,将该样本归到距离最短的中心所在的类: (3)利用…