ML: 聚类算法R包-模糊聚类

1965年美国加州大学柏克莱分校的扎德教授第一次提出了‘集合’的概念。经过十多年的发展，模糊集合理论渐渐被应用到各个实际应用方面。为克服非此即彼的分类缺点，出现了以模糊集合论为数学基础的聚类分析。用模糊数学的方法进行聚类分析，就是模糊聚类分析。FCM（Fuzzy C-Means）算法是一种以隶属度来确定每个数据点属于某个聚类程度的算法。该聚类算法是传统硬聚类算法的一种改进。

算法流程：

标准化数据矩阵；
建立模糊相似矩阵，初始化隶属矩阵；
算法开始迭代，直到目标函数收敛到极小值；
根据迭代结果，由最后的隶属矩阵确定数据所属的类，显示最后的聚类结果。

优点：相比起前面的”硬聚类“，FCM方法会计算每个样本对所有类的隶属度，这给了我们一个参考该样本分类结果可靠性的计算方法，若某样本对某类的隶属度在所有类的隶属度中具有绝对优势，则该样本分到这个类是一个十分保险的做法，反之若该样本在所有类的隶属度相对平均，则我们需要其他辅助手段来进行分类。

缺点：KNN的缺点基本它都有

模糊聚类

cluster::fanny
e1071::cmeans

cluster::fanny

需要R安装包

install.packages("cluster")

示例代码：

library(cluster)

iris2 <- iris[-5]

fannyz=fanny(iris2,3,metric="SqEuclidean")
summary(fannyz)

分类分布:

> fannyz$clustering

  [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 3 2 3 3 3 3 3 3 3 3 3 3 3 3

 [66] 3 3 3 3 3 3 3 3 3 3 3 3 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 2 3 2 2 2 2 3 2 2 2 2 2 2 3 2 2 2 2 2 3 2 3 2 3 2 2 3 3 2 2

[131] 2 2 2 3 2 2 2 2 3 2 2 2 3 2 2 2 3 2 2 3

样本隶属度

> fannyz$membership

              [,1]         [,2]         [,3]

  [1,] 0.996623586 0.0010720343 0.0023043797

  [2,] 0.975852543 0.0074979471 0.0166495094

  [3,] 0.979825922 0.0064145785 0.0137594999

  [4,] 0.967427446 0.0101075228 0.0224650314

  [5,] 0.994470355 0.0017679352 0.0037617094

  [6,] 0.934574112 0.0206196544 0.0448062334

  [7,] 0.979491667 0.0065045178 0.0140038150

  [8,] 0.999547263 0.0001412048 0.0003115325

  [9,] 0.930379787 0.0219024180 0.0477177955

.......

图示显示：clusplot(fannyz)

结果显示

> table(iris$Species,fannyz$clustering)

              1  2  3

  setosa     50  0  0

  versicolor  0  3 47

  virginica   0 37 13

e1071::cmeans

安装包代码：

install.packages("e1071")

示例代码：

> library("e1071")

> x <- iris[-5]

> result1<-cmeans(x,3,50)

> result1

Fuzzy c-means clustering with 3 clusters

Cluster centers:

  Sepal.Length Sepal.Width Petal.Length Petal.Width

1     5.888999    2.761093     4.364049   1.3973654

2     6.775092    3.052406     5.646882   2.0535855

3     5.003966    3.414086     1.482821   0.2535487

Memberships:

                  1            2           3

  [1,] 0.0023043721 0.0010720485 0.996623579

  [2,] 0.0166481906 0.0074975084 0.975854301

  [3,] 0.0137586391 0.0064142953 0.979827066

  .......

统计结果:

> table(iris$Species,result1$cluster)

              1  2  3

  setosa      0  0 50

  versicolor 47  3  0

  virginica  13 37  0

3d效果显示示例

#install.packages("scatterplot3d")

library(scatterplot3d)

scatterplot3d(result1$membership, color=result1$cluster, type="h",

                     angle=55, scale.y=0.7, pch=16, main="Pertinence")

参考资料：

ML: 聚类算法R包-模糊聚类的更多相关文章

ML: 聚类算法R包 - 模型聚类
模型聚类 mclust::Mclust RWeka::Cobweb mclust::Mclust EM算法也称为期望最大化算法,在是使用该算法聚类时,将数据集看作一个有隐形变量的概率模型,并实现模型最 ...
ML: 聚类算法R包-层次聚类
层次聚类 stats::hclust stats::dist R使用dist()函数来计算距离,Usage: dist(x, method = "euclidean", di ...
ML: 聚类算法R包-网格聚类
网格聚类算法 optpart::clique optpart::clique CLIQUE(Clustering In QUEst)是一种简单的基于网格的聚类方法,用于发现子空间中基于密度的簇.CLI ...
ML: 聚类算法R包 - 密度聚类
密度聚类 fpc::dbscan fpc::dbscan DBSCAN核心思想:如果一个点,在距它Eps的范围内有不少于MinPts个点,则该点就是核心点.核心和它Eps范围内的邻居形成一个簇.在一个 ...
ML: 聚类算法R包-对比
测试验证环境数据: 7w+ 条,数据结构如下图: > head(car.train) DV DC RV RC SOC HV LV HT LT Type TypeName 1 379 85.09 ...
ML: 聚类算法R包-K中心点聚类
K-medodis与K-means比较相似,但是K-medoids和K-means是有区别的,不一样的地方在于中心点的选取,在K-means中,我们将中心点取为当前cluster中所有数据点的平均值, ...
聚类算法之k-均值聚类
k-均值聚类算法优点:容易实现缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢适用数据类型:数值型数据其工作流程:首先,随机确定k个初始点作为质心,然后将数据集中的每个点分配到一个簇中,具 ...
ML: 聚类算法-K均值聚类
基于划分方法聚类算法R包: K-均值聚类(K-means) stats::kmeans().fpc::kmeansruns() K-中心点聚类(K-Medoids) ...
机器学习笔记----Fuzzy c-means(FCM)模糊聚类详解及matlab实现
前言:这几天一直都在研究模糊聚类.感觉网上的文档都没有一个详细而具体的讲解,正好今天有时间,就来聊一聊模糊聚类. 一:模糊数学我们大家都知道计算机其实只认识两个数字0,1.我们平时写程序其实也是这样 ...

随机推荐

CentOS 6.9 升级MySQL 5.6.36到5.7.18
CentOS 6.9 升级MySQL 5.6.36到5.7.18 MySQL 5.6.36 安装过程:http://www.cnblogs.com/imweihao/p/7156754.html 升级 ...
MySQL · 引擎特性 · InnoDB奔溃恢复
前言数据库系统与文件系统最大的区别在于数据库能保证操作的原子性,一个操作要么不做要么都做,即使在数据库宕机的情况下,也不会出现操作一半的情况,这个就需要数据库的日志和一套完善的奔溃恢复机制来保证.本 ...
linux文件系统及bash基础特性
linux文件系统一.根文件系统 linux被识别的第一个被称为根之间关联的文件系统叫做根文件系统(rootfs),其他分区要想被读到,需要挂载到根目录的某个挂载点(根的子目录)上.根文件系统至关重 ...
安装Scala-2.11.7——集群学习日记
前言在安装Spark之前,我们需要安装Scala语言的支持.在此我选择的是scala-2.11.7版本. scala-2.11.7下载为了方便,我现在我的SparkMaster主机上先安装,把目录 ...
React中的路由系统
React中的路由系统提起路由,首先想到的就是 ASPNET MVC 里面的路由系统--通过事先定义一组路由规则,程序运行时就能自动根据我们输入的URL来返回相对应的页面.前端中的路由与之类似,前端 ...
NOIP模拟:能源(二分答案)
题目描述小美为了拯救世界能源危机,她准备了 n 台蓄电池.一开始每台蓄电池有 ai 个单位的能量. 现在她想把 n 台蓄电池调整到能量相同.对于每台蓄电池可以给另一台蓄电池传递能量.但是会有能量损耗 ...
C# 创建、部署和调用WebService的简单示例
废话不多说,下面开始创建一个简单的webservice的例子.这里我用的是Visual Studio 2015开发工具. 首先创建一个空的Web应用程序. 然后鼠标右键点击项目,选择添加>新建 ...
mysql浅龟定
一,尽量不字啊数据库做运算 1,尽量不再数据库做运算, 2,将复杂运算移动到cpu 3,尽可能简单应用mysql 二,控制表数据量 1,纯 int不超过1000w 2,含char不超过500w 3,建 ...
maven引入已经拥有的jar包
<dependency> <groupId> ...
决策树(ID3 )原理及实现
1.决策树原理 1.1.定义分类决策树模型是一种描述对实例进行分类的树形结构.决策树由结点和有向边组成.结点有两种类型:内部节点和叶节点,内部节点表示一个特征或属性,叶节点表示一个类. 举一个通俗的 ...

ML: 聚类算法R包-模糊聚类

ML: 聚类算法R包-模糊聚类的更多相关文章

随机推荐

热门专题