当我们在谈论kmeans(5)
本系列意在长期连载分享,内容上可能也会有所删改;
因此如果转载,请务必保留源地址,非常感谢!
博客园:http://www.cnblogs.com/data-miner/(暂时公式显示有问题)
其他:建设中…
当我们在谈论kmeans:总结
概述
通过前面阅读K-means相关论文,大致能梳理出K-means算法发展过程中的一些轨迹。由于本人所阅读的仅仅是一部分,因此还会有更多的方面,欢迎大家补充(补充时请给出具体例子)。
- K-means算法的提出
- 对K-means算法的性质进行分析的文章相继发出
- 对K-means算法思想进行扩展:
- 有作者提出“Maximum Entropy”算法,并表示K-means为其一种特殊形式
- 后又有作者提出“Mean Shift”算法,并表示“Maximum Entropy”也是其特殊形式
- 针对K-means缺陷,对K-means算法进行修改(一般仅适用于某场景):
- 提出online的K-means
- 提出针对非凸数据集的K-means
- 提出应用在FPGA中的K-means
- 提出自动对特征进行加权的K-means
- Intelligent K-means算法使用异常检测的思想聚类
- 对K-means算法进行优化:
- KD树加速的K-means
- 利用SVD分解加速K-means
- K-means++的初始化聚类中心算法
- 将K-means与新提出的思想融合:
- 结合Ensembling与K-means
K-means存在的问题
K-means由于简单有效被大量的用于数据预处理、数据分析等。在K-means被实际应用的过程中,大家也逐渐发现它本身存在很多的问题。如:
- 计算量大
- 聚类数量K需要提前设定,并影响聚类效果
- 聚类中心需要人为初始化,并影响聚类效果
- 异常点的存在,会影响聚类效果
- 只能收敛到局部最优
其中每个问题都有作者分析,并尝试提出解决办法:
- 计算量大
- KD树加速K-means
- 聚类数量K需要提前设定,并影响聚类效果
- 各种估计K的方法
- 聚类中心需要人为初始化,并影响聚类效果
- K-means++方法
- 其他初始化聚类中心方法
- 异常点的存在,会影响聚类效果
- 数据预处理
- 只能收敛到局部最优
- 未知
以下我们对其中两点(“类别数量估计”,“初始化聚类中心”)进行更多的介绍
类别数量估计
估计类别数量,现在还没有很通用的方法。以下介绍常见的估计类别数量的一些方式
数据的先验知识,或者数据进行简单分析能得到
基于变化的算法:即定义一个函数,认为在正确的K时会产生极值。
基于结构的算法:即比较类内距离、类间距离以确定K。
基于一致性矩阵的算法:即认为在正确的K时,不同聚类的结果会更加相似,以此确定K。
基于层次聚类:即基于合并或分裂的思想,在一定情况下停止获得K。
基于采样的算法:即对样本采样,分别做聚类;根据这些结果的相似性确定K。
初始化聚类中心
接下来介绍几个看到的初始化聚类中心的方法。需要强调的是,在任何场景下都合适的方法是不存在的。理想情况应该是针对数据的特点,挑选或设计出适合的方法。
- K-means++已经被证明是一种简单、好用的方法
- 先计算整体样本中心,然后根据样本点到中心的距离,由近至远均匀采样作为初试聚类中心
- 初步将数据分成K个区域,将每个区域中心作为初始聚类中心
- 计算出每个点的”密度“,认为”密度“较大的是聚类中心。先把”密度“最大的挑出作为第一个聚类中心,从剩下的点中找出密度最大,且离所有已有聚类中心大于一定距离的点作为下一个聚类中心,直到选择了K个
- 计算整体均值,作为第一个聚类中心。从剩下的点中顺序寻找,当遇到离所有已有聚类中心大于一定距离的点,则作为下一个聚类中心,直到选择了K个
其他聚类算法总结
ING。。。
当我们在谈论kmeans(5)的更多相关文章
- 当我们在谈论kmeans(1)
本稿为初稿,后续可能还会修改:如果转载,请务必保留源地址,非常感谢! 博客园:http://www.cnblogs.com/data-miner/ 简书:建设中... 知乎:建设中... 当我们在谈论 ...
- 当我们在谈论kmeans(2)
本稿为初稿,后续可能还会修改:如果转载,请务必保留源地址,非常感谢! 博客园:http://www.cnblogs.com/data-miner/ 其他:建设中- 当我们在谈论kmeans(2 ...
- 当我们在谈论kmeans(3)
本系列意在长期连载分享,内容上可能也会有所删改: 因此如果转载,请务必保留源地址,非常感谢! 博客园:http://www.cnblogs.com/data-miner/(暂时公式显示有问题) ...
- K-Means 聚类算法
K-Means 概念定义: K-Means 是一种基于距离的排他的聚类划分方法. 上面的 K-Means 描述中包含了几个概念: 聚类(Clustering):K-Means 是一种聚类分析(Clus ...
- 用scikit-learn学习K-Means聚类
在K-Means聚类算法原理中,我们对K-Means的原理做了总结,本文我们就来讨论用scikit-learn来学习K-Means聚类.重点讲述如何选择合适的k值. 1. K-Means类概述 在sc ...
- K-Means聚类算法原理
K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛.K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体 ...
- [Erlang 0117] 当我们谈论Erlang Maps时,我们谈论什么 Part 2
声明:本文讨论的Erlang Maps是基于17.0-rc2,时间2014-3-4.后续Maps可能会出现语法或函数API上的有所调整,特此说明. 前情提要: [Erlang 0116] 当我们谈论E ...
- [Erlang 0116] 当我们谈论Erlang Maps时,我们谈论什么 Part 1
Erlang 增加 Maps数据类型并不是很突然,因为这个提议已经进行了2~3年之久,只不过Joe Armstrong老爷子最近一篇文章Big changes to Erlang掀起不小了风 ...
- kmeans算法并行化的mpi程序
用c语言写了kmeans算法的串行程序,再用mpi来写并行版的,貌似参照着串行版来写并行版,效果不是很赏心悦目~ 并行化思路: 使用主从模式.由一个节点充当主节点负责数据的划分与分配,其他节点完成本地 ...
随机推荐
- 高速决心linux上oracle安装垃圾问题
问题:在linux安装oracle时间.因为oracle用户local LANG安装问题,原因安装oracle软件.该接口是非常多的安装位置是乱码. 解决方案:在oracle用户运行:export L ...
- hibernate实体类型映射文件
1.通过写hibernate映射文件.实体类型转换为数据库中的表 据实体类型而写的. 实体类型User.java package cn.wwh.www.hibernate.dd.property; i ...
- 让png在ie下正常显示 用到了jquery插件DD_belatedPNG 但是在ie6中这句话 前面添加有效 后面移除无效 IE6 jq removeClass无效
jQuery(this).addClass("background").siblings().removeClass("background") 导致IE6移除 ...
- Libgdx Box2D现实---这缓释微丸(两:Box2D介绍)
Box2D官方网站 : http://box2d.org/ Box2D v2.1.0用户手冊翻译 : http://blog.csdn.net/complex_ok/article/catego ...
- 附加没有LDF的数据库文件
原文:附加没有LDF的数据库文件 如果你只下载了数据文件,没有LDF文件,那么附加的时候选择使用ATTACH_REBUILD_LOG. 命令类似: USE [master] GO CREATE DAT ...
- leetcode[96] Binary Tree Inorder Traversal
给定树根root.实现中序遍历,也就是左根右. 用递归的话,很简单,左边的返回值加上root的再加上右边的就行. 我自己写的有点挫: /** * Definition for binary tree ...
- Toast,AlertDialog的误解
在一般的软件开发中,子线程中是不能更改UI主线程中创建的UI控件的.之前的理解是Toast也不能在子线程中创建.事实上并不是这样子的. @Override protected void onCreat ...
- Julia语言:让高性能科学计算人人可用
Julia语言:让高性能科学计算人人可用要:一群科学家对现有计算工具感到不满:他们想要一套开源系统,有C的快速,Ruby的动态,Python的通用,R般在统计分析上得心应手,Perl的处理字符串处理, ...
- Plan : 破晓
题记 : 不要因为走的太远而忘记自己为什么而出发. 1. 白书(算法竞赛入门经典)看完(每一句话都要读懂) 2. 每次听完课把当天内容复习完(自习室10点以后复习) 3. 微机实验要提前预习(把实验报 ...
- JS逗号、冒号与括号
JavaScript面试时候的坑洼沟洄——逗号.冒号与括号 看完了javaScript数据类型和表达式与运算符相关知识后以为可以对JavaScript笔试题牛刀小试一把了,没想到有一次次的死在逗号 ...