本系列意在长期连载分享,内容上可能也会有所删改;

因此如果转载,请务必保留源地址,非常感谢!

博客园:http://www.cnblogs.com/data-miner/(暂时公式显示有问题)

其他:建设中…

当我们在谈论kmeans:总结

概述

  通过前面阅读K-means相关论文,大致能梳理出K-means算法发展过程中的一些轨迹。由于本人所阅读的仅仅是一部分,因此还会有更多的方面,欢迎大家补充(补充时请给出具体例子)。

  1. K-means算法的提出
  2. 对K-means算法的性质进行分析的文章相继发出
  3. 对K-means算法思想进行扩展:
    • 有作者提出“Maximum Entropy”算法,并表示K-means为其一种特殊形式
    • 后又有作者提出“Mean Shift”算法,并表示“Maximum Entropy”也是其特殊形式
  4. 针对K-means缺陷,对K-means算法进行修改(一般仅适用于某场景):
    • 提出online的K-means
    • 提出针对非凸数据集的K-means
    • 提出应用在FPGA中的K-means
    • 提出自动对特征进行加权的K-means
    • Intelligent K-means算法使用异常检测的思想聚类
  5. 对K-means算法进行优化:
    • KD树加速的K-means
    • 利用SVD分解加速K-means
    • K-means++的初始化聚类中心算法
  6. 将K-means与新提出的思想融合:
    • 结合Ensembling与K-means

K-means存在的问题

K-means由于简单有效被大量的用于数据预处理、数据分析等。在K-means被实际应用的过程中,大家也逐渐发现它本身存在很多的问题。如:

  1. 计算量大
  2. 聚类数量K需要提前设定,并影响聚类效果
  3. 聚类中心需要人为初始化,并影响聚类效果
  4. 异常点的存在,会影响聚类效果
  5. 只能收敛到局部最优

其中每个问题都有作者分析,并尝试提出解决办法:

  1. 计算量大

    • KD树加速K-means
  2. 聚类数量K需要提前设定,并影响聚类效果
    • 各种估计K的方法
  3. 聚类中心需要人为初始化,并影响聚类效果
    • K-means++方法
    • 其他初始化聚类中心方法
  4. 异常点的存在,会影响聚类效果
    • 数据预处理
  5. 只能收敛到局部最优
    • 未知

以下我们对其中两点(“类别数量估计”,“初始化聚类中心”)进行更多的介绍

类别数量估计

估计类别数量,现在还没有很通用的方法。以下介绍常见的估计类别数量的一些方式

  1. 数据的先验知识,或者数据进行简单分析能得到

  2. 基于变化的算法:即定义一个函数,认为在正确的K时会产生极值。

  3. 基于结构的算法:即比较类内距离、类间距离以确定K。

  4. 基于一致性矩阵的算法:即认为在正确的K时,不同聚类的结果会更加相似,以此确定K。

  5. 基于层次聚类:即基于合并或分裂的思想,在一定情况下停止获得K。

  6. 基于采样的算法:即对样本采样,分别做聚类;根据这些结果的相似性确定K。

初始化聚类中心

接下来介绍几个看到的初始化聚类中心的方法。需要强调的是,在任何场景下都合适的方法是不存在的。理想情况应该是针对数据的特点,挑选或设计出适合的方法。

  1. K-means++已经被证明是一种简单、好用的方法
  2. 先计算整体样本中心,然后根据样本点到中心的距离,由近至远均匀采样作为初试聚类中心
  3. 初步将数据分成K个区域,将每个区域中心作为初始聚类中心
  4. 计算出每个点的”密度“,认为”密度“较大的是聚类中心。先把”密度“最大的挑出作为第一个聚类中心,从剩下的点中找出密度最大,且离所有已有聚类中心大于一定距离的点作为下一个聚类中心,直到选择了K个
  5. 计算整体均值,作为第一个聚类中心。从剩下的点中顺序寻找,当遇到离所有已有聚类中心大于一定距离的点,则作为下一个聚类中心,直到选择了K个

其他聚类算法总结

ING。。。

当我们在谈论kmeans(5)的更多相关文章

  1. 当我们在谈论kmeans(1)

    本稿为初稿,后续可能还会修改:如果转载,请务必保留源地址,非常感谢! 博客园:http://www.cnblogs.com/data-miner/ 简书:建设中... 知乎:建设中... 当我们在谈论 ...

  2. 当我们在谈论kmeans(2)

        本稿为初稿,后续可能还会修改:如果转载,请务必保留源地址,非常感谢! 博客园:http://www.cnblogs.com/data-miner/ 其他:建设中- 当我们在谈论kmeans(2 ...

  3. 当我们在谈论kmeans(3)

        本系列意在长期连载分享,内容上可能也会有所删改: 因此如果转载,请务必保留源地址,非常感谢! 博客园:http://www.cnblogs.com/data-miner/(暂时公式显示有问题) ...

  4. K-Means 聚类算法

    K-Means 概念定义: K-Means 是一种基于距离的排他的聚类划分方法. 上面的 K-Means 描述中包含了几个概念: 聚类(Clustering):K-Means 是一种聚类分析(Clus ...

  5. 用scikit-learn学习K-Means聚类

    在K-Means聚类算法原理中,我们对K-Means的原理做了总结,本文我们就来讨论用scikit-learn来学习K-Means聚类.重点讲述如何选择合适的k值. 1. K-Means类概述 在sc ...

  6. K-Means聚类算法原理

    K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛.K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体 ...

  7. [Erlang 0117] 当我们谈论Erlang Maps时,我们谈论什么 Part 2

    声明:本文讨论的Erlang Maps是基于17.0-rc2,时间2014-3-4.后续Maps可能会出现语法或函数API上的有所调整,特此说明. 前情提要: [Erlang 0116] 当我们谈论E ...

  8. [Erlang 0116] 当我们谈论Erlang Maps时,我们谈论什么 Part 1

         Erlang 增加 Maps数据类型并不是很突然,因为这个提议已经进行了2~3年之久,只不过Joe Armstrong老爷子最近一篇文章Big changes to Erlang掀起不小了风 ...

  9. kmeans算法并行化的mpi程序

    用c语言写了kmeans算法的串行程序,再用mpi来写并行版的,貌似参照着串行版来写并行版,效果不是很赏心悦目~ 并行化思路: 使用主从模式.由一个节点充当主节点负责数据的划分与分配,其他节点完成本地 ...

随机推荐

  1. Kindle使用技巧

    Kindle使用技巧 使用kindle也有几年了,但是好多kindle的使用技巧还不知道,在网上看到了一些,整理了一下. 1. 格式转换 把PDF发送到Kindle的时候,邮件主题写convert,这 ...

  2. Scala Sublime text 3 Build 编译

    使用Sublime text 3编译Scala 在sublime工具栏中[tools]->[Build System]->[new Build System]添加如下文本 { " ...

  3. Mac OSX操作系统安装和配置Zend Server 6教程(1)

    作为web开发人员,应该熟悉掌握各种系统下安装和配置web服务器与站点的技术. 随着越来越多的开发人员选择Zend Server服务器,慧都推出了在Mac OSX系统安装和配置Zend Server ...

  4. 读书笔记—CLR via C#线程25-26章节

    前言 这本书这几年零零散散读过两三遍了,作为经典书籍,应该重复读反复读,既然我现在开始写博了,我也准备把以前觉得经典的好书重读细读一遍,并且将笔记整理到博客中,好记性不如烂笔头,同时也在写的过程中也可 ...

  5. mysql查询字段值为数字

    原文:mysql查询字段值为数字 我想查询字段值为数字的sql如下:select * from tj_item_result where tj_value REGEXP '^[0-9]'

  6. 编解码器的学习笔记(十):Ogg系列

    Ogg是一个自由和开放的标准容器格式,由Xiph.Org 维修基金. Ogg格式不受软件专利的限制,它的目的是有效地处理高品质的流媒体和数字媒体. Ogg意指一种文件格式,能够纳入各式各样自由和开放源 ...

  7. MVC 插件式开发

    MVC 插件式开发 在开发一个OA系统是,我们可能遇到 A模块. B模块 .C模块,这也模块组成一个完整的系统,买给客服.现在又有一个客服要我们做一个OA系统,唉我们发现,跟上一个OA系统差不多,但没 ...

  8. ASP.NET MVC Model绑定

    ASP.NET MVC Model绑定(一) 前言 ModelMetadata系列的结束了,从本篇开始就进入Model绑定部分了,这个系列阅读过后你会对Model绑定有个比较清楚的了解, 本篇对于Mo ...

  9. 支付宝集成时的InvalidKeySpecException

    近来在集成第三方支付---支付宝,在集成的过程中严格按照支付宝开发者平台所发布的说明文档和Demo,在我的测试机上可以完美的运行,但是在别人的手机无论怎么就是调用不起来,总是弹出"remot ...

  10. 动画操作 (Applying Animations) ngAnimate12

    动画操作 (Applying Animations) ngAnimate step 12 1.切换目录 git checkout step-12 npm start 2.效果图 这里在点击右边的缩略图 ...