多元分析的主要思想之一就是降维,我们已经讲过了很多降维的方法,例如因子分析、主成分分析,多维尺度分析等,还有一种重要的降维方法,就是聚类分析。

聚类分析实质上就是按照距离远近将数据分成若干个类别,使得类别内的差异尽可能小,类别间的差异尽可能大,它也是一种描述统计方法,并没有涉及假设检验。

由于聚类是根据数据间的距离来进行分类的,因此如何定义距离就成为聚类分析首先要确定的内容,统计学中定义距离的方法有几十种,最常用的是欧氏距离。

聚类的方法体系主要有三种
1.非层次聚类
代表方法有K-均值聚类法,基本思路是首先定义一个初始分类,然后通过迭代把数据在不同的类别间移动,直到达到一定标准,该方法计算速度较快,因此也称为快速聚类法,通常需要在分析前就确定具体的类别个数。
2.层次聚类
层次聚类首先定义距离算法,然后按照该算法计算数据间的距离,按照距离远近进行聚类,该方程计算速度不如非层次聚类,树状图是层次聚类的重要输出和解释结果
3.智能聚类
是随着海量数据的产生而形成的聚类方法,主要面向海量数据、数据类型复杂的情况,以实现自动判断聚类数、计算速度快等要求,比较常见的是两步聚类法

下面我们分别来看这几类方法

1.K-均值聚类

我们来看一个例子,收集了一些客户电话使用情况的数据,共有6个变量,现在希望对客户进行细分,根据调研,认为可以被分为5个群体,现在对此进行聚类分析,数据如下

由于事先已决定分为几类,并且变量数据都为连续型数据,根据要求也是对客户也就是个案进行聚类,这些都符合K-均值聚类的要求,因此我们使用k-均值聚类进行处理
从变量的定义可以看出,6个变量都是描述通话时长的,因此单位一致,接下来进行描述性统计,进一步查看数据

分析—分类—K-均值聚类








2.层次聚类法

根据运算的方向,层次聚类法可以分为合并法和分解法,这两种方法原理完全相同,只是方向相反。

相比较K-均值聚类等非层次聚类,层次聚类法的优点很明显:既可以对个案聚类也可以对变量聚类,并且变量的数据类型也没有过多要求,对距离的测量方法也非常多样,即使运算速度较慢,但是借助于计算机,也可以弥补。

例:有7名不同国家的专业裁判和1名体育爱好者,对300次体操表演进行打分,现在想根据评分差异将其归类,数据如下

接下来对数据进行预分析,在此省略具体步骤

分析—分类—系统聚类

3.两步聚类法

两步聚类法属于近几年针对海量数据分析而发展出的智能聚类法,此类方法结合了传统聚类方法的优点,并且更加智能,降低了使用门槛。

两步聚类顾名思义就是将聚类过程分成两个步骤进行,第一步是预聚类,也就是初步归类,此时最大类别数可以自己定义,第二步是正式聚类,在第一步结果的基础上再进行聚类并最终确定聚类方案

例:现在有500个病人的资料,希望通过聚类的方法对病人进行归类

可以看到,数据的类型比较多样,在此我们使用两步聚类进行

分析—分类—两步聚类



SPSS数据分析—聚类分析的更多相关文章

  1. SPSS数据分析方法不知道如何选择

      一提到数学,高等数学,线性代数,概率论与数理统计,数值分析,空间解析几何这些数学课程,头疼呀.作为文科生,遇见这些课程时,通常都是各种寻求帮助,班上有位宅男数学很厉害,各种被女生‘围观’,这数学为 ...

  2. 快速掌握SPSS数据分析

      SPSS难吗?无非就是数据类型的区别后,就能理解应该用什么样的分析方法,对应着分析方法无非是找一些参考资料进行即可.甚至在线网页SPSS软件直接可以将数据分析结果指标人工智能地分析出来,这有多难呢 ...

  3. 小白学数据分析--聚类分析理论之K-means理论篇

    小白学数据分析--聚类分析理论之K-means理论篇 聚类分析是一类广泛被应用的分析方法,其算法众多,目前像SAS.Splus.SPSS.SPSS Modeler等分析工具均以支持聚类分析,但是如何使 ...

  4. SPSS数据分析—多维尺度分析

    在市场研究中,有一种分析是研究消费者态度或偏好,收集的数据是某些对象的评分数据,这些评分数据可以看做是对象间相似性或差异性的表现,也就是一种距离,距离近的差异性小,距离远的差异性大.而我们的分析目的也 ...

  5. 交完论文才发现spss数据分析做错了

    上周,终于把毕业论文交给导师了.然而,今天导师却邮件我,叫我到他办公室谈谈.具体是谈什么呢?我百思不得其解:对论文几次大修小修后,重复率已经低于学校的上限了,论文结构也很完整,我已经在做答辩的ppt了 ...

  6. SPSS数据分析—广义线性混合模型

    广义线性混合模型是目前线性模型范畴内最为完备的模型框架,它是广义线性模型的进一步延伸,进一步突破适用条件,因变量既 可以非正态,也可以非独立,由于其最为复杂,因此SPSS对其输出结果采用模型格式,而不 ...

  7. SPSS数据分析—广义线性模型

    我们前面介绍的一般线性模型.Logistic回归模型.对数线性模型.Poisson回归模型等,实际上均属于广义线性模型的范畴,广义 线性模型包含的范围非常广泛,原因在于其对于因变量.因变量的概率分布等 ...

  8. SPSS数据分析—对数线性模型

    我们之前讲Logistic回归模型的时候说过,分类数据在使用卡方检验的时候,当分类过多或者每个类别的水平数过多时,单元格会划分的非常细,有可能会导致大量单元格频数很小甚至为0,并且卡方检验虽然可以分析 ...

  9. SPSS数据分析—Probit回归模型

    Probit含义为概率单位,和Logistic回归一样,Probit回归也用于因变量为分类变量的情况,通常情况下,两种回归方法的结果非常接近,但是由于Probit回归的结果解释起来比较抽象不易理解,因 ...

随机推荐

  1. WAV文件头相关资料

    http://stackoverflow.com/questions/6284651/avaudiorecorder-doesnt-write-out-proper-wav-file-header h ...

  2. php时间戳之间相互转换

    第一种情况: 将时间戳转换成年月日格式 <?php echo date('Y-m-d H:i:s',$v['apply_time']);?> 第二种情况: 将年月日转换成时间戳 strto ...

  3. 老电脑如果从windows7升级到windows10不断重启进不了系统,还是想用windows10,怎么办?

    先说一下我的配置:08年的acer aspire 5520g,很老的电脑,除了内存加到4g,其他都不变.官方只支持到windows7,并且官方说明该型号不在官方支持windows10之列. 之前win ...

  4. jsp中button与submit的用法

    button:可以对返回的数据进行格式化,反应到页面上,可以用form表单序列化提交也可以不用form表单提交 <form id="addForm"> <inpu ...

  5. 新版macbook air OS X El Capitan 10.11安装WIN找不到驱动介质???

    这个问题已经解决 首先进入Boot Camp6 以后 顶上会有一个操作 -下载windowns 驱动程序 保存在优盘里面.然后再分区选择ISO(中间和你前面做的一样)电脑重启进入WIN安装 到你们出现 ...

  6. 【Normal Form】数据库表结构设计所遵从的范式

    参考的优秀文章 数据库(第一范式,第二范式,第三范式) 数据库设计是件严肃.关键的事儿,一毕业,加入一个大型的行业项目,那儿的前辈资深工程师,就给我灌输数据库如何关键.神圣.深不可测的观念,所以,我一 ...

  7. ubuntu安装py27 spyder

    sudo apt-get install python-qt4 python-sphinx sudo pip install spyder sudo pip install -U spyder 一般网 ...

  8. IBM X3850 Windows 无法安装到这个磁盘。选中的磁盘具有MBR分区表。在 EFI 系统上,Windows 只能安装到 GPT 磁盘

    以前安装的是window2003 32位, 改装为2012 64位的时候.出现 Windows 无法安装到这个磁盘.选中的磁盘具有MBR分区表.在 EFI 系统上,Windows 只能安装到 GPT ...

  9. .zip版初次安装mysql时遇到的my.ini、服务无法启动以及设置登录密码的问题

    下载mysql出现的问题 若下载的是.zip版,就是免安装的直接解压就可以的出现的问题 一.需要在E:\mysql\mysql-5.7.14-winx64目录下手动添加my.ini文件(.ini文件是 ...

  10. 2014鸟人Birdman中文字幕文件下载

    下载后,解压缩,会得到 Birdman.2014.1080p.WEB-DL.DD5.1.H264-RARBG.srt 文件,把这个文件放到视频文件(mkv文件)相同的文件夹里. 用暴风影音播放,如果没 ...