SPSS分类分析:决策树

一、决策树(分析-分类-决策树)

“决策树”过程创建基于树的分类模型。它将个案分为若干组,或根据自变量(预测变量)的值预测因变量(目标变量)的值。此过程为探索性和证实性分类分析提供验证工具。

1、分段。确定可能成为特定组成员的人员。

2、层次。将个案指定为几个类别之一,如高风险组、中等风险组和低风险组。

3、预测。创建规则并使用它们预测将来的事件,如某人将拖欠贷款或者车辆或住宅潜在转售价值的可能性。

4、数据降维和变量筛选。从大的变量集中选择有用的预测变量子集,以用于构建正式的参数模型。

5、交互确定。确定仅与特定子组有关的关系,并在正式的参数模型中指定这些关系。

6、类别合并和连续变量离散化。以最小的损失信息对组预测类别和连续变量进行重新码。

7、示例。一家银行希望根据贷款申请人是否表现出合理的信用风险来对申请人进行分类。根据各种因素(包括过去客户的已知信用等级),您可以构建模型以预测客户将来是否可能拖欠贷款。

二、增长方法(分析-分类-决策树)

1、CHAID.卡方自动交互检测。在每一步,CHAID选择与因变量有最强交互作用的自变量(预测变量)。如果每个预测变量的类别与因变量并非显著不同,则合并这些类别。

2、穷举CHAID.CHAID的一种修改版本,其检查每个预测变量所有可能的拆分。

3、CRT.分类和回归树。CRT将数据拆分为若干尽可能与因变量同质的段。所有个案中因变量值都相同的终端节点是同质的“纯”节点。

4、QUEST.快速、无偏、有效的统计树。一种快速方法,它可避免其他方法对具有许多类别的预测变量的偏倚。只有在因变量是名义变量时才能指定QUEST。

三、验证(分析-分类-决策树-验证)

1、交叉验证:交叉验证将样本分割为许多子样本(或样本群)。然后,生成树模型,并依次排除每个子样本中的数据。第一个树基于第一个样本群的个案之外的所有个案,第二个树基于第二个样本群的个案之外的所有个案,依此类推。对于每个树,估计其误分类风险的方法是将树应用于生成它时所排除的子样本。

1.1、最多可以指定25个样本群。该值越大,每个树模型中排除的个案数就越小。

1.2、交叉验证生成单个最终树模型。最终树经过交叉验证的风险估计计算为所有树的风险的平均值。

2、分割样本验证:对于分割样本验证,模型是使用训练样本生成的,并在延续样本上进行测试。

2.1、您可以指定训练样本大小(表示为样本总大小的百分比),或将样本分割为训练样本和测试样本的变量。

2.2、如果使用变量定义训练样本和测试样本,则将变量值为1的个案指定给训练样本,并将所有其他个案指定给测试样本。该变量不能是因变量、权重变量、影响变量或强制的自变量。

2.3、您可以同时显示训练样本和测试样本的结果,或者仅显示测试样本的结果。

2.4、对于小的数据文件(个案数很少的数据文件),应该谨慎使用分割样本验证。训练样本很小可能会导致很差的模型,因为在某些类别中,可能没有足够的个案使树充分生长

SPSS分类分析:决策树的更多相关文章

  1. 数学建模:2.监督学习--分类分析- KNN最邻近分类算法

    1.分类分析 分类(Classification)指的是从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类的分析方法. 分类问题的应用场景:分 ...

  2. 用pytorch1.0搭建简单的神经网络:进行多分类分析

    用pytorch1.0搭建简单的神经网络:进行多分类分析 import torch import torch.nn.functional as F # 包含激励函数 import matplotlib ...

  3. Spark Mllib里如何对决策树二元分类和决策树多元分类的分类数目numClasses控制(图文详解)

    不多说,直接上干货! 决策树二元分类的分类数目numClasses控制 具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第13章 使用决策树二元分类算法来预测分类Stumble ...

  4. 用于分类的决策树(Decision Tree)-ID3 C4.5

    决策树(Decision Tree)是一种基本的分类与回归方法(ID3.C4.5和基于 Gini 的 CART 可用于分类,CART还可用于回归).决策树在分类过程中,表示的是基于特征对实例进行划分, ...

  5. python机器学习(四)分类算法-决策树

      一.决策树的原理 决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法 . 二.决策树的现实案例 相亲   相亲决策树 ...

  6. Hdu 4578 Transformation (线段树 分类分析)

    Transformation Time Limit: 15000/8000 MS (Java/Others)    Memory Limit: 65535/65536 K (Java/Others)T ...

  7. Spark中决策树源码分析

    1.Example 使用Spark MLlib中决策树分类器API,训练出一个决策树模型,使用Python开发. """ Decision Tree Classifica ...

  8. ML(4): 决策树分类

    决策树(Decision Tree)是用于分类和预测的主要技术,它着眼于从一组无规则的事例推理出决策树表示形式的分类规则,采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,并根据不同属性判断 ...

  9. Spark2.0机器学习系列之6:GBDT(梯度提升决策树)、GBDT与随机森林差异、参数调试及Scikit代码分析

    概念梳理 GBDT的别称 GBDT(Gradient Boost Decision Tree),梯度提升决策树.     GBDT这个算法还有一些其他的名字,比如说MART(Multiple Addi ...

随机推荐

  1. fedora 28 missing PROG bison

    yum install bison Missing PROG dlltool Missing PROG flex Missing PROG mt

  2. 反编译字节码角度分析synchronized关键字的原理

    1.synchronized介绍 synchronized是java关键字.JVM规范中,synchronized关键字用于在线程并发执行时,保证同一时刻,只有一个线程可以执行某个代码块或方法:同时还 ...

  3. Mycat搭建负载均衡,读写分离的Mysql集群

    Mycat搭建负载均衡,读写分离的Mysql集群 准备环境 1.mysql-5.7.24-linux-glibc2.12-x86_64.tar.gz 2.Mycat-server-1.6.7.4-te ...

  4. centos WPS 字体安装

    首先下载字体,解压后将整个wps_symbol_fonts目录拷贝到/usr/share/fonts目录下,然后赋予可读可执行权限. 权限设置操作如下: cd /usr/share/fonts/ ch ...

  5. js用正则判断身份证号码

    在用户注册或修改信息时会用到正则表达式判断身份证号,直接调用该函数即可 //判断身份证号码 function idCardFn(idCard){ }(||)?\d{}([-]|[])([-]|[]\d ...

  6. SSM基本配置

    1. 首先从web.xml配置入手 A: <!-- spring的监听器 --> <listener> <listener-class>org.springfram ...

  7. Python自学:第四章 复制列表(1)

    # -*- coding: GBK -*- my_foods = ['pizza', 'falafel', 'carrot cake'] friend_foods = my_foods[:] prin ...

  8. curl 命令帮助及使用

    目录 一.简介 二.curl 帮助文档 三.curl 的使用 前言 刚接触 curl 就发现它的非常强大.奈何帮助文档全是英文,看起来贼费劲.无奈只能硬着头皮用自己蹩脚的英语和翻译软件硬生生的翻译了一 ...

  9. php上传(三)

    关于一些上传插件的运用 JQuery上传插件Uploadify使用详解 http://www.cnblogs.com/oec2003/archive/2010/01/06/1640027.html

  10. Java高新技术第二篇:反射技术

    今天我们来看一下Java中的反射技术: 首先来了解一下Java中的反射的一些概念: Java中的反射是1.2引入的 反射的基石:class类 Class类的各个实例对象分别对应各个类在内存中的字节码, ...