一、公式

卡方检验的基本公式，也就是χ2的计算公式，即观察值和理论值之间的偏差

卡方检验公式

其中：A 为观察值，E为理论值，k为观察值的个数，最后一个式子实际上就是具体计算的方法了 n 为总的频数，p为理论频率，那么n*p自然就是理论频数（理论值）

二、相关概念

卡方分布：可以看出当观察值和理论值十分接近的时候，也就是我们做的假设是正确的时候，χ2的值就越趋近于0，也就是说我们计算的偏差越小，那么假设值就越可能是对的，反之偏差值越大，假设值就越不准确。那么到底多大才算不准确，有没有个衡量的数值标准呢？答案是有：卡方分布。

卡方检验是以χ2分布为基础的一种常用假设检验方法。若k 个随机变量Z1、……、Zk 相互独立，且数学期望为0、方差为 1(即服从标准正态分布)，则随机变量X被称为服从自由度为 k 的卡方分布，记作

卡方分布

，卡方分布的公式为：

卡方分布

自由度：自由度指的是计算某一统计量时，取值不受限制的变量个数。通常df=n-k。其中n为样本数量，k为被限制的条件数或变量个数。自由度v=（行数-1）（列数-1）。

自由度与卡方分布的关系：

如图

自由度与卡方分布的关系图

图中的Freedom 这里有5条线，分别对应Freedom=1, 4, 10, 20 , 100 。这个Freedom 就是自由度，即个式子中独立变量的个数。 x 横坐标是卡方检验公式计算出来的偏差χ2，而 y 纵坐标表示假设的正确的概率。当自由度为1时，卡方分布式一个倾斜的曲线，当自由度逐渐增大是，卡方分布逐步变的平缓。在一定范围内，随着自由度越来越大，卡方分布会越来越接近正态分布。

三、利用卡方检验用来特征选择

特征选择（Feature Selection）：指的是在特征向量中选择出那些“优秀”的特征，组成新的、更“精简”的特征向量的过程。它在高维数据分析中十分常用，可以剔除掉“冗余”和“无关”的特征，提升学习器的性能。

特征选择方法和分类方法一样，也主要分为有监督（Supervised）和无监督（Unsupervised）两种，卡方选择则是统计学上常用的一种有监督特征选择方法，它通过对特征和真实标签之间进行卡方检验，来判断该特征和真实标签的关联程度，进而确定是否对其进行选择。

对于建立模型而言并非特征越多越好，因为建模的目标是使用尽量简单的模型去实现尽量好的效果。减少一些价值小贡献小的特征有利于在表现效果不变或降低度很小的前提下，新找到最简单的模型。

那么什么样的特征是价值小的呢？想想我们之所以用机器学习的模型去学习特征，是为了更好地预测被特征影响着的应变量（标签）。那么那些根本不会对应变量产生影响，或者影响很小的特征理应事先去掉。

那么怎么判断特征对应变量的影响程度的大小呢？我们可以使用卡方检验对特征与应变量进行独立性检验，如果独立性高，那么表示两者没太大关系，特征可以舍弃；如果独立性小，两者相关性高，则说明该特征会对应变量产生比较大的影响，应当选择。

卡方检验在实际应用到特征选择中的时候，不需要知道自由度，也不用知道卡方分布，只需要根据算出来的χ2 进行排序即可，值越大越好。挑选最大的一堆，就完成了利用卡方检验来进行特征提取。

四、代码实现

和ML库中的大多数学习方法一样，ML中的卡方选择也是以estimator+transformer的形式出现的，其主要由ChiSqSelector和ChiSqSelectorModel两个类来实现。

1、首先引入相关需要用的包

import java.util.Arrays;

import java.util.List;

import org.apache.spark.ml.feature.ChiSqSelector;

import org.apache.spark.ml.feature.ChiSqSelectorModel;

import org.apache.spark.ml.linalg.VectorUDT;

import org.apache.spark.ml.linalg.Vectors;

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.RowFactory;

import org.apache.spark.sql.SparkSession;

import org.apache.spark.sql.types.DataTypes;

import org.apache.spark.sql.types.Metadata;

import org.apache.spark.sql.types.StructField;

import org.apache.spark.sql.types.StructType;

2、接下来获取spark

SparkSession spark =  SparkSession.builder().appName("ChiSqSelectorTest").master("local").getOrCreate();

3、然后，我们构造一个数据集DataFrame：

List<Row> rawData = Arrays.asList(RowFactory.create(1, Vectors.dense(0.0, 0.0, 18.0, 1.0), 1),

                                  RowFactory.create(2, Vectors.dense(0.0, 1.0, 12.0, 0.0), 0),

                                  RowFactory.create(3, Vectors.dense(1.0, 0.0, 15.0, 0.1), 0));

StructType schema = new StructType(new StructField[] {

        new StructField("id",DataTypes.IntegerType,false,Metadata.empty()),

        new StructField("features",new VectorUDT(),false,Metadata.empty()),

        new StructField("label",DataTypes.IntegerType,false,Metadata.empty())

});

Dataset<Row> df = spark.createDataFrame(rawData,schema);

df.show(false);

打印结果：

+---+------------------+-----+

|id |features          |label|

+---+------------------+-----+

|1  |[0.0,0.0,18.0,1.0]|1    |

|2  |[0.0,1.0,12.0,0.0]|0    |

|3  |[1.0,0.0,15.0,0.1]|0    |

+---+------------------+-----+

4、接着我们开始用卡方选择进行特征选择器的训练

ChiSqSelector select = new ChiSqSelector().setNumTopFeatures(1)

                                          .setFeaturesCol("features")

                                          .setLabelCol("label")

                                          .setOutputCol("selected-feature");

ChiSqSelectorModel selectModel = select.fit(df);

Dataset<Row> result = selectModel.transform(df);

result.show(false);

numTopFeatures：用来设置固定的提取特征的数量，程序会根据卡方值的高低返回前n个卡方值最高的特征。（预测能力最强的前n个特征），默认选择前50个特征。这里，我们设置ChiSqSelector（卡方选择器）的numTopFeatures = 1，即在4个特征中选择处最好的1个特征。

打印结果：

+---+------------------+-----+----------------+

|id |features          |label|selected-feature|

+---+------------------+-----+----------------+

|1  |[0.0,0.0,18.0,1.0]|1    |[18.0]          |

|2  |[0.0,1.0,12.0,0.0]|0    |[12.0]          |

|3  |[1.0,0.0,15.0,0.1]|0    |[15.0]          |

+---+------------------+-----+----------------+

用训练出的模型对原数据集进行处理，可以看见，第三列特征被选出作为最有用的特征列。

spark机器学习从0到1特征选择-卡方选择器（十五）的更多相关文章

特征选择--->卡方选择器
特征选择(Feature Selection)指的是在特征向量中选择出那些“优秀”的特征,组成新的.更“精简”的特征向量的过程.它在高维数据分析中十分常用,可以剔除掉“冗余”和“无关”的特征,提升学习 ...
spark机器学习从0到1介绍入门之(一）
一.什么是机器学习机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行 ...
spark机器学习从0到1基本的统计工具之(三）
给定一个数据集,数据分析师一般会先观察一下数据集的基本情况,称之为汇总统计或者概要性统计.一般的概要性统计用于概括一系列观测值,包括位置或集中趋势(比如算术平均值.中位数.众数和四分位均值),展型 ...
spark机器学习从0到1特征提取 TF-IDF(十二）
一.概念 “词频-逆向文件频率”(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度. 词语由t表示,文档由d表示,语料库由D表示.词频TF ...
spark机器学习从0到1决策树(六）
一.概念决策树及其集合是分类和回归的机器学习任务的流行方法. 决策树被广泛使用,因为它们易于解释,处理分类特征,扩展到多类分类设置,不需要特征缩放,并且能够捕获非线性和特征交互. 诸如随机森林和 ...
spark机器学习从0到1特征变换-标签和索引的转化（十六）
一.原理在机器学习处理过程中,为了方便相关算法的实现,经常需要把标签数据(一般是字符串)转化成整数索引,或是在计算结束后将整数索引还原为相应的标签. Spark ML 包中提供了几个相关的转换器 ...
spark机器学习从0到1机器学习工作流 (十一）
一.概念一个典型的机器学习过程从数据收集开始,要经历多个步骤,才能得到需要的输出.这非常类似于流水线式工作,即通常会包含源数据ETL(抽取.转化.加载),数据预处理,指标提取,模型训练与交叉 ...
spark机器学习从0到1奇异值分解-SVD (七）
降维(Dimensionality Reduction) 是机器学习中的一种重要的特征处理手段,它可以减少计算过程中考虑到的随机变量(即特征)的个数,其被广泛应用于各种机器学习问题中,用于消除噪声 ...
spark机器学习从0到1基本数据类型之(二）
MLlib支持存储在单个机器上的局部向量和矩阵,以及由一个或多个RDD支持的分布式矩阵. 局部向量和局部矩阵是用作公共接口的简单数据模型. 底层线性代数操作由Breeze提供. 在监督学习中使 ...

随机推荐

MapReduce基本认识
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算. 主要由Split.Map.Partition.Sort.Combine(需要自己写).Merge.Reduce组成,一般来 ...
数据结构（C语言版）---排序
1.排序:重排表中元素. 2.根据数据元素是否完全在内存中,将排序算法分为内部排序和外部排序两类. 3.插入排序:将一个待排序记录按关键字大小插入到前面已排好的子序列中,直到全部记录插入完成. 1)直 ...
c++使用cin、cout与c中使用scanf、printf进行输入输出的效率问题
在c++中,我们使用cin和cout进行输入输出会比用scanf和printf更加简洁和方便,但是当程序有大量IO的时候,使用cin和cout进行输入输出会比用scanf和printf更加耗时, 在数 ...
2019-2020-1 20199329《Linux内核原理与分析》第四周作业
<Linux内核原理与分析>第四周作业一.上周问题总结: 虚拟机环境缺少部分库文件书本知识使用不够熟练二.本周学习内容: 1.实验楼环境使用gdb跟踪调试内核 1.1 在该环境下输入 ...
cocos2dx初体验
我们创建工程后总会自带一个HelloWorld类,短短的几行代码就出来了一个游戏的雏形,请问我们真的理解它了吗?如果我们能早一点弄明白这几行代码,我们或许会比现在走得更远. 理解HelloWorld类 ...
闲置安卓设备搭建Linux服务器实现外网访问
title: 闲置安卓设备搭建Linux服务器实现外网访问这是我搭过的第一个博客系统,写贴纪念一下待博主整理好思路,将今天所用到的全部分享! 好吧,我就是穷.富人靠科技,穷人靠变异.我这种穷人是真 ...
OpenCV学习(2)——一个简单的例子
光说不练假把式,来看一个简单的例子,了解了解OpenCV.这个小demo没有几行代码,作用是显示项目目录下面的一张图片. #include <opencv2\opencv.hpp> #in ...
css之单位
css之单位角度<angle> 用于<gradient>s和某些transform功能中 deg表示以度为单位的角度.一整圈就是360deg. 例如:0deg,90deg,1 ...
6.Python中内存是如何管理的？
Python中内存是如何管理的? Python memory is managed by Python private heap space. All Python objects and data ...
《名侦探柯南》动画登陆bilibili
不管你看没看过.喜不喜欢,也一定听说过<名侦探柯南>这部动画,它和<火影>.<海贼王>几部动画陪伴了一代人成长的道路,而且<名侦探柯南>还是这几部动画中 ...