基于R语言的数据分析和挖掘方法总结——中位数检验
3.1 单组样本符号秩检验(Wilcoxon signed-rank test)
3.1.1 方法简介
此处使用的统计分析方法为美国统计学家Frank Wilcoxon所提出的非参数方法,称为Wilcoxon符号秩 (signed-rank)检验,当数据中仅有单一组样本时,可用这种方法检验数据的中位数是否大于、小于或等于某一特定数值。当你的样本数较大时(通常样本个数≧30的样本可视为样本数较大),建议改以单组样本均值t检验(one-sample t-test)检验总体均值。
注:总体中位数经常和均值一样, 因此检验中位数即检验均值。
3.1.2 公式
3.1.3 实现范例
- 范例A-2:石油定价差异的分析 物价不断上涨,各项与民生问题有关的物品都会受到关注,而每日上班需使用到交通工具使用的汽油与柴油也是大众生活的重要支出。由于石油是一种同时具备战略考虑与民生问题双重属性的特殊物品,因此油价的波动会影响民生问题,为了推动国内油价市场的公平性与合理性,降低非经济因素的影响,使国内油价能回归市场机制,负责部门于2007年1月开始实施浮动油价的机制,经过多次的修订与调整,该计价制度推行至今。由于近几个月来国际油价的波动剧烈,进而影响到一般百姓最关心的汽柴油价格,某研究民生议题的机构想了解该国主要两个石油公司A石油公司及B石化公司的浮动油价是否有差异,由北至南收集了A公司与B公司在该国9个地区的加油站油价(元/升),如下表所示。
问题:
在浮动油价制度制定之前,国内的汽油价格为30元/升,研究机构想了解在实施浮动油价制度后,国内的平均油价是否高于实施之前,并以A公司的数据加以比较。
问题解析:
此问题可讨论A公司的平均油价与制度实施前油价加以比较,故讨论"A公司的平均油价是否大于30元/升?"。
统计方法:
此问题中变量为石油公司的油价,为单一变量(一个变量,建议选择单变量分析);想了解A公司的油价,视为一组样本且仅有样本量9个,小于30笔;可采用分析方法:单组样本中位数检验(Wilcoxon signed-rank test),检验"A公司的平均油价是否高于30元/升?"。
解析:
- 此题可建立原假设为"A公司的平均油价小于等于30元/升",即H0: mA≦30。
- 建立数据文件上传,文件格式请参照上传文件说明。
- 按照分析步骤说明分析数据。
R语言程序:
分析结果:
- 分析方法:单组样本中位数检验
- 数据名称:范例A-2
- 变量名称:A公司
- 显著水平:0.05
- 检验中位数:30
- 检验方向:右尾检验
- 计算时间:0.08秒
- 样本描述统计量I:
I:样本描述统计量都不包含缺失值
- 等级信息:
- 单组样本中位数检验:
- 分析结果建议:
由于检验结果P-值(0.14189) > 显著水平0.05,因此无法拒绝原假设。
3. (独立)两组样本秩和检验(Wilcoxon ranKolmogorov-Smirovum test)
3.2.1 方法简介
此处使用的统计分析方法为美国统计学家Frank Wilcoxon所提出的非参数方法,称为Wilcoxon秩和(ranKolmogorov-Smirovum)检验,当数据包含两组样本时,可用此方法检验此两组样本间总体中位数的差异值是否大于、小于或等于某一特定数值。此方法又称为Mann-Whitney U检验(Mann-Whitney U test),当样本数够大时(通常样本个数≧30的样本可视为样本数够大),建议可用(独立)两组样本均数的t检验(Two-sample t-test)检验平均数差。
注:总体中位数经常和平均数一样, 因此检验中位数差即检验平均数差。
3.2.2 实现范例
1. 范例A-2:石油定价差异的分析
物价不断上涨,各项与民生问题有关的物品都会受到关注,而每日上班需使用到交通工具使用的汽油与柴油也是大众生活的重要支出。由于石油是一种同时具备战略考虑与民生问题双重属性的特殊物品,因此油价的波动会影响民生问题,为了推动国内油价市场的公平性与合理性,降低非经济因素的影响,使国内油价能回归市场机制,负责部门于2007年1月开始实施浮动油价的机制,经过多次的修订与调整,该计价制度推行至今。由于近几个月来国际油价的波动剧烈,进而影响到一般百姓最关心的汽柴油价格,某研究民生议题的机构想了解该国主要两个石油公司A石油公司及B石化公司的浮动油价是否有差异,由北至南收集了A公司与B公司在该国9个地区的加油站油价(元/升),如下表所示。
问题:
由于浮动油价制度使得各石油公司可针对成本的差异而制定不同的油价,研究机构想了解国内最大的两家油品供货商制定的油价平均是否有差异?
问题解析:
此处可将两油品供货商于各地所收集的油价数据加以比较,讨论问题"A公司的平均油价减去B公司的平均油价是否不为0?"。
统计方法:
此问题中变量为石油公司的油价,为单一变量(一个变量,建议选择单变量分析);石油公司有两家,可视为两组样本且仅有样本量9个,小于30笔;另A公司与B公司油价制定应无关系,故两组数据可视为独立;可采用分析方法:(独立)两组样本秩和检验(Wilcoxon rank-sum test),检验"A公司的平均油价减去B公司的平均油价是否不为0?"。
解析:
- 此题可建立原假设为"A公司的平均油价减去B公司的平均油价等于0?",即H0: mA- mB=0。
- 建立数据文件上传,文件格式请参照上传文件说明。
- 按照分析步骤说明分析数据。
R语言程序:
分析结果:
- 分析方法:(独立)两组样本秩和检验
- 数据名称:范例A-2
- 检验变量:_NEW_
- 分组变量:_GROUP_(A公司, B公司)
- 显著水平:0.05
- 检验中位数差异:0
- 检验方向:双边检验
- 计算时间:0.098秒
- 样本描述统计量I:
I:样本描述统计量都不包含缺失值
- 等级信息:
- 两组样本秩和检验(独立样本)I:
- 分析结果建议:
由于检验结果P-值(0.59548) > 显著水平0.05,因此无法拒绝原假设。
3.3 (成对)两组样本符号秩检验(Wilcoxon signed-rank test)
3.3.1 方法简介
此处使用的统计分析方法为美国统计学家Frank Wilcoxon所提出的非参数方法中的Wilcoxon符号等级(signed-rank)检验,当数据包含两组样本并且样本两两成对时,若要检验两组样本的总体中位数是否相同,可先计算数据中两两成对样本的差异值(如减肥前体重与减肥后体重相减),此笔差异值数据即为单一组样本,再利用此方法检验此差异值数据的总体中位数是否大于、小于或等于某一特定数值。当样本数够大时(通常样本个数≧30的样本可视为样本数够大),建议可用(成对)两组样本均数的t检验(Two-sample t-test for paired data)检验平均数差。
注:总体中位数经常和平均数一样, 因此检验中位数差即检验平均数差。
3.3.2 实现范例
1. 范例A-10:国安基金对稳定股市的功能
背景描述:
1989年,台湾股市达到了万点以上,曾有一段时间,股市可以说是全民运动,不管是什么职业,多少收入,全民都关注着高利润的股市。随着经济的泡沫化,万点股市也随之大跌,造成当时的一大堆散户被套牢,损失惨重。全民疯狂投资股市的情况冲击了当时的经济,改变了民众的社会价值观,为避免重蹈覆辙,政府着手多项政策来改变股市大起大落对经济的影响及改变民众投机的心理,如开征证卷交易所得税等政策。另外在1996年股市受到台海飞弹危机的非经济因素影响时,政府责成七个单位组成「股市稳定小组」集资新台币2000亿成立股市稳定基金来稳定股市;在1999年股市因两国论而暴跌,政府于2000年正式组成专门负责稳定股市的国安基金,在这以后,国安基金在许多重要时刻发挥了稳定股市的作用。某证卷研究机构欲知国安基金在投入股票市场后,对各种股票的影响有多大,是否真的发挥了稳定股市的价值,共搜集了8家上市公司的股票价格记录在国安基金投入前后并分析。
表:国安基金进场前后上市公司的股价,单位:元。
问题:
在国安基金进场护盘后,对于此8家上市公司股价是否会有影响呢?研究机构想了解国安基金是否真的有其稳定股市的作用呢?
问题解析:
此处要了解国安基金是否发挥稳定股市的功能,须了解在进场前与进场后的股价差异,若进场后使得股价回升,表示国安基金能发挥稳定市场的机制,使得进场后的股价高于进场前的股价,可讨论问题"进场后股价减去进场前股价是否大于0元?"。
统计方法:
此问题中,变量为上市公司的股价,为单一变量(一个变量,建议选择单变量分析);上市公司的股价有区分为进场前与进场后,视为两组样本,且仅有8家上市公司样本量小于30,但此处讨论国安基金投入股票市场后,对各种股票的影响,故数据需要被成对分析;可采用分析方法:(成对)两组样本秩和检验(Wilcoxon signed-rank test),检验"进场后股价减去进场前股价是否大于0元?"。此处需注意,因为每只股票价格有进场前与进场后数据,这种数据的记录方式称为成对,故此时分析需注意数据须被"成对"使用,无法将数据分开讨论。
解析:
- 此题可建立原假设为"进场后股价减去进场前股价小于等于0",即H0: m进场后- m进场前≦0。
- 建立数据文件上传,文件格式请参照上传文件说明。
- 按照分析步骤说明分析数据。
分析结果:
- 分析方法:(成对)两组样本秩和检验
- 数据名称:范例A-10
- 变量名称:进场后 - 进场前
- 显著水平:0.05
- 检验中位数差异:0
- 检验方向:右尾检验
- 计算时间:0.084秒
- 样本描述统计量I:
I:样本描述统计量都不包含缺失值
- 等级信息:
I:进场后 - 进场前 > 0
II:进场后 - 进场前 < 0
III:进场后 - 进场前 = 0
- 两组样本秩和检验(成对样本):
I:以正等级为计算基础
II:显著性代码:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1
- 分析结果建议:
由于检验结果P-值(0.046446) < 显著水平0.05,因此可拒绝原假设。
3.4 (成对)多组样本秩和检验(Kruskal-Wallis test)
3.4.1 方法简介
此处的统计分析方法为Kruskal-Wallis检验,是由William Kruskal与W. Allen Wallis两位统计学家将非参数方法中两组样本中位数检验推广至多组样本后所提出。当数据中包含多组样本(三组以上样本),且想了解多组样本间总体中位数是否有差异时,可使用这种方法。当样本数较大时(通常样本个数≧30的样本可视为样本数较大),建议使用(独立)多组样本方差分析(方差分析)(ANalysis Of VAriance, ANOVA)检验均值差。
注:总体中位数经常和均值一样, 因此检验中位数差即检验均值差。
3.4.2 实现范例
1. 范例A-10:国安基金对稳定股市的功能
背景描述:
儿童节快到了,某超市经理想趁节日到来举办促销活动以此提高超市的业绩,因此他对超市中正在销售的三种糖果品牌收集了10天的销售量数据(单位:千克),想了解不同糖果品牌受到儿童喜爱的程度,数据列于下表中。
问题:
由于各糖果商皆希望该连锁超市能以自己的品牌为主打商品,店经理为了公平起见,以三个品牌的平均销售量比较为基准来选出主打商品,哪一家会获选呢?
问题解析:
要了解三家糖果商的销售量差异需比较三家的平均销售量是否有差异,故讨论问题"三个糖果品牌的平均销售量是否有差异?"。
统计方法:
此问题中,变量为糖果品牌的销售状况,为单一变量(一个变量,建议选择单变量分析);品牌共有三种可视为有三组的数据且样本量10小于30;三个品牌的销售关联性不大可视为独立样本;可采用分析方法:(独立)多组样本中位数差异(Kruskal-Wallis test),检验"三个糖果品牌的平均销售量是否有差异?"。
解析:
- 此题可建立原假设为"三个糖果品牌的平均销售量无差异",即H0:m好吃牌= m干净牌= m快乐牌。
- 建立数据文件上传,文件格式请参照上传文件说明。
- 按照分析步骤说明分析数据。
分析结果:
- 分析方法:(独立)多组样本秩和检验
- 数据名称:范例A-4
- 检验变量:_NEW_
- 分组变量:_GROUP_(好吃牌, 干净牌, 快乐牌)
- 显著水平:0.05
- 计算时间:0.091秒
- 样本描述统计量I:
I:样本描述统计量都不包含缺失值
- 等级信息:
- 多组样本秩和检验(独立样本)I:
I:分组变量为_GROUP_
II:显著性代码:‘***’ : < 0.001, ‘**’ : < 0.01, ‘*’ : < 0.05, ‘#’ : < 0.1
- 分析结果建议:
由于检验结果P-值(0.051573) > 显著水平0.05,因此无法拒绝原假设。
本方法使用的R相关软件包与参考文献:
相关软件包:stats、base
参考文献:(按照软件包名称排序)
- R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL:http://www.R-project.org/.
- Wilcoxon signed-rank test Wikipedia. URL:http://en.wikipedia.org/wiki/Wilcoxon_signed-rank_test
基于R语言的数据分析和挖掘方法总结——中位数检验的更多相关文章
- 基于R语言的数据分析和挖掘方法总结——均值检验
2.1 单组样本均值t检验(One-sample t-test) 2.1.1 方法简介 t检验,又称学生t(student t)检验,是由英国统计学家戈斯特(William Sealy Gosset, ...
- 基于R语言的数据分析和挖掘方法总结——描述性统计
1.1 方法简介 描述性统计包含多种基本描述统计量,让用户对于数据结构可以有一个初步的认识.在此所提供之统计量包含: 基本信息:样本数.总和 集中趋势:均值.中位数.众数 离散趋势:方差(标准差).变 ...
- 基于R语言的时间序列指数模型
时间序列: (或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列.时间序列分析的主要目的是根据已有的历史数据对未来进行预测.(百度百科) 主要考虑的因素: 1.长期趋势(Lon ...
- 基于R语言的ARIMA模型
A IMA模型是一种著名的时间序列预测方法,主要是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型.ARIMA模型根据原序列是否平稳以及 ...
- 概率图模型 基于R语言 这本书中的第一个R语言程序
概率图模型 基于R语言 这本书中的第一个R语言程序 prior <- c(working =0.99,broken =0.01) likelihood <- rbind(working = ...
- Twitter基于R语言的时序数据突变检测(BreakoutDetection)
Twitter开源的时序数据突变检测(BreakoutDetection),基于无参的E-Divisive with Medians (EDM)算法,比传统的E-Divisive算法快3.5倍以上,并 ...
- 对数据集做标准化处理的几种方法——基于R语言
数据集——iris(R语言自带鸢尾花包) 一.scale函数 scale函数默认的是对制定数据做均值为0,标准差为1的标准化.它的两个参数center和scale: 1)center和scale默认为 ...
- 基于R语言的航空公司客户价值分析
分析航空公司现状 1.行业内竞争 民航的竞争除了三大航空公司之间的竞争之外,还将加入新崛起的各类小型航空公司.民营航空公司,甚至国外航空巨头.航空产品生产过剩,产品同质化特征愈加明显,于是航空公司从价 ...
- R语言基因组数据分析可能会用到的data.table函数整理
R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部 ...
随机推荐
- 通过Java发射机制调用可变参数函数
1.获取可变参数的函数 获取可变参数的函数与获取参数类型为数组类型一样. clazz.getMethod("test", Object[].class); 其中O ...
- Scrapy爬虫入门系列4抓取豆瓣Top250电影数据
豆瓣有些电影页面需要登录才能查看. 目录 [隐藏] 1 创建工程 2 定义Item 3 编写爬虫(Spider) 4 存储数据 5 配置文件 6 艺搜参考 创建工程 scrapy startproj ...
- php 获取当前域名
#测试网址: http://localhost/blog/testurl.php?id=5 //获取域名或主机地址 echo $_SERVER['HTTP_HOST']."<br> ...
- 简单熟悉eclipse
- win7下怎么卸载jdk
在安装了java jdk之后,会有两个程序,如果不仔细卸载的话,就少卸载一个而不能完全卸载,下面看看在win7下怎么卸载jdk. win7下怎么卸载jdk步骤: 第一步:点击“开始”,再点击“ ...
- java中Statement详细用法。
1.创建 Statement 对象 建立了到特定数据库的连接之后,就可用该连接发送 SQL 语句.Statement 对象用 Connection 的方法createStatement 创建,如下列代 ...
- Java(System类,currentTimeMillis())
CurrentTimeMillis()方法来记录程序的执行时间.currentTimeMillis()方法将返回自1970年1月1日午夜起到现在的时间,时间单位是ms,如果要记录程序中一段程序的运行时 ...
- react import改为绝对路径
最近在使用react时发现路径用../../很不方便,特别是修改项目结构时,加减../都能改到吐血, 所有在网上找了半天webpack的配置,特此记录下 module.exports = (webpa ...
- cocos2d-x - android 学习(集成NDK、配置开发环境)
先来贴上一大神的博客:日月之明 --- http://www.cnblogs.com/lhming/tag/cocs2d-x/ 需要工具和软件包:Eclipse.Android SDK.Android ...
- VC编译那些事儿
转载自:http://blog.csdn.net/wowolook/article/details/8077153 最近又被ms的编译选译纠结了一下,运行程序是老是弹出0x14b1 or 71 ...