3.1 单组样本符号秩检验(Wilcoxon signed-rank test) 3.1.1 方法简介 此处使用的统计分析方法为美国统计学家Frank Wilcoxon所提出的非参数方法,称为Wilcoxon符号秩 (signed-rank)检验,当数据中仅有单一组样本时,可用这种方法检验数据的中位数是否大于.小于或等于某一特定数值.当你的样本数较大时(通常样本个数≧30的样本可视为样本数较大),建议改以单组样本均值t检验(one-sample t-test)检验总体均值.注:总体中位数经常和均…
2.1 单组样本均值t检验(One-sample t-test) 2.1.1 方法简介 t检验,又称学生t(student t)检验,是由英国统计学家戈斯特(William Sealy Gosset, 1876-1937)所提出,student则是他的笔名.t检验是一种检验总体均值的统计方法,当数据中仅含单组样本且样本数较大时(通常样本个数≧30的样本可视为样本数较大),可用这种方法来检验总体均值是否大于.小于或等于某一特定数值.当数据中仅含单组样本但样本数较小时(通常样本个数<30的样本可视为…
1.1 方法简介 描述性统计包含多种基本描述统计量,让用户对于数据结构可以有一个初步的认识.在此所提供之统计量包含: 基本信息:样本数.总和 集中趋势:均值.中位数.众数 离散趋势:方差(标准差).变异系数.全距(最小值.最大值).内四分位距(25%分位数.75%分位数) 分布描述:峰度系数.偏度系数 用户可选择多个变量同时进行计算,亦可选择分组变量进行多组别的统计量计算. 1.2 详细介绍 1.2.1 样本数和总和 1. R语言涉及的方法:length(x) 1.2.2 均值(Mean) 1.…
时间序列: (或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列.时间序列分析的主要目的是根据已有的历史数据对未来进行预测.(百度百科) 主要考虑的因素: 1.长期趋势(Long-term trend) : 时间序列可能相当稳定或随时间呈现某种趋势. 时间序列趋势一般为线性的(linear),二次方程式的 (quadratic)或指数函数(exponential function). 2.季节性变动(Seasonal variation) 按时间变动,呈现重复性行为的序列…
A IMA模型是一种著名的时间序列预测方法,主要是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型.ARIMA模型根据原序列是否平稳以及回归中所含部分的不同,包括移动平均过程(MA).自回归过程(AR).自回归移动平均过程(ARMA)以及ARIMA过程.其中ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归, p为自回归项: MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数. 通常的建立ARIMA…
概率图模型 基于R语言 这本书中的第一个R语言程序 prior <- c(working =0.99,broken =0.01) likelihood <- rbind(working = c(good=0.99,bad=0.01),broken =c(good=0.6,bad=0.4)) data <- c("bad","bad","bad","bad") bayes <- function(prio…
Twitter开源的时序数据突变检测(BreakoutDetection),基于无参的E-Divisive with Medians (EDM)算法,比传统的E-Divisive算法快3.5倍以上,并且具有鲁棒统计性,就是你加入一些离群点或异常点,并不影响该算法的检测效果,不过最关键的还是无参特性,有时候调参真是件摸着石头过河的事. 它认为突变有两种方式: 1.Mean Shift:突然跳变,比如CPU从40%一跃跳变为60%,像佛教里讲的“顿宗” 2.Ramp Up:缓慢从一个平稳状态渐变到另…
数据集——iris(R语言自带鸢尾花包) 一.scale函数 scale函数默认的是对制定数据做均值为0,标准差为1的标准化.它的两个参数center和scale: 1)center和scale默认为真,即T 2)center为真表示数据中心化 3)scale为真表示数据标准化 中心化:所谓数据的中心化是指数据集中的各项数据减去数据集的均值. 标准化:标准化就是数据在中心化之后再除以标准差.变换后值域为[0,1]. # 标准化与中心化data(iris) # 读入数据head(iris) #查看…
分析航空公司现状 1.行业内竞争 民航的竞争除了三大航空公司之间的竞争之外,还将加入新崛起的各类小型航空公司.民营航空公司,甚至国外航空巨头.航空产品生产过剩,产品同质化特征愈加明显,于是航空公司从价格.服务间的竞争逐渐转向对客户的竞争. 2.行业外竞争 随着高铁.动车等铁路运输的兴建,航空公司受到巨大冲击. 航空公司客户数据说明 目前航空公司已积累了大量的会员档案信息和其乘坐航班记录. 以2014-03-31为结束时间,选取宽度为两年的时间段作为分析观测窗口,抽取观测窗口内有乘机记录的所有客户…
R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的步骤进行了程序上的优化,使用多线程,甚至很多函数是使用C写的,大大加快数据运行速度.因此,在对大数据处理上,使用data.table无疑具有极高的效率.这里主要介绍在基因组数据分析中可能会用到的函数. fread 做基因组数据分析时,常常需要读入处理大文件,这个时候我们就可以舍弃read.ta…