上篇我和小伙伴们分享了简单指数平滑法,简单指数平滑法仅仅能预測那些处于恒定水平和没有季节变动的时间序列,今天和大家分享非恒定水平即有增长或者减少趋势的.没有季节性可相加模型的时间序列预測算法---霍尔特指数平滑法(Holt). Holt 指数平滑法预计当前时间的水平和斜率.其平滑水平是由两个參数控制.alpha:预计当前点水平.beta:预计当前点趋势部分斜率.两个參数都介于0-1之间.当參数越接近0,大部分最近的观測值的权值将较小. 我们以1866年到1911年每年女士裙子直径为案例,我们首先…
R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的步骤进行了程序上的优化,使用多线程,甚至很多函数是使用C写的,大大加快数据运行速度.因此,在对大数据处理上,使用data.table无疑具有极高的效率.这里主要介绍在基因组数据分析中可能会用到的函数. fread 做基因组数据分析时,常常需要读入处理大文件,这个时候我们就可以舍弃read.ta…
1.1 方法简介 描述性统计包含多种基本描述统计量,让用户对于数据结构可以有一个初步的认识.在此所提供之统计量包含: 基本信息:样本数.总和 集中趋势:均值.中位数.众数 离散趋势:方差(标准差).变异系数.全距(最小值.最大值).内四分位距(25%分位数.75%分位数) 分布描述:峰度系数.偏度系数 用户可选择多个变量同时进行计算,亦可选择分组变量进行多组别的统计量计算. 1.2 详细介绍 1.2.1 样本数和总和 1. R语言涉及的方法:length(x) 1.2.2 均值(Mean) 1.…
K最近邻(k-Nearest Neighbor,KNN)分类算法 R语言实现包:R语言中有kknn package实现了weighted k-nearest neighbor. 决策树: R语言实现决策树:rpart扩展包 iris.rp = rpart(Species~.,data = iris,method = "class")print(iris.rp)#输出模型结果 node), split, n, loss, yval, (yprob) * denotes terminal…
今天继续就指数平滑法中最复杂的一种时间序列:有增长或者减少趋势而且存在季节性波动的时间序列的预測算法即Holt-Winters和大家分享.这样的序列能够被分解为水平趋势部分.季节波动部分,因此这两个因素应该在算法中有相应的參数来控制. Holt-Winters算法中提供了alpha.beta和gamma 来分别相应当前点的水平.趋势部分和季节部分.參数的去执法范围都是0-1之间,而且參数接近0时.最近的观測值的影响权重就越小.我们以澳大利亚昆士兰州海滨纪念商品的月度销售日子为分析对象.老套路.咱…
提到数据挖掘,我们的第一个反应是之前的啤酒和尿布的故事听说过,这个故事是一个典型的数据挖掘关联规则.篮分析的传统线性回归之间的主要差别的差别,对于离散数据的相关性分析: 常见的关联规则: 关联规则:牛奶=>卵子[支撑=2%,置信度=60%] 支持度:分析中的所有事务的2%同一时候购买了牛奶和鸡蛋,需设定域值,来限定规则的产生. 置信度:购买了牛奶的筒子有60%也购买了鸡蛋,需设定域值,来限定规则的产生. 最小支持度阈值和最小置信度阈值:由挖掘者或领域专家设定. 与关联分析相关的专业术语包含: 项…
3.1 单组样本符号秩检验(Wilcoxon signed-rank test) 3.1.1 方法简介 此处使用的统计分析方法为美国统计学家Frank Wilcoxon所提出的非参数方法,称为Wilcoxon符号秩 (signed-rank)检验,当数据中仅有单一组样本时,可用这种方法检验数据的中位数是否大于.小于或等于某一特定数值.当你的样本数较大时(通常样本个数≧30的样本可视为样本数较大),建议改以单组样本均值t检验(one-sample t-test)检验总体均值.注:总体中位数经常和均…
2.1 单组样本均值t检验(One-sample t-test) 2.1.1 方法简介 t检验,又称学生t(student t)检验,是由英国统计学家戈斯特(William Sealy Gosset, 1876-1937)所提出,student则是他的笔名.t检验是一种检验总体均值的统计方法,当数据中仅含单组样本且样本数较大时(通常样本个数≧30的样本可视为样本数较大),可用这种方法来检验总体均值是否大于.小于或等于某一特定数值.当数据中仅含单组样本但样本数较小时(通常样本个数<30的样本可视为…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:在自己学LDA主题模型时候,发现该模型有这么几个未解决的问题: 1.LDA主题数量,多少个才是最优的. 2.作出主题之后,主题-主题,主题与词语之间关联如何衡量. 于是在查阅几位老师做的成果之后,将他们的成果撮合在一起.笔者发现R里面目前有两个包可以做LDA模型,是lda包+topicmodels包,两个包在使用的过程中,需要整理的数…
新入职的员工,有的没有相应银行卡,需要计算现金工资的币数.实发工资,一般取整数. 简化计算,纸币面值只有100.10.1.4278除以100等于42余78,78除以10等于7余8,8除以1等于8. 复杂计算,纸币面值有100.50.20.10.5.1.4278除以100等于42余78,78除以50等于1余28,28除以20等于1余8,8除以10等于0余8,8除以5等于1余3,3除以1等于3. R语言中,向下取整为%/%,取余为%%. 思路一取整配合取余. 思路二取整配合减法.4278%/%100…
今年在某服装企业蹲点了4个多月,之间非常长一段时间在探索其现货和期货预測.时间序列也是做销售预測的首选,今天和小伙伴分享下时间序列的基本性质和怎样用R来挖据时间序列的相关属性. 首先读入一个时间序列:从1946年1月到1959年12月的纽约每月出生人口数量(由牛顿最初收集)数据集能够从此链接下载(http://robjhyndman.com/tsdldata/data/nybirths.dat). 我们将数据读入R.而且存储到一个时间序列对象中,输入下面代码: births<- scan("…
#-----------------------------------------# # R in Action (2nd ed): Chapter 15 # # Time series # # requires forecast, tseries packages # # install.packages("forecast", "tseries") # #-----------------------------------------# par(ask=TR…
#-----------------------------------------# # R in Action (2nd ed): Chapter 15 # # Time series # # requires forecast, tseries packages # # install.packages("forecast", "tseries") # #-----------------------------------------# par(ask=TR…
#-----------------------------------------# # R in Action (2nd ed): Chapter 15 # # Time series # # requires forecast, tseries packages # # install.packages("forecast", "tseries") # #-----------------------------------------# par(ask=TR…
#-----------------------------------------# # R in Action (2nd ed): Chapter 15 # # Time series # # requires forecast, tseries packages # # install.packages("forecast", "tseries") # #-----------------------------------------# par(ask=TR…
complete.cases查看缺失值 箱图:…
sumfu<-function(a,b,n=){ if(a<b){ for(i in a:b){n=n+i} }else for(i in b:a){n=n+i} return <-cat(" n= ",n) } sumfu(scan(),scan())…
时间序列: (或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列.时间序列分析的主要目的是根据已有的历史数据对未来进行预测.(百度百科) 主要考虑的因素: 1.长期趋势(Long-term trend) : 时间序列可能相当稳定或随时间呈现某种趋势. 时间序列趋势一般为线性的(linear),二次方程式的 (quadratic)或指数函数(exponential function). 2.季节性变动(Seasonal variation) 按时间变动,呈现重复性行为的序列…
在对短期数据的预测分析中,我们经常用到时间序列中的指数平滑做数据预测,然后根据不同. 下面我们来看下具体的过程 x<-data.frame(rq=seq(as.Date('2016-11-15'),as.Date('2016-11-22'),by='day'), sr=c(300,697,511,1534,1155,1233,1509,1744)) xl<-ts(x$sr) #构建时间序列 plot.ts(xl) 从上图的结果来看,这是一个增长趋势的时间序列. 模型选择上我们可以依据以下标准进…
最近遇到一些程序员同学向我了解R语言,有些更是想转行做数据分析,故开始学习R或者Python之类的语言.在有其他编程语言的背景下,学习R的语法的确是一件十分简单的事.霸特,如果以为仅仅是这样的话那就图样图森破. 首先,数据分析是一个非常庞杂的职能,也许岗位抬头均为数据分析师的两人,做的事情却大不相同——比如使用hadoop做日志统计和使用Excel处理报表,这简直是两个领域,相互之间的职能了解,可能仅为对方工作的冰山一角. 其次,无论任何行业的数据分析,其日常工作主要为以下几块: 数据获取——数…
CSDN博客:包括R语言基础.R语言数据挖掘.hadoop大数据及spark等 http://blog.csdn.net/qq_16365849 R语言及数据分析 http://blog.csdn.net/qq_16365849…
摘要:R语言的知识体系并非语法这么简单,如果都不了R的全貌,何谈学好R语言呢.本文将展示介绍R语言的知识体系结构,并告诉读者如何才能高效地学习R语言. 最近遇到很多的程序员都想转行到数据分析,于是就开始学习R语言.总以为有了其他语言的编程背景,学习R语言就是一件很简单的事情,一味地追求速度,但不求甚解,有些同学说2周就能掌握R语言,但掌握的仅仅是R语言的语法,其实这只能算是入门. R语言的知识体系并非语法这么简单,如果都不了R的全貌,何谈学好R语言呢.本文将展示介绍R语言的知识体系结构,并告诉读…
原理: 主成分分析 - stanford 主成分分析法 - 智库 主成分分析(Principal Component Analysis)原理 主成分分析及R语言案例 - 文库 主成分分析法的原理应用及计算步骤 - 文库 主成分分析之R篇 [机器学习算法实现]主成分分析(PCA)--基于python+numpy scikit-learn中PCA的使用方法 Python 主成分分析PCA 机器学习实战-PCA主成分分析.降维(好) 关于主成分分析的五个问题 多变量统计方法,通过析取主成分显出最大的个…
(注明:以下文章均在Linux操作系统下执行) 一.R语言简介 R语言是用于统计分析,图形表示和报告的编程语言和软件环境.R语言由Ross Ihaka和Robert Gentleman在新西兰奥克兰大学创建,目前由R语言开发核心团队开发. R语言的核心是解释计算机语言,其允许分支和循环以及使用函数的模块化编程.R语言允许与以C,C ++,.Net,Python或FORTRAN语言编写的过程集成以提高效率. R语言在GNU通用公共许可证下免费提供,并为各种操作系统(如Linux,Windows和M…
在R语言进行数据分析时,经常需要找不同组间的相同和不同,那你应该掌握如下几个函数,让你事半功倍. 交集intersect两个向量的交集,集合可以是数字.字符串等 # 两个数值向量取交集intersect(x=1:4, y = 2:6)# [1] 2 3 4 # 两个字符向量取交集intersect(x=letters[1:4], y = letters[2:6])# [1] "b" "c" "d" # 混合向量intersect(x=c(&quo…
如果你的职业定位是数据分析师/计算生物学家,那么不懂PCA.t-SNE的原理就说不过去了吧.跑通软件没什么了不起的,网上那么多教程,copy一下就会.关键是要懂其数学原理,理解算法的假设,适合解决什么样的问题.学习可以高效,但却没有捷径,你终将为自己的思维懒惰和行为懒惰买单. 2019年04月25日 不该先说covariacne matrix协方差矩阵的,此乃后话,先从直觉理解PCA.先看一个数据实例,明显的两个维度之间有一个相关性,大部分的方差可以被斜对角的维度解释,少数的noise则被虚线解…
Mac下R语言环境搭建 博主在数据分析的时候一直用的python(MATLAB太重了),最近跟其他搞学术的人合作,需要用一下R语言,所以也打算顺便学习一下R. R语言简介 R语言是用于统计分析,图形表示和报告的编程语言和软件环境. R语言由Ross Ihaka和Robert Gentleman在新西兰奥克兰大学创建,目前由R语言开发核心团队开发. R语言的核心是解释计算机语言,其允许分支和循环以及使用函数的模块化编程. R语言允许与以C,C ++,.Net,Python或FORTRAN语言编写的…
版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/kMD8d5R/article/details/83542978 https://mmbiz.qpic.cn/mmbiz_gif/y2fhgP4leTj804F6eWg06denf5Gdeqz307pm7PcP1QmWWzk13k7WVFw1lO2A4W49gb35H0rkxkwFMhFqA3eJSA/640?wx_fmt=gif" alt="640?wx_fmt=gif" /&…
R语言 概述 R语言是用于统计分析,图形表示和报告的编程语言和软件环境. R语言由Ross Ihaka和Robert Gentleman在新西兰奥克兰大学创建,目前由R语言开发核心团队开发. R语言的核心是解释计算机语言,其允许分支和循环以及使用函数的模块化编程. R语言允许与以C,C ++,.Net,Python或FORTRAN语言编写的过程集成以提高效率. R语言在GNU通用公共许可证下免费提供,并为各种操作系统(如Linux,Windows和Mac)提供预编译的二进制版本. R是一个在GN…
电子书资源:R语言实战 书籍简介   <R语言实战>从解决实际问题入手,尽量跳脱统计学的理论阐述来讨论R语言及其应用,讲解清晰透澈,极具实用性.作者不仅高度概括了R语言的强大功能.展示了各种实用的统计示例,而且对于难以用传统方法分析的凌乱.不完整和非正态的数据也给出了完备的处理方法.通读本书,你将全面掌握使用R语言进行数据分析.数据挖掘的技巧,并领略大量探索和展示数据的图形功能,从而更加高效地进行分析与沟通.--[百度百科] 链接:https://pan.baidu.com/s/1GysL-l…