R语言实战-Part 2笔记】的更多相关文章

本人最近在某咨询公司实习,涉及到了一些数据分析的工作,用的是R语言来处理数据.但是在应用的过程中,发现用R很不熟练,所以再打算学一遍R.曾经花一个月的时间看过一遍<R语言编程艺术>,还用R做过阿里的推荐算法比赛,对R语言有一些最初级.基本的了解.不过 ,上面那本书虽然挺好,但是不适合速成,是从程序员的角度写的,对常用函数和统计知识涉及的不多.在实际工作中,发现适时应用R的包和函数是十分重要的,所以打算另找一本书来看.在学校放着一本<R语言实战>,无奈没拿过来,就用电子版的学一遍吧.…
R 语言实战(第二版) part 4 高级方法 -------------第13章 广义线性模型------------------ #前面分析了线性模型中的回归和方差分析,前提都是假设因变量服从正态分布 #广义线性模型对非正态因变量的分析进行扩展:如类别型变量.计数型变量(非负有限值) #glm函数,对于类别型因变量用logistic回归,计数型因变量用泊松回归 #模型参数估计的推导依据的是最大似然估计(最大可能性估计),而非最小二乘法 #1.logistic回归 library(AER) d…
R 语言实战(第二版) part 3 中级方法 -------------第8章 回归------------------ #概念:用一个或多个自变量(预测变量)来预测因变量(响应变量)的方法 #最常用:OLS--普通最小二乘回归法,包括简单线性回归.多项式回归.多元线性回归 #过程:拟合OLS回归模型-->评价拟合优度-->假设检验-->选择模型 #OLS回归 #目标:减少因变量的真实值和预测值的差值来获得模型参数(截距和斜率),即使得残差平方和最小 #数据需满足:正态性.独立性.线性…
R 语言实战(第二版) part 2 基本方法 -------------第6章 基本图形------------------ #1.条形图 #一般是类别型(离散)变量 library(vcd) help(Arthritis) #类风湿性关节炎新疗法研究结果 head(Arthritis) count <- table(Arthritis$Improved) barplot(count,main="simple bar plot",xlab = "improvement…
R 语言实战(第二版) part 5-1 技能拓展 ----------第19章 使用ggplot2进行高级绘图------------------------- #R的四种图形系统: #①base:基础图形系统 #②grid图形系统: grid包,灵活,无完整绘图函数,适用开发者 #③lattice包:适用网格图形,即多变量/水平关系.基于grid包 #④ggplot2包:数据可视化利器 #前三者在基础安装中已包含,后三者使用时需显示加载 #1.以一个例子介绍ggplot2 library(g…
R 语言实战(第二版) part 5-2 技能拓展 ----------第21章创建包-------------------------- #包是一套函数.文档和数据的合集,以一种标准的格式保存 #1.测试npar包.进行非参组间比较 pkg <- "npar_1.0.tar.gz" loc <- "http://www.statmethods.net/RiA" url <- paste(loc,pkg,sep = "/") d…
1.典型的数据分析过程可以总结为一下图形: 注意,在模型建立和验证的过程中,可能需要重新进行数据清理和模型建立. 2.R语言一般用 <- 作为赋值运算符,一般不用 = ,原因待考证.用->也可以. 3. age <- c(,,,,,,,,,) weight <- c(4.4,5.3,7.2,5.2,8.5,7.3,6.0,10.4,10.2,6.1) mean(weight) sd(weight) cor(age,weight) plot(age,weight) 上面这一段代码是基…
在导入数据并且将数据进行组织和初步可视化以后,需要对数据进行分布探索和两两关系分析等.主要内容有描述性统计分析.频数表和列联表.相关系数和协方差.t检验.非参数统计. 7.1描述性统计分析 7.1.1方法云集 书上说,R中的描述性统计量函数“多的尴尬”.summary函数返回最大值.最小值.上下四分位数.中位数.平均值以及因子向量和逻辑向量的频数统计.还讲了apply.sapply函数,写了峰度和偏度.fivenum函数可以返回图基五数,即最小值,下分位数,中位数,上四分位数,最大值. 扩展:…
本章内容: 数学和统计函数 字符处理函数 循环和条件执行 自编函数 数据整合与重塑 5.1一个数据处理难题 5.2数值和字符处理函数 分为数值函数和字符串函数,下面是数学函数截图: ceiling.floor.trunc.signif函数第一次听说,是一些数位函数的处理函数.注意log是以e为底的.当上面的函数用在向量.矩阵.数据框时,单独用于每一个独立的值. 5.2.2统计函数 举个例子:mean函数 mean(x, trim = , na.rm = FALSE, ...) #trim参数表示…
本章内容: 操纵日期和缺失值 熟悉数据类型的转换 变量的创建和重编码 数据集的排序,合并与取子集 选入和丢弃变量 多说一句,数据预处理的时间是最长的……确实是这样的,额. 4.1一个示例 4.2创建新变量 算术运算符:+.-.*./.^(**)(求幂).x %% y(取余运算).x %/% y(整数除法). transform函数: transform函数现在只用于数据框.对数据框进行操作. 例子: mydata <- transform(mydata, sumx = x1+x2, meanx…
2.1数据集的概念 变量的类型是不同的,比如标示符.日期变量.连续变量.名义变量.有序型变量等,记得数据挖掘导论中有专门的描述. R可以处理的数据类型包括了数值型.字符型.逻辑型.复数型(虚数).原生型(字节). 2.2数据结构 R拥有很多存储数据的对象类型,包括 标量.向量.矩阵.数组.数据框.列表.它们可以用下图表示: 因子是R中的名义型或者有序型变量,比较特殊. 2.2.1向量 标量是只有一个元素的向量,一般用来保存常量.其他没什么说的. seq函数: seq(, to = , by =…
11.2对应分析 在很多情况下,我们所关心的不仅仅是行或列变量本身,而是行变量和列变量的相互关系,这就是因子分析等方法无法解释的了.1970年法国统计学家J.P.Benzenci提出对应分析,也称关联分析.R-Q型因子分析,其是一种多元相依变量统计分析技术.它通过分析由定性变量构成的交互汇总表,来揭示同一变量各类别之间的差异,以及不同变量各类别之间的对应关系,这是一种非常好的分析调查问卷的手段. 对应分析是一种视觉化的数据分析方法,其基木思想是将一个联列表的行和列中各元素的比例结构以点的形式在较…
4.1 R绘图概述 以下两个函数,可以分别展示二维,三维图形的示例: >demo(graphics) >demo(persp) R提供了多种绘图相关的命令,可分成三类: 高级绘图命令:在图形设备上产生一个新的图区,它可能包括坐标轴.标签.标题等. 低级绘图命令:在一个己经存在的图形上加上更多的图形元素,如额外的点.线和标签. 交互式图形命令:允许交互式地用鼠标在一个已经存在的图形.上添加图形信息或者提取图形信息. 使用R语言作图,主要按照以下步骤进行: ①取原始数据,准备好绘图需要的变量. ②…
3.3缺失值处理 R中缺失值以NA表示,判断数据是否存在缺失值的函数有两个,最基本的函数是is.na()它可以应用于向量.数据框等多种对象,返回逻辑值. > attach(data) The following objects are masked fromdata (pos = 3): city, price, salary > data$salary=replace(salary,salary>5,NA) > is.na(salary) [1] FALSEFALSE TRUE…
首先写第二部分的前言. 第二部分用来介绍获取数据基本信息的图形技术和统计方法. 本章主要内容 条形图.箱型图.点图 饼图和扇形图 直方图和核密度图 分析数据第一步就是要观察它,用可视化的方式是最好的.本章的主题有两个 1.将变量的分布作可视化展示 2.通过结果变量进行跨组比较 下面从不同的图形开始探索数据. 6.1条形图 6.1.1简单地条形图 条形图是通过条形展示离散变量的频数分布.函数是barplot: barplot(height) height是主要参数,horiz = TRUE就是横向…
从张丹的日志(http://blog.fens.me/rhadoop-r-basic/)中第九条对象看到R对象的几个总结: 1.内在属性 mode length 所有对象都有的属性 2.外部属性 attributes() 函数可以查看外部属性: attr(x,“a”) <- “b” 为x增加属性a,属性a的值为b. 3.对象的类属性 R中的所有对象都属于类(class),可以通过class函数查看. 对于简单的向量,类是对应的模式(mode)“numeric”“logical”等,而像矩阵.数组…
3.1使用图形 可以使用pdf等函数将图形直接保存在文件中.在运用attach和detach函数的使用中经常出现错误,比如命名重复的问题,所以,应该尽量避免使用这两个函数. plot是一般的画图函数,hist是直方图,boxplot是箱型图.这些函数会覆盖前面的图形,如何创建多个图形便于同时查看呢?方法有三: 1.创建新图形之前先打开一个新的图形窗口,每一幅新图形会出现在最近的图形窗口中. dev.new() 语句1 dev.new() 语句2 …… 上面的语句,每显现一幅图形之前会新开一个窗口…
方差分析泛应用于商业.经济.医学.农业等诸多领域的数量分析研究中.例如商业广告宣传方面,广告效果可能会受广告式.地区规模.播放时段.播放频率等多个因素的影响,通过方差分析研究众多因素中,哪些是主要的以及如何产生影响等.而在经济管理中,方差分析常用于分析变量之间的关系,如人民币汇率对股票收益率的影响.存贷款利率对债券市场的影响,等等. 协方差是在方差分析的基础上,综合回归分析的方法,研究如何调节协变量对因变量的影响效应,从而更加有效地分析实验处理效应的一种统计技术. 8.1单因素方差分析及R实现…
假设检验及R实现 7.1假设检验概述 对总体参数的具体数值所作的陈述,称为假设;再利用样本信息判断假设足否成立,这整个过程称为假设检验. 7.1.1理论依据 假设检验之所以可行,其理沦背景是小概率理论.小概率事件在一次试验中儿乎是不可能发生的,但是它一以发生,我们就有理由拒绝原假设:反之,小概率事件没有发生,则认为原假设是合理的.这个小概率的标准由研究者事先确定,即以所谓的显著性水平α(0<α<1)作为小概率的界限,α的取值与实际问题的性质相关,通常我们取α=0.1, 0.05或0.01,假设…
6.3两正态总体的区间估计 (1)两个总体的方差已知 在R中编写计算置信区间的函数twosample.ci()如下,输入参数为样本x, y,置信度α和两个样本的标准差. > twosample.ci=function(x,y,alpha,sigma1,sigma2){ + n1=length(x);n2=length(y) + xbar=mean(x)-mean(y) + z=qnorm(1-alpha/2)*sqrt(sigma1^2/n1+sigma2^2/n2) + c(xbar-z,xb…
5.6 多组数据分析及R实现 5.6.1 多组数据的统计分析 > group=read.csv("C:/Program Files/RStudio/002582.csv") > group=na.omit(group) #忽略缺失样本 > summary(group) 时间 开盘 最高 2013/08/26: 1 Min. :13.6 Min. :13.9 2013/08/27: 1 1st Qu.:18.2 1st Qu.:18.5 2013/08/28: 1 Me…
3.4添加文本.自定义坐标轴和图例 很多作图函数可以设置坐标轴和文本标注.比如标题.副标题.坐标轴标签.坐标轴范围等.需要注意的是并不是所有的绘图函数都有上述的参数,需要进行验证.可以将一些默认的参数进行移除,用ann = FALSE来操作. 3.4.1标题 title函数. title(main = NULL, sub = NULL, xlab = NULL, ylab = NULL, line = NA, outer = FALSE, ...) #上面的outer是指标题是否在图形边界之外,…
1.1数据分析概述 1.1.1数据分析的原则 (1)数据分析是为了验证假设的问题,需要提供必要的数据验证.在数据分析中,分析模型构建完成后,需要利用测试数据验证模型的正确性. (2)数据分析是为了挖掘更多的问题,并找到深层次的原因. (3)不能为了做数据分析而做数据分析. 1.1.2数据分析的步骤 (1)探索性数据分析EDA 从多种渠道获得了大量的可能杂乱无章.看不出规律的数据的时候,首先需要在没有多少经验的情况下第一次对其进行仔细的分析.这时就需要进行探索性数据分析(EDA: Explorat…
说明: 1.本笔记对<R语言实战>一书有选择性的进行记录,仅用于个人的查漏补缺 2.将完全掌握的以及无实战需求的知识点略去 3.代码直接在Rsudio中运行学习 R语言实战(第二版) part 1 入门 ----------第1章 R语言介绍-------------------- help.start() #帮助文档首页 demo() #R语言demo演示 demo(package = .packages(all.available = TRUE)) demo(image) #演示图像 ex…
入门书籍:R语言实战 进度:1-4章 摘要: 1)实用的包 forecast:用于做时间序列预测的,有auto.arima函数 RODBC:可以用来读取excel文件.但据说R对csv格式适应更加良好,相应的导入导出均较为方便(read.table, write等) reshape:目前用到rename函数,可以方便的对数据变量重命名 fCalendar:在日期输入处提及,据说对日期运算有奇效,但无具体示例.同理如lubridate sqldf:在数据选取处提及,可代替subset以及各种whe…
本文对应<R语言实战>第6章:基本图形:第7章:基本统计分析 ================================================================================================================================================== 本章讨论的图形,主要用于分析数据前,对数据的初步掌握.想要对数据有一个初步的印象,最好的方式就是观察它,也就是将数据可视化.在这个过程中,我们…
本文对应<R语言实战>第4章:基本数据管理:第5章:高级数据管理 创建新变量 #建议采用transform()函数 mydata <- transform(mydata, sumx = x1 + x2, meanx = (x1 + x2)/2) 重编码 < 小于 <= 小于或等于 > 大于 >= 大于或等于 == 严格等于(比较浮点类型时慎用,易误判) != 不等于 !x 非x x | y x或y x & y x和y isTRUE(x) x是否为TRUE…
本文对应<R语言实战>前3章,因为里面大部分内容已经比较熟悉,所以在这里只是起一个索引的作用. 第1章       R语言介绍 获取帮助函数 help(), ? 查看函数帮助 example() 使用函数示例 vignette() 列出vignette文档 vignette("svmdoc") 打开对应文档 管理工作空间 getwd() 显示当前工作目录 setwd("mydirectory") 修改当前工作目录为mydirectory rm(objec…
本文对应<R语言实战>第8章:回归 回归是一个广义的概念,通指那些用一个或多个预测变量(也称自变量或解释变量)来预测响应变量(也称因变量.效标变量或结果变量)的方法.通常,回归分析可以用来挑选与相应变量相关的解释变量,可以描述两者的关系,也可以生成一个等式,通过解释变量来预测响应变量. 回归分析的各种变体 回归类型 用途 简单线性 用一个量化的解释变量预测一个量化的响应变量 多项式 用一个量化的解释变量预测一个量化的响应变量,模型的关系是n阶多项式 多元线性 用两个或多个量化的解释变量预测一个…
本文对应<R语言实战>第9章:方差分析:第10章:功效分析 ==================================================================== 方差分析: 回归分析是通过量化的预测变量来预测量化的响应变量,而解释变量里含有名义型或有序型因子变量时,我们关注的重点通常会从预测转向组别差异的分析,这种分析方法就是方差分析(ANOVA).因变量不只一个时,称为多元方差分析(MANOVA).有协变量时,称为协方差分析(ANCOVA)或多元协方差分析…