如何高效地学好R语言?
学R语言主要在于5点三阶段:
第一阶段有一点:基础的文件操作(read.*,
write.*)、数据结构知识,认识什么是数据框(data.frame)、列表(list)、矩阵(matrix)、向量(vector),如何提取(包括which,
[ ]等)、置换(t, matrix等)、删除(-, which等)、运算(+, -, *, / , %%,
%/%等)、转换(as.*)、修改(edit,
fix等)数据(包括单个数、行、列、表、变量),安装包、调用包以及session的保存。完成这一阶段,你就大致能像excel里处理数据一样了。
第二阶段有三点:
1、学习统计。
这是贯穿整个R学习的最重要的一部,很多时候你并不是不知道在哪里找,怎么使用某个函数的参数,更多的时候你是不知道某个统计方法的原理,所代表的意义甚至不知道该用什么方法。所以学习统计学知识往往才是学习R的关键,之后找函数、怎么用其实都是傻瓜式的,并不需要你从头编写算法。这部分内容页要结合每个人要做的事做。
2、批量处理。
由于R和matlab一样,注重的是批量处理,而且R之中的循环往往效率极低,所以在R之中如果你发现你要使用双层循环的时候,就要想想了,有没有批量处理的方法。
a、首先,几乎所有的R里的运算符和自带的函数都是可以批量处理的。比如向量a+向量b是指每个元素按照index相加,所以就没必要for一下了;
b、其次,R自带有的apply族函数(因为是一系列以apply结尾的函数,所以称为apply族),split,以及aggregate函数。这三类就是R自带的批量处理的利器,学好这三类函数,基本就可以完成绝大部分的数据批量处理了。
c、然后就是reshape2包以及plyr包了,这是批量处理的两个利器,reshape主要是整形,plyr包基本提供了一套整理数据的理念,学好这两个包,批量处理将事半功倍。
d、在实际过程中,一些for还是无法避免的。这时候就要考虑用别的语言来处理这部分事情了。比较常用的方法就是用别的语言批量生成R的代码,还有就是直接用R调用别的语言处理的结果或者用别的语言调用R的处理结果。
3、绘图系统。
总结而言,我们可以把R的绘图系统分成四个:Graphics,lattice,ggplot2以及grid。最好学习顺序也是按照这个来。
a、自带的绘图系统
这套系统可以完成最基本的事情,其操作也类似于matlab,可以看做是分步骤命令参数式绘图,基本就是将一系列作图看做一步步的命令,每一句都干一件事,然后通过参数调整其中的某个元素的大小、位置、颜色。
b、lattice
绘图逻辑也同上。只是加了分组绘图、facet的功能,这些都很实用,其目的就是讲自带函数中需要大量预处理以及多步绘图的命令用一行命令代替。上手也非常简单。
c、ggplot2
这是经典的R绘图包,绘图哲学是图层式的,理解成一个一个图层的覆盖。这个绘图系统能做很多事,而且其自带主题也相当漂亮。有一定的学习难度。
以下就是我用ggplot画的图
grid绘图系统算是最基元的绘图命令,很多指令都是从画圆、直线、矩形开始的,这算是R里最好理解但也是最复杂的绘图系统。适合想入深坑的人士学习,如果要自由创造一些新的图形,或者编写绘图包,这是必学的绘图系统。另一个值得说的就是grid中也有专门用来整理拼图的指令,这个对于有一些论文拼图需求的人来说还是学学比较好。
如果你完成了以上两个阶段,你已经可以在工作学习中完成绝大部分的工作。但如果你是知识的创造者,或者是个程序员,或者是要实践自己的算法、理论、统计方法、绘图方法,或者亦或是你只是脑抽了,那就要进入第三阶段的学习。这部分包括,C语言掌握与精通、R语言调试、改进、编写包、写一个地道的帮助文档、推销自己的想法。这一阶段完成了,你也就是一个R语言的大牛了。少年到处是你可以施展拳脚的地方。
由以上内容,可以基本上把学习路径总结为下图:
此外,其实R语言是一门轻编程重统计的语言,所以题主完全不需要担心自己的编程基础。直接做几个小项目,你会很快上手,千万不要从教材第一页读到最后一页,那种效率极低,且容易半途而废。
关于批处理的问题有几位同僚在回复里面询问批处理的问题,这里做个简单的解释。
批处理类似于向量运算,但也有很大差距,简单的说,是一个函数可以快速的套用到多维变量的每一维值中。
1. 自带函数的批处理
譬如:
s <- 1:5
s * 2
这就是一个最简单的批处理的例子,结果是
2 4 6 8
10
这是一个简单的向量标量积结果,而所谓的批处理也就是类似于这种处理方式。而在R之中,数据的最小单元其实就是向量,因此,几乎所有R的函数,都是批处理的。(注意,与matlab不同,matlab最小单元是矩阵,因此,其基本的运算都是基于举证运算的)。
我们可以用以下方式定义批处理函数:如果一个函数F,满足,
且函数F的实现不基于任何显式循环(诸如for,while, until),则函数F可以称之为批处理函数。
譬如:plot(将两个向量的对应的数逐个地画到图中),paste(将字符串向量的每个字符串都做连接)等等。。。
这里比较一下会更加清楚,譬如如果在python里实现以上功能(不实用pandas和numpy包),就得采用显式的循环(for,while等):
a = list(range(1, 6))a = [i * 2 for i in a]
因此,我们可以看出采用批处理最大的优点在于减少的代码量,并且更加简洁明了,易于维护。
2. 批处理是否更加高效
其实批处理的另一个好处就是使得运行更加高效,因为批处理函数往往经过处理(使用更好的算法或者更底层的实现方式)得到某种程度的提速。我们在这里测试实现将向量每个元素都自乘2这一功能,分别采用按键替换,按数字索引替换以及直接批量处理的方式,来测试不同方式速度是如何的。
a <- 1:10
f1 <- function(x) {
for (i in x) {
x[which(x == i)] = i * 2
}
}
f2 <-function(x) {
for (i in 1:10) {
x[i] = x[i] * 2
}
}
f3 <- function(x) {
x = x * 2
}
system.time(replicate(100000, f1(a)))
system.time(replicate(100000, f2(a)))
system.time(replicate(100000, f3(a)))
结果如下:> system.time(replicate(100000, f1(a)))
用户 系统 流逝
4.47 0.01 4.72
> system.time(replicate(100000, f2(a)))
用户 系统 流逝
2.53 0.00 2.63
> system.time(replicate(100000, f3(a)))
用户 系统 流逝
0.63 0.03 0.72
明显看出,批处理并且避免显式循环的方式的确有助于提高速度,代码量也少的多。因此,何乐而不为呢?
但是经过测试,并不是每个批处理函数的效果并不是都是那么明显,譬如:strsplit。甚至研究码源之后,你也会发现,很多批处理常用的函数的实现其实都是for,因此,有一派观点认为避免显式循环(特别是指采用apply函数、plyr包的方法避免显式循环),其实具有一定的误导性,其是否能提高效率也是要视情况而定。
3. apply族函数和aggregate函数
这是R基础包自带的两类用于批量处理的函数包,在此,只做简单地介绍:
apply函数族共有五个,分别是:apply,lapply,sapply,tapply,vapply。其总用其实就是将某个函数逐个套用到向量(矩阵)中每个元素之中,其实具体的作用,读帮助文档就可以了。http://www.cda.cn/view/18282.html
aggregate这个函数比较有意思,常用的带入方式是:
aggregate(aDataFrame, by = list(vector1,vector2), FUN =
aFunction)
作用就是基于by指定的变量做分组,计算FUN分别统计每个组的结果
如何高效地学好R语言?的更多相关文章
- 【转】R语言知识体系概览
摘要:R语言的知识体系并非语法这么简单,如果都不了R的全貌,何谈学好R语言呢.本文将展示介绍R语言的知识体系结构,并告诉读者如何才能高效地学习R语言. 最近遇到很多的程序员都想转行到数据分析,于是就开 ...
- 如何在 VSCODE 中高效使用 R 语言
VSCODE 配置 R 一.功能特性展示 之前一直在用 Rstudio 来编写 R,也尝试用过 Pycharm 配置 R 环境. 但是由于现在需求要同时满足 Python,R 和网站要同时开发,为了避 ...
- 主成分分析(PCA)原理及R语言实现
原理: 主成分分析 - stanford 主成分分析法 - 智库 主成分分析(Principal Component Analysis)原理 主成分分析及R语言案例 - 文库 主成分分析法的原理应用及 ...
- 如何学好C语言
我相信,这可能是很多朋友的问题,我以前也有这样的感觉,编程编到一定的时候,发现能力到了瓶颈,既不深,也不扎实,半吊子.比如:你长期地使用Java和.NET ,这些有虚拟机的语言对于开发便利是便利,但是 ...
- 主成分分析(PCA)原理及R语言实现 | dimension reduction降维
如果你的职业定位是数据分析师/计算生物学家,那么不懂PCA.t-SNE的原理就说不过去了吧.跑通软件没什么了不起的,网上那么多教程,copy一下就会.关键是要懂其数学原理,理解算法的假设,适合解决什么 ...
- 几种经典排序算法的R语言描述
1.数据准备 # 测试数组 vector = c(,,,,,,,,,,,,,,) vector ## [] 2.R语言内置排序函数 在R中和排序相关的函数主要有三个:sort(),rank(),ord ...
- 大数据平台R语言web UI应用架构 设计与开发
1. 系统拓扑图 在日常业务分析中,R是非常常用的分析工具,而当数据量较大时,用R语言需要需用更多的时间来完成训练模型,spark作为大规模数据处理框架,采用内存计算,可以短时间内完成大量的数据的处理 ...
- R语言介绍
R语言简介 R语言是一种为统计计算和图形显示而设计的语言环境,是贝尔实验室(Bell Laboratories)的Rick Becker.John Chambers和Allan Wilks开发的S语言 ...
- R语言学习笔记
向量化的函数 向量化的函数 ifelse/which/where/any/all/cumsum/cumprod/对于矩阵而言,可以使用rowSums/colSums.对于“穷举所有组合问题" ...
随机推荐
- QImage 如何和 Tensor 相互转换?
torch::Tensor fromQImage(QImage image) { int width = image.width(); int height = image.height(); int ...
- mysql处理重复数据仅保留一条记录
目的:去除(或删除)一个表里面手机号重复的数据,但是需要保留其中一个记录,换句话说,表里面手机号不为空的数据,一个手机有且只有一条记录 表结构: CREATE TABLE `account` ( `i ...
- Quartz的简单使用
一.Quartz 介绍 Quartz是Java领域最著名的.功能丰富的.开放源码的作业调度工具,几乎可以在所有的Java应用程序中集成--从小的单机应用到大的电子商务系统. Quartz可以用来执行成 ...
- 20191114PHP图像绘制
<?phpob_clean();$img=imagecreate(400,400);$back=imagecolorallocate($img,200,200,100); $blue=image ...
- 更新252板子代码(前端+cgi中间件)
1.前端代码 前端的html.css.js代码,利用打包工具生成dist文件夹,放入lighttpd的指定目录. 2.cgi中间件 1)编译 1.下载代码工程V100R100C00 2.将工程代码以共 ...
- 使用HystrixCommand封装http请求
1.引入依赖 要排除hystrix-core里的archaius-core,否则报错 <dependency> <groupId>com.netflix.hystrix< ...
- rk3288 android5.1 修改时区
/work/rk3288/firefly-rk3288_android5.1_git_20180126/device/rockchip/rk3288/rk3288_box/system.prop 修改 ...
- Linux ssh黄金参数
Linux ssh黄金参数 命令: -o ConnectionAttempts= -o PasswordAuthentication=no -o StrictHostKeyChecking=no cp ...
- elk系统生成请求数据测试承载量、宕机瓶颈shell
elk-gen-data.sh: #!/usr/bin/bash#----------------------------------------------------# Comment: to g ...
- [IOI1998]Polygon(区间dp)
[IOI1998]Polygon 题意翻译 多边形是一个玩家在一个有n个顶点的多边形上的游戏,如图所示,其中n=4.每个顶点用整数标记,每个边用符号+(加)或符号*(乘积)标记. 第一步,删除其中一条 ...