R语言︱数据分组统计函数族——apply族用法与心得
每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~
———————————————————————————
笔者寄语:apply族功能强大,实用,可以代替很多循环语句,R语言中不要轻易使用循环语句。
| 函数名 | 功能 | 特点 |
| apply | 按行、列运算均值、求和、众数等 | 简单运算 |
| tapply=table apply | 在apply之上加入table功能,可以分组汇总 | table结合,可以分组汇总 |
| lapply=list apply | 都需要数据框格式,可以与list合用,返回仍是list | list用法 |
| sapply=simplify apply=unlist(lapply) | 都需要数据框格式,可以与list合用,返回是矩阵 | 与lapply一样,但是可以输出矩阵格式 |
|
apply |
Apply Functions Over Array Margins 对阵列行或者列使用函数 |
apply(X, MARGIN, FUN, ...) |
|
lapply |
Apply a Function over a List or Vector 对列表或者向量使用函数 |
lapply(X, FUN, ...) |
|
sapply |
Apply a Function over a List or Vector 对列表或者向量使用函数 |
sapply(X, FUN, ..., simplify = TRUE, USE.NAMES = TRUE) |
|
vapply |
Apply a Function over a List or Vector 对列表或者向量使用函数 |
vapply(X, FUN, FUN.VALUE, ..., USE.NAMES = TRUE) |
|
tapply |
Apply a Function Over a Ragged Array 对不规则阵列使用函数 |
tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE) |
|
eapply |
Apply a Function Over Values in an Environment 对环境中的值使用函数 |
eapply(env, FUN, ..., all.names = FALSE, USE.NAMES = TRUE) |
|
mapply |
Apply a Function to Multiple List or Vector Arguments 对多个列表或者向量参数使用函数 |
mapply(FUN, ..., MoreArgs = NULL, SIMPLIFY = TRUE, USE.NAMES = TRUE) |
|
rapply |
Recursively Apply a Function to a List 运用函数递归产生列表 |
rapply(object, f, classes = "ANY", deflt = NULL,how = c("unlist", "replace", "list"), ...) |
1、apply函数
对一个数组按行或者按列进行计算,矩阵纵、横运算(sum,average等)
其中apply中,1等于行,2等于列
> ma <- matrix(c(1:4, 1, 6:8), nrow = 2)
> ma
[,1] [,2] [,3] [,4]
[1,] 1 3 1 7
[2,] 2 4 6 8
> apply(ma, c(1,2), sum)
[,1] [,2] [,3] [,4]
[1,] 1 3 1 7
[2,] 2 4 6 8
> apply(ma, 1, sum)
[1] 12 20
> apply(ma, 2, sum)
[1] 3 7 7 15
> tapply(1:17, fac, sum, simplify = FALSE) $`1` [1] 51 $`2` [1] 57 $`3` [1] 45 $`4` NULL $`5` NULL > tapply(1:17, fac, range) $`1` [1] 1 16 $`2` [1] 2 17 $`3` [1] 3 15 $`4` NULL $`5` NULL
2、tapply
(进行分组统计)
tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE) #把x在index分类下进行fun #例:把x在因子分类下,进行汇总操作 fac <- factor(rep(1:3, length = 4), levels = 1:5) fac [1] 1 2 3 1 Levels: 1 2 3 4 5 tapply(1:4, fac, sum) 1 2 3 4 5 5 2 3 NA NA
#当index不是因子时,可以用as.factor()把参数强制转换成因子
额外案例,实现excel中数据透视表的功能
#利用tapply实现类似于excel里的数据透视表的功能:
> da
year province sale
1 2007 A 1
2 2007 B 2
3 2007 C 3
4 2007 D 4
5 2008 A 5
6 2008 C 6
7 2008 D 7
8 2009 B 8
9 2009 C 9
10 2009 D 10
> attach(da)
> tapply(sale,list(year,province)) #以sale为基,按照year,province的顺序,排列
[1] 1 4 7 10 2 8 11 6 9 12
> tapply(sale,list(year,province),mean)
A B C D
2007 1 2 3 4
2008 5 NA 6 7
2009 NA 8 9 10
3、函数table(求因子出现的频数)
使用格式为:
table(..., exclude = if (useNA == "no") c(NA, NaN), useNA = c("no",
"ifany", "always"), dnn = list.names(...), deparse.level = 1)
其中参数exclude表示哪些因子不计算。
示例代码:
> d <- factor(rep(c("A","B","C"), 10), levels=c("A","B","C","D","E"))
> d
[1] A B C A B C A B C A B C A B C A B C A B C A B C A B C A B C
Levels: A B C D E
> table(d, exclude="B")
d
A C D E
10 10 0 0
4、函数lapply与函数sapply
每一列数据采用同一种函数形式,比如求X变量得分位数,比如求X变量的循环函数。
lapply的使用格式为:
lapply(X, FUN, ...)
lapply的返回值是和一个和X有相同的长度的list对象,
这个list对象中的每个元素是将函数FUN应用到X的每一个元素。
其中X为List对象(该list的每个元素都是一个向量),
其他类型的对象会被R通过函数as.list()自动转换为list类型。
函数sapply是函数lapply的一个特殊情形,对一些参数的值进行了一些限定,其使用格式为:
sapply(X, FUN,..., simplify = TRUE, USE.NAMES = TRUE)
sapply(*, simplify = FALSE, USE.NAMES = FALSE) 和lapply(*)的返回值是相同的。
如果参数simplify=TRUE,则函数sapply的返回值不是一个list,而是一个矩阵;
若simplify=FALSE,则函数sapply的返回值仍然是一个list。
x <- list(a = 1:10, beta = exp(-3:3), logic = c(TRUE,FALSE,FALSE,TRUE))
> lapply(x, quantile)
$a
0% 25% 50% 75% 100%
1.00 3.25 5.50 7.75 10.00
$beta
0% 25% 50% 75% 100%
0.04978707 0.25160736 1.00000000 5.05366896 20.08553692
$logic
0% 25% 50% 75% 100%
0.0 0.0 0.5 1.0 1.0
> sapply(x, quantile,simplify=FALSE,use.names=FALSE)
$a
0% 25% 50% 75% 100%
1.00 3.25 5.50 7.75 10.00
$beta
0% 25% 50% 75% 100%
0.04978707 0.25160736 1.00000000 5.05366896 20.08553692
$logic
0% 25% 50% 75% 100%
0.0 0.0 0.5 1.0 1.0
#参数simplify=TRUE的情况
> sapply(x, quantile)
a beta logic
0% 1.00 0.04978707 0.0
25% 3.25 0.25160736 0.0
50% 5.50 1.00000000 0.5
75% 7.75 5.05366896 1.0
100% 10.00 20.08553692 1.0
5、函数mapply
其中参数MoreArgs表示函数FUN的参数列表。
> mapply(rep, times=1:4, x=4:1) [[1]] [1] 4 [[2]] [1] 3 3 [[3]] [1] 2 2 2 [[4]] [1] 1 1 1 1 #直接使用函数rep的结果: > rep(1:4,1:4) [1] 1 2 2 3 3 3 4 4 4 4
6、vapply {base}——按变量进行函数操作
vapply类似于sapply函数,但是它的返回值有预定义类型,所以它使用起来会更加安全,有的时候会更快。
在vapply函数中总是会进行简化,vapply会检测FUN的所有值是否与FUN.VALUE兼容,
以使他们具有相同的长度和类型。类型顺序:逻辑、整型、实数、复数
vapply(X, FUN, FUN.VALUE, ..., USE.NAMES = TRUE)
X表示一个向量或者表达式对象,其余对象将被通过as.list强制转换为list
simplify 逻辑值或者字符串,如果可以,结果应该被简化为向量、矩阵或者高维数组。
必须是命名的,不能是简写。默认值是TRUE,若合适将会返回一个向量或者矩阵。如果simplify=”array”,结果将返回一个阵列。
USE.NAMES 逻辑值,如果为TRUE,且x没有被命名,则对x进行命名。
FUN.VALUE 一个通用型向量,FUN函数返回值得模板。
> x<-data.frame(a=rnorm(4,4,4),b=rnorm(4,5,3),c=rnorm(4,5,3)) > vapply(x,mean,c(c=0)) a b c 1.8329043 6.0442858 -0.1437202
> k<-function(x)
+ {
+ list(mean(x),sd(x))
+ }
> vapply(x,k,c(c=0))
错误于vapply(x, k, c(c = 0)) : 值的长度必需为1,
但FUN(X[[1]])结果的长度却是2
> vapply(x,k,c(c=0,b=0)) 错误于vapply(x, k, c(c = 0, b = 0)) : 值的种类必需是'double', 但FUN(X[[1]])结果的种类却是'list'
> vapply(x,k,c(list(c=0,b=0))) a b c c 1.832904 6.044286 -0.1437202 b 1.257834 1.940433 3.649194
sapply与vapply函数之间的区别:
> i39 <- sapply(3:9, seq)
> i39
[[1]]
[1] 1 2 3
[[2]]
[1] 1 2 3 4
[[3]]
[1] 1 2 3 4 5
[[4]]
[1] 1 2 3 4 5 6
[[5]]
[1] 1 2 3 4 5 6 7
[[6]]
[1] 1 2 3 4 5 6 7 8
[[7]]
[1] 1 2 3 4 5 6 7 8 9
> sapply(i39, fivenum)
[,1] [,2] [,3] [,4] [,5] [,6] [,7]
[1,] 1.0 1.0 1 1.0 1.0 1.0 1
[2,] 1.5 1.5 2 2.0 2.5 2.5 3
[3,] 2.0 2.5 3 3.5 4.0 4.5 5
[4,] 2.5 3.5 4 5.0 5.5 6.5 7
[5,] 3.0 4.0 5 6.0 7.0 8.0 9
> vapply(i39, fivenum,
+ c(Min. = 0, "1st Qu." = 0, Median = 0, "3rd Qu." = 0, Max. = 0))
[,1] [,2] [,3] [,4] [,5] [,6] [,7]
Min. 1.0 1.0 1 1.0 1.0 1.0 1
1st Qu. 1.5 1.5 2 2.0 2.5 2.5 3
Median 2.0 2.5 3 3.5 4.0 4.5 5
3rd Qu. 2.5 3.5 4 5.0 5.5 6.5 7
Max. 3.0 4.0 5 6.0 7.0 8.0 9
7、eapply {base}
eapply函数通过对environment中命名值进行FUN计算后返回一个列表值,用户可以请求所有使用过的命名对象。
eapply(env, FUN, ..., all.names = FALSE, USE.NAMES = TRUE)
env 将被使用的环境
all.names 逻辑值,指示是否对所有值使用该函数
USE.NAMES 逻辑值,指示返回的列表结果是否包含命名
> require(stats) > > env <- new.env(hash = FALSE) # so the order is fixed > env$a <- 1:10 > env$beta <- exp(-3:3) > env$logic <- c(TRUE, FALSE, FALSE, TRUE) > # what have we there? > utils::ls.str(env) a : int [1:10] 1 2 3 4 5 6 7 8 9 10 beta : num [1:7] 0.0498 0.1353 0.3679 1 2.7183 ... logic : logi [1:4] TRUE FALSE FALSE TRUE > > # compute the mean for each list element > eapply(env, mean) $logic [1] 0.5 $beta [1] 4.535125 $a [1] 5.5 > unlist(eapply(env, mean, USE.NAMES = FALSE)) [1] 0.500000 4.535125 5.500000 > > # median and quartiles for each element (making use of "..." passing): > eapply(env, quantile, probs = 1:3/4) $logic 25% 50% 75% 0.0 0.5 1.0 $beta 25% 50% 75% 0.2516074 1.0000000 5.0536690 $a 25% 50% 75% 3.25 5.50 7.75 > eapply(env, quantile) $logic 0% 25% 50% 75% 100% 0.0 0.0 0.5 1.0 1.0 $beta 0% 25% 50% 75% 100% 0.04978707 0.25160736 1.00000000 5.05366896 20.08553692 $a 0% 25% 50% 75% 100% 1.00 3.25 5.50 7.75 10.00
8、rapply {base}
rapply是lapply的递归版本
rapply(X, FUN, classes = "ANY", deflt = NULL, how = c("unlist", "replace", "list"), ...)
X 一个列表
classes 关于类名的字符向量,或者为any时则匹配任何类
deflt 默认结果,如果使用了how=”replace”,则不能使用
how 字符串匹配三种可能结果
参考文献:
菜鸟的成长的博客:http://blog.sina.com.cn/s/blog_6caea8bf0100xkpg.html
拓展一:lapply的用法
a=function(x)[ x=names(x) x[x=="a"] } lapply(y,a)
从这段代码大致可以了解到,lapply精髓在输入与输出。
每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~
———————————————————————————
R语言︱数据分组统计函数族——apply族用法与心得的更多相关文章
- 数据分组统计函数族——apply族用法与心得
笔者寄语:apply族功能强大,实用,可以代替很多循环语句,R语言中不要轻易使用循环语句. 原文链接: https://blog.csdn.net/sinat_26917383/article/det ...
- R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)
R语言︱数据集分组 大型数据集通常是高度结构化的,结构使得我们可以按不同的方式分组,有时候我们需要关注单个组的数据片断,有时需要聚合不同组内的信息,并相互比较. 一.日期分组 1.关于时间的包都有很多 ...
- R语言数据接口
R语言数据接口 R语言处理的数据一般从外部导入,因此需要数据接口来读取各种格式化的数据 CSV # 获得data是一个数据帧 data = read.csv("input.csv" ...
- R语言数据的导入与导出
1.R数据的保存与加载 可通过save()函数保存为.Rdata文件,通过load()函数将数据加载到R中. > a <- 1:10 > save(a,file='d://data/ ...
- R语言 数据重塑
R语言数据重塑 R语言中的数据重塑是关于改变数据被组织成行和列的方式. 大多数时间R语言中的数据处理是通过将输入数据作为数据帧来完成的. 很容易从数据帧的行和列中提取数据,但是在某些情况下,我们需要的 ...
- R语言数据预处理
R语言数据预处理 一.日期时间.字符串的处理 日期 Date: 日期类,年与日 POSIXct: 日期时间类,精确到秒,用数字表示 POSIXlt: 日期时间类,精确到秒,用列表表示 Sys.date ...
- 最棒的7种R语言数据可视化
最棒的7种R语言数据可视化 随着数据量不断增加,抛开可视化技术讲故事是不可能的.数据可视化是一门将数字转化为有用知识的艺术. R语言编程提供一套建立可视化和展现数据的内置函数和库,让你学习这门艺术.在 ...
- 第三篇:R语言数据可视化之条形图
条形图简介 数据可视化中,最常用的图非条形图莫属,它主要用来展示不同分类(横轴)下某个数值型变量(纵轴)的取值.其中有两点要重点注意: 1. 条形图横轴上的数据是离散而非连续的.比如想展示两商品的价格 ...
- 第二篇:R语言数据可视化之数据塑形技术
前言 绘制统计图形时,半数以上的时间会花在调用绘图命令之前的数据塑型操作上.因为在把数据送进绘图函数前,还得将数据框转换为适当格式才行. 本文将给出使用R语言进行数据塑型的一些基本的技巧,更多技术细节 ...
随机推荐
- VLAN 模式下的 OpenStack 管理 vSphere 集群方案
本文不合适转载,只用于自我学习. 关于为什么要用OpenStack 管理 vSphere 集群,原因可以有很多,特别是一些传统企业,VMware 的使用还是很普遍的,用 OpenStack 纳管至少会 ...
- python函数式编程之装饰器(一)
1.开放封闭原则 简单来说,就是对扩展开放,对修改封闭 在面向对象的编程方式中,经常会定义各种函数. 一个函数的使用分为定义阶段和使用阶段,一个函数定义完成以后,可能会在很多位置被调用 这意味着如果函 ...
- BZOJ 1176: [Balkan2007]Mokia [CDQ分治]
题意: 有一个n * n的棋盘,每个格子内有一个数,初始的时候全部为0.现在要求维护两种操作: 1)Add:将格子(x, y)内的数加上A. 2)Query:询问矩阵(x0, y0, x1, y1)内 ...
- 安卓中圆角背景图被拉伸的解决方案——.9.png
举个例子: 从网上找了一张图片 如果我们直接用这张蓝色的图来做登录按钮的背景.将这个图片设为背景以后 我们可以发现四个角全部变形了,一点也不美观.针对此问题,我们通过.9图来解决. 首先我们先了解一下 ...
- php与web页面交互
一.web表单 web表单的功能是让浏览者和网站有一个互动的平台.web表单主要用来在网页中发送数据到服务器. 1.1 表单的创建 使用form标记,并在其中插入相关的表单元素,即可创建一个表单. & ...
- [Python Study Notes]CS架构远程访问获取信息--Client端v2.0
更新内容: 1.增加内存信息获取 2.增加电池信息获取 3.增加磁盘信息获取 4.重新布局窗体 5.增加窗体名称 6.增加连接成功之前,不可按压 效果图: '''''''''''''''''''''' ...
- CocosCreator游戏开发---菜鸟学习之路(三)如何在CocosCreator中使用Pomelo
PS(废话): 这段时间都在研究网易的Pomelo框架,作为新手小白,自然遇到了不少坑爹的事情.(当然也有可能是因为自己技术不过关的原因所以导致在很多基础的问题上纠结了很久.)网上也搜索了好久,但是基 ...
- 一步一步配置ABP Core Template with Angular
1.首先去https://aspnetboilerplate.com/Templates下载模板工程,按如下勾选 2.下载后打开工程如下图,并设置Web.host 作为启动项目,rebuild 还原n ...
- 低版本IE内核浏览器兼容placeholder属性解决办法
最简便的一个方法,通过js实现. <input type="text" name="username" id="username" v ...
- Apollo阿波罗配置中心docker
前言 在分布式系统中,要改个配置涉及到很多个系统,一个一个改效率低下,吃力不讨好.用配置中心可以解决这个问题.当然配置中心有不少,以下对比的表格是照搬Apollo Wiki的. 功能点 Apollo ...