dplyr

The d is for dataframes, the plyr is to evoke pliers. Pronounce however you like.

dplyr包可用于处理 R 内部或者外部的结构化数据，相较于plyr包，dplyr包专注接受 data.frame 对象，大幅提高了速度，并且提供了更稳健的数据库接口。同时，dplyr包可用于操作Spark的dataframe。

官网：https://cran.r-project.org/web/packages/dplyr/index.html

包中的函数查询：https://cran.r-project.org/web/packages/dplyr/dplyr.pdf

安装dplyr包

install.packages("dplyr")

使用dplyr包

library("dplyr")

dplyr包中的重要函数

-- 根据值选择相应的行 filter()

-- 对行重新排序 arrange()

-- 根据列名选择相应的列 select()

-- 根据已知的列创建新的列 mutate()

-- 将许多值塌缩为单个描述性汇总 summarize()

-- 分组 group_by() 这些函数都可以通过 group_by() 衔接起来，该函数改变上述每个函数的作用域，从操作整个数据集到按组与组进行操作。

使用 nycflights13包中的数据集

install.packages("nycflights13")

library("nycflights13")

使用 filter() 函数过滤

filter(flights, month == 1, day == 1) # 过滤数据

filter(flights, month == 11 | month == 12) # 逻辑或

filter(flights, month %in% c(11, 12)) # %in% 判断是否存在；该语句可以替换上面的语句

使用 arrange() 函数对行重新排序

arrange(flights, desc(arr_delay)) # 按照列 arr_delay 进行降序排列

使用 select() 函数选择指定列

select(flights, year, month, day) # 选择列 year month day

select(flights, year:day) # 选择 year 和 day 之间的所有列

select(flights, -(year:day)) # 反向选择选择 year 和 day 之间的所有列以外的所有列

select(flights, starts_with("yea")) # 选择列名以 "yea" 开头的列

select(flights, ends_with("ear")) # 选择列名以 "ear" 结尾的列

select(flights, contains("ea")) # 选择列名中包含 "ea" 的列

select(flights, matches("ea")) # 使用正则表达式选择列名中匹配到 "ea" 的列

select(flights, num_range("x", 1:3)) # 使用正则表达式选择列名中匹配到 "x1" "x2" "x3" 的列

select(flights, time_hour, air_time, everything()) # 将 time_hour列和 air_time列提到前面

查看 select() 函数的更多内容 ?select()

rename(flights, tail_num = tailnum) # 将列名 tailnum 改为 tail_num

mutate(flights_sml, gain = arr_delay - dep_delay, speed = distance / air_time * 60 ) # 在原数据集flights_sml的基础上添加两列 gain, speed 产生一个新的数据集，原数据集不变。

transmute(flights, gain = arr_delay - dep_delay, hours = air_time / 60, gain_per_hour = gain / hours) # 只生成新的3列 gain, hours, gain_per_hour，输出结果中没有元数据集

transmute(flights, dep_time, hour = dep_time %/% 100, minute = dep_time %% 100) # %/% 整除运算； %% 取余运算

使用 summarise() 函数对数据进行描述性汇总结果只输出指定的类

常与 group_by() 一起使用从而实现将数据分组后再统计

summarize(flights, delay = mean(dep_delay, na.rm = TRUE)) #

by_day <- group_by(flights, year, month, day)

summarize(by_day, delay = mean(dep_delay, na.rm = TRUE))

not_cancelled <- flights %>% filter(!is.na(dep_delay), !is.na(arr_delay)) # 使用管道操作

not_cancelled %>% group_by(year, month, day) %>% summarize(mean = mean(dep_delay)) # 使用管道操作

delays %>% filter(n > 25) %>% ggplot(mapping = aes(x = n, y = delay)) + geom_point(alpha = 1/10)

batting <- as_tibble(Lahman::Batting)

batting %>% group_by(playerID) %>% summarize(ba = sum(H, na.rm = TRUE) / sum(AB, na.rm = TRUE), ab = sum(AB, na.rm = TRUE)) %>% filter(ab > 100) %>% ggplot(mapping = aes(x = ab, y = ba)) + geom_point() + geom_smooth(se = FALSE) # 分组 > 汇总 > 过滤 > 绘图

not_cancelled %>% group_by(dest) %>% summarize(carriers = n_distinct(carrier)) %>% arrange(desc(carriers)) # 分组 > 汇总 > 降序排列

not_cancelled %>% group_by(year, month, day) %>% summarize(avg_delay1 = mean(arr_delay), avg_delay2 = mean(arr_delay[arr_delay > 0])) # 分组 > 汇总

not_cancelled %>% group_by(dest) %>% summarize(distance_sd = sd(distance)) %>% arrange(desc(distance_sd)) # 分组 > 汇总 > 降序排列

not_cancelled %>% group_by(year, month, day) %>% summarize( first = min(dep_time), last = max(dep_time)) # 分组 > 汇总（取每一组的最大值和最小值）

dplyr的更多相关文章

R语言数据处理包dplyr、tidyr笔记
dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley ...
R语言数据处理利器——dplyr简介
dplyr是由Hadley Wickham主持开发和维护的一个主要针对数据框快速计算.整合的函数包,同时提供一些常用函数的高速写法以及几个开源数据库的连接.此包是plyr包的深化功能包,其名字中的字母 ...
dplyr包--数据操作与清洗
1.简介在我们数据分析的实际应用中,我们可能会花费大量的时间在数据清洗上,而如果使用 R 里面自带的一些函数(base 包的 transform 等),可能会觉得力不从心,或者不是很人性化.好在我们 ...
dplyr 数据操作常用函数（5）
继续来了解dplyr中的其他有用函数 1.sample() 目的是可以从一个数据框中,随机抽取一些行,然后组成新的数据框. sample_n(tbl, size, replace = FALSE, w ...
dplyr 数据操作常用函数（4）
接下来我们继续了解一些dplyr中的常用函数. 1.ranking 以下各个函数可以实现对数据进行不同的排序 row_number(x) ntile(x, n) min_rank(x) dense_r ...
dplyr 数据操作常用函数（3）
接下了我们继续了解dplyr中有用的函数 1.if_else() if_else主要用于在数据做判断用 x<-data.frame(id=1:6, name=c("wang" ...
dplyr 数据操作常用函数（1）
上面介绍完dplyr中,几个主要的操作函数后,我们再进一步了解dplyr中那些函数可能我们会经常要用到. 这里主要根据dplyr包作者的书籍目录来把它列出来. 1.add_rownames 添加行名称 ...
dplyr 数据操作统计描述（summarise）
在R中,summary()是一个基础包中的重要统计描述函数,同样的在dplyr中summarise()函数也可以对数据进行统计描述. 不同的是summarise()更加的灵活多变,下面来看下summa ...
dplyr 数据操作列操作（select / mutate）
在R中,我们通常需要对数据列进行各种各样的操作,比如选取某一列.重命名某一列等. dplyr中的select函数子在数据列的操作上也同样表现了它的简洁性,而且各种操作眼花缭乱. select(.dat ...
dplyr 数据操作数据排序 (arrange)
在R中,我们在整理数据时,经常需要对数据排序,以便数据增强数据的可读性. 下面我们来看下dplyr中的,arrange函数 arrange(.data, ...) 跟filter()类似,arrang ...

随机推荐

自定义WPF Popup控件
解决问题 1.WPF Popup 不随着 Window 一起移动的问题 2.WPF Popup 总是显示在最前面引用命名空间 xmlns:ctrl="clr-namespace:Micro ...
世界上最大的软件注册表-----npm
npm 是什么? npm 为你和你的团队打开了连接整个 JavaScript 天才世界的一扇大门.它是世界上最大的软件注册表,每星期大约有 30 亿次的下载量,包含超过 600000 个包(pack ...
github上好用的非代码工具
1. github上好用的非代码工具 1.1. 面试题地址地址 1.2. 书籍这里 1.3. 百度网盘不限速下载器这里
没有用到React，为什么我需要import引入React?
没有用到React,为什么我需要import引入React? 本质上来说JSX是React.createElement(component, props, ...children)方法的语法糖. 所以 ...
一个tomcat同时部署多个项目
一个tomcat同时部署多个项目 1. 注意事项: 1. 每一个service的端口号不能产生冲突 2. service的name属性的值可以重复 name="Catalina" ...
Docker 0x02: Docker生态
目录 Docker生态 Docker官网 0x00 网址 Docker组件 0x01. docker-client 与 docker-daemon 0x02. docker镜像 0x03. docke ...
Django简介，请求生命周期，静态文件配置
Web框架 Web框架(Web framework)是一种开发框架,用来支持动态网站.网络应用和网络服务的开发.这大多数的web框架提供了一套开发和部署网站的方式,也为web行为提供了一套通用的方 ...
Centos7下的日志切割--转发
logrotate /etc/logrotate.conf 是 Logrotate 工具的一个配置文件,这个工具用来自动切割系统日志,Logrotate 是基于 cron 来运行的,如下: [root ...
Windows平台 python环境配置
下载python:https://www.python.org/downloads/windows/,一般就下载 executable installer,x86 表示是 32 位机子的,x86-64 ...
这是一份非常适合收藏的Android进阶/面试重难点整理
写在前面记得我大二时“不务正业”地自学Android并跟了老师做项目,到大三开始在目前的公司实习,至今毕业已有几年多,学习Android已经6.7年多了!但总感觉知识点很零散,并且不够深入,遇到瓶颈 ...