R----dplyr包介绍学习
dplyr包:plyr包的替代者,专门面对数据框,将ddplyr转变为更易用的接口
%>%来自dplyr包的管道函数,其作用是将前一步的结果直接传参给下一步的函数,从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存,可惜的是应用范围还不是很广。
dplyr和data.table(易于操作数据)是R的两个高效数据处理包,这两个包有它们各自的优点。
data.table在语法灵活性和performance上面更深一筹,dplyr则在易学性和SQL语句转换方面有独到之处
首先dplyr提供了一个符号%>%,该符号将左边的对象作为第一个参数传递到右边的函数中,这样就实现类似unix管道的编程风格,代码更易读。
dplyr很好地解决了base包中的几个数据处理的痛点,具体可以参考本系列01。
首先,dplyr可以方便地抽取数据框的子集。抽取行的子集函数有filter,distinct,sample_frac,sample_n,slice,top_n。抽取列的子集函数是select,可通过列名或选项函数进行选择,常见的选项函数有contains(“.”),ends_with(“Length”),starts_with(“Sepal”),everything(),matches(“.t.”),num_range(“x”, 1:5),one_of(c(“Species”, “Genus”))。
其次,dplyr还提供了函数arrange,方便按照某一列进行数据排序。
1 |
arrange(mtcars, mpg) # 从低到高 |
然后,dplyr可以方便地进行数据集的合并,取代merge函数。
1 |
left_join(a, b, by="x1") |
dplyr还提供了intersection、union和setdiff用于获得两个数据集的交集、并集和差集。
最后,dplyr可以方便地进行数据集的拼接。bind_rows(y, z)将数据集z按行拼接到数据集y中,bind_cols(y, z)将数据集z按列拼接到数据集y中。
本系列03介绍plyr时,知道这个包最主要地是用来做分组处理,dplyr对此功能进行了升级,详述如下。
dplyr可以方便地对数据框进行概述,相当于ddply中的summarize。summarise(iris, avg=mean(Sepal.Length))将数据概括为单行结果输出;summarise_each(iris, funs(mean))对每一列运行概述函数。支持的概述函数有first,last,nth,n,n_distinct,min,max,mean,median,var,sd。
dplyr可以方便地创建新变量,相当于ddply中的transform。mutate(iris, sepal=Sepal.Length+Sepal.Width)计算并添加一个或多个新列。mutate_each(iris, funs(min_rank))对每一列运行窗口函数。常见的窗口函数有row_number,min_rank,percent_rank,cumsum等。
dplyr提供了一个分组函数group_by,把分组依据相同的数据组合成行,相当于ddply中的group_vars。ungroup用于移出数据框的分组信息。配合上管道符号,可以方便地进行分组概述和分组计算。
1 |
iris %>% group_by(Species) %>% summarise(...) |
强大的dplyr包实现数据预处理
工作中的数据分析或挖掘任务都需要进行各种各样的数据预处理,包括数据整合、关联、排序、筛选等。下面将介绍强大的dplyr包,其可以非常灵活、快速的实现数据的预处理。
select()
: 按列变量选择filter()
: 按行名称分片slice()
: 按行索引分片mutate()
: 在原数据集最后一列追加一些数据集summarise()
: 每组聚合为一个小数量的汇总统计,通常结合gruop_by()
使用arrange()
: 按行排序
#tbl对象
使用dplyr包预处理时建议使用tbl_df()函数或tbl_cube()函数或tbl_sql()函数将原数据转换为tbl对象,因为dplyr包用C语言开发,对处理tbl对象是非常迅速的。语法:
tbl_df(src, ...)
tbl_cube(dimensions, measures)
tbl_sql(subclass, src, from, ..., vars = attr(from, 'vars'))
#观测筛选
如果需要将数据集中的某些观测进行筛选的话,可以使用filter()函数,语法如下:
filter(.data, ...)
.data为tbl对象
...为观测筛选条件,类似于subset()函数中的用法,但不同的是filter()函数不能筛选某些变量。
例子:
df <- data.frame(x = c('a','b','c','a','b','e','d','f'), y = c(1,2,3,4,5,6,7,8))
df2tbl <- tbl_df(df)
filter(df2tbl,x %in% c('a','b'))
#变量选取
filter()函数只能将指定条件的观测筛选出来,并不能筛选出只关心的变量,为了弥补这个缺陷,可以使用select()函数筛选指定的变量,而且比subset()函数更灵活,而且选择变量的同时也可以重新命名变量。如果剔除某些变量的话,只需在变量前加上负号“-”。之所以说他比subset()函数灵活,是因为可以在select()函数传递如下参数:
starts_with(x, ignor.case = TRUE)#选择以字符x开头的变量
ends_with(x, ignor.case = TRUE)#选择以字符x结尾的变量
contains(x, ignor.case = TRUE)#选择所有包含x的变量
matches(x, ignor.case = TRUE)#选择匹配正则表达式的变量
num_range('x', 1:5, width = 2)#选择x01到x05的变量
one_of('x','y','z')#选择包含在声明变量中的
everything()#选择所有变量,一般调整数据集中变量顺序时使用
例子:
#将df2tbl数据集中的y变量放到x变量前
select(df2tbl,y,everything())
#筛选变量的同时,重新命名变量名
select(df2tbl, x1 = x, y1 = y)
#重命名变量
如果需要对数据集中的某些变量进行重命名的话,可直接使用rename()函数,语法如下:
rename(tbl, newname = oldname,...)
例子:
rename(df2tbl, x1 = x, y1 = y)
#数据排序
数据预处理过程中往往也需要按某些变量进行排序,dplyr包提供了非常便捷的arrange()函数实现排序功能,语法如下:
arrange(.data, ...)
arrange()函数默认以某个变量进行升序,如需降序则desc(var_name)即可。
例子:
arrange(df2tbl, y) #默认升序
arrange(df2tbl, desc(y)) #降序操作
#数据扩展
通过mulate()函数可以在原始数据集的基础上扩展新变量,类似于transform()函数,语法如下:
mutate(.data, ...)
例子:
mutate(df2tbl, z = y^2 + y - 10)
同样可以进行数据扩展的还有transmute()函数,与mutate()函数不同的是,该函数扩展新变量的同时,将删除所有原始变量。
例子:
transmute(df2tbl, z = y^2 + y - 10)
#数据聚合
在数据库操作中,往往需要进行聚合函数的应用,这里同样可以很方面使用summarize()函数实现数据集聚合操作,语法如下:
summarize(.data, ...)
可以用来聚合的函数有:
min():返回最小值
max():返回最大值
mean():返回均值
sum():返回总和
sd():返回标准差
median():返回中位数
IQR():返回四分位极差
n():返回观测个数
n_distinct():返回不同的观测个数
first():返回第一个观测
last():返回最后一个观测
nth():返回n个观测
例子:
summarize(df2tbl, max(y))
summarize(df2tbl, n())
而且该函数还可以结合group_by()函数实现分组聚合,group_by()函数语法:
group_by(.data, ..., add = FALSE)
例子:
summarize(group_by(df2tbl,x), sum(y))
#数据关连
我们知道,数据库中经常需要将多个表进行连接操作,如左连接、右连接、内连接等,这里dplyr包也提供了数据集的连接操作,具体如下:
inner_join#內连
left_join#左连
right_join#右连
full_join#全连
semi_join#返回能够与y表匹配的x表所有记录
anti_join#返回无法与y表匹配的x表的所记录
intersect(x, y): x 和 y 的交集(按行)
union(x, y): x 和 y 的并集(按行)
setdiff(x, y): x 和 y 的补集 (在x中不在y中)
例子:
df2 <- data.frame(x = c('a','b','c'), z = c('A','B','C'))
df2tbl2 <- tbl_df(df2)
inner_join(x = df2tbl, y = df2tbl2, by = 'x')
semi_join(x = df2tbl, y = df2tbl2, by = 'x')
anti_join(x = df2tbl, y = df2tbl2, by = 'x')
#数据合并
在R基础包里有cbind()函数和rbind()函数实现按列的方向进行数据合并和按行的方向进行数据合并,而在dplyr包中也添加了类似功能的函数,它们是bind_cols()函数和bind_rows()函数。
例子:
mydf1 <- data.frame(x = c(1,2,3,4), y = c(10,20,30,40))
mydf2 <- data.frame(x = c(5,6), y = c(50,60))
mydf3 <- data.frame(z = c(100,200,300,400))
bind_rows(mydf1, mydf2)
bind_cols(mydf1, mydf3)
需要说明的是,bind_rows()函数需要两个数据框或tbl对象有相同的列数,而bind_cols()函数则需要两个数据框或tbl对象有相同的行数。
#管道函数
这里介绍一种dplyr包中特有的管道函数,即通过%>%将上一个函数的输出作为下一个函数的输入。
例子:根据数据集df2tbl和df2tbl2,取出z变量对应的最大y值
inner_join(x = df2tbl, y = df2tbl2, by = 'x') %>% group_by(., z) %>% summarize(., max(y))
#连接数据库数据
如果需要获取MySQL数据库中的数据时,可以直接使用dplyr包中的src_mysql()函数,其功能类似于RMySQL包。src_mysql()函数语法如下:
src_mysql(dbname, host = NULL, port = 0L, user = "root", password = "",
...)
通过以上方式连接MySQL数据库后,使用tbl()函数获取数据集,tbl()函数语法如下:
tbl(src,from = '')
src为src_mysql()函数对象
from为SQL语句
例子:
src <- src_mysql('test', host = 'localhost', user = 'root', password = 'snake')
src
#获取指定表中的数据
tbl(src, from = 'diff')
转载自:强大的dplyr包实现数据预处理
R----dplyr包介绍学习的更多相关文章
- R----ggplot2包介绍学习
分析数据要做的第一件事情,就是观察它.对于每个变量,哪些值是最常见的?值域是大是小?是否有异常观测? ggplot2图形之基本语法: ggplot2的核心理念是将绘图与数据分离,数据相关的绘图与数据无 ...
- R----ggplot2包介绍学习--转载
https://www.cnblogs.com/nxld/p/6059603.html 分析数据要做的第一件事情,就是观察它.对于每个变量,哪些值是最常见的?值域是大是小?是否有异常观测? ggplo ...
- R----data.table包介绍学习
相比dplyr包,data.table包能够更大程度地提高数据的处理速度,这里就简单介绍一下data.tale包的使用方法. data.table:用于快速处理大数据集的哦 数据的读取 data.ta ...
- R----stringr包介绍学习
1. stringr介绍 stringr包被定义为一致的.简单易用的字符串工具集.所有的函数和参数定义都具有一致性,比如,用相同的方法进行NA处理和0长度的向量处理. 字符串处理虽然不是R语言中最主要 ...
- R----tidyr包介绍学习
tidyr包:reshape2的替代者,功能更纯粹 tidyr包的应用 tidyr主要提供了一个类似Excel中数据透视表(pivot table)的功能;gather和spread函数将数据在长格式 ...
- R----Shiny包介绍学习
为什么用Shiny Shiny让数据分析师写完分析与可视化代码后,稍微再花几十分钟,就可以把分析代码工程化,将分析成果快速转化为交互式网页分享给别人.所以,如果你是一名使用R的数据分析师,选择Shin ...
- R-RMySQL包介绍学习
参考内容: RMySQL数据库编程指南R语言使用RMySQL连接及读写Mysql数据库 RMySql包安装和加载优点问题,试着根据提示简单安装和加载可以使用,后续再查询资料解决. 3.2.1 连接数据 ...
- R----plotly包介绍学习
plotly包:让ggplot2的静态图片变得可交互 Plotly 是个交互式可视化的第三方库,官网提供了Python,R,Matlab,JavaScript,Excel的接口,因此我们可以很方便地在 ...
- R----lubridata包介绍学习
lubridate包,非常强大,能够识别各种类型的日期.字符型和时间型数据,都是格式比较特别的你数据,在处理时,比较麻烦,但是有了lubridate这个包之后,时间处理变得非常简单,这个包函数命名简单 ...
随机推荐
- 过河问题nyoj47
时间限制:1000 ms | 内存限制:65535 KB 难度:5 描述 在漆黑的夜里,N位旅行者来到了一座狭窄而且没有护栏的桥边.如果不借助手电筒的话,大家是无论如何也不敢过桥去的.不幸的是 ...
- HTML5文件API
File对象与File对象 Blob对象 FileReader对象 File对象 <!DOCTYPE html> <html> <head> <meta ht ...
- BizTalk开发系列(三十三)BizTalk之Excel终极解决方案
Excel作为优秀的客户端数据处理程序得到了广泛的应用. 由于其简单又强大的功能在很多公司或个人的数据处理中占用非常重要的位置. 而BizTalk作为微软的SOA主打产品虽然免费提供了很多Adapte ...
- svn文件批量清除
svn文件批量清除 http://files.cnblogs.com/files/douxuyao/clearsvn.rar
- 解决Tomcat无法shutdown进程
转自:http://my.oschina.net/yongyi/blog/405198 问题分析 这个在windows下没有碰到过,因为此前跑Tomcat都是以服务而不是命令脚本的形式跑的,而且已经换 ...
- 谈谈Linux下动态库查找路径的问题 ldconfig LD_LIBRARY_PATH PKG_CONFIG_PATH
谈谈Linux下动态库查找路径的问题 ldconfig LD_LIBRARY_PATH PKG_CONFIG_PATH 转载自:http://blog.chinaunix.net/xmlrpc.ph ...
- form submit时将__VIEWSTATE和__VIEWSTATEGENERATOR一起post到另外的页面,出现验证视图状态 MAC 失败。
错误信息: 验证视图状态 MAC 失败.如果此应用程序由网络场或群集承载,请确保 配置指定了相同的 validationKey 和验证算法.不能在群集中使用 AutoGenerate. 原因分析: F ...
- App_global.asax.pdb: 另一个程序正在使用此文件,进程无法访问。
页面修改后,浏览报错,信息如下. 编译错误 说明: 在编译向该请求提供服务所需资源的过程中出现错误.请检查下列特定错误详细信息并适当地修改源代码. 编译器错误消息: CS0042: 创建调试信息文件“ ...
- win7系统如何安装SQL Server 2005
Microsoft Windows 7 旗舰版(32位) SQL Server 2005 简体中文开发板 方法/步骤 1 首先为了保证数据库的顺利安装,先启用IIS服务吧!Win7比XP好的一点是 ...
- RDIFramework.NET V2.9版本多语言的实现
RDIFramework.NET V2.9版本多语言的实现 现在是国际化时代,软件也不能落后.一个公司里很可能会有老外,也可能有台湾的朋友,他们用软件的习惯都不一样,若同样一个软件同时能适应多种语言文 ...