dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口,本节学习dplyr包函数基本用法。dplyr()可使用%>%(链式操作),其功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。注意,传递给下一个函数的第一个参数,那么下一个函数的第一个参数就不用写。

目录:

  • 筛选: filter()
  • 排列: arrange()
  • 选择: select()
  • 变形: mutate()
  • 汇总: summarise()
  • 分组: group_by()
  • 数据关连
  • bind

筛选: filter()


  • dplyr包安装及载入,使用datasets包中的mtcars数据集做演示,首先将过长的数据整理成友好的tbl_df数据:

    install.packages("dplyr")
    library(dplyr)
    mtcars_df = tbl_df(mtcars)
  • 按给定的逻辑判断筛选出符合要求的子数据集
  • 注意:只能将指定条件的观测筛选出来,为了弥补这个缺陷,可以使用select()函数筛选指定的变量,而且比subset()函数更灵活,而且选择变量的同时也可以重新命名变量。如果剔除某些变量的话,只需在变量前加上负号“-”。之所以说他比subset()函数灵活,是因为可以在select()函数传递如下参数:
    1. starts_with(x, ignor.case = TRUE)#选择以字符x开头的变量
    2. ends_with(x, ignor.case = TRUE)#选择以字符x结尾的变量
    3. contains(x, ignor.case = TRUE)#选择所有包含x的变量
    4. matches(x, ignor.case = TRUE)#选择匹配正则表达式的变量
    5. num_range('x', 1:5, width = 2)#选择x01到x05的变量
    6. one_of('x','y','z')#选择包含在声明变量中的
    7. everything()#选择所有变量,一般调整数据集中变量顺序时使用
  • > filter(mtcars_df, hp<110 & vs == 1)
    # A tibble: 10 × 11
    mpg cyl disp hp drat wt qsec vs am gear carb
    <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
    1 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1
    2 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1
    3 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2
    4 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2

排列: arrange()


  • 按给定的列名依次对行进行排序:

    > a <- head(mtcars_df,2)
    > a
    # A tibble: 2 × 11
    mpg cyl disp hp drat wt qsec vs am gear carb
    <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
    1 21 6 160 110 3.9 2.620 16.46 0 1 4 4
    2 21 6 160 110 3.9 2.875 17.02 0 1 4 4
    > arrange(a,desc(wt,qsec))
    # A tibble: 2 × 11
    mpg cyl disp hp drat wt qsec vs am gear carb
    <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
    1 21 6 160 110 3.9 2.875 17.02 0 1 4 4
    2 21 6 160 110 3.9 2.620 16.46 0 1 4 4
    > arrange(a,wt,qsec)
    # A tibble: 2 × 11
    mpg cyl disp hp drat wt qsec vs am gear carb
    <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
    1 21 6 160 110 3.9 2.620 16.46 0 1 4 4
    2 21 6 160 110 3.9 2.875 17.02 0 1 4 4

选择: select()


  • 用列名作参数来选择子数据集:

    > mtcars_df %>% select(mpg,wt,qsec)
    # A tibble: 32 × 3
    mpg wt qsec
    * <dbl> <dbl> <dbl>
    1 21.0 2.620 16.46
    2 21.0 2.875 17.02

变形: mutate()


  • 对已有列进行数据运算并添加为新列:

    > mutate(mtcars_df, NO = 1:dim(mtcars_df)[1])
    # A tibble: 32 × 12
    mpg cyl disp hp drat wt qsec vs am gear carb NO
    <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <int>
    1 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4 1
    2 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4 2
    3 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1 3
    4 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1 4
    5 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2 5
    6 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1 6

汇总: summarise()


  • 对数据框调用其它函数进行汇总操作, 返回一维的结果:

    > summarise(mtcars, mean(disp))
    mean(disp)
    1 230.7219
    > summarise(group_by(mtcars, cyl), mean(disp))
    # A tibble: 3 × 2
    cyl `mean(disp)`
    <dbl> <dbl>
    1 4 105.1364
    2 6 183.3143
    3 8 353.1000
  • 可以用来聚合的函数有:  
    1. min():返回最小值
    2. max():返回最大值
    3. mean():返回均值
    4. sum():返回总和
    5. sd():返回标准差
    6. median():返回中位数
    7. IQR():返回四分位极差
    8. n():返回观测个数
    9. n_distinct():返回不同的观测个数
    10. first():返回第一个观测
    11. last():返回最后一个观测
    12. nth():返回n个观测

分组: group_by()


  • 当对数据集通过group_by()添加了分组信息后,mutate(),arrange() 和 summarise() 函数会自动对这些 tbl 类数据执行分组操作。

    > cars <- group_by(mtcars_df, cyl)
    > summarise(cars, count = n()) # count = n()用来计算次数
    # A tibble: 3 × 2
    cyl count
    <dbl> <int>
    1 4 11
    2 6 7
    3 8 14

数据关连


  • 数据库中经常需要将多个表进行连接操作,如左连接、右连接、内连接等,这里dplyr包也提供了数据集的连接操作,具体如下
    1. left_join(a, b, by="x1")
    2. right_join(a, b, by="x1")
    3. inner_join(a, b, by="x1")
    4. outer_join(a, b, by="x1")
    5. semi_join(a, b, by="x1") # 数据集a中能与数据集b匹配的记录
    6. anti_join(a, b, by="x1") # 数据集a中雨数据集b不匹配的记录
    7. intersect(x, y): x 和 y 的交集(按行)
    8. union(x, y): x 和 y 的并集(按行)
    9. setdiff(x, y): x 和 y 的补集 (在x中不在y中)

bind


    • 在R基础包里有cbind()函数和rbind()函数实现按列的方向进行数据合并和按行的方向进行数据合并,而在dplyr包中也添加了类似功能的函数,它们是bind_cols()函数和bind_rows()函数
    • bind_rows()函数需要两个数据框或tbl对象有相同的列数,而bind_cols()函数则需要两个数据框或tbl对象有相同的行数。
      mydf1 <- data.frame(x = c(1,2,3,4), y = c(10,20,30,40))
      mydf2 <- data.frame(x = c(5,6), y = c(50,60))
      mydf3 <- data.frame(z = c(100,200,300,400))
      bind_rows(mydf1, mydf2)
      bind_cols(mydf1, mydf3)

R(6): 数据处理包dplyr的更多相关文章

  1. R语言数据处理包dplyr、tidyr笔记

    dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley ...

  2. R语言中的数据处理包dplyr、tidyr笔记

    R语言中的数据处理包dplyr.tidyr笔记   dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了 ...

  3. R语言扩展包dplyr——数据清洗和整理

    R语言扩展包dplyr——数据清洗和整理 标签: 数据R语言数据清洗数据整理 2015-01-22 18:04 7357人阅读 评论(0) 收藏 举报  分类: R Programming(11)  ...

  4. R语言数据处理利器——dplyr简介

    dplyr是由Hadley Wickham主持开发和维护的一个主要针对数据框快速计算.整合的函数包,同时提供一些常用函数的高速写法以及几个开源数据库的连接.此包是plyr包的深化功能包,其名字中的字母 ...

  5. 数据处理包dplyr的函数

    dplyr专注处理dataframe对象, 并提供更稳健的与其它数据库对象间的接口. 一.5个关键的数据处理函数: select()   返回列的子集filter()     返回行的子集arrang ...

  6. R语言扩展包dplyr笔记

    引言 2014年刚到, 就在 Feedly 订阅里看到 RStudio Blog 介绍 dplyr 包已发布 (Introducing dplyr), 此包将原本 plyr 包中的 ddply() 等 ...

  7. reshape2包--R高效数据处理包

    介绍如何使用reshape2包将宽型数据转换成长型数据,将长型数据转换成宽型数据.Reshape2是Hadley Wickham开发和维护的. 1.长数据VS宽数据 宽型数据:每列代表一个不同的变量. ...

  8. 数据处理包plyr和dplyr包的整理

    以下内容主要参照 Introducing dplyr 和 dplyr 包自带的简介 (Introduction to dplyr), 复制了原文对应代码, 并夹杂了个人理解和观点 (多附于括号内). ...

  9. R语言 ggplot2包

    R语言  ggplot2包的学习   分析数据要做的第一件事情,就是观察它.对于每个变量,哪些值是最常见的?值域是大是小?是否有异常观测? ggplot2图形之基本语法: ggplot2的核心理念是将 ...

随机推荐

  1. property 的详细使用方法

    property(fget=None, fset=None, fdel=None, doc=None)  俗话说条条大路通罗马,同样是完成一件事,Python 其实提供了好几个方式供你选择. prop ...

  2. 《Python》 面向对象初识(组合)

    一.面向对象(组合): 定义:给一个类的对象封装一个属性,这个属性是另一个类的对象. 意义:让类的对象与另一个类的对象产生关系,类与类之间产生关系. 人物使用武器攻击另一个人物: class Game ...

  3. 线程局部存储TLS

    1 .使用线程局部存储的理由 当我们希望这个进程的全局变量变为线程私有时,而不是所有线程共享的,也就是每个线程拥有一份副本时,这时候就可以用到线程局部存储(TLS,Thread Local Stora ...

  4. L1-025 正整数A+B

    题的目标很简单,就是求两个正整数A和B的和,其中A和B都在区间[1,1000].稍微有点麻烦的是,输入并不保证是两个正整数. 输入格式: 输入在一行给出A和B,其间以空格分开.问题是A和B不一定是满足 ...

  5. L215 Visual impairment

    Visual impairment(视觉障碍)carries with it a reduced or restricted ability to travel through one’s physi ...

  6. php_os 检查php运行环境

    if(strtolower(PHP_OS)=='linux'){ $tests['os']['state']="good"; $tests['os']['message']='OS ...

  7. FDMemTable.Delta 转SQL语句脚本

    {*******************************************************} { } { XE7.XE8.XE10 安卓 IOS 框架 } { } { 版权所有 ...

  8. Ubuntu:火狐浏览器加速下载(Flashgot+Aria2+Uget)

    火狐浏览器加速下载 应用到的程序 Aria2 Uget firefox插件Flashgot 1.下载Uget sudo apt-get install uget 2. 下载Aria2 sudo apt ...

  9. C#中.XSD是什么文件?

    xml的Schema文件 如果把xml看做数据库的数据,那么Schema文件就相当于数据库,表的结构(比如有哪些字段,约束等等)

  10. 揭秘Keras推荐系统如何建立模型、获取用户爱好

    你是否有过这样的经历?当你在亚马逊商城浏览一些书籍,或者购买过一些书籍后,你的偏好就会被系统学到,系统会基于一些假设为你推荐相关书目.为什么系统会知道,在这背后又藏着哪些秘密呢? 荐系统可以从百万甚至 ...