用R的dplyr进行数据转换(一)

在网上找了很久关于数据转换的，都没有找到比较好的。现在为大家整理一下。按照我自己的思路。当然也是为了自己做笔记。

为了方便，大家可以统一安装一个系列的包，这个只需要安装tidyverse这个包就可以，它会安装一系列的数据处理的包，比如ggplot2，dplyr等主力的包。

#安装tidyverse包
install.packages('tidyverse')
#加载这个包
library(tidyverse)

　　我现在使用的版本如下：

#需要先安装devtools这个包
> devtools::session_info(c('tidyverse'))
Session info -------------------------------------------------------------------------------
 setting  value
 version  R version 3.4.4 (2018-03-15)
 system   x86_64, mingw32
 ui       RStudio (1.1.442)
 language (EN)
 collate  Chinese (Simplified)_China.936
 tz       Asia/Taipei
 date     2018-04-11                    
 
Packages -----------------------------------------------------------------------------------
 package      * version   date       source
 assertthat     0.2.0     2017-04-11 CRAN (R 3.4.4)
 backports      1.1.2     2017-12-13 CRAN (R 3.4.3)
 base64enc      0.1-3     2015-07-28 CRAN (R 3.4.1)
 BH             1.66.0-1  2018-02-13 CRAN (R 3.4.3)
 bindr          0.1.1     2018-03-13 CRAN (R 3.4.4)
 bindrcpp       0.2       2017-06-17 CRAN (R 3.4.4)
 broom          0.4.3     2017-11-20 CRAN (R 3.4.3)
 callr          2.0.2     2018-02-11 CRAN (R 3.4.4)
 cellranger     1.1.0     2016-07-27 CRAN (R 3.4.4)
 cli            1.0.0     2017-11-05 CRAN (R 3.4.4)
 colorspace     1.3-2     2016-12-14 CRAN (R 3.4.4)
 compiler       3.4.4     2018-03-15 local
 crayon         1.3.4     2017-09-16 CRAN (R 3.4.4)
 curl           3.1       2017-12-12 CRAN (R 3.4.3)
 DBI            0.8       2018-03-02 CRAN (R 3.4.4)
 dbplyr         1.2.1     2018-02-19 CRAN (R 3.4.4)
 debugme        1.1.0     2017-10-22 CRAN (R 3.4.4)
 dichromat      2.0-0     2013-01-24 CRAN (R 3.4.1)
 digest         0.6.15    2018-01-28 CRAN (R 3.4.3)
 dplyr          0.7.4     2017-09-28 CRAN (R 3.4.3)
 evaluate       0.10.1    2017-06-24 CRAN (R 3.4.4)
 forcats        0.3.0     2018-02-19 CRAN (R 3.4.4)
 foreign        0.8-69    2017-06-22 CRAN (R 3.4.4)
 ggplot2        2.2.1     2016-12-30 CRAN (R 3.4.4)
 glue           1.2.0     2017-10-29 CRAN (R 3.4.4)
 graphics     * 3.4.4     2018-03-15 local
 grDevices    * 3.4.4     2018-03-15 local
 grid           3.4.4     2018-03-15 local
 gtable         0.2.0     2016-02-26 CRAN (R 3.4.4)
 haven          1.1.1     2018-01-18 CRAN (R 3.4.4)
 highr          0.6       2016-05-09 CRAN (R 3.4.4)
 hms            0.4.2     2018-03-10 CRAN (R 3.4.4)
 htmltools      0.3.6     2017-04-28 CRAN (R 3.4.4)
 httr           1.3.1     2017-08-20 CRAN (R 3.4.4)
 jsonlite       1.5       2017-06-01 CRAN (R 3.4.4)
 knitr          1.20      2018-02-20 CRAN (R 3.4.4)
 labeling       0.3       2014-08-23 CRAN (R 3.4.1)
 lattice        0.20-35   2017-03-25 CRAN (R 3.4.4)
 lazyeval       0.2.1     2017-10-29 CRAN (R 3.4.4)
 lubridate      1.7.2     2018-02-06 CRAN (R 3.4.3)
 magrittr       1.5       2014-11-22 CRAN (R 3.4.4)
 markdown       0.8       2017-04-20 CRAN (R 3.4.4)
 MASS           7.3-49    2018-02-23 CRAN (R 3.4.4)
 methods      * 3.4.4     2018-03-15 local
 mime           0.5       2016-07-07 CRAN (R 3.4.1)
 mnormt         1.5-5     2016-10-15 CRAN (R 3.4.1)
 modelr         0.1.1     2017-07-24 CRAN (R 3.4.4)
 munsell        0.4.3     2016-02-13 CRAN (R 3.4.4)
 nlme           3.1-131.1 2018-02-16 CRAN (R 3.4.4)
 openssl        1.0.1     2018-03-03 CRAN (R 3.4.4)
 parallel       3.4.4     2018-03-15 local
 pillar         1.2.1     2018-02-27 CRAN (R 3.4.4)
 pkgconfig      2.0.1     2017-03-21 CRAN (R 3.4.4)
 plogr          0.2.0     2018-03-25 CRAN (R 3.4.4)
 plyr           1.8.4     2016-06-08 CRAN (R 3.4.4)
 praise         1.0.0     2015-08-11 CRAN (R 3.4.4)
 psych          1.7.8     2017-09-09 CRAN (R 3.4.4)
 purrr          0.2.4     2017-10-18 CRAN (R 3.4.4)
 R6             2.2.2     2017-06-17 CRAN (R 3.4.4)
 RColorBrewer   1.1-2     2014-12-07 CRAN (R 3.4.1)
 Rcpp           0.12.16   2018-03-13 CRAN (R 3.4.4)
 readr          1.1.1     2017-05-16 CRAN (R 3.4.4)
 readxl         1.0.0     2017-04-18 CRAN (R 3.4.4)
 rematch        1.0.1     2016-04-21 CRAN (R 3.4.4)
 reprex         0.1.2     2018-01-26 CRAN (R 3.4.4)
 reshape2       1.4.3     2017-12-11 CRAN (R 3.4.4)
 rlang          0.2.0     2018-02-20 CRAN (R 3.4.4)
 rmarkdown      1.9       2018-03-01 CRAN (R 3.4.4)
 rprojroot      1.3-2     2018-01-03 CRAN (R 3.4.4)
 rstudioapi     0.7       2017-09-07 CRAN (R 3.4.4)
 rvest          0.3.2     2016-06-17 CRAN (R 3.4.4)
 scales         0.5.0     2017-08-24 CRAN (R 3.4.4)
 selectr        0.3-2     2018-03-05 CRAN (R 3.4.4)
 stats        * 3.4.4     2018-03-15 local
 stringi        1.1.7     2018-03-12 CRAN (R 3.4.4)
 stringr        1.3.0     2018-02-19 CRAN (R 3.4.4)
 testthat       2.0.0     2017-12-13 CRAN (R 3.4.4)
 tibble         1.4.2     2018-01-22 CRAN (R 3.4.4)
 tidyr          0.8.0     2018-01-29 CRAN (R 3.4.4)
 tidyselect     0.2.4     2018-02-26 CRAN (R 3.4.4)
 tidyverse      1.2.1     2017-11-14 CRAN (R 3.4.4)
 tools          3.4.4     2018-03-15 local
 utf8           1.1.3     2018-01-03 CRAN (R 3.4.4)
 utils        * 3.4.4     2018-03-15 local
 viridisLite    0.3.0     2018-02-01 CRAN (R 3.4.4)
 whisker        0.3-2     2013-04-28 CRAN (R 3.4.4)
 withr          2.1.2     2018-03-15 CRAN (R 3.4.4)
 xml2           1.2.0     2018-01-24 CRAN (R 3.4.4)
 yaml           2.1.18    2018-03-08 CRAN (R 3.4.4)

　　我们选取一个航班的数据集，这个数据在下面这个包里面，也需要安装

#安装这个包
install.packages('nycflights13')
#加载这个包
library(nycflights13)

　　查看这个数据集（这个数据集包含2013年从纽约市出发的所有336778架航班）

> flights
# A tibble: 336,776 x 19
    year month   day dep_time sched_dep_time dep_delay arr_time sched_arr_time arr_delay
   <int> <int> <int>    <int>          <int>     <dbl>    <int>          <int>     <dbl>
 1  2013     1     1      517            515        2.      830            819       11.
 2  2013     1     1      533            529        4.      850            830       20.
 3  2013     1     1      542            540        2.      923            850       33.
 4  2013     1     1      544            545       -1.     1004           1022      -18.
 5  2013     1     1      554            600       -6.      812            837      -25.
 6  2013     1     1      554            558       -4.      740            728       12.
 7  2013     1     1      555            600       -5.      913            854       19.
 8  2013     1     1      557            600       -3.      709            723      -14.
 9  2013     1     1      557            600       -3.      838            846       -8.
10  2013     1     1      558            600       -2.      753            745        8.
# ... with 336,766 more rows, and 10 more variables: carrier <chr>, flight <int>,
#   tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>,
#   minute <dbl>, time_hour <dttm>

　　这个数据集其实是tibbles格式的，和R的普通的data.frame格式不一样。但是差不多。在这个列名称的下面会有这列的格式，比如int是整形的，dbl是双精度型的，当然啦，R和别的语言不一样，我觉得不要太关注他们的数据格式，大概知道哪些是连续的、哪些是离散的、哪些是字符型的，当然在特殊的情况下，需要考虑，我们现在就暂时不考虑。

好了好了，这些准备的东西就介绍到这吧。进入正题：

dplyr有几个主要的函数。如下：

filter()——这个是按照他的值进行筛选

arrange()——这个就是排序呀！

select()——这个是通过变量名选择变量

mutate()——这个是用现有的变量函数创建新变量

summarize()——这个是将许多值折叠为单个摘要（通常和group_by()函数在一起用，别说是我说的，我就是先透漏一下）

filter()函数

> filter(flights,month == 1,day == 1)
# A tibble: 842 x 19
    year month   day dep_time sched_dep_time dep_delay arr_time sched_arr_time
   <int> <int> <int>    <int>          <int>     <dbl>    <int>          <int>
 1  2013     1     1      517            515        2.      830            819
 2  2013     1     1      533            529        4.      850            830
 3  2013     1     1      542            540        2.      923            850
 4  2013     1     1      544            545       -1.     1004           1022
 5  2013     1     1      554            600       -6.      812            837
 6  2013     1     1      554            558       -4.      740            728
 7  2013     1     1      555            600       -5.      913            854
 8  2013     1     1      557            600       -3.      709            723
 9  2013     1     1      557            600       -3.      838            846
10  2013     1     1      558            600       -2.      753            745
# ... with 832 more rows, and 11 more variables: arr_delay <dbl>, carrier <chr>,
#   flight <int>, tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>,
#   distance <dbl>, hour <dbl>, minute <dbl>, time_hour <dttm>

　　上面这个意思很明显，就是选择在这数据集中，month等于1且day等于1的行。看吧，很简单吧，这个是生成一个新的数据，不对原来的数据框进行修改。

例如：

> (dec25 <- filter(flights,month == 1,day == 25))
# A tibble: 922 x 19
    year month   day dep_time sched_dep_time dep_delay arr_time sched_arr_time
   <int> <int> <int>    <int>          <int>     <dbl>    <int>          <int>
 1  2013     1    25       15           1815      360.      208           1958
 2  2013     1    25       17           2249       88.      119           2357
 3  2013     1    25       26           1850      336.      225           2055
 4  2013     1    25      123           2000      323.      229           2101
 5  2013     1    25      123           2029      294.      215           2140
 6  2013     1    25      456            500       -4.      632            648
 7  2013     1    25      519            525       -6.      804            820
 8  2013     1    25      527            530       -3.      820            829
 9  2013     1    25      535            540       -5.      826            850
10  2013     1    25      539            540       -1.     1006           1017
# ... with 912 more rows, and 11 more variables: arr_delay <dbl>, carrier <chr>,
#   flight <int>, tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>,
#   distance <dbl>, hour <dbl>, minute <dbl>, time_hour <dttm>

　　当然，也可以用一些逻辑符号，只要你逻辑清楚，都可以用，你只要保证你的数据集在filte()函数的最前面的位置，后面尽管添加约束条件。比如你可以这样做：

> filter(flights,month == 11 | month == 12)#这个是选择month等于11和等于12的列
# A tibble: 55,403 x 19
    year month   day dep_time sched_dep_time dep_delay arr_time sched_arr_time
   <int> <int> <int>    <int>          <int>     <dbl>    <int>          <int>
 1  2013    11     1        5           2359        6.      352            345
 2  2013    11     1       35           2250      105.      123           2356
 3  2013    11     1      455            500       -5.      641            651
 4  2013    11     1      539            545       -6.      856            827
 5  2013    11     1      542            545       -3.      831            855
 6  2013    11     1      549            600      -11.      912            923
 7  2013    11     1      550            600      -10.      705            659
 8  2013    11     1      554            600       -6.      659            701
 9  2013    11     1      554            600       -6.      826            827
10  2013    11     1      554            600       -6.      749            751
# ... with 55,393 more rows, and 11 more variables: arr_delay <dbl>, carrier <chr>,
#   flight <int>, tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>,
#   distance <dbl>, hour <dbl>, minute <dbl>, time_hour <dttm>
> (nov_dec <- filter(flights,month %in% c(11,12)))#这个是选择month等于11和12的列
# A tibble: 55,403 x 19
    year month   day dep_time sched_dep_time dep_delay arr_time sched_arr_time
   <int> <int> <int>    <int>          <int>     <dbl>    <int>          <int>
 1  2013    11     1        5           2359        6.      352            345
 2  2013    11     1       35           2250      105.      123           2356
 3  2013    11     1      455            500       -5.      641            651
 4  2013    11     1      539            545       -6.      856            827
 5  2013    11     1      542            545       -3.      831            855
 6  2013    11     1      549            600      -11.      912            923
 7  2013    11     1      550            600      -10.      705            659
 8  2013    11     1      554            600       -6.      659            701
 9  2013    11     1      554            600       -6.      826            827
10  2013    11     1      554            600       -6.      749            751
# ... with 55,393 more rows, and 11 more variables: arr_delay <dbl>, carrier <chr>,
#   flight <int>, tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>,
#   distance <dbl>, hour <dbl>, minute <dbl>, time_hour <dttm>
> filter(flights,arr_delay <= 120,dep_delay <= 120)#这个可以选择arr_delay小于等于120且dep_delay小于等于120的列
# A tibble: 316,050 x 19
    year month   day dep_time sched_dep_time dep_delay arr_time sched_arr_time
   <int> <int> <int>    <int>          <int>     <dbl>    <int>          <int>
 1  2013     1     1      517            515        2.      830            819
 2  2013     1     1      533            529        4.      850            830
 3  2013     1     1      542            540        2.      923            850
 4  2013     1     1      544            545       -1.     1004           1022
 5  2013     1     1      554            600       -6.      812            837
 6  2013     1     1      554            558       -4.      740            728
 7  2013     1     1      555            600       -5.      913            854
 8  2013     1     1      557            600       -3.      709            723
 9  2013     1     1      557            600       -3.      838            846
10  2013     1     1      558            600       -2.      753            745
# ... with 316,040 more rows, and 11 more variables: arr_delay <dbl>, carrier <chr>,
#   flight <int>, tailnum <chr>, origin <chr>, dest <chr>, air_time <dbl>,
#   distance <dbl>, hour <dbl>, minute <dbl>, time_hour <dttm>

　　那么遇到了缺失值怎么办，怎么办，怎么办，，，，，，，

我来告诉你，那就是filter()会忽略所有缺失值，你可以看下面这个例子，仔细琢磨一下你就可以发现这个奥秘

> (df <- tibble(x = c(1,NA,3)))#不要惊慌，这个也就相当于构成一个data.frame()数据集，哎呀，差不多。不要怕
# A tibble: 3 x 1
      x
  <dbl>
1    1.
2   NA
3    3.
 
> filter(df,x > 1)
# A tibble: 1 x 1
      x
  <dbl>
1    3.
 
> filter(df,is.na(x) | x > 1)#看我，看这里，有没有发现加上一个is.na(x)就出现缺失值了。厉害吧
# A tibble: 2 x 1
      x
  <dbl>
1   NA
2    3.

今天就先写这么多了，我女朋友找我了，溜了

用R的dplyr进行数据转换(一)的更多相关文章

R语言dplyr包初探
昨天学了一下R语言dplyr包,处理数据框还是很好用的.记录一下免得我忘记了... 先写一篇入门的,以后有空再写一篇详细的用法. #dplyr learning library(dplyr) #fil ...
[R]在dplyr函数的基础上编写函数-(3)tidyeval
dplyr的优点很明显,数据框操作简洁,如filter(df, x == 1, y == 2, z == 3)等于df[df$x == 1 & df$y ==2 & df$z == 3 ...
[R]在dplyr基础上编写函数-(2)substitute和quote
关于这两个函数,官方是这么定义的: substitute returns the parse tree for the (unevaluated) expression expr, substitut ...
R中将list类型数据转换成data.frame型
例如将如下数据转换成data.frame型: l <- replicate( 5, list(sample(letters, 4)), simplify = FALSE ) => 用unl ...
R Tidyverse dplyr包学习笔记2
Tidyverse 学习笔记 1.gapminder 我理解的gapminder应该是一个内置的数据集加载之后使用 > # Load the gapminder package > li ...
R之dplyr::select/mutate函数扩展
select函数 dplyr包select函数用的很多,不过我们一般也是通过正反选列名或数字来选择列. 常见用法如: select(iris,c(1,3)) select(iris,1,3) #同上 ...
[R]在dplyr基础上编写函数-(1)eval
tidyverse系列的R包虽然解放了大家的双手,但同时也束缚了我们重新编写函数的能力.在这一套语法中,要实现作为函数参数的字符串和变量之间的相互转换困难重重,但只要掌握了其中原理后,也就能够游刃有余 ...
R数据科学-1
R数据科学(R for Data Science) Part 1:探索 by: PJX for 查漏补缺 exercise: https://jrnold.github.io/r4ds-exercis ...
【计理05组01号】R 语言基础入门
R 语言基本数据结构首先让我们先进入 R 环境下: sudo R 赋值 R 中可以用 = 或者 <- 来进行赋值 ,<- 的快捷键是 alt + - . > a <- c(2 ...

随机推荐

吴裕雄--天生自然 PYTHON3开发学习：元组
tup1 = ('Google', 'Runoob', 1997, 2000) tup2 = (1, 2, 3, 4, 5, 6, 7 ) print ("tup1[0]: ", ...
IOC与AOP的理解
转自 https://blog.csdn.net/qq_38006047/article/details/80797386 1,理解“控制反转” 控制反转,也叫依赖注入,是面向对象编程中的一种设计理念 ...
QeePHP
百度百科: https://baike.baidu.com/item/qeephp/8328612?fr=aladdin 官方地址: http://www.qeephp.cn/app/index.ph ...
实用 | PyCharm常用快捷键整理
PyCharm是一款非常受欢迎的Python IDE,用Python高效处理web和数据科学,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试.语法高亮.Project管理 ...
goweb- session和数据存储
session和数据存储 Web开发中一个很重要的议题就是如何做好用户的整个浏览过程的控制,因为HTTP协议是无状态的,所以用户的每一次请求都是无状态的,我们不知道在整个Web操作过程中哪些连接与该用 ...
Prometheus监控系统之入门篇（一）续
在上篇Prometheus监控系统之入门篇(一)中我们讲解了Prometheus的基本架构和工作流程, 并从0到1搭建了Prometheus服务,pushgateway以及告警系统. 本篇我们主要介绍 ...
利用docker安装gitlab
安装docker 安装 virtualbox 下载 dockertoolbox并安装官网的服务器一直连不上, 幸亏还有这个 https://get.daocloud.io/toolbox/ 比 ht ...
spark mllib lda 简单示例
舆情系统每日热词用到了lda主题聚类原先的版本是python项目,分词应用Jieba,LDA应用Gensim 项目工作良好有以下几点问题 1 舆情产品基于elasticsearch大数据,es内应 ...
Codeforces1304D Shortest and Longest LIS
前置扯淡 %%@$wucstido$,思路是在是巧妙---link Description 给一个长度为$n$由 $<$ 和 $>$组成的字符串,表示序列中相邻位置的数的大 ...
Overlapping generations model
I.6 Overlapping generations 世代被分离开,世代不重复一定满足哈代公式的条件,但是现实情况远没有这么简单(因为会世代重叠,即亲代死去同时一个亲代在不同时间都有可能产生子代,因 ...

用R的dplyr进行数据转换(一)

用R的dplyr进行数据转换(一)的更多相关文章

随机推荐

热门专题