2015-01-22 18:04 7357人阅读 评论(0) 收藏 举报
 分类:
R Programming(11) 

版权声明:本文为博主原创文章,未经博主允许不得转载。

该包主要用于数据清洗和整理,coursera课程链接:Getting and Cleaning Data

也可以载入swirl包,加载课Getting and Cleaning Data跟着学习。

如下:

  1. library(swirl)
  2. install_from_swirl("Getting and Cleaning Data")
  3. swirl()

此文主要是参考R自带的简介:Introduce to dplyr

1、示范数据

  1. > library(nycflights13)
  2. > dim(flights)
  3. [1] 336776     16
  4. > head(flights, 3)
  5. Source: local data frame [3 x 16]
  6. year month day dep_time dep_delay arr_time arr_delay carrier tailnum flight origin dest air_time
  7. 1 2013     1   1      517         2      830        11      UA  N14228   1545    EWR  IAH      227
  8. 2 2013     1   1      533         4      850        20      UA  N24211   1714    LGA  IAH      227
  9. 3 2013     1   1      542         2      923        33      AA  N619AA   1141    JFK  MIA      160
  10. Variables not shown: distance (dbl), hour (dbl), minute (dbl)

2、将过长的数据整理成友好的tbl_df数据

  1. > flights_df <- tbl_df(flights)
  2. > flights_df

3、筛选filter()

  1. > filter(flights_df, month == 1, day == 1)
  2. Source: local data frame [842 x 16]
  3. year month day dep_time dep_delay arr_time arr_delay carrier tailnum flight origin dest air_time
  4. 1  2013     1   1      517         2      830        11      UA  N14228   1545    EWR  IAH      227
  5. 2  2013     1   1      533         4      850        20      UA  N24211   1714    LGA  IAH      227

筛选出month=1和day=1的数据

同样效果的,

  1. flights_df[flights_df$month == 1 & flights_df$day == 1, ]

4、选出几行数据slice()

  1. slice(flights_df, 1:10)

5、排列arrange()

  1. >arrange(flights_df, year, month, day)

将flights_df数据按照year,month,day的升序排列。

降序

  1. >arrange(flights_df, year, desc(month), day)

R语言当中的自带函数

  1. flights_df[order(flights$year, flights_df$month, flights_df$day), ]
  2. flights_df[order(desc(flights_df$arr_delay)), ]

6、选择select()

通过列名来选择所要的数据

  1. select(flights_df, year, month, day)

选出三列数据
使用:符号

  1. select(flights_df, year:day)

使用-来删除不要的列表

  1. select(flights_df, -(year:day))

7、变形mutate()

产生新的列

  1. > mutate(flights_df,
  2. +        gain = arr_delay - dep_delay,
  3. +        speed = distance / air_time * 60)

8、汇总summarize()

  1. <pre name="code" class="html">> summarise(flights,
  2. +           delay = mean(dep_delay, na.rm = TRUE)

求dep_delay的均值

9、随机选出样本

  1. sample_n(flights_df, 10)

随机选出10个样本

  1. sample_frac(flights_df, 0.01)

随机选出1%个样本

10、分组group_py()

  1. by_tailnum <- group_by(flights, tailnum)
  2. #确定组别为tailnum,赋值为by_tailnum
  3. delay <- summarise(by_tailnum,
  4. count = n(),
  5. dist = mean(distance, na.rm = TRUE),
  6. delay = mean(arr_delay, na.rm = TRUE))
  7. #汇总flights里地tailnum组的分类数量,及其组别对应的distance和arr_delay的均值
  8. delay <- filter(delay, count > 20, dist < 2000)
  9. ggplot(delay, aes(dist, delay)) +
  10. geom_point(aes(size = count), alpha = 1/2) +
  11. geom_smooth() +
  12. scale_size_area()

结果都需要通过赋值存储

  1. a1 <- group_by(flights, year, month, day)
  2. a2 <- select(a1, arr_delay, dep_delay)
  3. a3 <- summarise(a2,
  4. arr = mean(arr_delay, na.rm = TRUE),
  5. dep = mean(dep_delay, na.rm = TRUE))
  6. a4 <- filter(a3, arr > 30 | dep > 30)

11、引入链接符%>%

使用时把数据名作为开头,然后依次对数据进行多步操作:

  1. flights %>%
  2. group_by(year, month, day) %>%
  3. select(arr_delay, dep_delay) %>%
  4. summarise(
  5. arr = mean(arr_delay, na.rm = TRUE),
  6. dep = mean(dep_delay, na.rm = TRUE)
  7. ) %>%
  8. filter(arr > 30 | dep > 30)

前面都免去了数据名

若想要进行更多地了解这个包,可以参考其自带的说明书(60页):dplyr

R语言扩展包dplyr——数据清洗和整理的更多相关文章

  1. R语言扩展包dplyr笔记

    引言 2014年刚到, 就在 Feedly 订阅里看到 RStudio Blog 介绍 dplyr 包已发布 (Introducing dplyr), 此包将原本 plyr 包中的 ddply() 等 ...

  2. R语言数据处理包dplyr、tidyr笔记

    dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley ...

  3. 安装R语言扩展包diveRsity-1

    今天去了学院的运动会呢-扮熊本熊超开心-写完这篇我补上我的图么么哒 ××××××××××××文末高能预警!!!!!这个包的安装并不是本周的任务!!!!!我真是萌萌哒×××××××××××××× ××× ...

  4. 安装R语言扩展包vegan

    这周的作业我开始得好迟啊...然而还是要努力做啊... ××××××××××××××我是萌萌哒分割线×××××××××××××××××××××××××××××××××××× 首先,百度进入官方页面,看 ...

  5. R语言 ggplot2包

    R语言  ggplot2包的学习   分析数据要做的第一件事情,就是观察它.对于每个变量,哪些值是最常见的?值域是大是小?是否有异常观测? ggplot2图形之基本语法: ggplot2的核心理念是将 ...

  6. R语言重要数据集分析研究——需要整理分析阐明理念

    1.R语言重要数据集分析研究需要整理分析阐明理念? 上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候如何下手分析,数据分析的第一步,探索性数据分析. 统计量,即统计学里面关注的数据集的几个指标 ...

  7. R语言-神经网络包RSNNS

    code{white-space: pre;} pre:not([class]) { background-color: white; }if (window.hljs && docu ...

  8. R语言-Knitr包的详细使用说明

    R语言-Knitr包的详细使用说明 by 扬眉剑 来自数盟[总舵] 群:321311420 1.相关资料 1:自动化报告-谢益辉 https://github.com/yihui/r-ninja/bl ...

  9. 安装R语言的包的方法

    安装R语言的包的方法: 1. 在线安装 在R的控制台,输入类似install.packages("TSA")  # 安装 TSA install.packages("TS ...

随机推荐

  1. Scrapy基础(十)———同步机制将Item中的数据写在Mysql

      前面讲解到将Item中的所有字段都已经填写完成,那么接下来就是将他们存储到mysql数据库中,那就用到了pipeline项目管道了:  对项目管道的理解:做一个比喻,爬取好比是开采石油,Item装 ...

  2. javaScript中with函数用法实例分析

    javaScript 中的 with 函数 ,即所谓的with 语句,可以方便地用来引用某个特定对象中已有的属性,但是不能用来给对象添加属性,要给对象创建新的属性,必须明确地引用该对象. with 函 ...

  3. centos下python安装与虚拟环境配置

    Centos7下安装Python3.7 首先安装依赖包,centos里面是-devel,如果在ubuntu下安装则要改成-dev,依赖包缺一不可,笔者曾安装python3未成功就是因为没有安装libf ...

  4. 利用api模拟百度搜索功能

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  5. Codeforces Round #539 (Div. 2)

    Codeforces Round #539 (Div. 2) A - Sasha and His Trip #include<bits/stdc++.h> #include<iost ...

  6. vue中的v-cloak

    问题 在使用vue时,HTML 绑定 Vue实例,在页面加载时会闪烁类似{{msg}}这样的信息.可能会导致用户体验不好. 使用v-cloak v-cloak就能解决这个问题. (1)用法 这个指令保 ...

  7. JS_高程7.函数表达式(1)

    定义函数的两种常见的方法: 1 . 函数声明 2. 函数表达式 # 差异 (1)函数声明 ,具有函数声明提升的特征. (2)函数声明的函数的name属性为函数的名称:使用函数表达式定义的函数在ES5中 ...

  8. JSP显示页面和数据库乱码

    页面 和 数据库编码都是UTF-8,但就是奇怪. 指定Tomcat的编码为UTF-8 就行了

  9. thymeleaf学习笔记

    1.${@dict.hello().fatherName} 显示对象的属性2.${@dict.hello()[0].fatherName} 显示列表对象的属性3.<div th:object=& ...

  10. SpringCloud无废话入门05:Spring Cloud Gateway路由、filter、熔断

    1.什么是路由网关 截至目前为止的例子中,我们创建了一个service,叫做:HelloService,然后我们把它部署到了两台服务器(即提供了两个provider),然后我们又使用ribbon将其做 ...