R语言扩展包dplyr——数据清洗和整理

标签：数据 R语言数据清洗数据整理

2015-01-22 18:04 7357人阅读评论(0) 收藏举报

分类：

R Programming（11）

该包主要用于数据清洗和整理，coursera课程链接：Getting and Cleaning Data

也可以载入swirl包，加载课Getting and Cleaning Data跟着学习。

如下：

library(swirl)
install_from_swirl("Getting and Cleaning Data")
swirl()

此文主要是参考R自带的简介：Introduce to dplyr

1、示范数据

> library(nycflights13)
> dim(flights)
[1] 336776 16
> head(flights, 3)
Source: local data frame [3 x 16]
year month day dep_time dep_delay arr_time arr_delay carrier tailnum flight origin dest air_time
1 2013 1 1 517 2 830 11 UA N14228 1545 EWR IAH 227
2 2013 1 1 533 4 850 20 UA N24211 1714 LGA IAH 227
3 2013 1 1 542 2 923 33 AA N619AA 1141 JFK MIA 160
Variables not shown: distance (dbl), hour (dbl), minute (dbl)

2、将过长的数据整理成友好的tbl_df数据

> flights_df <- tbl_df(flights)
> flights_df

3、筛选filter()

> filter(flights_df, month == 1, day == 1)
Source: local data frame [842 x 16]
year month day dep_time dep_delay arr_time arr_delay carrier tailnum flight origin dest air_time
1 2013 1 1 517 2 830 11 UA N14228 1545 EWR IAH 227
2 2013 1 1 533 4 850 20 UA N24211 1714 LGA IAH 227

筛选出month=1和day=1的数据

同样效果的，

flights_df[flights_df$month == 1 & flights_df$day == 1, ]

4、选出几行数据slice()

slice(flights_df, 1:10)

5、排列arrange()

>arrange(flights_df, year, month, day)

将flights_df数据按照year,month,day的升序排列。

降序

>arrange(flights_df, year, desc(month), day)

R语言当中的自带函数

flights_df[order(flights$year, flights_df$month, flights_df$day), ]
flights_df[order(desc(flights_df$arr_delay)), ]

6、选择select()

通过列名来选择所要的数据

select(flights_df, year, month, day)

选出三列数据
使用：符号

select(flights_df, year:day)

使用-来删除不要的列表

select(flights_df, -(year:day))

7、变形mutate()

产生新的列

> mutate(flights_df,
+ gain = arr_delay - dep_delay,
+ speed = distance / air_time * 60)

8、汇总summarize()

<pre name="code" class="html">> summarise(flights,
+ delay = mean(dep_delay, na.rm = TRUE)

求dep_delay的均值

9、随机选出样本

sample_n(flights_df, 10)

随机选出10个样本

sample_frac(flights_df, 0.01)

随机选出1%个样本

10、分组group_py()

by_tailnum <- group_by(flights, tailnum)
#确定组别为tailnum，赋值为by_tailnum
delay <- summarise(by_tailnum,
count = n(),
dist = mean(distance, na.rm = TRUE),
delay = mean(arr_delay, na.rm = TRUE))
#汇总flights里地tailnum组的分类数量，及其组别对应的distance和arr_delay的均值
delay <- filter(delay, count > 20, dist < 2000)
ggplot(delay, aes(dist, delay)) +
geom_point(aes(size = count), alpha = 1/2) +
geom_smooth() +
scale_size_area()

结果都需要通过赋值存储

a1 <- group_by(flights, year, month, day)
a2 <- select(a1, arr_delay, dep_delay)
a3 <- summarise(a2,
arr = mean(arr_delay, na.rm = TRUE),
dep = mean(dep_delay, na.rm = TRUE))
a4 <- filter(a3, arr > 30 | dep > 30)

11、引入链接符%>%

使用时把数据名作为开头，然后依次对数据进行多步操作：

flights %>%
group_by(year, month, day) %>%
select(arr_delay, dep_delay) %>%
summarise(
arr = mean(arr_delay, na.rm = TRUE),
dep = mean(dep_delay, na.rm = TRUE)
) %>%
filter(arr > 30 | dep > 30)

前面都免去了数据名

若想要进行更多地了解这个包，可以参考其自带的说明书（60页）：dplyr

R语言扩展包dplyr——数据清洗和整理的更多相关文章

R语言扩展包dplyr笔记
引言 2014年刚到, 就在 Feedly 订阅里看到 RStudio Blog 介绍 dplyr 包已发布 (Introducing dplyr), 此包将原本 plyr 包中的 ddply() 等 ...
R语言数据处理包dplyr、tidyr笔记
dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley ...
安装R语言扩展包diveRsity-1
今天去了学院的运动会呢-扮熊本熊超开心-写完这篇我补上我的图么么哒 ××××××××××××文末高能预警!!!!!这个包的安装并不是本周的任务!!!!!我真是萌萌哒×××××××××××××× ××× ...
安装R语言扩展包vegan
这周的作业我开始得好迟啊...然而还是要努力做啊... ××××××××××××××我是萌萌哒分割线×××××××××××××××××××××××××××××××××××× 首先,百度进入官方页面,看 ...
R语言 ggplot2包
R语言 ggplot2包的学习分析数据要做的第一件事情,就是观察它.对于每个变量,哪些值是最常见的?值域是大是小?是否有异常观测? ggplot2图形之基本语法: ggplot2的核心理念是将 ...
R语言重要数据集分析研究——需要整理分析阐明理念
1.R语言重要数据集分析研究需要整理分析阐明理念? 上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候如何下手分析,数据分析的第一步,探索性数据分析. 统计量,即统计学里面关注的数据集的几个指标 ...
R语言-神经网络包RSNNS
code{white-space: pre;} pre:not([class]) { background-color: white; }if (window.hljs && docu ...
R语言-Knitr包的详细使用说明
R语言-Knitr包的详细使用说明 by 扬眉剑来自数盟[总舵] 群:321311420 1.相关资料 1:自动化报告-谢益辉 https://github.com/yihui/r-ninja/bl ...
安装R语言的包的方法
安装R语言的包的方法: 1. 在线安装在R的控制台,输入类似install.packages("TSA") # 安装 TSA install.packages("TS ...

随机推荐

acm--博弈入门1（巴什博弈1）--（HDU 1846 HDU 2049）
一开始听大佬讲巴什博弈,听成巴士博弈,后来知道了巴什博弈的大名,还知道了博弈不止一种.所谓博弈,就是一场心机的对抗. 好巴什,好巴什......(记得有一个广告语是这么来着) 切入正题: 巴什博弈,问 ...
[P2671][NOIP2015]求和 (数论)
[题目链接] 这位大神讲得很详细:点我本蒟蒻只会抄抄题解了 #include<bits/stdc++.h> #define max(a,b) (a>b?a:b) #define m ...
疫情控制 [NOIP2012]
Description H 国有 n 个城市,这 n 个城市用 n-1 条双向道路相互连通构成一棵树, 1 号城市是首都, 也是树中的根节点. H 国的首都爆发了一种危害性极高的传染病.当局为了控制疫 ...
【二分图最大匹配】Bullet @山东省第九届省赛 B
时间限制: 6 Sec 内存限制: 128 MB 题目描述 In GGO, a world dominated by gun and steel, players are fighting for t ...
Servlet(3)—Servlet
基本知识: java Servlet是和平台无关的服务端组件,它运行在Servlet容器中,Servlet容器负责Servlet和客户的通信以及调用Servlet方法,Servlet和客户的通信采用& ...
ASP.NET WebApi服务接口如何防止重复请求实现HTTP幂等性
一.背景描述与课程介绍明人不说暗话,跟着阿笨一起玩WebApi.在我们平时开发项目中可能会出现下面这些情况; 1).由于用户误操作,多次点击网页表单提交按钮.由于网速等原因造成页面卡顿,用户重复刷新 ...
SharePoint 前端开发常用的对象之_spPageContextInfo
前言 _spPageContextInfo对象,是SharePoint开发一个非常常用的对象,尤其是前端开发,可以非常方便的获取到一些和站点有关的信息. 完整对象如下图,需要什么属性,可以自己获取,然 ...
win32下使用相对exe文件的绝对路径资源
在使用VC++进行开发时,如果按F5进行Debug时,当前相对资源是相对工程的vcxproj的文件夹目录,而直接双击运行exe时,资源是相对exe的文件夹目录.为了兼容这二者,最好使用绝对路径,这样无 ...
java调用第三方的webservice应用实例
互联网上面有很多的免费webService服务,我们可以调用这些免费的WebService服务,将一些其他网站的内容信息集成到我们的Web应用中显示. 一些常用的webservice网站的链接地址: ...
Docker 安装和基础用法
理解Docker(1):Docker 安装和基础用法本系列文章将介绍Docker的有关知识: (1)Docker 安装及基本用法 (2)Docker 镜像 (3)Docker 容器的隔离性 - 使用 ...

R语言扩展包dplyr——数据清洗和整理

R语言扩展包dplyr——数据清洗和整理

R语言扩展包dplyr——数据清洗和整理的更多相关文章

随机推荐

热门专题