R(6): 数据处理包dplyr】的更多相关文章

dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口,本节学习dplyr包函数基本用法.dplyr()可使用%>%(链式操作),其功能是用于实现将一个函数的输出传递给下一个函数的第一个参数.注意,传递给下一个函数的第一个参数,那么下一个函数的第一个参数就不用写. 目录: 筛选: filter() 排列: arrange() 选择: select() 变形: mutate() 汇总:…
dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley Wickham, 该包用于"tidy"你的数据,这个包常跟dplyr结合使用. 本文将介绍dplyr包的下述五个函数用法: 筛选: filter() 排列: arrange() 选择: select() 变形: mutate() 汇总: summarise() 分组: group_by(…
R语言中的数据处理包dplyr.tidyr笔记   dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley Wickham, 该包用于“tidy”你的数据,这个包常跟dplyr结合使用. 本文将介绍dplyr包的下述五个函数用法: 筛选: filter() 排列: arrange() 选择: select() 变形: mutate() 汇总: summ…
R语言扩展包dplyr——数据清洗和整理 标签: 数据R语言数据清洗数据整理 2015-01-22 18:04 7357人阅读 评论(0) 收藏 举报  分类: R Programming(11)  版权声明:本文为博主原创文章,未经博主允许不得转载. 该包主要用于数据清洗和整理,coursera课程链接:Getting and Cleaning Data 也可以载入swirl包,加载课Getting and Cleaning Data跟着学习. 如下: library(swirl) insta…
dplyr是由Hadley Wickham主持开发和维护的一个主要针对数据框快速计算.整合的函数包,同时提供一些常用函数的高速写法以及几个开源数据库的连接.此包是plyr包的深化功能包,其名字中的字母“d”即来源于data frame,以示其专注于数据框数据的整理和操作.我们将在本章中着重介绍一些数据处理方面的常用功能函数. 1.1管道函数 在前面的简介中,我们计算了cran上的可用的函数包的数量: > contrib.url("http://mirrors.xmu.edu.cn/CRAN…
dplyr专注处理dataframe对象, 并提供更稳健的与其它数据库对象间的接口. 一.5个关键的数据处理函数: select()   返回列的子集filter()     返回行的子集arrange()  根据一个或多个变量对行排序.mutate()  使用已有数据创建新的列summarise()  对各个群组汇总计算并返回一维结果. Tips: 1.select() Dplyr包有下列辅助函数,用于在select()中选择变量: starts_with("X"): 以 "…
引言 2014年刚到, 就在 Feedly 订阅里看到 RStudio Blog 介绍 dplyr 包已发布 (Introducing dplyr), 此包将原本 plyr 包中的 ddply() 等函数进一步分离强化, 专注接受dataframe对象, 大幅提高了速度, 并且提供了更稳健的与其它数据库对象间的接口. 既然是 Hadley Wickham 的新作, 并自称 a grammar of data manipulation, 当然要先学为快了, 正好新申了域名, 就把原本记在 Rmd …
介绍如何使用reshape2包将宽型数据转换成长型数据,将长型数据转换成宽型数据.Reshape2是Hadley Wickham开发和维护的. 1.长数据VS宽数据 宽型数据:每列代表一个不同的变量.例如datasets包中的mtcars数据集就是宽型数据: mt=mtcars View(mt) 长型数据:一列包含了所有可能的变量,另一列是对应的取值.长数据有一列数据是变量的类型,有一列是变量的值.长数据不一定只有两列.ggplot2需要长类型的数据,plyr也需要长类型的数据,大多数的模型(比…
以下内容主要参照 Introducing dplyr 和 dplyr 包自带的简介 (Introduction to dplyr), 复制了原文对应代码, 并夹杂了个人理解和观点 (多附于括号内). 0 初始化0.1 安装 install.packages("dplyr") 0.2 示范数据 library(Lahman): Lahman 包里的棒球比赛数据集 Batting library(hflights): hflights 包里的飞机航班数据 0.3 数据集类型 将过长过大的数…
R语言  ggplot2包的学习   分析数据要做的第一件事情,就是观察它.对于每个变量,哪些值是最常见的?值域是大是小?是否有异常观测? ggplot2图形之基本语法: ggplot2的核心理念是将绘图与数据分离,数据相关的绘图与数据无关的绘图分离ggplot2是按图层作图ggplot2保有命令式作图的调整函数,使其更具灵活性ggplot2将常见的统计变换融入到了绘图中.ggplot的绘图有以下几个特点:第一,有明确的起始(以ggplot函数开始)与终止(一句语句一幅图):其二,图层之间的叠加…