plyr包使用】的更多相关文章

在数据分析中,整理数据的本质可以归纳为:对数据进行分割(Split),然后应用(Apply)某些处理函数,最后将结果重新组合(Combine)成所需的格式返回,简单描述为:Split - Apply - Combine.这个过程可以通过Basic包的apply家族函数来实现,apply家族函数包括了apply.sapply.lapply.tapply.aggregate等,可以应用于数据分析的各个阶段.plyr包是apply家族函数的升级,使用plyr包可以实现:在一个函数内同时完成“Split…
#-------------------------------- # plyr包使用# 建议直接保存为R文件到Rstudio中运行 #-------------------------------- #-------------1.传统apply函数与plyr比较 library(tidyr) library(plyr) head(iris) long.iris <- stack(iris, select=-Species)#stack宽数据库转换长数据,unstack相反 long.iris…
plyr 这个包,提供了一组规范的数据结构转换形式. Input/Output list data frame array list llply() ldply() laply() data frame dlply() ddply() daply() array alply() adply() aaply() 一个简单的例子 普通做法 iris.set <- iris[iris$Species == "setosa", -5] iris.versi <- iris[iris…
以下内容主要参照 Introducing dplyr 和 dplyr 包自带的简介 (Introduction to dplyr), 复制了原文对应代码, 并夹杂了个人理解和观点 (多附于括号内). 0 初始化0.1 安装 install.packages("dplyr") 0.2 示范数据 library(Lahman): Lahman 包里的棒球比赛数据集 Batting library(hflights): hflights 包里的飞机航班数据 0.3 数据集类型 将过长过大的数…
dplyr包:plyr包的替代者,专门面对数据框,将ddplyr转变为更易用的接口 %>%来自dplyr包的管道函数,其作用是将前一步的结果直接传参给下一步的函数,从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存,可惜的是应用范围还不是很广. dplyr和data.table(易于操作数据)是R的两个高效数据处理包,这两个包有它们各自的优点. data.table在语法灵活性和performance上面更深一筹,dplyr则在易学性和SQL语句转换方面有独到之处 首先dplyr提供了…
有5个基础的函数: - filter - select - arrange - mutate - summarise - group_by (plus) 可以和databases以及data tables中的数据打交道. plyr包的特点 其基础函数有以下特点: 第一个参数df 返回df 没有数据更改in place 正是因为有这些特点,才可以使用%>%操作符,方便逻辑式编程. 载入数据 library(plyr) library(dplyr) # load packages suppressM…
在前面的章节中,我们学习了如何编写 SQL 语句,在关系型数据库(如 SQLite 和MySQL )中查询数据.我们可能会想,有没有一种方法,能够直接使用 SQL 进行数据框查询,就像数据框是关系型数据库中的表一样呢?sqldf 包给了我们肯定的答案.这个包吸收了 SQLite 的轻量结构和易于嵌入 R 会话的优势.如果还没有这个包,运行以下命令进行安装:install.packages("sqldf")首先,加载包:library(sqldf)## Loading required…
=== 数据基础操作 ===reshape2 横向.纵向做数据变换,例如把纵向堆叠在数据库中的证券行情数据转换成一个按照不同证券代码横向排列,按照时间纵向排列收盘价的数据表stringr 方便地用正则表达式做批量字符串操作,可做检测.匹配.替换.计数等等lubridate 方便地做日期/时间操作,各种标准化时间和时区的处理plyr 轻松地在vector, list, data.frame之间做分组变换,实现拆分.变换.合并的操作dplyr 轻松地处理data.frame, data.table以…
引言 2014年刚到, 就在 Feedly 订阅里看到 RStudio Blog 介绍 dplyr 包已发布 (Introducing dplyr), 此包将原本 plyr 包中的 ddply() 等函数进一步分离强化, 专注接受dataframe对象, 大幅提高了速度, 并且提供了更稳健的与其它数据库对象间的接口. 既然是 Hadley Wickham 的新作, 并自称 a grammar of data manipulation, 当然要先学为快了, 正好新申了域名, 就把原本记在 Rmd …
SQL Server 使用Target来存储Events,Target 能够将Events存储到File中(扩展名是 xel),或 memoy buffer 中(Ring Buffer),Event Data 都是以XML格式存储. SQL Server Extended Events targets are event consumers. Targets can write to a file, store event data in a memory buffer, or aggregat…