R语言数据处理利器——dplyr简介】的更多相关文章

dplyr是由Hadley Wickham主持开发和维护的一个主要针对数据框快速计算.整合的函数包,同时提供一些常用函数的高速写法以及几个开源数据库的连接.此包是plyr包的深化功能包,其名字中的字母“d”即来源于data frame,以示其专注于数据框数据的整理和操作.我们将在本章中着重介绍一些数据处理方面的常用功能函数. 1.1管道函数 在前面的简介中,我们计算了cran上的可用的函数包的数量: > contrib.url("http://mirrors.xmu.edu.cn/CRAN…
dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley Wickham, 该包用于"tidy"你的数据,这个包常跟dplyr结合使用. 本文将介绍dplyr包的下述五个函数用法: 筛选: filter() 排列: arrange() 选择: select() 变形: mutate() 汇总: summarise() 分组: group_by(…
R语言数据分析利器data.table包-数据框结构处理精讲 R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的步骤进行了程序上的优化,使用多线程,甚至很多函数是使用C写的,大大加快数据运行速度.因此,在对大数据处理上,使用data.table无疑具有极高的效率.这里我们主要讲的是它对数据框结构的快捷处理. 和data.frame的高度兼容…
R语言扩展包dplyr——数据清洗和整理 标签: 数据R语言数据清洗数据整理 2015-01-22 18:04 7357人阅读 评论(0) 收藏 举报  分类: R Programming(11)  版权声明:本文为博主原创文章,未经博主允许不得转载. 该包主要用于数据清洗和整理,coursera课程链接:Getting and Cleaning Data 也可以载入swirl包,加载课Getting and Cleaning Data跟着学习. 如下: library(swirl) insta…
引言 2014年刚到, 就在 Feedly 订阅里看到 RStudio Blog 介绍 dplyr 包已发布 (Introducing dplyr), 此包将原本 plyr 包中的 ddply() 等函数进一步分离强化, 专注接受dataframe对象, 大幅提高了速度, 并且提供了更稳健的与其它数据库对象间的接口. 既然是 Hadley Wickham 的新作, 并自称 a grammar of data manipulation, 当然要先学为快了, 正好新申了域名, 就把原本记在 Rmd …
    R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的步骤进行了程序上的优化,使用多线程,甚至很多函数是使用C写的,大大加快数据运行速度.因此,在对大数据处理上,使用data.table无疑具有极高的效率.这里我们主要讲的是它对数据框结构的快捷处理. 和data.frame的高度兼容 DT = data.table(x=rep(c("b&…
写在前面:数据处理是数据分析与挖掘必不可少的步骤.下面列出一些常用的数据处理操作. 一.类型转换 用class()查看数据的类型,用as.类型名()进行类型转换. > num <- as.numeric(c(1,2,3,4,5,6))> num[1] 1 2 3 4 5 6> class(num)[1] "numeric"> char <- as.character(num)> char[1] "1" "2&quo…
一. 统计学习概述 统计学习是指一组用于理解数据和建模的工具集.这些工具可分为有监督或无监督.1.监督学习:用于根据一个或多个输入预测或估计输出.常用于商业.医学.天体物理学和公共政策等领域.2.无监督学习:有输入变量,但没有输出变量,可以从这些数据中学习潜在关系和数据结构.以下简单的用3个数据集来说明. 1.工资数据 我们希望了解雇员的年龄.教育和年份对他的工资之间的联系.下图是对这三个因素的一个分析和统计. 左图:工资随着年龄的增长而增加,但在大约60岁之后又下降了.蓝线提供了对该年龄段平均…
dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口,本节学习dplyr包函数基本用法.dplyr()可使用%>%(链式操作),其功能是用于实现将一个函数的输出传递给下一个函数的第一个参数.注意,传递给下一个函数的第一个参数,那么下一个函数的第一个参数就不用写. 目录: 筛选: filter() 排列: arrange() 选择: select() 变形: mutate() 汇总:…
一.安装和加载 1.安装并加载tidyr和dplyr包 install.packages("tidyr") library(tidyr) install.packages("dplyr") library(dplyr) 2.读取数据 expression <- read.delim("gene_expression.txt",sep="\t",header = T) 二.tidyr包操作 %>% #用于实现将一个函…