R语言-tidyr和dplyr
一、安装和加载
1、安装并加载tidyr和dplyr包
install.packages("tidyr")
library(tidyr)
install.packages("dplyr")
library(dplyr)
2、读取数据
expression <- read.delim("gene_expression.txt",sep="\t",header = T)
二、tidyr包操作
%>% #用于实现将一个函数的输出传递给下一个函数的第一个参数。相当于管道,优先级高于赋值
stocksm <- stocks %>% gather(stock, price, -time) #先执行右面的,结果赋值给stocksm
#短数据变成长数据
tidy_gather <- gather(data=expression,key=Samplename,value = Expression,-id)
data #“数据框名”
#关于key-value,原始数据一个“列名-列值”对应一个“key-value”
key #“key名”,新生成的key列,值为转化的列的列名
value #“value名”,新生成的value列,值为对应列名的列的值,
... #列的选择。如果为空,则选择所有变量。可以提供裸变量名,使用x:z选择x和z之间的所有变量,使用-y排除y。
#长数据变短数据
tidy_spread <- spread(tidy_gather,key=Samplename,value = Expression) #gather逆向
#按列分割
#给定正则表达式或字符位置向量,separate()会将单个字符列转换为多个列。
separate(
data, #数据框
col, #要分割的列名或位置
into, #作为字符向量创建的新变量的名称。使用NA来省略输出中的变量。
sep = "[^[:alnum:]]+", #列之间的分隔符。sep的数量应该比into少1。
#如果是字符,sep被解释为正则表达式。默认值是匹配任何非字母数字值序列的正则表达式。
#如果是数字,sep被解释为要在其中拆分的字符位置。正值从字符串最左边的1开始;负值从字符串最右边的-1开始。
remove = TRUE, #如果为TRUE,则从输出数据帧中移除输入列。
extra = "warn", #如果sep是一个字符向量,这将控制当有太多片段时发生的情况。有三个有效的选项:
#"warn"(默认):发出警告并删除额外值。
#"drop":在没有警告的情况下删除任何额外的值。
#"merge":只分割最多(into)次
fill = "warn", #如果sep是一个字符向量,这将控制当没有足够的片段时发生的情况。有三个有效的选项:
#"warn"(默认):发出警告并从右侧填充
#"right":填充右边缺失的值
#"left":在左边填充缺失的值
)
#按列合并
tidy_unite <-
unite(tidy_separate,col=Samplename,into=c("Source","Samplename"),sep="_")
三、dplyr包操作
#按id进行排序
dplyr_arrange <- arrange(tidy_gather , id )
#按id进行排序的基础上按Expression的降序排列,后面可以继续添加其他变量
dplyr_arrange1 <- arrange(tidy_gather,id,desc(Expression))
dplyr_arrange1 <- arrange(tidy_gather,id,-Expression) #desc()可以用-替代
#排序时添加分组
mtcars %>% group_by(cyl)%>% arrange(desc(wt), .by_group = TRUE)
#筛选行
filter(starwars, hair_color == "none" & eye_color == "black")
filter(starwars, hair_color == "none", eye_color == "black") #相当于使用 &
filter(starwars, hair_color == "none" | eye_color == "black")
#加管道筛选
starwars %>% filter(mass > mean(mass, na.rm = TRUE))
starwars %>% group_by(gender) %>% filter(mass > mean(mass, na.rm = TRUE))
Result <- filter( tidy_gather , Expression>1 ) %>% arrange( Expression )
#展示指定的GeneId SampleName Expression 列
dplyr_select <- select( tidy_separate , id , Samplename , Expression )
dplyr_select <- select( tidy_separate , -Source ) #可使用-排除
#增加新列,将现有的字段经过计算后生成新字段。
dplyr_mutate <- mutate( tidy_gather , ID=sub( "gene", "Gene", id ) ) #sub函数将id列的"gene"替换为"Gene"
#分组统计
mtcars %>%
+ group_by(cyl) %>%
+ summarise(mean = mean(disp), n = n()) #根据cyl分组,统计各组中disp的平均值以及组的大小
#按行合并,行索引
bind_rows(a , c)
#按列合并,列索引
bind_cols(a , c)
#取并集,按列索引
union(a , c)
#取差集,按列索引,保留a不同于c的部分
setdiff(a , c)
#内连接,按行,只保留a、b共有的x1值的行
inner_join(a,b,by=“x1”)
#全连接,按行,保留全部,空值用NA补齐
full_join(a,b,by=“x1”)
#左连接,按行,其中a全部保留
left_join(a,b,by=“x1”)
#右连接,按行,其中b全部保留
right_join(a,b,by=“x1”)
#a中所有在b中匹配的行
semi_join(a,b,by=“x1”)
#a中所有在b中不匹配的行
anti_join(a,b,by="x1")
R语言-tidyr和dplyr的更多相关文章
- R语言扩展包dplyr——数据清洗和整理
R语言扩展包dplyr——数据清洗和整理 标签: 数据R语言数据清洗数据整理 2015-01-22 18:04 7357人阅读 评论(0) 收藏 举报 分类: R Programming(11) ...
- R语言数据处理包dplyr、tidyr笔记
dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley ...
- R语言扩展包dplyr笔记
引言 2014年刚到, 就在 Feedly 订阅里看到 RStudio Blog 介绍 dplyr 包已发布 (Introducing dplyr), 此包将原本 plyr 包中的 ddply() 等 ...
- R语言数据处理利器——dplyr简介
dplyr是由Hadley Wickham主持开发和维护的一个主要针对数据框快速计算.整合的函数包,同时提供一些常用函数的高速写法以及几个开源数据库的连接.此包是plyr包的深化功能包,其名字中的字母 ...
- R语言中的数据处理包dplyr、tidyr笔记
R语言中的数据处理包dplyr.tidyr笔记 dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了 ...
- R语言dplyr包初探
昨天学了一下R语言dplyr包,处理数据框还是很好用的.记录一下免得我忘记了... 先写一篇入门的,以后有空再写一篇详细的用法. #dplyr learning library(dplyr) #fil ...
- R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)
R语言︱数据集分组 大型数据集通常是高度结构化的,结构使得我们可以按不同的方式分组,有时候我们需要关注单个组的数据片断,有时需要聚合不同组内的信息,并相互比较. 一.日期分组 1.关于时间的包都有很多 ...
- R语言进行数据预处理wranging
R语言进行数据预处理wranging li_volleyball 2016年3月22日 data wrangling with R packages:tidyr dplyr Ground rules ...
- Iris的R语言命令工具箱(1)
Iris的R语言命令工具箱(1) 最近在做数据分析,使用了R语言做了些数据处理和可视化,在此记下遇到过的问题.应用过的命令.处理方式以及工具包- *版权声明:本文为博主原创文章,转载请注明本文地址.h ...
随机推荐
- Linux文件查找实现
文件查找 locate:非实时查找(依赖数据库的方式) find(实时查找) locate:-- 模糊搜索(不适合经常改变的文件) locate 查询系统上预建的文件索引数据库 /var/lib/ml ...
- 如何通过WinDbg获取方法参数值
引入 我们在调试的过程中,经常会通过查看方法的输入与输出来确定这个方法是否异常.那么我们要怎么通过 WinDbg 来获取方法的参数值呢? WinDbg 中主要包含三种命令:标准命令.元命令(以 . 开 ...
- 常用的Linux命令和Git的必要配置
常用的Linux命令平时一定要多使用这些基础的命令! 1.cd : 改变目录. 2.cd . . 回退到上一个目录,直接cd进入默认目录 3.pwd : 显示当前所在的目录路径. 4.ls(ll): ...
- JDK的下载与安装和环境变量的配置
一.jdk下载打开浏览器在地址栏输入: http://www.oracle.com ,进入Oracle官网主页面,选择 Products-----Java---->Download Java . ...
- 全民开发!仓库管理者用无代码平台,搭建理想的WMS软件
货在哪儿? 我说过仓库管理不要依赖"老人",因为只有"他"知道货在哪怎么行?也不要完全依赖"系统",因为当前的"系统"并 ...
- Python动态属性有什么用
Python 动态属性的概念可能会被面试问到,在项目当中也非常实用,但是在一般的编程教程中不会提到,可以进修一下. 先看一个简单的例子.创建一个 Student 类,我希望通过实例来获取每个学生的一些 ...
- 牛牛与后缀表达式_via牛客网
题目 链接:https://ac.nowcoder.com/acm/contest/28537/B 来源:牛客网 时间限制:C/C++ 3秒,其他语言6秒 空间限制:C/C++ 262144K,其他语 ...
- 多表查询_练习1&练习2&练习3
准备表: -- 部门表 CREATE TABLE dept ( id INT PRIMARY KEY PRIMARY KEY, -- 部门id dname VARCHAR(50), -- 部门名称 l ...
- 如何记录分析你的炼丹流程—可视化神器Wandb使用笔记【1】
本节主要记录使用wandb记录训练曲线以及上传一些格式的数据将其展示在wandb中以便分析的方法,略过注册安装部分(可使用pip intall wandb安装,注册相关issue可上网搜索),文章着重 ...
- 网络编程、OSI七层协议
目录 软件开发架构 1.什么是软件开发架构 2.软件开发架构 3.架构优劣势 4.架构发展趋势 网络编程简介 1.如何理解网络编程 2.网络编程的目的 3.网络编程的意义 4.网络编程的起源 5.网络 ...