Tidyverse|数据列的分分合合,爱恨情仇

本文首发于“生信补给站”Tidyverse|数据列的分分合合,一分多,多合一

TCGA数据挖掘可做很多分析,前期数据“清洗”费时费力但很需要。

比如基因列为ID的需要转为常见的symbol,基因列为symbol|ID的就需要拆开了!

excel分列可以解决,但是表达量数据较大,且excel容易产生“数据变形”。

一, 载入数据,R包

使用TCGA下载的数据,使用以下几行几列, 作为示例

  1. library(tidyverse)
    data <- read.csv("separate.csv",header = TRUE, check.name = FALSE)
    head(data)
               ID          ID2 TCGA-18-3406-01A-01R-0980-07 TCGA-18-3407-01A-01R-0980-07
    1       A1BG|1       A1BG/1                     741.6929                      46.7127
    2   A1CF|29974   A1CF/29974                       0.0000                       0.4757
    3  A2BP1|54715  A2BP1/54715                       0.0000                       0.0000
    4  A2LD1|87769  A2LD1/87769                     170.2362                     118.4063
    5 A2ML1|144568 A2ML1/144568                     128.3465                    1413.4158
    6        A2M|2        A2M/2                    9074.6772                   11310.1713

可以看到第一列的ID,和人为添加的ID2,名称不规则,我们只需要前面的基因名。

二,合久可分 - 一列拆多列

使用separate函数, 将“指定”分隔符出现的位置一列分成多列

2.1 默认,不指定分隔符

  1. data %>%
    separate(ID, into = c("Gene", "IDnum")) %>% head()

2.2 指定分隔符且保留原始列

  1. data %>%
    separate(ID2, into = c("Gene2", "IDnum2"),sep = "/",remove = FALSE) %>%
    head()

2.3 特殊字符的指定方式

  1. data %>%
    separate(ID, into = c("Gene1", "IDnum1"),sep = "l",remove = FALSE) %>%
    head()

按照同样的方式,想把"|"分隔的ID拆分,发现报错。?黑人问号脸

有问题可以先?separate或者help(separate)查询帮助函数,"|"为特殊字符,可以使用"[|]"括起来或者"\\|",均可:

  1. data %>%
    separate(ID, into = c("Gene1", "IDnum1"),sep = "[|]",remove = FALSE) %>% head()
    #或者
    data2 <- data %>%
    separate(ID, into = c("Gene1", "IDnum1"),sep = "\\|",remove = FALSE)

2.4,按照第几个字符拆

根据第几个字符拆分,适合数据规整的,,,

可以用来将TCGA中的sampleID转为常见的16位,需要先转置

  1. #
    data2 %>% select(Gene1,contains("TCGA")) %>% #选择指定列
    column_to_rownames(var = "Gene1") %>%  # 将Gene1列转为rownames
    t() %>% as.data.frame() %>% #数据转置,样本为行名
    rownames_to_column(var="Sample") %>%  #行名变为数据中的列
    separate(Sample, into = c("Sample", "bar"),sep = 16) %>%  #按照规则取前16个字符
    select(-bar) #去掉分割后不需要的bar列

可参考:盘一盘Tidyverse| 筛行选列之select,玩转列操作

Tips:

  • 1)可以先默认试一下,如2.1所示;

  • 2)使用R的帮助,一定!

三,分久必合-多列合并一列

使用unite函数, 可将多列按照“指定”分隔符合并为一列

  1. data %>%
    unite(ID_new, ID:ID2, sep = "_") %>% head()

◆ ◆ ◆ ◆ ◆

精心整理(含图版)|你要的全拿走!有备无患

Tidyverse|数据列的分分合合,爱恨情仇的更多相关文章

  1. 注解:大话AOP与Android的爱恨情仇

    转载:大话AOP与Android的爱恨情仇 1. AOP与OOP的区别 平时我接触多的就是OOP(Object Oriented Programming面向对象).AOP(Aspect Oriente ...

  2. 对json的爱恨情仇

    本文回想了对json的爱恨情仇. C++有风险,使用需慎重. 本文相关代码在:http://download.csdn.net/detail/baihacker/7862785 当中的測试数据不在里面 ...

  3. String、StringBuilder、StringBuffer的爱恨情仇

    第三阶段 JAVA常见对象的学习 StringBuffer和StringBuilder类 (一) StringBuffer类的概述 (1) 基本概述 下文以StringBuffer为例 前面我们用字符 ...

  4. pytorch和tensorflow的爱恨情仇之基本数据类型

    自己一直以来都是使用的pytorch,最近打算好好的看下tensorflow,新开一个系列:pytorch和tensorflow的爱恨情仇(相爱相杀...) 无论学习什么框架或者是什么编程语言,最基础 ...

  5. pytorch和tensorflow的爱恨情仇之定义可训练的参数

    pytorch和tensorflow的爱恨情仇之基本数据类型 pytorch和tensorflow的爱恨情仇之张量 pytorch版本:1.6.0 tensorflow版本:1.15.0 之前我们就已 ...

  6. pytorch和tensorflow的爱恨情仇之张量

    pytorch和tensorflow的爱恨情仇之基本数据类型:https://www.cnblogs.com/xiximayou/p/13759451.html pytorch版本:1.6.0 ten ...

  7. pytorch和tensorflow的爱恨情仇之参数初始化

    pytorch和tensorflow的爱恨情仇之基本数据类型 pytorch和tensorflow的爱恨情仇之张量 pytorch和tensorflow的爱恨情仇之定义可训练的参数 pytorch版本 ...

  8. Menu与ActionBar的爱恨情仇

    最近在开发一款音乐播放器,在开发过程中遇到了一点小麻烦,通过android API搞清楚了Menu与ActionBar的爱恨情仇,写了个小Demo祭奠一下那些年我们陷进去的坑,有不对的地方请大神们批评 ...

  9. web移动端fixed布局和input等表单的爱恨情仇 - 终极BUG,完美解决

    [问题]移动端开发,ios下当fixed属性和输入框input(这里不限于input,只要可以调用移动端输入法的都包括,如:textarea.HTML5中contenteditable等),同时存在的 ...

随机推荐

  1. 左手VS PK 右手IDEA

    近日愈发觉得编程是一件有趣的事. 三年前退伍时,还没有确定要继续干这行.去了北京之后,决定写代码吧.Why? 我是一个唯物主义者. 过去两年,一直抱有的念头是,怎么着也要至少干个三年,再寻求不写代码的 ...

  2. python—json

    一.json数据类型:是字符串 # json通用数据类型,所有语言都可以用 # {k-v}形式存在,里面只能用双引号"" # 定义json字符串,要用'''{}'''格式 #htt ...

  3. MyBatis 教程 ——检视阅读

    MyBatis 教程 --检视阅读 准备 官网文档-中文 教程地址yiibai,质量很差 教程地址w3cschool,纯理论,还不如直接看官网文档 教程地址Mybatis框架入门教程,Oracle M ...

  4. python:*args和**kwargs的用法

    1.*args用来将参数打包成tuple给函数体调用 代码: # *args用来将参数打包成tuple给函数体调用 def func(*args): print(args,type(args)) fu ...

  5. C++编译/编辑器对OIer的必要功能

    (没有引战的意思,如果有不同意见可以评论区发言,只是写出我目前的情况) 作为一个C++ OIer肯定是用过Dev的,因为学校推荐啊我也没有办法.都知道Dev又丑又没有代码补全,但是却是最最最适合OIe ...

  6. 微信小程序修改单选按钮的默认样式

    https://blog.csdn.net/abs1004/article/details/78922596

  7. flask-类视图

    flask-类视图 标准类视图 from flask import Flask, render_template, views, jsonify app = Flask(__name__) class ...

  8. MTK Android修改System分区

    Z:\rk3326_p_hq_rf8637sa\device\rockchip\common\BoardConfig.mk #Calculate partition size from paramet ...

  9. Python爬虫利器 cURL你用过吗?

    hello,小伙伴们,今天给大家分享的开源项目是一个python爬虫利器,感兴趣的小伙伴看完这篇文章不妨去尝试一下,这个开源项目就是curlconverter,不知道小伙伴们分析完整个网站后去code ...

  10. 中阶 d04 xml 概念及使用

    idea新建xml文件https://www.jianshu.com/p/b8aeadae39b0 或https://blog.csdn.net/Hi_Boy_/article/details/804 ...