单细胞分析实录(3): Cell Hashing数据拆分
在之前的文章里,我主要讲了如下两个内容:(1) 认识Cell Hashing;(2): 使用Cell Ranger得到表达矩阵。相信大家已经知道了cell hashing与普通10X转录组的差异,以及使用cellranger得到表达矩阵。
这一篇讲如何使用Seurat的HTODemux函数,CiteFuse的crossSampleDoublets函数两种方法拆分表达矩阵(混了不同来源的细胞),最后还会略微比较一下两种方法得到的结果的差异。
HTODemux
这种方法的原理我在第一篇笔记中已经讲过,感兴趣的小伙伴可以看之前的文章。主要R代码如下:
library(Seurat)
library(ggplot2)
library(tidyverse)
args <- commandArgs(TRUE)
加载R包,导入外部参数,args[1]表示样本名称,args[2]表示ensembl_ID和基因symbol对应关系的文本文件,前面得到的表达矩阵行名是ensembl_ID,为了在后续可视化的时候更省事,建议在这一步更换基因名称。
df <- read.table(paste(args[1],".mat.count.txt",sep = ""),header = T,row.names = 1) #df的行数包括基因和tag
colnames(df) <- str_replace(colnames(df),"\\.1","")
ensembl_symbol <- read.table(args[2],header = F,row.names = 1,stringsAsFactors = F)
df1 <- df[intersect(rownames(ensembl_symbol),rownames(df)),] #提取出基因表达矩阵
df2 <- df[setdiff(rownames(df),rownames(ensembl_symbol)),] #提取出tag表达矩阵
rownames(df1) <- ensembl_symbol[rownames(df1),] #更换基因表达矩阵的行名
接下来利用df2数据框的信息拆分,df2行为tag,列为cellular barcode
cellhash <- CreateSeuratObject(counts = df2,project = "cell_hashing", assay = "HTO")
cellhash <- NormalizeData(cellhash, assay = "HTO", normalization.method = "CLR")
cellhash <- HTODemux(cellhash, assay = "HTO", positive.quantile = 0.85)
最后一步就是拆分,第一篇笔记说过,positive.quantile参数表示在拟合负二项分布之后使用什么分位数来判断UMI是相对大还是相对小,默认值是0.99,实际处理时,发现这个值可能并不合理,比如最终拆分出来的有效细胞数、不同来源细胞数比例和预期差别很大,再比如从图形上看,明显不对(下文有图形说明)。
这一步之后,每一个CB都会带上一个标签,比如我的数据只有两个样本来源,标签会有这4种:Negative、tag6_tag7、tag6、tag7,前面两个表示空液滴、(跨样本的)doublet。
Idents(cellhash) <- "HTO_classification"
FeatureScatter(cellhash, feature1 = paste("hto_",rownames(cellhash)[1],sep=""),
feature2 = paste("hto_",rownames(cellhash)[2],sep = ""),slot = "counts")
HTOHeatmap(cellhash, assay = "HTO")
上面两个图,可以用来检验拆分的质量,第一张每个点的横纵坐标表示每个CB两个tag的UMI,第二张图的每一列表示每个CB两个tag的标准化之后的表达量。
然后根据每个CB的标签提取出有效的singlet就可以了。
small_df1 <- df1[,colnames(cellhash)[cellhash$HTO_classification==rownames(cellhash)[1]]]
write.table(small_df1,paste(args[1],"_",rownames(cellhash)[1],".mat.count.txt",sep = ""),quote = F,row.names = T,col.names = T,sep="\t")
small_df2 <- df1[,colnames(cellhash)[cellhash$HTO_classification==rownames(cellhash)[2]]]
write.table(small_df2,paste(args[1],"_",rownames(cellhash)[2],".mat.count.txt",sep = ""),quote = F,row.names = T,col.names = T,sep="\t")
除了上面两种Seurat自带图形,下面两种图形也很有参考意义,代码就先不放了,如有需要可以在公众号后台小窗我。
将UMI取对数之后做图,可以从另一个角度看结果,可以看到右上角被HTODemux认定为doublet的CB,像是包含了本应该是singlet的CB。我尝试过positive.quantile用默认值0.99,这种现象会更明显,所以我觉得在做这一步的时候,可以画画这个图,选择一个适中的positive.quantile值。
crossSampleDoublets
CiteFuse包在做这一步的时候,是从取对数之后的UMI矩阵开始的,分别从两个维度拟合正态分布,因此最终得到的结果在散点图上,比上一种方法更说得过去。示意图如下:
具体使用的R代码如下:
library(tidyverse)
library(ggplot2)
library(SingleCellExperiment)
library(CiteFuse)
args <- commandArgs(TRUE)
allexp <- read.table(paste(args[1],".mat.count.txt",sep = ""),header = T,row.names = 1)
colnames(allexp) <- str_replace(colnames(allexp),"\\.1","")
allexp_sce <- preprocessing(exprsMat = as.matrix(allexp)) #生成特定的对象
is.HTO <- grepl("^tag[123678]", rownames(allexp_sce)) #根据自己的tag命名修改正则表达式
allexp_sce <- splitAltExps(allexp_sce, ifelse(is.HTO, "HTO", "gene")) #给每一行加一个标签,HTO或者gene
allexp_sce=normaliseExprs(allexp_sce, altExp_name = "HTO", exprs_value = "counts",transform = c("log")) #仅针对HTO行,取对数
allexp_sce=crossSampleDoublets(allexp_sce,altExp_name = "HTO",totalExp_threshold = 10)
最后一行就是拆分关键步骤,会给每个CB一个标签,totalExp_threshold表示只会保留表达数大于10的CB。
ensembl_symbol <- read.table("/ref/10x/Ensembl_symbol_new.txt",header = F,row.names = 1,stri
ngsAsFactors = F)
df1 <- allexp[intersect(rownames(ensembl_symbol),rownames(allexp)),]
df2 <- allexp[setdiff(rownames(allexp),rownames(ensembl_symbol)),]
rownames(df1) <- ensembl_symbol[rownames(df1),]
tmp1=as.data.frame(t(df2))
tmp2=as.data.frame(allexp_sce$doubletClassify_between_label)
colnames(tmp2)="anno"
tmp2$anno=as.character(tmp2$anno)
crossSampleDoublets返回的标签不容易识别,比如1、2,还需要重新更换名称,如下
for (i in seq(1,length(rownames(tmp2)),1)) {
for (j in seq(1,length(colnames(tmp2)),1)) {
if (tmp2[i,j] == "1") {
tmp2[i,j] = colnames(tmp1)[1]
}
if (tmp2[i,j] == "2") {
tmp2[i,j] = colnames(tmp1)[2]
}
if (tmp2[i,j] == "doublet/multiplet") {
tmp2[i,j] = "doublet"
}
}
}
df_point=cbind(tmp1,tmp2)
colnames(df_point)=c("taga","tagb","anno")
这一步之后就能根据tag标签画散点图,以及提取想要的矩阵了。
实际处理中,上面两种方法我都用了,最后选了二者交集的CB来提取矩阵(相对保险的做法)。这一步在cell hashing数据的处理中可以说是相当重要了,如果拆分质量不过关,错误地将不同来源的细胞划分到一个矩阵中,对后续分析结果影响很大。
上述代码只呈现了拆分的关键步骤,详细的画图代码没有放上来,如果需要可以在微信后台私信我。
因水平有限,有错误的地方,欢迎批评指正!
单细胞分析实录(3): Cell Hashing数据拆分的更多相关文章
- 单细胞分析实录(1): 认识Cell Hashing
这是一个新系列 差不多是一年以前,我定导后没多久,接手了读研后的第一个课题.合作方是医院,和我对接的是一名博一的医学生,最开始两边的老师很排斥常规的单细胞文章思路,即各大类细胞分群.注释.描述,所以起 ...
- 单细胞分析实录(2): 使用Cell Ranger得到表达矩阵
Cell Ranger是一个"傻瓜"软件,你只需提供原始的fastq文件,它就会返回feature-barcode表达矩阵.为啥不说是gene-cell,举个例子,cell has ...
- 【代码更新】单细胞分析实录(21): 非负矩阵分解(NMF)的R代码实现,只需两步,啥图都有
1. 起因 之前的代码(单细胞分析实录(17): 非负矩阵分解(NMF)代码演示)没有涉及到python语法,只有4个python命令行,就跟Linux下面的ls grep一样的.然鹅,有几个小伙伴不 ...
- 【代码更新】单细胞分析实录(20): 将多个样本的CNV定位到染色体臂,并画热图
之前写过三篇和CNV相关的帖子,如果你做肿瘤单细胞转录组,大概率看过: 单细胞分析实录(11): inferCNV的基本用法 单细胞分析实录(12): 如何推断肿瘤细胞 单细胞分析实录(13): in ...
- 单细胞分析实录(4): doublet检测
最近Cell Systems杂志发表了一篇针对现有几种检测单细胞测序doublet的工具的评估文章,系统比较了常见的例如Scrublet.DoubletFinder等工具在检测准确性.计算效率等方面的 ...
- 单细胞分析实录(5): Seurat标准流程
前面我们已经学习了单细胞转录组分析的:使用Cell Ranger得到表达矩阵和doublet检测,今天我们开始Seurat标准流程的学习.这一部分的内容,网上有很多帖子,基本上都是把Seurat官网P ...
- 单细胞分析实录(17): 非负矩阵分解(NMF)代码演示
本次演示使用的数据来自2017年发表于Cell的头颈鳞癌单细胞文章:Single-Cell Transcriptomic Analysis of Primary and Metastatic Tumo ...
- 单细胞分析实录(8): 展示marker基因的4种图形(一)
今天的内容讲讲单细胞文章中经常出现的展示细胞marker的图:tsne/umap图.热图.堆叠小提琴图.气泡图,每个图我都会用两种方法绘制. 使用的数据来自文献:Single-cell transcr ...
- 单细胞分析实录(18): 基于CellPhoneDB的细胞通讯分析及可视化 (上篇)
细胞通讯分析可以给我们一些细胞类群之间相互调控/交流的信息,这种细胞之间的调控主要是通过受配体结合,传递信号来实现的.不同的分化.疾病过程,可能存在特异的细胞通讯关系,因此阐明这些通讯关系至关重要. ...
随机推荐
- vue富文本编辑器vue-quill-editor
1.下载Vue-Quill-Editor npm install vue-quill-editor --save 2.下载quill(Vue-Quill-Editor需要依赖) npm install ...
- 2016 ACM/ICPC ECNA Regional I.Waif Until Dark(最大流)
这是一道ECNA的16年题,问有n个小朋友,m个玩具,不同孩子有不同喜好的玩具,每个玩具可能属于一个类别,同一类别的玩具最多只能用一定次数,问最大匹配 这个就很裸的二分图,掏出dinic板子,首先最后 ...
- Zookeeper(5)---分布式锁
基于临时序号节点来实现分布式锁 为什么要用临时节点呢?如果拿到锁的服务宕机了,会话失效ZK自己也会删除掉临时的序号节点,这样也不会阻塞其他服务. 流程: 1.在一个持久节点下面创建临时的序号节点作为锁 ...
- 转:为什么说Python是最值得学习的编程语言
老猿作为一个老程序员,研究生毕业后就没有这么用心的学过一门新的语言,而今年4月开始学Python以来,疯狂的迷上了它,有时很想写一篇为什么要学Python的文章,可一直懒没动笔,今天看到博友" ...
- buu学习记录(上)
前言:菜鸡误入buu,差点被打吐.不过学到了好多东西. 题目名称: (1)随便注 (2)高明的黑客 (3)CheckIn (4)Hack World (5)SSRF Me (6)piapiapia ( ...
- scrapy爬取微信小程序社区教程(crawlspider)
爬取的目标网站是: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1 目的是爬取每一个教程的标题,作者,时间和 ...
- 2. Spring早期类型转换,基于PropertyEditor实现
青年时种下什么,老年时就收获什么.关注公众号[BAT的乌托邦],有Spring技术栈.MyBatis.JVM.中间件等小而美的原创专栏供以免费学习.分享.成长,拒绝浅尝辄止.本文已被 https:// ...
- git学习——git命令之创建版本库和版本退回
原文来至 一.创建版本库 版本库又名仓库,英文名repository,你可以简单理解成一个目录,这个目录里面的所有文件都可以被Git管理起来,每个文件的修改.删除,Git都能跟踪,以便任何时刻都可以追 ...
- SQL注入 (一)
一.手工注入 注入点检测 识别方法:通过在url栏输入'.and 1=1.or 1=1.and sleep(1),如果出现报错,或者页面不一致,则可能存在注入点. 注入类型:整数型.字符型.搜索型.B ...
- Kubernetes K8S之鉴权RBAC详解
Kubernetes K8S之鉴权概述与RBAC详解 K8S认证与授权 认证「Authentication」 认证有如下几种方式: 1.HTTP Token认证:通过一个Token来识别合法用户. H ...