单细胞流程跑了不少,但依旧看不懂结果,是该好好补补了。

有些人可能会误会,觉得单细胞的RNA-seq数据很好分析,跟分析常规的RNA-seq应该没什么区别。今天的这篇文章2015年3月发表在Nature Genetics Review上,专门说明了一下单细胞RNA测序数据在数据分析和计算上的挑战(虽然已经过去1年多了,这里指出的问题和挑战仍然是不过时的,至于这些问题和挑战现在是不是完美解决了,这里就暂且先不讨论了。)。

主要说了以下问题:

1. 单细胞RNA测序 (single cell RNA sequencing,以下简称scRNA-seq)数据质控和归一化(Normalization),其实主要是归一化。

次要还涉及了以下问题:

2. 单细胞测序应该测多少深度合适,即测几个G的数据量。

3. 批次效应(batch effect)的问题。

另外,我在另一篇文章中看到的,也很有意思:

很多基因表达值为0的问题,当然这个也可以归类到归一化的问题中去。

1. spike-in. 在说明问题之前,首先要明确一下实验设计。有一个方法,which is strongly recommended for all scRNA-seq实验,那就是使用spike-in,而spike-in最广泛的就是ERCC。有些实验的protocol,使用3‘或5’端的特征序列(unique melocular identifier, UMI)来当barcode,但还是同时加上spike-in的好,加上spike-in之后,这种实验方法可以帮助后期分析绕开扩增中产生的biases这一问题,而扩增biases是技术不稳定的最主要的一个来源。所以,强调一点,单细胞RNA-seq要做spike-in.

2. 分析pipeline. 之前针对常规RNA-seq的分析pipeline大部分还是可以公用的,比如:原始数据的回贴就可以沿用TopHat或者GSNAP等,数read counts还是可以用HTseq,样本的聚类,差异表达分析等都可以沿用常规RNA-seq的pipeline。


3. 但是QC和Normalization这两步,单细胞测序要格外小心。QC的时候,除了要注意常规的RNA-seq的QC条目,单细胞中非常重要的一点是还要确认RNA是否有降解。这点可以通过看总的回贴片段及回贴到spike-in上的片段的比例。(这里其实有个问题:如果RNA降解很严重,还能够反转扩增成功吗?我个人猜测可能会比较难。)

总结下,单细胞的QC可以分成以下三步:Fastqc,HTseq(数reads后,看reads回贴在哪里,下图展示的是统计整理之后的样子)及PCA。


以下插播一段题外话:PCA的图可以长成下面这样。PCA挺有用的,不管是单细胞测序还是常规测序,特别是样本量多的时候。


(图片来源:Petropoulos et al., 2016, Cell 165, 1012–1026)

4. Normalization. 我们对常规的RNA-seq做归一化有RPKM,FPKM或者read counts,且这种归一化基于一个假设,即这些细胞中的RNA的量是一样多的。但是,如果没有spike-in的话,我们没有办法知道一个细胞里面到底有多少RNA,也就没有办法做归一化。然而加入spike-in之后,细胞大小测序深度的不一致也会使得常用的归一化方法不适用。这篇综述提到的方法是Philip Brennecke 2013年发表在nature method上的,首先根据测序深度和细胞中的RNA的量对read counts进行归一化,然后再针对spike-in和自己本身的RNA计算样本间的变异系数。不过这个方法,后来又被另外一个方法(也是发表在nature method上的

,Dominic Grün,2014年)嫌弃了。尚无定论。

5. 测序深度。这个每个人也有每个人的做法。基本原则是:

sequenced the library to a sufficient depth to ensure that each cDNA molecule is observed at least once. 看上去有点玄乎(个人感觉:一般6-8G),细胞量越少,测序深一点,这两者有个balance。 

6. batch effect. Batch effect的问题在scRNA-seq中更为显著、严重。

One way to overcome this problem is to increase the number of biological replicates. 一种办法是增加重复样。有没有别的办法,文章没有提。

单细胞 RNA-seq 10X Genomics的更多相关文章

  1. 单细胞RNA测序技术之入门指南

    单细胞RNA测序技术之入门指南 [字体: 大 中 小 ] 时间:2018年09月12日 来源:生物通   编辑推荐: 在这个飞速发展的测序时代,DNA和RNA测序已经逐渐成为“实验室中的家常菜”.若要 ...

  2. 10X Genomics vs. PacBio

    10X Genomics已经广泛应用于单细胞测序.组装领域,现在也是火的不行. 10X Genomics原理 通过将来自相同DNA片段(10-100kb)的reads加上相同的barcode,然后在i ...

  3. Cell theory|Bulk RNA-seq|Cellar heterogeneity|Micromanipulation|Limiting dilution|LCM|FACS|MACS|Droplet|10X genomics|Human cell atlas|Spatially resolved transcriptomes|ST|Slide-seq|SeqFISH|MERFISH

    生物信息学 Cell theory:7个要点 All known living things are made up of one or more cells. All living cells ar ...

  4. RNA seq 两种计算基因表达量方法

    两种RNA seq的基因表达量计算方法: 1. RPKM:http://www.plob.org/2011/10/24/294.html 2. RSEM:这个是TCGAdata中使用的.RSEM据说比 ...

  5. RNA -seq

    RNA -seq RNA-seq目的.用处::可以帮助我们了解,各种比较条件下,所有基因的表达情况的差异. 比如:正常组织和肿瘤组织的之间的差异:检测药物治疗前后,基因表达的差异:检测发育过程中,不同 ...

  6. 10X genomics|cell base|in-vivo based|model organisms|SBI|

    生命组学-药物基因组学 精准医学的内容有个人全基因组测序,移动可穿戴设备,它可以实时监测,深度学习模型预测疾病,对疾病预测做到有效.安全和可控. 药物基因组学就是研究疾病.化合物和靶点之间的关系,关键 ...

  7. Advances in Single Cell Genomics to Study Brain Cell Types | 会议概览

    单细胞在脑科学方面的应用 Session 1: Deciphering the Cellular Landscape of the Brain Using Single Cell Transcript ...

  8. 单细胞测序|单细胞基因组|单细胞转录组|Gene editing|

    单细胞测序 单细胞基因组学 测量理由是单细胞的时间空间特异性. Gene expression&co-expression 比较正常cell与疾病cell,正常organ与疾病organ,看出 ...

  9. 单细胞参考文献 single cell

    许多分析软件 : https://github.com/seandavi/awesome-single-cell#software-packages Smart-seq.CEL-seq.SCRB-se ...

随机推荐

  1. 【百度统计】设置页面元素点击事件转化pv、uv

    html元素点击事件内添加代码:_hmt.push(['_trackEvent', category, action, opt_label, opt_value]); 1. '_trackEvent' ...

  2. 使用原生的javascript封装动画函数(有callback功能)

    <!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8&quo ...

  3. linux服务器文件索引inodes满了

    inode节点中,记录了文件的类型.大小.权限.所有者.文件连接的数目.创建时间与更新时间等重要的信息,还有一个比较重要的内容就是指向数据块的指针.一般情况不需要特殊配置,如果存放文件很多,需要配置. ...

  4. DBMS_OUTPUT.PUT_LINE()方法的简单介绍

    1.最基本的DBMS_OUTPUT.PUT_LINE()方法. 随便在什么地方,只要是BEGIN和END之间,就可以使用DBMS_OUTPUT.PUT_LINE(output);然而这会有一个问题,就 ...

  5. 用CSS让字体在一行内显示不换行

    青枫 , 2012/07/13 18:08 , css样式设计 , 评论(0) , 阅读(2189) , Via 本站原创 大 | 中 | 小  当一行文字超过DIV或者Table的宽度的时候,浏览器 ...

  6. Linux中Postfix虚拟用户及虚拟域(六)

    Postfix基于虚拟用户虚拟域的邮件架构 上图是一个几乎完整的邮件系统架构图,这里基于Mysql数据库进行用户认证,不管是Postfix.Dovecot.webmail都需要去Mysql数据库中进行 ...

  7. 【翻唱】【你的名字MAD】爱你等于爱自己

    http://video.yingtu.co/0/8f606e9b-9694-4d35-a0bf-730391a3ee12.mp4 [你的名字MAD]爱你等于爱自己-原唱翻唱 http://video ...

  8. Contiki源码+原理+功能+编程+移植+驱动+网络(转)

    源:Contiki源码+原理+功能+编程+移植+驱动+网络 请链接:http://www.rimelink.com/nd.jsp? id=31&_np=105_315 假设您对于用Contik ...

  9. CentOS7防火墙之firewalld

    今天在centos7上装mysql8,装好了之后发现主机的navicat始终连不上centos中的mysql 搜索发现是防火墙的问题,已查看iptables,嗯?没有了这个防火墙,原来centos换防 ...

  10. django 项目中使用多数据库 multiple databases

    假如在一个django项目中使用到了不只一个数据库, 其实这在大一点的工程中很常见,比如主从库 那么会涉及到如下一些东西 1, 定义 在settings中的DATABASE中定义会使用到的数据,比如除 ...