资源:

sci-hub paper

CellBench package - github

CellBench_data - code for the paper

现在单细胞领域的突出问题就是工具过多,但缺乏gold-standard benchmark datasets,没有一定的标准来衡量工具的好坏。

另外人们也不容易根据自己的问题来选择合适的工具,所以保险起见,现在大家都只用最有名气的那几个工具:seurat、monocle、SC3等。

算法是无穷的,随便套几个方法就能组成一个分析方法,做生物信息最大的问题就是要去理解算法,理解生物学问题,这个算法在解决生物学问题上有哪些优势和劣势。

写在前面:

这篇文章要想落到实处,就必须要解决以下的问题:

1. 单细胞的数据有哪些类型?有哪些主流的测序平台?他们各自的特点是什么?模拟的想法很好,但是很容易带来bias,反应不了真实情形。

2. 单细胞分析的主要任务是什么?有哪些最重要的生物学问题亟待解决?问题是灵活且复杂的,但基本问题只有几个。

3. 不要只做调参侠,跑完一个工具你要能解读数据,反应了什么?该算法是否完美的解决了我的问题?是否存在缺陷?在使用的时候有哪些需要特别注意的问题?就算是NCBI这么经典的BLAST都不是完全完美的。


作者用mixture control experiments的方法,来评估现存的主流的pipeline,选出了每个方面最好的工具,发在了NM上。

评估的工具类型:

3,913 combinations of data analysis methods

  • normalization
  • imputation
  • clustering
  • trajectory analysis
  • data integration

评估的方法:

  • Silhouette width
  • Correlations
  • kBET
  • Overlaps
  • Entropy

结果解读

scRNA-seq mixology provides ground truth for benchmarking.

  • two plate-based (CEL-seq2 and SORT-seq)
  • two droplet-based (10× Chromium and Drop-seq)

involved three different experimental designs with replicates, yielding 14 datasets in total

  • single cells
  • mixtures of single cells
  • mixtures of RNA

up to five human lung adenocarcinoma cell lines

pseudo cell需要理解一下:把单细胞的RNA混合起来,或者把RNA直接按比例混合,得到不同配比的“pseudo单细胞”,这种方案适合来评估normalization and imputation。

Comparisons of normalization and imputation methods.

评估的工具list:

normalization:

  • TMM
  • None
  • logCPM
  • SCnorm
  • BASiCS
  • DESeq2
  • Scone
  • Scran
  • Linnorm

Imputation:

  • kNN-smoothing
  • DrImpute
  • SAVER

评估的方法:

  • the silhouette width of clusters for all datasets (图里面的n代表了什么?known cell mixture groups,这里直接算这个score了,没有引入聚类。为什么有的不是n=13?为什么说Linnorm效果最好?)
  • the Pearson correlation coefficient of normalized gene expression within each group for the RNA mixture data

结果:

normalization:Linnorm was the top performer on average, followed by scran and scone. (Linnorm是隔壁王老板的学生开发的)

Imputation:In general, imputation induces higher intra-group correlation, although considerable differences are observed depending on the normalization method chosen. 没说哪个好坏,只是说imputation确实会增加组内的相关性,但是不同情况下的imputation有一定的差异。

小知识:

The silhouette value is a measure of how similar an object is to its own cluster (cohesion) compared to other clusters (separation). The silhouette ranges from −1 to +1, where a high value indicates that the object is well matched to its own cluster and poorly matched to neighboring clusters. If most objects have a high value, then the clustering configuration is appropriate. If many points have a low or negative value, then the clustering configuration may have too many or too few clusters.

The silhouette can be calculated with any distance metric, such as the Euclidean distance or the Manhattan distance.

Comparisons of clustering methods.

评估的工具list:

  • RaceID
  • RCA
  • Seurat
  • clusterExperiment
  • SC3

评价的指标:

  • entropy of cluster accuracy (ECA)
  • entropy of cluster purity (ECP)
  • adjusted Rand index (ARI)

We consider these two metrics together to account for both under- and over-clustering, with methods that have both low ECP and low ECA having optimal cluster assignments.

结论:

没有绝对的好坏,因应用场景而异。seurat的平衡性较好,既不over也不under clustering;RaceID3则在复杂的异质性下表现更佳;SC3 under-clusters most datasets

额外学习:Clustering Validation Statistics: 4 Vital Things Everyone Should Know - Unsupervised Machine Learning

Comparisons of trajectory analysis methods.

这部分的数据是如何模拟的,必须要知道。依然不能真正模拟真实的情况,要控制表达基因的数量,同时mix不一定是线性的,这点文章也承认了。

评估的工具list:

  • Slingshot
  • Monocle2
  • SLICER
  • TSCAN
  • DPT

评估指标:

  • Correlations
  • Overlaps

结论:

Slingshot and Monocle2 showed robust results according to both metrics and generated meaningful representations of the trajectory, while Slingshot sometimes gave an extra trajectory path.

Comparisons of data integration methods.

batch effect correction

评估的工具list:

  • MNNs
  • Scanorama
  • scMerge
  • Seurat
  • MINT

评价指标:

  • silhouette width distance
  • kBET acceptance rate

结论:

MNNs gave the best performance according to silhouette width distance, while Seurat had the highest kBET acceptance rate in this analysis


读这篇文章的收获:

1. 了解了目前的主流软件,以后做什么分析、用什么软件心里都有个谱;

2. 他们的数据很有用,以后开发工具可以用它来评价工具的好坏;

3. 分析代码、绘图代码都是现成的,无成本快速入门单细胞数据分析,还等什么,满满的诚意,绝不藏着掖着!

4. 危机感,再不好好搞,自己这点水平很快就被取代了。

个人点评:

这篇文章最有价值的就是模拟后测序的数据了,开发工具都知道测试数据的重要性,评价标准决定了开发工具的导向。

另一个创新就是在pipeline level来评价,我们要分析一个任务是有很多前置分析的,前置分析也会影响当下的分析,所以本文选择了随机组合的pipeline level,然后海选出最佳的组合。

但是此文的短板也很明显,除开数据,本文没有核心有价值的观点,没有针对算法的特性来点评和比较结果,只是跑出了结果,用几个僵硬的指标比了一下,技工的味道太明显。

值得深入讨论的是,这种模拟的数据到底有多大的可信度,能多大程度的反应真实的情况,是否囊括了所有的数据可能。

文献阅读 | Benchmarking single cell RNA-sequencing analysis pipelines using mixture control experiments的更多相关文章

  1. Advances in Single Cell Genomics to Study Brain Cell Types | 会议概览

    单细胞在脑科学方面的应用 Session 1: Deciphering the Cellular Landscape of the Brain Using Single Cell Transcript ...

  2. 单细胞测序技术(single cell sequencing)

    单细胞测序技术(single cell sequencing) 2018-03-02 11:02   来源: 一呼百诺  点击次数:6587关键词:   前言 单细胞生物学最近几年是非常热门的研究方向 ...

  3. Analysis of single cell RNA-seq data(单细胞终极课程)

    业界良心啊,开源的单细胞课程. 随便看了几章,课程写得非常用心,非常适合新手. 课程地址:Analysis of single cell RNA-seq data 源码地址:hemberg-lab/s ...

  4. Multiclonal Invasion in Breast Tumors Identified by Topographic Single Cell Sequencing

    Title:  Multiclonal Invasion in Breast Tumors Identified by Topographic Single Cell Sequencing 课题的目的 ...

  5. CAR-T|Single cell plan|Extracellular RNA|

    生物医疗大数据 安吉丽娜朱莉发现抑癌基因事件,BRCA突变与乳腺癌关联. 个体化测序商品23 and me 多组学数据研究:eg:太空和地球双胞胎发现生化指标差不多. 研究模式和工业模式相结合. 研究 ...

  6. 单细胞参考文献 single cell

    许多分析软件 : https://github.com/seandavi/awesome-single-cell#software-packages Smart-seq.CEL-seq.SCRB-se ...

  7. 文献阅读 | The single-cell transcriptional landscape of mammalian organogenesis | 器官形成 | 单细胞转录组

    The single-cell transcriptional landscape of mammalian organogenesis 老板已经提了无数遍的文章,确实很nb,这个工作是之前我们无法想 ...

  8. RNA Sequencing

    RNA Sequencing 选择其他单元: RNA Sequencing 国内领先的转录组定序基地 Transcriptome Sequencing可全面性并快速地获得某一物种特定细胞或组织在某一状 ...

  9. 文献阅读笔记——group sparsity and geometry constrained dictionary

    周五实验室有同学报告了ICCV2013的一篇论文group sparsity and geometry constrained dictionary learning for action recog ...

随机推荐

  1. idea中添加web.xml配置文件与tomcat启动中遇到的web.xml文件找不到的问题

    1,如何在idea中向war项目中添加web.xml的配置文件 idea通过maven创建war项目时没有指定是webapp导致创建出来的项目没有webapp的文件夹.其实war项目中都是在" ...

  2. hive 外部表和内部表的区别和相互转换

    Hive内部表和外部表区别 1.创建内部表时,内部表的数据文件是保存在指定的路径的:如若创建外部表,则只记录数据所在的路径,不会对数据位置做改变. 2.删除表的时候,内部表元数据和数据会跟着一起删除. ...

  3. 用js刷剑指offer(把数组排成最小的数)

    题目描述 输入一个正整数数组,把数组里所有数字拼接起来排成一个数,打印能拼接出的所有数字中最小的一个.例如输入数组{3,32,321},则打印出这三个数字能排成的最小数字为321323. 思路 对ve ...

  4. 个人第5次作业:Alpha2项目的测试

    这个作业属于哪个课程 <课程的链接> 这个作业要求在哪里 <作业要求的链接> 名字 易林 学号 201731062134 团队名称 <巧克力王子和六个小矮人> 第一 ...

  5. 钉钉、阿里云和PaaS平台的整合开发

    钉钉在企业移动办公领域有着很高的占有率,但是可能大家都会觉得,他在企业定制化,数据分析等领域有着很大的短板. 而我们的kintone作为PaaS平台,可以补足这个短板.很多开发者想知道如何利用钉钉还有 ...

  6. SQl Server 数据库多表连接

    [缘由] 为了防止数据的冗余,我们会将数据库中表进行拆分,这样就产生了多张表,表与表之间通过主外键关联,但这样又造成了我们查找和修改的困难,如何进行多表之间的查找呢? 我们将一个查询同时设计两个或两个 ...

  7. mock工具:mock.js 和vscode faker,moco

    参考:https://www.jianshu.com/p/8453b045544f mock.js主要用于模仿接口返回,可与原生ajax一起使用. 参考:https://www.jianshu.com ...

  8. axios 的 get 方法 params 传参 400 的问题

    axios 的 get 方法 params 传参,在输入框中输入某些特殊字符 例如中括号,请求时会直接报 400 错误,Bad Request. 原因:axios 的 get 方法,在使用 param ...

  9. 织梦dedecms会员中心分类管理无法修改、删除分类名

    member/mtypes.PHP 文件中添加 另外,member/myfriend_group.php文件中也存在同样的问题,也要添加,不添加的话好友分组中也是同样问题

  10. 求序列A中每个数的左边比它小的数的个数(树状数组)

    给定一个有N个正整数的序列A(N<=10^5,A[i]<=10^5),对序列中的每一个数,求出序列中它左边比它小的数的个数. 思路:树状数组的经典应用(裸题) #include <i ...