xgene：之ROC曲线、ctDNA、small-RNA seq、甲基化seq、单细胞DNA, mRNA

灵敏度高 == 假阴性率低，即漏检率低，即有病人却没有发现出来的概率低。

用于判断：有一部分人患有一种疾病，某种检验方法可以在人群中检出多少个病人来。

特异性高 == 假阳性率低，即错把健康判定为病人的概率低。

用于：被某种试验判定为患病的人中，又有多少是真的患了这种病的。

好的检测方法：有高的灵敏度（低的假阴性率）、同时又有高的特异性（低的假阳性率）。

ROC 曲线：

横轴：100 — 特异性。。即100减去特异性，特异性高，100减去特异性就低，故越小越好。

纵轴：灵敏度值。

ROC分析图的解读原则：

1. 曲线越是靠近整个图的左上方，方法越优；
2. 越是接近对角线，方法越差；
3. 评价的客观标准是曲线下方的面积占整个图的面积比例。即AUC（曲线下面积，Area Under Curve,AUC)。面积比例越接近1，方法越好；面积比例越接近0.5，方法越差。

ctDNA

循环肿瘤DNA，英文叫：circulating tumor DNA，简称ctDNA。对ctDNA进行测序，是目前很火的Liquid Biopsy（液体活检）中的一种。

意义

首先，我们来说一下ctDNA测序的临床意义。

第一，就是它可以减少病人的开刀痛苦，只要抽血，不必开刀，就可以做检测。
第二，是它可以增加可检测的病人范围，对于不适合做开刀手术的病人。例如，已经发生肿瘤全身转移的病人。也可以用测ctDNA的方法来测肿瘤的基因突变。
第三，是因为它只要抽血（而不必开刀）。所以它可以应用于肿瘤病人的病情随访，并可以多次取样。

原理

正常细胞和肿瘤细胞都会破裂，细胞破裂之后，细胞中的DNA就会被释放到体液当中去。其中进入血液的这部分DNA，就称为血液游离DNA。那么，它也被称作血浆游离DNA，或者cell free DNA，简称cfDNA。这些DNA片段的长度主要集中在100BP~240BP之间，大部分在170bp左右，

把血液当中游离的DNA抽提出来，建成DNA测序的文库。用探针杂交、或者PCR扩增等方法，把其中与肿瘤相关的DNA富集出来，进行高通量测序。再进行数据分析，看哪些基因有突变。接着根据基因突变的信息，来决定治疗方法。

难点

第一，在血浆游离DNA中，ctDNA只占很小的一部分，大约只有万分之几到千分之几。其余都是正常细胞的DNA。但是要检测到千分之几、万分之几的突变，总是一件困难的事情

第二，血液当中的游离DNA量很少，大约每一毫升的血浆当中，只会有十几纳克（ng）的游离DNA。1个ng的基因组DNA，相当于来源于300个细胞的DNA量。

目前国内做ctDNA测序的科研实践当中，一次抽10个毫升的血，可分离约5到6毫升的血浆。从中可以抽提到约 50ng~60ng 的游离DNA。60个ng的DNA，约来自18000个细胞的基因组DNA。

实验设计

在整个 ctDNA 测序的实践过程当中，所有的实验步骤，都是围绕上述2个难点，来进行设计的。

首先，我们来说采血。

第二步，是抽提血浆游离DNA。有一个专门用来抽提血浆游离DNA的专用试剂盒。

第三步，是用抽提好的DNA来构建文库。

第四步，是用捕获试剂盒来对文库进行杂交捕获。设计一个针对肿瘤相关基因的捕获 Panel。

第五步，捕获好的文库，用高保真聚合酶进行扩增。文库的PCR扩增，对 PCR 扩增产物进行纯化。

第六步，高通量DNA测序，ctDNA 的测序深度是非常深的。一般情况下，会测到上万倍、甚至几万倍的测序深度。

第七步，是把测序得到的序列，进行生物信息学分析。在ctDNA的数据分析当中，有一些与传统的捕获测序分析过程不一样的参数设定。

第一，就是去除 duplicaton 的过滤条件是不一样的。因为 ctDNA 的测序深度达到上万倍，所以会有大量的 duplication。高达50%~70%。

第二，是判定点突变（SNV），要这个突变的碱基的测序的质量值高于30，才确定这个突变是一个真的突变（SNV），也就提高了检测分析结果的特异性。

所谓duplication，就是因为上机测序前的 PCR 扩增，导致一个原始的模板复制出许多个拷贝来。这些复制出来的拷贝，被测序过程多次测到，这就叫 duplication。

small RNA-seq

包括了micro RNA / tRNA / piRNA等一系列的、片段比较短的RNA。其中micro RNA因为其基因数量众多，同时表达量变化丰富，是近10年来的一个研究重点。

small RNA生物信息分析的

首先，是把测序的序列进行过滤。也就是把引物二聚体、和含有多个N的这些序列去掉。
然后，就是统计各种长度的small RNA各有多少条。
接下来，就是把small RNA，比对到参考基因组上。
把这些序列和已知的small RNA数据库进行比对。有名的small RNA数据库是miRBase，目前这个数据库已经收录了2000多条人源的micro RNA基因。

在对人源样本的测序过程当中，大家最关心的主要是micro RNA和piRNA，这2种small RNA。还会测到rRNA的碎片和tRNA的序列。因为其十分保守的，一般不是关注的重点。

对表达量的分析

对已知small RNA的分析，主要是对表达量的分析。

用火山图，则可以整体地观察两个样本之间的表达差异。

聚类分析，则可以帮助我们直观地观察，一批样本当中，哪些样本有共同的表达特征。又有哪些small RNA基因有相似、相近的表达量。通过聚类分析，我们可以观察到样本内在的共同特征。

靶基因 GO 和 Pathway 分析

通过GO分析，表达差异被富集到分类的GO的子项目当中，柱子越高，则表示差异越明显。可知“生物过程”、“分子功能”、和“细胞组件”的哪些环节出现了明显的差异。

KEGG富集的程度，通过富集因子、Qvalue、和富集到此通路上的基因个数，来进行衡量。点的面积越大，则富集的基因数越多，富集因子越大，则表示富集的程度越大。

寻找新的 micro RNA 基因

一般是测序测到新的、有发夹结构的microRNA前体的序列，同时测到对应的成熟的micro RNA序列，并且在基因组上找到了对应的基因序列，这样，大体上就判断（可能是）找到了一个新的micro RNA基因了。

甲基化seq，视频12

DNA的甲基化是在DNA的序列不变的条件下，在其中某些碱基上加上甲基的这样一个过程。

甲基化的结果是，使甲基化位点的下游的基因表达量变少。

核心化学反应，是用亚硫酸氢盐来处理DNA。DNA当中，没有甲基化或羟甲基化的C碱基，就会被转化成U碱基。

再通过PCR，PCR新合成出来的链，U碱基的位置，就会被替换成了“T”。在接下来的测序过程中，测到的也是T碱基。而甲基化的C，在接下来的测序过程中，被测到的，还是“C”碱基。故可区分。

亦可以加一步，区分“羟”甲基化和甲基化。

数据分析（没看懂）

因为亚硫酸氢盐处理过后，绝大部分的C都被转化成了T。这样，测出来的序列在和基因组进行对比的时侯，直接对比是对比不上的。
为了要进行比对，就要把基因组的碱基做两种转变。
第一种转变是把基因组上所有的C都改到T，再来和测序测到的序列来对比。这样，就可以把原来的链给对比上。
第二种转变，是把基因组上所有的G都变成A，这样才能和经过PCR得到的原样本链睥互补链对比得上。这样做的原因，是原样本链的互被链，它上面绝大部分的G，都被变成了A。所以，只有把（参考）基因组上的G，也都改成A，这样才能对比得上。
比对上之后，再来看哪些碱基是没有被转化的。这样，就可以确认这些碱基的甲基化修饰情况了。
再接下来，针对基因进行GO和Pathway的分析。

单细胞DNA, mRNA 10，11

单细胞测序三个难题

要实现从一个细胞样本测出全基因组的DNA序列，至少要克服以下3个难题：

1. 第1个，就是如何实现均匀扩增，
2. 第2个难题，就是全基因组覆盖问题。
3. 第3个难题，是这种方法要有较高的扩增效率。

两种方法：

为了解决上述的难题，科学家想了许多的办法。到目前为止，大家比较认可的方法有两种：

1. MALBAC方法。Multiple Annealing and Looping-Based Amplification Cycles。
2. MDA方法。Multiple Displacement Amplification。

广泛的应用前景：

目前最主要2个应用：1个是在胚胎植入前进行基因拷贝数变异检测。第2个，是进行肿瘤的染色体变异研究。

单细胞mRNA-seq

目前市场主要有2种建库方法，

Clontech公司推出的SMART法，
EpiCentre公司推出的TargetAmp方法。

第一个难题：PCR偏差

所谓PCR偏差，就是在PCR扩增过程当中，某些片段被大量扩增，而大部分片段被扩增的量很少，甚至根本就没有被扩增。结果就导致高通量测序，只能测到这所有样本当中很少一部分的片段序列。

PCR偏差会随着PCR循环的次数的增多而指数放大。那么，在这种情况下，一方面要把核酸扩增几百万倍，甚至更多的倍数；另一方面，又想得到均一覆盖的文库，这就是单细胞mRNA建库当中，所要解决的第一个大难题。

第二个难题：去除核糖体RNA

因为rRNA在总RNA当中占了95%，甚至更高的比例，而mRNA在总RNA当中只占2~3%的比例。如果不加区分地进行逆转录，再扩增、建库很可能测序得到的绝大部分序列都是rRNA的序列。

如何能够选择性地把mRNA转化成测序文库，并且避免把rRNA带到测序文库中来，这就是单细胞mRNA测序当中，要解决的第二个大难题。

应用：

单细胞mRNA测序方法，在循环肿瘤细胞研究、胚胎发育研究、和神经活动研究方面，有着广泛的应用。