4.NGS中的reads mapping

顾名思义,就是将测序的得到的DNA定位在基因组上。

因为二代测序的得到的序列是较短的,reads mapping很好地解决了这个问题。

本质上reads mapping是一个双序列比对问题,但和之前讲的NW和SW的不一样,后者适用于两者长度相差不大的。

现在问题有几个特征:

1.reads和ref的长度有着跨数量级的差异,reads长度通常不超过100bp,而ref基因组通常在上百Mb。

2.数据量,NGS测序产生的数据量达到几百Gb,相当于几十个人的人类基因组。

3.数据质量。在双序列比对中通常假定序列本身不会出错,但是NGS所产生的reads质量参差不齐。

reads可以说是镶嵌到基因组序列中的,对于基因组来说是局部比对,对于reads来说是全局比对,是一个混合型的alignment。

首先对基因组建立索引,也就是index,

将每一个基因根据key映射到一个index,从而存储在不同的数据块中,尽量减少比对时间。

哈希可以来完成,以下例子:

先给ACGT分别确定一个值,那么将求和作为哈希函数,将基因组中分段,然后进行映射存储。这样有一个reads之后就可以以O(1)时间内寻找位置。

通常有一定的容错性

数据压缩中的前缀树和后缀树被应用于reads mapping。 这里也提到了bowtie和BTW(Burruws Wheeler transform),提高了内存利用效率和比对速度。

在对短序列对比时,将所有的SQ都算出来,read中每个碱基都有一个测序质量,假定错配都是由测序错误引起的,从而计算出SQ。

在实际对read mapping的比对中,通常不使用序列比对分数,而使用mapping Quality(也就是最后一行的E),来筛选Read在Ref中的位置。

//这个415是如何得到的呢?是所有SQ的和。

当将reads正确映射到基因组之后,就可以来判断遗传变异。

根据遗传变异的尺寸,可以分为单个碱基水平的单核苷酸变异和多个:

//这个图说的简直十分清晰。

SNV是最常见的遗传变异分析方法:包括替换碱基,或者插入删除碱基。

SV:包括大规模删除插入、倒转、易位、拷贝数变异。

SNP calling是确定哪个基因位点存在变异,不涉及到对应位点的基因型。

Genotype calling是进一步确定变异位点的基因型是纯合的还是杂合的。

测序深度(sequencing depth):测序得到的碱基总量基因组大小的比值。 它与基因组覆盖度是一个正相关的关系。测序错误率和假阳性结果会随测序深度的提高而下降。

//这张图它在说什么,我完全听不懂啊。什么就是纯和了,怎么就杂合了?

这里给出了一个简单的概率模型。

一个生物体的基因型,有三种情况,那么假设在基因测序中测到的有k个A,有n-k个a。

如果是AA,那么概率就是n-k个a错误概率的乘积,杂合子由1-二者之和。

那么如果知道生物体中三种基因型出现了概率作为先验概率,那么可以推算出,后验概率。

//其实这里不太明白D是什么?

ngs中reads mapping-pku的生信课程的更多相关文章

  1. 生信基础知识【04】GO和pathway分析

    非原创 参考资料: 一文掌握GO和pathway分析 - 生物信息学讨论版 -丁香园论坛http://www.dxy.cn/bbs/thread/34904124#34904124 GO富集 GO是G ...

  2. 生信-使用NCBI进行目的基因的引物设计

    使用NCBI进行目的基因的引物设计 全文概述 利用生信工具进行目的基因的引物设计,使用了NCBI进行筛选与设计引物,使用 idtdna对筛选出的DNA进行检查.本文分享了如何筛选出高质量的基因引物,帮 ...

  3. knockoutjs中使用mapping插件绑定数据列表

    使用KO绑定数据列表示例:   1.先申请V,T,T2三个辅助方法,方便调试.声明viewModel和加载数据时的映射条件mapping    2.先使用ko.mapping.fromJS()将原来的 ...

  4. elasticsearch中的mapping映射配置与查询典型案例

    elasticsearch中的mapping映射配置与查询典型案例 elasticsearch中的mapping映射配置示例比如要搭建个中文新闻信息的搜索引擎,新闻有"标题".&q ...

  5. 生信工具汇总--OMICtools

    各种生信工具: https://omictools.com/

  6. 生信软件的好帮手-bioconda--转载

    http://mp.weixin.qq.com/s/nK1Kkf9lfZStoX25Y7SzHQ 这篇文章主要适用于Linux平台,当然MacOS也行,不过它有更好安装方法. 此外网上也会许多更好的关 ...

  7. 精心整理(含图版)|你要的全拿走!(R数据分析,可视化,生信实战)

    本文首发于“生信补给站”公众号,https://mp.weixin.qq.com/s/ZEjaxDifNATeV8fO4krOIQ更多关于R语言,ggplot2绘图,生信分析的内容,敬请关注小号. 为 ...

  8. ElasticSearch 中的 Mapping

    公号:码农充电站pro 主页:https://codeshellme.github.io 1,ES 中的 Mapping ES 中的 Mapping 相当于传统数据库中的表定义,它有以下作用: 定义索 ...

  9. 生信基础概念之unique reads VS multi-mapping reads

    unique reads:在参考组上只有一个匹配点 multi-mapping reads:在参考组上有多个匹配点 下面是tophat的一个结果案例: Reads: Input : Mapped : ...

随机推荐

  1. ExtPager ,分页

    package cn.edu.hbcf.common.vo; public class ExtPager { private Integer start; private Integer limit; ...

  2. SockIOPool

    1. SockIOPool – SockIO池化管理,为上层提供的接口是实例化函数[主要是指定memcached服务器地址,各个机器的权重]:根据key&hashCode获取SockIO-网络 ...

  3. IE下使用jquery失效的问题(转载)

    1,然后各种调试,最后发现:把ie把关了,再打开$.get().会调用,再第二次调用的用的时候发现又不行了.于是我推断是ie缓存的问题,把ie缓存清除后,果然可以了.但是客户不可能知道清理缓存.所以只 ...

  4. nginx php-fpm启用慢日志slowlog

    php-fpm慢日志slowlog设置可以让我们很好的看见哪些php进程速度太慢而导致的网站问题. 可以让我们方便的找到问题的所在.  代码如下 1 vi /data1/server/php-cgi/ ...

  5. 第二百三十二节,Bootstrap排版样式

    Bootstrap排版样式 学习要点: 1.页面排版 本节课我们主要学习一下 Bootstrap 全局 CSS 样式中的排版样式,包括了标题.页面 主体.对齐.列表等常规内容. 一.页面排版 Boot ...

  6. 第一百四十四节,JavaScript,列队动画

    JavaScript,列队动画 将上一节的,移动透明动画,修改成可以支持列队,也就是可以给这个动画方法多个动画任务,让它完成一个动画任务后,在执行第二个动画任务 原理: 就是在原有的动画方法里加一个回 ...

  7. URL编码,空格和+

    下表中列出了一些URL特殊符号及编码 + URL 中+号表示空格 %2B 空格 URL中的空格可以用+号或者编码 %20 / 分隔目录和子目录 %2F ? 分隔实际的URL和参数 %3F % 指定特殊 ...

  8. python 糗事百科实例

    爬取糗事百科段子,假设页面的URL是 http://www.qiushibaike.com/8hr/page/1 要求: 使用requests获取页面信息,用XPath / re 做数据提取 获取每个 ...

  9. NPOI 1.2教程(目录)操作Excel

    原文地址:http://www.cnblogs.com/atao/archive/2009/11/15/1603528.html

  10. 【vijos】1757 逆序对(dp)

    https://vijos.org/p/1757 有时候自己sb真的是不好说... 我竟然想了半天都没想到这个转移. 我是有多傻.... 我们设f[i][j]表示1~i的排列且逆序对恰好是j的方案数. ...