PacBio长reads的大基因组组装
原文链接:Large Genome Assembly with PacBio Long Reads
可以以多种方式利用PacBio长reads来生成和改进大型基因组的de novo组装。
你可以用几种不同的方法:
- PacBio-only de novo 组装。long insert library; preprocessed; Overlap-Layout-Consensus algorithm
- 混合de novo组装。combination of PacBio and short read data; hybrid assembly
- 填充Gap。mate-pair based assembly;
- Scaffolding。join contigs

图:PacBio装配方法的说明
下面我们讨论什么软件是可用的,如何选择软件,以及额外的考虑。
1.软件选择
1.1 PacBio-only
- HGAP workflow:preassemble reads;assemble the preassembled reads using Celera® Assembler;polish using Quiver
- Falcon 一个实验性的二倍体组装工具,测试multi Gb genomes。
- Canu Celera Assembler的一个分支,专门用于高噪音单分子测序。
- Celera® Assembler 提供直接组装subreads的一种方式
- Sprai preassembly-based的组装工具,目标是generate longer contigs。
1.2 混合使用
- pacBioToCA Celera® Assembler的一个error correction模块,最初是用来align short reads to PacBio reads 和 generate consensus sequences。Celera® Assembler可以组装These error corrected reads。
- ECTools 一组工具,使用contigs代替short reads 来进行correction。
- SPAdes short read assembler,added PacBio hybrid assembly,最新version 3.0。
- Cerulean 从ABySS 的assembly graph开始,extends contigs by resolving bubbles in the graph,使用PacBio long reads。已成功在genomes <100 Mb的物种中运行。
- dbg2olc 使用Illumina contigs作为anchors 来建立overlap graph,使用PacBio reads,性能非常好。
1.3 Gap Filling
- PBJelly 2 使用PacBio reads来fill in gaps in scaffolds。genomes >1 Gb下已成功运行,
2.额外的考虑
2.1 覆盖度和软件选择
算法选择:how much PacBio sequencing can be obtained 和 what types of short read data are available。
一般:
- PacBio-only de novo:get at least 50X PacBio coverage
- HGAP:minimum recommended coverage下表现最好
- PBcR in Celera Assembler 8.2 beta uses MHAP:For larger genomes
... - PBcR and ECTools :20X PacBio coverage
- PBJelly 2:a high quality set of scaffolds exists
...
at least PacBio 5X coverage to fill gaps

图:PacBio 算法 推荐 from a PAG 2014
2.2 重复的内容
de novo assembly最大的挑战之一
解决方案:work with insert sizes that can span repeats and identify unique anchoring sequence on each side.
2.3 倍数性
大部分组装工具都是为单倍体设计的。
二倍体基因组染色体之间的结构变异较少
2.4 Short-Read数据的覆盖偏差
extreme GC composition
2.5 计算消耗
减少时间消耗:align short read contigs to PacBio reads
2.6 基因组草图的质量
Gap filling of mate pair-based scaffolded assemblies
2.7 大量的插入库
3.数据集和实例项目
4.附加链接
PacBio长reads的大基因组组装的更多相关文章
- 基因组组装工具之 SOAPdenovo 使用方法
SOAPdenovo是一个新颖的适用于组装短reads的方法,能组装出类似人类基因组大小的de novo草图. 该软件特地设计用来组装Illumina GA short reads,新的版本减少了在图 ...
- Pacbio三代基因组组装简介
参考: 视频PPT来自欧易生物讲座:如何开启一个动植物基因组三代de novo项目?
- 【基因组组装】HiC挂载软件以及如何用Juice_box手工纠错?
目录 1.常用HiC挂载软件 2. Juice_box手工纠错 1.常用HiC挂载软件 ALLHiC 张兴坦老师专为多倍体和高杂合度物种基因组挂载开发.如果是复杂基因组,肯定是首选.对于简单基因组,我 ...
- 【重构】 代码的坏味道总结 Bad Smell (一) (重复代码 | 过长函数 | 过大的类 | 过长参数列 | 发散式变化 | 霰弹式修改)
膜拜下 Martin Fowler 大神 , 开始学习 圣经 重构-改善既有代码设计 . 代码的坏味道就意味着需要重构, 对代码的坏味道了然于心是重构的比要前提; . 作者 : 万境绝尘 转载请注明出 ...
- 重构 之 总结代码的坏味道 Bad Smell (一) 重复代码 过长函数 过大的类 过长参数列 发散式变化 霰弹式修改
膜拜下 Martin Fowler 大神 , 开始学习 圣经 重构-改善既有代码设计 . 代码的坏味道就意味着需要重构, 对代码的坏味道了然于心是重构的比要前提; . 作者 : 万境绝尘 转载请注明出 ...
- 【基因组组装】HiC挂载Juicebox纠错补充
目录 1. 主要纠错类型 misjoins translocations inversions chromosome boundaries 2. 其他有用操作 撤销与反撤销 移到边角料 1. 主要纠错 ...
- redis安全删key脚本(模糊匹配,长list,大set等)
两种情况: 1.删除指定前缀开头的rediskey ,扫描和删除过程中对线上无感知 2.删除一个大的list,set,zset,hash,这种得分批次减少大小,一直缩到0再删 第一种情况:只要知道线上 ...
- minimap2 长reads比对工具
minimap2 github 官网 https://github.com/lh3/minimap2 安装 git clone https://github.com/lh3/minimap2 cd m ...
- quast-lg
1.官网简介 http://cab.spbu.ru/software/quast-lg/ QUAST- lg是QUAST的一个扩展,用于评估大型基因组装配(直至哺乳动物大小).QUAST- lg从5. ...
随机推荐
- jquery uploadify上传插件兼容火狐问题
jquery uploadify长传插件兼容火狐问题.因为现在火狐以不在默认安装flash插件.所以uploadify的flash版就需要安装flash插件.还可以成功. 可以到哪里下载安装:http ...
- Android任务和返回栈完全解析
转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/41087993 本篇文章主要内容来自于Android Doc,我翻译之后又做了些加工 ...
- ByteBuffer解析
一.前言 前一篇文章我们介绍了Android中直播视频技术的基础大纲知识,这里就开始一一讲解各个知识点,首先主要来看一下视频直播中的一个重要的基础核心类:ByteBuffer,这个类看上去都知道了,是 ...
- java中局部变量和成员变量主要是他们作用域的区别
成员变量个是类内部:局部变量是定义其的方法体内部(或者方法体内部的某一程序块内——大括号,主要看定义的位置).另外,成员变量可以不显式初始化,它们可以由系统设定默认值:局部变量没有默认值,所以必须设定 ...
- SqlSever基础 两个条件 group by 分组显示
镇场诗:---大梦谁觉,水月中建博客.百千磨难,才知世事无常.---今持佛语,技术无量愿学.愿尽所学,铸一良心博客.------------------------------------------ ...
- UE4高级功能--初探超大无缝地图的实现LevelStream
转自:http://blog.csdn.net/u011707076/article/details/44903223 LevelStream 实现超大无缝地图--官方文档学习 The Level S ...
- Python ftplib
http://automationtesting.sinaapp.com/blog/m_ftplib https://docs.python.org/2/library/ftplib.html 概述 ...
- Windows安装Python包下载工具pip遇到的问题
到Python的官网下载get-pip.py文件,然后按照说明进行安装. 在安装过程中,我遇到以下问题: cmd的codepage引起的编码错误,提示65001编码错误,通过chcp 936切换到默认 ...
- ERROR 1044 (42000): Access denied for user 'root'@'localhost' to database 'mysql'
mysql> use mysqlERROR 1044 (42000): Access denied for user 'root'@'localhost' to database 'mysql' ...
- CoreLocation
导入框架(Xcode5.0之后可以省略)