原文链接:Large Genome Assembly with PacBio Long Reads


可以以多种方式利用PacBio长reads来生成和改进大型基因组的de novo组装。
你可以用几种不同的方法:

  1. PacBio-only de novo 组装。long insert library; preprocessed; Overlap-Layout-Consensus algorithm
  2. 混合de novo组装。combination of PacBio and short read data; hybrid assembly
  3. 填充Gap。mate-pair based assembly;
  4. Scaffolding。join contigs


图:PacBio装配方法的说明


下面我们讨论什么软件是可用的,如何选择软件,以及额外的考虑。

1.软件选择

1.1 PacBio-only

  1. HGAP workflow:preassemble reads;assemble the preassembled reads using Celera® Assembler;polish using Quiver
  2. Falcon 一个实验性的二倍体组装工具,测试multi Gb genomes。
  3. Canu Celera Assembler的一个分支,专门用于高噪音单分子测序。
  4. Celera® Assembler 提供直接组装subreads的一种方式
  5. Sprai preassembly-based的组装工具,目标是generate longer contigs。

1.2 混合使用

  1. pacBioToCA Celera® Assembler的一个error correction模块,最初是用来align short reads to PacBio reads 和 generate consensus sequences。Celera® Assembler可以组装These error corrected reads。
  2. ECTools 一组工具,使用contigs代替short reads 来进行correction。
  3. SPAdes short read assembler,added PacBio hybrid assembly,最新version 3.0。
  4. Cerulean 从ABySS 的assembly graph开始,extends contigs by resolving bubbles in the graph,使用PacBio long reads。已成功在genomes <100 Mb的物种中运行。
  5. dbg2olc 使用Illumina contigs作为anchors 来建立overlap graph,使用PacBio reads,性能非常好。

1.3 Gap Filling

  • PBJelly 2 使用PacBio reads来fill in gaps in scaffolds。genomes >1 Gb下已成功运行,

2.额外的考虑

2.1 覆盖度和软件选择

算法选择:how much PacBio sequencing can be obtained 和 what types of short read data are available。
一般:

  • PacBio-only de novo:get at least 50X PacBio coverage
  • HGAP:minimum recommended coverage下表现最好
  • PBcR in Celera Assembler 8.2 beta uses MHAP:For larger genomes
    ...
  • PBcR and ECTools :20X PacBio coverage
  • PBJelly 2:a high quality set of scaffolds exists
    ...
    at least PacBio 5X coverage to fill gaps


图:PacBio 算法 推荐 from a PAG 2014

2.2 重复的内容

de novo assembly最大的挑战之一
解决方案:work with insert sizes that can span repeats and identify unique anchoring sequence on each side.

2.3 倍数性

大部分组装工具都是为单倍体设计的。
二倍体基因组染色体之间的结构变异较少

2.4 Short-Read数据的覆盖偏差

extreme GC composition

2.5 计算消耗

减少时间消耗:align short read contigs to PacBio reads

2.6 基因组草图的质量

Gap filling of mate pair-based scaffolded assemblies

2.7 大量的插入库

3.数据集和实例项目

4.附加链接

PacBio长reads的大基因组组装的更多相关文章

  1. 基因组组装工具之 SOAPdenovo 使用方法

    SOAPdenovo是一个新颖的适用于组装短reads的方法,能组装出类似人类基因组大小的de novo草图. 该软件特地设计用来组装Illumina GA short reads,新的版本减少了在图 ...

  2. Pacbio三代基因组组装简介

    参考: 视频PPT来自欧易生物讲座:如何开启一个动植物基因组三代de novo项目?

  3. 【基因组组装】HiC挂载软件以及如何用Juice_box手工纠错?

    目录 1.常用HiC挂载软件 2. Juice_box手工纠错 1.常用HiC挂载软件 ALLHiC 张兴坦老师专为多倍体和高杂合度物种基因组挂载开发.如果是复杂基因组,肯定是首选.对于简单基因组,我 ...

  4. 【重构】 代码的坏味道总结 Bad Smell (一) (重复代码 | 过长函数 | 过大的类 | 过长参数列 | 发散式变化 | 霰弹式修改)

    膜拜下 Martin Fowler 大神 , 开始学习 圣经 重构-改善既有代码设计 . 代码的坏味道就意味着需要重构, 对代码的坏味道了然于心是重构的比要前提; . 作者 : 万境绝尘 转载请注明出 ...

  5. 重构 之 总结代码的坏味道 Bad Smell (一) 重复代码 过长函数 过大的类 过长参数列 发散式变化 霰弹式修改

    膜拜下 Martin Fowler 大神 , 开始学习 圣经 重构-改善既有代码设计 . 代码的坏味道就意味着需要重构, 对代码的坏味道了然于心是重构的比要前提; . 作者 : 万境绝尘 转载请注明出 ...

  6. 【基因组组装】HiC挂载Juicebox纠错补充

    目录 1. 主要纠错类型 misjoins translocations inversions chromosome boundaries 2. 其他有用操作 撤销与反撤销 移到边角料 1. 主要纠错 ...

  7. redis安全删key脚本(模糊匹配,长list,大set等)

    两种情况: 1.删除指定前缀开头的rediskey ,扫描和删除过程中对线上无感知 2.删除一个大的list,set,zset,hash,这种得分批次减少大小,一直缩到0再删 第一种情况:只要知道线上 ...

  8. minimap2 长reads比对工具

    minimap2 github 官网 https://github.com/lh3/minimap2 安装 git clone https://github.com/lh3/minimap2 cd m ...

  9. quast-lg

    1.官网简介 http://cab.spbu.ru/software/quast-lg/ QUAST- lg是QUAST的一个扩展,用于评估大型基因组装配(直至哺乳动物大小).QUAST- lg从5. ...

随机推荐

  1. jquery uploadify上传插件兼容火狐问题

    jquery uploadify长传插件兼容火狐问题.因为现在火狐以不在默认安装flash插件.所以uploadify的flash版就需要安装flash插件.还可以成功. 可以到哪里下载安装:http ...

  2. Android任务和返回栈完全解析

    转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/41087993 本篇文章主要内容来自于Android Doc,我翻译之后又做了些加工 ...

  3. ByteBuffer解析

    一.前言 前一篇文章我们介绍了Android中直播视频技术的基础大纲知识,这里就开始一一讲解各个知识点,首先主要来看一下视频直播中的一个重要的基础核心类:ByteBuffer,这个类看上去都知道了,是 ...

  4. java中局部变量和成员变量主要是他们作用域的区别

    成员变量个是类内部:局部变量是定义其的方法体内部(或者方法体内部的某一程序块内——大括号,主要看定义的位置).另外,成员变量可以不显式初始化,它们可以由系统设定默认值:局部变量没有默认值,所以必须设定 ...

  5. SqlSever基础 两个条件 group by 分组显示

    镇场诗:---大梦谁觉,水月中建博客.百千磨难,才知世事无常.---今持佛语,技术无量愿学.愿尽所学,铸一良心博客.------------------------------------------ ...

  6. UE4高级功能--初探超大无缝地图的实现LevelStream

    转自:http://blog.csdn.net/u011707076/article/details/44903223 LevelStream 实现超大无缝地图--官方文档学习 The Level S ...

  7. Python ftplib

    http://automationtesting.sinaapp.com/blog/m_ftplib https://docs.python.org/2/library/ftplib.html 概述 ...

  8. Windows安装Python包下载工具pip遇到的问题

    到Python的官网下载get-pip.py文件,然后按照说明进行安装. 在安装过程中,我遇到以下问题: cmd的codepage引起的编码错误,提示65001编码错误,通过chcp 936切换到默认 ...

  9. ERROR 1044 (42000): Access denied for user 'root'@'localhost' to database 'mysql'

    mysql> use mysqlERROR 1044 (42000): Access denied for user 'root'@'localhost' to database 'mysql' ...

  10. CoreLocation

    导入框架(Xcode5.0之后可以省略)