原文链接:Large Genome Assembly with PacBio Long Reads


可以以多种方式利用PacBio长reads来生成和改进大型基因组的de novo组装。
你可以用几种不同的方法:

  1. PacBio-only de novo 组装。long insert library; preprocessed; Overlap-Layout-Consensus algorithm
  2. 混合de novo组装。combination of PacBio and short read data; hybrid assembly
  3. 填充Gap。mate-pair based assembly;
  4. Scaffolding。join contigs


图:PacBio装配方法的说明


下面我们讨论什么软件是可用的,如何选择软件,以及额外的考虑。

1.软件选择

1.1 PacBio-only

  1. HGAP workflow:preassemble reads;assemble the preassembled reads using Celera® Assembler;polish using Quiver
  2. Falcon 一个实验性的二倍体组装工具,测试multi Gb genomes。
  3. Canu Celera Assembler的一个分支,专门用于高噪音单分子测序。
  4. Celera® Assembler 提供直接组装subreads的一种方式
  5. Sprai preassembly-based的组装工具,目标是generate longer contigs。

1.2 混合使用

  1. pacBioToCA Celera® Assembler的一个error correction模块,最初是用来align short reads to PacBio reads 和 generate consensus sequences。Celera® Assembler可以组装These error corrected reads。
  2. ECTools 一组工具,使用contigs代替short reads 来进行correction。
  3. SPAdes short read assembler,added PacBio hybrid assembly,最新version 3.0。
  4. Cerulean 从ABySS 的assembly graph开始,extends contigs by resolving bubbles in the graph,使用PacBio long reads。已成功在genomes <100 Mb的物种中运行。
  5. dbg2olc 使用Illumina contigs作为anchors 来建立overlap graph,使用PacBio reads,性能非常好。

1.3 Gap Filling

  • PBJelly 2 使用PacBio reads来fill in gaps in scaffolds。genomes >1 Gb下已成功运行,

2.额外的考虑

2.1 覆盖度和软件选择

算法选择:how much PacBio sequencing can be obtained 和 what types of short read data are available。
一般:

  • PacBio-only de novo:get at least 50X PacBio coverage
  • HGAP:minimum recommended coverage下表现最好
  • PBcR in Celera Assembler 8.2 beta uses MHAP:For larger genomes
    ...
  • PBcR and ECTools :20X PacBio coverage
  • PBJelly 2:a high quality set of scaffolds exists
    ...
    at least PacBio 5X coverage to fill gaps


图:PacBio 算法 推荐 from a PAG 2014

2.2 重复的内容

de novo assembly最大的挑战之一
解决方案:work with insert sizes that can span repeats and identify unique anchoring sequence on each side.

2.3 倍数性

大部分组装工具都是为单倍体设计的。
二倍体基因组染色体之间的结构变异较少

2.4 Short-Read数据的覆盖偏差

extreme GC composition

2.5 计算消耗

减少时间消耗:align short read contigs to PacBio reads

2.6 基因组草图的质量

Gap filling of mate pair-based scaffolded assemblies

2.7 大量的插入库

3.数据集和实例项目

4.附加链接

PacBio长reads的大基因组组装的更多相关文章

  1. 基因组组装工具之 SOAPdenovo 使用方法

    SOAPdenovo是一个新颖的适用于组装短reads的方法,能组装出类似人类基因组大小的de novo草图. 该软件特地设计用来组装Illumina GA short reads,新的版本减少了在图 ...

  2. Pacbio三代基因组组装简介

    参考: 视频PPT来自欧易生物讲座:如何开启一个动植物基因组三代de novo项目?

  3. 【基因组组装】HiC挂载软件以及如何用Juice_box手工纠错?

    目录 1.常用HiC挂载软件 2. Juice_box手工纠错 1.常用HiC挂载软件 ALLHiC 张兴坦老师专为多倍体和高杂合度物种基因组挂载开发.如果是复杂基因组,肯定是首选.对于简单基因组,我 ...

  4. 【重构】 代码的坏味道总结 Bad Smell (一) (重复代码 | 过长函数 | 过大的类 | 过长参数列 | 发散式变化 | 霰弹式修改)

    膜拜下 Martin Fowler 大神 , 开始学习 圣经 重构-改善既有代码设计 . 代码的坏味道就意味着需要重构, 对代码的坏味道了然于心是重构的比要前提; . 作者 : 万境绝尘 转载请注明出 ...

  5. 重构 之 总结代码的坏味道 Bad Smell (一) 重复代码 过长函数 过大的类 过长参数列 发散式变化 霰弹式修改

    膜拜下 Martin Fowler 大神 , 开始学习 圣经 重构-改善既有代码设计 . 代码的坏味道就意味着需要重构, 对代码的坏味道了然于心是重构的比要前提; . 作者 : 万境绝尘 转载请注明出 ...

  6. 【基因组组装】HiC挂载Juicebox纠错补充

    目录 1. 主要纠错类型 misjoins translocations inversions chromosome boundaries 2. 其他有用操作 撤销与反撤销 移到边角料 1. 主要纠错 ...

  7. redis安全删key脚本(模糊匹配,长list,大set等)

    两种情况: 1.删除指定前缀开头的rediskey ,扫描和删除过程中对线上无感知 2.删除一个大的list,set,zset,hash,这种得分批次减少大小,一直缩到0再删 第一种情况:只要知道线上 ...

  8. minimap2 长reads比对工具

    minimap2 github 官网 https://github.com/lh3/minimap2 安装 git clone https://github.com/lh3/minimap2 cd m ...

  9. quast-lg

    1.官网简介 http://cab.spbu.ru/software/quast-lg/ QUAST- lg是QUAST的一个扩展,用于评估大型基因组装配(直至哺乳动物大小).QUAST- lg从5. ...

随机推荐

  1. Apache Commons-pool实现对象池(包括带key对象池)

    Commons-pool是一个apache开源组织下的众多项目的一个.其被广泛地整合到众多需要对象池功能的项目中. 官网:http://commons.apache.org/proper/common ...

  2. shell脚本之间互相调用

    在Shell中要如何调用别的shell脚本,或别的脚本中的变量,函数呢? 方法一: . ./subscript.sh 方法二: source ./subscript.sh 注意: .两个点之间,有空格 ...

  3. CentOS系统识别NTFS分区的移动硬盘

    第一步:下载rpmforge,下载对应的版本,就是对应CentOS版本,还有32位与64位也要对应上.rpmforge拥有4000多种CentOS的软件包,被CentOS社区认为是最安全也是最稳定的一 ...

  4. Objective-C学习笔记_Xcode模拟命令行填入参数执行

    菜单Product->Edit Scheme 左边找到run xxx,点击后再邮编选择Arguments面板中就可以设置Xcode在运行命令行app时模拟输入参数. 设置完成后再次run就会自动 ...

  5. 思考之一——PM(Project Manager)

    摘自:http://blog.csdn.net/moreevan/article/details/6697806

  6. 我的android学习经历15

    利用Intent实现有返回结果的页面跳转 主要用的方法: (1)Intent的构造方法:intent(当前界面对象,要跳转的界面.class); (2)接受结果的方法onActivityResult( ...

  7. SQL数据库约束行为---防止数据漏填

    防止有些该填的没有填:一.非空约束不能为NULL.操作:在表的设计界面中“允许NULL值”中的复选框去掉. 二.默认值.如果不给列赋值的话,会使用默认值填上.操作:在表的设计界面,选择相应的列,在下面 ...

  8. Python 字符编码 zz

    http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html 1. 字符编码简介 1.1. ASCII ASCII(American Stan ...

  9. Cheatsheet: 2013 08.14 ~ 08.19

    .NET Lucene.Net ultra fast search for MVC or WebForms site => made easy! C# State Machines HttpCl ...

  10. Linux基础01 学会使用命令帮助

    Linux基础01 学会使用命令帮助 概述 在linux终端,面对命令不知道怎么用,或不记得命令的拼写及参数时,我们需要求助于系统的帮助文档:linux系统内置的帮助文档很详细,通常能解决我们的问题, ...