原文链接:Large Genome Assembly with PacBio Long Reads


可以以多种方式利用PacBio长reads来生成和改进大型基因组的de novo组装。
你可以用几种不同的方法:

  1. PacBio-only de novo 组装。long insert library; preprocessed; Overlap-Layout-Consensus algorithm
  2. 混合de novo组装。combination of PacBio and short read data; hybrid assembly
  3. 填充Gap。mate-pair based assembly;
  4. Scaffolding。join contigs


图:PacBio装配方法的说明


下面我们讨论什么软件是可用的,如何选择软件,以及额外的考虑。

1.软件选择

1.1 PacBio-only

  1. HGAP workflow:preassemble reads;assemble the preassembled reads using Celera® Assembler;polish using Quiver
  2. Falcon 一个实验性的二倍体组装工具,测试multi Gb genomes。
  3. Canu Celera Assembler的一个分支,专门用于高噪音单分子测序。
  4. Celera® Assembler 提供直接组装subreads的一种方式
  5. Sprai preassembly-based的组装工具,目标是generate longer contigs。

1.2 混合使用

  1. pacBioToCA Celera® Assembler的一个error correction模块,最初是用来align short reads to PacBio reads 和 generate consensus sequences。Celera® Assembler可以组装These error corrected reads。
  2. ECTools 一组工具,使用contigs代替short reads 来进行correction。
  3. SPAdes short read assembler,added PacBio hybrid assembly,最新version 3.0。
  4. Cerulean 从ABySS 的assembly graph开始,extends contigs by resolving bubbles in the graph,使用PacBio long reads。已成功在genomes <100 Mb的物种中运行。
  5. dbg2olc 使用Illumina contigs作为anchors 来建立overlap graph,使用PacBio reads,性能非常好。

1.3 Gap Filling

  • PBJelly 2 使用PacBio reads来fill in gaps in scaffolds。genomes >1 Gb下已成功运行,

2.额外的考虑

2.1 覆盖度和软件选择

算法选择:how much PacBio sequencing can be obtained 和 what types of short read data are available。
一般:

  • PacBio-only de novo:get at least 50X PacBio coverage
  • HGAP:minimum recommended coverage下表现最好
  • PBcR in Celera Assembler 8.2 beta uses MHAP:For larger genomes
    ...
  • PBcR and ECTools :20X PacBio coverage
  • PBJelly 2:a high quality set of scaffolds exists
    ...
    at least PacBio 5X coverage to fill gaps


图:PacBio 算法 推荐 from a PAG 2014

2.2 重复的内容

de novo assembly最大的挑战之一
解决方案:work with insert sizes that can span repeats and identify unique anchoring sequence on each side.

2.3 倍数性

大部分组装工具都是为单倍体设计的。
二倍体基因组染色体之间的结构变异较少

2.4 Short-Read数据的覆盖偏差

extreme GC composition

2.5 计算消耗

减少时间消耗:align short read contigs to PacBio reads

2.6 基因组草图的质量

Gap filling of mate pair-based scaffolded assemblies

2.7 大量的插入库

3.数据集和实例项目

4.附加链接

PacBio长reads的大基因组组装的更多相关文章

  1. 基因组组装工具之 SOAPdenovo 使用方法

    SOAPdenovo是一个新颖的适用于组装短reads的方法,能组装出类似人类基因组大小的de novo草图. 该软件特地设计用来组装Illumina GA short reads,新的版本减少了在图 ...

  2. Pacbio三代基因组组装简介

    参考: 视频PPT来自欧易生物讲座:如何开启一个动植物基因组三代de novo项目?

  3. 【基因组组装】HiC挂载软件以及如何用Juice_box手工纠错?

    目录 1.常用HiC挂载软件 2. Juice_box手工纠错 1.常用HiC挂载软件 ALLHiC 张兴坦老师专为多倍体和高杂合度物种基因组挂载开发.如果是复杂基因组,肯定是首选.对于简单基因组,我 ...

  4. 【重构】 代码的坏味道总结 Bad Smell (一) (重复代码 | 过长函数 | 过大的类 | 过长参数列 | 发散式变化 | 霰弹式修改)

    膜拜下 Martin Fowler 大神 , 开始学习 圣经 重构-改善既有代码设计 . 代码的坏味道就意味着需要重构, 对代码的坏味道了然于心是重构的比要前提; . 作者 : 万境绝尘 转载请注明出 ...

  5. 重构 之 总结代码的坏味道 Bad Smell (一) 重复代码 过长函数 过大的类 过长参数列 发散式变化 霰弹式修改

    膜拜下 Martin Fowler 大神 , 开始学习 圣经 重构-改善既有代码设计 . 代码的坏味道就意味着需要重构, 对代码的坏味道了然于心是重构的比要前提; . 作者 : 万境绝尘 转载请注明出 ...

  6. 【基因组组装】HiC挂载Juicebox纠错补充

    目录 1. 主要纠错类型 misjoins translocations inversions chromosome boundaries 2. 其他有用操作 撤销与反撤销 移到边角料 1. 主要纠错 ...

  7. redis安全删key脚本(模糊匹配,长list,大set等)

    两种情况: 1.删除指定前缀开头的rediskey ,扫描和删除过程中对线上无感知 2.删除一个大的list,set,zset,hash,这种得分批次减少大小,一直缩到0再删 第一种情况:只要知道线上 ...

  8. minimap2 长reads比对工具

    minimap2 github 官网 https://github.com/lh3/minimap2 安装 git clone https://github.com/lh3/minimap2 cd m ...

  9. quast-lg

    1.官网简介 http://cab.spbu.ru/software/quast-lg/ QUAST- lg是QUAST的一个扩展,用于评估大型基因组装配(直至哺乳动物大小).QUAST- lg从5. ...

随机推荐

  1. java中局部变量和成员变量主要是他们作用域的区别

    成员变量个是类内部:局部变量是定义其的方法体内部(或者方法体内部的某一程序块内——大括号,主要看定义的位置).另外,成员变量可以不显式初始化,它们可以由系统设定默认值:局部变量没有默认值,所以必须设定 ...

  2. C#窗体截屏,简单例子

    private void button1_Click(object sender, EventArgs e) { Rectangle rect = System.Windows.Forms.Syste ...

  3. C#中关键字ref修饰类对象或结构体[转]

    using System; using System.Collections.Generic; using System.Text; namespace CSharpTest { struct Dog ...

  4. [转]Unity3D协程介绍 以及 使用

    作者ChevyRay ,2013年9月28日,snaker7译  原文地址:http://unitypatterns.com/introduction-to-coroutines/ 在Unity中,协 ...

  5. 借助Nodejs在服务端使用jQuery采集17173游戏排行信息

    Nodejs相关依赖模块介绍 Nodejs的优势这里就不做介绍啦,这年头相信大家对它也不陌生了.这里主要介绍一下用到的第三方模块. async:js代码中到处都是异步回调,很多时候我们需要做同步处理, ...

  6. Dev

    调用DoValidate()始终返回true 解决方案 txtCarNo.IsModified = true; result = result & txtCarNo.DoValidate(); ...

  7. 终端、shell、bash的区别联系

    最佳答案 终端,即所谓的命令行界面,又称命令终端,用户输入shell命令用的窗口,跟Windows里的DOS界面差不多. shell,Shell就是用户和操作系统之间的壳,中介,GUI和CLI都算是S ...

  8. [POJ1681]Painter's Problem(高斯消元,异或方程组,状压枚举)

    题目链接:http://poj.org/problem?id=1681 题意:还是翻格子的题,但是这里有可能出现自由变元,这时候枚举一下就行..(其实这题直接状压枚举就行) /* ━━━━━┒ギリギリ ...

  9. java web开发必备知识

    从各种招聘网站的要求上筛选出了一些java开发的一些基本的要求,对照自身看看有哪些缺陷. java基础 既然是java web开发,java SE肯定要学好了. 多线程,IO,集合等,对队列,缓存,消 ...

  10. mysql启动关闭

    RedHat Linux (Fedora Core/Cent OS) 1.启动:/etc/init.d/mysqld start2.停止:/etc/init.d/mysqld stop3.重启:/et ...