PacBio长reads的大基因组组装
原文链接:Large Genome Assembly with PacBio Long Reads
可以以多种方式利用PacBio长reads来生成和改进大型基因组的de novo组装。
你可以用几种不同的方法:
- PacBio-only de novo 组装。long insert library; preprocessed; Overlap-Layout-Consensus algorithm
- 混合de novo组装。combination of PacBio and short read data; hybrid assembly
- 填充Gap。mate-pair based assembly;
- Scaffolding。join contigs
图:PacBio装配方法的说明
下面我们讨论什么软件是可用的,如何选择软件,以及额外的考虑。
1.软件选择
1.1 PacBio-only
- HGAP workflow:preassemble reads;assemble the preassembled reads using Celera® Assembler;polish using Quiver
- Falcon 一个实验性的二倍体组装工具,测试multi Gb genomes。
- Canu Celera Assembler的一个分支,专门用于高噪音单分子测序。
- Celera® Assembler 提供直接组装subreads的一种方式
- Sprai preassembly-based的组装工具,目标是generate longer contigs。
1.2 混合使用
- pacBioToCA Celera® Assembler的一个error correction模块,最初是用来align short reads to PacBio reads 和 generate consensus sequences。Celera® Assembler可以组装These error corrected reads。
- ECTools 一组工具,使用contigs代替short reads 来进行correction。
- SPAdes short read assembler,added PacBio hybrid assembly,最新version 3.0。
- Cerulean 从ABySS 的assembly graph开始,extends contigs by resolving bubbles in the graph,使用PacBio long reads。已成功在genomes <100 Mb的物种中运行。
- dbg2olc 使用Illumina contigs作为anchors 来建立overlap graph,使用PacBio reads,性能非常好。
1.3 Gap Filling
- PBJelly 2 使用PacBio reads来fill in gaps in scaffolds。genomes >1 Gb下已成功运行,
2.额外的考虑
2.1 覆盖度和软件选择
算法选择:how much PacBio sequencing can be obtained 和 what types of short read data are available。
一般:
- PacBio-only de novo:get at least 50X PacBio coverage
- HGAP:minimum recommended coverage下表现最好
- PBcR in Celera Assembler 8.2 beta uses MHAP:For larger genomes
... - PBcR and ECTools :20X PacBio coverage
- PBJelly 2:a high quality set of scaffolds exists
...
at least PacBio 5X coverage to fill gaps
图:PacBio 算法 推荐 from a PAG 2014
2.2 重复的内容
de novo assembly最大的挑战之一
解决方案:work with insert sizes that can span repeats and identify unique anchoring sequence on each side.
2.3 倍数性
大部分组装工具都是为单倍体设计的。
二倍体基因组染色体之间的结构变异较少
2.4 Short-Read数据的覆盖偏差
extreme GC composition
2.5 计算消耗
减少时间消耗:align short read contigs to PacBio reads
2.6 基因组草图的质量
Gap filling of mate pair-based scaffolded assemblies
2.7 大量的插入库
3.数据集和实例项目
4.附加链接
PacBio长reads的大基因组组装的更多相关文章
- 基因组组装工具之 SOAPdenovo 使用方法
SOAPdenovo是一个新颖的适用于组装短reads的方法,能组装出类似人类基因组大小的de novo草图. 该软件特地设计用来组装Illumina GA short reads,新的版本减少了在图 ...
- Pacbio三代基因组组装简介
参考: 视频PPT来自欧易生物讲座:如何开启一个动植物基因组三代de novo项目?
- 【基因组组装】HiC挂载软件以及如何用Juice_box手工纠错?
目录 1.常用HiC挂载软件 2. Juice_box手工纠错 1.常用HiC挂载软件 ALLHiC 张兴坦老师专为多倍体和高杂合度物种基因组挂载开发.如果是复杂基因组,肯定是首选.对于简单基因组,我 ...
- 【重构】 代码的坏味道总结 Bad Smell (一) (重复代码 | 过长函数 | 过大的类 | 过长参数列 | 发散式变化 | 霰弹式修改)
膜拜下 Martin Fowler 大神 , 开始学习 圣经 重构-改善既有代码设计 . 代码的坏味道就意味着需要重构, 对代码的坏味道了然于心是重构的比要前提; . 作者 : 万境绝尘 转载请注明出 ...
- 重构 之 总结代码的坏味道 Bad Smell (一) 重复代码 过长函数 过大的类 过长参数列 发散式变化 霰弹式修改
膜拜下 Martin Fowler 大神 , 开始学习 圣经 重构-改善既有代码设计 . 代码的坏味道就意味着需要重构, 对代码的坏味道了然于心是重构的比要前提; . 作者 : 万境绝尘 转载请注明出 ...
- 【基因组组装】HiC挂载Juicebox纠错补充
目录 1. 主要纠错类型 misjoins translocations inversions chromosome boundaries 2. 其他有用操作 撤销与反撤销 移到边角料 1. 主要纠错 ...
- redis安全删key脚本(模糊匹配,长list,大set等)
两种情况: 1.删除指定前缀开头的rediskey ,扫描和删除过程中对线上无感知 2.删除一个大的list,set,zset,hash,这种得分批次减少大小,一直缩到0再删 第一种情况:只要知道线上 ...
- minimap2 长reads比对工具
minimap2 github 官网 https://github.com/lh3/minimap2 安装 git clone https://github.com/lh3/minimap2 cd m ...
- quast-lg
1.官网简介 http://cab.spbu.ru/software/quast-lg/ QUAST- lg是QUAST的一个扩展,用于评估大型基因组装配(直至哺乳动物大小).QUAST- lg从5. ...
随机推荐
- java中局部变量和成员变量主要是他们作用域的区别
成员变量个是类内部:局部变量是定义其的方法体内部(或者方法体内部的某一程序块内——大括号,主要看定义的位置).另外,成员变量可以不显式初始化,它们可以由系统设定默认值:局部变量没有默认值,所以必须设定 ...
- C#窗体截屏,简单例子
private void button1_Click(object sender, EventArgs e) { Rectangle rect = System.Windows.Forms.Syste ...
- C#中关键字ref修饰类对象或结构体[转]
using System; using System.Collections.Generic; using System.Text; namespace CSharpTest { struct Dog ...
- [转]Unity3D协程介绍 以及 使用
作者ChevyRay ,2013年9月28日,snaker7译 原文地址:http://unitypatterns.com/introduction-to-coroutines/ 在Unity中,协 ...
- 借助Nodejs在服务端使用jQuery采集17173游戏排行信息
Nodejs相关依赖模块介绍 Nodejs的优势这里就不做介绍啦,这年头相信大家对它也不陌生了.这里主要介绍一下用到的第三方模块. async:js代码中到处都是异步回调,很多时候我们需要做同步处理, ...
- Dev
调用DoValidate()始终返回true 解决方案 txtCarNo.IsModified = true; result = result & txtCarNo.DoValidate(); ...
- 终端、shell、bash的区别联系
最佳答案 终端,即所谓的命令行界面,又称命令终端,用户输入shell命令用的窗口,跟Windows里的DOS界面差不多. shell,Shell就是用户和操作系统之间的壳,中介,GUI和CLI都算是S ...
- [POJ1681]Painter's Problem(高斯消元,异或方程组,状压枚举)
题目链接:http://poj.org/problem?id=1681 题意:还是翻格子的题,但是这里有可能出现自由变元,这时候枚举一下就行..(其实这题直接状压枚举就行) /* ━━━━━┒ギリギリ ...
- java web开发必备知识
从各种招聘网站的要求上筛选出了一些java开发的一些基本的要求,对照自身看看有哪些缺陷. java基础 既然是java web开发,java SE肯定要学好了. 多线程,IO,集合等,对队列,缓存,消 ...
- mysql启动关闭
RedHat Linux (Fedora Core/Cent OS) 1.启动:/etc/init.d/mysqld start2.停止:/etc/init.d/mysqld stop3.重启:/et ...