对于植物等真核生物基因组来说,重复序列, 多倍体,高杂合度等特征在利用二代数据进行组装的时候都会有很大的问题;

利用二代数据组装出来的基因组,大多达不到完成图的水准,通常只是覆盖到编码蛋白的基因区域,还是会有很多的区域覆盖不到,而这些区域正是发挥调控功能的非编码基因区域,近年来,非编码功能的研究越来越多,如果拼接出来的基因组上缺少这部分序列,无法进行后续的研究;

而且由于测序读长的限制和拼接算法的原因,对于重复序列,GC异常区域,会存在组装错误,甚至组装不出来;

三代测序,其长读长和无GC偏好性等特点,降级了基因组组装时的难度,可以组装出在二代数据中很难组装出来的重复序列和GC异常序列,非常适合做基因组的组装;

研究人员利用PacbBio RSII 测序平台对复活草进行测序,使用了32个SMRT cells, 测序深度72X

最终组装出来的结果包含650条contigs, 覆盖度为99%(估计的基因组大小为245Mb, contig的总长度为244Mb),conig的N50长度为2.4M,

同时还组装出来完整的叶绿体基因组,大小为125,324 bp, 其中有大约25kb为重复序列,

分析使用的是HGAP的组装流程,参数如下:

The Oropetium genome was assembled using the
RS_HGAP_Assembly.3 protocol for assembly and Quiver for genome polishing in SMRT Analysis v2.3.012. This consisted of a three-step process involving
(1) generation of preassembled reads with improved consensus accuracy;
(2) assembly of the genome through overlap consensus accuracy using Celera; and
(3) one round of genome polishing with Quiver.

For HGAP, the following parameters were used:
PreAssembler Filter v1 (
minimum sub-read length= 3,000 bp,
minimum polymerase read quality = 0.80,
minimum polymerase read length= 3,000bp
);
PreAssembler v2 (
minimum seed length= 16,000 bp,
numberof seed read chunks= 6,
alignment candidates per chunk= 10,
total alignment candidates= 24,
min coverage for correction= 6
);

AssembleUnitig v1 (
target genome coverage= 30,
overlap error rate= 0.06,
minimum overlap= 40 bp,
overlap k-mer= 14
);

BLASR v1 mapping of reads for genome polishing with Quiver (
max divergence percentage= 30,
minimum anchor size= 12).

A second round of genome polishing was performed using Quiver (SMRT Analysis v2.3.0) to
further improve the site-specific consensus accuracy of the assembly.
The following Quiver parameters were used for genome polishing:
filtering (
minimum sub-read length= 3,000 bp,
minimum polymerase read quality= 0.80,
minimum polymerase read length= 3,000 bp);

mapping (
maximum divergence percentage= 30,
minimum anchor size= 12).

Default parameters were otherwise employed for both HGAP assembly and Quiver protocols

Pacbio 纯三代组装复活草基因组的更多相关文章

  1. 安装三代组装canu、smartdenovo、wtdbg及矫正软件Racon、Nanopolish的安装

    1)三代组装软件 ------------------------------------------------------------------canu--------------------- ...

  2. 纯脚本组装Json格式字符串

    var answerStr = "["; for (var i in answer) { var data = $("input[name=QuestionItem_&q ...

  3. 人类基因组三代组装: cano

    git clone https://github.com/marbl/canu.git cd canu/src make -j <number of threads> 使用实例: canu ...

  4. 10X Genomics vs. PacBio

    10X Genomics已经广泛应用于单细胞测序.组装领域,现在也是火的不行. 10X Genomics原理 通过将来自相同DNA片段(10-100kb)的reads加上相同的barcode,然后在i ...

  5. 解析Illumina+PacBio组装策略

    解析Illumina+PacBio组装策略 (2016-12-08 13:21:58) 转载▼     基于Illumina和PacBio平台的“二加三”组装策略,巧妙的融合了PacBio平台超长读长 ...

  6. 基因组所三代单分子测序PacBio完成技术升级—超长读长助力基因组学研究

    基因组所三代单分子测序PacBio完成技术升级—超长读长助力基因组学研究 2015-09-23 | 作者:所级中心基因组平台 张兵 [关闭] 近日,基因组所所级中心基因组平台三代单分子实时测序PacB ...

  7. 三代PacBio reads纠错 - 专题

    三代纠错的重要性不言而喻,三代的核心优势就是长,唯一的缺点就是错误率高,但好就好在错误是随机分布的,可以通过算法解决,这也就是为什么现在有这么多针对三代开发的纠错工具. 纠错和组装是分不开的,纠错就是 ...

  8. 基因组Denovo组装原理、软件、策略及实施

    目录 1. 组装算法 1)基于OLC算法 2)基于DBG算法 3)OLC vs DBG 2. 组装软件 3. 组装策略 4. 组装项目实施 1)测序前的准备 2) 测序样品准备 3)测序策略的选择 4 ...

  9. 【转】NG:垂枝桦基因组图谱构建(2+3组装)及重测序分析

    转自希望组公众号.学习二代+三代组装策略的流程 垂枝桦(Betula pendula)是一种速生乔木,能在短短一年时间内开花,木质坚实,可做细工.家具等,经济价值极高.近日,芬兰研究人员对垂枝桦自交系 ...

随机推荐

  1. 百度地图地址解析(百度Geocoding API)

    1.什么是Geocoding? Geocoding API 是一类简单的HTTP接口,用于提供从地址到经纬度坐标或者从经纬度坐标到地址的转换服务,用户可以使用C# .C++.Java等开发语言发送HT ...

  2. 跟我一起学习VIM - vim插件合集

    2016-06-14 15:04 13333人阅读 评论(0) 收藏 举报 分类: Linux(104)  目录(?)[+]  前两天同事让我在小组内部分享一下VIM,于是我花了一点时间写了个简短的教 ...

  3. 给openvpn客户分配固定ip地址

    虽然openvpn提供dhcp服务,但是dhcp是有租约的,到期后会重新分配ip,造成连接中断的问题,所以最好还是给客户端固定一个ip. 思路:开启客户端配置目录,然后为每一个客户建一个配置文件,里面 ...

  4. 分享一个不错的squid 配置文件

    squid配置文件一例,只使用了web cache功能,用来给web加速. http_port 80 defaultsite=IPicp_port 0cache_peer ip parent 85 0 ...

  5. 前端 JS,localStorage/sessionStorage、cookie 及 url 等实现前台数据共享、传输

    需求是这样的:需要统计用户公司某款产品用户的回馈情况,美工给的设计多个psd,每个页面里面都有一个选择题,让用户选择自己的答案,最后经过几次选择之后在最后一个页面统一提交到后台!所以这里引出的技术需求 ...

  6. cocos2d-x Schedule详解

    原理介绍 Cocos2d-x调度器为游戏提供定时事件和定时调用服务.所有Node对象都知道如何调度和取消调度事件,使用调度器有几个好处: 每当Node不再可见或已从场景中移除时,调度器会停止. Coc ...

  7. C++友元详解

    1.什么是友元在一个类A中,将类B声明为友元类,则类B可以访问类A的私有成员和保护成员.另外,也可以将函数声明为友元函数. 2.什么时候用到友元若不同的类之间某些共享数据成员,可以使用友元,简化类的设 ...

  8. ny36 最长公共子序列

    最长公共子序列 时间限制:3000 ms  |  内存限制:65535 KB 难度:3   描述 咱们就不拐弯抹角了,如题,需要你做的就是写一个程序,得出最长公共子序列.tip:最长公共子序列也称作最 ...

  9. HTML源文件编码的问题

    刚才使用sublime text编辑html文件,在html中使用meta tag指定了charset,如下 <meta http-equiv="content-type" ...

  10. LeetCode: Set Matrix Zeroes 解题报告

    Set Matrix ZeroesGiven a m x n matrix, if an element is 0, set its entire row and column to 0. Do it ...