Assembling large genomes with single-molecule sequencing and locality-sensitive hashing

好好读读,算法系列的好文章!

Assembling large genomes with single-molecule sequencing and locality-sensitive hashing - NATURE BIOTECHNOLOGY

marbl/MHAP  - Github

MinHash Alignment Process (MHAP): a probabilistic sequence overlap algorithm.  - ReadTheDocs

PacificBiosciences/blasr – Github

Frequently Asked Questions: Data File Formats

BLASR M4 format - MHAP的输出格式

摘要

单分子实时测序技术(SMRT)常被用于完成微生物基因组,但是可用的组装方法还没有规模化应用到大型基因组上。

我们引入了MinHash Alignment Process (MHAP)来比对高噪音、长的reads,使用概率学和locality-sensitive hashing。

集成了MHAP的Celera Assembler使得 reference-grade的de novo组装变为可能(…)。

组装的结果高度的连续,包含了染色体臂、close persistent gaps的完整解决方案。

我们的D. melanogaster组装结果揭示了先前未知的异染色质和端粒序列,也组装了低复杂性的CHM1,从而填补了人类GRCh38的gap。

使用MHAP、CA和SMRT可以denovo出近乎完整的真核基因组,准确率达到99.99%。

前言

The primary bottleneck of long-read assembly has been the sensitive all-versus-all alignment required to determine overlapping read pairs.

长reads组装的主要瓶颈是两两比对的敏感性,用于决定reads对的overlap。

本文提供了一种概率算法,可以高效地检测出高错误长reads之间的overlap。

MHAP uses a dimensionality reduction technique named MinHash to create a more compact representation of sequencing reads.

MHAP使用了MinHash 的降维技术来创建了测序reads的更加紧凑的表示形式。

MinHash 最初是开发用来检测不同网页之间的相似度,它将文本或字符串减少到了一系列的fingerprints,称为sketch。

结果

MinHash alignment filtering

MHAP overlapping performance

SMRT sequencing and assembly

De novo human assembly using long reads

Assembly validation and repeat resolution

Improved telomere assemblies

讨论

待续~

用单分子测序(single-molecule sequencing)和局部敏感哈希(locality-sensitive hashing)来组装大型基因组的更多相关文章

  1. 局部敏感哈希-Locality Sensitive Hashing

    局部敏感哈希 转载请注明http://blog.csdn.net/stdcoutzyx/article/details/44456679 在检索技术中,索引一直须要研究的核心技术.当下,索引技术主要分 ...

  2. 局部敏感哈希Locality Sensitive Hashing(LSH)之随机投影法

    1. 概述 LSH是由文献[1]提出的一种用于高效求解最近邻搜索问题的Hash算法.LSH算法的基本思想是利用一个hash函数把集合中的元素映射成hash值,使得相似度越高的元素hash值相等的概率也 ...

  3. 局部敏感哈希-Locality Sensitivity Hashing

    一. 近邻搜索 从这里开始我将会对LSH进行一番长篇大论.因为这只是一篇博文,并不是论文.我觉得一篇好的博文是尽可能让人看懂,它对语言的要求并没有像论文那么严格,因此它可以有更强的表现力. 局部敏感哈 ...

  4. 局部敏感哈希 Kernelized Locality-Sensitive Hashing Page

    Kernelized Locality-Sensitive Hashing Page   Brian Kulis (1) and Kristen Grauman (2)(1) UC Berkeley ...

  5. [Algorithm] 局部敏感哈希算法(Locality Sensitive Hashing)

    局部敏感哈希(Locality Sensitive Hashing,LSH)算法是我在前一段时间找工作时接触到的一种衡量文本相似度的算法.局部敏感哈希是近似最近邻搜索算法中最流行的一种,它有坚实的理论 ...

  6. 局部敏感哈希算法(Locality Sensitive Hashing)

    from:https://www.cnblogs.com/maybe2030/p/4953039.html 阅读目录 1. 基本思想 2. 局部敏感哈希LSH 3. 文档相似度计算 局部敏感哈希(Lo ...

  7. [机器学习] 在茫茫人海中发现相似的你:实现局部敏感哈希(LSH)并应用于文档检索

    简介 局部敏感哈希(Locality Sensitive Hasing)是一种近邻搜索模型,由斯坦福大学的Mose Charikar提出.我们用一种随机投影(Random Projection)的方式 ...

  8. 海量数据挖掘MMDS week7: 局部敏感哈希LSH(进阶)

    http://blog.csdn.net/pipisorry/article/details/49686913 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...

  9. 海量数据挖掘MMDS week2: 局部敏感哈希Locality-Sensitive Hashing, LSH

    http://blog.csdn.net/pipisorry/article/details/48858661 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...

随机推荐

  1. SQL调优

    # 问题的提出 在应用系统开发初期,由于开发数据库数据比较少,对于查询SQL语句,复杂视图的的编写等体会不出SQL语句各种写法的性能优劣,但是如果将应用 系统提交实际应用后,随着数据库中数据的增加,系 ...

  2. 关于HTML中标签<a>使用js的注意事项

    以下两点都不可取: 1.<a href="#" onClick="popUp('http://www.baidu.com');return false;" ...

  3. [Android Tips] 7. 以调试模式启动应用

    adb shell am set-debug-app -w {package_name}

  4. js match() 方法

    方法可在字符串内检索指定的值,或找到一个或多个正则表达式的匹配.

  5. Kindle 推送教程:教你用电子邮箱推送电子书(Kindle伴侣)

    Kindle 推送是什么意思?如何通过电子邮件附件推送?或许刚刚接触 Kindle 的朋友对这个概念不是很清楚,其实所谓 Kindle 推送是指亚马逊提供的一个"Kindle 个人文档服务& ...

  6. Groovy学习笔记(一)

    1.1 安装Groovy Groovy主页:http://www.groovy-lang.org 确保本地系统安装了Java 1.1.1 在Windows系统上安装Groovy 1.创建环境变量GRO ...

  7. python日志模块

    许多应用程序中都会有日志模块,用于记录系统在运行过程中的一些关键信息,以便于对系 统的运行状况进行跟踪.在.NET平台中,有非常著名的第三方开源日志组件log4net,c++中,有人们熟悉的log4c ...

  8. 挂羊头卖狗肉蓄意欺骗读者——谭浩强《C程序设计(第四版)》中所谓的“按照C99”(二)

    挂羊头卖狗肉蓄意欺骗读者——谭浩强<C程序设计(第四版)>中所谓的“按照C99”(二) 在<谭C>p4:“本书的叙述以C99标准为依据”,下面从C89到C99的主要变化方面来看 ...

  9. 最有效地优化 Microsoft SQL Server 的性能

      为了最有效地优化 Microsoft SQL Server 的性能,您必须明确当情况不断变化时,性能将在哪些方面得到最大程度的改进,并集中分析这些方面.否则,在这些问题上您可能花费大量的时间和精力 ...

  10. ASCII编码表

    最初的编码:ASCII 补充: ASCII表是适用于美国的,共128位:ISO-8859-1是适用于欧洲的,共256位 :GB2312是适用于中文系统的:UTF-8是万国码,适用于绝大部分语言:ANS ...