题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4644 题意:给出一个串,按照下面的步骤得到一个新串: (1)首先将其后面增加一个美元符号: (2)将每个后缀写下,并将前面的补在后面: (3)排序: (4)取下最后一列,得到新串. 现在给出新串.再给出一些串,问这些串是不是原串的子串. 思路:首先,我们要做的就是还原原串.下面是题解给出的还原的方法: 乍看上去是O(n^2logn)的!!其实有O(n)还原的方法.不过也是借助于上面的思路.对于上面得…
参考: BWT (Burrows–Wheeler_transform)数据转换算法 压缩技术主要的工作方式就是找到重复的模式,进行紧密的编码. BWT(Burrows–Wheeler_transform)将原来的文本转换为一个相似的文本,转换后使得相同的字符位置连续或者相邻,之后可以使用其他技术如:Move-to-front transform 和 游程编码 进行文本压缩. 1 BWT编码 (1)首先,BWT先对需要转换的文本块,进行循环右移,每次循环一位.可以知道长度为n的文本块,循环n次后重…
编程作业五 作业链接:Burrows-Wheeler Data Compression & Checklist 我的代码:MoveToFront.java & CircularSuffixArray.java & BurrowsWheeler.java 问题简介 Burrows-Wheeler 数据压缩算法包括三个部分:Burrows-Wheeler transform,Move-to-front encoding 和 Huffman compression,前面两个部分把文本转换…
软件地址: http://www.htslib.org/ 功能三大版块 : Samtools Reading/writing/editing/indexing/viewing SAM/BAM/CRAM format BCFtools Reading/writing BCF2/VCF/gVCF files and calling/filtering/summarising SNP and short indel sequence variants HTSlib A C library for re…
BWT (Burrows–Wheeler_transform)数据转换算法 MTF(Move-to-front transform)数据转换 基于统计的压缩算法:游程编码 良心PPT: bwt_based_compression_verbin.ppt BWT Idea: 压缩技术主要的工作方式就是找到重复的模式,进行紧密的编码. BWT(Burrows–Wheeler_transform)将原来的文本转换为一个相似的文本,转换后使得相同的字符位置连续或者相邻: 之后可以使用其他技术如:Move-…
1.什么是MTF MTF(move-to-front)是一种数据编码方式,用于提高数据压缩技术效果. 在数据压缩算法中,MTF可以作为一个额外的步骤.也就是说 ,可以先进行MTF编码,在进行数据压缩. 2.MTF基本原理 主要使用的是数据的”空间局部性“,也就是最近出现过的字符很可能在接下来的文本附近再次出现. MTF的主要思想是: (1)维护一个文本字符集大小的栈,“recently used symbols”(最近访问过的字符),其中每个不同的字符在其中占一个位置,位置从0开始编号. (2)…
DART: a fast and accurate RNA-seq mapper with a partitioning strategyDART:使用分区策略的快速准确的RNA-seq映射器 Abstract Motivation(动机): 近年来,大规模并行cDNA测序(RNA-Seq)技术已成为提供高分辨率测量表达和检测低丰度转录本的高灵敏度的强大工具. 但是,RNA-seq数据需要大量的计算量. 最根本和关键的步骤是将每个序列片段与参考基因组进行比对.近年来已经开发了各种从头拼接的RNA…
版权声明:本文源自 解螺旋的矿工, 由 XP 整理发表,共 13781 字. 转载请注明:从零开始完整学习全基因组测序(WGS)数据分析:第4节 构建WGS主流程 | Public Library of Bioinformatics 转载地址:https://www.plob.org/article/11698.html WGS数据分析的目的是准确检测出每个样本(这里特指人)基因组中的变异集合,也就是人与人之间存在差异的那些DNA序列.我把整个分析过程按照它们实际要完成的功能,将其分成了三个大的…
后缀数组的倍增算法(Prefix Doubling) 文本内容除特殊注明外,均在知识共享署名-非商业性使用-相同方式共享 3.0协议下提供,附加条款亦可能应用. 最近在自学习BWT算法(Burrows-Wheeler transform),其中涉及到对字符串循环移位求编码.直观的办法就是模拟,使用O(n3)的时间求出BWT编码.经过简单的简化后也要O(n2logn)的时间,显然当字符串长度很大时这种方法的效率很低. 由于循环移位的结果类似后缀(二者有所不同,所以在字符串结尾添加了一个字典序严格小…
4.NGS中的reads mapping 顾名思义,就是将测序的得到的DNA定位在基因组上. 因为二代测序的得到的序列是较短的,reads mapping很好地解决了这个问题. 本质上reads mapping是一个双序列比对问题,但和之前讲的NW和SW的不一样,后者适用于两者长度相差不大的. 现在问题有几个特征: 1.reads和ref的长度有着跨数量级的差异,reads长度通常不超过100bp,而ref基因组通常在上百Mb. 2.数据量,NGS测序产生的数据量达到几百Gb,相当于几十个人的人…