背景: 第三代PacBio SMRT长读取可以有效地解决第二代测序技术的读长问题,但包含大约15%的测序错误.已经设计了几种纠错算法以有效地将错误率降低到1%,但是它们丢弃了大量未校正的碱基,因此导致低吞吐量.这种碱基损失可能会限制下游组件的完整性和分析的准确性.结果: 在这里,我们介绍HALC,一种用于长读取错误纠正的高吞吐量算法. HALC将长读数与来自相同物种的短读取重叠群对齐,具有相对较低的同一性要求,使得长读取区域可以与至少一个重叠区域对齐,包括其真正的基因组区域在重叠群中与其充分相似…