去除Bam文件中的PCR 重复】的更多相关文章

SAM是Sequence Alignment/Map 的缩写.像bwa等软件序列比对结果都会输出这样的文件.samtools网站上有专门的文档介绍SAM文件.具体地址:http://samtools.sourceforge.net/SAM1.pdf 很多人困惑SAM文件中的第二列FLAG值是什么意思.根据文档介绍我们可以计算,但是为了方便大家,下面给大家提供一个脚本工具,大家直接输入flag值就可以知道它代表的含义了. 该脚本的使用方法如下截图所示: 脚本工具的使用方法: 将下面的代码保存在记事…
今天在写登录程序练习的时候,黑名单文件中多了几行空行.导致运行的时候报错:IndexError: list index out of range 代码 brackData = open(brackDataPath,"r") for line in brackData: temp = line.strip().split(',') brackDict[temp[0]] = int(temp[1]) brackData.close() 错误 Traceback (most recent c…
改编: python ~/tools2assemble/run_fastuniq.py SHT-3K-1_1.fq.gz SHT-3K-1_2.fq.gz 好像不支持gz文件,要先解压 http://sourceforge.net/projects/fastuniq/ 下载: http://sourceforge.net/projects/fastuniq/files/FastUniq-1.1.tar.gz/download 如果下载下来文件名是download 改一下名字 这是个tar.gz文…
折腾这么多都是白瞎,STAR就有输出没有别对上的pair-end reads的功能 参见:How To Filter Mapped Reads With Samtools I had the same issue but with Paired End Reads, and I solved using samtools and bamToFastq. You can find bamToFastq here: https://code.google.com/p/hydra-sv/ If you…
Windows下的文本文件拿到Linux下时,会在文本行最后面出现很多字符:^M Linux下去除掉的方法是:dos2unix file(需要软件包dos2unix) 当然逆转的方法为unix2dos file.…
uniq命令用于报告或忽略文件中的重复行,一般与sort命令结合使用. 语法 uniq(选项)(参数) 选项 -c或——count:在每列旁边显示该行重复出现的次数: -d或--repeated:仅显示重复出现的行列: -u或——unique:仅显示出一次的行列: 参数 输入文件:指定要去除的重复行文件.如果不指定此项,则从标准读取数据: 输出文件:指定要去除重复行后的内容要写入的输出文件.如果不指定此选项,则将内容显示到标准输出设备(显示终端). 实例 删除重复行: uniq file.txt…
需求:从 mAllList 中去除所有 mSubList 中与之重复的元素 测试数据:mAllList 中包含100000个无序无重复字符串,mSubList 中包含50000个无序无重复字符串 方法一.ArrayList中提供的removeAll方法(效率最低) mAllList.removeAll(mSubList); 某次测试耗时:185665ms 方法二.双重循环(比方法一效率高) 双重循环分为内外两层循环,经过测试,将元素多的list放在外层循环效率更高(mSubList中的元素可能比…
[怪毛匠子 整理] samtools学习及使用范例,以及官方文档详解 #第一步:把sam文件转换成bam文件,我们得到map.bam文件 system"samtools view -bS map.sam > map.bam"; #第二步:sort 一下 BAM 文件,得到map.sorted.bam system"samtools sort map.b/am map.sorted"; #第三步:创建一个关于bam的索引文件,我们得到一个map.sorted.b…
突然发现awk原来可以统计同一数据在要处理的文件中所出现的次数.原来的时候为了分析数据还自己写程序,哎,无语,当时还以为自己多强,手工分析不过来的东西写程序处理.现在想来实在是年少轻狂.解决问题嘛,不讲究方式,只要快速高效的完成任务就OK了. 好,今天小试牛刀统计了一下passwd文件中shell部分重复的shell名和出现的次数,看命令: $awk -F: '{a[$7]++}END{for (i in a) print i" "a[i]}' /etc/passwd /bin/fal…
mpeg2ts文件格式中有pcr和pts的概念,其代码含义如下: PCR(Program Clock Reference)--指示系统时钟本身的瞬时值的时间标签称为节目参考时钟标签(PCR). PTS(Presentation Time Stamp)--指示音视频显示时间的时间戳称为显示时间戳(PTS). 二者的更具体含义可以网上查找资料,本博文的重点不再于此.本博文主题为:利用编码帧bitstream所携带的时间戳,如何换算出ts文件中的pcr和pts值. 1. 一段典型的音视频ts数据包:…