bam文件测序深度统计-bamdst

最近接触的数据都是靶向测序,或者全外测序的数据.对数据的覆盖深度及靶向捕获效率的评估成为了数据质量监控中必不可少的一环. 以前都是用samtools depth 算出单碱基的深度后,用perl来进行深度及捕获效率的计算.今天无意中看到了bamdst(https://github.com/shiquan/bamdst)这个软件,用起来也很方便,参考GitHub,在此记录使用方法. 下载并安装:下载安装包并解压后, cd ./bamdst-master make 安装好后,需要准备.bed文件及.b…

SAMTOOLS使用 SAM BAM文件处理

[怪毛匠子整理] samtools学习及使用范例,以及官方文档详解 #第一步:把sam文件转换成bam文件,我们得到map.bam文件 system"samtools view -bS map.sam > map.bam"; #第二步:sort 一下 BAM 文件,得到map.sorted.bam system"samtools sort map.b/am map.sorted"; #第三步:创建一个关于bam的索引文件,我们得到一个map.sorted.b…

Pysam 处理bam文件

Pysam可用来处理bam文件安装: 用 pip 或者 conda即可使用: Pysam的函数有很多,主要的读取函数有: AlignmentFile:读取BAM/CRAM/SAM文件 VariantFile:读取变异数据(VCF或者BCF) TabixFile:读取由tabix索引的文件: FastaFile:读取fasta序列文件: FastqFile:读取fastq测序序列文件一般常用的是第一个和第二个. 例子: 1 import pysam 2 3 bf = pysam.Alignm…

SAM/BAM文件处理

当测序得到的fastq文件map到基因组之后,我们通常会得到一个sam或者bam为扩展名的文件.SAM的全称是sequence alignment/map format.而BAM就是SAM的二进制文件(B取自binary). 那么SAM文件的格式是什么样子的呢?如果你想真实地了解SAM文件,可以查看它的说明文档.SAM由头文件和map结果组成.头文件由一行行以@起始的注释构成.而map结果是类似下面的东西: HWI-ST1001:137:C12FPACXX:7:1115:14131:66670…

bam文件softclip ， hardclip ，markduplicate的探究

测序产生的bam文件,有一些reads在cigar值里显示存在softclip,有一些存在hardclip,究竟softclip和hardclip是怎么判断出来的,还有是怎么标记duplicate的reads的,我怀着这些问题进行了探究. 测试步骤编辑两个bed文件,分别含有我们需要的read1和read2位置,这里每个文件包含两条read1或者两条read2,read1.read2一对作为原始的reads(序列名primer_pri),另一对作为截取的材料(这里取序列名为other) 使…

C++使用htslib库读入和写出bam文件

有时候我们需要使用C++处理bam文件,比如取出read1或者read2等符合特定条件的序列,根据cigar值对序列指定位置的碱基进行统计或者对序列进行处理并输出等,这时我们可以使用htslib库.htslib可以用来处理SAM, BAM,CRAM 和VCF文件,是samtools.bcftools的核心库. #include <stdio.h> #include <stdlib.h> #include <htslib/sam.h> using namespace…

文件格式——Sam&bam文件

Sam&bam文件 SAM是一种序列比对格式标准, 由sanger制定,是以TAB为分割符的文本格式.主要应用于测序序列mapping到基因组上的结果表示,当然也可以表示任意的多重比对结果.当测序得到的fastq文件map到基因组之后,我们通常会得到一个sam或者bam为扩展名的文件.SAM的全称是sequence alignment/map format.而BAM就是SAM的二进制文件(B取自binary). SAM由头文件和map结果组成.头文件由一行行以@起始的注释构成:而map结果是类似…

测序深度和覆盖度（Sequencing depth and coverage）

总是跑数据,却对数据一无所知,这说不过去吧. 看几篇文章吧 Sequencing depth and coverage: key considerations in genomic analyses(只讲二代) Assembly of large genomes using second-generation sequencing(参考文献) Identification of optimum sequencing depth especially for de novo genome asse…

键盘录入一个文件夹路径,统计该文件夹(包含子文件夹)中每种类型的文件及个数,注意:用文件类型(后缀名,不包含.(点),如："java","txt")作为key, 用个数作为value,放入到map集合中,遍历map集合

package cn.it.zuoye5; import java.io.File;import java.util.HashMap;import java.util.Iterator;import java.util.Map;import java.util.Scanner;import java.util.Set; /** 键盘录入一个文件夹路径,统计该文件夹(包含子文件夹)中每种类型的文件及个数,注意:用文件类型(后缀名,不包含.(点),如:"java","txt&qu…

java基础 File与递归练习使用文件过滤器筛选将指定文件夹下的小于200K的小文件获取并打印按层次打印(包括所有子文件夹的文件) 多层文件夹情况统计文件和文件夹的数量统计已知类型的数量未知类型的数量

package com.swift.kuozhan; import java.io.File; import java.io.FileFilter; /*使用文件过滤器筛选将指定文件夹下的小于200K的小文件获取并打印(包括所有子文件夹的文件).*/ public class kuaozhan1 { public static void main(String[] args) { File dir = new File("c:/"); if(!dir.exists()) { throw…

hadoop学习笔记：运行wordcount对文件字符串进行统计案例

文/朱季谦我最近使用四台Centos虚拟机搭建了一套分布式hadoop环境,简单模拟了线上上的hadoop真实分布式集群,主要用于业余学习大数据相关体系. 其中,一台服务器作为NameNode,一台作为Secondary NameNode,剩下两台当做DataNodes节点服务器,类似下面这样一个架构-- NameNode Secondary NameNode DataNodes master1(192.168.200.111) √ master2(192.168.200.112) √ sla…

PHP文件操作之统计目录大小

<?php //定义一个函数统计目录大小函数 function dirSize($dirName) { //判断目录是否存在 if (!file_exists($dirName)) { die('目录不存在!'); } //判断是否是目录 if (!is_dir($dirName)) { die('您所遍历的不是目录!'); } //打开目录 $d = opendir($dirName); //判断打开目录是否成功 if (!$d) { die('打开目录失败!'); } //读取目录 whi…

WC----命令行实现对文件信息的统计

需求分析: 程序处理用户需求的模式为: wc.exe [parameter][filename] 在[parameter]中,用户通过输入参数与程序交互,需实现的功能如下: 1.基本功能支持 -c 统计文件字符数支持 -w 统计文件单词数支持 -l 统计文件总行数 2.拓展功能支持 -a 返回高级选项(代码行空行注释行) [filename] 是待处理文件名. 能力有限,没有写出来-s:递归处理目录下符合条件的文件的功能,高级功能-x. 基本功能的实现: 这次写的程序条理还比较清…

Storm监控文件夹变化统计文件单词数量

监控指定文件夹,读取文件(新文件动态读取)里的内容,统计单词的数量. FileSpout.java,监控文件夹,读取新文件内容 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65…

C# 文件及文件夹深度复制

完善了下文件中的文件及文件夹中的复制!如果有更优解决方案请不吝指教 protected void FileDepthCopy(string source, string target){ if (Directory.Exists(source))//判断源文件是否存在 { if (!Directory.Exists(target))//判断要复制的文件夹是否存在 { Directory.CreateDirectory(target);//不存在则创建 } var files = Directo…

java实现文件单词频率统计 topN top K

java 实现单词计数.top N 思路先统计每个单词出现的个数利用 TreeSet 的自动排序的功能上代码 wordcount public void wordCount() { String route = "青岛路青岛路济阳路口东济南路宴坡路 "; Map<String, Integer> map = new HashMap<String, Integer>(); StringTokenizer st = new StringTokenize…

python学习day8 文件操作(深度学习)

文件操作 (day7内容扩展) 1 文件基本操作 obj = open('路径',mode='模式',encoding='编码')obj.write()obj.read()obj.close() 2 打开模式基本模式#打开文件f=open('要打开文件路径',mode='r/w/a/',encoding='文件原来编码') #f为接收变量#操作文件data = f.() # 读取文件内部全部内容,data为接收内容f.write('要写内容')#关闭文件f.close() #文件打开新操作,…

怎么从bam文件中提取出比对OR没比对上的paired reads | bamToFastq | STAR

折腾这么多都是白瞎,STAR就有输出没有别对上的pair-end reads的功能参见:How To Filter Mapped Reads With Samtools I had the same issue but with Paired End Reads, and I solved using samtools and bamToFastq. You can find bamToFastq here: https://code.google.com/p/hydra-sv/ If you…

R_Studio中对xls文件学生总成绩统计求和

我们发现这张xls表格是没有学生总分的,在xls文件中计算学生总分嫌麻烦时,可以考虑在R Studio中自定义R Script脚本来解决实际问题(计算每个学生的总成绩) .xls数据表中的数据(关键信息姓名已进行涂鸦) (读取xls文件方法及出现乱码解决方法传送门) 实现过程读取.xls文件,先找到要读取的"综合成绩.xls"文件目录 (读取xls文件方法及出现乱码解决方法传送门) dat[i,]表示第i列数据 dat[,j]表示第j列数据那么我们可以自己定义一个R Scrip…

对dump的文件进行状态统计

1.jps -lvm 查出pid 2.jstack pid >1.dump 3.grep java.lang.Thread.State 1.dump| awk '{print $2$3$4$5}' | sort | uniq -c…

统计文件夹下java代码行数的小程序--主要是学习任务队列的思想

首先感谢czbk的老师,录制的视频,让我们有这么好的学习资料.……—— 统计文件夹java文件的行数,首先想到的肯定是用递归的方法,因为文件夹下面可能包含文件夹,用递归的方法,代码容易写.(这和写简单的网络爬虫很像,一级页面下包含有二级页面的链接,二级页面又包含下一级的超链接)但是,用递归的方式有以下缺点: 如果文件夹层次很多,进而递归深度太大,容易栈溢出用递归的方式,只能单线程执行,因为这一次的递归依赖于上一次的递归执行的结果递归方式代码比较简单,如下: public class Line…

python （9）统计文件夹下的所有文件夹数目、统计文件夹下所有文件数目、遍历文件夹下的文件

命令:os 用到的:os.walk os.listdir 写的爬虫爬的数据,但是又不知道进行到哪了,于是就写了个脚本来统计文件的个数 #统计 /home/dir/ 下的文件夹个数 import os path ="home/dir" count = 0 for fn in os.listdir(path): #fn 表示的是文件名 count = count+1 print count 获取文件夹下的文件的个数: import os path = os.getcwd() #获取当前…

在Windows下通过命令行或者.bat文件统计一个目录中文件数量

在Windows下面怎样通过命令行统计一个目录中文件的数量,或者说,如果在一个.bat文件中,统计一个目录中的文件数量? 我原来以为是不可能的,要编一个vbs程序什么的,后来到网上找了下,发现还真是可以的. dir /b 文件夹路径 | find /v /c "::" 当然,这种用法速度并不快,临时将就一下是可以的.毕竟是Windows,命令行的功能本来就很烂. 另外,上述命令把目录中的文件夹和文件都统计在内,如果只想统计文件,而忽略文件夹,可以加上“/a-d”选项. dir /b /…

Linux统计文件夹下文件信息

PHP中统计目录中文件以及目录中目录的大小

<?php #循环遍历目录中所有的文件,并统计目录和文件的大小 $dirName="phpMyAdmin"; $dir=opendir($dirName); #返回一个资源类型 while($fileName=readdir($dir)){ $file=$dirName."/".$fileName; if($fileName!="." && $fileName!=".."){ if…

linux的wc -l 命令统计文件少一行（一般是windows文件）

先简单介绍 wc(Word Count)命令的功能为统计指定文件中的字节数.字数.行数,并将统计结果显示输出格式:wc file 命令参数: -c 统计Bytes数(字节数),并显示文件名 -l 统计行数:使用换行符'\n'作为行结束标志,实际是统计换行符个数 -m 统计字符数.这个标志不能与 -c标志一起使用. -w 统计字数.一个字被定义为由空白.跳格或换行字符分隔的字符串. -L 打印最长行的长度. -help 显示帮助信息 --version 显示版本信息实例: wc test.tx…

按照不规则多边形shp文件分割底层栅格文件tif,统计不同栅格的属性值

我想做到,按照voronoi多边形分割地图土地利用类型文件,统计每个多边形内不同地物的种类和数量.-----如图: 我的第一个想法是:首先用上层多边形将下层栅格图切割开来,然后就可以分别统计栅格内的地物总数了. 矢量分割栅格目前可能有三种方法: 方法1:data management ----raster----split raster 按多边形分割栅格数据--我的电脑并不能出结果,统一坐标系也不能,无解,,, 方法2:先用split将voronoi多边形矢量文件的多边形全部切分开成一个一个的多…

C++实现对文件中各单词词频的统计及其代码优化

先给出github上的代码链接以及项目需求 1.项目概述这个项目的需求可以概括为:对记事本(txt)文件进行单词的词频统计和排序,排序结果以指定格式输出到默认文件中,并要求能够快速地完成整个统计和结果输出功能.乍一看,这个功能实现起来十分简单,基本上就是遍历一遍文件,对提取出来的单词按照词频排个序就搞定了.但是要是考虑到性能问题,那还需要多动动脑筋.下面附上这项目的PSP表格. PSP2.1 PSP阶段预估耗时(分钟) 实际耗时(分钟) PSP2.1 PSP阶段预估耗时(分钟) 实际耗时(…

python 实现统计ftp服务器指定目录下文件夹数目、文件数目及所有文件大小

本次主要为满足应用方核对上传到ftp服务器的文件是否缺漏. 主要要求:指定目录下,文件夹数目/文件数目/所有文件大小,类似Windows如下功能: 模块介绍: from ftplib import FTP ftp = FTP() #设置变量 ftp.set_debuglevel(2) #打开调试级别2 显示详细信息 ftp.connect("IP", "port") #连接ftp, IP和端口 ftp.log("user", "pass…