php 统计fasta 序列长度和GC含量】的更多相关文章

最近php7的消息铺天盖地, 忍不住想尝试下.星期天看了下语法, 写个小脚本练下手: 这个脚本读取fasta 文件, 输出序列的长度和GC含量: <?php $fasta = "test.fasta"; $meta = array(); $meta = parse_fasta($fasta); write_res($meta); function parse_fasta($fasta) { $meta = array(); $file_handle = fopen($fasta,…
题目: 随便给定一条序列,如果GC含量超过65%,则认为高. 编程: from __future__ import division #整数除法 def is_gc_rich(dna): length = len(dna) G_count = dna.upper().count('G') C_count = dna.upper().count('C') GC_content = (G_count + C_count) / length if GC_content > 0.65: print('G…
在介绍summary.seqs的用法之前,我们首先需要搞清楚两个概念: 1)ambiguous bases 中文叫做模糊碱基,对于DNA序列来说,只有ATCG 4种碱基,在IUPAC定义的碱基标准中,出了上述4种碱基之外,还包括其他的碱基,可以代表不同类型的碱基 代码 英文含义 中文含义 G   Guanine 鸟嘌啉 A   Adenine 腺嘌啉 T (U) Thymine (Uracil) 胸腺嘧啶 (尿嘧啶) C   Cytosine 胞嘧啶 R (A or G) PuRine 嘌啉 Y…
二代测序的分析过程中,经常需要统计原始下机数据的数据量,看数据量是否符合要求:另外还需要统计q20,q30,GC含量等反应测序质量的指标: 在kseq.h 的基础上稍加改造,就可以实现从fastq 文件中统计这些指标的功能,而且速度非常的快 #include <zlib.h> #include <stdio.h> #include <string.h> #include "kseq.h" // STEP 1: declare the type of…
samtools faidx 能够对fasta 序列建立一个后缀为.fai 的文件,根据这个.fai 文件和原始的fastsa文件, 能够快速的提取任意区域的序列 用法: samtools faidx input.fa 该命令对输入的fasta序列有一定要求:对于每条序列,除了最后一行外, 其他行的长度必须相同, >one ATGCATGCATGCATGCATGCATGCATGCAT GCATGCATGCATGCATGCATGCATGCATGC ATGCAT >two another chro…
https://www.luogu.org/problemnew/show/P1020 (原题链接) 第一问就是求最长不上升子序列的长度,自然就想到了c++一本通里动态规划里O(n^2)的算法,但题目明确说明“为了让大家更好地测试n方算法,本题开启spj,n方100分,nlogn200分每点两问,按问给分”,自然是要写O(nlogn)的算法才能AC哦. 对于这种nlogn的算法,只能求出长度,不能求出具体的序列.这种算法实现过程如下: 我们定义len为到目前为止最长不上升子序列的长度,d[l]表…
今天运行tophat2的时候看到下面这条记录: [2016-02-27 11:40:03] Checking for reference FASTA file Warning: Could not find FASTA file /home/pub/database/Human/hg19/bowtie2_db/hg19.fa.fa [2016-02-27 11:40:03] Reconstituting reference FASTA file from Bowtie index Executi…
一.BED 文件格式 BED 文件格式提供了一种灵活的方式来定义的数据行,以用来描述注释的信息.BED行有3个必须的列和9个额外可选的列. 每行的数据格式要求一致. 必须包含的3列: 1.chrom, 染色体名字(e.g. chr3, chrY) 2.chromStart, 目标区段在染色体起始位置,染色体第一个碱基的位置是0 3.chromEnd, 目标区段在染色体结束位置,染色体的末端位置没有包含到显示信息里面.例如,首先得100个碱基的染色体定义为chromStart =0 . chrom…
JDOJ 1929: 求最长不下降序列长度 JDOJ传送门 Description 设有一个正整数的序列:b1,b2,-,bn,对于下标i1<i2<-<im,若有bi1≤bi2≤-≤bim 则称存在一个长度为m的不下降序列. 现在有n个数,请你求出这n个数的最长不下降序列的长度 Input 第一行为一个整数n (n < 104) 第二行有n个整数,数与数之间使用空格间隔 Output 输出一行,一个整数,最长不下降序列的长度 Sample Input 14 13 7 9 16 38…
Time Limit: 1 second Memory Limit: 128 MB [问题描述] 有一个整数序列,我们不知道她的长度是多少(即序列中整数的个数),但我们知道在某些区间中至少有多少个整数,用区间 [ai,bi,ci]来描述它,[ai,bi,ci]表示在该序列中处于[ai,bi]这个区间的整数至少有ci个.现在给出若干个这样的区间, 请你求出满足条件的最短序列长度是多少.如果不存在则输出 -1. [输入格式] 第一行包括一个整数n(n<=1000),表示区间个数: 以下n行每行描述这…
Time Limit: 1 second Memory Limit: 128 MB [问题描述] 有一个整数序列,我们不知道她的长度是多少(即序列中整数的个数),但我们知道在某些区间中至少有多少个整数,用区间 [ai,bi,ci]来描述它,[ai,bi,ci]表示在该序列中处于[ai,bi]这个区间的整数至少有ci个.现在给出若干个这样的区间, 请你求出满足条件的最短序列长度是多少.如果不存在则输出 -1. [输入格式] 第一行包括一个整数n(n<=1000),表示区间个数: 以下n行每行描述这…
C语言小练习:计算非压缩fastq格式的GC含量 1 #include <stdio.h> 2 #include <stdlib.h> 3 #include <string.h> 4 #define buff 1024 5 6 typedef unsigned long long int u_llong; 7 8 static void usage(int num,const char *str) 9 { 10 if(num !=2) 11 { 12 fprintf(s…
一.关于程序: FUN:计算FASTA文件中每条序列中G和C的含量百分比,输出最大值及其id INPUT:FASTA格式文件 >seq1 CGCCGAGCGCTTGACCTCCAGCAAGACGCCGTCTGGCACATGCAACGAGCTGTAGCAGAC >seq2 ATGCCTAGAACGTTCGAGACTTCTCGGGTGCGGTAGAATTAGCCATTCGACCGACTTCCA GCATCTGCGAGCCGCCTGTTGATTGCATCCGCCGGGGACGCAACAAGGCAAG…
#!/usr/bin/perl -w use strict; die "Usage: $0 <file>\n" unless (@ARGV == 1); my $lines = 0; my $bases = 0; while (my $line = <>){ # <> operator reads one line at a time from the file specified by $ARGV[0]. chomp $line; next if…
题目: 题目背景 161114-练习-DAY1-AHSDFZ T2 题目描述 有 N 辆列车,标记为 1,2,3,…,N.它们按照一定的次序进站,站台共有 K 个轨道,轨道遵从先进先出的原则.列车进入站台内的轨道后可以等待任意时间后出站,且所有列车不可后退.现在要使出站的顺序变为 N,N-1,N-2,…,1,询问 K 的最小值是多少.…
序列   数据存储方式  数据结构 python 列表.元组.字典.集合.字符串 序列: 一块用于存放多个值的连续内存空间,并且按一定顺序排列,可以通过索引取值 索引(编号): 索引可以是负数 从左到右从0开始 从右到左从-1开始 切片 列表名[起始值:结束值:步长] 起始值从0开始 结束值需要获得位+1 步长位0不用写 序列相加 序列1 + 序列2 = 序列1序列2 只能是同类型的序列相加 列表+列表 元组+元组 字符串+字符串 序列乘法 序列 * 乘数 = 重复N次的序列 把序列的内容重复N…
len() 求序列的长度 print(len("beimenchuixue")) print(len([1, 2, 3])) __len__ 对象中实现这个方法,则 len() 方法调用对象中 __len__方法 class BeiMenChuiXue: def __init__(self, name): self.name = name def __len__(self): return len(self.name) if __name__ == '__main__': name =…
这个是动态的,所以要用线段树维护.代码里有注释因为ls敲成lsum,rs敲成rsum查错查了好久.. #include <set> #include <map> #include <cmath> #include <ctime> #include <queue> #include <stack> #include <cctype> #include <cstdio> #include <string>…
题意 题目如题,输入序列只包含小写字母,数据范围0<k<=len<=500000. 例: 输入:helloworld 输出:ellld 题解 使用单调栈.当已删掉n-k个字符,输出栈中元素和剩余序列.否则当完成遍历一遍序列,输出栈底k个元素.时间复杂度O(n). 我的思考 之前的思路是按序遍历26个字母,并遍历原序列的子区间(beg,end)其中beg是上一次找到的字符的下一个,end是不至于凑不够k的结尾处.写好并超时了.时间复杂度大概是O(k ·logn ·26). 大概想的优化是排…
目录 需求 实现 需求 已知某基因组序列,染色体或scaffold ID顺序不定,想要对其按数字排序. 原顺序: 想要的排序结果: 实现 使用bioawk,没有的话conda直接安装. bioawk -c fastx '{print}' old.genome.fa | \ sort -k1,1V | awk '{print ">"$1;print $2}' >new.genome.fa https://www.biostars.org/p/494201/…
常规方法 #! usr/bin/perl -w use strict; my $input=shift; my %hash; open IN,"<$input"; $/=">"; while(<IN>){ chomp; $hash{$_}=1; } foreach my $key(keys %hash){ print ">$key"; } close IN; Bioseq模块方法 #!/usr/bin/perl us…
改进了一下,利用zlib可以读取gz格式的压缩文件,也可以直接计算非压缩格式 #include <stdio.h> #include <stdlib.h> #include <string.h> #include <zlib.h> #define buff 1024 typedef unsigned long long int u_llong; static void usage(int num,const char *str) { if(num !=2)…
声明: 正如标题所说,只是求长度,应对题目要求,请自行判断,用错代码概不负责! 本蒟蒻的代码可能有错,有错误还请各位dalao请指出 运用了upper_bound()和lower_bound()函数 upper_bound()查找第一个大于目标的数的地址 lower_bound()查找第一个大于等于目标的数的地址 请注意,注释上面的才是这个注释所对应的代码. 1 #include<bits/stdc++.h> 2 using namespace std; 3 int y[100]; 4 int…
A sequence X_1, X_2, ..., X_n is fibonacci-like if: n >= 3 X_i + X_{i+1} = X_{i+2} for all i + 2 <= n Given a strictly increasing array A of positive integers forming a sequence, find the length of the longest fibonacci-like subsequence of A.  If on…
LCIS Time Limit: 6000/2000 MS (Java/Others)    Memory Limit: 65536/32768 K (Java/Others)Total Submission(s): 9713    Accepted Submission(s): 4215 Problem Description Given n integers.You have two operations:U A B: replace the Ath number by B. (index…
文章转载于 Original 2017-07-06 Jolvii 生信百科 介绍一下如何理解 FastQC 各模块的结果 FastQC 的使用 FastQC的安装介绍请看这里.FastQC 支持 fastq.gzip 压缩的 fastq.SAM.BAM 等格式,在不指定文件类型的情况下,FastQC 会根据文件的名字来推测文件的类型: 以 .sam 或者 .bam 结尾的文件会被当作 SAM/BAM 文件来打开,并统计 mapped 和 unmapped reads 在内的所有 reads:其它…
GC偏好 测序中的GC偏好指的是基因组上GC含量在50%左右的区域更容易被测到,产生的reads更多,这些区域的覆盖度更高, 在高GC或者低GC区域,不容易被测到,产生较少的reads,这些区域的覆盖度更少. 用基因组单位长度的bin中的GC含量作为横坐标,覆盖度作为纵坐标作图,可以明显的看到该趋势.这种趋势在100kb为单位的bin中依然存在.如图A中可以看出随着GC含量的增加,counts是先增加后减少,bin的大小为10kb.图C可以看出大部分片断的GC含量0.4到0.6之间. GC偏好也…
操作:需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc软件测试测序文件的质量 作业:理解测序reads,GC含量,质量值,接头,index,fastqc的全部报告,搜索中文教程 具体步骤 [1]SRA文件转换成fastq文件 -----单个文件转换 fastq-dump -- -O outputdir -A file1.sra -----多个文件批量转换 # .编写一个脚本 sra_to_fq.sh ` do fastq-dump -- -O ./…
A survey of best practices for RNA-seq data analysis RNA-seq数据分析指南 内容 前言 各位同学/老师,大家好,现在由我给大家讲讲我的文献阅读报告! A survey of best practices for RNA-seq data analysis ,我把它叫做RNA-seq数据分析指南.这篇文章是由佛罗里达大学等单位的研究人员在1月26日发表在Genome Biology上的,该期刊的影响因子有10.8分.这是这篇文章的通讯作者,…
https://github.com/lh3/bioawk 1.基本思想 使用: usage: bioawk [-F fs] [-v var=value] [-c fmt] [-tH] [-f progfile | 'prog'] [file ...] bioawk基本思想是把组成不同类型的文件(sam.bam.fasta.fastq.vcf)的基本元素封装成变量,直接调用即可. 上面出现的名称即可引用其变量. 2.实际例子 打印fasta序列ID.序列.长度.GC含量: bioawk -c f…