单细胞转录组上游fasta文件处理】的更多相关文章

Linux中fasta文件的拆分与合并 FASTA文件的拆分: (1)如果从一个文件a提取第11至20个序列存到另一个文件b: awk -v RS='>' 'NR>1{i++}i>=10&&i<=21{print ">"$0}' a.fasta|sed '/^$/d'>b.fasta (2)将某一文件a中每一条序列保存到一个文件中: awk '/^>/{f=++d".fasta"} {print > f…
读取fasta文件genome_test.fa,并计算染色体总长,同时输出最长染色体编号.序列以及长度 fasta文件genom_test.fa的内容如下: >chr1ATATATATAT>chr2ATATATATATCGCGCGCGCG>chr3ATATATATATCGCGCGCGCGATATATATAT>chr4ATATATATATCGCGCGCGCGATATATATATCGCGCGCGCG>chr5ATATATATATCGCGCGCGCGATATATATATCGCGCG…
文件排序 seq: 产生一系列的数字; man seq查看其具体使用.我们这使用seq产生下游分析所用到的输入文件. # 产生从1到10的数,步长为1 $ seq 1 10 1 2 3 4 5 6 7 8 9 10 # 产生从1到10的数,步长为1,用空格分割 $ seq -s ' ' 1 10 1 2 3 4 5 6 7 8 9 10 # 产生从1到10的数,步长为2 # 如果有3个数,中间的数为步长,最后一个始终为最大值 $ seq -s ' ' 1 2 10 1 3 5 7 9 $ cat…
可变剪接(alternative splicing),在真核生物中是一种非常基本的生物学事件.即基因转录后,先产生初始RNA或称作RNA前体,然后再通过可变剪接方式,选择性的把不同的外显子进行重连,从而产生不同的剪接异构体(isoform).这种方式,使得一个基因可产生多个不同的转录本,这些转录本分别在细胞/个体分化发育的不同阶段,在不同的组织中有各自特异的表达和功能,从而极大地丰富了编码RNA和非编码RNA种类和数量,进而增加了转录组和蛋白质组的复杂性. 可变剪接主要有以下五种常见的形式: 1…
单细胞测序流程(http://learn.gencore.bio.nyu.edu) 在过去的十多年里,高通量测序技术被广泛应用于生物和医学的各种领域,极大促进了相关的研究和应用.其中转录组测序(RNA-seq)被广泛应用于测定和描绘各类物种的基因或转录本的表达情况.但传统的转录组测序技术(bulk RNA-seq)是基于群体细胞,每个样本包含成千上万个细胞,所以最终反映的是基因在群体细胞中平均表达水平,从而掩盖了不同细胞之间的表达异质性.近年来,单细胞转录组测序(single-cell RNA-…
                                                                      图片来源(Nature Methods)   摘要 单细胞转录组测序(single-cell RNA-seq, scRNA-seq)数据有高噪音和稀疏的特点.原文作者展示了跨数据集的迁移学习可显著提高数据的质量.通过将深度自动编码器与贝叶斯模型相结合,原文开发的SAVER-X软件可从不同实验室.不同条件和不同物种的数据中提取可迁移的基因关系,以对新的目标数据…
单细胞测序 单细胞基因组学 测量理由是单细胞的时间空间特异性. Gene expression&co-expression 比较正常cell与疾病cell,正常organ与疾病organ,看出偏差. 分离单细胞,破碎细胞,RNA逆转录,测量cDNA. Eg:BAC扩增,可以实现bias很小的的genome,genome质量高. Eg:对sperm cell进行single cell, Eg:oocyte与sperm结合后,可以对过程中丢弃的部分进行single cell. 如果父源或母源中任何一…
目标如题,有多个fasta文件和一个文件名列表,将文件名列表中包含的文件匹配出来并提取第一条序列合并成一个fa文件. 这个采用perl实现,用法和代码如下: 1 #!/usr/bin/perl -w 2 use strict; 3 4 sub usage{ 5 die "usage:perl $0 <fa.list> <Fasta_Dir> <merged.fa>\n",unless(@ARGV==3); 6 } 7 usage(); 8 9 ope…
在介绍summary.seqs的用法之前,我们首先需要搞清楚两个概念: 1)ambiguous bases 中文叫做模糊碱基,对于DNA序列来说,只有ATCG 4种碱基,在IUPAC定义的碱基标准中,出了上述4种碱基之外,还包括其他的碱基,可以代表不同类型的碱基 代码 英文含义 中文含义 G   Guanine 鸟嘌啉 A   Adenine 腺嘌啉 T (U) Thymine (Uracil) 胸腺嘧啶 (尿嘧啶) C   Cytosine 胞嘧啶 R (A or G) PuRine 嘌啉 Y…
The single-cell transcriptional landscape of mammalian organogenesis 老板已经提了无数遍的文章,确实很nb,这个工作是之前我们无法想象得,想想如何把我们的数据和他们的数据整合到一起. 文献阅读 | Molecular Architecture of the Mouse Nervous System 这篇侧重强调的是神经系统的单细胞发育过程测序. Mouse Organogenesis Cell Atlas (MOCA) - 所有…