7、purge_haplogs 基因组去冗余

【7、purge_haplogs 基因组去冗余】的更多相关文章

7、purge_haplogs 基因组去冗余

1.下载安装 https://bitbucket.org/mroachawri/purge_haplotigs/wiki/Install 1.Dependencies (in no particular order) bedtools $ sudo apt install bedtools $ bedtools --version bedtools v2.26.0 samtools $ sudo apt install samtools $ samtools --version samtools…

扩增子分析解读4去嵌合体非细菌序列生成代表性序列和OTU表

本节课程,需要先完成扩增子分析解读1质控实验设计双端序列合并 2提取barcode 质控及样品拆分切除扩增引物 3格式转换去冗余聚类先看一下扩增子分析的整体流程,从下向上逐层分析分析前准备 # 进入工作目录 cd example_PE250 上一节回顾:我们制作了Usearch要求格式的Fasta文件,对所有序列进行去冗余和低丰度过滤,并聚类生成了OTU. 接下来我们对OTU进一步去除嵌合体,并生成代表性序列和OTU表. 什么是chimeras(嵌合体)? 嵌合体序列…

28、cd-hit去除冗余序列

转载:http://blog.sina.com.cn/s/blog_670445240101nidy.html 网址:http://cd-hit.org :http://www.bioinformatics.org/cd-hit/ : 下载:http://www.bioinformatics.org/cd-hit/ CD-HIT 去冗余,也可以叫做相似序列的聚类. 简介:CD-HIT stands for Cluster Database at High Identity with Toler…

cd-hit 去除冗余序列

最近一篇NG中使用到的软件,用来去除冗余的contigs,现简单记录. CD-HIT早先是一个蛋白聚类的软件,其主要的特定就是快!(ps:不是所有快的都是好的) 其去除冗余序列的大概思路就是: 首先对所有序列长度进行排序,从最长的开始,形成一个序列类,然后依次对序列进行处理,如果下一条序列和代表的序列相似性在cutoff,则将其加入同一类,否则得到新的类. 所以快主要是两个方面的原因:一个是使用了word过滤方法,即如果两条序列之间的相似性在80%(假设序列长度为100),那么它们至少有60个相…

FPKM与RPKM

FPKM与RPKM (2015-01-09 23:55:17) 转载▼ 标签: 转载原文地址:FPKM与RPKM作者:Fiona_72965 定义: FPKM:Fragment Per Kilobase of exon model per Million mapped reads:每1百万个map上的reads中map到外显子的每1K个碱基上的Fragments个数.在ref中,使用FPKM: RPKM:Reads Per Kilobase of exon model per Mil…

KEGG Pathway Anonatation

转载于 Original 2017-06-20 liuhui 生信百科 KEGG 数据库中,把功能相似的蛋白质归为同一组,然后标上 KO 号.通过相似性比对,可以为未知功能的蛋白序列注释上 KO 号.通过KEGG数据库的注释极大的方便我们进行生物学通路的研究,可以直接查看物种某条生物学通路上基因的存在情况. 最简单的方法是看公司给的KEGG注释或者直接下载本物种每个基因的注释结果(比如,植物Phytozome:动植物Ensemble),然后对应到自己的差异基因集里面. 当然如果自己的物种没有KE…