jbrowse 的配置与使用gff, vcf, fa, bed, bam

1，jbrowse 是什么东西？

JBrowse is a genome browser with a fully dynamic AJAX interface, being developed as the eventual successor to GBrowse. It is very fast and scales well to large datasets. JBrowse is javascript-based and does almost all of its work directly in the user's web browser, with minimal requirements for the server.

2，在jbrowse 上可以看那些格式的文件？

我用它主要是来看 fasta,bam,vcf,gff3.

3,如何安装jbrowse?

在/var/www下将创建jbrowse文件夹

mkdir jbrowse

在jbrowse目录下，下载软件包

wget -c http://jbrowse.org/wordpress/wp-content/plugins/download-monitor/download.php?id=98

我下载的版本是JBrowse-1.11.5

下载好后，解压

unzip JBrowse-1.11.5.zip

解压好后进入解压好的目录中，然后执行

./setup.sh

会开始安装

安装信息如下：

Installing Perl prerequisites ... done.

Formatting Volvox example data ... done. To see the volvox example data, browse to http://your.jbrowse.root/index.html?data=sample_data/json/volvox.

Formatting Yeast example data ... done. To see the yeast example data, browse to http://your.jbrowse.root/index.html?data=sample_data/json/yeast.

Building and installing legacy wiggle format support (superseded by BigWig tracks) ... done.

Building and installing legacy bam-to-json.pl support (superseded by direct BAM tracks) ... failed. See setup.log file for error messages. If you really need bam-to-json.pl (most users don't), try reading the Bio-SamTools troubleshooting guide at https://metacpan.org/source/LDS/Bio-SamTools-1.33/README for help getting Bio::DB::Sam installed.

会发现有一个没装上，但是好像不影响使用。那就这样用吧，遇到问题再说！

4,开始使用jbrowse.

第一步，你需要导入参考序列。

在/var/www/html/jbrowse/JBrowse-1.10.8 下建立一个文件夹 test.

在test下建立三个文件夹，分别是bamfiles,seqfiles,vcffiles.文件夹中分别放你需要导入的bam文件，参考序列以及vcf文件。

准备工作做好后，在/var/www/html/jbrowse/JBrowse-1.10.8 目录下执行：

./bin/prepare-refseqs.pl --fasta test/seqfiles/supercontig_88.fa --out ./test/ #--fasta 后跟你的参考序列路径 --out 后跟你想3要导入哪个文件夹下

如果导入过参考序列后，又有新的序列需要导入，首先将配置文件中的参考序列track删除，同时将产生的seq文件夹删除，将新的序列和之前的序列合并为一个fasta文件，再重新导入。

这时候我们来看一下效果，打开http://peach.fafu.edu.cn/html/jbrowse/JBrowse-1.10.8/?data=data

你会发现已经有了这条参考序列的track。如下图所示：

第二步，导入基于这条参考序列的bam文件和vcf文件。

在刚才创建的test目录下，你会发现多出来一个文件：trackList.json他是配置文件，我们需要配置什么track直接在里面进行编辑即可。

刚才导入的参考序列自动生成的track如下所示：

{"chunkSize":20000,
"storeClass":"JBrowse/Store/Sequence/StaticChunked",
"urlTemplate":"seq/{refseq_dirpath}/{refseq}-",
"type":"SequenceTrack",2
"label":"DNA",
"key":"Reference sequence"}

在导入bam文件的track之前，必须先对bam文件建立index，得到bai文件，

建立index之前， bam必须是经过sort的，没有sort的话用：

samtools sort file.bam file.sorted（.bam后缀会自动追加）

sort后建立index用：

samtools:samtools index accepted_hits.sorted.bam

得到：accepted_hits.sorted.bam.bai

编辑配置文件，将此track写入：

{"storeClass":"JBrowse/Store/SeqFeature/BAM",
"urlTemplate":"./bamfiles/accepted_hits.sorted.bam",
"label":"EMB506",
"type":"JBrowse/View/Track/Alignments2"},

{"storeClass":"JBrowse/Store/SeqFeature/BAM",
"urlTemplate":"./bamfiles/accepted_hits.sorted.bam",
"label":"EMB506_coverage",
"type":"JBrowse/View/Track/SNPCoverage"},

SNPCoverage 有时候显示的并不准确，有的是SNP但是并没有显示出来，对于R， A 数量上的统计也会不准确。所以自己关心的位点还是要亲自看一看。

要导入vcf文件，首先也要对vcf进行压缩和建立index

用bgzip进行压缩，用tabix对vcf建立index:

bgzip p2.raw.snps.indels.vcf #得到vcf文件的压缩文件*.vcf.gz 不会保留源文件
tabix -p vcf p2.raw.snps.indels.vcf.gz #对gz文件加上index，得到f1.raw.snps.indels.vcf.gz.tbi文件

*.gz文件和*.gz.tbi文件要放在一个目录下。

将此vcf文件写入此track:

{"storeClass" : "JBrowse/Store/SeqFeature/VCFTabix",

"urlTemplate" : "./vcffiles/p2.raw.snps.indels.vcf.gz",

"type" : "JBrowse/View/Track/CanvasVariants",

"label" : "f1_vcf" },

如下图所示：

其中纯红色为：losing mate pair

粉色：forword strand

蓝色：reverse strand #jbrowse中显示的read序列是sam文件中的，而不是测序产生的，对于蓝色的来说，是测序的反向互补序列，因为sam文件中应经把原始序列给改掉了，为了和前导链一致。

星号：deletion

I(1):一个插入

4，其他查看其他文件格式，请参照该网页的config.http://jbrowse.org/code/JBrowse-1.11.4/index.html?data=sample_data%2Fjson%2Fvolvox&loc=ctgA%3A12893..22893&tracks=DNA%2Cvolvox_gtf&highlight=

如gtf文件：

{"storeClass" : "JBrowse/Store/SeqFeature/GTF",
"urlTemplate" : "./gtf_files/merged.gtf",
"type" : "JBrowse/View/Track/CanvasFeatures",
"label" : "merge.gtf" },

5，进一步阅读

安装指导： http://jbrowse.org/install/

jbrowse的wiki页面： http://gmod.org/wiki/JBrowse

详细配置信息： http://gmod.org/wiki/JBrowse_Configuration_Guide

quick-start tutorial: http://jbrowse.org/code/JBrowse-1.11.4/docs/tutorial/

如果文件过大，超过了/var挂载的容量，要用symlink来代替。经过测试发现，数据文件可以放到peach服务器的

根目录下/

/var下的任意位置

/www目录下

由于/www目录下空间较大，所以我选择将数据放在该目录下，然后build symlink 到你的jbrowse目录~

最近在做菠萝基因组项目，需要导入gff文件：

对于gff3文件：假如文件中的feature有gene, mRNA, exon, CDS, five_prime_UTR, three_prime_UTR.

在 /var/www/html/jbrowse/JBrowse-1.11.5目录下执行：

./bin/flatfile-to-json.pl --gff Pineapple_genome_project/evidence/pineapple_maker.gff --trackLabel maker-pineapple --key maker-pineapple --type mRNA,exon,CDS --className transcript --subfeatureClass '{"CDS":"transcript-CDS", "exon":"feature5"}' --arrowheadClass transcript-arrowhead --out Pineapple_genome_project/

命令说明：

--gff后面加gff3文件的位置

--key 是在jbrowse浏览时，左边显示的名字

--type 是指定处理哪几种类型，因为我的文件中有gene, 所以主feature应该选为mRNA, subfeature应该为exon, cds, utr。

--className 选择主feature的glyph, 默认的glyph是feature

--subfeatureClass 选择subfeature的glyphs, 如果exon， cds, utr都存在，你可以不指定utr的glyph, 因为exon的glyph没被CDS的glyph覆盖的部分就是utr的样式了。。。

--arrowheadClass 指定箭头的类型有transcript-arrowhead， arrowhead等

--out 你的项目文件夹

执行完后，会在/var/www/html/jbrowse/JBrowse-1.11.5/Pineapple_genome_project/trackList.json里生成对应的track, 你可以对该track添加一些玩意，比如加上category等信息。

最后的gff3的track如下所示：

{
         "style" : {
             "className" : "transcript",
             "subfeatureClasses" : {
                "exon" : "feature5",
                "CDS" : "transcript-CDS"
             },
             "arrowheadClass" : "transcript-arrowhead"
          },
          "key" : "maker-pineapple",
          "storeClass" : "JBrowse/Store/SeqFeature/NCList",
          "trackType" : null,
         "urlTemplate" : "tracks/maker-pineapple/{refseq}/trackData.json",
          "compress" : 0,
          "type" : "FeatureTrack",
          "category" : "Evidence",
          "label" : "maker-pineapple"
       }

除了这些详细注释的gff，还有很多gff文件的feature只有：

match， match_part 或者

protein_match, match_part 或者

expressed_sequence_match, match_part

对于这种文件：

在/var/www/html/jbrowse/JBrowse-1.11.5目录下执行：

./bin/flatfile-to-json.pl --gff Pineapple_genome_project/evidence/pineapple_protein2genome.gff_rmillegal --trackLabel protein2genome-pineapple --key protein2genome-pineapple --className generic_parent --subfeatureClasses '{"match_part":"match_part"}' --out Pineapple_genome_project/

#######################################################

有时候会报错，比如：

GFF3 parse error: some features reference other features that do not exist in the file (or in the same '###' scope). A list of them:

ID | Cannot Find

----------------------------------------------------------------------

scaffold_937:hsp:73 | Parent=scaffold_937:hit:215541:3.12.0.0

这种报错是因为在你的gff文件中，有的feature中的parentID 没找到，就是只有儿子没有父亲，可以称之为孤儿feature。gff 无法parse这些行。

我拿到的几个文件就有这样的问题，于是自己写了脚本把孤儿feature给remove了，remove就可以了！

脚本：/var/www/html/jbrowse/JBrowse-1.11.5/Pineapple_genome_project/evidence/remove_illegal.py

命令：

python remove_illegal.py pineapple_protein2genome.gff

会生成不含孤儿feature的gff文件：pineapple_protein2genome.gff_rmillegal

###########################################################

执行完后也会在/var/www/html/jbrowse/JBrowse-1.11.5/Pineapple_genome_project/trackList.json里生成对应的track, 你可以对该track添加一些玩意，比如加上category等信息。

最后的track如下所示：

{
          "style" : {
             "className" : "generic_parent",
             "subfeatureClasses" : {
                "match_part" : "match_part"
             },
             "arrowheadClass" : "arrowhead"
          },
          "key" : "protein2genome-pineapple",
          "storeClass" : "JBrowse/Store/SeqFeature/NCList",
          "trackType" : null,
          "urlTemplate" : "tracks/protein2genome-pineapple/{refseq}/trackData.json",
          "compress" : 0,
          "label" : "protein2genome-pineapple",
          "category" : "Evidence",
          "type" : "FeatureTrack"
       },

以后海宝再让我加什么文件这里没描述的我再补充

pingping need view her maf file in the jbrowse. jbrowse does not support this format, but support bed format. so we should convert maf to bed first.

the command:

import step:

1, move the reference and bed file to the /www/pingping_jbrowse dir.

2, creat a dir 'pingping_Osativa' under jbrowse dir.

3, creat assembly and lastz_result dirs and ln -s files to these two dirs respectively.

4,under jbrowse dir:

./bin/prepare-refseqs.pl --fasta pingping_Osativa/assembly/Osativa_204.fa --out ./pingping_Osativa/

./bin/flatfile-to-json.pl --bed pingping_Osativa/lastz_result/Osativa_204.bed --trackLabel lastz_result --key lastz_result --out pingping_Osativa/

导入的速度很慢，结果如下图：

By freemao.

FAFU.

free_mao@qq.com

jbrowse 的配置与使用gff, vcf, fa, bed, bam的更多相关文章

依据gff切fa并翻译为蛋白质
#!/usr/bin/python import re import sys import gzip change={'A':'T','T':'A','C':'G','G':'C','N':'N'} ...
GFF高仿QQ客户端及服务器
一.GFF简介 GFF是仿QQ界面,通信基于SAEA.MessageSocket.SAEA.Http.SAEA.MVC实现包含客户端和服务器的程序,源码完全公开,项目源码地址:https://gith ...
高通APQ8074 spi 接口配置
高通APQ8074 spi 接口配置 8074 平台含有两个BLSP(BAM Low-Speed Peripheral) , 每一个BLSP含有两个QUP, 每一个QUP可以被配置为I2C, SPI, ...
配置 BizTalk Server
使用“基本配置”或“自定义配置”配置 BizTalk Server. 基本配置与自定义配置如果配置使用域组,则进行“自定义配置”. 如果配置使用自定义组名称而不是默认组名称,则进行“自定 ...
snakemake使用小结
首先在linux 里配置conda 下载 wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.3.1-Linu ...
SAMTOOLS使用 SAM BAM文件处理
[怪毛匠子整理] samtools学习及使用范例,以及官方文档详解 #第一步:把sam文件转换成bam文件,我们得到map.bam文件 system"samtools view -bS m ...
GenomicConsensus (quiver, arrow)使用方法 | 序列 consensus
https://github.com/PacificBiosciences/GenomicConsensus GenomicConsensus 是pacbio开发的,我个人非常不喜欢pacbio开发的 ...
bedtools 用法大全
原文:https://cloud.tencent.com/developer/article/1078324 前言: bedtools等工具号称是可以代替普通的生物信息学数据处理工程师的!我这里用一个 ...
Augustus指南(Trainning部分)
Augustus指南官方 Tutorial Index Augustus是一个真核生物基因预测软件,目前有网页服务端和本地版,它基于Hidden-Markov Model(隐马尔科夫链模型HMM)( ...

随机推荐

VBA读取固定文件夹中txt内容
Sub OneTxt() '打开一个txt文件 Dim Filename As Variant, extLine&, mArr() As String Dim i%, j%, txtpath ...
用ajax向处理页面传送路径问题解决方法
var pic = document.getElementById("pic"); var ppp = pic.getAttribute("src");/ ...
POJ 1719 二分图最大匹配（记录路径）
Shooting Contest Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 4097 Accepted: 1499 ...
Pjax的使用
什么是pjax? 现在很多网站( facebook, twitter)都支持这样的一种浏览方式, 当你点击一个站内的链接的时候, 不是做页面跳转, 而是只是站内页面刷新. 这样的用户体验, 比起整个 ...
LCD驱动 15-1
app: read() ---------------------------------------------------------------------------------------- ...
php 获取当前url，可以规避框架url重写后还有index.php的情况
function get_url(){ $pageURL = 'http'; if ($_SERVER["HTTPS"] == "on") { $pageURL ...
batch insert 1 million datas into mysql
最近尝试插入1百万条数据进db,以mysql为例. 1. 顺序insert 先写了个无脑的for循环作为base-line,插1万条耗时1m53s,根本不敢插1百万. foreach(var stud ...
获取手机联系人项目 PPGetAddressBook
PPGetAddressBook PPGetAddressBook对AddressBook框架(iOS9之前)和Contacts框架(iOS9之后)做了对应的封装处理; 支持获取按联系人姓名首字拼音A ...
jQuery 元素遍历
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
.net 找回密码的第一步第二步第三步的进程条
先写一个div作为存放这个进程条的容器开始写js 根据jQuery选择器找到需要加载ystep1的容器 loadstep方法可以初始化 steps参数表示步骤名称,content则是鼠标移动到当前位 ...

jbrowse 的配置与使用gff, vcf, fa, bed, bam

jbrowse 的配置与使用gff, vcf, fa, bed, bam的更多相关文章

随机推荐

热门专题