Database in BioInformation
很多数据库都可以通过下面的网站下载:http://annovar.openbioinformatics.org/en/latest/user-guide/download/
一、NHLBI-ESP(Exome Sequencing Project)
国家心肺和血液研究所外显子组测序计划(NHLBI-ESP project),这个计划中的esp6500si_all数据库中包含SNP变异、InDel变异和Y染色体上的变异的所有个体中,突变碱基的等位基因频率,通过注释,我们可以了解到突变在ESP6500的变异频率,并过滤突变频率大于0.01的数据。
下载地址:http://evs.gs.washington.edu/EVS/
注意:Have any of the ESP variants been validated by Sanger sequencing?
Large scale validation of the variants was not performed. However, sequencing validation of a small number of singleton (~200) and high frequency SNP calls (~800) was performed and reported in Tennessen et. al. as published in Science online May 21, 2012 (PMID: 22604720). None of the INDEL calls was validated, In general, the INDEL calls are less robust than the SNP calls and have a higher false positive rate. When applying the ESP data to research studies, users are advised to keep this difference in mind.
所述上述数据库,并不是每个位点都经过了sanger验证。
下载地址:http://www.openbioinformatics.org/annovar/download/hg19_esp6500siv2_all.txt.gz
二、ExAC
ExAC数据库的全称是(the Exome Aggregation Consortium,外显子组整合数据库),包含了六万多人的外显子变异情况,这些个体来源于大量疾病研究和群体遗传学研究,能够用做严重疾病研究的参考数据库。目前ExAC数据库中包括ALL,AFR(African),AMR(Admixed American),EAS(East Asian),FIN(Finnish),NFE(Non-finnish European),OTH(other),SAS(South Asian)
下载方式:perl annotate_variation.pl -downdb -webfrom annovar -buildver hg19 exac03 ./
下载地址:http://www.openbioinformatics.org/annovar/download/hg19_exac03.txt.gz
三、KAVIAR
Kaviar (~Known VARiants) is a compilation of SNVs, indels, and complex variants observed in humans, designed to facilitate testing for the novelty and frequency of observed variants.
下载方式:perl annotate_variation.pl -downdb -webfrom annovar -buildver hg19 kaviar_20150923 ./
下载地址:http://www.openbioinformatics.org/annovar/download/hg19_kaviar_20150923.txt.gz
四、1000 Genomes project
下载方式:perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar 1000g2015aug ./
下载地址:http://www.openbioinformatics.org/annovar/download/hg19_1000g2015aug.zip
五、ensembl
Ensemble( ensembl.org网站是常用真核生物参考基因组来源之一 )能够对人类基因自动进行注释,包括人类,小鼠,斑马鱼,猪和大鼠等
Ensembl是一项生物信息学研究计划,旨在开发种能够对真核生物基因组进行自动注释(automatic annotation)并加以维护的软件系统。该计划由英国Sanger研究所Wellcome基金会及欧洲分子生物学实验室所属分部欧洲生物信息学研究所共同协作运营。
Ensembl与NCBI的NCBI Map Viewer和UCSC是最为常用基因组检索数据库,与NCBI Map Viewer和UCSC最大区别表现在以下5点:
a.Ensembl的基因数据集是依据mRNA和蛋内序列的数据信息白动注释的。数据来源为新的基因组数据,UniProt/SwissProt和UniProt/TrEMBL的蛋白序列,NCBI的RefSeq里的DNA和蛋白序列和EMBL的cDNA序列。
b.Ensembl是一个开源(Perl API )的全自动的基因注释软件系统,很多网站都采用Ensembl这套软件系统。
c.Ensembl拥存其特有的BioMart功能。BioMart可以依据设定的要求对基 因组进行条件性检索,检索的结果吋以以图表的形式给出。
d.与其它数据库相整合,比如DAS。
e.基因组间的比较分析。
目前从事基因注释的机构组织有很多,这里列出的只是较为常用的几个。
Ensembl:目的是做出最好的基因注释集。
Havana (VEGA):是桑格中心的一个基因注释组织,它的目标和Eiisembl—致,因此,结合得也最紧密。
HGNC -给出人类基因唯一的名字和符号。
UniProt 主要集中于蛋白质的信息注释。
Ensembl的通用基因注释有两种,一是Ensembl GeneBuild,它是自动化注释,速度快,实时更新,在不同物种上均适用;另一种是Wellcome基金会的 Havana (VEGA)小组的注释,它是手工注释,速度慢,但是准确,它依据的都是已经验证过的mRNA和蛋白序列来注释,比较费时。因此Ensembl基因组数据库 中,会有两种注释。
Havana (VEGA)小组的注释常有以下几种类型:详细信息:http://vega.sanger.ac.uk/info/about/gene_and_transcript_types.html
Protein coding: 包括开放阅读框 (ORF).
Processed transcript:没有开放阅读框(ORF)
Pseudogene:假基因,是指脱氧核糖核酸(DNA)的碱基序列中,一段与其他生物体内已知的基因序列非常相似的片段。但是这个片段由于移码突变或者无义突变破坏了ORF,无法发挥原有的基因功能,也就是无法制造出蛋白质
IG gene:免疫球蛋白家族基因
TR Gene:T细胞受体基因
TEC (To be Experimentally Confirmed)
六、miRBase
网址:http://www.mirbase.org/,众所周知的microRNA基因注释数据库。目前miRBase只提供了microRNA的靶标的预测软件的链接(如:PicTar)
七、INSDC
八、MIM
wget https://omim.org/static/omim/data/mim2gene.txt
九、GWAS
wget http://www.genome.gov/admin/gwascatalog.txt
十、snp147.txt.gz(该网站包含了Annotation database)
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/snp147.txt.gz
- hg38: http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/
- hg19: http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/
十一、dbNSFP2.9.txt.gz(SnpSift需要改文件存在索引文件)
构建索引:运行结束才会出现dbNSFP2.9.txt.gz.tbi文件
tabix -s 1 -b 2 -e 2 dbNSFP2.9.txt.gz
http://snpeff.sourceforge.net/SnpSift.version_4_0.html#dbNSFP(an integrated database of functional predictions from multiple algorithms (SIFT, Polyphen2, LRT and MutationTaster, PhyloP and GERP++, etc.).)
https://drive.google.com/uc?export=download&id=0B7Ms5xMSFMYlSTY5dDJjcHVRZ3M
Database in BioInformation的更多相关文章
- Database Replay和Consolidated Database replay
简介 在数据库的迁移和升级场景中,我们经常会遇到一个问题:在做压力测试时,如何模拟真实的业务压力,解决这个问题的方法有很多,比如:应用方开发模拟程序或者使用压力测试工具模拟,如load runner, ...
- Oracle Database 12c Data Redaction介绍
什么是Data Redaction Data Redaction是Oracle Database 12c的高级安全选项之中的一个新功能,Oracle中国在介绍这个功能的时候,翻译为“数据编纂”,在EM ...
- 使用技术手段限制DBA的危险操作—Oracle Database Vault
概述 众所周知,在业务高峰期,某些针对Oracle数据库的操作具有很高的风险,比如修改表结构.修改实例参数等等,如果没有充分评估和了解这些操作所带来的影响,这些操作很可能会导致故障,轻则导致应用错误, ...
- 【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之集群概念介绍(一)
集群概念介绍(一)) 白宁超 2015年7月16日 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习 ...
- ERROR 1010 (HY000): Error dropping database (can't rmdir './test/', errno: 17)
在删除数据库的时候报标题所示错误 mysql> drop database test; ERROR (HY000): Error dropping database (can't rmdir ' ...
- Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之ORACLE集群概念和原理(二)
ORACLE集群概念和原理(二) 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体 ...
- 【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之RAC 工作原理和相关组件(三)
RAC 工作原理和相关组件(三) 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体 ...
- 【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之缓存融合技术和主要后台进程(四)
缓存融合技术和主要后台进程(四) 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体 ...
- 【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之RAC 特殊问题和实战经验(五)
RAC 特殊问题和实战经验(五) 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体 ...
随机推荐
- Linux内核分析第二周:操作系统是如何工作的
第一讲 函数调用堆栈 计算机是如何工作的? (总结)——三个法宝 1,存储程序计算机工作模型,计算机系统最最基础性的逻辑结构: 2,函数调用堆栈,高级语言得以运行的基础,只有机器语言和汇编语言的时候堆 ...
- 使用eclipse利用Junit4进行程序模块的测试
一.题目简介 通过用户输入年份和月份,然后在控制台显示该年该月的日历. 二.源码的github链接. https://github.com/zhangxinn/test/blob/master/Pri ...
- Exception while invoking TaskListener: Exception while invoking TaskListener: null
https://community.alfresco.com/thread/225041-exception-while-invoking-tasklistener-null Ok, so the p ...
- phpstorm 注释模板
/** * Created by ${PRODUCT_NAME}. * User: ${USER} * Date: ${DATE} * Time: ${TIME} */
- [区块链]POW 与POS
POW:全称Proof ofWork,工作证明. 这是什么意思呢?就是说,你能获得多少货币,取决于你挖矿贡献的有效工作,也就是说,你电脑性能越好,分给你的矿就会越多,这就是根据你的工作证明来执行货币的 ...
- cmd 安装mysql
838444958 http://www.runoob.com/mysql/mysql-install.html (cmd)Aa410766383 mysql password bin目录下 ...
- live-server
live-server的安装与使用 初始化npm:npm init 安装live-server:cnpm install -g live-server 根目录启动live-server:live-se ...
- Angular @的作用
<!DOCTYPE html><html lang="zh-cn" ng-app="myApp"><head> <me ...
- c3算法详解
c3 算法求某一类在多继承中的继承顺序:类的mro == [类] + [父类的继承顺序] + [父类2的继承顺序]如果从左到右的第一个类在后面的顺序中出现,那么就提取出来到mro顺序中[ABCD] + ...
- 线性代数的本质与几何意义 02. 线性组合、张成的空间、基(3blue1brown 咪博士 图文注解版)
1. 线性组合 接下来我们要换一个角度来看向量.以二维平面直角坐标系为例,i, j 分别是沿 2 个坐标轴方向的单位向量.那么坐标平面上的其他向量,例如 [ 3 -2 ] [3−与 i, j 是什么 ...