Database in BioInformation
很多数据库都可以通过下面的网站下载:http://annovar.openbioinformatics.org/en/latest/user-guide/download/
一、NHLBI-ESP(Exome Sequencing Project)
国家心肺和血液研究所外显子组测序计划(NHLBI-ESP project),这个计划中的esp6500si_all数据库中包含SNP变异、InDel变异和Y染色体上的变异的所有个体中,突变碱基的等位基因频率,通过注释,我们可以了解到突变在ESP6500的变异频率,并过滤突变频率大于0.01的数据。
下载地址:http://evs.gs.washington.edu/EVS/
注意:Have any of the ESP variants been validated by Sanger sequencing?
Large scale validation of the variants was not performed. However, sequencing validation of a small number of singleton (~200) and high frequency SNP calls (~800) was performed and reported in Tennessen et. al. as published in Science online May 21, 2012 (PMID: 22604720). None of the INDEL calls was validated, In general, the INDEL calls are less robust than the SNP calls and have a higher false positive rate. When applying the ESP data to research studies, users are advised to keep this difference in mind.
所述上述数据库,并不是每个位点都经过了sanger验证。
下载地址:http://www.openbioinformatics.org/annovar/download/hg19_esp6500siv2_all.txt.gz
二、ExAC
ExAC数据库的全称是(the Exome Aggregation Consortium,外显子组整合数据库),包含了六万多人的外显子变异情况,这些个体来源于大量疾病研究和群体遗传学研究,能够用做严重疾病研究的参考数据库。目前ExAC数据库中包括ALL,AFR(African),AMR(Admixed American),EAS(East Asian),FIN(Finnish),NFE(Non-finnish European),OTH(other),SAS(South Asian)
下载方式:perl annotate_variation.pl -downdb -webfrom annovar -buildver hg19 exac03 ./
下载地址:http://www.openbioinformatics.org/annovar/download/hg19_exac03.txt.gz
三、KAVIAR
Kaviar (~Known VARiants) is a compilation of SNVs, indels, and complex variants observed in humans, designed to facilitate testing for the novelty and frequency of observed variants.
下载方式:perl annotate_variation.pl -downdb -webfrom annovar -buildver hg19 kaviar_20150923 ./
下载地址:http://www.openbioinformatics.org/annovar/download/hg19_kaviar_20150923.txt.gz
四、1000 Genomes project
下载方式:perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar 1000g2015aug ./
下载地址:http://www.openbioinformatics.org/annovar/download/hg19_1000g2015aug.zip
五、ensembl
Ensemble( ensembl.org网站是常用真核生物参考基因组来源之一 )能够对人类基因自动进行注释,包括人类,小鼠,斑马鱼,猪和大鼠等
Ensembl是一项生物信息学研究计划,旨在开发种能够对真核生物基因组进行自动注释(automatic annotation)并加以维护的软件系统。该计划由英国Sanger研究所Wellcome基金会及欧洲分子生物学实验室所属分部欧洲生物信息学研究所共同协作运营。
Ensembl与NCBI的NCBI Map Viewer和UCSC是最为常用基因组检索数据库,与NCBI Map Viewer和UCSC最大区别表现在以下5点:
a.Ensembl的基因数据集是依据mRNA和蛋内序列的数据信息白动注释的。数据来源为新的基因组数据,UniProt/SwissProt和UniProt/TrEMBL的蛋白序列,NCBI的RefSeq里的DNA和蛋白序列和EMBL的cDNA序列。
b.Ensembl是一个开源(Perl API )的全自动的基因注释软件系统,很多网站都采用Ensembl这套软件系统。
c.Ensembl拥存其特有的BioMart功能。BioMart可以依据设定的要求对基 因组进行条件性检索,检索的结果吋以以图表的形式给出。
d.与其它数据库相整合,比如DAS。
e.基因组间的比较分析。
目前从事基因注释的机构组织有很多,这里列出的只是较为常用的几个。
Ensembl:目的是做出最好的基因注释集。
Havana (VEGA):是桑格中心的一个基因注释组织,它的目标和Eiisembl—致,因此,结合得也最紧密。
HGNC -给出人类基因唯一的名字和符号。
UniProt 主要集中于蛋白质的信息注释。
Ensembl的通用基因注释有两种,一是Ensembl GeneBuild,它是自动化注释,速度快,实时更新,在不同物种上均适用;另一种是Wellcome基金会的 Havana (VEGA)小组的注释,它是手工注释,速度慢,但是准确,它依据的都是已经验证过的mRNA和蛋白序列来注释,比较费时。因此Ensembl基因组数据库 中,会有两种注释。
Havana (VEGA)小组的注释常有以下几种类型:详细信息:http://vega.sanger.ac.uk/info/about/gene_and_transcript_types.html
Protein coding: 包括开放阅读框 (ORF).
Processed transcript:没有开放阅读框(ORF)
Pseudogene:假基因,是指脱氧核糖核酸(DNA)的碱基序列中,一段与其他生物体内已知的基因序列非常相似的片段。但是这个片段由于移码突变或者无义突变破坏了ORF,无法发挥原有的基因功能,也就是无法制造出蛋白质
IG gene:免疫球蛋白家族基因
TR Gene:T细胞受体基因
TEC (To be Experimentally Confirmed)
六、miRBase
网址:http://www.mirbase.org/,众所周知的microRNA基因注释数据库。目前miRBase只提供了microRNA的靶标的预测软件的链接(如:PicTar)
七、INSDC
八、MIM
wget https://omim.org/static/omim/data/mim2gene.txt
九、GWAS
wget http://www.genome.gov/admin/gwascatalog.txt
十、snp147.txt.gz(该网站包含了Annotation database)
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/snp147.txt.gz
- hg38: http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/
- hg19: http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/
十一、dbNSFP2.9.txt.gz(SnpSift需要改文件存在索引文件)
构建索引:运行结束才会出现dbNSFP2.9.txt.gz.tbi文件
tabix -s 1 -b 2 -e 2 dbNSFP2.9.txt.gz
http://snpeff.sourceforge.net/SnpSift.version_4_0.html#dbNSFP(an integrated database of functional predictions from multiple algorithms (SIFT, Polyphen2, LRT and MutationTaster, PhyloP and GERP++, etc.).)
https://drive.google.com/uc?export=download&id=0B7Ms5xMSFMYlSTY5dDJjcHVRZ3M
Database in BioInformation的更多相关文章
- Database Replay和Consolidated Database replay
简介 在数据库的迁移和升级场景中,我们经常会遇到一个问题:在做压力测试时,如何模拟真实的业务压力,解决这个问题的方法有很多,比如:应用方开发模拟程序或者使用压力测试工具模拟,如load runner, ...
- Oracle Database 12c Data Redaction介绍
什么是Data Redaction Data Redaction是Oracle Database 12c的高级安全选项之中的一个新功能,Oracle中国在介绍这个功能的时候,翻译为“数据编纂”,在EM ...
- 使用技术手段限制DBA的危险操作—Oracle Database Vault
概述 众所周知,在业务高峰期,某些针对Oracle数据库的操作具有很高的风险,比如修改表结构.修改实例参数等等,如果没有充分评估和了解这些操作所带来的影响,这些操作很可能会导致故障,轻则导致应用错误, ...
- 【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之集群概念介绍(一)
集群概念介绍(一)) 白宁超 2015年7月16日 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习 ...
- ERROR 1010 (HY000): Error dropping database (can't rmdir './test/', errno: 17)
在删除数据库的时候报标题所示错误 mysql> drop database test; ERROR (HY000): Error dropping database (can't rmdir ' ...
- Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之ORACLE集群概念和原理(二)
ORACLE集群概念和原理(二) 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体 ...
- 【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之RAC 工作原理和相关组件(三)
RAC 工作原理和相关组件(三) 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体 ...
- 【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之缓存融合技术和主要后台进程(四)
缓存融合技术和主要后台进程(四) 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体 ...
- 【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之RAC 特殊问题和实战经验(五)
RAC 特殊问题和实战经验(五) 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体 ...
随机推荐
- Linux内核分析 笔记八 进程的切换和系统的一般执行过程 ——by王玥
一.进程切换的关键代码switch_to的分析 (一)进程调度与进程调度的时机分析 1.不同类型的进程有不同的调度需求 第一种分类: I/O-bound:频繁地进行I/O,花费很多的时间等待I/O操作 ...
- JProfiler的使用
1.下载地址:http://www.ej-technologies.com/download/jprofiler/files 2.使用过程 1.点击此图的new Session 2.点击左边appli ...
- 开发中CollectionUtils处理集合
1.org.apache.commons.collections.CollectionUtils; 使用这个工具类,帮我们处理一些集合的操作,非常方便 //取并集public void testUni ...
- PAT 甲级 1134 Vertex Cover
https://pintia.cn/problem-sets/994805342720868352/problems/994805346428633088 A vertex cover of a gr ...
- XSS编码与绕过
XSS编码与绕过 0x00 背景 对于了解web安全的朋友来说,都知道XSS这种漏洞,其危害性不用强调了.一般对于该漏洞的防护有两个思路:一是过滤敏感字符,诸如[<,>,script,' ...
- Java并发—synchronized关键字
synchronized关键字的作用是线程同步,而线程的同步是为了防止多个线程访问一个数据对象时,对数据造成的破坏. synchronized用法 1. 在需要同步的方法的方法签名中加入synchro ...
- CentOS 使用SMB服务 让windows能够上传文件
1. 新增加用户 useradd zhaobsh 2. 使用 pdbedit的方式新增加用户 pdbedit -a -u zhaobsh 3. 修改smb服务 systemctl restart sm ...
- 热修改 MySQL 数据库 pt-online-schema-change 的使用详解
由于周五公司团建的关系所以此篇推迟了抱歉. 首先不得不在该篇里面梳理一个数据库热增加删除字段表的工具 pt-online-schema-change 这个工具在前面我的博文 <关于utf8mb4 ...
- python 时间转换相关
最近需要操作时间的地方相当的多,包括打点,包括时间转换. 罗列最近遇到的两个需求. 1. 关于上篇文章写的base64上传图片的问题,我使用了打点来计算解码需要多少时间.这个对时间精度要求是比较高的. ...
- 部署AWStats分析系统
介绍 AWStats是使用Prel语言开发的一款开源日志分析系统,它不仅可以用来分析Apache网站服务器的访问日志,也可以用来分析Samba.Vsftpd.IIS等服务的日志信息. AWStats软 ...