常用数据库ID格式
转自:http://www.biotrainee.com/thread-411-1-1.html
常用数据库 ID
ID 示例 | ID 来源 |
ENSG00000116717 | Ensemble ID |
GA45A_HUMAN | UniProtKB/Swiss-Prot, entry name |
A5PJB2_BOVIN | UniProtKB/TrEMBL, entry name |
A2BC19, P12345, A0A022YWF9 | UniProt, accession number |
GLA, GLB, UGT1A1 | HGNC Gene Symbol |
U12345, AF123456 | GenBank, NCBI, accession number |
NT_123456, NM_123456, NP_123456 | RefSeq, NCBI, accession number |
10598, 717 | Entrez ID, NCBI |
uc001ett, uc031tla.1 | UCSC ID |
Ensembl stable IDs
Ensembl stable ID 的结构是根据不同物种设置的前缀, 加上数据所指的类型, 如基因蛋白质, 再加上一系列的数字. 有的时候可以有不同的版本, 则在 Ensembl ID 后面加上小数点和版本号.
常用物种前缀
前缀 | 学名 |
ENSCEL | Caenorhabditis elegans (Caenorhabditis elegans) |
ENSCAF | Canis lupus familiaris (Dog) |
ENSDAR | Danio rerio (Zebrafish) |
FB | Drosophila melanogaster (Fruitfly) |
ENS | Homo sapiens (Human) |
ENSMUS | Mus musculus (Mouse) |
ENSRNO | Rattus norvegicus (Rat) |
ENSXET | Xenopus tropicalis (Xenopus) |
类型前缀
前缀 | 类型 |
E | exon |
FM | Ensembl protein family |
G | gene |
GT | gene tree |
P | protein |
R | regulatory feature |
T | transcript |
UniProt
UniProt 中录入的数据都被分配了一个唯一的 entry name.
UniProtKB/Swiss-Prot entry name
UniProtKB/Swiss-Prot entry name 是最多有 11 位包含大写字母的字符串, 一般有着 "X_Y" 的形式, 其中 "X" 是最多五个便于记忆的蛋白质编号, "_" 是下划线, "Y" 是最多五个便于记忆的物种编号.
蛋白质编号示例如下:
Code(X) | Recommended protein name | Gene name |
B2MG | Beta-2-microglobulin | B2M |
HBA | Hemoglobin subunit alpha | HBA1 |
INS | Insulin | INS |
CAD17 | Cadherin-17 | CDH17 |
物种编号示例如下:
Code | Species |
BOVIN | Bovine |
CHICK | Chicken |
ECOLI | Escherichia coli |
HORSE | Horse |
HUMAN | Homo sapiens |
MAIZE | Maize (Zea mays) |
MOUSE | Mouse |
PEA | Garden pea (Pisum sativum) |
PIG | Pig |
RABIT | Rabbit |
RAT | Rat |
SHEEP | Sheep |
SOYBN | Soybean (Glycine max) |
TOBAC | Common tobacco (Nicotina tabacum) |
WHEAT | Wheat (Triticum aestivum) |
YEAST | Baker’s yeast (Saccharomyces cerevisiae) |
UniProtKB/TrEMBL entry name
UniProtKB/TrEMBL entry name 是最多 16 位包含大写字母的字符串, 一般有着 "X_Y" 的形式, 其中 "X" 是
6 到 10 个字符组成的 accession number, "_" 是下划线, "Y" 是最多五个便于记忆的物种编号.
Accession Number
UniProtKB 的 Accession Number 相当于数据库的主键, 由 6 到 10 个大写字母或者数字组成. 其构成规律为:
[OPQ][0-9][A-Z0-9]{3}[0-9]|[A-NR-Z][0-9]([A-Z][A-Z0-9]{2}[0-9]){1,2}
实际上, accession number 是三种类型:
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
[O P Q] | [0-9] | [A-Z 0-9] | [A-Z 0-9] | [A-Z 0-9] | [0-9] | ||||
[A-N R-Z] | [0-9] | [A-Z] | [A-Z 0-9] | [A-Z 0-9] | [0-9] | ||||
[A-N R-Z] | [0-9] | [A-Z] | [A-Z 0-9] | [A-Z 0-9] | [0-9] | [A-Z] | [A-Z 0-9] | [A-Z 0-9] | [0-9] |
如果一个条目被分成两个, 或者多个条目合成一个, 则有相应的 accession number 继承规则.
HUGO Gene Nomenclature Committee
Gene Symbol
Gene Symbol 是用来表示基因的编码, 由大写字母构成, 或由大写字母和数字构成, 首字母均应该是字母.
如: GLA "galactosidase, alpha"; GLB "galactosidase, beta"; UGT1A1 "UDP
glycosyltransferase 1 family, polypeptide A1" 再到 UGT1A13 代表了 13 个不同的
gene symbol.
NCBI
GenBank Accession Number
GenBank 的通用 accession number 通常是由一个大写字母加上 5 个数字的组合, 或者两个大写字母加上 6 个数字的组合.
RefSeq Accession Number
RefSeq 有一套特殊的 Accesion Number. 形式是: [A-Z]{2}[_][0-9]{6:}, 两个大写字母, 一个下划线, 6 个或更多的数字.
Accession 前缀 | 类型 | 说明 |
AC_ | Genomic | Complete genomic molecule, usually alternate assembly |
NC_ | Genomic | Complete genomic molecule, usually reference assembly |
NG_ | Genomic | Incomplete genomic region |
NT_ | Genomic | Contig or scaffold, clone-based or WGS |
NW_ | Genomic | Contig or scaffold, primarily WGS |
NS_ | Genomic | Environmental sequence |
NZ_ | Genomic | Unfinished WGS |
NM_ | mRNA | |
NR_ | RNA | |
XM_ | mRNA | Predicted model |
XR_ | RNA | Predicted model |
AP_ | Protein | Annotated on AC_ alternate assembly |
NP_ | Protein | Associated with an NM_ or NC_ accession |
YP_ | Protein | |
XP_ | Protein | Predicted model, associated with an XM_ accession |
ZP_ | Protein | Predicted model, annotated on NZ_ genomic records |
- WGS: Whole Genome Shotgun sequence data, 鸟枪法测序.
Entrez ID
Entrez 是 NCBI 使用的能够对众多数据库进行联合搜索的搜索引擎, 其对不同的 Gene 进行了编号, 每个 gene 的编号就是
entrez gene id. 由于 entrez id 相对稳定, 所以也被众多其他数据库, 如 KEGG 等采用. Entrez Gene
ID 就是一系列数字, 也比较容易辨识. R 或网站都有众多的工具可以帮助从不同的 ID 转换为 entrez id 或者反向转换.
UCSC ID
UCSC ID 由小写字母和数字构成, 起始均为 uc, 然后是三位数字, 接着又是三位小写字母, 最后有小数点和数字构成版本号.
如: uc010qfk.3, uc010qfk.3.
常用数据库ID格式的更多相关文章
- 常用生物信息 ID 及转换方法
众多不同的数据库所采用的对 Gene 和 Protein 编号的 ID 也是不同的, 所以在使用不同数据库数据的时候需要进行 ID 转换. 常用数据库 ID ID 示例 ID 来源 ENSG00000 ...
- 常用数据库 JDBC URL 格式
一 常用数据库 JDBC URL 格式 1 sqLite 驱动程序包名:sqlitejdbc-v056.jar 驱动程序类名: org.sqlite.JDBC JDBC URL: jdbc:sqli ...
- tomcat连接常用数据库的用法
一.用于数据库连接的术语: JDBC:(Java database connectivity)是基于java数据访问技术的一个API通过客户端访问服务器的数据库,是一个面向关系型数据库并提供一种方法查 ...
- 常用数据库的驱动程序和Url地址
常用数据库的驱动程序及JDBC URL: Oracle数据库: 驱动程序包名:ojdbc6.jar 驱动类的名字:oracle.jdbc.driver.OracleDriver JDBC URL:jd ...
- JDBC ----常用数据库的驱动程序及JDBC URL:
常用数据库的驱动程序及JDBC URL: Oracle数据库: 驱动程序包名:ojdbc14.jar 驱动类的名字:oracle.jdbc.driver.OracleDriver JDBC URL ...
- 常用数据库的驱动类/URL/默认端口
常用数据库的驱动类/URL/默认端口 1.Oracle: 格式: 驱动:oracle.jdbc.driver.OracleDriver URL:jdbc:oracle:thin ...
- c3p0、dbcp、tomcat jdbc pool 连接池配置简介及常用数据库的driverClass和驱动包
[-] DBCP连接池配置 dbcp jar包 c3p0连接池配置 c3p0 jar包 jdbc-pool连接池配置 jdbc-pool jar包 常用数据库的driverClass和jdbcUrl ...
- 常用SQL时间格式SQLServer中文版的默认的日期字段datetime格式是yyyy-mm-d
常用SQL时间格式 SQL Server中文版的默认的日期字段datetime格式是yyyy-mm-dd Thh:mm:ss.mmm 例如: select getdate() -- ::08.177 ...
- 问题:Oracle to_date;结果:oracle常用的时间格式转换
oracle常用的时间格式转换 1:取得当前日期是本月的第几周 SQL> select to_char(sysdate,'YYYYMMDD W HH24:MI:SS') from dual; T ...
随机推荐
- 使用纯生js操作cookie
前段时间做项目的时候要使用js操作cookie,jquery也有相应的插件,不过还是觉得纯生的js比较好,毕竟不依赖jq. //获得coolie 的值 function cookie(name) { ...
- linux 标准I/O (一)
在前面<UNIX环境高级编程----文件描述符浅析>一文中所讲的I/O函数都是针对文件描述符.而对于标准I/O库,它们的操作都是围绕流来进行的.当用标准I/O库打开或创建一个文件时,我们已 ...
- [转载]Linux下关于system调用
曾经的曾经,被system()函数折磨过,之所以这样,是因为对system()函数了解不够深入.只是简单的知道用这个函数执行一个系统命令,这远远不够,它的返回值.它所执行命令的返回值以及命令执行失败原 ...
- 【Spring学习笔记-MVC-14】Spring MVC对静态资源的访问
作者:ssslinppp 参考链接: http://www.cnblogs.com/luxh/archive/2013/03/14/2959207.html http://www.cnb ...
- InfluxDB 备份和恢复
InfluxDB操作 . 显示数据库 > show databases > create database test > drop database test . 显示说有表 > ...
- Jmeter接口压测
对于各个组件的使用,建议参考官方文档 1. Jmeter参数化,从txt文件读取. 1.txt
- 1042 Shuffling Machine (20 分)
1042 Shuffling Machine (20 分) Shuffling is a procedure used to randomize a deck of playing cards. Be ...
- [UE4]Pawn和Controller,第一人称和第三人称切换
一. Pawn 可以被控制的Actor,可以被Controller持有控制,并且从Controller中接受输入.例如:玩家.NPC(Not Player Character) 二.Controlle ...
- Jquery阻断事件冒泡(转载)
JQuery阻止事件冒泡 冒泡事件就是点击子节点,会向上触发父节点,祖先节点的点击事件. 我们在平时的开发过程中,肯定会遇到在一个div(这个div可以是元素)包裹一个div的情况,但是呢,在这两个d ...
- python-django-ORM,常用查询方式
介绍django model 的一些常用查询方式 首先是一些文档性的帮助 __exact 精确等于 like ‘aaa’ __iexact 精确等于 忽略大小写 ilike ‘aaa’ __conta ...