常用生物信息 ID 及转换方法
众多不同的数据库所采用的对 Gene 和 Protein 编号的 ID 也是不同的, 所以在使用不同数据库数据的时候需要进行 ID 转换.
常用数据库 ID
ID 示例 | ID 来源 |
---|---|
ENSG00000116717 | Ensemble ID |
GA45A_HUMAN | UniProtKB/Swiss-Prot, entry name |
A5PJB2_BOVIN | UniProtKB/TrEMBL, entry name |
A2BC19, P12345, A0A022YWF9 | UniProt, accession number |
GLA, GLB, UGT1A1 | HGNC Gene Symbol |
U12345, AF123456 | GenBank, NCBI, accession number |
NT_123456, NM_123456, NP_123456 | RefSeq, NCBI, accession number |
10598, 717 | Entrez ID, NCBI |
uc001ett, uc031tla.1 | UCSC ID |
Ensembl stable IDs
Ensembl stable ID 的结构是根据不同物种设置的前缀, 加上数据所指的类型, 如基因蛋白质, 再加上一系列的数字. 有的时候可以有不同的版本, 则在 Ensembl ID 后面加上小数点和版本号.
常用物种前缀
前缀 | 学名 |
---|---|
ENSCEL | Caenorhabditis elegans (Caenorhabditis elegans) |
ENSCAF | Canis lupus familiaris (Dog) |
ENSDAR | Danio rerio (Zebrafish) |
FB | Drosophila melanogaster (Fruitfly) |
ENS | Homo sapiens (Human) |
ENSMUS | Mus musculus (Mouse) |
ENSRNO | Rattus norvegicus (Rat) |
ENSXET | Xenopus tropicalis (Xenopus) |
类型前缀
前缀 | 类型 |
---|---|
E | exon |
FM | Ensembl protein family |
G | gene |
GT | gene tree |
P | protein |
R | regulatory feature |
T | transcript |
UniProt
UniProt 中录入的数据都被分配了一个唯一的 entry name.
UniProtKB/Swiss-Prot entry name
UniProtKB/Swiss-Prot entry name 是最多有 11 位包含大写字母的字符串, 一般有着 "X_Y" 的形式, 其中 "X" 是最多五个便于记忆的蛋白质编号, "_" 是下划线, "Y" 是最多五个便于记忆的物种编号.
蛋白质编号示例如下:
Code(X) | Recommended protein name | Gene name |
---|---|---|
B2MG | Beta-2-microglobulin | B2M |
HBA | Hemoglobin subunit alpha | HBA1 |
INS | Insulin | INS |
CAD17 | Cadherin-17 | CDH17 |
物种编号示例如下:
Code | Species |
---|---|
BOVIN | Bovine |
CHICK | Chicken |
ECOLI | Escherichia coli |
HORSE | Horse |
HUMAN | Homo sapiens |
MAIZE | Maize (Zea mays) |
MOUSE | Mouse |
PEA | Garden pea (Pisum sativum) |
PIG | Pig |
RABIT | Rabbit |
RAT | Rat |
SHEEP | Sheep |
SOYBN | Soybean (Glycine max) |
TOBAC | Common tobacco (Nicotina tabacum) |
WHEAT | Wheat (Triticum aestivum) |
YEAST | Baker’s yeast (Saccharomyces cerevisiae) |
UniProtKB/TrEMBL entry name
UniProtKB/TrEMBL entry name 是最多 16 位包含大写字母的字符串, 一般有着 "X_Y" 的形式, 其中 "X" 是 6 到 10 个字符组成的 accession number, "_" 是下划线, "Y" 是最多五个便于记忆的物种编号.
Accession Number
UniProtKB 的 Accession Number 相当于数据库的主键, 由 6 到 10 个大写字母或者数字组成. 其构成规律为: [OPQ][0-9][A-Z0-9]{3}[0-9]|[A-NR-Z][0-9]([A-Z][A-Z0-9]{2}[0-9]){1,2}
实际上, accession number 是三种类型:
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|
[O P Q] | [0-9] | [A-Z 0-9] | [A-Z 0-9] | [A-Z 0-9] | [0-9] | ||||
[A-N R-Z] | [0-9] | [A-Z] | [A-Z 0-9] | [A-Z 0-9] | [0-9] | ||||
[A-N R-Z] | [0-9] | [A-Z] | [A-Z 0-9] | [A-Z 0-9] | [0-9] | [A-Z] | [A-Z 0-9] | [A-Z 0-9] | [0-9] |
如果一个条目被分成两个, 或者多个条目合成一个, 则有相应的 accession number 继承规则.
HUGO Gene Nomenclature Committee
Gene Symbol
Gene Symbol 是用来表示基因的编码, 由大写字母构成, 或由大写字母和数字构成, 首字母均应该是字母.
如: GLA "galactosidase, alpha"; GLB "galactosidase, beta"; UGT1A1 "UDP glycosyltransferase 1 family, polypeptide A1" 再到 UGT1A13 代表了 13 个不同的 gene symbol.
NCBI
GenBank Accession Number
GenBank 的通用 accession number 通常是由一个大写字母加上 5 个数字的组合, 或者两个大写字母加上 6 个数字的组合.
RefSeq Accession Number
RefSeq 有一套特殊的 Accesion Number. 形式是: [A-Z]{2}[_][0-9]{6:}
, 两个大写字母, 一个下划线, 6 个或更多的数字.
Accession 前缀 | 类型 | 说明 |
---|---|---|
AC_ | Genomic | Complete genomic molecule, usually alternate assembly |
NC_ | Genomic | Complete genomic molecule, usually reference assembly |
NG_ | Genomic | Incomplete genomic region |
NT_ | Genomic | Contig or scaffold, clone-based or WGS |
NW_ | Genomic | Contig or scaffold, primarily WGS |
NS_ | Genomic | Environmental sequence |
NZ_ | Genomic | Unfinished WGS |
NM_ | mRNA | |
NR_ | RNA | |
XM_ | mRNA | Predicted model |
XR_ | RNA | Predicted model |
AP_ | Protein | Annotated on AC_ alternate assembly |
NP_ | Protein | Associated with an NM_ or NC_ accession |
YP_ | Protein | |
XP_ | Protein | Predicted model, associated with an XM_ accession |
ZP_ | Protein | Predicted model, annotated on NZ_ genomic records |
- WGS: Whole Genome Shotgun sequence data, 鸟枪法测序.
Entrez ID
Entrez 是 NCBI 使用的能够对众多数据库进行联合搜索的搜索引擎, 其对不同的 Gene 进行了编号, 每个 gene 的编号就是 entrez gene id. 由于 entrez id 相对稳定, 所以也被众多其他数据库, 如 KEGG 等采用. Entrez Gene ID 就是一系列数字, 也比较容易辨识. R 或网站都有众多的工具可以帮助从不同的 ID 转换为 entrez id 或者反向转换.
UCSC ID
UCSC ID 由小写字母和数字构成, 起始均为 uc, 然后是三位数字, 接着又是三位小写字母, 最后有小数点和数字构成版本号.
如: uc010qfk.3, uc010qfk.3.
ID Mapping
- Uniprot ID mapping 可以很方便地把 ID 转换为其他 ID 类型, 所包含的类型十分全面.
- bioDBnet 网站提供了常见的 ID 转换的选项, 类型全面.
- DAVID Gene ID Conversion Tool 可以把 Gene ID 转换为多种常用类型和 DAVID ID, 方便进一步用 DAVID 做 GO 分析.
- BridgeDB 一套提供 ID 转换的框架.
- Human genes converter 把常用的 Ensambl ID 或 Symbol 转换为 Gene 的 Entrez ID.
常用生物信息 ID 及转换方法的更多相关文章
- 常用数据库ID格式
转自:http://www.biotrainee.com/thread-411-1-1.html 常用数据库 ID ID 示例 ID 来源 ENSG00000116717 Ensemble ID GA ...
- 常用Gene ID转换工具--转载
在自己的研究工作中,经常会遇到一些需要对Gene ID进行转换的情况.目前存在着大量的生物信息数据库,每个数据库都有自己定义的ID命名规则,转换起来实在是一个很大的工作.举个例子,之前构建的Human ...
- 字符串和id的转换方法
在项目中经常会遇到一个需求就是字符串和id的转换,比如标签和标签id.因为在存储系统里面存储字符串会比较浪费内存,而存储id会节省内存和提高效率. 问题分解 通过字符串获得id 通过id获得字符串 实 ...
- 常用的JS数据类型转换方法
JS 数据类型转换的方法有以下3种:1)使用转换函数2)强制类型转换3)利用js变量弱类型特性进行转换 1:js提供了parseInt()和parseFloat()这两个转换函数. 这里输入内容par ...
- NuGet控制台有几个常用命令
NuGet控制台有几个常用命令 Get-Package 获取当前项目已经安装的类库 Install-Package 安装指定类库,命令格式如下:Install-Package 类库ID,如Instal ...
- TP框架常用(一)
25.显示最后一条查询的sql语句:主要用于在连贯操作时,检测拼接的sql语句是否正确 echo $this->db->last_query();//如:select * from pt_ ...
- HTML常用命名和CSS reset代码【收集总结】
CSS命名规则 头:header 内容:content/containe 尾:footer 导航:nav 侧栏:sidebar 栏目:column 页面外围控制整体布局宽度:wrapper 左右中:l ...
- Java中几种常用数据类型之间转换的方法
Java中几种常用的数据类型之间转换方法: 1. short-->int 转换 exp: short shortvar=0; int intvar=0; shortvar= (short) in ...
- 关于Html class id 命名规范
CSS命名规则 头:header 内容:content/containe 尾:footer 导航:nav 侧栏:sidebar 栏目:column 页面外围控制整体布局宽度:wrapper 左右中:l ...
随机推荐
- 【进阶技术】一篇文章搞掂:RibbitMQ
一.简介 一开始,消息队列源自于一个激进的工程师的思想,他希望有一种通用软件“总线”能解决程序间繁重的信息通信工作 后来出现了很多消息队列产品,但是他们互不兼容,价格昂贵 后来出现了AMQP,高级消息 ...
- HDU4089 Activation(概率DP+处理环迭代式子)
题意:有n个人排队等着在官网上激活游戏.Tomato排在第m个. 对于队列中的第一个人.有一下情况: 1.激活失败,留在队列中等待下一次激活(概率为p1) 2.失去连接,出队列,然后排在队列的最后(概 ...
- HDU 1003 解题报告
问题描述:求最大连续字串 分析:一道简单的DP,状态转移方程是d[i] = ( d[i-1]+a[i] > a[i] ) ? d[i-1]+a[i] : a[i] d[i]表示以第i个数字结尾的 ...
- thread_process_action
import math import random import re import sys import threading from time import ctime, sleep from l ...
- init函数和匿名函数
init函数: 基本介绍: 每一个源文件都可以包含一个init函数,该函数会在main函数执行前,被Go运行框架调用,也就是说init会在main函数前被调用. 案例说明: //init函数,通常可以 ...
- SpringBoot 接口并行高效聚合
转自:juejin.im/post/5d064b90e51d45777540fda7 背景 接口开发是后端开发中最常见的场景, 可能是RESTFul接口, 也可能是RPC接口. 接口开发往往是从各处捞 ...
- Struts2之上传
单文件上传 上传页面 <%@ page language="java" contentType="text/html; charset=UTF-8" pa ...
- [Codeforces 865C]Gotta Go Fast(期望dp+二分答案)
[Codeforces 865C]Gotta Go Fast(期望dp+二分答案) 题面 一个游戏一共有n个关卡,对于第i关,用a[i]时间通过的概率为p[i],用b[i]通过的时间为1-p[i],每 ...
- 最长公共上升子序列 (LIS+LCS+记录)
[题目描述] 给出两个序列,求出最长公共上升子序列的长度,并输出其中一个解. [题目链接] http://noi.openjudge.cn/ch0206/2000/ [算法] 经典问题,结合了LIS和 ...
- 1233: [Usaco2009Open]干草堆tower
传送门 感觉正着做不太好搞,考虑倒过来搞 容易想到贪心,每一层都贪心地选最小的宽度,然后发现 $WA$ 了... 因为一开始多选一点有时可以让下一层宽度更小 然后有一个神奇的结论,最高的方案一定有一种 ...