最近在上生物信息学原理,打算记录一些课上的作业。第一次作业:如题。

基本思路:

      1.从GFF中读取CDS的起始终止位置以及正负链信息。GFF格式见http://blog.sina.com.cn/s/blog_8a4f556e0102yd3l.html.

      2.利用起始/终止位置等信息从FNA文件中提取CDS序列。FNA格式见 http://boyun.sh.cn/bio/?p=1192.

      3.利用CDS序列及密码子表得到FAA文件并输出。

注意:最需要注意的一点是:当GFF中CDS位于负链时,需要进行碱基互补配对,即反向互补(5'到3'配3'到5')。

下面给出python代码。python3.6

转载请保留出处

从细菌GFF文件提取CDS序列并转换为氨基酸序列

  1. #bioinformatics homework
  2. import re
  3. class CDS2AA():
  4. pa = re.compile(r'\s+')
  5. Pa = re.compile(r'[TCAG]TG') # 细菌起始密码子NTG
  6. def __init__(self,fna,gff):
  7. self.fna = fna
  8. self.gff = gff
  9. def N2M(self,sequence):
  10. hash = {'A': 'T', 'T': 'A', 'C': 'G', 'G': 'C'}
  11. sequence = ''.join([hash[i] for i in sequence]) #正负链转换
  12. return sequence[::-1]
  13. def Get_CDS_index(self,line): #获取CDS信息
  14. line = self.pa.split(line)
  15. CDS = (line[0], line[3], line[4], line[6], line[7]) #这里字符串分割有的文件是会出问题的,所以要看文件格式而定
  16. return CDS
  17. def Seq2AA(self,sequence,hash):
  18. AA = hash[sequence[:3]]
  19. if self.Pa.match(sequence[:3]):
  20. AA = 'M' #起始密码子
  21. for i in range(3, len(sequence) - 3, 3):
  22. AA += hash[sequence[i:i + 3]]
  23. return AA
  24. def CDS2AA(self):
  25. fn = open(self.fna, 'r')
  26. gf = open(self.gff,'r')
  27. r = open('AA_sequence.txt', 'w')
  28. w = open('CDS.txt', 'w')
  29. hash_AA = {} # AA hash,sequence2AA
  30. with open('AA.txt', 'r') as f: #AA.txt 为密码子表
  31. for line in f:
  32. line = line.strip()
  33. if line:
  34. line = self.pa.split(line)
  35. hash_AA[line[0]] = line[1] #AA hash
  36. hash_CDS = {} # CDS hash,CDS2sequence
  37. for line in fn:
  38. line = line.strip()
  39. if line.startswith('>'):
  40. A = self.pa.split(line)[0].replace('>', '')
  41. hash_CDS[A] = ''
  42. else:
  43. hash_CDS[A] += line
  44. fn.close()
  45. for line in gf:
  46. line = line.strip()
  47. if 'CDS' in line:
  48. i = self.Get_CDS_index(line)
  49. sequence = hash_CDS[i[0]][int(i[1]) - 1:int(i[2])]
  50. sequence = sequence[int(i[4]):] # i[4] 表示密码子开始位置
  51. if i[3] == '-':
  52. sequence = self.N2M(sequence)
  53. #w.write(i[0] + '\n' + sequence + '\n')
  54. #后面是一堆正则,主要是对序列做注释的,看文件格式而定
  55.  
  56. s1 = self.pa.split(line)
  57. p1 = re.compile(r'ID=(.*?);.*?Dbxref=(.*?);.*?Name=(.*?);.*?gbkey=(.*?);.*?product=(.*?);.*?protein_id=(.*?);')
  58. p2 = re.compile(r'.*?product=(.*?);.*?protein_id=(.*?);')
  59. m1 = re.findall(p1,line)
  60. m2 = re.findall(p2,line)
  61. s = '>'+s1[0]+'_'+m1[0][0]+'\tName='+m1[0][2]+'\tdbxref='+m1[0][1]+'\tprotein='+m1[0][4]+'\tprotein_id='+m1[0][5]+'\tgbkey='+m1[0][3]
  62. w.write(s + '\n' + sequence + '\n')
  63. p = '>' + s1[0]+'\tproduct:'+m2[0][0]+'\tproduct_id:'+m2[0][1]
  64. AA = self.Seq2AA(sequence, hash_AA)
  65. r.write(p + '\n' + AA + '\n')
  66. w.close()
  67. r.close()
  68.  
  69. if __name__=='__main__':
  70. fna = 'GCA_000160075.2_ASM16007v2_genomic.fna'
  71. gff = 'GCA_000160075.2_ASM16007v2_genomic.gff'
  72. m = CDS2AA(fna,gff)
  73. m.CDS2AA()

出现的一些问题我会慢慢完善。后面的有意思作业题目会陆续上传。

从细菌GFF文件提取CDS序列并转换为氨基酸序列的更多相关文章

  1. gff文件提取cds

    #!/usr/bin/perl use strict; use warnings; ########input######## ];my $cut = &cut($gff);my %cut = ...

  2. 苹果IPSW文件提取软件

    ipsw文件 提取系统文件 方法总结 由于修改运营商文件造成我的有锁4S无法使用移动卡了,在网上苦寻一番还是没有结果,最后萌生了从固件中提取文件的想法,于是便开始在网上搜集资料,最后文件终于提取成功并 ...

  3. 用MT.exe将exe中的manifest文件提取出来和将manifest文件放入exe中

     前一种方法是将manifest文件放入exe中,但是要记得需要在工程中设置 这样的话exe中就不存在manifest了,在debug目录下就会看到相应的manifest文件.后者是将exe中的man ...

  4. 遍历文件 创建XML对象 方法 python解析XML文件 提取坐标计存入文件

    XML文件??? xml即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. 里面的标签都是可以随心所欲的按照他的命名规则来定义的,文件名为roi.xm ...

  5. webpack4对第三方库css,项目全局css和vue内联css文件提取到单独的文件(二十二)

    在讲解提取css之前,我们先看下项目的架构如下结构: ### 目录结构如下: demo1 # 工程名 | |--- dist # 打包后生成的目录文件 | |--- node_modules # 所有 ...

  6. Ajax获取 Json文件提取数据

    摘自 Ajax获取 Json文件提取数据 1. json文件内容(item.json) [ { "name":"张国立", "sex":&q ...

  7. 【c++基础】从json文件提取数据

    前言 标注数据导出文件是json格式的,也就是python的dict格式,需要读取标注结果,可以使用c++或者python,本文使用c++实现的. JsonCpp简介 JsonCpp是一种轻量级的数据 ...

  8. browserify 不打包某些文件或者把公共文件提取出来教程

    var gulp = require('gulp') var fs = require("fs") var babelify = require('babelify') var b ...

  9. PFX文件提取公钥私钥

    jks是JAVA的keytools证书工具支持的证书私钥格式.pfx是微软支持的私钥格式. cer是证书的公钥. 如果是你私人要备份证书的话记得一定要备份成jks或者pfx格式,否则恢复不了. 简单来 ...

随机推荐

  1. angular2 路由

    路由是个模块,命令行生成:ng generate module routerTest; 自己组建: 路由模块说明: Routes:路由配置,路由配置文件类型.比如:const routing:Rout ...

  2. 打开redis和solr

  3. Win10下安装RabbitMQ以及基本知识学习

    一.为什么选择RabbitMQ?      先说一下场景,这是我们公司遇到,当然我这里不做业务评价哈?虽然我知道他很不合理,但是我是无能为力的.APP端部分注册是Java开发的系统,然后业务端是C#开 ...

  4. 算法-java代码实现快速排序

    快速排序 对于一个int数组,请编写一个快速排序算法,对数组元素排序. 给定一个int数组A及数组的大小n,请返回排序后的数组. 测试样例: [1,2,3,5,2,3],6 [1,2,2,3,3,5] ...

  5. memcached内存模型

    内存管理 内存结构 把内存划分成不同的slab class仓库 把仓库切分成不同尺寸的小块(chunk),用来存储缓存数据 数据内存分配 首先根据数据的大小找到对应的slab class 找到空闲的c ...

  6. client和nginx简易交互过程

    # client和nginx简易交互过程- step1:client发起http请求- step2:dns服务器解析域名得到主机ip- step3:默认端口为80,通过ip+port建立tcp/ip链 ...

  7. 小白的Python之路 day5 hashlib模块

    hashlib模块 一.概述 用于加密相关的操作,3.x里代替了md5模块和sha模块,主要提供 SHA1, SHA224, SHA256, SHA384, SHA512 ,MD5 算法 二.算法的演 ...

  8. IOS UI 滚动视图 UIScrollView

    UIScrollView 常用属性 scrollView.maximumZoomScale= 2.0; //  缩放最大比例 scrollView.minimumZoomScale = 0.2;// ...

  9. Django rest framework:__str__ returned non-string (type NoneType) 真正原因

    出错原因: 用户表是Django中核心的表,当这个表类字段中有一个这样的函数 def __str__(self): return self.name 在Django用户表设计时候有个字段容易犯这个失误 ...

  10. redis五大类型用法

    Redis五大类型:字符串(String).哈希/散列/字典(Hash).列表(List).集合(Set).有序集合(sorted set)五种Controller:@Resource RedisTe ...