DNA序列局部比对（Smith–Waterman algorithm）

生物信息原理作业第三弹：DNA序列局部比对，利用Smith–Waterman算法，python3.6代码实现。

实例以及原理均来自https://en.wikipedia.org/wiki/Smith%E2%80%93Waterman_algorithm。

转载请保留出处！

 import numpy as np

 import pandas as pd

 sequence1 = 'TGTTACGG'

 sequence2 = 'GGTTGACTA'

 s1 = ''

 s2 = ''

 gap = -2

 score_matrix = pd.read_excel('score.xlsx')      #匹配得分

 print(score_matrix)

 best_matrix = np.empty(shape= (len(sequence2)+1,len(sequence1)+1),dtype = int)

 def get_match_score(s1,s2):

     score = score_matrix[s1][s2]

     return score

 def get_matrix_max(matrix):                    #得到最大分数下标

     Max = matrix.max()

     for i in range(len(sequence2)+1):

         for j in range(len(sequence1)+1):

             if matrix[i][j] == Max:

                 return (i,j)

 for i in range(len(sequence2)+1):

     for j in range(len(sequence1)+1):

         if i == 0 or j == 0:

             best_matrix[i][j] = 0

         else:

             match = get_match_score(sequence2[i-1],sequence1[j-1])

             gap1_score = best_matrix[i-1][j] + gap

             gap2_score = best_matrix[i][j-1] + gap

             match_score = best_matrix[i-1][j-1]+match

             score = max(gap1_score,gap2_score,match_score)

             if score>0:

                 best_matrix[i][j] = score

             else:

                 best_matrix[i][j] = 0

 print(best_matrix)

 #traceback

 i,j = get_matrix_max(best_matrix)

 while(best_matrix[i][j]!= 0):

     match = get_match_score(sequence2[i-1],sequence1[j-1])

     if i>0 and j>0 and best_matrix[i][j] == best_matrix[i-1][j-1]+match:

         s1 += sequence1[j-1]

         s2 += sequence2[i-1]

         i-=1;j-=1

     elif i>0 and best_matrix[i,j] == best_matrix[i-1,j]+gap:

         s1+='-'

         s2+=sequence2[i-1]

         i-=1

     else:

         s1+=sequence1[j-1]

         s2+='-'

         j-=1

 print(s1[::-1]+'\n'+s2[::-1])

感觉我的得分矩阵写成Excel不必要，等我熟悉一下Numpy和Python命令行之后会修改的。

DNA序列局部比对（Smith–Waterman algorithm）的更多相关文章

[Sequence Alignment Methods] Smith–Waterman algorithm
Smith–Waterman algorithm 首先需要澄清一个事实,Smith–Waterman algorithm是求两个序列的最佳subsequence匹配,与之对应的算法但是求两个序列整体匹 ...
HDU 1560 DNA sequence（DNA序列）
HDU 1560 DNA sequence(DNA序列) Time Limit: 15000/5000 MS (Java/Others) Memory Limit: 32768/32768 K ...
题解【loj537】「LibreOJ NOIP Round #1」DNA 序列
题目描述 \(NOIP\)复赛之前\(HSD\)桑进行了一项研究,发现人某条染色体上的一段\(DNA\)序列中连续的\(k\)个碱基组成的碱基序列与做题的 \(AC\) 率有关!于是他想研究一下这种关 ...
[LeetCode] Repeated DNA Sequences 求重复的DNA序列
All DNA is composed of a series of nucleotides abbreviated as A, C, G, and T, for example: "ACG ...
利用Python【Orange】结合DNA序列进行人种预测
http://blog.csdn.net/jj12345jj198999/article/details/8951120 coursera上 web intelligence and big data ...
华为OJ平台——DNA序列
题目描述: 一个DNA序列由A/C/G/T四个字母的排列组合组成.G和C的比例(定义为GC-Ratio)是序列中G和C两个字母的总的出现次数除以总的字母数目(也就是序列长度).在基因工程中,这个比例非 ...
环状DNA序列
大意: 一个DNA序列是环状的,这意味着有N个碱基的序列有N种表示方法(假设无重复).而这N个序列有一种最小的表示,这个最小表示的意思是这个序列的字典序最小(字典序的意思是在字典中的大小比如ABC& ...
DNA序列对齐问题
问题描述: 该问题在算法导论中引申自求解两个DNA序列相似度的问题. 可以从很多角度定义两个DNA序列的相似度,其中有一种定义方法就是通过序列对齐的方式来定义其相似度. 给定两个DNA序列A和B,对齐 ...
简单DNA序列组装（非循环子图）
生物信息学原理作业第四弹:DNA序列组装(非循环子图) 原理:生物信息学(孙啸) 大致思想: 1. 这个算法理解细节理解比较困难,建议看孙啸的生物信息学相关章节. 2. 算法要求所有序列覆盖整个目标D ...

随机推荐

[国嵌攻略][157][SPI总线介绍]
SPI总线架构 SPI(serial peripheral interface)串行外设接口,是一种高速,全双工,同步的通信总线.采用主从模式(master slave)架构,支持多个slave,一般 ...
[国嵌攻略][148][MTD系统架构]
MTD设备概述 Flash在嵌入式系统中是必不可少的,它是bootloader.Linux内核和文件系统的最佳载体.在Linux内核中引入了MTD子系统为NOR Flash和Nand FLash设备提 ...
Oracle_基本函数查询综合
Oracle_基本函数查询综合 --[1]查询出每各月倒数第三天受雇的所有员工 select; --[2]找出早于30年前受雇的员工 select>; select; select; ...
Oracle_view视图
Oracle_view视图视图view --视图:view --查询班级信息并统计各班的人数 select * from stu; select * from clazz; select c ...
php页面zend加密乱码的解决办法
http://www.chinaz.com/program/2008/1021/41485.shtml?qq-pf-to=pcqq.group 今天在服务器部署一个php程序是有zend加密的页面出现 ...
phpcms v9——工作需要【套模板】
phpcms v9 模板标签说明整理作者:匿名来源:ChinaZ源码报导浏览:44061次 2011-6-17 15:52:09 字号:大中小 [摘要]本文介绍phpcms v9中模板标签使 ...
ObjectiveC 深浅拷贝学习
在ObjC中,什么是深浅拷贝? 深浅拷贝分别指深拷贝和浅拷贝,即mutableCopy和copy方法. copy复制一个不可变对象,而mutableCopy复制一个mutable可变对象. 什么时候用 ...
IOS成长之路-用NSXMLParser实现XML解析
再次对xml进行解析,又有了些理解,如果有不对的地方,请给小弟指出,谢谢! <?xml version="1.0" encoding="UTF-8"?&g ...
eclipse中如何同期化
打开MyEclipse8.0help->Software Updates->find and install(如果没有这个就用help->Software Updates->A ...
MyBatis动态传入表名，字段名参数的解决办法
原文:http://blog.csdn.net/xichenguan/article/details/50393748 要实现动态传入表名.列名,需要做如下修改添加属性statementType=& ...

DNA序列局部比对（Smith–Waterman algorithm）

DNA序列局部比对（Smith–Waterman algorithm）的更多相关文章

随机推荐

热门专题