【Python小试】计算目录下所有DNA序列的Kmer并过滤

背景

Kmer是基因组组装算法中经常接触到的概念，简单来说，Kmer就是长度为k的核苷酸序列。一般长短为m的reads可以分成m-k+1个Kmer。Kmer的长度和阈值直接影响到组装的效果。

Denovo组装流程：原始数据——数据过滤——纠错——kmer分析——denovo组装。

组装测序策略：根据基因组大小和具体情况选择个大概的k值，构建contig所需的数据量以及所需的构建的文库数量。对于植物基因组一般考虑的是大kmer（>31），动物一般在27左右，具体根据基因组情况调整。需要在短片段数据量达到20X左右的时候进行kmer分析。Kmer分析正常后，继续加测数据以达到最后期望的数据量。

编码

import os

import sys

# convert command line arguments to variables

kmer_size = int(sys.argv[1])

count_cutoff = int(sys.argv[2])

# define the function to split dna

def split_dna(dna, kmer_size):

    kmers = []

    for start in range(0,len(dna)-(kmer_size-1),1):

        kmer = dna[start:start+kmer_size]

        kmers.append(kmer)

    return kmers

# create an empty dictionary to hold the counts

kmer_counts = {}

# process each file with the right name

for file_name in os.listdir("."):

    if file_name.endswith(".dna"):

        dna_file = open(file_name)

        # process each DNA sequence in a file

        for line in dna_file:

            dna = line.rstrip("\n")

            # increase the count for each k-mer that we find

            for kmer in split_dna(dna, kmer_size):

                current_count = kmer_counts.get(kmer, 0)

                new_count = current_count + 1

                kmer_counts[kmer] = new_count

# print k-mers whose counts are above the cutoff

for kmer, count in kmer_counts.items():

    if count > count_cutoff:

        print(kmer + " : " + str(count))

Ref: https://www.cnblogs.com/leezx/p/5577600.html

【Python小试】计算目录下所有DNA序列的Kmer并过滤的更多相关文章

python获取指定目录下所有文件名os.walk和os.listdir
python获取指定目录下所有文件名os.walk和os.listdir 觉得有用的话,欢迎一起讨论相互学习~Follow Me os.walk 返回指定路径下所有文件和子文件夹中所有文件列表其中文 ...
python实现指定目录下批量文件的单词计数：并发版本
在文章 <python实现指定目录下批量文件的单词计数:串行版本>中, 总体思路是: A. 一次性获取指定目录下的所有符合条件的文件 -> B. 一次性获取所有文件的所有文件行 - ...
python引入同一目录下的py文件
python引入同一目录下的py文件注意:python2和python3的包内import语法有区别,下面介绍一下python3的包内import语法例如在admin.py文件中要引入dealco ...
Python获取指定目录下所有子目录、所有文件名
需求给出制定目录,通过Python获取指定目录下的所有子目录,所有(子目录下)文件名: 实现 import os def file_name(file_dir): for root, dirs, f ...
用Python删除本地目录下某一时间点之前创建的所有文件
因为工作原因,需要定期清理某个文件夹下面创建时间超过1年的所有文件,所以今天集中学习了一下Python对于本地文件及文件夹的操作.网上这篇文章简明扼要地整理出最常见的os方法,抄袭如下: os.l ...
Python读取一个目录下的所有文件
#!/usr/bin/python # -*- coding:utf8 -*- import os allFileNum = 0 def printPath(level, path): global ...
python获取指定目录下特定格式的文件名
之前一直用windows下的bat脚本获取一个目录下的指定格式的文件名,如下所示: dir *.jpg /b/s > train.set pause 十分简单,将这个bat文件放到你想要获取文件 ...
python 读取一个目录下的所有目录和文件
#!/usr/bin/python # -*- coding:utf8 -*- import os allFileNum = 0 def printPath(level, path): global ...
python实现查看目录下重复的文件
该python 脚本有以下三个功能: 1. 实现查看目录下重复的文件,输出文件按修改时间升序排列 2. 将按修改时间排列比较旧的.可删除的文件列出来 3. 按目录对重复文件进行统计,比如,目录/tmp ...

随机推荐

[no code][scrum meeting] Beta 1
$( "#cnblogs_post_body" ).catalog() 会议纪要会议在微信群进行:集体反思alpha阶段博客分数尤其是scrum博客分数低的问题,讨论beta阶段 ...
kafka错误之 Topic xxx not present in metadata after 60000 ms
Topic xxx not present in metadata after 60000 ms 一.背景二.场景还原 1.jar包引入 2.jar代码 3.运行结果三.问题解决四.参考文档一 ...
Noip模拟34 2021.8.9
T1 Merchant 一眼二分,然后想了想维护凸包,好像并没有什么关系, 然后又想了想维护一个栈,发现跳指针细节过多不想打最后直接打了二分,大点跑的飞快,感觉比较稳,出来$78$分是没用神奇的$ ...
https的加密解密过程
前置知识 SSL是90年代Netscape弄出来的一套东西,为的是解决HTTP协议明文传输数据的问题.后来SSL慢慢成了事实上的标准,于是IETF就把SSL标准化了,名字叫做TLS,TLS 1.0其实 ...
手写vue-router & 什么是Vue插件
博文分享这篇文章你可以学习到: 实现一个自己的vue-router 了解什么是Vue的插件学习b站大佬后做的笔记整理和源码实现 1.1.3一步一步带你弄懂vue-router核心原理及实现哔哩哔哩 ...
linux shell exec 关联文件描述符
在写shell脚本时,如果多个命令的输入或输出都是同一个文件,而这个文件的路径和名字都很长,则需要书写很多次同样的路径会很浪费时间,我们可以使用exec命令来关联一个自定义的文件描述符到一个特定的文件 ...
字符串压缩牛客网程序员面试金典 C++ Python
字符串压缩牛客网程序员面试金典 C++ Python 题目描述利用字符重复出现的次数,编写一个方法,实现基本的字符串压缩功能.比如,字符串"aabcccccaaa"经压缩会变 ...
暑假算法练习Day3
第三天!!!最近要开始归纳总结Python学习啦!! 1006 换个格式输出整数 (15 分) 让我们用字母 B 来表示"百".字母 S 表示"十",用 12. ...
python一对一教程：Computational Problems for Physics chapter 1 Code Listings
作者自我介绍:大爽歌, b站小UP主 ,直播编程+红警三 ,python1对1辅导老师 . 本博客为一对一辅导学生python代码的教案, 获得学生允许公开. 具体辅导内容为<Computati ...
go微服务框架Kratos笔记（三）引入GORM框架
介绍 GORM是一个使用Go语言编写的ORM框架.中文文档齐全,对开发者友好,支持主流数据库. GORM官方文档安装 go get -u github.com/jinzhu/gorm 在kratos ...

【Python小试】计算目录下所有DNA序列的Kmer并过滤

背景

编码

【Python小试】计算目录下所有DNA序列的Kmer并过滤的更多相关文章

随机推荐

热门专题