spark kmer计算

输入文件：fa格式的文件
输出结果：kmer的频数和对应的kmer类型和计数
1.将fq.gz的文件转换成fa文件：

#!/usr/bin/python env

# -*- coding:utf-8 -*-

import os

import re

import os.path

import gzip

import sys

#在这里可以写一个函数用来将文件转换成id和序列对应的字典

#需要用到哪个转化操作呢？考虑先尝试使用filter或者map

'''

@r261DFRAAXX100204:1:100:10494:3070/1

ACTGCATCCTGGAAAGAATCAATGGTGGCCGGAAAGTGTTTTTCAAATACAAGAGTGACAATGTGCCCTGTTGTTT

+

ACCCCCCCCCCCCCCCCCCCCCCCCCCCCCBC?CCCCCCCCC@@CACCCCCACCCCCCCCCCCCCCCCCCCCCCCC

'''

#这里是利用python直接读取压缩的fastq文件

def read_gz_file(path):

    if os.path.exists(path):

        with gzip.open(path,'rt') as pf:

            for line in pf:

                yield line

    else:

        print 'the path [{}] is not exist!'.format(path)

def ReadFastq(fastq):

    flag = 1

    dict_fq={}

    if fastq.endswith('gz'):

        con = read_gz_file(fastq)

        if getattr(con,'__iter__','None'):

            for line in con:

                line=line.strip()

                flag_index = flag%4

                if flag_index == 1:

                    id = line

                if flag%4 == 2:

                    seq = line

                else:

                    flag +=1

                    continue

                dict_fq[id] = seq

                flag+=1

            return dict_fq

    else:

        with open (fastq,'r') as fqr:

            for line in fqr.readlines():

                line = line.strip()

                flag_index = flag%4

                if flag_index == 1:

                    id = line

                if flag%4 == 2:

                    seq = line

                else:

                    flag +=1

                    continue

                dict_fq[id] = seq

                flag+=1

            return dict_fq

def convert_to_fa(dict_hash,output):

    with open (output,'w') as fr:

        for i in dict_hash.keys():

            fr.write(i+'\n')

            fr.write(dict_hash[i]+'\n')

if __name__ == '__main__':

    input = sys.argv[1]

    output = sys.argv[2]

    dic_fa = ReadFastq(input)

    convert_to_fa(dic_fa,output)

2.将reads打断成kmer并统计kmer的频数

#!/usr/bin/env python

# coding=utf-8

import os

import sys

import re

from pyspark import SparkConf, SparkContext

input_fasta_file ='/home/yueyao/Spark/00.data/both.fa'

conf = SparkConf().setMaster("local").setAppName("Yue Yao app")

sc = SparkContext(conf = conf)

fasta_file = sc.textFile(input_fasta_file)

#这里是对fasta文件进行转化操作，过滤掉reads的名称

reads_fa = fasta_file.filter(lambda line :">" not in line)

#这个函数用来将reads打断成kmer，这里的kmer是25,返回一个列表

def map_file(line):

    seq_lis=[]

    for i in range(len(line)-25+1):

        sub_seq = line[i:i+25]

        seq_lis.append(sub_seq)

    return seq_lis

kmer_list = reads_fa.flatMap(map_file)

#对打断的kmer进行计数

kmer_count = kmer_list.map(lambda id:(id,1))

kmer_total_count = kmer_count.reduceByKey(lambda a,b:(a+b))

#这里过滤掉了含有N的kmer

kmer_not_contain_N = kmer_total_count.filter(lambda line :"N" not in line[0])

kmer_key=kmer_not_contain_N.keys()

#统计kmer的种类，并计数

kmer_vari_count = kmer_not_contain_N.map(lambda kmer_vari:(kmer_vari[1],1))

kmer_histo = kmer_vari_count.reduceByKey(lambda a,b:(a+b))

#输出kmer频数的结果

kmer_histo.saveAsTextFile('Kmer25.histo')

kmer_not_contain_N.saveAsTextFile('kmer25')

kmer_key.saveAsTextFile('kmer25_key')

spark kmer计算的更多相关文章

如何在 Serverless K8s 集群中低成本运行 Spark 数据计算？
作者 | 柳密阿里巴巴阿里云智能 ** 本文整理自<Serverless 技术公开课>,关注"Serverless"公众号,回复"入门",即可获取 ...
Spark入门实战系列--9.Spark图计算GraphX介绍及实例
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .GraphX介绍 1.1 GraphX应用背景 Spark GraphX是一个分布式图处理 ...
Spark 实时计算整合案例
1.概述最近有同学问道,除了使用 Storm 充当实时计算的模型外,还有木有其他的方式来实现实时计算的业务.了解到,在使用 Storm 时,需要编写基于编程语言的代码.比如,要实现一个流水指标的统计 ...
Spark将计算结果写入到Mysql中
今天主要来谈谈如何将Spark计算的结果写入到Mysql或者其他的关系型数据库里面.其实方式也很简单,代码如下: package scala import java.sql.{DriverManage ...
基于Spark GraphX计算二度关系
关系计算问题描述二度关系是指用户与用户通过关注者为桥梁发现到的关注者之间的关系.目前微博通过二度关系实现了潜在用户的推荐.用户的一度关系包含了关注.好友两种类型,二度关系则得到关注的关注.关注的好友 ...
Spark入门实战系列--7.Spark Streaming（下）--实时流计算Spark Streaming实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .实例演示 1.1 流数据模拟器 1.1.1 流数据说明在实例演示中模拟实际情况,需要源源 ...
大数据计算平台Spark内核解读
1.Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目.随着 Spark在大数据计算领域的暂露头角,越来越多 ...
大数据计算新贵Spark在腾讯雅虎优酷成功应用解析
http://www.csdn.net/article/2014-06-05/2820089 摘要:MapReduce在实时查询和迭代计算上仍有较大的不足,目前,Spark由于其可伸缩.基于内存计算等 ...
大数据计算平台Spark内核全面解读
1.Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目.随着Spark在大数据计算领域的暂露头角,越来越多的 ...

随机推荐

http2 3
HTTP 2 推荐阅读:https://segmentfault.com/a/1190000011172823?utm_source=tag-newest 进来支持 HTTP 2 的网站越来愈多了,这 ...
【CSP模拟赛】凤凰院凶真（最长公共上升子序列）
题目描述 α世界线.凤凰院凶真创立了反抗SERN统治的组织“瓦尔基里”.为了脱离α线,他需要制作一个世界线变动率测量仪. 测量一个世界线相对于另一个世界线的变动率,实质上就是要求出这两个世界线的最长公 ...
React.createElement 与 JSX
DOM 向JSX的演进网页由 DOM 元素构成.React DOM 并不是浏览器的 DOM,而React DOM 只是用来告诉浏览器如何创建 DOM 的方法.通常情况下,我们并不需要 React 就 ...
laravel删除文件
laravel删除文件一.总结一句话总结: 1.注意disk:disk决定路径 2.删单个文件的时候就用删单个文件的方式,别用删多个文件的方式(也就是参数别数组) public function ...
Android智能手机上的音频浅析【转】
本文转载自:https://blog.csdn.net/david_tym/article/details/80903385 手机可以说是现在人日常生活中最离不开的电子设备了.它自诞生以来,从模拟的发 ...
GWAS 全基因组关联分析 | summary statistic 概括统计 | meta-analysis 综合分析
有很多概念需要明确区分: 人有23对染色体,其中22对常染色体autosome,另外一对为性染色体sex chromosome,XX为女,XY为男. 染色体区带命名:在标示一特定的带时需要包括4项:① ...
JVM 修改类加载器启动类加载器
1.类加载器加载路径 public class MyTest18 { public static void main(String[] args) { //系统类加载器加载路径 System.out. ...
【Java/Json】Java对Json进行建模，分词，递归向下解析构建Json对象树
伸手党的福音代码下载:https://files.cnblogs.com/files/xiandedanteng/JsonLexerBuilder20191202.rar 互联网上成型的对Json进 ...
【JDBC】仅输入表名和要插入的记录数，自动检测表的字段和类型，然后插入数据的全自动程序（Oracle版）
之前写的批量插值程序只是五六半自动版本,因为表的字段还需要手工填写,这回只要指定表名和要插多少数据就行了,类似于全自动突击步枪,扣动扳机就把字段打完为止. 全自动程序如下,诸位拿下去后可以修改成自己想 ...
vue-router 使用query传参跳转了两次（首次带参数，跳转到了不带参数）
问题: 在做项目的过程中,使用query传参数,发现跳转过程中第一次有参数,但是路由马上又跳转了一次,然后 ?和它之后的参数都不见了问题分析: 因为路由加载了两次解决办法: ·1. 找到总的 la ...

spark kmer计算

spark kmer计算的更多相关文章

随机推荐

热门专题