将基因组数据分类并写出文件，python，awk，R data.table速度PK

由于基因组数据过大，想进一步用R语言处理担心系统内存不够，因此想着将文件按染色体拆分，发现python，awk，R 语言都能够非常简单快捷的实现，那么速度是否有差距呢，因此在跑几个50G的大文件之前，先用了244MB的数据对各个脚本进行测试，并且将其速度进行对比。

首先是awk处理，awk进行的是逐行处理，具有自己的语法，具有很大的灵活性，一行代码解决，用时24S，

 #!/usr/bin/sh

 function main()

 {

 start_tm=date

 start_h=`$start_tm +%H`

 start_m=`$start_tm +%M`

 start_s=`$start_tm +%S`

 awk -F $sep '{print $1","$2","$3 >> "'"$inputfile"'""_"$1}' $inputfile

 end_tm=date

 end_h=`$end_tm +%H`

 end_m=`$end_tm +%M`

 end_s=`$end_tm +%S`

 use_tm=`echo $end_h $start_h $end_m $start_m $end_s $start_s | awk '{ print ($1 - $2),"h",($3-$4),"m",($5-$6),"s"}'`

 echo "Finished in "$use_tm

 }

 if [ $# ==  ]; then

 sep=$

 inputfile=$

 main

 else

 echo "usage: SplitChr.sh sep inputfile"

 echo "eg: SplitChr.sh , test.csv"

 fi

接下来是用python,python语言简单，书写方便。因此很快就实现了程序，同样逐行处理，比awk添加了一点细节，只挑出需要的染色体。用时19.9秒。

 #!/usr/bin/python

 import sys

 import time

 def main():

     if len(sys.argv)!=3:

         print "usage : SplitChr sep inputfile eg: SplitChr ',' test.txt"

         exit()

     sep=sys.argv[1]

     filename=sys.argv[2]

     f=open(filename,'r')

     header=f.readline()

     if len(header.split(sep))<2:

         print "The sep can't be recongnized !"

         exit()

     chrLst=range(1,23)

     chrLst.extend(["X","Y"])

     chrLst=["chr"+str(i) for i in chrLst]

     outputdic={}

     for chrI in chrLst:

         output=filename+"_"+chrI

         outputdic[chrI]=open(output,'w')

         outputdic[chrI].write(header)

     for eachline in f:

         tmpLst=eachline.strip().split(sep)

         tmpChr=tmpLst[0]

         if tmpChr in chrLst:

             outputdic[tmpChr].write(eachline)

     end=time.clock()

     print "read: %f s" % (end - start)

 if __name__=='__main__':

     start=time.clock()

     main()

最后用R语言data.table包进行处理，data.table是data.frame的高级版，在速度上作了很大的改进，但是和awk和python相比，具有优势吗?

 #!/usr/bin/Rscript

 library(data.table)

 main <- function(filename,sep){

 started.at <- proc.time()

 arg <- commandArgs(T)

 sep <- arg[1]

 inputfile <- arg[2]

 dt <- fread(filename,sep=sep,header=T)

 chrLst <- lapply(c(1:22,"X","Y"),function(x)paste("chr",x,sep=""))

 for (chrI in chrLst){

     outputfile <- paste(filename,"_",chrI,sep="")

     fwrite(dt[.(chrI),,on=.(chr)],file=outputfile,sep=sep)

 }

 cat ("Finished in",timetaken(started.at),"\n")

 }

 arg <- commandArgs(T)

 if (length(arg)==2){

 sep <- arg[1]

 filename <- arg[2]

 main(filename,sep)

 }else{

 cat("usage: SplitChr.R sep inputfile eg: SplitChr.R '\\t' test.csv","\n")

 }

用时10.6秒，发现刚刚读完数据，立刻就处理和写出完毕，处理和写出时间非常短，因此总体用时较短。

总结

虽然都是逐行处理，但由上述结果猜测awk内部运行并没有python快，但awk书写一行代码搞定，书写速度快，至于python比data.table慢，猜测原因是R data.table用C语言写，并且运用多线程写出，hash读取，传地址各种方式优化速度的结果。当然，上述结果仅供参考。

将基因组数据分类并写出文件，python，awk，R data.table速度PK的更多相关文章

使用dom4j工具：XMLWriter写出文件（五）
package dom4j_write; import java.io.File; import java.io.FileOutputStream; import java.io.OutputStre ...
javaweb reponse 写出文件
Map map = getSearchValue(); File excelFile = orderService.getexportexcel(id,map); InputStream is = n ...
201806 数据处理 SQL、python、shell 哪家强...速度PK（上篇）
最近在工作中,进行大量的数据处理,使用的是mysql5.7.22,发现当数据量级达到几十万之后,SQL执行速度明显变慢.尤其是当多个表join时,于是就尝试用python pandas进行数据处理,发 ...
（数据科学学习手札05）Python与R数据读入存出方式的总结与比较
在数据分析的过程中,外部数据的导入和数据的导出是非常关键的部分,而Python和R在这方面大同小异,且针对不同的包或模块,对应着不同的函数来完成这部分功能: Python 1.TXT文件导入: 以某 ...
split function of Perl,Python,Awk
使用中常用到Perl,Python,AWK,R, 虽然Java,C,C++,Vala也学过但是就是不喜欢,你说怎么办. 看来一辈子脚本的命. Perl @rray = split /PATTERN/, ...
使用Python xlwt写excel文件
如果需要使用Python写Excel文件,首先下载或者安装xlwt. pip install xlwt 下面的这些demo应该可以帮助开发者快速上手使用xlwt写Excel文件: 创建工作簿(work ...
让你用sublime写出最完美的python代码--windows环境
至少很长一段时间内,我个人用的一直是pycharm,也感觉挺好用的,也没啥大毛病但是pycharm确实有点笨重,啥功能都有,但是有很多可能这辈子我也不会用到,并且pycharm打开的速度确实不敢恭维 ...
(转)Python新手写出漂亮的爬虫代码2——从json获取信息
https://blog.csdn.net/weixin_36604953/article/details/78592943 Python新手写出漂亮的爬虫代码2——从json获取信息好久没有写关于爬 ...
[置顶] 如何用PYTHON代码写出音乐
如何用PYTHON代码写出音乐什么是MIDI 博主本人虽然五音不全,而且唱歌还很难听,但是还是非常喜欢听歌的.我一直在做这样的尝试,就是通过人工智能算法实现机器自动的作词和编曲(在这里预告下,通过深 ...

随机推荐

this的相关介绍与用法
当一个对象创建后,Java虚拟机(JVM)就会给这个对象分配一个引用自身的指针,这个指针的名字就是this.因此,this只能在类中的非静态方法中使用,静态方法和静态的代码块中绝对不能出现this,并 ...
STM32单片机学习心得——概述
我校的课程真是跟不上时代发展,甚至还在教授8051/8052单片机的内容,于是不甘寂寞的我就自己踏入了STM32单片机的坑-- 首先,我现在大二,刚学完模拟电子技术,还没有学习数字电路技术,于是自学单 ...
context:annotation-config, mvc:annotation-driven, context:compont-scan 区别
当我们需要使用BeanPostProcessor时,直接在Spring配置文件中定义这些Bean显得比较笨拙,例如: 使用@Autowired注解,必须事先在Spring容器中声明AutowiredA ...
.Net下的分库分表帮助类——用分库的思想来分表
简介在大型项目中,我们会遇到分表分库的情景. 分库,将不同模块对应的表拆分到对应的数据库下,其实伴随着公司内分布式系统的出现,这个过程也是自然而然就发生了,对应商品模块和用户模块, ...
html5_canvas初学
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
mysql常用语法
创建表 create table <表名>( <字段名> 类型(长度) not null primary key auto_increment, **主键 name char ...
jQuery_第四章_思维图
---------------------------------------------------------------------------------------------------- ...
android学习19--Matrix.mapPoints作用
android图形的旋转,缩放,平移都是用matrix实现的.可以用mapPoints来计算一个点旋转,缩放,平移后的坐标.看下面例子. Matrix matrix = new Matrix(); m ...
使用yum安装cmake
一.搜索yum源中的CMake,查看源中最新的版本是什么,使用命令[root@localhost ~]# yum search cmake ,如果搜索出的结果过多可以配合grep命令来控制搜索结果. ...
使用StyleCop.Analyzers进行代码审查
为什么要进行代码审核? 提早发现代码中的BUG,避免将BUG带到生产环境极大的提高软件质量,以及可维护性统一代码规范.提高可读性,减少新加入成员的熟悉时间加速个人和团队的成长,知识和经验的积累 ...

将基因组数据分类并写出文件，python，awk，R data.table速度PK

将基因组数据分类并写出文件，python，awk，R data.table速度PK的更多相关文章

随机推荐

热门专题