为什么可以这么快! awk 与python的应用

这几天刚处理一个排序问题

源文件: 可以看到有11G大小,需要根据最后一列的热度来做一下排序.如果让你来做这样的排序,在linux环境下,你会如何处理呢?

xch27@lanzhou:/asrdata/users/xch27/lmwork/comm_cloud/aicar_solution/v32_30june2017/data/navi/slot/big$ ls -lh 全量数据_0620.txt

-rw-r--r--.  xch27 alab 11G 7月    : 全量数据_0620.txt

xch27@lanzhou:/asrdata/users/xch27/lmwork/comm_cloud/aicar_solution/v32_30june2017/data/navi/slot/big$ head 全量数据_0620.txt

北京南顺油脂有限公司    BeiJing NanShun YouZhi YouXianGongSi        良乡南肖庄道口西    公司企业;公司;公司    北京市    北京市    房山区    9.6901977

松园派出所    SongYuan PaiChuSuo        松园村    政府机构及社会团体;公检法机构;公安警察    北京市    北京市    昌平区    3004.3764856

西园村    XiYuanCun            地名地址信息;普通地名;村庄级地名    北京市    北京市    昌平区    73.406943

仁和镇人民政府    RenHeZhen RenMin ZhengFu    仁和镇政府    顺平西路9号    政府机构及社会团体;政府机关;乡镇级政府及事业单位    北京市    北京市    顺义区    2374.4912286

中国建设银行(北京三元桥支行)    ZhongGuo JianShe YinHang (BeiJing SanYuan Qiao ZhiHang)        左家庄路1号国门大厦B座1层    金融保险服务;银行;中国建设银行    北京市    北京市    朝阳区    2617.5249994

北京糖业烟酒集团有限公司酒类经营分公司    BeiJing TangYe YanJiu JiTuan YouXianGongSi Jiu LeiJingYing FenGongSi        永定路23号    公司企业;公司;公司    北京市    北京市    海淀区    1434.2144127

东马坊小学    DongMaFang XiaoXue        东马坊20号    科教文化服务;学校;小学    北京市    北京市    海淀区    2549.257087

北辰汇宾大厦    BeiChen HuiBin DaSha        北辰东路8号院-    商务住宅;楼宇;商务写字楼    北京市    北京市    朝阳区    10420.9972344

北京世纪银嘉文化发展有限公司    BeiJing ShiJi YinJia WenHua FaZhan YouXianGongSi        花园路30号花园商务会馆6层6216    公司企业;公司;公司    北京市    北京市    海淀区

向明食品店    XiangMing ShiPinDian        南二环与南二环出口交叉口西南50米    购物服务;便民商店/便利店;便民商店/便利店    北京市    北京市    东城区    3.3185239

方法一:

我首先用python来解决: 可以看出代码还是略显复杂,其中排序算法,我用的是列表自带的sort方法,也可以自己写,参考上一篇文章,用里面的归并排序.但是这个程序最大的问题是什么?有两个,一个是慢,另一个是太耗内存

我用的是超算集群跑的,本地程序肯定卡死了,下面我贴了张top的截图,可以看看他用了多少内存,跑了多久,我写这篇记录的时候还没跑完呢,我看看他要跑多久.

#!/usr/bin/python

#coding=utf-8

#__author__='dahu'

#data=2017-

# 处理数据,整理成标准格式

import sys,collections

from operator import itemgetter

def file_pro(filename):

    with open(filename,'r') as f:

        for line in f:

            yield line

if __name__ == '__main__':

    gen=file_pro(sys.argv[1])

    #gen=file_pro('tmp')

    block=collections.OrderedDict()

    ll=[]

    with open(sys.argv[2],'w') as f:

        #with open('new_tmp.sort', 'w') as f:

        k=0

        for line in gen:

            line_list=line.split('\t')

            line_list=[line.strip() for line in line_list]

            value=['名称','拼音','别称','地址','类型','省','市','区县','热度']

            block=collections.OrderedDict(zip(value,line_list))

            a=0 if block['热度']=='' else block['热度']

            block['热度']=float(a)

            ll.append(block.copy())

            block.clear()

        ll.sort(reverse=True,key=itemgetter('热度'))

        for i in ll:

            for key in i:

                f.write('%s:%s\n'%(key,i[key]))

            f.write('\n')

            if not k%100000:

                print k

            k+=1

xch27@taiyuan:/asrdata/users/xch27/lmwork/comm_cloud/aicar_solution/v32_30june2017/data/navi/slot$ python lineprocess_sort.py 全量数据_0620.txt lineprocess_sort.txt

方法2:

这个就牛逼了,10min就搞完了,顺序已经排好了,格式就不是问题了,再用awk修改下输出格式就ok了,看来大量数据的处理方式还是尽量少用python, linux 自带的awk和其他的实用程序是个不错的选择.~

#awk '{printf("%f>>>%s\n",$NF,$0)}' 全量数据_0620.txt|sort -nr > awk.method.txt  #非常快速的一个方法!比python快n倍

为什么可以这么快! awk 与python的应用的更多相关文章

快排的python实现
快排的python实现 #python 2.7 def quick_sort(L): if len(L) <= 1: return L else: return quick_sort([lt f ...
天下武功，无快不破，Python开发必备的6个库
01 Python 必备之 PyPy PyPy 主要用于何处? 如果你需要更快的 Python 应用程序,最简单的实现的方法就是通过 PyPy ,Python 运行时与实时(JIT)编译器.与使用普通 ...
awk,perl,python的命令行参数处理
Python,Perl,Bash命令行参数 Part I 日常经常性的和Perl,Python,Bash打交道,但是又经常性的搞混他们之间,在命令行上的特殊性和index的区别,Python真的是人性 ...
百度快排发包python核心源码
本源码仅供测试,发包有风险,优化还是踏实的好!本代码是本人自己学习python练手作品! 附上代码: # -*- coding: utf-8 -*-from selenium import webd ...
将基因组数据分类并写出文件，python，awk，R data.table速度PK
由于基因组数据过大,想进一步用R语言处理担心系统内存不够,因此想着将文件按染色体拆分,发现python,awk,R 语言都能够非常简单快捷的实现,那么速度是否有差距呢,因此在跑几个50G的大文件之前, ...
利用Python进行数据分析-Pandas(第四部分-数据清洗和准备)
在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载.清理.转换以及重塑上.这些工作会占到分析时间的80%或更多.有时,存储在文件和数据库中的数据的格式不适合某个特定的任务.研究者都选择使用编 ...
Python 学习手册, char 14 - 15
Char 14 迭代器和解析器可迭代的 : 支持iter的一个对象迭代器 : iter 所返回的一个支持next(I)的对象 Python迭代工具会自动调用这些函数,我们也可以手动地应用迭代协议 ...
【Python大系】Python快速教程
感谢原作者:Vamei 出处:http://www.cnblogs.com/vamei 怎么能快速地掌握Python?这是和朋友闲聊时谈起的问题. Python包含的内容很多,加上各种标准库.拓展库, ...
python 数据处理学习pandas之DataFrame
请原谅没有一次写完,本文是自己学习过程中的记录,完善pandas的学习知识,对于现有网上资料的缺少和利用python进行数据分析这本书部分知识的过时,只好以记录的形势来写这篇文章.最如果后续工作定下来 ...

随机推荐

C之面向对象编程20170707
语言只是工具,设计思维才是根本.C虽然是面向过程的语言,但也是可以实现面向对象编程的,本文就是介绍如何使用C语言实现面向对象编程. 我们知道面向对象主要有三大特性:封装,继承,和多态,下面就从这个三个 ...
maven 启动 tomcat 及跳过 test 安装
1.先在pom文件中配置 tomcat插件  <dependency> <groupId>commons-fileupload< ...
Xshell连接Linux服务器总掉线
Xshell连接linux服务器总掉线,解决办法如下: 1.登录服务器后 [root@test134 ~]# cd /etc/ssh/ [root@test134 ssh]# vim sshd_con ...
基于javaWeb阶段下的Servlet总结
1. Servlet概述 Servlet是用Java语言编写的服务端的程序,采用request--response模式提供Web服务,并且支持标准ServletAPI,Servlet就一个运行在w ...
openstack日志模块
一.简单的python日志模块介绍 http://www.cnblogs.com/tuzkee/p/3974193.html http://blog.csdn.net/jgood/article/de ...
string的内存本质
虽然没有研究过string的源代码,不过可以确定的是string的内存空间是在堆上开辟的,它自己负责释放空间,不用我们关系. 我们用一个动态分配的字符串指针初始化一个string对象retStr,它会 ...
Gogent相关问题的解决（不断更新）
1:今天早上打开推特,发现进不去了,google浏览器一直提示404……找不到网址,真心郁闷.后来,查了查,才知道,最近google在北京的主干服务器被xx了,某些省就上不了了…… ……乱七八糟的不说 ...
NOIP模拟赛11
T1 [HAOI2016]放棋子 https://daniu.luogu.org/problem/show?pid=3182 障碍交换行不影响所以第i列有障碍的行换到第i行然后错排公式本校自测要 ...
赶快收藏！16款最流行的 JavaScript 框架
下面为大家介绍 16款最流行的 JavaScript 框架,赶快收藏! 1. jQuery – Javascript框架 jQuery 是最流行的 JavaScript 框架,它简化了HTML 文档遍 ...
关于Cookie跨域的问题研究
Cookie是一个伟大的发明,它允许Web开发者保留他们的用户的登录状态.但是当你的站点有一个以上的域名时就会出现问题了.在Cookie规范上说,一个cookie只能用于一个域名,不能够发给其它的域名 ...

为什么可以这么快! awk 与python的应用

方法一:

方法2:

为什么可以这么快! awk 与python的应用的更多相关文章

随机推荐

热门专题