# 脚本功能说明:
# . 检查URL中的域名是否是指定版本的域名
# . 对访问bid,authorid的游客身份排重,并累加其pv
# 全局变量说明
# DOMIAN_LIST 是数组,key是要统计的域名value是域名所属的业务 # 函数参数说明:
# domain 从URL里提取出来的域名
# ver 域名属于哪个业务(wap or touch)
# statid 从URL里提取的出来的bookid或者authorid
# array 用于排重的并累加PV的数组
function compute(domain, ver, statid, userid, array __ARGVEND__)
{
# 提取失败或该域名不在本次处理的业务范围内
if(domain == "" || DOMAIN_LIST[domain] != ver)
{
next # 跳过当前记录的处理,处理下一条记录
} # 提取statid失败
if(statid == )
{
next
} array[statid " " userid]++
next
} {# 记录处理器 url = $
userid = $
session = $ # URL里包含该标志则该URL记录的是用户对wap版书籍的访问记录
if(match(url,/ct=bk&ac=cver&total=wap_book/) > )
{
domain = getMatchDomin(url, DOMAIN_LIST) # 从URL里提取域名,提取失败则为""
userid = choice(userid, session) # 从日志里选择用户身份,userid < 则取session
bid = getBid(url) # 从URL里提取书籍ID compute(domain, "wap", bid, userid, WAP_BOOKS)
} # URL里包含该标志则该URL记录的是用户对wap版作者的访问记录
if(match(url,/ct=bk&ac=zz&total=wap_author/) > )
{
domain = getMatchDomin(url, DOMAIN_LIST) # 从URL里提取域名,提取失败则为""
userid = choice(userid, session) # 从日志里选择用户身份,userid < 则取session
authorid = getAuthorid(url) # 从URL里提取书籍ID compute(domain, "wap", authorid, userid, WAP_AUTHORS)
} # other code ...
}

看起来还不错,但是函数的参数真心的多,一般的编码规范说多于5个和5个以上函数就不容易被使用了(这么说起来win32 api其实也蛮逆天的...)但是这里似乎还好吧,忍了吧,错!这里除了参数多,还有一个问题,就是一旦提取域名失败或者域名不是我们这次要处理的域名,则userid,bid等数据不需要提取,严重的浪费了CPU时间(要知道这些动作得多执行一亿多次)仔细想想,这个函数其实完成了2个事情:检查域名是否有效,累加pv,分成2个函数是不是更好呢?

#检查URL中的域名是否是指定版本的域名
function checkVer(domain, ver, __ARGVEND__)
{
if(domain == "" || DOMAIN_LIST[domain] != ver)
{
next
}
} #对访问bid,authorid的作者排重,并累加pv
function compute(statid, userid, array, __ARGVEND__)
{
if(statid == )
{
next
} array[statid " " userid]++
next
} {# 记录处理器 url = $
userid = $
session = $ # URL里包含该标志则该URL记录的是用户对wap版书籍的访问记录
if(match(url,/ct=bk&ac=cver&total=wap_book/) > )
{
checkVer(getMatchDomin(url, DOMAIN_LIST), "wap") # 检查域名 userid = choice(userid, session)
bid = getBid(url)
compute(bid, userid, WAP_BOOKS)
} # URL里包含该标志则该URL记录的是用户对wap版作者的访问记录
if(match(url,/ct=bk&ac=zz&total=wap_author/) > )
{
checkVer(getMatchDomin(url, DOMAIN_LIST), "wap") userid = choice(userid, session)
authorid = getAuthorid(url)
compute(authorid, userid, WAP_AUTHORS)
}
}

试验了一下,不仅函数参数个数减少了,而且逻辑更通顺,性能也更好,代价就是函数个数增加了,不过看起来这个代价仍然是合算的

更正:

我查了代码大全,代码大全说7个参数才是人类记忆的极限,好吧,不过我认为之前的重构是没有问题的~~~因为好处很明显

一次awk脚本的重构的更多相关文章

  1. awk脚本

    $0,意即所有域. 有两种方式保存shell提示符下awk脚本的输出.最简单的方式是使用输出重定向符号>文件名,下面的例子重定向输出到文件wow. #awk '{print $0}' grade ...

  2. awk 脚本同时解析多个文件

    ARGC        The number of command line arguments (does not include                   options to gawk ...

  3. 一些我后写出来的awk脚本

    mail.awk function mailByShell(receiver, sender, subject, content, __ARGVEND__, xhead, xfrom, xmime, ...

  4. AWK 脚本编写习惯

    教训总结: 不能忽略了脚本语言的编写规范! 创建数组的时候初始化,特别是在for循环中使用的数组: u_count[; g_count[; 认真对待对象,特别是数组的命名: username_to_d ...

  5. awk脚本使用的几种方法

    1. awk名包含在文件内 [root@nhserver1 08]# cat sample.txtaaabbbccc [root@nhserver1 08]# cat readsample.awkaw ...

  6. 【sed / awk脚本编写】

    awk awk分为BEGIN部分,正则匹配部分,END部分三部分. 我一般在BEGIN部分定义一些变量,正则部分用于匹配和执行一些解析和统计,END部分用于输出结果. 总体结构: awk 'BEGIN ...

  7. 听说awk语言也可以编写脚本

    导读 从 awk 系列开始,我们都是在命令行或者脚本文件里写一些简短的 awk 命令和程序.然而 awk 和 shell 一样也是一个解释型语言.通过从开始到现在的一系列的学习,你现在能写可以执行的 ...

  8. Linux Shell脚本入门--awk命令详解

    简单使用: awk :对于文件中一行行的独处来执行操作 . awk -F :'{print $1,$4}'   :使用‘:’来分割这一行,把这一行的第一第四个域打印出来 . 详细介绍: AWK命令介绍 ...

  9. shell脚本 awk工具

    awk工具概述awk编程语言/数据处理引擎基于模式匹配检查输入文本,逐行处理并输出通常在shell脚本中,或取指定的数据单独用时,可对文本数据做统计 命令格式格式一:awk [选项] '[条件]{编辑 ...

随机推荐

  1. DateTime用法二

    任何项目,难免会碰到DateTime的显示问题,.net框架虽提供丰富多样的显示方法,但我很少使用,因老忘记细节,每次都要纠结到底月份在前还是年份在前:日期分隔符到底是“/”,还是“\”,还是“-”等 ...

  2. 敏捷软件开发模型--SCRUM

    敏捷软件开发模型--SCRUM 一 什么是Scrum?Scrum (英式橄榄球争球队), 软件开发模型是敏捷开发的一种,在最近的一两年内逐渐流行起来. Scrum的基本假设是: 开发软件就像开发新产品 ...

  3. 一个简单的JUnit项目

    本人一直很喜欢JAVA,可是真正接触到JUnit也不过半年.由于公司进行网页测试,采用的是 JUnit+selenium的方式搭建的测试框架,然后采用JAVA语言编写,所以本人也好好研究了一下JUni ...

  4. Jenkins配置Java项目1(Java+Maven+Tomcat)

    先收集几个网址,后续再自己动手过一遍 http://www.cnblogs.com/sunzhenchao/archive/2013/01/30/2883289.html https://my.osc ...

  5. Media层

    媒体层包含图形技术.音频技术和视频技术,这些技术相互结合就可为移动设备带来最好的多媒体体验,更重要的是,它们让创建外观音效俱佳的应用程序变得更加容易.您可以使用iOS的高级框架更快速地创建高级的图形和 ...

  6. ceph主要数据结构解析2-Rados.h文件

    (1)文件系统id结构:16个字符组成 struct ceph_fsid { unsigned char fsid[16]; }; 以及对应的比较函数: static inline int ceph_ ...

  7. 一个int类型究竟占多少个字节

    一个int占多少个字节? 这个问题我们往往得到的答案是4. 可是int究竟占多少个字节,却跟你的机器环境有关. As you can see, the typical data type sizes ...

  8. PHP博客小项目之知识点(1)

    一.博客系统介绍 Blog.Bloger.web log(网络日志) 博客主要发布一些文章.图片:博客一般都是个人博客: 博客的文章,一般都是按照时间倒序排列: 博客,仅音译,英文名为Blogger, ...

  9. ASP.NET中的MD5加密

    新人冒泡,打今起在园子里算是开博了,先来写点关于基础性的东西 为以后的写其他的文章做准备. 今天就先来说说MD5加密与在ASP.NET中如何实现MD5加密. MD5加密简单的说就是把一段明文 通过某种 ...

  10. 网络断开后重连downloadProvider继续下载问题调试分析

    最近在安卓4.4上遇到一个断开wifi后重新连接wifi, downloadProvider继续下载文件失败的问题.于是开始了解下载管理模块的断点续载功能:     1.首先,分析android lo ...