周旭龙前辈的Hadoop学习笔记—网站日志分析项目案例简明.经典,业已成为高校大数据相关专业的实验项目.上周博主也完成了这个实验,不同于周前辈使用特殊符号切割字符串得到数据的做法,博主使用了正则表达式来匹配数据.在此将我的思路及代码张贴出来,以供后来者学习借鉴. 一.数据情况分析 1.1.数据格式概览 本次实验数据来自于国内某论坛,数据以行为单位,每行记录由5部分组成,访问者IP.访问时间.访问资源.访问状态.访问流量. 1.2.所需的数据 按照实验教程,我们只需要IP.时间.uri即可,不过本…