这个项目是流量经营项目,通过Hadoop的离线数据项目. 运营商通过HTTP日志,分析用户的上网行为数据,进行行为轨迹的增强. HTTP数据格式为: 流程: 系统架构: 技术选型: 这里只针对其中的一个功能进行说明: 其中规则库是人工填充的,实例库是采用机器学习自动生成的,形式都是<url,info>. (一)统计流量排名前80%的URL,只有少数的URL流量比特别高,绝大多数的URL流量极低,没有参考价值,应当舍弃. FlowBean.java: package cn.itcast.hado…