处理后的数据可直接放到hive或者mapreduce程序来统计网络数据流的信息,比如当前实现的是比较简单的http的Get请求的统计 第一个mapreduce:将时间.十六进制包头信息提取出来,并放在一行(这里涉及到mapreduce的键值对的对多行的特殊处理,是个值得注意的地方) 主要遇到两个问题: 一个数据包包含时间,包头的简单信息,包头的详细信息,初衷是想要把一个数据包的时间.包十六进制详细信息(存在于很多行里)按照顺序放置到一行,在java里面按行读取,很好实现. 针对mapreduce…