基于MapReduce的手机流量统计分析】的更多相关文章

1,代码 package mr; import java.io.IOException; import org.apache.commons.lang.StringUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.ArrayWritable; import org.apache.hadoop.io.LongWritabl…
程序:(另外一个关于单词计数的总结:http://www.cnblogs.com/DreamDrive/p/5492572.html) import java.io.IOException; import mapreduce.WordCountApp.WordCountMapper.WordCountReducer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.…
开发工具 IDE:eclipse -neon JDK:1.8 OS:Win10-64bit 主要功能 1.要求完成一个基于Winpcap的网络流量统计分析系统,具有易用.美观的界面. 2.完成局域网(或本地)数据包的捕获和统计,能够识别并统计各类数据包,包括TCP.UDP.ICMP.ARP.广播数据包等: 3.能够捕获一段时间的数据包,分析统计各类数据包的数量: 4.能够图形化显示数据包统计结果 截图 备注 这个分析器是基于winpcap的,所以使用这个分析器需要在机子上先配置winpcap.…
1) 分析业务需求:用户使用手机上网,存在流量的消耗.流量包括两部分:其一是上行流量(发送消息流量),其二是下行流量(接收消息的流量).每种流量在网络传输过程中,有两种形式说明:包的大小,流量的大小.使用手机上网,以手机号为唯一标识符,进行记录.有记录,包括很多信息,需要的信息字段.…
第2节 mapreduce深入学习:8.手机流量汇总求和 例子:MapReduce综合练习之上网流量统计. 数据格式参见资料夹 需求一:统计求和 统计每个手机号的上行流量总和,下行流量总和,上行总流量之和,下行总流量之和 分析:以手机号码作为key值,上行流量,下行流量,上行总流量,下行总流量四个字段作为value值,然后以这个key,和value作为map阶段的输出,reduce阶段的输入. data_flow.dat内容类似下面的: 1363157985066 13726230503 00-…
在进行流量排序之前,先要明白排序是发生在map阶段,排序之后(排序结束后map阶段才会显示100%完成)才会到reduce阶段(事实上reduce也会排序),.此外排序之前要已经完成了手机流量的统计工作,即把第一次mr的结果作为本次排序的输入.也就是说读取的数据格式为     手机号 上行流量 下行流量 总流量 1,map阶段,读取并封装流量信息,不同的是context.write()时key必须是封装的实体类,而不再是手机号 /** * 输入key 行号 * 输入value 流量信息 * 输出…
基于mapreduce的大规模连通图寻找算法 当我们想要知道哪些账号是一个人的时候往往可以通过业务得到两个账号之间有联系,但是这种联系如何传播呢? 问题 已知每个账号之间的联系 如: A B B C D E F C B G 得到 对应的一个人的账号 如: A B C F G为同一个人 D E 为同一个人 当前迭代次数11次 理论最大迭代次数: max_nick_count = max(nick_count) max_iterator = log2(max_nick_count) 62%的账号可在…
//通用的手机流量计算方法 private String byteToMB(long size){ long kb = 1024; long mb = kb*1024; long gb = mb*1024; if (size >= gb){ return String.format("%.1f GB",(float)size/gb); }else if (size >= mb){ float f = (float) size/mb; return String.format…
1 MapReduce编程 1.1 MapReduce简介 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,用于解决海量数据的计算问题. MapReduce分成了两个部分: 1.映射(Mapping)对集合里的每个目标应用同一个操作.即,如果你想把表单里每个单元格乘以二,那么把这个函数单独地应用在每个单元格上的操作就属于mapping. 2.化简(Reducing)遍历集合中的元素来返回一个综合的结果.即,输出表单里一列数字的和这个任务属于reducing. 你向Ma…
原文链接(系列):http://blog.csdn.net/XuanZuoNuo/article/details/10472219 论文: 加速贝叶斯网络:Accelerating Bayesian NetworkParameter Learning.pdf 概率论与信念传播:Axioms for probability and belief-function propagation.pdf 贝叶斯网络在知识发现中的应用:bayesian_networks_for_knowledge_disco…