InAction-MR的topK】的更多相关文章

本来只是想拿搜狗的数据练练手的,却无意踏足MR的topK问题.经过几番波折,虽然现在看起来很简单,但是摸爬滚打中也学到了不少 数据是搜狗实验室下的搜索日志,格式大概为: 00:00:00 2982199073774412 [360安全卫士] 8 3 download.it.com.cn/softweb/software/firewall/antivirus/20067/17938.html 00:00:00 07594220010824798 [哄抢救灾物资] 1 1 news.21cn.com…
由于开始学习MapReduce编程已经有一段时间了,作为一个从编程中寻找自信和乐趣以及热爱编程的孩子来讲,手开始变得很“痒”了,很想小试一下身手.于是自己编写了TopK的代码.TopK的意思就是从原文件中找出词频排名前K的所有单词.首先分析该问题,从中我们可以得到启发:要想知道词频排名前K的所有单词,那么是不是要对所有的单词进行词频的统计啊?于是我们就联想到了一个比较经典的例子:WordCount的例子.是的,没错.就是它,统计原文件中每个单词的个数就靠它. 但是,我们词频统计出来了,接下来需要…
在大数据的今天,世界上任何一台单机都无法处理大数据,无论cpu的计算能力或者内存的容量.必须采用分布式来实现多台单机的资源整合,来进行任务的处理,包括离线的批处理和在线的实时处理. 鉴于上次开会讲了语言模型的发展,从规则到后来的NNLM.本章的目的就是锻炼动手能力,在知道原理的基础上,通过采用MR范式,自己实现一个ngram语言模型. 首先通过maven来管理相关包的依赖. <?xml version="1.0" encoding="UTF-8"?> &…
堆(heap),是一种特殊的数据结构.之所以特殊,因为堆的形象化是一个棵完全二叉树,并且满足任意节点始终不大于(或者不小于)左右子节点(有别于二叉搜索树Binary Search Tree).其中,前者称为小顶堆(最小堆,堆顶为最小值),后者为大顶堆(最大堆,堆顶为最大值).然而更加特殊的是,通常使用数组去存储堆,而不是二叉树.关于完全二叉树,可以参见另一篇博文http://www.cnblogs.com/eudiwffe/p/6207196.html // Heap is a sepcial…
整个社会对虚拟现实的研究和开发源于上个世纪六十年代,计算机图形学.人机接口技术.图像处理与模式识别.多传感技术.语音处理与音响技术.高性能计算机系统.人工智能等领域在之后半个世纪取得了长足的发展为虚拟现实产业爆发打下的坚实的基础. 2014年Facebook以20亿美元收购的Oculus已经是VR行业领头羊,预计将于2016年初推出第一代面向大众的商用虚拟现实头戴式眼镜Oculus Rift;Sony在3D头盔就是行业领先者,预计将于16年上半年推出PlayStation VR,与PS4搭配使用…
VR.AR.MR定义: 什么是虚拟现实? 虚拟现实(Virtual Reality,简称VR,又译作灵境.幻真)是近年来出现的高新技术,也称灵境技术或人工环境.虚拟现实是利用电脑模拟产生一个三维空间的虚拟世界,提供使用者关于视觉.听觉.触觉等感官的模拟,让使用者如同身历其境一般,可以及时.没有限制地观察三度空间内的事物. 什么是增强现实? 增强现实(Augmented Reality,简称AR),也被称之为混合现实.它通过电脑技术,将虚拟的信息应用到真实世界,真实的环境和虚拟的物体实时地叠加到了…
MR操作————Map.Partitioner.Shuffle.Combiners.Reduce 1.Map步骤 1.1 读取输入文件,解析成k-v对,其中每个k-v对调用一次map函数 1.2 写自己的逻辑,对输入的k-v进行处理,转换成新的k-v 1.3 对输出的k-v进行分区(Partitioner) 1.4 对不同分区的数据进行排序/分组,将相同的key的value放在一个集合中(Shuffle处理) 1.5 分组后进行归约(可选)(Combiners 可理解为单个节点的reduce 不…
本地模型运行 1:在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行       ----输入输出数据可以放在本地路径下(c:/wc/srcdata/)       ----输入输出数据也可以放在hdfs中(hdfs://centosReall-131:9000/wc/srcdata)   2:在linux的eclipse里面直接运行main方法,但是不要添加yarn相关的配置文件,也会提交给localjobrunner执行  …
hadoop修改MR的提交的代码程序的副本数 Under-Replicated Blocks的数量很多,有7万多个.hadoop fsck -blocks 检查发现有很多replica missing.而且这些丢失的replica对应的文件都是mr的程序文件. 原因:MR,hive 的程序代码上传到hdfs上,默认的副本数是10份,但集群只有4台,造成大量的 Under-Replicated Blocks 和 missing replicas. 1. 修改MR的提交的代码程序的副本数. vi m…
今天跑MR跑到百分27就卡住不懂,查看JOB history也没看到MR,日志也没看到异常.50030端口页面不知道为什么打不开.由于MR里面设计Hbase就去查了下hbase的表.发现hbase list table打不开.ERROR: Can't get master address from ZooKeeper; znode data == null报此错误,ZK不是用hbase自带的,但是之前ZK启动完好所以配置应该没问题.机器启动ZK也正常.想到之前修改过HDFS的端口为9000. 于…