这个暂时,没写好. K1,v1 这是增强的for循环. for(Sting w : words) { } 迭代器里,前面,放的是什么类型,后面,迭代的是谁.…
其实啊,spilt是,控制Apache Hadoop Mapreduce的map并发任务数,详细见http://www.cnblogs.com/zlslch/p/5713652.html map,是mapper代码 partitioner,自定义分组,详细见http://www.cnblogs.com/zlslch/p/5713701.html sort,自定义排序,详细见http://www.cnblogs.com/zlslch/p/5713701.html reduce,是reducer代码…
Shuffle是非常非常非常重要.搞mr,必须熟烂于心. 因为,分区,分组,排序,,,都是在Shuffle里完成.…
shuffle是非常重要!一定要深入理解和多实践. 缓存,分组,排序,转发,这些都是mr的shuffle. Soga 我想得到按流量来排序,而且还是倒序,怎么达到实现呢?这就牵扯到排序的的问题 默认是根据key来排, 我想根据value里的某个排, 解决思路:将value里的某个,放到key里去,然后来排 下面,开始weekend110的hadoop的自定义排序实现 也要修改FlowBean代码…
首先,来说的是,reduce并发任务数,默认是1. 即,在jps后,出现一个yarnchild.之后又消失. 这里,我控制reduce并发任务数6 有多少个reduce的并发任务数可以控制,但有多少个map的并发任务数还没 其实啊,有多少个map的并发任务数还没(是在分片中控制的). jps ->   生成个Runjar  -> jps -> 生成个Runjar  ->  生成个MRAppMaster(运行map任务) soga jps  ->  生成个Runjar  -&g…
Tracker是跟踪者,跟踪器.JobTracker是项目经理.在hadoop2*的0.23版本之后,改叫RM了.ResourceManager.TaskTracker是小组长.它手下,还有具体搬砖的.在hadoop2*的0.23版本之后,改叫NM了.NodeManager. =======================================??? 其实,不管,是新的还是旧的,差不多. 小弟向老大,隔一会,问一下,老大,现在有没有活干.小弟去老大那,领取任务. 现实生活中: 情况一:…
HBase里的RowKey设计,分为随机查询的RowKey设计和连续查询的RowKey设计.…
在一些特定的业务场景下,使用hive默认的配置对数据进行分析,虽然默认的配置能够实现业务需求,但是分析效率可能会很低. Hive有针对性地对不同的查询进行了优化.在Hive里可以通过修改配置的方式进行优化. 以下,几种方式调优的属性. 1.列裁剪 在通过Hive读取数据的时候,并不是所有的需求都要获取表内的所有的数据.有些只需要读取所有列中的几列,而忽略其他列的的数据. 例如,表Table1包含5个列Column1.Column2.Column3.Column4.Column5.下面的语句只会在…
我想得到按流量来排序,而且还是倒序,怎么达到实现呢? 达到下面这种效果, 默认是根据key来排, 我想根据value里的某个排, 解决思路:将value里的某个,放到key里去,然后来排 下面,开始weekend110的hadoop的自定义排序实现 将FlowSortMapper.FlowSortReduce.FlowSortRunner.FlowSortBean,全放到一个SortMR里. V2我们不要,怎么写代码? 那么,我们想要实现由 达到下面这种效果, 也要修改FlowBean代码 多领…
参考  <Hadoop大数据分析与挖掘实战>的在线电子书阅读                   http://yuedu.baidu.com/ebook/d128cf8e33687e21ae45a935?pn=1&click_type=10010002 Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的,是建立在Hadoop上的数据仓库基础构架.作为Hadoop的一个数据仓库工具,Hive可以将结构化的数据文件映射为一张数据库表,并提…