0.内容 1.hadoop中的RPC框架封装思想 2.Hadoop RPC 实现方法 3.服务调用动态转发和负载均衡的实现思考 4.协议代码: package com.ares.hadoop.rpc; public interface HelloProtocol { public static final long versionID = 1L; public String helloMethod(String name); } 5.服务端代码: package com.ares.hadoop.…
先来看下ThreadPool的类结构 其中红色框住的是常用的接口和类(图片来自:https://blog.csdn.net/panweiwei1994/article/details/78617117?from=singlemessage) 为什么需要线程池呢?我们在创建线程的时候,一般使用new Thread(),但是每次在启动一个线程的时候就new 一个Thread对象,会让性能变差(spring不都使用IOC管理对象了嘛).还有其他的一些弊端: 可能会造成无限创建线程对象,对象之间相互竞争…
本文为原创文章 本文链接:https://www.cnblogs.com/zhanling/p/12606990.html # -*- coding: utf-8 -*- ''' Author: HermionX source:https://github.com/HermioneX ''' import numpy as np import xarray as xr import os import datetime from mpl_toolkits.basemap import Basem…
RCFile   RCFile全称Record Columnar File,列式记录文件,是一种类似于SequenceFile的键值对(Key/Value Pairs)数据文件.   关键词:Record.Columnar.Key.Value.   RCFile的优势在哪里?适用于什么场景?为了让大家有一个感性的认识,我们来看一个例子.   假设我们有这样一张9行3列的Hive数据表table,以普通的TextFile进行存储,     现在我们需要统计这张数据表的第二列(col2)值为“row…
摘要:在排序和reducer 阶段,reduce 侧连接过程会产生巨大的网络I/O 流量,在这个阶段,相同键的值被聚集在一起. 本文分享自华为云社区<MapReduce 示例:减少 Hadoop MapReduce 中的侧连接>,作者:Donglian Lin. 在这篇博客中,将使用 MapReduce 示例向您解释如何在 Hadoop MapReduce 中执行缩减侧连接.在这里,我假设您已经熟悉 MapReduce 框架并知道如何编写基本的 MapReduce 程序.本博客中讨论的主题如下…
1) WordCount 这个就不多说了,满大街都是,网上有几篇对WordCount的详细分析 http://www.sxt.cn/u/235/blog/5809 http://www.cnblogs.com/zhanghuijunjava/archive/2013/04/27/3036549.html 这二篇都写得不错, 特别几张图画得很清晰 2) 去重处理(Distinct) 类似于db中的select distinct(x) from table , 去重处理甚至比WordCount还要简…
说明:这篇博客来自我的csdn博客,http://blog.csdn.net/lxxgreat/article/details/7753511 一.参考书:<hadoop权威指南--第二版(中文)> 二.hadoop环境安装 1.安装sun-jdk1.6版本 1)目前我只在一台服务器(CentOS5.5)上搭建hadoop环境,因此先卸载已安装的java1.4版本 卸载命令:yum -y remove java 2)下载sun-jdk1.6,地址:http://download.oracle.…
在Eclipse中运行JAVA代码远程操作HBase的示例 分类: 大数据 2014-03-04 13:47 3762人阅读 评论(2) 收藏 举报 下面是一个在Windows的Eclipse中通过JAVA操作一个Linux上运行的hbase的示例. Hbase的配置需要注意下面一些要点: 1,服务器端用主机名配置hadoop和hbase,不要用IP 比如如下: <property>    <name>hbase.zookeeper.quorum</name>    &…
Hadoop计算中的Shuffle过程 作者:左坚 来源:清华万博 时间:2013-07-02 15:04:44.0 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方.要想理解MapReduce,Shuffle是必须要了解的.我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混.前段时间在做MapReduce job性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟.考虑到之前我在看相关资料而看不懂时很恼…
阅读目录 序 HDFS Commands User Commands Administration Commands Debug Commands 引用 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们对Hadoop命令进行了简略的列举,但是Hadoop命令特多,还有一部分没有列举完,官网基本都是英文的,所以只能拙略的翻译下,妄大家见谅. 下面,我们就开始对Hadoo…