[Hadoop in Action] 第1章 Hadoop简介

编写可扩展、分布式的数据密集型程序和基础知识
理解Hadoop和MapReduce
编写和运行一个基本的MapReduce程序

1、什么是Hadoop

Hadoop是一个开源的框架，可编写和运行分布式应用处理大规模数据。

Hadoop与众不同之处在于以下几点：

方便——Hadoop运行在由一般商用机器构成的大型集群上，或者云计算服务之上；
健壮——Hadoop致力于在一般商用硬件上运行，其架构假设硬件会频繁地出现失效；
可扩展——Hadoop通过增加集群节点，可以线性地扩展以处理更大的数据集；
简单——Hadoop运行用户快速编写出高效的并行代码。

2、了解分布式系统和Hadoop

理解分布式系统（向外扩展）和大型单机服务器（向上扩展）之间的对比，考虑现有I/O技术的性价比。

理解Hadoop和其他分布式架构（SETI@home）的区别：

Hadoop设计理念是代码向数据迁移，而SETI@home设计理念是数据迁移。

要运行的程序在规模上比数据小几个数量级，更容易移动；此外，在网络上移动数据要比在其上加载代码更花时间，不如让数据不动而将可执行代码移动到数据所在机器上去。

3、比较SQL数据库和Hadoop

SQL（结构化查询语言）是针对结构化数据设计的，而Hadoop最初的许多应用针对的是文本这种非结构化数据。让我们从特定的视角将Hadoop与典型SQL数据库做更详细的比较：

用向外扩展代替向上扩展——扩展商用关系型数据库的代价会更加昂贵的
用键／值对代替关系表——Hadoop使用键／值对作为基本数据单元，可足够灵活地处理较少结构化的数据类型
用函数式编程（MapReduce）代替声明式查询（SQL）——在MapReduce中，实际的数据处理步骤是由你指定的，很类似于SQL引擎的一个执行计划
用离线处理代替在线处理——Hadoop是专为离线处理和大规模数据分析而设计的，并不适合那种对几个记录随机读写的在线事务处理模式

4、理解MapReduce

MapReduce是一种数据处理模型，最大的优点是容易扩展到多个计算节点上处理数据；

在MapReduce模型中，数据处理原语被称为mapper和reducer；

分解一个数据处理应用为mapper和reducer有时是繁琐的，但是一旦一MapReduce的形式写好了一个应用程序，仅需修改配置就可以将它扩展到集群中几百、几千，甚至几万台机器上运行。

［动手扩展一个简单程序］

少量文档处理方式：对于每个文档，使用分词过程逐个提取单词；对于每个单词，在多重集合wordcount中的相应项上加1；最后display()函数打印出wordcount中的所有条目。

大量文档处理方式：将工作分布到多台机器上，每台机器处理这些文档的不同部分，当所有机器都完成时，第二个处理阶段将合并这些结果。

一些细节可能会妨碍程序按预期工作，如文档读取过量导致中央存储服务器的带宽性能跟不上、多重集合wordcount条目过多超过计算机的内存容量。此外，第二阶段只有一个计算机处理wordcount任务，容易出现瓶颈，所以可以采用分布的方式运转，以某种方式将其分割到多台计算机上，使之能够独立运行，即需要在第一阶段后将wordcount分区，使得第二阶段的每台计算机仅需处理一个分区。

为了使它工作在一个分布式计算机集群上，需要添加以下功能：

存储文件到许多计算机上（第一阶段）
编写一个基于磁盘的散列表，使得处理不受内存容量限制
划分来自第一阶段的中间数据（即wordcount）
洗牌这些分区到第二阶段中合适的计算机上

MapReduce程序执行分为两个主要阶段，为mapping和reducing，每个阶段均定义为一个数据处理函数，分别称为mapper和reducer。在mapping阶段，MapReduce获取输入数据并将数据单元装入mapper；在reduce阶段，reducer处理来自mapper的所有输出，并给出最终结果。简而言之，mapper意味着将输入进行过滤与转换，使reducer可以完成聚合。

另外，为了扩展分布式的单词统计程序，不得不编写了partitioning和shuffling函数。

在MapReduce框架中编写应用程序就是定制化mapper和reducer的过程，以下是完整的数据流：

应用的输入必须组织为一个键／值对的列表list(<k1,v1>)；
含有键／值对的列表被拆分，进而通过调用mapper的map函数对每个单独的键／值对<k1,v1>进行处理；
所有mapper的输出被聚合到一个包含<k2,v2>对的巨大列表中；
每个reducer分别处理每个被聚合起来的<k2,list(v2)>，并输出<k3,v3>。

5、用Hadoop统计单词——运行第一个程序

Linux操作系统
JDK1.6以上运行环境
Hadoop操作环境

Usage：hadoop [—config configdir] COMMAND

这里COMMAND为下列其中一个：

namenode -format 格式化DFS文件系统

secondarynamenode 运行DFS的第二个namenode

namenode 运行DFS的namenode

datanode 运行一个DFS的datanode

dfsadmin 运行一个DFS的admin客户端

fsck 运行一个DFS文件系统的检查工具

fs 运行一个普通的文件系统用户客户端

balancer 运行一个集群负载均衡工具

jobtracker 运行MapReduce的jobtracker节点

pipes 运行一个pipes作业

tasktracker 运行一个MapReduce的tasktracker节点

job 处理MapReduce作业

version 打印版本

jar <jar> 运行一个jar文件

distcp <srcurl> <desturl> 递归地复制文件或者目录

archive -archiveName NAME <src>* <dest> 生成一个Hadoop档案

daemonlog 获取或设置每个daemon的log级别

CLASSNAME 运行名为CLASSNAME的类大多数命令会在使用w/o参数

时打出帮助信息。

运行单词统计示例程序的命令形式如下：

hadoop jar hadoop-*-examples.jar wordcount [-m <maps>] [-r reduces] input output

编译修改后的单词统计程序的命令形式如下：

javac -classpath hadoop-*-core.jar -d playground/classes playground/src/WordCount.java

jar -cvf playground/src/wordcount.jar -C playground/classes/

运行修改后的单词统计程序的命令形式如下：

hadoop jar playground/wordcount.jar org.apache.hadoop.examples.WordCount input output

代码清单 WordCount.java

 public class WordCount {

   public static class TokenizerMapper

        extends Mapper<Object, Text, Text, IntWritable>{

     private final static IntWritable one = new IntWritable(1);

     private Text word = new Text();

     public void map(Object key, Text value, Context context

                     ) throws IOException, InterruptedException {

       StringTokenizer itr = new StringTokenizer(value.toString());   //（1）使用空格进行分词

       while (itr.hasMoreTokens()) {

         word.set(itr.nextToken());   //（2）把Token放入Text对象中

         context.write(word, one);

       }

     }

   }

   public static class IntSumReducer

        extends Reducer<Text,IntWritable,Text,IntWritable> {

     private IntWritable result = new IntWritable();

     public void reduce(Text key, Iterable<IntWritable> values,

                        Context context

                        ) throws IOException, InterruptedException {

       int sum = 0;

       for (IntWritable val : values) {

         sum += val.get();

       }

       result.set(sum);

       context.write(key, result);   //（3）输出每个Token的统计结果

     }

   }

   public static void main(String[] args) throws Exception {

     Configuration conf = new Configuration();

     String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

     if (otherArgs.length < 2) {

       System.err.println("Usage: wordcount <in> [<in>...] <out>");

       System.exit(2);

     }

     Job job = new Job(conf, "word count");

     job.setJarByClass(WordCount.class);

     job.setMapperClass(TokenizerMapper.class);

     job.setCombinerClass(IntSumReducer.class);

     job.setReducerClass(IntSumReducer.class);

     job.setOutputKeyClass(Text.class);

     job.setOutputValueClass(IntWritable.class);

     for (int i = 0; i < otherArgs.length - 1; ++i) {

       FileInputFormat.addInputPath(job, new Path(otherArgs[i]));

     }

     FileOutputFormat.setOutputPath(job,

       new Path(otherArgs[otherArgs.length - 1]));

     System.exit(job.waitForCompletion(true) ? 0 : 1);

   }

 }

在（1）的位置上wordcount以默认配置使用了Java的StringTokenizer，这里仅基于空格来分词。为了在分词过程中忽略标准的标点符号，将它们加入到stringTokenizer的定界符列表中：

StringTokenizer itr ＝ new StringTokenizer(value.toString(),” \t\n\r\f,.:;?![]’");

因为希望单词统计忽略大小写，把它们转换为Text对象前先将所有的单词都变成小写：

word.set(itr.nextToken().toLowerCase());

希望仅仅显示出现次数大于4次的单词：

if (sum > 4) context.write(key, result);

6、hadoop历史

创始人：Doug Cutting

2004年左右——Google发表了两篇论文来论述Google文件系统（GFS）和MapReduce框架。

2006年1月——雅虎聘用Doug，让他和一个专项团队一起改进Hadoop，并将其作为一个开源项目。

[转载请注明] http://www.cnblogs.com/zhengrunjian/

[Hadoop in Action] 第1章 Hadoop简介的更多相关文章

[hadoop in Action] 第3章 Hadoop组件
管理HDFS中的文件分析MapReduce框架中的组件读写输入输出数据 1.HDFS文件操作［命令行方式］ Hadoop的文件命令采取的形式为: hadoop fs -cmd < ...
[Hadoop in Action] 第7章细则手册
向任务传递定制参数获取任务待定的信息生成多个输出与关系数据库交互让输出做全局排序 1.向任务传递作业定制的参数在编写Mapper和Reducer时,通常会想让一些地方可以配 ...
[Hadoop in Action] 第6章编程实践
Hadoop程序开发的独门绝技在本地,伪分布和全分布模式下调试程序程序输出的完整性检查和回归测试日志和监控性能调优 1.开发MapReduce程序 [本地模式] 本地模式 ...
[Hadoop in Action] 第5章高阶MapReduce
链接多个MapReduce作业执行多个数据集的联结生成Bloom filter 1.链接MapReduce作业 [顺序链接MapReduce作业] mapreduce-1 | mapr ...
[Hadoop in Action] 第4章编写MapReduce基础程序
基于hadoop的专利数据处理示例 MapReduce程序框架用于计数统计的MapReduce基础程序支持用脚本语言编写MapReduce程序的hadoop流式API 用于提升性能的Combine ...
Hadoop专业解决方案-第13章 Hadoop的发展趋势
一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第13章 Hadoop的发展趋势小组已经翻译完成,在此对 ...
[hadoop读书笔记] 第四章 Hadoop I/O操作
P92 压缩 P102 序列化序列化:将结构化对象转为字节流便于在网上传输或写到磁盘进行永久性存储的过程用于进程之间的通信或者数据的永久存储反序列化:将字节流转为结构化对象的逆过程 Hadoop ...
[Hadoop in Action] 第2章初识Hadoop
Hadoop的结构组成安装Hadoop及其3种工作模式:单机.伪分布和全分布用于监控Hadoop安装的Web工具 1.Hadoop的构造模块 (1)NameNode(名字节点) ...
Hadoop专业解决方案-第12章为Hadoop应用构建企业级的安全解决方案
一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,春节期间,项目进度有所延迟,不过元宵节以后大家已经步入正轨, 目前第12章为Hadoop应用构 ...

随机推荐

再次思考 classpath 环境变量等
f:\aspectj1.8\lib\aspectjrt.jar;.;%JAVA_HOME%\lib;C:\Temp\IBM\SQLLIB\java\db2java.zip;C:\Temp\IBM\SQ ...
android 通讯录实现
最近项目需要,于是自己实现了一个带导航栏的通讯录,上代码! 一.数据准备 (1)bean: public class Friend { private String remark; private S ...
【CSS进阶】伪元素的妙用2 - 多列均匀布局及title属性效果
最近无论是工作还是自我学习提升都很忙,面对长篇大论的博文总是心有余而力不足,但又不断的接触学习到零碎的但是很有意义的知识点,很想分享给大家,所以本篇可能会很短. 本篇接我另一篇讲述 CSS 伪元素的文 ...
Hawk 1.2 快速入门2 （大众点评18万美食数据）
本文将讲解通过本软件,获取大众点评的所有美食数据,可选择任一城市,也可以很方便地修改成获取其他生活门类信息的爬虫. 本文将省略原理,一步步地介绍如何在20分钟内完成爬虫的设计,基本不需要编程,还能自动 ...
计算机程序的思维逻辑 (33) - Joda-Time
Joda-Time上节介绍了JDK API中的日期和时间类,我们提到了JDK API的一些不足,并提到,实践中有一个广泛使用的日期和时间类库,Joda-Time,本节我们就来介绍Joda-Time.俗 ...
【Python五篇慢慢弹（3）】函数修行知python
函数修行知python 作者:白宁超 2016年10月9日21:51:52 摘要:继<快速上手学python>一文之后,笔者又将python官方文档认真学习下.官方给出的pythondoc ...
SQL Tuning 基础概述08 - SQL Tuning Advisor
SQL调优顾问 SQL Tuning Advisor的使用案例: 1.构建测试表T 2.定义调整任务 3.修改调整任务参数 4.执行调整任务 5.监控调整任务 6.查看调整任务建议 7.删除调整任务 ...
linux网络设备驱动程序
4.linux网络设备驱动程序体系结构 -------------------------------------- | 数据包发送 | 数据包接收 | ----->网络协议接口层 | dev_ ...
WebGIS中基于控制点库进行SHP数据坐标转换的一种查询优化策略
文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/ 1.前言目前项目中基于控制点库进行SHP数据的坐标转换,流程大致为:遍 ...
uploadify使用的一些经验总结
说说自己使用uploadify的一波三折的曲折过程: 之所以要选择uploadify,是源于自己先前使用过jQuery官网的上传文件插件,比较难用(页面写的代码比较多,IE下后台回传需要配置格式[不清 ...

[Hadoop in Action] 第1章 Hadoop简介

[Hadoop in Action] 第1章 Hadoop简介的更多相关文章

随机推荐

热门专题