Hadoop专有名词

一. HDFS

二. MapReduce

1.MRAppMaster:MapReduce Application Master 负责整个过程调度和协调的

2.MapTask:在Map阶段:负责Map阶段整个数据处理流程

3.ReduceTask:在Reduce阶段:负责Reduce阶段整个数据处理流程

4.Job:LocalJobRuuner  YarnRunner

5.数据切片:splits:逻辑概念 hdfs:block对文件的切块

6.Inputformat:默认的InputFormat-->FileInputFormat-->TextInputFormat《LongWritable,Text》

7.RecordReader:经过RecordReader处理之后形成的是<K,V>

8.LocalJobRunner:

三. 疑问点

1.“整个数据处理流程”

2.MapTask、ReduceTask运行顺序

(1)所有的MapTask运行结束之后会运行ReduceTask

3.一个程序中MapTask的数量是多少?跟什么有关系?

(1)跟切片splits个数有关系,有多少个splits切片就有多少个mapTask

(2)splits大小---》默认跟blockSize一样大(前提条件:1.HDFS上 2.没有手动设置过minSize、MaxSize)

(3)如果一个文件的剩余大小除以splitSize不大于1.1的话,他们会被作为一个切片。

4.一个程序中ReduceTask的数量是多少?跟什么有关系?

(1)根据客户指定的参数,如果没有指定,默认是1.

5.进入到ReduceTask以后“待处理数据”指的是什么数据?

(1)MapTask处理完后溢写到磁盘上面的数据

(2)ReduceTask应该将结果存放到HDFS,保证数据可靠存储。

6.在MapTask阶段会把处理结果溢写到磁盘中?

(1)所谓的溢写到磁盘是指datanode的本地磁盘。如果放到HDFS中会根据副本策略增加多个副本。

7.运行程序后发现的现象:

(1)文件路径:可以是HDFS上的,也可以是本地的。

(2)在eclipse中直接运行程序发现执行Job的都是LocalJobRunner

(3)打成Jar包放在集群上运行,文件路径必须是HDFS路径。

(4)文件内容最终会有序排列:什么阶段做了有序处理?

(5)Hadoop jar hadoop-mapreduce-examples.jar wordcount

9.一个MapReduce程序中能否只有Map?

10.设置输出文件中Key和Value的分割符:configuration.set("mapred.textoutputformat.separator", ";");

11.修改分区并且按照分区写入到不同文件中操作步骤:

(1)自定义类继承自HashPartitioner<MapOutKey,MapOutValue>,重写getPartition方法。按照需求,返回不同的分区。

(2)显式在Job中设置PartitionerClass为自定义类

(3)显式在Job中设置numReduceTasks(分区总个数)

①如果不显式设置,默认为1.那么所有的分区内容存在于一个文件中。

②如果显式设置的分区总个数值大于实际分区总个数,会形成多个空文件。

③如果显式设置的分区总个数值小于实际分区总个数并且不等于1,会抛出异常。

12.在一个Job中,输入文件路径下有多个不同格式的文件需要处理,该如何解决?

(1)3个文件:每一个文件1splits, Map《KeyIN,ValueIn,KeyOut,ObjectWritable》、reduce

①Order订单

②Product产品

ObjectWritable

If()

Ordedr

Product

Hadoop专有名词的更多相关文章

  1. AOP及专有名词通俗解答

    AOP面向切面编程,是一种编程思想,并不是Spring专有,Spring是封装代理模式完成,之前的博客中也写到了关于AOP的文章,Filter和代理,请见<以此之长,补彼之短----AOP(Fi ...

  2. hadoop各个名词的理解

    Hadoop家族的各个成员 hadoop这个词已经流行好多年了,一提到大数据就会想到hadoop,那么hadoop的作用是什么呢? 官方定义:hadoop是一个开发和运行处理大规模数据的软件平台.核心 ...

  3. 专业术语/Java专有名词

    微服务 Web Service WebAPI(MicroSoft) RESTful RPC 微服务 服务拆分,利用轻量化机制(通常为HTTP源API)实现通信,复杂度可控,独立部署,技术选型灵活,容错 ...

  4. hadoop基本认识

    还是hadoop专有名词进行说明. Hadoop框架中最核心设计就是:HDFS和MapReduce.还有yarn HDFS提供了海量数据的存储.(分布式文件系统) MapReduce提供了对数据的计算 ...

  5. [hadoop in Action] 第3章 Hadoop组件

    管理HDFS中的文件 分析MapReduce框架中的组件 读写输入输出数据   1.HDFS文件操作   [命令行方式]   Hadoop的文件命令采取的形式为: hadoop fs -cmd < ...

  6. 初级文法课程-第1课:名词的种类/名词的数/名词的所有格/冠词;be 动词、一般动词的现在式

    January 31, 2016 Unit 1 名词和冠词 名词:n (noun)  作用:当主词.补语.受词 1.名词的种类 [单数和复数--I like dogs]   普通名词:book,pen ...

  7. 第1章 (名词)Le nom

    ★名词的种类:(1)普通名词 —专有名词,如:          un livre —la Chine(2)可数名词—不可数名词,如:          un ami —le lait(3)具体名词— ...

  8. 探索专有领域的端到端ASR解决之道

    摘要:本文从<Shallow-Fusion End-to-End Contextual Biasing>入手,探索解决专有领域的端到端ASR. 本文分享自华为云社区<语境偏移如何解决 ...

  9. I/O优化篇

    转载:http://blog.csdn.net/gzh0222/article/details/9227393 很不错 1.系统学习 IO性能对于一个系统的影响是至关重要的.一个系统经过多项优化以后, ...

随机推荐

  1. 2019swpuj2ee作业2--HTTP协议

    简介: HTTP协议:超文本传输协议.它允许将超文本标记语言(HTML)文档从Web服务器传送到客户端的浏览器.在七层模型中属于应用层.是一种请求/响应式的协议. 主要特点:   (1)支持客户端/服 ...

  2. docker gitlab安装

    mkdir -p /data/docker/volumes/gitlab chmod 777 /data/docker/volumes/gitlab cd /data/docker/volumes/g ...

  3. vue在element-ui的对话框的编辑控件回车时让焦点跳到下一控件

    网上找的回车录入焦点前往一下控件的方式普遍比较复杂,自己不想用.学习了一个下午后似乎搞定.先帖一段代码,以后有时间解释,也请大家指教.利用下面的代码注册自己的v-enterToNext指令,并在el- ...

  4. Html5与Css3知识点拾遗(四)

    web图像 JPEG:适用于大多数照片,颜色较多,可接受质量损失的图像 PNG-8:适用标识.重复的图案以及其他颜色较少的图像或具有连续颜色的图像 PNG-24:不支持颜色更多的图像,适用与颜色丰富且 ...

  5. Docker构建文件

    构建文件 创建Dockerfile touch Dockerfile 编辑Dockerfile vim Dockerfile #基于java8版本构建 FROM java:8 #挂载日志目录 VOLU ...

  6. 如何将他人的SOPC工程转换为自己可以使用的工程

    上篇文章的程序源码在:http://download.csdn.net/detail/noticeable/9921952 源码错误现象: 在下载源码文件解压后,打开系统工程,可以看到quartus ...

  7. 【接口时序】5、QSPI Flash的原理与QSPI时序的Verilog实现

    一. 软件平台与硬件平台 软件平台: 1.操作系统:Windows-8.1 2.开发套件:ISE14.7 3.仿真工具:ModelSim-10.4-SE 4.Matlab版本:Matlab2014b/ ...

  8. 了解Java基本数据类型的取值范围

    拿byte类型做栗子 一个字节是8位二进制数,然后最高位会用来作为符号位.正数计算机是存的原码,负数是存的补码. 也就说byte正数最大是0111 1111,转化为十进制是:127(这就是byte的上 ...

  9. 在Markdown中写注释

    概述 下面是我整理的在Markdown中写注释的几种方法,供自己开发时参考,相信对其他人也有用. html标签 既然Markdown内嵌html语法,那么就可以用可以用隐藏的html标签. 注意:需要 ...

  10. 关于文件命名,你必须要知道的(浏览器报错:net::ERR_BLOCKED_BY_CLIENT)

    坑爹的,今天在写完页面,用各个浏览器测试的时候,火狐.谷歌都是正常的,QQ浏览器出幺蛾子了,在使用兼容模式的时候页面正常,使用急速模式的时候部分页面正常,点击跳转到其他页面的时候就出错了,打开控制台一 ...