Hadoop专有名词

一. HDFS

二. MapReduce

1．MRAppMaster:MapReduce Application Master 负责整个过程调度和协调的

2．MapTask：在Map阶段：负责Map阶段整个数据处理流程

3．ReduceTask：在Reduce阶段：负责Reduce阶段整个数据处理流程

4．Job：LocalJobRuuner YarnRunner

5．数据切片:splits:逻辑概念 hdfs:block对文件的切块

6．Inputformat:默认的InputFormat-->FileInputFormat-->TextInputFormat《LongWritable,Text》

7．RecordReader:经过RecordReader处理之后形成的是<K,V>

8．LocalJobRunner:

三. 疑问点

1．“整个数据处理流程”

2．MapTask、ReduceTask运行顺序

（1）所有的MapTask运行结束之后会运行ReduceTask

3．一个程序中MapTask的数量是多少？跟什么有关系？

（1）跟切片splits个数有关系，有多少个splits切片就有多少个mapTask

（2）splits大小---》默认跟blockSize一样大(前提条件：1.HDFS上 2.没有手动设置过minSize、MaxSize)

（3）如果一个文件的剩余大小除以splitSize不大于1.1的话，他们会被作为一个切片。

4．一个程序中ReduceTask的数量是多少？跟什么有关系？

（1）根据客户指定的参数,如果没有指定，默认是1.

5．进入到ReduceTask以后“待处理数据”指的是什么数据？

（1）MapTask处理完后溢写到磁盘上面的数据

（2）ReduceTask应该将结果存放到HDFS，保证数据可靠存储。

6．在MapTask阶段会把处理结果溢写到磁盘中？

（1）所谓的溢写到磁盘是指datanode的本地磁盘。如果放到HDFS中会根据副本策略增加多个副本。

7．运行程序后发现的现象：

（1）文件路径：可以是HDFS上的，也可以是本地的。

（2）在eclipse中直接运行程序发现执行Job的都是LocalJobRunner

（3）打成Jar包放在集群上运行，文件路径必须是HDFS路径。

（4）文件内容最终会有序排列：什么阶段做了有序处理？

（5）Hadoop jar hadoop-mapreduce-examples.jar wordcount

9．一个MapReduce程序中能否只有Map?

10．设置输出文件中Key和Value的分割符：configuration.set("mapred.textoutputformat.separator", ";");

11．修改分区并且按照分区写入到不同文件中操作步骤：

（1）自定义类继承自HashPartitioner<MapOutKey,MapOutValue>，重写getPartition方法。按照需求，返回不同的分区。

（2）显式在Job中设置PartitionerClass为自定义类

（3）显式在Job中设置numReduceTasks(分区总个数)

①如果不显式设置，默认为1.那么所有的分区内容存在于一个文件中。

②如果显式设置的分区总个数值大于实际分区总个数，会形成多个空文件。

③如果显式设置的分区总个数值小于实际分区总个数并且不等于1，会抛出异常。

12．在一个Job中，输入文件路径下有多个不同格式的文件需要处理，该如何解决？

（1）3个文件：每一个文件1splits， Map《KeyIN，ValueIn，KeyOut，ObjectWritable》、reduce

①Order订单

②Product产品

ObjectWritable

If（）

Ordedr

Product

Hadoop专有名词的更多相关文章

AOP及专有名词通俗解答
AOP面向切面编程,是一种编程思想,并不是Spring专有,Spring是封装代理模式完成,之前的博客中也写到了关于AOP的文章,Filter和代理,请见<以此之长,补彼之短----AOP(Fi ...
hadoop各个名词的理解
Hadoop家族的各个成员 hadoop这个词已经流行好多年了,一提到大数据就会想到hadoop,那么hadoop的作用是什么呢? 官方定义:hadoop是一个开发和运行处理大规模数据的软件平台.核心 ...
专业术语/Java专有名词
微服务 Web Service WebAPI(MicroSoft) RESTful RPC 微服务服务拆分,利用轻量化机制(通常为HTTP源API)实现通信,复杂度可控,独立部署,技术选型灵活,容错 ...
hadoop基本认识
还是hadoop专有名词进行说明. Hadoop框架中最核心设计就是:HDFS和MapReduce.还有yarn HDFS提供了海量数据的存储.(分布式文件系统) MapReduce提供了对数据的计算 ...
[hadoop in Action] 第3章 Hadoop组件
管理HDFS中的文件分析MapReduce框架中的组件读写输入输出数据 1.HDFS文件操作［命令行方式］ Hadoop的文件命令采取的形式为: hadoop fs -cmd < ...
初级文法课程-第1课：名词的种类/名词的数/名词的所有格/冠词;be 动词、一般动词的现在式
January 31, 2016 Unit 1 名词和冠词名词:n (noun) 作用:当主词.补语.受词 1.名词的种类 [单数和复数--I like dogs] 普通名词:book,pen ...
第1章 (名词)Le nom
★名词的种类:(1)普通名词 —专有名词,如: un livre —la Chine(2)可数名词—不可数名词,如: un ami —le lait(3)具体名词— ...
探索专有领域的端到端ASR解决之道
摘要:本文从<Shallow-Fusion End-to-End Contextual Biasing>入手,探索解决专有领域的端到端ASR. 本文分享自华为云社区<语境偏移如何解决 ...
I/O优化篇
转载:http://blog.csdn.net/gzh0222/article/details/9227393 很不错 1.系统学习 IO性能对于一个系统的影响是至关重要的.一个系统经过多项优化以后, ...

随机推荐

(22)Embrace the near win
https://www.ted.com/talks/sarah_lewis_embrace_the_near_win/transcript?referrer=playlist-talks_to_get ...
PowerShe 使用证书签名 ll脚本
1.创建自签名证书(如需要) PS C:\Windows\system32> New-SelfSignedCertificate -DnsName www.mycard.com -CertSto ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十九之铭文升级版
铭文一级:(没有内容) 铭文二级: 创建Spring boot项目: 看官网,Quick Start下面有两个依赖,必须得使用但是如果用IDEA构建Spring boot,则会自动添加 New Pr ...
Transport Layer Protocols
1 End-to-end Protocols(端到端协议) 传输层协议往往是主机对主机(host-to-host)或者说是端到端(end-to-end).通常希望传输层协议可以提供如下service: ...
CentOS 解决vim乱码问题
今天在服务器安装了任务调度工具(TaskCTL) 发现是乱码的,看了官方文档说的办法也没有处理成功,可能由于他们已经有一段时间没有维护这个版本了.(以前提供的免费版本) 后来发现CentOS的Vim的 ...
FTPClient 中 FTPClient.changeWorkingDirectory(filePath) 代码一直返回 false
FTP文件下载需要的jar包: commons-net-2.0.jar 有时可能还需要:jakarta-oro.jar 参考:FTPClient参考文档这里记录下我碰到的问题: 刚开始我的账号和密 ...
AndroidStudio项目制作倒计时模块
前言大家好,给大家带来AndroidStudio项目制作倒计时模块的概述,希望你们喜欢项目难度 AndroidStudio项目制作倒计时模块的难度,不是很大,就是主要用了Timer和TimerTa ...
第十节：详细讲解一下Java多线程，随机文件
前言大家好,给大家带来第十节:详细讲解一下Java多线程,随机文件的概述,希望你们喜欢多线程的概念线程的生命周期多线程程序的设计多线程的概念多线程的概念:程序是静态的,进程是动态的.多进程 ...
HashMap的源码分析
hashMap的底层实现是数组+链表的数据结构,数组是一个Entry<K,V>[] 的键值对对象数组,在数组的每个索引上存储的是包含Entry的节点对象,每个Entry对象是一个单链表 ...
ELK实战（Springboot日志输出查找）
需求把分布式系统,集群日志集中处理快速查询搭建ELK并与springboot日志输出结合搭建ELK 基于我前面的elasticsearch搭建博客文档docker-compose.yml基础上进 ...

Hadoop专有名词

Hadoop专有名词的更多相关文章

随机推荐

热门专题