Hadoop专有名词
Hadoop专有名词
一. HDFS
二. MapReduce
1.MRAppMaster:MapReduce Application Master 负责整个过程调度和协调的
2.MapTask:在Map阶段:负责Map阶段整个数据处理流程
3.ReduceTask:在Reduce阶段:负责Reduce阶段整个数据处理流程
4.Job:LocalJobRuuner YarnRunner
5.数据切片:splits:逻辑概念 hdfs:block对文件的切块
6.Inputformat:默认的InputFormat-->FileInputFormat-->TextInputFormat《LongWritable,Text》
7.RecordReader:经过RecordReader处理之后形成的是<K,V>
8.LocalJobRunner:
三. 疑问点
1.“整个数据处理流程”
2.MapTask、ReduceTask运行顺序
(1)所有的MapTask运行结束之后会运行ReduceTask
3.一个程序中MapTask的数量是多少?跟什么有关系?
(1)跟切片splits个数有关系,有多少个splits切片就有多少个mapTask
(2)splits大小---》默认跟blockSize一样大(前提条件:1.HDFS上 2.没有手动设置过minSize、MaxSize)
(3)如果一个文件的剩余大小除以splitSize不大于1.1的话,他们会被作为一个切片。
4.一个程序中ReduceTask的数量是多少?跟什么有关系?
(1)根据客户指定的参数,如果没有指定,默认是1.
5.进入到ReduceTask以后“待处理数据”指的是什么数据?
(1)MapTask处理完后溢写到磁盘上面的数据
(2)ReduceTask应该将结果存放到HDFS,保证数据可靠存储。
6.在MapTask阶段会把处理结果溢写到磁盘中?
(1)所谓的溢写到磁盘是指datanode的本地磁盘。如果放到HDFS中会根据副本策略增加多个副本。
7.运行程序后发现的现象:
(1)文件路径:可以是HDFS上的,也可以是本地的。
(2)在eclipse中直接运行程序发现执行Job的都是LocalJobRunner
(3)打成Jar包放在集群上运行,文件路径必须是HDFS路径。
(4)文件内容最终会有序排列:什么阶段做了有序处理?
(5)Hadoop jar hadoop-mapreduce-examples.jar wordcount
9.一个MapReduce程序中能否只有Map?
10.设置输出文件中Key和Value的分割符:configuration.set("mapred.textoutputformat.separator", ";");
11.修改分区并且按照分区写入到不同文件中操作步骤:
(1)自定义类继承自HashPartitioner<MapOutKey,MapOutValue>,重写getPartition方法。按照需求,返回不同的分区。
(2)显式在Job中设置PartitionerClass为自定义类
(3)显式在Job中设置numReduceTasks(分区总个数)
①如果不显式设置,默认为1.那么所有的分区内容存在于一个文件中。
②如果显式设置的分区总个数值大于实际分区总个数,会形成多个空文件。
③如果显式设置的分区总个数值小于实际分区总个数并且不等于1,会抛出异常。
12.在一个Job中,输入文件路径下有多个不同格式的文件需要处理,该如何解决?
(1)3个文件:每一个文件1splits, Map《KeyIN,ValueIn,KeyOut,ObjectWritable》、reduce
①Order订单
②Product产品
ObjectWritable
If()
Ordedr
Product
Hadoop专有名词的更多相关文章
- AOP及专有名词通俗解答
AOP面向切面编程,是一种编程思想,并不是Spring专有,Spring是封装代理模式完成,之前的博客中也写到了关于AOP的文章,Filter和代理,请见<以此之长,补彼之短----AOP(Fi ...
- hadoop各个名词的理解
Hadoop家族的各个成员 hadoop这个词已经流行好多年了,一提到大数据就会想到hadoop,那么hadoop的作用是什么呢? 官方定义:hadoop是一个开发和运行处理大规模数据的软件平台.核心 ...
- 专业术语/Java专有名词
微服务 Web Service WebAPI(MicroSoft) RESTful RPC 微服务 服务拆分,利用轻量化机制(通常为HTTP源API)实现通信,复杂度可控,独立部署,技术选型灵活,容错 ...
- hadoop基本认识
还是hadoop专有名词进行说明. Hadoop框架中最核心设计就是:HDFS和MapReduce.还有yarn HDFS提供了海量数据的存储.(分布式文件系统) MapReduce提供了对数据的计算 ...
- [hadoop in Action] 第3章 Hadoop组件
管理HDFS中的文件 分析MapReduce框架中的组件 读写输入输出数据 1.HDFS文件操作 [命令行方式] Hadoop的文件命令采取的形式为: hadoop fs -cmd < ...
- 初级文法课程-第1课:名词的种类/名词的数/名词的所有格/冠词;be 动词、一般动词的现在式
January 31, 2016 Unit 1 名词和冠词 名词:n (noun) 作用:当主词.补语.受词 1.名词的种类 [单数和复数--I like dogs] 普通名词:book,pen ...
- 第1章 (名词)Le nom
★名词的种类:(1)普通名词 —专有名词,如: un livre —la Chine(2)可数名词—不可数名词,如: un ami —le lait(3)具体名词— ...
- 探索专有领域的端到端ASR解决之道
摘要:本文从<Shallow-Fusion End-to-End Contextual Biasing>入手,探索解决专有领域的端到端ASR. 本文分享自华为云社区<语境偏移如何解决 ...
- I/O优化篇
转载:http://blog.csdn.net/gzh0222/article/details/9227393 很不错 1.系统学习 IO性能对于一个系统的影响是至关重要的.一个系统经过多项优化以后, ...
随机推荐
- 26、TCP服务器原理
TCP / IP的工作 TCP / IP是Internet上使用的网络协议.它是协议,ESP32本身自带了TCP/IP协议,所以,我们只需了解并学会运用即可. 首先,有IP地址.这是一个32位值,应该 ...
- 描述linux下文件删除的原理
Linux文件删除原理: Linux是通过link的数量来控制文件删除的,只有当一个文件不存在任何link的时候,这个文件才会被删除. 一般来说,每个文件都有2个link计数器:i_count 和 i ...
- 一行代码实现自定义转场动画--iOS自定义转场动画集
WXSTransition 这款非常不错,力推 这是作者源码简书地址: http://www.jianshu.com/p/fd3154946919 这是作者源码github地址 https://git ...
- Centos7中docker开启远程访问
在作为docker远程服务的centos7机器中配置: 1.在/usr/lib/systemd/system/docker.service,配置远程访问.主要是在[Service]这个部分,加上下面两 ...
- ReactNative学习笔记(四)热更新和增量更新
概括 关于RN的热更新,网上有很多现成方案,但是一般都依赖第三方服务,我所希望的是能够自己管控所有一切,所以只能自己折腾. 热更新的思路 热更新一般都是更新JS和图片,也就是在不重新安装apk的情况下 ...
- FFmpeg原始帧处理-滤镜API用法详解
本文为作者原创,转载请注明出处:https://www.cnblogs.com/leisure_chn/p/10429145.html 在FFmpeg中,滤镜(filter)处理的是未压缩的原始音视频 ...
- Hessian学习(springboot环境)
Hessian介绍: Hessian是一个轻量级的remoting onhttp工具,使用简单的方法提供了RMI的功能. 相比WebService,Hessian更简单.快捷.采用的是二进制RPC协议 ...
- 日志查看技巧之筛选&去重[排查篇]
引语:相信大家都会偶尔遇到要排查问题发生的原因的情况,那这种时候,我们最有力后盾就是日志文件了,所以谨记日志记录真的很重要.但是日志文件往往是很大的文件,而且里面有太多的东西可能不是我们需要的,如无数 ...
- Java匹马行天下之JavaSE核心技术——Java基础语法
Java基础语法 一. 认识Java 1. Java 简介 java 是一种高级的面向对象的程序设计语言,使用Java语言编写的程序时跨平台的.从pc到手机,都有Java开发的程序和游戏,Java ...
- 排序算法系列:插入排序算法JAVA版(靠谱、清晰、真实、可用、不罗嗦版)
在网上搜索算法的博客,发现一个比较悲剧的现象非常普遍: 原理讲不清,混乱 啰嗦 图和文对不上 不可用,甚至代码还出错 我总结一个清晰不罗嗦版: 原理: 和选择排序类似的是也分成“已排序”部分,和“未排 ...