【Hadoop面试】基础概念、HDFS、MapReduce、Yarn、实战

一、Hadoop概念及架构

1、是否看过Hadoop源码

2、正常工作的hadoop集群中hadoop都分别需要启动哪些进程，他们的作用分别是什么

3、hadoop和spark中的文件缓存方式

4、hadoop各组件之间通信Rpc协议

5、Hadoop的读数据流程

6、对Hadoop生态圈中的哪些技术比较了解

其他问法：你了解的hadoop生态圈的框架，及其大概在怎样的一个位置

7、列出几个配置文件优化hadoop，怎么做数据平衡

8、关于hadoop相关的调优

9、Hadoop启动的时候都有哪些进程，进程名称

10、Hadoop是什么

11、hadoop的块大小，从哪个版本开始是128M

12、Hadoop数据倾斜问题

13、hadoop中定义的主要共用InputFormats中，哪一个是默认值

14、hadoop任务中，什么是InputSplit?

15、Hadoop中job和Tasks之间的区别是什么？

16、请描述hadoop2.x中HDFS的高可用架构(high availability)是如何实现的。

17、简述Apache原生Hadoop，CDH，HDP的区别。

18、Hadoop的分片机制为什么进行分片有啥好处是基于什么原理分片的

19、Hadoop保存文件的特性：分片备份

20、hadoop中的combine函数的作用？

21、hadoop的TextInputFormat作用是什么，如何自定义实现

22、请说明hadoop为何不适合存情大量小文件。假如有小文件存储需求如何优化。

23、常见端口号和配置文件

24、hadoop shuffle过程

25、Hadoop的适用场景？比如说适用于OLAP还是OLTP

二、HDFS

1、传输过程中DataNode挂掉怎么办

2、介绍一下HDFS的存储过程

3、 HDFS是一个分布式文件系统，其适合的读写任务是

4、HDFS 的体系结构

5、传统的关系型数据库和Hadoop有什么区别？

6、怎么查看某个目录下的小文件

三、MapReduce

1、MapReduce工作的各个阶段

2、如果没有定义partitioner，那数据在被送达reduce前是如何被分区的？

3、map端的一个分区数据如果有大量的重复，怎么去重？

4、手写MapReduce

四、Yarn

1、namenode、datanode、secondnamenode怎么协作的？

2、hadoop的namenode.2NN.hafs的文件上传

五、实操部分

1、详解Hadoop的WordCount

2、hadoop二次排序

3、小表关联大表怎么实现的|切片，shuffle，reduce阶段，map阶段，Yarn流程

4、hadoop 实现TopN

5、Hadoop是自己搭的吗，用的什么版本？hadoop、flume、kafka、sqoop、spark版本号

6、有没有使用OZ调度hadoop任务

7、hadoop命令：创建、查看文件、列出文件状态

8、在处理10pb级别的数据时，大概需要的集群配置，计算瓶颈，解决方案

【Hadoop面试】基础概念、HDFS、MapReduce、Yarn、实战的更多相关文章

大数据学习笔记之Hadoop（三）：MapReduce&YARN
文章目录一 MapReduce概念 1.1 为什么要MapReduce 1.2 MapReduce核心思想 1.3 MapReduce进程 1.4 MapReduce编程规范(八股文) 1.5 Ma ...
[hadoop] 一些基础概念
一.云的概念 1.云计算的概念随时随地使用任何设备获得任何服务 2.趋势 )资料开始回归集中处理(存储大量资料) 随时存取降低遗失风险减少传输成本促进团队协作 )网页变为预设开发平台(网 ...
hadoop集群之HDFS和YARN启动和停止命令
假如我们只有3台linux虚拟机,主机名分别为hadoop01.hadoop02和hadoop03,在这3台机器上,hadoop集群的部署情况如下: hadoop01:1个namenode,1个dat ...
Hadoop学习基础之三：MapReduce
现在是讨论这个问题的不错的时机,因为最近媒体上到处充斥着新的革命所谓“云计算”的信息.这种模式需要利用大量的(低端)处理器并行工作来解决计算问题.实际上,这建议利用大量的低端处理器来构建数据中心,而不 ...
Java面试基础概念总结
面向对象软件开发的优点有哪些? 答:开发模块化,更易维护和修改:代码之间可以复用:增强代码的可靠性.灵活性和可理解性. 多态的定义? 答:多态是编程语言给不同的底层数据类型做相同的接口展示的一种能力. ...
大数据 - hadoop基础概念 - HDFS
Hadoop之HDFS的概念及用法 1.概念介绍 Hadoop是Apache旗下的一个项目.他由HDFS.MapReduce.Hive.HBase和ZooKeeper等成员组成. HDFS是一个高度容 ...
【原创】大数据基础之Hadoop（2）hdfs和yarn最简绿色部署
环境:3结点集群 192.168.0.1192.168.0.2192.168.0.3 1 配置root用户服务期间免密登录参考:https://www.cnblogs.com/barneywill/ ...
Hadoop优化第一篇 : HDFS/MapReduce
比较惭愧,博客很久(半年)没更新了.最近也自己搭了个博客,wordpress玩的还不是很熟,感兴趣的朋友可以多多交流哈!地址是:http://www.leocook.org/ 另外,我建了个QQ群:3 ...
【Hadoop离线基础总结】MapReduce入门
MapReduce入门 Mapreduce思想概述 MapReduce的思想核心是分而治之,适用于大量复杂的任务处理场景(大规模数据处理场景). 最主要的特点就是把一个大的问题,划分成很多小的子问题 ...
【Hadoop离线基础总结】MapReduce增强（下）
MapReduce增强(下) MapTask运行机制详解以及MapTask的并行度 MapTask运行流程第一步:读取数据组件InputFormat(默认TextInputFormat)会通过get ...

随机推荐

Kubernetes实践技巧：Windows 系统最佳实践
有部分同学是使用的 Windows 系统,我们的直播课程也是在 Windows 系统下面进行的,然后通过 SSH 方式连接到服务器上面操作 Kubernetes,由于对 vim 不是很熟悉,所以又通 ...
图解 Kubernetes Ingress
文章转载自:https://www.qikqiak.com/post/visually-explained-k8s-ingress/ 原文链接: https://codeburst.io/kubern ...
第二章：视图层 - 7：HttpResponse对象
类定义:class HttpResponse[source] HttpResponse类定义在django.http模块中. HttpRequest对象由Django自动创建,而HttpRespons ...
NSIS 去除字串中的汉字
!include "LogicLib.nsh" XPStyle on !include "WordFunc.nsh" #编写,水晶石 #去除字串中的汉字 #本例 ...
聊一聊被 .NET程序员遗忘的 COM 组件
一:背景 1.讲故事最近遇到了好几起和 COM 相关的Dump,由于对 COM 整体运作不是很了解,所以分析此类dump还是比较头疼的,比如下面这个经典的 COM 调用栈. 0:044> ~~ ...
【linux】第1回 linux运维基础
目录 1. 运维的本质 2. 电脑与服务器 2.1 电脑的种类 2.2 服务器种类 2.3 服务器品牌 2.4 服务器尺寸 2.5 服务器内部组成 3. 磁盘阵列 4. 系统简介 5. 虚拟化 6. ...
react.js 实现音乐播放、下一曲、以及删除歌曲（仅播放列表）
import React, { Component } from 'react'; export default class Music extends Component { construct ...
Windows docker环境安装
前期准备 1.hyper-v功能 win10家庭版没有提供hyper-v的问题可通过如下脚本解决,保存为bat并运行重启电脑即可. pushd "%~dp0" dir /b %Sy ...
后端框架学习3------SpringMVC
springMVC学习笔记官方文档地址:https://docs.spring.io/spring/docs/current/spring-framework-reference/web.html# ...
银行ATM存取款系统（C语言实现）
这里使用的运行工具是DEV C++.老铁们一定要看仔细了.是DEV C++ 仅供借鉴:这个是大一时期写的.大四的时候整理了一下(本人C语言学的也不太好).肯定很多不足和存在漏洞的地方.仅供借鉴.仅供借 ...

【Hadoop面试】基础概念、HDFS、MapReduce、Yarn、实战

【Hadoop面试】基础概念、HDFS、MapReduce、Yarn、实战的更多相关文章

随机推荐

热门专题