【Hadoop面试】基础概念、HDFS、MapReduce、Yarn、实战
一、Hadoop概念及架构
1、是否看过Hadoop源码
2、正常工作的hadoop集群中hadoop都分别需要启动哪些进程,他们的作用分别是什么
3、hadoop和spark中的文件缓存方式
4、hadoop各组件之间通信Rpc协议
5、Hadoop的读数据流程
6、对Hadoop生态圈中的哪些技术比较了解
其他问法:你了解的hadoop生态圈的框架,及其大概在怎样的一个位置
7、列出几个配置文件优化hadoop,怎么做数据平衡
8、关于hadoop相关的调优
9、Hadoop启动的时候都有哪些进程,进程名称
10、Hadoop是什么
11、hadoop的块大小,从哪个版本开始是128M
12、Hadoop数据倾斜问题
13、hadoop中定义的主要共用InputFormats中,哪一个是默认值
14、hadoop任务中,什么是InputSplit?
15、Hadoop中job和Tasks之间的区别是什么?
16、请描述hadoop2.x中HDFS的高可用架构(high availability)是如何实现的。
17、简述Apache原生Hadoop,CDH,HDP的区别。
18、Hadoop的分片机制 为什么进行分片 有啥好处 是基于什么原理分片的
19、Hadoop保存文件的特性 :分片 备份
20、hadoop中的combine函数的作用?
21、hadoop的TextInputFormat作用是什么,如何自定义实现
22、请说明hadoop为何不适合存情大量小文件。假如有小文件存储需求如何优化。
23、常见端口号和配置文件
24、hadoop shuffle过程
25、Hadoop的适用场景?比如说适用于OLAP还是OLTP
二、HDFS
1、传输过程中DataNode挂掉怎么办
2、介绍一下HDFS的存储过程
3、 HDFS是一个分布式文件系统,其适合的读写任务是
4、HDFS 的体系结构
5、传统的关系型数据库和Hadoop有什么区别?
6、怎么查看某个目录下的小文件
三、MapReduce
1、MapReduce工作的各个阶段
2、如果没有定义partitioner,那数据在被送达reduce前是如何被分区的?
3、map端的一个分区数据如果有大量的重复,怎么去重?
4、手写MapReduce
四、Yarn
1、namenode、datanode、secondnamenode怎么协作的?
2、hadoop的namenode.2NN.hafs的文件 上传
五、实操部分
1、详解Hadoop的WordCount
2、hadoop二次排序
3、小表关联大表怎么实现的|切片,shuffle,reduce阶段,map阶段,Yarn流程
4、hadoop 实现TopN
5、Hadoop是自己搭的吗,用的什么版本?hadoop、flume、kafka、sqoop、spark版本号
6、有没有使用OZ调度hadoop任务
7、hadoop命令:创建、查看文件、列出文件状态
8、在处理10pb级别的数据时,大概需要的集群配置,计算瓶颈,解决方案
【Hadoop面试】基础概念、HDFS、MapReduce、Yarn、实战的更多相关文章
- 大数据学习笔记之Hadoop(三):MapReduce&YARN
文章目录 一 MapReduce概念 1.1 为什么要MapReduce 1.2 MapReduce核心思想 1.3 MapReduce进程 1.4 MapReduce编程规范(八股文) 1.5 Ma ...
- [hadoop] 一些基础概念
一.云的概念 1.云计算的概念 随时 随地 使用任何设备 获得任何服务 2.趋势 )资料开始回归集中处理(存储大量资料) 随时存取 降低遗失风险 减少传输成本 促进团队协作 )网页变为预设开发平台(网 ...
- hadoop集群之HDFS和YARN启动和停止命令
假如我们只有3台linux虚拟机,主机名分别为hadoop01.hadoop02和hadoop03,在这3台机器上,hadoop集群的部署情况如下: hadoop01:1个namenode,1个dat ...
- Hadoop学习基础之三:MapReduce
现在是讨论这个问题的不错的时机,因为最近媒体上到处充斥着新的革命所谓“云计算”的信息.这种模式需要利用大量的(低端)处理器并行工作来解决计算问题.实际上,这建议利用大量的低端处理器来构建数据中心,而不 ...
- Java面试基础概念总结
面向对象软件开发的优点有哪些? 答:开发模块化,更易维护和修改:代码之间可以复用:增强代码的可靠性.灵活性和可理解性. 多态的定义? 答:多态是编程语言给不同的底层数据类型做相同的接口展示的一种能力. ...
- 大数据 - hadoop基础概念 - HDFS
Hadoop之HDFS的概念及用法 1.概念介绍 Hadoop是Apache旗下的一个项目.他由HDFS.MapReduce.Hive.HBase和ZooKeeper等成员组成. HDFS是一个高度容 ...
- 【原创】大数据基础之Hadoop(2)hdfs和yarn最简绿色部署
环境:3结点集群 192.168.0.1192.168.0.2192.168.0.3 1 配置root用户服务期间免密登录 参考:https://www.cnblogs.com/barneywill/ ...
- Hadoop优化 第一篇 : HDFS/MapReduce
比较惭愧,博客很久(半年)没更新了.最近也自己搭了个博客,wordpress玩的还不是很熟,感兴趣的朋友可以多多交流哈!地址是:http://www.leocook.org/ 另外,我建了个QQ群:3 ...
- 【Hadoop离线基础总结】MapReduce入门
MapReduce入门 Mapreduce思想 概述 MapReduce的思想核心是分而治之,适用于大量复杂的任务处理场景(大规模数据处理场景). 最主要的特点就是把一个大的问题,划分成很多小的子问题 ...
- 【Hadoop离线基础总结】MapReduce增强(下)
MapReduce增强(下) MapTask运行机制详解以及MapTask的并行度 MapTask运行流程 第一步:读取数据组件InputFormat(默认TextInputFormat)会通过get ...
随机推荐
- Elasticsearch:significant terms aggregation
在本文中,我们将重点关注significant terms和significant text聚合.这些聚合旨在搜索数据集中有趣和/或不寻常的术语,这些术语可以告诉您有关数据的隐藏属性的更多信息.此功能 ...
- kvm里的虚拟机硬盘和网卡使用virtio驱动
1.首先从虚拟机的xml文件中找到已经使用virtio驱动的硬件,复制里面的address这行参数出来 <address type='pci' domain='0x0000' bus='0x00 ...
- 域名服务DNSmasq搭建
假设该服务端主机ip是:192.168.80.100 服务端安装(yum方式) yum install dnsmasq -y # 配置系统文件 # cp /etc/resolv.conf /etc/r ...
- Prometheus与服务发现
这种按需的资源使用方式对于监控系统而言就意味着没有了一个固定的监控目标,所有的监控对象(基础设施.应用.服务)都在动态的变化.对于Prometheus这一类基于Pull模式的监控系统,显然也无法继续使 ...
- 分布式存储系统之Ceph基础
Ceph基础概述 Ceph是一个对象式存储系统,所谓对象式存储是指它把每一个待管理的数据流(比如一个文件)切分成一到多个固定大小的对象数据,并以其为原子单元完成数据的存取:对象数据的底层存储服务由多个 ...
- Python实现改进后的Bi-RRT算法实例
Python实现改进后的Bi-RRT算法实例 1.背景说明 以下代码是参照上海交通大学海洋工程国家重点实验室<基于改进双向RRT的无人艇局部路径规划算法研究>的算法思想实现的. 2.算法流 ...
- python续集
上集回顾 数据类型内置方法简介 所有的数据类型基本上都自带了一些操作以及通过点的方式调用自带的方法 整型相关操作 类型转换 int() 十进制转其他进制 bin() oct() hex() 其他进制转 ...
- 驱动开发:内核中实现Dump进程转储
多数ARK反内核工具中都存在驱动级别的内存转存功能,该功能可以将应用层中运行进程的内存镜像转存到特定目录下,内存转存功能在应对加壳程序的分析尤为重要,当进程在内存中解码后,我们可以很容易的将内存镜像导 ...
- HFS局域网分享文件的神器(附下载链接)
温馨提示,下载链接在页末 前言 假如说你需要传递个学习资料给好基友,我们有许多种方式可选:硬盘媒介.网络分享等. 要是论速度,还是得拿3.0或以上的U盘来拷贝,确实神速哈哈.但是其也有局限性,比如需要 ...
- 动态搜索图书:可以按书名、作者、出版社以及价格范围进行搜索。(在IDEA中mybatis)
中午找了好久.好多人写的都驴头不对马嘴.自己实现后.才发现是真的不麻烦.也不知道人家咋想的.写的死麻烦还没用.老是搜出sql语句写死的.我要的是动态滴.自己写出后.总结了一下 1.按照书名.作者.出版 ...