hadoop面试

hadoop.apache.org
spark.apache.org
flink.apache.org
hadoop :HDFS/YARN/MAPREDUCE

HDFS读写流程

NameNode
DataNode
SecondaryNameNode

写流程

1. 客户端请求NameNode (几副本，block大小和个数)

2 NameNode返回可以存的datanode,存储元数据信息

3. 数据按最近原则存储，DN->DN-->DN

读流程

client 请求NameNode，将元数据信息返回给客户端，客户端到最近的DataNode数据地址获取数据。

NameNode HA高可用

1. 两个NameNode ，一个active状态，一个standby 状态

2. 同一时间节点只有active提供服务

3. standy 负责同步备份active的状态。

4. 有监控器监控active，active 挂了后，standy 变成active状态。

5. 过程中用到zk

小文件

引起小文件的原因：

1. spark 任务产生大量小文件

2. reduce, task是数据设置分区太多等

3.源数据本身就有大量小文件，上传到hdfs

小文件给hadoop带来的瓶颈
1. 磁盘io问题
2. 性能问题：任务开启和销毁开销大
3. 导致NameNode大量元数据信息，消耗大量的内存

如何解决小文件问题

SQL on hadoop 业界常用框架
hive : sql => 对应的执行引擎的作业：MapRedduce/Spark/Tez
imala: 很吃内存
Presto:JD 用的多
Drill:
Phoenix:HBase(基于rowkey 查询)，可以提供2级索引
Spark SQL:Spark 社区

MetaStore：存储元数据信息

sql on hadoop 调优策略

调优：在资源不变的前提下，让作业的执行性能有提升，调两大类：CPU负载，IO负载
1.架构层面调优

分表
分区表 partition
充分利用中间结果集
压缩：
使用压缩算法“减少数据的过程”，减少磁盘IO ，网路IO
gzip
压缩在大数据中使用场景：
1.输入数据
2.中间数据
3.输出数据

前提：
1. 行式存储
2.每分钟2亿条数据
业务架构：
Flume => HDFS=> Spark ETL => Spark SQL => SQL => Spark SQL/NoSQL

分区表，多分区（d/h）分区表，多分区（d/h）

大宽表统计分析结果表供可视化结果展示
用户日志：
分区表：单级分区，多级分区，静态分区，动态分区

2. 语法层面调优
排序 order by/sort by/distribute by/cluster by
控制输出的数量（reduce/partition/task）
join:普通join/mapjoin
执行计划

3. 执行层面调优
推测执行
并行执行
JVM重用

储存方式
行式存储

列式存储:

1.相较于行式存储，列式存储的查询速度非常快。

2.数据易维护，当我们更新数据时，历史数据会有版本号，不会被改变或者消失。

3.非常适合大数据分析和高并发。

但是，缺点也很明显。列式存储在表关联上确实让人“头痛”不已。

总结下来，我突然觉得列式存储适合做数据分析，在业务繁杂的生产系统方面可能有所欠缺。

hadoop面试的更多相关文章

hadoop面试100道收集（带答案）
1.列出安装Hadoop流程步骤 a) 创建hadoop账号 b) 更改ip c) 安装Java 更改/etc/profile 配置环境变量 d) 修改host文件域名 e) 安装ssh 配置无密码登 ...
hadoop面试时可能遇到的问题
面试hadoop可能被问到的问题,你能回答出几个 ? 1.hadoop运行的原理? 2.mapreduce的原理? 3.HDFS存储的机制? 4.举一个简单的例子说明mapreduce是怎么来运行的 ...
网上找的hadoop面试题目及答案
1.Hadoop集群可以运行的3个模式? 单机(本地)模式伪分布式模式全分布式模式2. 单机(本地)模式中的注意点? 在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM ...
hadoop面试时的一些问题解答
一. linux部分请阐述swap分区作用,您认为hadoop集群中的linux是否必须有swap分区? 答:在Linux中,如果一个进程的内存空间不足,那么,它会将内存中的部分数据 ...
Hadoop面试题目
1.Hadoop集群可以运行的3个模式? 单机(本地)模式伪分布式模式全分布式模式 2. 单机(本地)模式中的注意点? 在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个 ...
Hadoop面试链接
http://blog.csdn.net/haohaixingyun/article/details/52819457 http://blog.csdn.net/kingmax54212008/art ...
Hadoop 面试总结
1.简要描述如何安装配置一个开源的hadoop,只描述即可,列出完整步骤. a.创建一个用户和用户组,用来管理hadoop项目 b.修改确定ip地址:vim /etc/sysconfig/networ ...
hadoop面试复习笔记(1)
0.Mappereduce采用的是Master/Slaves模型 1.Hadoop是一个开源软件框架,支持支持大数据集的存储和处理.Apache Hadoop是存储和处理大数据的解决方案你是因为: ( ...
【转载】Hadoop面试（1）
转自:http://www.cnblogs.com/xiaolong1032/p/4504992.html 列举出hadoop常用的一些InputFormat InputFormat是用来对我们的输入 ...

随机推荐

【LeetCode】23. Merge k Sorted Lists 合并K个升序链表
作者: 负雪明烛 id: fuxuemingzhu 个人博客:http://fuxuemingzhu.cn/ 个人公众号:负雪明烛本文关键词:合并,链表,单链表,题解,leetcode, 力扣,Py ...
【LeetCode】768. Max Chunks To Make Sorted II 解题报告（Python）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 题目地址: https://leetcode.com/problems/max-chun ...
【LeetCode】343. Integer Break 解题报告（Python & C++）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法数学解法动态规划日期题目地址:https:// ...
GCD（hdu1695）
GCD Time Limit: 6000/3000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submiss ...
Dubbo为什么要用Go重写？
先说两句我常常在散步时思考很多技术上的「为什么问题」,有时一个问题会想很久,直到问题的每一个点都能说服自己时,才算完结.于是想把这些思考记录下来,形成文章,可以当做一个新的系列.这些文章中你可能看不 ...
CS5210设计HDMI to VGA方案|CS5210资料|CS5210设计电路方案
CS5210是一款HDMI转VGA转换器方案,其输出VGA信号可送到CRT/LED显示器,及投影机等,输入HDMI信号可以驳接电脑.PS3,XBOX360.蓝光DVD,输出VGA可以CRT/LED显示 ...
阿里云服务器配置 tomcat 发布spring boot项目的具体操作【使用公网ip】
1.前言 spring boot 转成war包后用tomcat发布的具体操作在我另一篇随笔有详细记载,不论是window系统还是Linux系统,tomcat的发布配置都是一样的,所以这里不具体讲这个 ...
spring cloud --- Zuul --- 心得
spring boot 1.5.9.RELEASE spring cloud Dalston.SR1 1.前言什么是 Zuul? Zuul是微服务网关,与Gateway类似 ,根据请 ...
Centos 6.8安装配置KVM
一.开启cpu虚拟化首先开启CPU虚拟化支持,通过BIOS设置.之后输入 [root@hostname ~]#egrep '(vmx|svm)' /prov/cpuinfo 如果有输出内容,代表cp ...
hisql orm 框架insert数据写入教程
hisql.net 官网(文档编写中) HiSql 源码(github) https://github.com/tansar/HiSql git clone https://github.com/ta ...