大数据面试吹牛草稿V2.0】的更多相关文章

公众号(五分钟学大数据)已推出大数据面试系列文章-五分钟小面试,此系列文章将会深入研究各大厂笔面试真题,并根据笔面试题扩展相关的知识点,助力大家都能够成功入职大厂! 大数据笔面试系列文章分为两种类型:混合型(即一篇文章中会有多个框架的知识点-融会贯通):专项型(一篇文章针对某个框架进行深入解析-专项演练). 此篇文章为系列文章的第二篇(JVM专项) 第一题:JVM内存相关(百度) 问:JVM内存模型了解吗,简单说下 答: 因为这块内容太多了,许多小伙伴可能记不住这么多,所以下面的答案分为简答和精…
给定一个数组,求和为定值的所有组合, 这道算法题在leetcode应该算是中等偏下难度, 对三到五年工作经验主要做业务开发的同学来说, 一般较难的也就是这种程度了. 简述经过: 不算hr面,总计四面,第一天前三面, 然后过了一个多星期第四面(领导一般都比较忙~) 平均每一面都是一小时,面完前三面已经很辛苦了. 我之前去美团面试从一面到hr面,总计四面 面了一下午将近四个小时...还不包括来回路程,所以面试是项体力+脑力的活,准备的充分了,面试成功率高少跑几次了~就会轻松不少~大部分同学面试面上几…
本篇大部分内容參考网上,当中性能部分參考:http://blog.cloudera.com/blog/2009/12/7-tips-for-improving-mapreduce-performance/.http://www.idryman.org/blog/2014/03/05/hadoop-performance-tuning-best-practices/ 原理篇: 1. Hadoop2.X的各个模块一句话简单介绍 1)Hadoop Common:为Hadoop其它模块提供支持的公共工具…
1.介绍 开源的列式存储数据库(DBMS),由C++编写,用于在线分析处理查询(OLAP) 可以通过SQL查询实时生成分析数据报告 解释: DBMS:数据库管理系统 常见的列式存储数据库:Hbase.ClickHouse.Druid OLAP:On-Line Analytical Processing,联机分析处理,做数据统计和分析的平台 OLTP:On-Line Transaction Processing,联机事务处理,业务数据处理的平台 2.特点 列式存储适用于聚合统计操作.便于压缩和缓存…
一.有没有遇到过问题,怎么进行解决的 1.空值问题 本质:hive底层存储空数据使用\n<==>MySQL存储空数据使用null 解决:双向导入均分别使用两个参数☆,之前讲过 2.数据一致性问题 Hive            ==>         MySQL 默认是4个map 2个成功,2个失败 原则:数据可以没有,但不能有错误 原因:数仓是为决策使用的 保证数据一致性的参数:--staging 3.ads层是parquet列式存储/ORC   ==>  导出到MySQL,能否…
一.组成 1.架构 源数据原本是存在dubby数据库,存在MySQL可以支持多个客户端 客户端.数据存储(HDFS).MR计算引擎 2.计算引擎的选择 MR引擎:基于磁盘,计算时间长,但一定能算出结果[一般用于计算周指标.月指标.年指标,一个任务3-5天] tez引擎:基于内存,计算时间快,如果宕机,数据直接丢掉[一般用于临时调试,但容易出现OOM] Spark引擎:既基于内存,也会落盘,居中[一般用于每天的定时任务] 二.与MySQL/Hbase的区别 hive               …
一.基本信息 1.组成 生产者 broker 消费者 zookeeper:brokerid.consumer信息(不包含生产者的信息) 2.需要安装多少台 2 * (生产者的峰值生产速率 * 副本 / 100) + 1 = 3 生产环境下,配置副本的数量为2-3个,2个居多 3.副本的优势和劣势 副本越多,越能提高可靠性 增加了网络IO传输 4.峰值生产速率,一般在百兆左右每秒 需要使用压力测试 如,10T数据,多长时间可以传输完 消费速率也是百兆每秒 5.监控器用的什么 kafka egale…
一.Hadoop1.0 与 Hadoop2.0的区别…
大数据篇:DolphinScheduler-1.2.0.release安装部署 1 配置jdk #查看命令 rpm -qa | grep java #删除命令 rpm -e --nodeps xxx 将oracle-j2sdk1.8-1.8.0+update181-1.x86_64.rpm上传至每个节点安装 rpm -ivh oracle-j2sdk1.8-1.8.0+update181-1.x86_64.rpm 修改配置文件 vim /etc/profile #添加 export JAVA_H…
三.窗口 1.窗口的介绍 (1)含义 将无限的流式数据切割为有限块处理,以便于聚合等操作 (2)图解 2.窗口的分类 (1)按性质分 Flink 支持三种划分窗口的方式,time.count和会话窗口(Session Windows):session间隔定义了非活跃周期的长度,一段时间没有接收到新数据就会生成新的窗口.如果根据时间划分窗口,那么它就是一个time-window(时间窗口):如果根据数据划分窗口,那么它就是一个count-window(数量窗口).一段时间没有接收到新数据就会生成新…