大数据面试——Flink】的更多相关文章

公众号(五分钟学大数据)已推出大数据面试系列文章-五分钟小面试,此系列文章将会深入研究各大厂笔面试真题,并根据笔面试题扩展相关的知识点,助力大家都能够成功入职大厂! 大数据笔面试系列文章分为两种类型:混合型(即一篇文章中会有多个框架的知识点-融会贯通):专项型(一篇文章针对某个框架进行深入解析-专项演练). 此篇文章为系列文章的第二篇(JVM专项) 第一题:JVM内存相关(百度) 问:JVM内存模型了解吗,简单说下 答: 因为这块内容太多了,许多小伙伴可能记不住这么多,所以下面的答案分为简答和精…
六.状态编程与容错机制 1.状态介绍 (1)分类 流式计算分为无状态和有状态 无状态流针对每个独立事件输出结果,有状态流需要维护一个状态,并基于多个事件输出结果(当前事件+当前状态值) (2)有状态计算举例 窗口 复杂事件处理:一分钟出现两次 流与other的关联操作 2.有状态的算子 数据源source,数据存储sink都是有状态的 状态与算子相关联,有两种类型的状态:算子状态和键控状态 (1)算子状态(operator state) 为算子状态提供三种基本数据结构:列表状态(List sta…
三.窗口 1.窗口的介绍 (1)含义 将无限的流式数据切割为有限块处理,以便于聚合等操作 (2)图解 2.窗口的分类 (1)按性质分 Flink 支持三种划分窗口的方式,time.count和会话窗口(Session Windows):session间隔定义了非活跃周期的长度,一段时间没有接收到新数据就会生成新的窗口.如果根据时间划分窗口,那么它就是一个time-window(时间窗口):如果根据数据划分窗口,那么它就是一个count-window(数量窗口).一段时间没有接收到新数据就会生成新…
二.基本操作 1.入门案例 (1)批处理wordcount--DataSet val env = ExecutionEnvironment.getExecutionEnvironment // 从文件中读取数据 val inputPath = "D:\\Projects\\BigData\\TestWC1\\src\\main\\resources\\hello.txt" val inputDS: DataSet[String] = env.readTextFile(inputPath…
一.概述 1.介绍 对无界和有界数据流进行有状态计算的分布式引擎和框架,并可以使用高层API编写分布式任务,主要包括: DataSet API(批处理):静态数据抽象为分布式数据集,方便使用操作符进行处理(Python) DataStream API(流处理):对分布式流数据处理,从而进行各种操作 Table API:将结构化数据抽象为关系表,并使用类SQL的DSL的表进行查询 其他特定领域的库,例如机器学习.图计算 2.分层架构介绍 (1)介绍 分层架构,下层组件提供抽象服务于上层 (2)自下…
给定一个数组,求和为定值的所有组合, 这道算法题在leetcode应该算是中等偏下难度, 对三到五年工作经验主要做业务开发的同学来说, 一般较难的也就是这种程度了. 简述经过: 不算hr面,总计四面,第一天前三面, 然后过了一个多星期第四面(领导一般都比较忙~) 平均每一面都是一小时,面完前三面已经很辛苦了. 我之前去美团面试从一面到hr面,总计四面 面了一下午将近四个小时...还不包括来回路程,所以面试是项体力+脑力的活,准备的充分了,面试成功率高少跑几次了~就会轻松不少~大部分同学面试面上几…
一.有没有遇到过问题,怎么进行解决的 1.空值问题 本质:hive底层存储空数据使用\n<==>MySQL存储空数据使用null 解决:双向导入均分别使用两个参数☆,之前讲过 2.数据一致性问题 Hive            ==>         MySQL 默认是4个map 2个成功,2个失败 原则:数据可以没有,但不能有错误 原因:数仓是为决策使用的 保证数据一致性的参数:--staging 3.ads层是parquet列式存储/ORC   ==>  导出到MySQL,能否…
三.MapReduce 1.Shuffle及其优化☆ Shuffle是Map方法之后,Reduce方法之前,混洗的过程 Map-->getPartition(标记数据的分区)-->对应的环形缓冲区(一侧存数据,一侧存索引,默认大小为100M,达到80%时进行反向溢写以提高空间利用率) (溢写前需要对数据进行排序,默认快排,对key的索引排序,按照字典顺序排)(会产生大量的溢写文件) [如何对溢写文件进行排序]:按照指定分区进行归并排序 优化: 环形缓冲区调整为200m,反向溢写的比例达到90+…
本篇大部分内容參考网上,当中性能部分參考:http://blog.cloudera.com/blog/2009/12/7-tips-for-improving-mapreduce-performance/.http://www.idryman.org/blog/2014/03/05/hadoop-performance-tuning-best-practices/ 原理篇: 1. Hadoop2.X的各个模块一句话简单介绍 1)Hadoop Common:为Hadoop其它模块提供支持的公共工具…
1.介绍 开源的列式存储数据库(DBMS),由C++编写,用于在线分析处理查询(OLAP) 可以通过SQL查询实时生成分析数据报告 解释: DBMS:数据库管理系统 常见的列式存储数据库:Hbase.ClickHouse.Druid OLAP:On-Line Analytical Processing,联机分析处理,做数据统计和分析的平台 OLTP:On-Line Transaction Processing,联机事务处理,业务数据处理的平台 2.特点 列式存储适用于聚合统计操作.便于压缩和缓存…