【大数据面试】Flink 01 概述：包含内容、层次架构、运行组件、部署模式、任务提交流程、任务调度概念、编程模型组成

【【大数据面试】Flink 01 概述：包含内容、层次架构、运行组件、部署模式、任务提交流程、任务调度概念、编程模型组成】的更多相关文章

【大数据面试】【框架】Hive：架构、计算引擎、比较、内外部表、by、函数、优化、数据倾斜、动静态分区

一.组成 1.架构源数据原本是存在dubby数据库,存在MySQL可以支持多个客户端客户端.数据存储(HDFS).MR计算引擎 2.计算引擎的选择 MR引擎:基于磁盘,计算时间长,但一定能算出结果[一般用于计算周指标.月指标.年指标,一个任务3-5天] tez引擎:基于内存,计算时间快,如果宕机,数据直接丢掉[一般用于临时调试,但容易出现OOM] Spark引擎:既基于内存,也会落盘,居中[一般用于每天的定时任务] 二.与MySQL/Hbase的区别 hive …

面试系列二：精选大数据面试真题JVM专项-附答案详细解析

公众号(五分钟学大数据)已推出大数据面试系列文章-五分钟小面试,此系列文章将会深入研究各大厂笔面试真题,并根据笔面试题扩展相关的知识点,助力大家都能够成功入职大厂! 大数据笔面试系列文章分为两种类型:混合型(即一篇文章中会有多个框架的知识点-融会贯通):专项型(一篇文章针对某个框架进行深入解析-专项演练). 此篇文章为系列文章的第二篇(JVM专项) 第一题:JVM内存相关(百度) 问:JVM内存模型了解吗,简单说下答: 因为这块内容太多了,许多小伙伴可能记不住这么多,所以下面的答案分为简答和精…

【大数据面试】Flink 01 概述：包含内容、层次架构、运行组件、部署模式、任务提交流程、任务调度概念、编程模型组成

一.概述 1.介绍对无界和有界数据流进行有状态计算的分布式引擎和框架,并可以使用高层API编写分布式任务,主要包括: DataSet API(批处理):静态数据抽象为分布式数据集,方便使用操作符进行处理(Python) DataStream API(流处理):对分布式流数据处理,从而进行各种操作 Table API:将结构化数据抽象为关系表,并使用类SQL的DSL的表进行查询其他特定领域的库,例如机器学习.图计算 2.分层架构介绍 (1)介绍分层架构,下层组件提供抽象服务于上层 (2)自下…

大数据及Hadoop的概述

一.大数据存储和计算的各种框架即工具 1.存储:HDFS:分布式文件系统 Hbase:分布式数据库系统 Kafka:分布式消息缓存系统 2.计算:Mapreduce:离线计算框架 storm:实时流式计算 spark:离线批处理/实时流处理计算框架(MR的二次封装) 3.辅助类工具:hive:数据仓库工具 flume:数据采集工具 sqoop:数据迁移工具二.大数据应用场景: 典型应用:公司运营情况 =>典型网站:CNZZ.数据专家.友盟电商广告推荐系统:淘宝.京东.…

Laxcus大数据管理系统2.0（12）- 第十章运行

第十章运行本章将介绍一些Laxcus集群基本运行.使用情况,结合图片和表格表示.地点是我们的大数据实验室,使用我们的实验集群.数据来自于我们的合作伙伴,软件平台混合了Windows和Fedora Linux两个操作系统,硬件因为一直以来的测试需要,显得参差不齐,从10年前的旧机器到今天最新的设备都有.这样的环境虽然不足以反映目前商业运营的集群现实状况,但是在反映Laxcus集群和集群基础硬件性能参数时,仍然具有一定的代表性.为了更好反映测试结果,我们将多用户多集群的Laxcus部署成单用户单…

【大数据】Summingbird（Storm + Hadoop）的demo运行

一.前言为了运行summingbird demo,笔者走了很多的弯路,并且在国内基本上是查阅不到任何的资料,耗时很久才搞定了demo的运行.真的是一把辛酸泪,有兴趣想要研究summingbird的园友且听笔者一一道来,大体可以将summingbird理解为Storm + Hadoop. 二.大数据处理快速预览大数据时代的来临,将大数据处理分为了批量处理与实时处理两个方向,批量处理的优势在于容错性好,因为数据时先存在本地或者是分布式的进行存储,可以重复对数据进行处理,劣势在于速度慢,要等到数据…

【大数据面试】Flink 04：状态编程与容错机制、Table API、SQL、Flink CEP

六.状态编程与容错机制 1.状态介绍 (1)分类流式计算分为无状态和有状态无状态流针对每个独立事件输出结果,有状态流需要维护一个状态,并基于多个事件输出结果(当前事件+当前状态值) (2)有状态计算举例窗口复杂事件处理:一分钟出现两次流与other的关联操作 2.有状态的算子数据源source,数据存储sink都是有状态的状态与算子相关联,有两种类型的状态:算子状态和键控状态 (1)算子状态(operator state) 为算子状态提供三种基本数据结构:列表状态(List sta…

【大数据面试】Flink 03-窗口、时间语义和水印、ProcessFunction底层API

三.窗口 1.窗口的介绍 (1)含义将无限的流式数据切割为有限块处理,以便于聚合等操作 (2)图解 2.窗口的分类 (1)按性质分 Flink 支持三种划分窗口的方式,time.count和会话窗口(Session Windows):session间隔定义了非活跃周期的长度,一段时间没有接收到新数据就会生成新的窗口.如果根据时间划分窗口,那么它就是一个time-window(时间窗口):如果根据数据划分窗口,那么它就是一个count-window(数量窗口).一段时间没有接收到新数据就会生成新…

【大数据面试】Flink 02 基本操作：入门案例、Env、Source、Transform、数据类型、UDF、Sink

二.基本操作 1.入门案例 (1)批处理wordcount--DataSet val env = ExecutionEnvironment.getExecutionEnvironment // 从文件中读取数据 val inputPath = "D:\\Projects\\BigData\\TestWC1\\src\\main\\resources\\hello.txt" val inputDS: DataSet[String] = env.readTextFile(inputPath…

Hadoop大数据面试--Hadoop篇

本篇大部分内容參考网上,当中性能部分參考:http://blog.cloudera.com/blog/2009/12/7-tips-for-improving-mapreduce-performance/.http://www.idryman.org/blog/2014/03/05/hadoop-performance-tuning-best-practices/ 原理篇: 1. Hadoop2.X的各个模块一句话简单介绍 1)Hadoop Common:为Hadoop其它模块提供支持的公共工具…