Spark核心组件通识概览

在说Spark之前，笔者在这里向对Spark感兴趣的小伙伴们建议，想要了解、学习、使用好Spark，Spark的官网是一个很好的工具，几乎能满足你大部分需求。同时，建议学习一下scala语言，主要基于两点：1. Spark是scala语言编写的，要想学好Spark必须研读分析它的源码，当然其他技术也不例外；2. 用scala语言编写Spark程序相对于用Java更方便、简洁、开发效率更高（后续我会针对scala语言做单独讲解）。书归正传，下面整体介绍一下Spark生态圈。

Apache Spark是一种快速、通用、可扩展、可容错的、基于内存迭代计算的大数据分析引擎。首先强调一点, Spark目前是一个处理数据的计算引擎, 不做存储。首先咱们通过一张图来看看目前Spark生态圈都包括哪些核心组件：

本篇文章先简单介绍一下各个组件的使用场景，后续笔者会单独详解其中的核心组件，以下所讲均基于Spark2.X版本。

Spark RDD和Spark SQL

Spark RDD和Spark SQL多用于离线场景，但Spark RDD即可以处理结构化数据也可以处理非结构数据，但Spark SQL是处理结构化数据的，内部通过dataset来处理分布式数据集

SparkStreaming和StructuredStreaming

用于流式处理，但强调一点Spark Streaming是基于微批处理来处理数据的，即使Structured Streaming在实时方面作了一定优化，但就目前而言，相对于Flink、Storm，Spark的流式处理准备确实准实时处理

MLlib

用于机器学习，当然pyspark也有应用是基于python做数据处理

GraphX

用于图计算

Spark R

基于R语言进行数据处理、统计分析的

下面介绍一下Spark的特性

快
实现DAG执行引擎，基于内存迭代式计算处理数据，Spark可以将数据分析过程的中间结果保存在内存中，从而不需要反复的从外部存储系统中读写数据，相较于mapreduce能更好地适用于机器学习和数据挖掘和等需要迭代运算的场景。
易用
支持scala、java、python、R多种语言；支持多种高级算子（目前有80多种），使用户可以快速构建不同应用；支持scala、python等shell交互式查询
通用
Spark强调一站式解决方案，集批处理、流处理、交互式查询、机器学习及图计算于一体，避免多种运算场景下需要部署不同集群带来的资源浪费
容错性好
在分布式数据集计算时通过checkpoint来实现容错，当某个运算环节失败时，不需要从头开始重新计算【往往是checkpoint到HDFS上】
兼容性强
可以运行在Yarn、Kubernetes、Mesos等资源管理器上，实现Standalone模式作为内置资源管理调度器，支持多种数据源

关注微信公众号：大数据学习与分享，获取更多技术干货

Spark核心组件通识概览的更多相关文章

[Spark Core] Spark 核心组件
0. 说明 [Spark 核心组件示意图] 1. RDD resilient distributed dataset , 弹性数据集轻量级的数据集合,逻辑上的集合.等价于 list 没有携带数据. ...
Spark核心组件
Spark核心组件 1.RDD resilient distributed dataset, 弹性分布式数据集.逻辑上的组件,是spark的基本抽象,代表不可变,分区化的元素集合,可以进行并行操作.该 ...
【原】Spark Rpc通信源码分析
Spark 1.6+推出了以RPCEnv.RPCEndpoint.RPCEndpointRef为核心的新型架构下的RPC通信方式.其具体实现有Akka和Netty两种方式,Akka是基于Scala的A ...
前端进阶笔记（一）---JS语言通识
一.语言按照语法分类 1.非形式语言:中文英文 2.形式语言:乔姆斯基谱系(四种文法上下文包含文法) 0型无限制文法 1型上下文相关文法 2型上下文无关文法正则文法二产生式(BNF) ...
linux通识
linux是服务器应用领域的开源且免费的多用户多任务操作系统的内核. 以下是对上述论断的解释: 操作系统简言之,操作系统乃是所有计算设备的大管家,小到智能手表,大到航天航空设备,所有需要操控硬件的地 ...
java IO流体系--通识篇
1.I/O流是什么 Java的I/O流是实现编程语言的输入/输出的基础能力,操作的对象有外部设备.存储设备.网络连接等等,是所有服务器端的编程语言都应该具备的基础能力. I = Input(输入),输 ...
Spark内核| 调度策略| SparkShuffle| 内存管理| 内存空间分配| 核心组件
1. 调度策略 TaskScheduler会先把DAGScheduler给过来的TaskSet封装成TaskSetManager扔到任务队列里,然后再从任务队列里按照一定的规则把它们取出来在Sched ...
《大数据Spark企业级实战》
基本信息作者: Spark亚太研究院王家林丛书名:决胜大数据时代Spark全系列书籍出版社:电子工业出版社 ISBN:9787121247446 上架时间:2015-1-6 出版日期:20 ...
【大数据】Spark内核解析
1. Spark 内核概述 Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制.Spark任务调度机制.Spark内存管理机制.Spark核心功能的运行原理等,熟练掌握Spa ...

随机推荐

shell 逻辑判断
|| && 查了 Stack Overflow ||,表示或,从前往后执行,执行第一个真 &&,前者是真才会接着执行 ; 表示接着往下执行,不管前者如何 #!/bin/ ...
GaussDB(DWS)应用实战：对被视图引用的表进行DDL操作
摘要:GaussDB(DWS)是从Postgres演进过来的,像Postgres一样,如果表被视图引用的话,特定场景下,部分DDL操作是不能直接执行的. 背景说明 GaussDB(DWS)是从Post ...
spring boot+spring security集成以及Druid数据库连接池的问题
贴工程目录,其中bll目录下是service+dao层,common是一些公用的模块及功能类,web是controller层用到了druid及Redis,工具及配置类目录(本文不介绍如何配置drui ...
python基础：内置函数zip,map,filter
一.zip zip,就是把俩list,合并到一起,如果想同时循环2个list的时候,可以用zip,会帮你轮流循环两个list 比如: l1=[1,2,3,4,5] l2=['a','b','c','d ...
Robotframework自动化6-基础关键字介绍3
这一章节介绍一下断言时用到的关键字,断言是写测试用例的必备,没有断言的测试用例是没有灵魂的. 一:Should Be Equal Should Be Equal 是用来判断实践结果和预期结果是否一致 ...
基于JavaScript的表格设计：按序添加或删除班级的学生信息
目的: 制作一个表格,显示班级的学生信息功能: 鼠标移到不同行,背景色发生改变,离开恢复原背景色添加.删除按钮,可添加,可删除. 程序流程: 首先先建立绑定事件函数. 其次建立鼠标移动改变背景色函 ...
Knowledge 1：Propositional Logic 命题逻辑基础及符号
Keywords reasoning 推理 Deductive reasoning(for a basic logic) 演绎推理 analogy 类比:比喻 /əˈnælədʒi/ definiti ...
最全总结 | 聊聊 Python 数据处理全家桶（Mysql 篇）
1. 前言在爬虫.自动化.数据分析.软件测试.Web 等日常操作中,除 JSON.YAML.XML 外,还有一些数据经常会用到,比如:Mysql.Sqlite.Redis.MongoDB.Memch ...
学习使用PSTools工具中的psping
目录初识PsTools psping 1.使用ICMP ping 2.使用TCP ping 3.延迟测试 4.带宽测试 5.同功能的tcping工具总结初识PsTools 在工作中我们都 ...
maven问题汇总
Failed to read artifact descriptor for xxx:jar 在MyEclipse中执行Maven的install命令时,报“Failed to read artifa ...

Spark核心组件通识概览

Spark核心组件通识概览的更多相关文章

随机推荐

热门专题