大数据学习：Spark是什么，如何用Spark进行数据分析

给大家分享一下Spark是什么?如何用Spark进行数据分析，对大数据感兴趣的小伙伴就随着小编一起来了解一下吧。

大数据在线学习

什么是Apache Spark?

Apache Spark是一个为速度和通用目标设计的集群计算平台。

从速度的角度看，Spark从流行的MapReduce模型继承而来，可以更有效地支持多种类型的计算，如交互式查询和流处理。速度在大数据集的处理中非常重要，它可以决定用户可以交互式地处理数据，还是等几分钟甚至几小时。Spark为速度提供的一个重要特性是其可以在内存中运行计算，即使对基于磁盘的复杂应用，Spark依然比MapReduce更有效。

从通用性来说，Spark可以处理之前需要多个独立的分布式系统来处理的任务，这些任务包括批处理应用、交互式算法、交互式查询和数据流。通过用同一个引擎支持这些任务，Spark使得合并不同的处理类型变得简单，而合并操作在生产数据分析中频繁使用。而且，Spark降低了维护不同工具的管理负担。

Spark被设计的高度易访问，用Python、Java、Scala和SQL提供简单的API，而且提供丰富的内建库。Spark也与其他大数据工具进行了集成。特别地，Spark可以运行在Hadoop的集群上，可以访问任何Hadoop的数据源，包括Cassandra。

Spark 核心组件

Spark核心组件包含Spark的基本功能，有任务调度组件、内存管理组件、容错恢复组件、与存储系统交互的组件等。Spark核心组件提供了定义弹性分布式数据集(resilient distributed datasets，RDDs)的API，这组API是Spark主要的编程抽象。RDDs表示分布在多个不同机器节点上，可以被并行处理的数据集合。Spark核心组件提供许多API来创建和操作这些集合。

Spark SQLSpark SQL是Spark用来处理结构化数据的包。它使得可以像Hive查询语言(Hive Query Language, HQL)一样通过SQL语句来查询数据，支持多种数据源，包括Hive表、Parquet和JSON。除了为Spark提供一个SQL接口外，Spark SQL允许开发人员将SQL查询和由RDDs通过Python、Java和Scala支持的数据编程操作混合进一个单一的应用中，进而将SQL与复杂的分析结合。与计算密集型环境紧密集成使得Spark SQL不同于任何其他开源的数据仓库工具。Spark SQL在Spark 1.0版本中引入Spark。

Shark是一个较老的由加利福尼亚大学和伯克利大学开发的Spark上的SQL项目，通过修改Hive而运行在Spark上。现在已经被Spark SQL取代，以提供与Spark引擎和API更好的集成。

Spark流(Spark Streaming)Spark流作为Spark的一个组件，可以处理实时流数据。流数据的例子有生产环境的Web服务器生成的日志文件，用户向一个Web服务请求包含状态更新的消息。Spark流提供一个和Spark核心RDD API非常匹配的操作数据流的API，使得编程人员可以更容易地了解项目，并且可以在操作内存数据、磁盘数据、实时数据的应用之间快速切换。Spark流被设计为和Spark核心组件提供相同级别的容错性，吞吐量和可伸缩性。

MLlibSpark包含一个叫做MLlib的关于机器学习的库。MLlib提供多种类型的机器学习算法，包括分类、回归、聚类和协同过滤，并支持模型评估和数据导入功能。MLlib也提供一个低层的机器学习原语，包括一个通用的梯度下降优化算法。所有这些方法都可以应用到一个集群上。

GraphXGraphX是一个操作图(如社交网络的好友图)和执行基于图的并行计算的库。与Spark流和Spark SQL类似，GraphX扩展了Spark RDD API，允许我们用和每个节点和边绑定的任意属性来创建一个有向图。GraphX也提供了各种各样的操作图的操作符，以及关于通用图算法的一个库。

集群管理器Cluster Managers在底层，Spark可以有效地从一个计算节点扩展到成百上千个节点。为了在最大化灵活性的同时达到这个目标，Spark可以运行在多个集群管理器上，包括Hadoop YARN，Apache Mesos和一个包含在Spark中的叫做独立调度器的简易的集群管理器。如果你在一个空的机器群上安装Spark，独立调度器提供一个简单的方式;如果你已经有一个Hadoop YARN或Mesos集群，Spark支持你的应用允许在这些集群管理器上。第七章给出了不同的选择，以及如何选择正确的集群管理器。

谁使用Spark?用Spark做什么?

由于Spark是一个面向集群计算的通用框架，可用于许多不同的应用。使用者主要有两种：数据科学家和数据工程师。我们仔细地分析一下这两种人和他们使用Spark的方式。明显地，典型的使用案例是不同的，但我们可以将他们粗略地分为两类，数据科学和数据应用。

数据科学的任务数据科学，近几年出现的一门学科，专注于分析数据。尽管没有一个标准的定义，我们认为一个数据科学家的主要工作是分析和建模数据。数据科学家可能会SQL，统计学，预测模型(机器学习)，用Python、MATLAB或R编程。数据科学家能将数据格式化，用于进一步的分析。

数据科学家为了回答一个问题或进行深入研究，会使用相关的技术分析数据。通常，他们的工作包含特殊的分析，所以他们使用交互式shell，以使得他们能在最短的时间内看到查询结果和代码片段。Spark的速度和简单的API接口很好地符合这个目标，它的内建库意味着很多算法可以随时使用。

Spark通过若干组件支持不同的数据科学任务。Spark shell使得用Python或Scala进行交互式数据分析变得简单。Spark SQL也有一个独立的SQL shell，可以用SQL进行数据分析，也可以在Spark程序中或Spark shell中使用Spark SQL。MLlib库支持机器学习和数据分析。而且，支持调用外部的MATLAB或R语言编写的程序。Spark使得数据科学家可以用R或Pandas等工具处理包含大量数据的问题。

有时，经过初始的数据处理阶段后，数据科学家的工作将被产品化，扩展，加固(容错性)，进而成为一个生产数据处理应用，作为商业应用的一个组件。例如，一个数据科学家的研究成果可能会产生一个产品推荐系统，集成到一个web应用上，用来向用户生成产品建议。通常由另外的人员(如工程师)对数据科学家的工作进行产品化。

数据处理应用Spark的另外一个主要的使用可以从工程师的角度进行描述。在这里，工程师指使用Spark来构建生产数据处理应用的大量的软件开发者。这些开发者了解软件工程的概念和原则，如封装、接口设计和面向对象编程。他们通常有计算机学科的学位。他们通过自己的软件工程技能来设计和构建实现某个商业使用场景的软件系统。

对工程师而言，Spark提供了一个简单的方式在集群之间并行化这些应用，隐藏了分布式系统、网络通信和容错处理的复杂性。系统使得工程师在实现任务的同时，有充足的权限监控、检查和调整应用。API的模块特性使得重用已有工作和本地测试变得简单。

Spark用户使用Spark作为其数据处理应用，因为他提供了丰富的功能，易于学习和使用，而且成熟可靠。如果你已经做好准备，那么就立即开始行动吧！

大家多多关注，你的关注是我最大的动力。

想学习大数据的可以加群：142973723

大数据学习：Spark是什么，如何用Spark进行数据分析的更多相关文章

大数据学习系列之九---- Hive整合Spark和HBase以及相关测试
前言在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为h ...
大数据学习系列之六 ----- Hadoop+Spark环境搭建
引言在上一篇中大数据学习系列之五 ----- Hive整合HBase图文详解 : http://www.panchengming.com/2017/12/18/pancm62/ 中使用Hive整合 ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...
大数据学习day29-----spark09-------1. 练习：统计店铺按月份的销售额和累计到该月的总销售额（SQL, DSL,RDD） 2. 分组topN的实现（row_number(), rank(), dense_rank()方法的区别）3. spark自定义函数-UDF
1. 练习数据: (1)需求1:统计有过连续3天以上销售的店铺有哪些,并且计算出连续三天以上的销售额第一步:将每天的金额求和(同一天可能会有多个订单) SELECT sid,dt,SUM(mone ...
大数据学习系列之五 ----- Hive整合HBase图文详解
引言在上一篇大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环 ...
大数据学习之Hadoop快速入门
1.Hadoop生态概况 Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠.高效 ...
大数据学习（一） | 初识 Hadoop
作者: seriouszyx 首发地址:https://seriouszyx.top/ 代码均可在 Github 上找到(求Star) 最近想要了解一些前沿技术,不能一门心思眼中只有 web,因为我目 ...
大数据学习路线，来qun里分享干货，
一.Linux lucene: 全文检索引擎的架构 solr: 基于lucene的全文搜索服务器,实现了可配置.可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面. 推荐一个大数据学习群 ...
大数据学习day38----数据仓库01-----区域字典的生成
更多内容见文档 1. 区域字典的生成 mysql中有如下表格数据现要将这类数据转换成(GEOHASH码, 省,市,区)如下所示 (1)第一步:在mysql中使用sql语句对表格数据进行整理(此处使用 ...

随机推荐

MySQL经典错误
本文目录: Top 1:Too many connections(连接数过多,导致连接不上数据库,业务无法正常进行)Top 2:(主从复制报错类型)Top 3:MySQL安装过程中的报错Top 4:数 ...
了解 Azure VM 的系统重启
有时 Azure 虚拟机 (VM) 可能重启,即使没有明显原因,也没有证据表明用户发起重启操作. 本文列出了可导致 VM 重启的操作和事件,并针对如何避免意外重启问题或减少该问题影响提供见解. 配置 ...
C# 递归函数详细介绍及使用方法
什么是递归函数/方法? 任何一个方法既可以调用其他方法也可以调用自己,而当这个方法调用自己时,我们就叫它递归函数或递归方法. 通常递归有两个特点: 1. 递归方法一直会调用自己直到某些条件被满足 2. ...
[翻译] JTNumberScrollAnimatedView
JTNumberScrollAnimatedView 本人视频教程系类 iOS中CALayer的使用效果: Use JTNumberScrollAnimatedView for have a n ...
沉淀，再出发：jQuery的初步了解和入门
沉淀,再出发:jQuery的初步了解和入门一.前言对于后端开发者来说,是不是真的不需要了解前端的开发经过和相关技术,从我个人的角度来说,我觉得如果不了解或者接触很少,极有可能造成开发的时候 ...
期初付年金（annuity-due）
含义:在 n 个时期,每个时期初付款1元. ——期初付年金的现值因子 ——期初付年金的积累值因子关系: 二.期初付年金和期末付年金的关系
centos7 docker 使用pipework 做虚拟机
网卡配置文件及 bridge的静态配置 centos7 Bridge配置 [root@mon-1 ~]# cd /etc/sysconfig/network-scripts/ [root@mon- ...
类库文件引用web服务报错解决方法-在 ServiceModel 客户端配置部分中，找不到引用协定的默认终结点元素
由于需求,需要改造原有应用,因原有应用是写在console下面的,现在需要开放至web下, 想到BIZ层应用代码都是一样的,又不想在web下在添加引用,而重复写代码,故将原有的console下的服务和 ...
Java遇到的问题、错误——持续更新
内容:dead code.关于eclipse没有js代码提示的解决持续更新 ######################################################## dead ...
组合数取模&&Lucas定理题集
题集链接: https://cn.vjudge.net/contest/231988 解题之前请先了解组合数取模和Lucas定理 A : FZU-2020 输出组合数C(n, m) mod p (1 ...

大数据学习：Spark是什么，如何用Spark进行数据分析

大数据学习：Spark是什么，如何用Spark进行数据分析的更多相关文章

随机推荐

热门专题