1.Why Apache Spark?

Why Apache Spark?

1 Why Apache Spark

2 关于Apache Spark

3 如何安装Apache Spark

4 Apache Spark的工作原理

5 spark弹性分布式数据集

6 RDD持久性

7 spark共享变量

8 Spark SQL

9 Spark Streaming

原文链接：http://blogxinxiucan.sh1.newtouch.com/2017/07/23/Why-Apache-Spark/

我们生活在“大数据”的时代，其中以各种类型的数据以前所未有的速度生成数据，而这种速度似乎只是在天文学上加速。该数据可以广泛地分类为交易数据，社交媒体内容（例如文本，图像，音频和视频）以及来自仪器化设备的传感器馈送。

但是人们可能会问为什么要重视这一点。原因是：“数据是有价值的，因为它可以做出决定”。

直到几年前，只有少数有技术和资金的公司投资存储和挖掘大量数据才能获得宝贵的见解。不过，雅虎在2009年开放Apache Hadoop的时候，一切都发生了变化。这是一个破坏性的变化，大大降低了大数据处理的水平。因此，许多行业，如医疗保健，基础设施，金融，保险，远程信息处理，消费者，零售，营销，电子商务，媒体，制造和娱乐等行业已经大大受益于Hadoop上的实际应用。

Apache Hadoop提供两个主要功能：

HDFS是使用水平可扩展的商品硬件廉价地存储大量数据的容错方式。
Map-Reduce，为挖掘数据提供编程结构并获得洞察力。

下面的图1说明了如何通过一系列Map-Reduce步骤处理数据，其中Map-Reduce步骤的输出在典型的Hadoop作业中输入到下一个。

中间结果存储在磁盘上，这意味着大多数Map-Reduce作业都是I / O绑定的，而不是计算上的约束。对于诸如ETL，数据整合和清理等用例，处理时间并不是很大的问题，但是处理时间很重要的其他类型的大数据用例也不是问题。这些用例如下：

流数据处理进行近实时分析。例如，点击流数据分析来制作视频推荐，这增强了用户参与度。我们必须在准确性和处理时间之间进行权衡。
大型数据集的交互式查询，因此数据科学家可以对数据集进行自组织查询。

下图2显示了Hadoop如何发展成为几种技术的生态系统，为这些用例提供了非常专门的工具。

虽然我们喜欢Hadoop生态系统中的工具之间的丰富选择，但是使用生态系统繁琐的挑战有几个：

需要一种不同的技术方案来解决每种类型的用例，因为一些解决方案在不同的用例中不可重用。
生产力需要熟练掌握多项技术
某些技术面临版本兼容性问题
它不适合并行作业中更快的数据共享需求。

这些是Apache Spark解决的挑战！Spark是闪电式快速内存集群计算平台，具有统一的解决方案，解决了批处理，流式传输和交互式用例，如图3所示。

1.Why Apache Spark?的更多相关文章

Apache Spark简单介绍、安装及使用
Apache Spark简介 Apache Spark是一个高速的通用型计算引擎,用来实现分布式的大规模数据的处理任务. 分布式的处理方式可以使以前单台计算机面对大规模数据时处理不了的情况成为可能. ...
关于Apache Spark
Apache Spark : https://www.oschina.net/p/spark-project
Apache Spark源码剖析
Apache Spark源码剖析(全面系统介绍Spark源码,提供分析源码的实用技巧和合理的阅读顺序,充分了解Spark的设计思想和运行机理) 许鹏著 ISBN 978-7-121-25420- ...
[翻译]Apache Spark入门简介
原文地址:http://blog.jobbole.com/?p=89446 我是在2013年底第一次听说Spark,当时我对Scala很感兴趣,而Spark就是使用Scala编写的.一段时间之后,我做 ...
Apache Spark技术实战之9 -- 日志级别修改
摘要在学习使用Spark的过程中,总是想对内部运行过程作深入的了解,其中DEBUG和TRACE级别的日志可以为我们提供详细和有用的信息,那么如何进行合理设置呢,不复杂但也绝不是将一个INFO换为TR ...
Apache Spark技术实战之8：Standalone部署模式下的临时文件清理
未经本人同意严禁转载,徽沪一郎. 概要在Standalone部署模式下,Spark运行过程中会创建哪些临时性目录及文件,这些临时目录和文件又是在什么时候被清理,本文将就这些问题做深入细致的解答. 从 ...
ERROR actor.OneForOneStrategy: org.apache.spark.SparkContext
今天在用Spark把Kafka的数据往ES写的时候,代码一直报错,错误信息如下: 15/10/20 17:28:56 ERROR actor.OneForOneStrategy: org.apache ...
Apache Spark技术实战之6 -- spark-submit常见问题及其解决
除本人同意外,严禁一切转载,徽沪一郎. 概要编写了独立运行的Spark Application之后,需要将其提交到Spark Cluster中运行,一般会采用spark-submit来进行应用的提交 ...
Apache Spark源码走读之24 -- Sort-based Shuffle的设计与实现
欢迎转载,转载请注明出处. 概要 Spark 1.1中对spark core的一个重大改进就是引入了sort-based shuffle处理机制,本文就该处理机制的实现进行初步的分析. Sort-ba ...
Apache Spark技术实战之4 -- 利用Spark将json文件导入Cassandra
欢迎转载,转载请注明出处. 概要本文简要介绍如何使用spark-cassandra-connector将json文件导入到cassandra数据库,这是一个使用spark的综合性示例. 前提条件假 ...

随机推荐

discuz用户登录不响应，提示nginx gateway timeout解决方法
在使用nginx+php-cgi搭建discuz论坛过程中,出现论坛登录不响应,一直提示nginx gateway timeout504网关超时,单单采用php方式登录无问题.但因需要使用nginx把 ...
webpack实用配置
前面的话上文介绍了webpack入门,本文将详细介绍webpack实用配置版本号以entry.js打包为bundle.js为例,出口的filename可以设置为[id].[name].[hash ...
Eclipse导出JavaDoc中文乱码问题解决
在Eclipse里 export 选 JavaDoc,在向导的最后一页的Extra JavaDoc Options 里填上参数即可比如项目采用的是UTF-8的编码就填:-encoding UTF-8 ...
开发抓包工具 Mac charles 3.11.5 破解版安装包
摘要在发开过程中,追踪请求和监控请求与返回数据是我们经常会需要的一个需求,在Mac端,Charles是一款非常易用的抓包工具. 一.简介 Charles是Mac端的一款截取与分析网络请求的工具,在网 ...
MVP架构
一.介绍 MVP(Model View Presenter)架构是从著名的MVC(Model View Controller)架构演变而来的.对于在Android应用中开发就可以视为是MVC架构,布局 ...
google和oracle闹掰，Java 会不会被抛弃？
眼花缭乱的编程语言程序界的语言实在太多,但有一种语言不得不说,那就是java语言,Java语言是Android系统的主要开发语言,现在和Google的关系不是很好,但是他会被淘汰吗?下面简单地分析一 ...
java中得到图片的宽度高度：
java中得到图片的宽度高度:BufferedImage srcImage = null;srcImage = ImageIO.read(new File(srcImagePath));int sr ...
Chapter 1. Introduce
前言本书全名是<H.264 and MPEG-4 Video Compression, Video Coding For Next-generation Multimedia>,作者为 ...
keyStore很重要，千万不能丢失
打包apk的时候需要对apk文件进行签名,如果想要自己给apk签名那么就要自己创建keystore.1.签名的意义为了保证每个应用程序开发商合法ID,防止部分开放商可能通过使用相同的Package N ...
Windows PowerShell 默认颜色
屏幕背景:1,36,86 屏幕文字:238,237,240 弹出文字:0,128,128 弹出窗口背景:255,255,255

1.Why Apache Spark?

Why Apache Spark?

1.Why Apache Spark?的更多相关文章

随机推荐

热门专题