Spark是硅谷各大公司都在使用的当红炸子鸡,而且有愈来愈热的趋势,所以大家很有必要了解学习这门技术。本文其实是笔者深入浅出hadoop系列的第三篇,标题里把hadoop去掉了因为spark可以不依赖于Hadoop。Spark可以运行在多种持久化系统之上,比如HDFS, Amazon S3, Azure Storage, Cassandra, Kafka。把深入浅出去掉了是因为Spark功能实在太强大(Spark SQL, Spark Streaming, Spark GraphX, Spark MLlib),本文只能抛砖引玉帮大家节省时间入个门,打算以后分专题深入总结一下sql, graph, streaming和machine learning方面的应用。

Spark History

  • 2009 project started at UC berkeley's AMP lab
  • 2012 first release (0.5)
  • 2014 became top level apache project
  • 2014 1.0
  • 2015 1.5
  • 2016 2.0

Spark 起源

map reduce以及之前系统存在的问题

  • cluster memory 没有被有效运用
  • map reduce重复冗余使用disk I/O,比如前一个job的output存在硬盘中,然后作为下一个job的input,这部分disk I/O如果都在内存中是可以被节省下来的。这一点在ad hoc query上尤为突出,会产生大量的中间文件,而且completion time比中间文件的durability要更为重要。
  • map reduce的job要不停重复的做join,算法写起来要不停的tuning很蛋疼。
  • 没有一个一站式解决方案,往往需要好几个系统比如mapreduce用来做batch processing,storm用来做stream processing,elastic search用来做交互式exploration。这就造成了冗余的data copy。
  • interactive query和stream processing的需求越来越大,比如需要ad hoc analytics和快速的decision-making
  • machine learning的需求越来越多

spark的破解方案

  • RDD abstraction with rich API
  • 充分使用内存
  • 一站式提供Spark SQL, Spark Streaming, Spark GraphX, Spark MLlib

spark 架构

cluster manager: manage to execute tasks could be spark's standalone cluster manager, YARN(参见我之前讲mapreduce的文章) or Mesos。可以用来track当前可用的资源。

Spark applications包括driver process和若干executor processes。driver process是整个spark app的核心,运行main() function, 维护spark application的信息,响应用户输入,分析,distribute并且schedule work across executors。executors用来执行driver分配给它们的task,并把computation state report back to driver。

pyspark 安装

最简单的方式就是在如下地址下载tar包:

  1. https://spark.apache.org/downloads.html

命令行运行:

  1. $ export PYSPARK_PYTHON=python3
  2. $ ./bin/pyspark
  3. Python 3.6.4 (default, Jan 6 2018, 11:51:15)
  4. [GCC 4.2.1 Compatible Apple LLVM 9.0.0 (clang-900.0.39.2)] on darwin
  5. 。。。
  6. Welcome to
  7. ____ __
  8. / __/__ ___ _____/ /__
  9. _\ \/ _ \/ _ `/ __/ '_/
  10. /__ / .__/\_,_/_/ /_/\_\ version 2.2.1
  11. /_/
  12.  
  13. Using Python version 3.6.4 (default, Jan 6 2018 11:51:15)
  14. SparkSession available as 'spark'.

setup:

  1. python setup.py install

导入

  1. from pyspark import SparkConf, SparkContext

RDDs (Resilient Distributed Datasets)

  • Resilient: able to withstand failures
  • Distributed: spanning across multiple machines
  • read-only, partitioned collection of records

RDD 在最新的spark2.x中有逐渐被淡化的趋势,是曾经的主角,现在算作low level API,基本不太可能在生产实践中用到,但是有助于理解spark。新型的RDD需要实现如下接口

  • partitions()
  • iterator(p: Partition)
  • dependencies()
  • optional: partitioner for key-value RDD (E.g. RDD is hash-partitioned)

从local collection中创建RDD

  1. >>> mycollection = "Spark Qing Ge Guide : Big Data Processing Made Simple".split(" ")
  2. >>> words = spark.sparkContext.parallelize(mycollection, 2)
  3. >>> words.setName("myWords")
  4. myWords ParallelCollectionRDD[35] at parallelize at PythonRDD.scala:489
  5. >>> words.name()
  6. 'myWords'

transformations

distinct:

  1. >>> words.distinct().count()
  2. [Stage 23:> (0 + 0) / 2]
  3. 10

filter:

  1. >>> words.filter(lambda word: startsWithS(word)).collect()
  2. ['Spark', 'Simple']

map:

  1. >>> words2 = words.map(lambda word: (word, word[0], word.startswith("S")))
  2. >>> words2.filter(lambda record: record[2]).take(5)
  3. [('Spark', 'S', True), ('Simple', 'S', True)]

flatmap:

  1. >>> words.flatMap(lambda word: list(word)).take(5)
  2. ['S', 'p', 'a', 'r', 'k']

sort:

  1. >>> words.sortBy(lambda word: len(word) * -1).take(5)
  2. ['Processing', 'Simple', 'Spark', 'Guide', 'Qing']

Actions

reduce:

  1. >>> spark.sparkContext.parallelize(range(1,21)).reduce(lambda x, y : x+y)
  2. 210

count:

  1. >>> words.count()
  2. 10

first:

  1. >>> words.first()
  2. 'Spark'

max and min:

  1. >>> spark.sparkContext.parallelize(range(1,21)).max()
  2. 20
  3. >>> spark.sparkContext.parallelize(range(1,21)).min()
  4. 1

take:

  1. >>> words.take(5)
  2. ['Spark', 'Qing', 'Ge', 'Guide', ':']

注意:spark uses lazy transformation, 上文提到的所有transformation都只有在action时才会被调用。

Saving files

  1. >>> words.saveAsTextFile("file:/tmp/words")
  1. $ ls /tmp/words/
  2. _SUCCESS part-00000 part-00001
  3. $ cat /tmp/words/part-00000
  4. Spark
  5. Qing
  6. Ge
  7. Guide
  8. :
  9. $ cat /tmp/words/part-00001
  10. Big
  11. Data
  12. Processing
  13. Made
  14. Simple

Caching

  1. >>> words.cache()
  2. myWords ParallelCollectionRDD[35] at parallelize at PythonRDD.scala:489

options include: memory only(default), disk only, both

CoGroups

  1. >>> import random
  2. >>> distinctChars = words.flatMap(lambda word: word.lower()).distinct()
  3. >>> charRDD = distinctChars.map(lambda c: (c, random.random()))
  4. >>> charRDD2 = distinctChars.map(lambda c: (c, random.random()))
  5. >>> charRDD.cogroup(charRDD2).take(5)
  6. [('s', (<pyspark.resultiterable.ResultIterable object at 0x10ab49c88>, <pyspark.resultiterable.ResultIterable object at 0x10ab49080>)), ('p', (<pyspark.resultiterable.ResultIterable object at 0x10ab49438>, <pyspark.resultiterable.ResultIterable object at 0x10ab49048>)), ('r', (<pyspark.resultiterable.ResultIterable object at 0x10ab494a8>, <pyspark.resultiterable.ResultIterable object at 0x10ab495c0>)), ('i', (<pyspark.resultiterable.ResultIterable object at 0x10ab49588>, <pyspark.resultiterable.ResultIterable object at 0x10ab49ef0>)), ('g', (<pyspark.resultiterable.ResultIterable object at 0x10ab49ac8>, <pyspark.resultiterable.ResultIterable object at 0x10ab49da0>))]

Inner Join

  1. >>> keyedChars = distinctChars.map(lambda c: (c, random.random()))
  2. >>> outputPartitions = 10
  3. >>> chars = words.flatMap(lambda word: word.lower())
  4. >>> KVcharacters = chars.map(lambda letter: (letter, 1))
  5. >>> KVcharacters.join(keyedChars).count()
  6. 44
  7. >>> KVcharacters.join(keyedChars, outputPartitions).count()
  8. 44

Aggregations

  1. from functools import reduce
  2. >>> def addFunc(left, right):
  3. ... return left + right
  4. ...
  5. KVcharacters.groupByKey().map(lambda row: (row[0], reduce(addFunc, row[1]))).collect()
  6. [('s', 4), ('p', 3), ('r', 2), ('i', 5), ('g', 5), ('d', 3), ('b', 1), ('c', 1), ('l', 1), ('a', 4), ('k', 1), ('q', 1), ('n', 2), ('e', 5), ('u', 1), (':', 1), ('t', 1), ('o', 1), ('m', 2)]

Spark 执行和调度

具体来说就是

  1. invoke an action...
  2. ...spawns the job...
  3. ...that gets divided into the stages by the job scheduler...
  4. ...and tasks are created for every job stage

其中,stage和task的区别在于:stage是RDD level,不会被立即执行,而task会被立即执行。

Broadcast variables

  • read-only shared variables with effective sharing mechanism
  • useful to share dictionaries and models

今天就先到这,更多内容以后有机会再聊

10分钟入门spark的更多相关文章

  1. Apache Shiro系列三,概述 —— 10分钟入门

     一.介绍 看完这个10分钟入门之后,你就知道如何在你的应用程序中引入和使用Shiro.以后你再在自己的应用程序中使用Shiro,也应该可以在10分钟内搞定. 二.概述 关于Shiro的废话就不多说了 ...

  2. JavaScript 10分钟入门

    JavaScript 10分钟入门 随着公司内部技术分享(JS进阶)投票的失利,先译一篇不错的JS入门博文,方便不太了解JS的童鞋快速学习和掌握这门神奇的语言. 以下为译文,原文地址:http://w ...

  3. kafka原理和实践(一)原理:10分钟入门

    系列目录 kafka原理和实践(一)原理:10分钟入门 kafka原理和实践(二)spring-kafka简单实践 kafka原理和实践(三)spring-kafka生产者源码 kafka原理和实践( ...

  4. Markdown - Typora 10分钟入门 - 精简归纳

    Markdown - Typora 10分钟入门 - 精简归纳 JERRY_Z. ~ 2020 / 8 / 22 转载请注明出处! 目录 Markdown - Typora 10分钟入门 - 精简归纳 ...

  5. [入门到吐槽系列] Webix 10分钟入门 一 管理后台制作

    前言 本人是服务端程序员,同时需要兼职前端开发.常用的就是原生态的HTML.Javascript,也用过ExtJS.Layui.可是ExtJS变公司后非常难用.Layui上手还行,用过一段时间,会觉得 ...

  6. [入门到吐槽系列] Webix 10分钟入门 二 表单Form的使用

    前言 继续接着上一篇的webix入门:https://www.cnblogs.com/zc22/p/15912342.html.今天完成剩下两个最重要的控件,表单和表格的使用.掌握了这两个,整个Web ...

  7. Webpack 10分钟入门

    可以说现在但凡开发Single page application,webpack是一个不可或缺的工具. WebPack可以看做是一个模块加工器,如上图所示.它做的事情是,接受一些输入,经过加工产生一些 ...

  8. 「从零单排canal 01」 canal 10分钟入门(基于1.1.4版本)

    1.简介 canal [kə'næl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据 订阅 和 消费.应该是阿里云DTS(Data Transfer Servi ...

  9. python 10分钟入门pandas

    本文是对pandas官方网站上<10 Minutes to pandas>的一个简单的翻译,原文在这里.这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook .习惯 ...

随机推荐

  1. JavaScript之图片懒加载的实现

    图片懒加载指的是在浏览过程中随着需要才被加载出来,例如某宝上面浏览商品时,会伴随很多的图片,如果一次全部加载出来的话,显然资源有些浪费,并且加载速度也会相对降低,那么懒加载的实现很重要.即随着浏览翻阅 ...

  2. BSA Network Shell系列-scriptutil命令

    scriptutil ## 1 功能概述 scriptutil复制脚本到远程机的某个目录,然后在该目录执行脚本. 它的优点就是脚本是non-NSH的脚本.不支持NSH命令,执行起来的效果和runscr ...

  3. U盘安装CentOS 7问题解决

    1 使用U盘安装最新版Centos时报错(CentOS-7-x86_64-DVD-1503-01): 错误提示:"Warning:could not boot;Warning: /dev/r ...

  4. 基于百度地图SDK和Elasticsearch GEO查询的地理围栏分析系统(3)-前端实现

    转载自:http://www.cnblogs.com/Auyuer/p/8086975.html MoonLight可视化订单需求区域分析系统实现功能: 在现实生活中,计算机和互联网迅速发展,人们越来 ...

  5. 配置struts2拦截器

    <!-- 配置拦截器 -->        <interceptors>            <!-- 声明拦截器 -->            <inte ...

  6. 【转】Shell执行MySql操作

    mysql  -hhostname -Pport -uusername -ppassword  -e  相关mysql的sql语句,不用在mysql的提示符下运行mysql,即可以在shell中操作m ...

  7. 【转】linux shell 逻辑运算符、逻辑表达式

    shell的逻辑运算符 涉及有以下几种类型,因此只要适当选择,可以解决很多复杂的判断. 一.逻辑运算符  逻辑卷标表示意思 1.关于档案与目录的侦测逻辑卷标! -f常用!侦测‘档案’是否存在 eg: ...

  8. vue调试神器vue-devtools安装

    vue-devtools安装 vue-devtools是一款用来调试Vue应用的Chrome插件,可极大提高开发者调试项目效率,接着我们说一下如何下载安装这个插件; 一. 从chrome商店直接下载安 ...

  9. Delphi json解析相关

    身为一个资深的Delphi 开发者, 最近在做一个小工具的时候,开始捡起来pascal语言. 主要是开发一个内部用的小工具, 主要功能: 1.解析json格式 2.格式化json文件 3.校验json ...

  10. 服务器开发之CGI后门

    1.html代码 <form id = "form" name="form" method="post" action=". ...