* SparkCore基础（一）

学习Spark，首先要熟悉Scala，当然你说你会Python或者Java能不能玩Spark？能！但是不推荐，首推Scala，因为Scala非常便捷，而且Scala有非常好的交互式编程体验（当然了，在这里，Python也不差）。其次呢，我们要对Hadoop的MapReduce要是有一定的了解。不然，学习起来，是会稍微费点功夫。好，不扯这么多了，相关的故事啊，疑问啊可以评论留言询问或者百度查询，我们现在直接进入正题。

Spark特征简述

* Spark是什么

官方描述：Spark is a fast and general engine for large-scale data processing

** Spark是一个快速的，通用的，大数据规模的运算引擎。这是一个非常精准的描述。

** Spark是基于MapReducer实现的通用的分布式计算框架，所以它继承了MapReduce的优点，同时还支持将Job运算任务产生的中间结果和最终结果保存在内存中。

* Spark优势

** Spark的中间数据放到内存中，对于迭代运算效率更高

** 运算速度奇快

** 更灵活的数据操作，比如：map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等等

* Spark不适合做什么

** 不适合做增量变化的应用模型

* Spark支持语言

Java、Scala、Python

* 适用场景讨论

** 适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场*合，受益就相对较小。

Spark下载

一般情况下，我们使用spark之前，都需要下载源码，然后根据自己的集群环境（也就是Hadoop版本）进行编译，然后再安装使用。

Spark下载：

http://spark.apache.org/downloads.html

打开页面后，做出如下选择，即可开始下载源码

在这里我们使用1.6.1的源码

Spark编译

在此我们简单介绍两种方式：

** SBT编译

这是一个类似Maven的仓库，基于Scala

** Maven编译

命令：

** make-distribution.sh编译

修改源码根目录下的make-distribution.sh文件，修改内容如图：

依次为：配置Spark版本，Scala版本，Hadoop版本，是否支持Hive，1为支持

配置镜像：注意，如果编译的是原版，请添加此镜像，如果编译的是CDH版本的，请注意去掉此镜像。

配置域名解析服务器：

$ sudo vi /etc/resolv.conf，配置如下：

nameserver 8.8.8.8

nameserver 8.8.4.4

最后执行命令：

注意要支持yarn和hive

世界充满爱之编译好的Spark传送门（分别包含包含Apache和CDH版本的）：

链接：http://pan.baidu.com/s/1eRBJtjs 密码：t03u

Spark运行模式

** Local

即本地模式

** Standalone

即Spark自带的集群模式，分为Master节点和Worker节点，顾名思义，一个管理者，多个干活的。：）

** Yarn

国内相当主流的一种运行部署模式，只是目前Yarn分配的Container是不能够动态伸缩的，后续可能会考虑支持。

** Mesos

Spark在出生的时候就考虑支持该框架，很灵活，但国内使用似乎不多，感兴趣请自行研究之。

Spark安装部署

将Spark解压出来，然后到conf目录下，自己将template文件拷贝出文后提到的文件进行配置即可，在之前的章节我们已经提到过很多次，此步骤想必应该非常熟练了，不再赘述了。

Local模式：

spark-env.sh 文件配置如下：

Spark测试案例之Local模式

在案例开始前，请确保你的HDFS是可用的，并且spark-shell在active的NameNode节点上运行。此刻建议你已经熟知Hadoop中MapReduce的编写过程以及运行原理。

案例一：基于本地模式的WordCount，words.txt中的内容：

Step1、进入spark根目录使用$ bin/spark-shell命令启动spark，如下图：

Step2、读取/input/words.txt文件，尝试检查一下words.txt文件有多少行数据，操作如下：

scala> val rdd = sc.textFile("/input/words.txt")

scala> rdd.count

当然了，统计词频，这个步骤可以省略，在此只是想验证一下自己读取到的数据有没有问题

好，大家可以看到，有3行数据，每一行都有若干英文单词。那么这里面涉及到几个问题需要拿出来讨论一下：

1、什么是rdd？

RDD is a fault-tolerant collection of elements that can be operated on in parallel，RDD是弹性分布式数据集，全称Resilient Distributed Datasets，具有分布式，高容错性等特点，在这里，刚开始接触的话，你可暂且理解为一个集合就可以了，一个数据集合。

2、什么是sc？

sc的全称是SparkContext，即Spark的上下文对象，这个理解可以类比于在Hadoop阶段我们在MapReduce中接触到的Context，不管是读取文件还是其他数据操作，都依赖于SparkContext的实例化。在这里，sc即一个实例化好的SparkContext对象。

我们通过sc.textFile方法读取到HDFS系统中存放的words.txt文件信息，该方法返回一个RDD对象，之后我们通过rdd对象调用count方法，来查看读取到的文件中数据有多少行。

Step3、利用得到的rdd对象进行数据的拆分，即，每一个单词都拆分成一个RDD对象，比如类似这样的理解：RDD<String> rdd = new RDD("hadoop")；那么使用scala在spark中如何做呢？请看：

scala> val wordRdd = rdd.flatMap(line => line.split(" "))

然后我们使用wordRdd显示一下第一个单词看一看：

scala> wordRdd.first

Step4、将分割出来的每一个单词做Map映射

scala> val mapRdd = wordRdd.map(word => (word, 1))

这是scala的高阶函数，注意不理解请重新复习Scala语言。该语句的意思是：将wordRdd中存放的单词映射为一个tuple元组，元组中有两个元素，第一个元素为单词，第二个元素为当前单词本次的个数，固定为1，这个1就像Hadoop阶段中Map的LongWritable一样，这个word就像Text一样。

Step5、这一步要做的就是讲map映射出来的数据集进行reduce运算

scala> val reduceRdd = mapRdd.reduceByKey((x, y) => x + y)

该行代码的意思是将某一个单词的好多个1（当然如果进行Combine操作了，也许可能不是多个1，如果你无法理解我这一句在说什么，请继续前进，然后重新复习Hadoop的MapReduce相关知识点）进行相加运算。

Step6、查看一下结果

scala> reduceRdd.collect

显示出来了，而且执行过程非常的迅速，你懂得。

当然了，以上的操作，完全可以使用一句话来实现，并且代码的体现形式可以非常骚气，如：

scala> sc.textFile("/input/words.txt").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect

Step7、当然了结果也可以输出到HDFS系统当中，比如：

scala> reduceRdd.saveAsTextFile("/output/spark/test01")

案例二：基于案例一，进行二次排序，即，将统计出的词频结果按照降序或者升序排列

sc.textFile("/input/words.txt")

.flatMap(_.split(" "))

.map((_, 1))

.reduceByKey(_ + _)

.map(x => (x._2, x._1))

.sortByKey()

.map(x => (x._2, x._1))

.collect

Step1、得到案例一的统计好的词频结果，然后做一个map映射，将单词和单词出现的次数颠倒过来，也就是说，(hadoop, 1)变成(1, hadoop)，这样做的原因是因为OrderedRDDFunctions类中有一个方法叫做：sortByKey，意思是按照Key的大小进行排序，默认参数是升序，如图：

为了使用该方法，我们这么做：

上一个案例，我们得到：

val reduce = sc.textFile("/input/words.txt").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)

然后：

val reverseRdd = reduce.map(x => (x._2, x._1))

然后我们看一眼这个RDD集合：

Step2、直接使用sortByKey进行默认排序

val sortRdd = reverseRdd.sortByKey()

Step3、排序结束你不得给人家再反转回来？所以：

sortRdd.map(x => (x._2, x._1)).collect，如图：

当然了，以上分解步骤一气呵成最爽快：

sc.textFile("/input/words.txt")

.flatMap(_.split(" "))

.map((_, 1))

.reduceByKey(_ + _)

.map(x => (x._2, x._1))

.sortByKey()

.map(x => (x._2, x._1))

.collect

Step4、当然了，sortByKey方法也可以实现倒序，如：

sc.textFile("/input/words.txt")

.flatMap(_.split(" "))

.map((_, 1))

.reduceByKey(_ + _)

.map(x => (x._2, x._1))

.sortByKey(false)

.map(x => (x._2, x._1))

.collect

Step5、二次排序还可以使用top

top源码：

这是一个柯里化的函数，top命令是查看前多少条数据，如图可见，在查看之时，元素也是排序好的

比如：

sc.textFile("/input/words.txt")

.flatMap(_.split(" "))

.map((_, 1))

.reduceByKey(_ + _)

.map(x => (x._2, x._1))

.top(12)

输出如图：

Spark运行模式之Standalone

配置：spark-env.sh

Master节点：SPARK_MASTER_IP=z01

Master节点端口号：SPARK_MASTER_PORT=7077

Master WebUI端口号：SPARK_MASTER_WEBUI_PORT=8080

Worker节点可用CPU核心数：SPARK_WORKER_CORES=2

Worker可用内存：SPARK_WORKER_MEMORY=2g

Worker端口号：SPARK_WORKER_PORT=7078

Worker WebUI端口号：SPARK_WORKER_WEBUI_PORT=8081

允许在每台机器上开启几个Worker进程，默认为1个SPARK_WORKER_INSTANCES=1

配置：slaves

即配置允许哪几台机器当做Woker节点

以上配置完成后，scp到其他集群节点

启动：

Master

$ sbin/start-master.sh

Worker

$ sbin/start-slaves.sh

完成后通过z01:8080端口访问即可如图所示：

也可以JPS看一下进程：

在Standalone上运行Spark

首先，查看一下spark的帮助文档来引导该怎么做：

$ bin/spark-shell --help

注意红框内的内容，那么接下来，我们应该知道怎么让spark运行在standalone上了：

$ bin/spark-shell --master spark://z01:7077

如图：注意红框内容

尖叫提示：如果直接不加参数的使用spark-shell方式启动，则还是在本地模式（Local）启动的。

Spark测试案例之Standalone模式

案例一：跑一个一气呵成的WordCount

scala> sc.textFile("/input/words.txt").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect

WEBUI，http://192.168.122.200:4040/jobs/ 如图：

可以看到，有一个Job任务已经运行完毕了。

案例二：做一个每日的PV分析

Step1、首先，我们将网站的访问数据导入到hive当中，执行：

$ cat hql-file/track-log.hql

其中track-log.hql文件如下：

该部分内容可以参看Hive框架基础（一）

Step2、通过Hive查看track_log文件在哪

hive> desc formatted track_log;

如图：注意红框内容，对于我们来讲，有用的即：/user/hive/warehouse/track_log/2015082818

Step3、将日志数据读入到RDD中等待分析

scala> val rdd = sc.textFile("/user/hive/warehouse/track_log/2015082818")

Step4、清洗无效的数据，即空白行，以及url字段为空的，我们要过滤掉

1、先过滤空白行

2、再分割字段值

3、最后过滤url字段为空的

综合来写：

scala> val validRdd = rdd.filter(line => line.length > 0).map(_.split("\t")).filter(arr => arr(1).length > 0)

当然了，此时你可以count一下，看看过滤后剩下多少数据

scala> validRdd.count

Step4、将URL做map映射，比如做出这样的映射：（今日日期, 1）

那么今日的日期在tracktime字段，属于分割后的数组的第17个索引处

在hive中我们查看一下该日期的格式：

hive> select tracktime from track_log limit 1;

如图：

那么截取出2015-08-28应该很容易，所以：

scala> val mapRdd = validRdd.map(arr => (arr(17).substring(0, 10), 1))

Step5、你懂得，再来一个Reduce即可

scala> val reduceRdd = mapRdd.reduceByKey(_ + _)

完事之后可以查看一下结果：

scala> reduceRdd.collect

如图：

当然了也可以一气呵成走你：

scala> sc.textFile("/user/hive/warehouse/track_log/2015082818")

.filter(line => line.length > 0)

.map(_.split("\t"))

.filter(arr => arr(1).length > 0)

.map(arr => (arr(17).substring(0, 10), 1))

.reduceByKey(_ + _)

.collect

Step6、我们使用Hive来验证一下

注意如果你的Yarn没有启动，需要将Hive设置成Local模式：

hive> set hive.exec.mode.local.auto = true;

然后执行：

结果如图：

对比可知，两个结果是一样的。

案例三：PV和UV分析

PV：即页面访问次数

UV：即不同用户访问页面次数

Step1、读取网站日志文件生成RDD对象

scala> val rdd = sc.textFile("/user/hive/warehouse/track_log")

Step2、过滤不必要的数据，并生成map映射，注意此时的操作与之前的案例略有不同，请注意观察，如图：

scala> val mapRdd = rdd.filter(_.length > 0).map(line => {

| val arr = line.split("\t")

| val date = arr(17).substring(0, 10)

| val guid = arr(5)

| val url = arr(1)

| (date, guid, url)

| }).filter(tuple => tuple._3.length > 0)

Step3、可选步骤，此处可以将数据cache到内存中，注意，cache后，不会立刻缓存到内存中，需要执行一个action，比如count，take，collect都可以

scala> mapRdd.cache

scala> mapRdd.count

在此之后就可以在4040端口的页面是storge选项中看到缓存到内存中的数据信息，如图：

Step4、统计PV

scala> val pvRdd = mapRdd.map(tuple => (tuple._1, 1)).reduceByKey(_ + _)

scala> pvRdd.first，如图：

Step5、UV统计

scala> val uvRdd = mapRdd.map(tuple => (tuple._1 + "_" + tuple._2, 1)).distinct.map(tuple => {

val arr = tuple._1.split("_")

(arr(0), 1)

}).reduceByKey(_ + _)

此时可以自行使用uvRdd.first查看结果，不再展示

Step6、合并PV和UV的结果进行显示

union方式：

scala> val pv_uvRdd = pvRdd.union(uvRdd)

scala> pv_uvRdd.collect，如图：

join方式：

scala> val pv_uvRdd = pvRdd.join(uvRdd)

scala> pv_uvRdd.first，如图：

验证：使用Hive或者SparkSQL验证结果一致性

首先创建SQL语句：

SparkSQL方式：

scala> val sql = """ 上边的SQL代码 """，如图：

然后执行：

scala> val result = sqlContext.sql(sql)

scala> result.show()

尖叫提示：如果你的hive使用了thrift的metastore方式，请把hive的hive-site.xml文件软连接到spark的conf目录下！！否则上述指令将会出现找不到table的错误。

HIVE方式：直接使用Hive客户端执行上面的SQL语句，如图：

Spark任务历史服务

对于Yarn有mr-historyserver

对于Spark有SparkHistory

所以应该很容易明白这是一个任务日志的历史服务，比如你可以查看昨天半夜运行的任务情况。

开启这个服务也很简单：

可以参看：http://spark.apache.org/docs/1.6.1/monitoring.html

Step1、配置参数

配置：spark-env.sh，日志默认是保存在本地的，此刻我们将日志保存到HDFS系统当中如图：

配置：spark-defaults.conf，spark启动时默认加载的配置文件

Step2、在HDFS系统中创建目录/user/z/spark-events

Step3、将配置文件重新scp到其他节点之后，重启服务，然后开启历史服务

$ sbin/start-history-server.sh

JPS看一眼：

然后在浏览器打开：http://z01:18080/

如图：

Step4、测试玩一玩？

$ bin/spark-shell --master spark://z01:7077

随便执行执行一个我们之前的案例任务，即可，运行几个任务，成功运行几个，再失败几个，如图：

注意红框内容，如果你当前的spark-shell没有退出，那么该任务就是属于正在运行的任务。请自行切换观察即可。

* 总结

对于RDD到RDD的操作，我们称之为Transformation操作

例如：我们在案例中使用的过滤，或者map，或者reduce等等

对RDD到其他类型的操作，我们称之为Action

例如：我们在案例中使用的top，或者take、collect等操作

另外RDD中的数据可以持久化到内存中来操作，使用：

rdd.cache来操作，比较适用于频繁使用的。

这一节我们大概了解了Spark的操作，也应该更加深刻的熟悉了Scala的操作。下一节我们针对Spark进行更深入的探讨。

个人微博：http://weibo.com/seal13

QQ大数据技术交流群（广告勿入）：476966007


作者：Z尽际
链接：https://www.jianshu.com/p/136874812e11
來源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。