Spark环境的搭建与运行

Spark本地安装与配置

下载spark后解压，并cd到解压目录下
运行实例程序测试是否一切正常

./bin/run-example org.apache.spark.examples.SparkPi

在本地模式下设定要使用的线程数目local[N]

master=local[2] ./bin/run-example org.apache.spark.examples.SparkPi

Spark集群

Spark集群由两类程序构成：一个驱动程序和多个执行程序。
本地模式中，所有的处理都是运行在一个JVM内的。
如果要在一个Spark单机集群上运行示例代码，只要传入猪截点的IP和PROT端口号

master=spark://IP:PORT ./bin/run-example org.apache.spark.examples.SparkPi

Spark 编程模型

SparkContext 和 Spark Shell

SparkContext类和SparkConf类

创建一个四线程的SparkContext类

val conf = new SparkConf()

.setAppName("Text Spark APP")

.setMaster("local[4]")

val sc = new SparkContext(conf)

or

val sc = new SparkContext("local[4]", "Test Spark App")

Spark shell

进入程序主目录下，运行如下代码启动 Spark shell （Scala语言的shell）

./bin/spark shell

启动spark shell 之后会自动初始化一个SparkContext对象。
进入主目录下，运行如下代码启动Python shell。

./bin/pyspark

python下的SparkContext对象可以通过Python变量sc来调用。

弹性分布式数据集

1.创建RDD

从现有的集合创建RDD

val collection = List("a", "b", "c", "d", "e")

val rddFromCollection = sc.parallelize(collection)

也可以从本地文件中创建RDD

val rddFromTextFile = sc.textFile("license")

2.Spark操作

Spark编程模式下，所有的操作都被分为转换（transformation）和执行（action）。
最常见的转换操作就是map，该操作对一个RDD的每一条记录都执行某个函数，从而将输入映射称为新的输出。
实例

对于之前创建的一个由若干String构成的RDD对象，通过map将每一个字符串转换为一个整数，返回一个由若干Int组成RDD对象。

val intsFromStringsRDD = rddFromTextFile.map(line => line.size)

执行count返回RDD中的记录数目。

intsFromStringsRDD.cout

如果要计算每行字符串的平均长度，可以先sum计算所有记录的总长，再除以总的记录数目。

val sumOfRecords = intsFromStringsRDD.sum

val numRecords = intsFromStringsRDD.count

val aveLengthOfRecord = sumOfRecords / numRecords

or

val aveLengthOfRecordChained =rddFromTextFile.map(line => line.size).sum/rddFromTextFile.count

Spark中转换操作是延后的。在RDD上调用一个转换操作并不会立即触发相应的计算。相反，这些转换会链接起来，并只有在执行操作时才会被高效的计算。
实例

下面的代码不会触发实际的操作

val transformedRDD = rddFromTextFile.map(line => line.size).filter(size =>size>10).map(size =>size*2)

调用如下执行操作，计算将会被触发

val computation = transformedRDD.sum

3.RDD缓存策略

将RDD缓存在集群的内存中。

rddFromTextFile.cache

首次缓存会花费一些时间，下一次访问就会很快，数据可以直接从内存中读取，从而减少I/O操作。

3.广播变量和累加变量

两类特殊变量：广播变量和累加变量

+广播变量为只读变量，创建广播变量如下

val broadcastAList = sc.broadcast(List("a", "b", "c", "d", "e"))

广播变量可以被非驱动程序的节点访问

sc.parallelize(List("1", "2", "3")).map(x =>broadcastAList.value ++ x).collect

Spark Scala 编程入门

对于Scala程序而言，需要创建两个文件：Scala代码文件以及项目的构建配置文件。
项目将使用SBT（Scala Build Tool）来构建。
实例

SBT配置文件如下。各行代码之间的空行是必须的！

name := "scala-spark-app"

\空行

version := "1.0"

\空行

scalaVersion := "2.10.4"

\空行

libraryDependencies += "org.apache.spark" %% "spark-core" % "1.2.0"

导入所需要的Spark类

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

初始化所需要的SparkContext对象，并通过textFile函数来访问CSV数据文件

def main(args: Array[String]){

    val sc = new SparkContext("local[2]", "First Spark App")

    val data = sc.textFile("data/UserPerchaseHistory.csv")

        .map(line => line.split(",")

        .map(purchaseRecord => (perchaseRecord(0), purchaseRecord(1),perchaseRecord(2)))

RDD中每条记录都是由（user, product, price）构成，对商店计算如下指标：购买总次数，客户总个数，总收入。

val numPurchases = data.count()

val uniqueUsers = data.map{ case(user, product, price) => user}.distinct().count()

val totalRevenue = data.map{ case(user, product, price) => price.toDouble}.sum()

val productsByPopularity = data

    .map{case(user, product, price) => (product, 1)}

    .reduceByKey(_ + _)

    .collect()

    .sortBy(-_._2)

val mostPopular = productsByPopularity(0)

结果打印

        println(Total purchases:"+ numPurchases)

        ...

    }

}

Spark Python 编程入门

from pyspark import SparkContext

sc = SparkContext("local[2]", "First Spark App")

# spark读取本地文件

t = sc.textFile("file:///home/users/douzhi/t.txt")

#spark读取hdfs文件

t = sc.textFile("hdfs:///path/...")

print t.first()

Spark环境的搭建与运行的更多相关文章

spark本地环境的搭建到运行第一个spark程序
搭建spark本地环境搭建Java环境 (1)到官网下载JDK 官网链接:https://www.oracle.com/technetwork/java/javase/downloads/jdk8- ...
分布式平台Spark环境的搭建
1.安装Spark之前需要先安装Java,Scala及Python(个人喜欢用pyspark,当然你也可以用原生的Scala) 首先安装Java jdk: 我们可以在Oracle的官网下载Java S ...
在Linux(Debian)环境下搭建并运行GPU
首先通过以下命令查看是否GPU驱动成功: 注意:需要在bash终端输入 import tensorflow as tf hello = tf.constant('Hello, TensorFlow!' ...
分布式计算框架-Spark(spark环境搭建、生态环境、运行架构）
Spark涉及的几个概念:RDD:Resilient Distributed Dataset(弹性分布数据集).DAG:Direct Acyclic Graph(有向无环图).SparkContext ...
Hive On Spark环境搭建
Spark源码编译与环境搭建 Note that you must have a version of Spark which does not include the Hive jars; Spar ...
在Ubuntu14.04 64bit上搭建单机Spark环境，IDE为Intelli IDEA
在Ubuntu14.04 64bit上搭建单机Spark环境,IDE为Intelli IDEA 一. 环境 Ubuntu14.04 64位 JDK 1.8.0_73 scala-2.10. ...
在Ubuntu里搭建spark环境
注意:1.搭建环境:Ubuntu64位,Linux(也有Windows的,我还没空试) 2.一般的配置jdk.Scala等的路径环境是在/etc/profile里配置的,我自己搭建的时候发 ...
Spark On Yarn搭建及各运行模式说明
之前记录Yarn:Hadoop2.0之YARN组件,这次使用Docker搭建Spark On Yarn 一.各运行模式 1.单机模式该模式被称为Local[N]模式,是用单机的多个线程来模拟Spa ...
Spark学习进度-Spark环境搭建&Spark shell
Spark环境搭建下载包所需Spark包:我选择的是2.2.0的对应Hadoop2.7版本的,下载地址:https://archive.apache.org/dist/spark/spark-2. ...

随机推荐

uva 10562
二叉树的先序遍历这个还是比较简单的 ~~ /************************************************************************* &g ...
objective-c宏定义
1.先来几个常用的: // 是否高清屏 #define isRetina ([UIScreen instancesRespondToSelector:@selector(currentMode)] ? ...
【形式化方法：VDM++系列】3.基于VDM++的图书管理系统需求定义
接前文:http://www.cnblogs.com/Kassadin/p/4091040.html 1.Before We Start: 在开始图书管理系统需求定义之前,需要先进行一些说明. 1.1 ...
linux crontab任务调度的使用
(不推荐)可以直接将要调度的任务写入crontab任务表中 (推荐)可以先将要完成的任务写入一个shell文件,如myTask.sh(还可能需要将该文件改为可执行的:chmod 744 myTa ...
jmeter 测试java协议经验总结
对java协议的良好支持,是jmeter比loadrunner优秀的地方,但是坑也不少,本文将相关点都整理下来备忘一. 依赖的jar包使用IDE开发jemter java协议脚本时,需要导入以下几 ...
thinkphp 分组
分组配置项: // 开启分组 'APP_GROUP_LIST'=>'Home,Admin', // 默认分组 'DEFAULT_GROUP'=>'Home', 涉及分组: 配置文件分组, ...
SQLite入门与分析(四)---Page Cache之事务处理(3)
写在前面:由于内容较多,所以断续没有写完的内容. 11.删除日志文件(Deleting The Rollback Journal)一旦更改写入设备,日志文件将会被删除,这是事务真正提交的时刻.如果在这 ...
当当开源sharding-jdbc，轻量级数据库分库分表中间件
近期,当当开源了数据库分库分表中间件sharding-jdbc. Sharding-JDBC是当当应用框架ddframe中,从关系型数据库模块dd-rdb中分离出来的数据库水平分片框架,实现透明化数据 ...
查看32bit的ARM（比如ARMv7）反汇编
1.使用./arm-eabi-as test.S -o test.o编译 2.使用./arm-eabi-objdump -d test.o反汇编
ServletContext对象
**1 ServletContext对象 1)在web应用中,由服务器创建的唯一的一个对象是ServletContext 2)ServletContext对象在每一个Servlet中取得都是相 ...

Spark环境的搭建与运行

Spark本地安装与配置

Spark集群

Spark 编程模型

SparkContext类和SparkConf类

Spark shell

弹性分布式数据集

1.创建RDD

2.Spark操作

3.RDD缓存策略

3.广播变量和累加变量

Spark Scala 编程入门

Spark Python 编程入门

Spark环境的搭建与运行的更多相关文章

随机推荐

热门专题