快速开始使用spark

1、版本说明

在spark2.0版本以前，spakr编程接口是RDD(Resilient Distributed Dataset,弹性分布式数据集)，spark2.0版本即以上，RDD被Dataset取代，Dataset比RDD更为强大，在底层得到了许多优化了。当然2.0+版本仍然支持RDD，但官方建议使用Dataset。

2、安全

spark的安全模式默认是关闭的，这意味着你可能收到攻击。

3、利用Spark Shell进行交互式数据分析

Spark的shell提供了一种学习API的简单方法，以及一种以交互方式分析数据的强大工具。
可以通过使用scala或者python进行编程。
在spark的安装根目录下启动。

3.1、Scala方式

启动

./bin/spark-shell

读取一个文件用来创建一个新的数据集Dataset

val textFile = spark.read.textFile("README.md")

对数据集进行操作

textFile.count()

textFile.first()

val linesWithSpark = textFile.filter(line => line.contains("Spark"))

textFile.filter(line => line.contains("Spark")).count()

3.2、python方式

启动

./bin/pyspark

textFile = spark.read.text("README.md")

textFile.count()

textFile.first()

linesWithSpark = textFile.filter(textFile.value.contains("Spark"))

textFile.filter(textFile.value.contains("Spark")).count()

4、Dataset的更多操作

1.查找文件中长度最大的字符串，并返回长度

textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)

2.实现wordcounts

val wordCounts = textFile.flatMap(line => line.split(" ")).groupByKey(identity).count()

wordCounts.collect()

5、缓存Caching

Spark还支持将数据集提取到群集范围的内存缓存中。这在重复访问数据时非常有用，例如查询小的“热”数据集或运行像PageRank这样的迭代算法时。举个简单的例子，让我们标记linesWithSpark要缓存的数据集：

linesWithSpark.cache()

linesWithSpark.count()

通过文件运行

新建一个SimpleApp.scala

/* SimpleApp.scala */

import org.apache.spark.sql.SparkSession

object SimpleApp {

  def main(args: Array[String]) {

    val logFile = "YOUR_SPARK_HOME/README.md" // Should be some file on your system

    val spark = SparkSession.builder.appName("Simple Application").getOrCreate()

    val logData = spark.read.textFile(logFile).cache()

    val numAs = logData.filter(line => line.contains("a")).count()

    val numBs = logData.filter(line => line.contains("b")).count()

    println(s"Lines with a: $numAs, Lines with b: $numBs")

    spark.stop()

  }

}

运行结果

快速开始使用spark的更多相关文章

[转] Spark快速入门指南 – Spark安装与基础使用
[From] https://blog.csdn.net/w405722907/article/details/77943331 Spark快速入门指南 – Spark安装与基础使用 2017年09月 ...
Apache Spark 2.2.0 中文文档 - 快速入门 | ApacheCN
快速入门使用 Spark Shell 进行交互式分析基础 Dataset 上的更多操作缓存独立的应用快速跳转本教程提供了如何使用 Spark 的快速入门介绍.首先通过运行 Spark 交互 ...
Spark快速入门
Spark 快速入门本教程快速介绍了Spark的使用. 首先我们介绍了通过Spark 交互式shell调用API( Python或者scala代码),然后演示如何使用Java, Scala或者P ...
Spark，一种快速数据分析替代方案
原文出处:http://www.ibm.com/developerworks/library/os-spark/ Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同 ...
Spark踩坑记——初试
[TOC] Spark简介整体认识 Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apach ...
spark 简介
spark 是基于内存计算的大数据分布式计算框架,spark基于内存计算,提高了在大数据环境下处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将spark部署在大量廉价的硬件上,形成集群. 1 ...
Spark集群搭建步骤
问题: 参考:Spark快速入门指南 – Spark安装与基础使用
Spark Graphx编程指南
问题导读1.GraphX提供了几种方式从RDD或者磁盘上的顶点和边集合构造图?2.PageRank算法在图中发挥什么作用?3.三角形计数算法的作用是什么?Spark中文手册-编程指南Spark之一个快 ...
Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient Distributed Datasets）论文 | ApacheCN
Spark RDD(Resilient Distributed Datasets)论文概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...

随机推荐

WPF DataGrid点击列头选择全列并具有背景色
完成这个操作,主要是XAML的代码. 主要思路是通过绑定多路数据,在多路转换器中返回布尔值,在通过数据触发器来设置被选择的全列的背景色. XAML页面主要代码首先定义DataGridCell < ...
Spark流式编程介绍 - 编程模型
来源Spark官方文档 http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#programm ...
关于Function和Object之间先后问题的相关研究
文章说明,博主是一个前端小白,本片文章是博主在学习的过程中碰到的疑惑,根据查找的资料,之后得出的个人结论,文中如果出现错误,欢迎指正. -------路漫漫其修远兮吾将上下而求索,与诸君共勉----- ...
Java虚拟机详解（七）------虚拟机监控和分析工具（1）——命令行
通过前面的几篇博客,我们介绍了Java虚拟机的内存分配以及内存回收等理论知识,了解这些知识对于我们在实际生产环境中提高系统的运行效率是有很大的帮助的.但是话又说回来,在实际生产环境中,线上项目正在运行 ...
学习笔记之Java队列Queue中offer/add函数,poll/remove函数,peek/element函数的区别
队列是一种特殊的线性表,它只允许在表的前端进行删除操作,而在表的后端进行插入操作. LinkedList类实现了Queue接口,因此我们可以把LinkedList当成Queue来用. Java中Que ...
Leetcode之回溯法专题-39. 组合总数（Combination Sum）
Leetcode之回溯法专题-39. 组合总数(Combination Sum) 给定一个无重复元素的数组 candidates 和一个目标数 target ,找出 candidates 中所有可以使 ...
ResourceManager学习之Application,状态机管理
Application管理 YARN中,Application是指应用程序,他可能启动多个运行实例,每个运行实例由一个ApplicationMaster与一组该ApplicationMaster启动的 ...
为什么有了Compose和Swarm，还会有Kubernetes的出现？
一.k8s设计思想更先进 k8s的主要设置思想,是从更宏观的角度,以统一的方式来定义任务之间的各种关系 1.k8s的核心功能图 2.k8s的全局架构图 kube-apiserver:API服务 Kub ...
python中的全局变量
1. 在函数中定义的局部变量如果和全局变量同名,则会使用局部变量(即隐藏全局变量). 示例: x = 1 def func(): x = 2 print x func() print x 运行结果: ...
UVA 494 Kindergarten Counting Game map
Everybody sit down in a circle. Ok. Listen to me carefully.“Woooooo, you scwewy wabbit!”Now, could s ...

快速开始使用spark

1、版本说明

2、安全

3、利用Spark Shell进行交互式数据分析

3.1、Scala方式

3.2、python方式

4、Dataset的更多操作

5、缓存Caching

通过文件运行

快速开始使用spark的更多相关文章

随机推荐

热门专题