Spark安装与部署
1.首先安装scala(找到合适版本的具体地址下载)
wget https://www.scala-lang.org/download/****
2.安装spark
wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz
tar -zxvf spark-2.4.-bin-hadoop2..tgz
rm spark-2.4.-bin-hadoop2..tgz
3.配置环境变量
vim /etc/profile
4.刷新环境变量
source /etc/profile
5.复制配置文件
cp slaves.template slaves
cp spark-env.sh.template spark-env.sh
6.接着进行以下配置
vim /etc/profile(查看其它配置文件直接复制即可)
vim ./spark-2.4.-bin-hadoop2./conf
vim spark-env.sh
7.启动spark环境
1)先启动Hadoop环境
/usr/local/hadoop-2.7./sbin/start-all.sh
2) 启动Spark环境
/usr/local/spark-2.4.-bin-hadoop2./sbin/start-all.sh
8.查看spark的web控制界面
![](https://img2018.cnblogs.com/blog/1690442/201908/1690442-20190815200457151-904292475.png)
9.查看Hadoop的web端界面
![](https://img2018.cnblogs.com/blog/1690442/201908/1690442-20190815200650292-954647.png)
10.验证Spark是否安装成功
bin/run-example SparkPi
![](https://img2018.cnblogs.com/blog/1690442/201908/1690442-20190815200738673-1847829623.png)
bin/run-example SparkPi >& | grep "Pi is"
![](https://img2018.cnblogs.com/blog/1690442/201908/1690442-20190815200755181-658590607.png)
11.使用Spark Shell编写代码
1)启动Spark Shell
bin/spark-shell
![](https://img2018.cnblogs.com/blog/1690442/201908/1690442-20190815200815714-1332851809.png)
2)加载text文件
3)简单RDD操作
scala> textFile.first() // 获取RDD文件textFile的第一行内容
scala> textFile.count() // 获取RDD文件textFile的所有项的计数
![](https://img2018.cnblogs.com/blog/1690442/201908/1690442-20190815200908473-1316253703.png)
scala> val lineWithSpark=textFile.filter(line=>line.contains("Spark"))// 抽取含有“Spark”的行,返回一个新的RDD
![](https://img2018.cnblogs.com/blog/1690442/201908/1690442-20190815200934454-1813250681.png)
scala> lineWithSpark.count() //统计新的RDD的行数
![](https://img2018.cnblogs.com/blog/1690442/201908/1690442-20190815200951512-1904207422.png)
4)可以通过组合RDD操作进行组合,可以实现简易MapReduce操作
scala> textFile.map(line=>line.split(" ").size).reduce((a,b)=>if(a>b) a else b) //找出文本中每行的最多单词数
![](https://img2018.cnblogs.com/blog/1690442/201908/1690442-20190815201016335-192914290.png)
5)退出Spark shell
:quit
![](https://img2018.cnblogs.com/blog/1690442/201908/1690442-20190815201041029-1068076617.png)
Spark安装与部署的更多相关文章
- Spark入门实战系列--2.Spark编译与部署(中)--Hadoop编译安装
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .编译Hadooop 1.1 搭建环境 1.1.1 安装并设置maven 1. 下载mave ...
- Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .编译Spark .时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 ...
- Spark安装部署(local和standalone模式)
Spark运行的4中模式: Local Standalone Yarn Mesos 一.安装spark前期准备 1.安装java $ sudo tar -zxvf jdk-7u67-linux-x64 ...
- CentOS6安装各种大数据软件 第十章:Spark集群安装和部署
相关文章链接 CentOS6安装各种大数据软件 第一章:各个软件版本介绍 CentOS6安装各种大数据软件 第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件 第三章:Linux基础 ...
- Spark 安装部署与快速上手
Spark 介绍 核心概念 Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架,类似于 Hadoop,但有很多的区别. 最大的优化是让计算任务的中间结果可以存储在内存中, ...
- spark-2.2.0安装和部署——Spark集群学习日记
前言 在安装后hadoop之后,接下来需要安装的就是Spark. scala-2.11.7下载与安装 具体步骤参见上一篇博文 Spark下载 为了方便,我直接是进入到了/usr/local文件夹下面进 ...
- Spark学习(一) -- Spark安装及简介
标签(空格分隔): Spark 学习中的知识点:函数式编程.泛型编程.面向对象.并行编程. 任何工具的产生都会涉及这几个问题: 现实问题是什么? 理论模型的提出. 工程实现. 思考: 数据规模达到一台 ...
- Spark入门实战系列--2.Spark编译与部署(上)--基础环境搭建
[注] 1.该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取: 2.Spark编译与部署将以CentOS 64位操作系统为基础,主要是考虑到实际应用 ...
- Spark on Mesos部署
一.Mesos的安装和部署 1.下载mesos源码和依赖包 部署环境 centOS 6.6 mesos-0.21.0 spark-1.4.1 因为mesos官方只提供源码,所以必须要自己进行编译安装使 ...
随机推荐
- java高并发系列 - 第6天:线程的基本操作
新建线程 新建线程很简单.只需要使用new关键字创建一个线程对象,然后调用它的start()启动线程即可. Thread thread1 = new Thread1(); t1.start(); 那么 ...
- 《An Attentive Survey of Attention Models》阅读笔记
本文是对文献 <An Attentive Survey of Attention Models> 的总结,详细内容请参照原文. 引言 注意力模型现在已经成为神经网络中的一个重要概念,并已经 ...
- python文件下载
1. 场景描述 刚好总结Java项目的web文件下载(附方案及源码配置),想起python项目也有用到文件下载,就也介绍下吧. 2. 解决方案 使用python的第三方组件Flask来实现文件下载功能 ...
- NOIP2011聪明的质监员题解
631. [NOIP2011] 聪明的质监员 ★★ 输入文件:qc.in 输出文件:qc.out 简单对比时间限制:1 s 内存限制:128 MB [问题描述] 小 T 是一名质量监督 ...
- 从byte数组byte[]转换为bitmapsource以及反射实现属性批量赋值
从byte数组byte[]转换为bitmapsource (BitmapSource)new ImageSourceConverter().ConvertFrom(b) 名字有规律的属性代码用反射优美 ...
- C#6.0 新增功能
连载目录 [已更新最新开发文章,点击查看详细] C# 6.0 版本包含许多可提高开发人员工作效率的功能. 这些功能的总体效果是让你编写的代码更简洁.更具可读性. 该语法不像许多常见做法那样繁琐. ...
- SublimeText3 汉化
Sublime Text3 汉化 Sublime Text 作为一款方便的代码编辑软件广受大家喜爱,所以在自己在汉化成功后记录该方法,方便大家使用. 安装 一个插件 package control 即 ...
- Atom实用插件
下载atom狠戳本链接 中文简体插件(工具栏,右键菜单,设置菜单) simplified-chinese-menu 代码格式化插件(支持多种语言) atom-beautify 智能补全资源路径插件 a ...
- 如何实现Kali linux系统下的U盘启动(小白指导)
一.准备工作: 声明:这个“操作”并不会影响你原装的系统,真正的即插即用的哦. (1)4GB的U盘<读写速度比较快的> (2)Kali linux镜像文件 (3)软件Universal-U ...
- git push 出现non-fast-forward的错误
1.git push origin liu_0909:daily_liu_0909 出现non-fast-forward的错误,证明您的本地库跟远程库的提交记录不一致,即 你的本地库版本需要更新2.g ...