spark实验(三)--Spark和Hadoop的安装(1)

一、实验目的
（1）掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法；（2）熟悉 HDFS 的基本使用方法；（3）掌握使用 Spark 访问本地文件和 HDFS 文件的方法。

二、实验平台
操作系统：centos6.4； Spark 版本：1.5.0； Hadoop 版本：2.7.3。

三、内容

实验一：

1．安装 Hadoop 和 Spark
进入 Linux 系统，参照本教程官网“实验指南”栏目的“Hadoop 的安装和使用”，完成 Hadoop 伪分布式模式的安装。完成 Hadoop 的安装以后，再安装 Spark（Local 模式）。

该过程可以参考之前的博客。

实验二：

2．HDFS 常用操作
使用 hadoop 用户名登录进入 Linux 系统，启动 Hadoop，参照相关 Hadoop 书籍或网络资料，或者也可以参考本教程官网的“实验指南”栏目的“HDFS 操作常用 Shell 命令”，使用 Hadoop 提供的 Shell 命令完成如下操作：

（1）启动 Hadoop，在 HDFS 中创建用户目录“/user/hadoop”；

在启动玩hadoop之后，输入以下命令：

hadoop fs -mkdir /user/hadoop

（2）在 Linux 系统的本地文件系统的“/home/hadoop”目录下新建一个文本文件 test.txt，并在该文件中随便输入一些内容，然后上传到 HDFS 的“/user/hadoop” 目录下；

gedit /home/hadoop/test.txt

hadoop fs -put /home/hadoop/test.txt /user/hadoop

（3）把 HDFS 中“/user/hadoop”目录下的 test.txt 文件，下载到 Linux 系统的本地文件系统中的“/home/hadoop/下载”目录下；

hadoop fs -get /user/hadoop/test.txt /home/hadoop/下载

（4）将HDFS中“/user/hadoop”目录下的test.txt文件的内容输出到终端中进行显示；

hadoop fs -text /user/hadoop/test.txt

（5）在 HDFS 中的“/user/hadoop”目录下，创建子目录 input，把 HDFS 中 “/user/hadoop”目录下的 test.txt 文件，复制到“/user/hadoop/input”目录下；

hadoop fs -mkdir /user/hadoop/input

hadoop fs -cp /user/hadoop/test.txt /user/hadoop/input

（6）删除HDFS中“/user/hadoop”目录下的test.txt文件，删除HDFS中“/user/hadoop” 目录下的 input 子目录及其子目录下的所有内容。

hadoop fs -rm -r /user/haddop/input

图略，在input下面还有许多重要的文件，这个步骤截图省略

实验三：

3.Spark 读取文件系统的数据

首先启动spark-shell
（1）在 spark-shell 中读取 Linux 系统本地文件“/home/hadoop/test.txt”，然后统计出文件的行数；

var file=sc.textFile("file:///home/hadoop/test.txt")

file.count()

（2）在 spark-shell 中读取 HDFS 系统文件“/user/hadoop/test.txt”（如果该文件不存在，请先创建），然后，统计出文件的行数；

（3）编写独立应用程序，读取 HDFS 系统文件“/user/hadoop/test.txt”（如果该文件不存在，请先创建），然后，统计出文件的行数；通过 sbt 工具将整个应用程序编译打包成 JAR 包，并将生成的 JAR 包通过 spark-submit 提交到 Spark 中运行命令。

spark实验(三)--Spark和Hadoop的安装(1)的更多相关文章

spark实验(五)--Spark SQL 编程初级实践(1)
一.实验目的 (1)通过实验掌握 Spark SQL 的基本编程方法: (2)熟悉 RDD 到 DataFrame 的转化方法: (3)熟悉利用 Spark SQL 管理来自不同数据源的数据. 二.实 ...
spark实验(一)--spark安装(1)
一.实验目的 (1)掌握 Linux 虚拟机的安装方法.Spark 和 Hadoop 等大数据软件在 Linux 操作系统上运行可以发挥最佳性能,因此,本教程中,Spark 都是在 Linux 系统 ...
实验三 UML建模工具的安装与使用
一. 实验目的 1) 学习使用 EA(Enterprise Architect) 开发环境创建模型的一般方法: 2) 理解 EA 界面布局和元素操作的一般技巧: 3) 熟悉 UML 中的各种图的建立和 ...
实验三 UML 建模工具的安装与使用
UML 建模工具的安装与使用一. 实验目的1) 学习使用 EA(Enterprise Architect) 开发环境创建模型的一般方法: 2) 理解 EA 界面布局和元素操作的一般技巧: 3) 熟悉 ...
实验 3 Spark 和 Hadoop 的安装
1. 安装 Hadoop 和 Spark 进入 Linux 系统,参照本教程官网"实验指南"栏目的"Hadoop 的安装和使用",完成 ...
大数据学习day18----第三阶段spark01--------0.前言（分布式运算框架的核心思想，MR与Spark的比较，spark可以怎么运行，spark提交到spark集群的方式）1. spark(standalone模式)的安装 2. Spark各个角色的功能 3.SparkShell的使用，spark编程入门（wordcount案例）
0.前言 0.1 分布式运算框架的核心思想(此处以MR运行在yarn上为例) 提交job时,resourcemanager(图中写成了master)会根据数据的量以及工作的复杂度,解析工作量,从而 ...
Spark部署三种方式介绍：YARN模式、Standalone模式、HA模式
参考自:Spark部署三种方式介绍:YARN模式.Standalone模式.HA模式http://www.aboutyun.com/forum.php?mod=viewthread&tid=7 ...
在阿里云上搭建 Spark 实验平台
在阿里云上搭建 Spark 实验平台 Hadoop2.7.3+Spark2.1.0 完全分布式环境搭建全过程 [传统文化热爱者] 阿里云服务器搭建spark特别坑的地方阿里云实现Hadoop+Sp ...
【hadoop+spark】搭建spark过程
部分转载,已标红源地址,本博客为本菜搭建与爬坑记录,整理版请看: https://blog.csdn.net/the_fool_/article/details/78211166 记录: ====== ...

随机推荐

CentOS根目录下各目录介绍
bin :存放普通用户可执行的指令,即使在单用户模式下也能够执行处理 boot :开机引导目录,包括Linux内核文件与开机所需要的文件 dev :设备目录,所有的硬件设备及周边均放置在这个设备目录中 ...
alert警告框点击确定后自动提交表单
转载于 :https://zhidao.baidu.com/question/619375120140398412.html 在页面中有多个input type="text"的文 ...
python 序列倒着取元素
当要倒着取元素时,用s[-2]只能取一个, 如果取多个时用s[-9:-1],注意,最后一个-1是不取出来的. 此时要用s[-9:] 最后一个空着就可以取出来了.
sublime 最常用的快捷键.gif
Ctrl+D 把光标放在文本上,按下⌘+ D将选择这个文本.多次按下⌘+ D则会增加匹配项 Alt+F3 会选中光标所在文本的所有匹配项 Ctrl+Shift+' 这是一个法宝,也许你希望所有的属性保 ...
liunx详解-2
linux安装与配置安装配置虚拟机配置1G内存,1核CPU,50G硬盘,网络地址转换(NAT,主机作为路由构建内网) 镜像文件:http://mirror.nsc.liu.se/centos-st ...
google插件跨域含用户请求WebApi解决的方案
问题描述: google插件跨域请求WebApi相关解决方案 1.ajax解决含登录用户信息 $.ajax({ url: url, type: "POST", timeout: 6 ...
树链剖分-Hello!链剖-[NOIP2015]运输计划-[填坑]
This article is made by Jason-Cow.Welcome to reprint.But please post the writer's address. http://ww ...
边双连通分量 jarjan (poj 3177)
大意:给定一个无向连通图,判断至少加多少的边,才能使任意两点之间至少有两条的独立的路(没有公共的边,但可以经过同一个中间的顶点). 思路:在同一个双连通分量里的所有的点可以看做一个点,收缩后,新图是一 ...
FileOutputStream，BufferedOutputStream，FileWriter 效率比较
测试代码: /** * 写文件 * FileOutputStream, BufferedOutputStream, FileWriter * 三个流效率比较 */ @Test public void ...
解决teamviewer试用期到期的方法
Teamviewer是一款远程控制软件,使用过程中系统弹出“Teamviewer试用版已到期”的提示, 需要用户购买许可证或延长试用期才能继续使用,解决teamviewer试用期到期问题步骤如下: 出 ...

spark实验(三)--Spark和Hadoop的安装(1)

spark实验(三)--Spark和Hadoop的安装(1)的更多相关文章

随机推荐

热门专题