Spark学习笔记——在远程机器中运行WordCount
1.通过realy机器登录relay-shell
- ssh XXX@XXX
2.登录了跳板机之后,连接可以用的机器
- XXXX.bj
3.在本地的idea生成好程序的jar包(word-count_2.11-1.0.jar)之后,把jar包和需要put到远程机器的hdfs文件系统中的文件通过scp命令从开发机传到远程的机器中
- scp 开发机用户名@开发机ip地址:/home/XXXXX/文件 . #最后一个.表示cd的根目录下
- object WordCount {
- def main(args: Array[String]) {
- // val inputFile = "file:///home/mi/coding/coding/Scala/word-count/input/README.txt"
- // val inputFile = "file://README.txt"
- val inputFile = "/user/XXXX/lintong/README.txt"
- val conf = new SparkConf().setAppName("WordCount").setMaster("yarn-client")
- val sc = new SparkContext(conf)
- val textFile = sc.textFile(inputFile)
- val wordCount = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)
- // wordCount.foreach(println)
- // wordCount.saveAsTextFile("file:///home/mi/coding/coding/Scala/word-count/output/READMEOUT.txt")
- wordCount.saveAsTextFile("/user/XXXX/lintong/READMEOUT.txt")
- }
- }
4.通过put命令将远程机器中的txt文件,传到远程机器的hdfs文件系统
- hadoop fs -put /homeXXX/文件名 ./lintong #.注意.的目录地址是用户的根目录
5.这时可以使用下面命令查看文件
- hadoop fs -ls ./lintong
6.接下来写shell脚本,来运行spark-submit命令,写完shell脚本只要运行shell脚本就行,shell脚本的目录和jar包的目录保持一致
yarn-client 调试模式
yarn-cluster 生产模式
- spark-submit --cluster XXXXX \
- --master yarn-client \
- --num-executors 3 \
- --class "包名.类名" \
- --queue XXXXX \
- word-count_2.11-1.0.jar
7.最后在hdfs文件系统中查看生成的文件,注意
- wordCount.saveAsTextFile("/user/XXXX/lintong/READMEOUT.txt")
会是一个READMEOUT.txt目录,这个目录下面有part文件
- hadoop fs -ls ./lintong/READMEOUT.txt
输出
- lintong/READMEOUT.txt/_SUCCESS
- lintong/READMEOUT.txt/part-00000
Spark学习笔记——在远程机器中运行WordCount的更多相关文章
- Spark学习笔记——在集群上运行Spark
Spark运行的时候,采用的是主从结构,有一个节点负责中央协调, 调度各个分布式工作节点.这个中央协调节点被称为驱动器( Driver) 节点.与之对应的工作节点被称为执行器( executor) 节 ...
- Spark学习笔记3(IDEA编写scala代码并打包上传集群运行)
Spark学习笔记3 IDEA编写scala代码并打包上传集群运行 我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包 上传至集群,来检验一下我们的sp ...
- Spark学习笔记0——简单了解和技术架构
目录 Spark学习笔记0--简单了解和技术架构 什么是Spark 技术架构和软件栈 Spark Core Spark SQL Spark Streaming MLlib GraphX 集群管理器 受 ...
- Spark学习笔记2——RDD(上)
目录 Spark学习笔记2--RDD(上) RDD是什么? 例子 创建 RDD 并行化方式 读取外部数据集方式 RDD 操作 转化操作 行动操作 惰性求值 Spark学习笔记2--RDD(上) 笔记摘 ...
- Spark学习笔记之SparkRDD
Spark学习笔记之SparkRDD 一. 基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ① 内存集合和外部存储系统 ② ...
- spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
- Spark学习之在集群上运行Spark(6)
Spark学习之在集群上运行Spark(6) 1. Spark的一个优点在于可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力. 2. Spark既能适用于专用集群,也可以适用于共享的云计算 ...
- Spark学习笔记3——RDD(下)
目录 Spark学习笔记3--RDD(下) 向Spark传递函数 通过匿名内部类 通过具名类传递 通过带参数的 Java 函数类传递 通过 lambda 表达式传递(仅限于 Java 8 及以上) 常 ...
- Spark学习笔记1——第一个Spark程序:单词数统计
Spark学习笔记1--第一个Spark程序:单词数统计 笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 添加依赖 通过 Maven 添加 Spark-c ...
随机推荐
- JVM笔记(一)数字在JVM中的表示
数字在JVM中的表示 一.整数在JVM中的表示 1.在Java虚拟机中,整数有四种表示: byte:8位 short:16位 int:32位 long:64位 2.原码. ...
- mysql GRANT ALL PRIVILEGES 限制某个或所有客户端都可以连接至mysql
GRANT ALL PRIVILEGES 1. 改表法.可能是你的帐号不允许从远程登陆,只能在localhost.这个时候只要在localhost的那台电脑,登入mysql后,更改 "mys ...
- [USACO09JAN]Total Flow
OJ题号: BZOJ3996.洛谷2936.SPOJ-MTOTALF.SCU3353 思路: 题目的要求是将所有边合并成一条边,求合并后的流量. 实际上相当于直接求最大流. EdmondsKarp模板 ...
- Cocos2dx使用TextField实现输入框
游戏login的时候必须要求玩家输入用户名.密码,还要可以删除. cocostudio画一个textfield,直接读入好了: textField类,继承读取的widget. local textFi ...
- Codeforces Round #404 (Div. 2) D. Anton and School - 2 数学
D. Anton and School - 2 题目连接: http://codeforces.com/contest/785/problem/D Description As you probabl ...
- 【织梦dedecms系统安全】完善DEDECMS目录的权限安全设置
[织梦dedecms系统安全]完善DEDECMS目录的权限安全设置: ../ [站点上级目录] 如果要使用后台的目录相关的功能需要有列出目录的权限 / [站点根目录] 需要执行和读 ...
- fastcgi协议分析与实例
http://blog.csdn.net/tanswer_/article/details/78879905
- Android典型界面设计(4)——使用ActionBar+Fragment实现tab切换
一.问题描述 之前我们使用ViewPager+Fragment区域内头部导航,在Android 3.0之后Google增加了新的ActionBar,可方便的实现屏幕Head部区域的 设计如返回键.标题 ...
- java类型生命周期
开始阶段 装载:把二进制形式的java类型读入jvm中. 1)通过该类型的完全限定名,产生一个代表该类型的二进制数据流:2)解析这个二进制数据流为方法区内的内部数据结构:3)创建一个表示该类型的jav ...
- Visual Studio 打开程序提示仅我的代码怎么办
工具-->选项--->调试---->常规-->禁用"启动仅我的代码"