使用IDEA打包scala程序并在spark中运行

一、首先配置ssh无秘钥登陆，

　　先使用这条命令：ssh-keygen，然后敲三下回车；

　　然后使用cd .ssh进入 .ssh这个隐藏文件夹；

　　再创建一个文件夹authorized_keys，使用命令touch authorized_keys；

　　然后使用cat id_rsa.pub > authorized_keys 即可；

　　最后使用 chmod 600 authorized_keys修改权限就完成了。

二、创建spark项目

　　idea创建spark项目的过程这里就略过了，具体可以看这里https://www.cnblogs.com/xxbbtt/p/8143441.html

三、在pom.xml加入相关的依赖包

　　在pom.xml文件中添加：

    <properties>

        <spark.version>2.1.0</spark.version>

        <scala.version>2.11</scala.version>

    </properties>

    <dependencies>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_${scala.version}</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-streaming_${scala.version}</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_${scala.version}</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-hive_${scala.version}</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-mllib_${scala.version}</artifactId>

            <version>${spark.version}</version>

        </dependency>

    </dependencies>

    <build>

        <plugins>

            <plugin>

                <groupId>org.scala-tools</groupId>

                <artifactId>maven-scala-plugin</artifactId>

                <version>2.15.2</version>

                <executions>

                    <execution>

                        <goals>

                            <goal>compile</goal>

                            <goal>testCompile</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

            <plugin>

                <artifactId>maven-compiler-plugin</artifactId>

                <version>3.6.0</version>

                <configuration>

                    <source>1.8</source>

                    <target>1.8</target>

                </configuration>

            </plugin>

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-surefire-plugin</artifactId>

                <version>2.19</version>

                <configuration>

                    <skip>true</skip>

                </configuration>

            </plugin>

        </plugins>

    </build>

　　然后等待就好了。。。

四、编写一个示范程序

　　创建一个scala类,并写以下代码，也可以是其他的，这里只是测试而已

object first {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("wordcount")

    val sc = new SparkContext(conf)

    val input = sc.textFile("/home/cjj/testfile/helloSpark.txt")

    val lines = input.flatMap(line => line.split(" "))

    val count = lines.map(word => (word, 1)).reduceByKey { case (x, y) => x + y }

    val output = count.saveAsTextFile("/home/cjj/testfile/helloSparkRes")

  }

}

　　这里使用了Spark实现的功能是，计算helloSpark.txt这个文件各个单词出现的次数，并保存在helloSparkRes文件夹中。

五、打包

　　file->Porject Structure->Artifacts->绿色的加号->JAR->from modules...

　　跳出以下对话框，选择要打包的类，然后选择copy to.....选项，这里的意思是只打包这一个类。

　　然后点击ok,然后ok。然后build->build Artifacts

　　再然后点击build

　　等待build完成。然后可以在项目的这个目录中找到刚刚打包的这个jar包

　　这里的first的我的项目名。

六、启动集群　　

　　先将刚才打包的jar包复制到虚拟机中，

　　helloSpark.txt是我将要操作的文件。接着就是启动集群，分为三步

启动master ./sbin/start-master.sh
启动worker ./bin/spark-class
提交作业 ./bin/spark-submit

　　首先进入spark-2.2.1-bin-hadoop2.7文件夹，然后运行命令./sbin/start-master.sh

　　然后可以打开浏览器，进入localhost:8080,可以看到

　　这里的URL spark://localhost:7077需要记下来下一步需要使用，下一步启动work，加上刚刚的URL，可以使用的命令是，

./bin/spark-class org.apache.spark.deploy.worker.Worker spark://localhost:7077

　　这时启动另一个窗口进行提交作业，同样需要先进入spark文件夹，然后运行命令

./bin/spark-submit  --master spark://localhost:7077 --class first /home/cjj/testfile/first.jar

这样就算完成了，我们可以来看看结果，看结果之前需要先看一看helloSpark.txt的内容

结果保存在helloSparkRes中，下面是结果

这里的结果告诉我们have和word的个数为2，word和a的个数为1。

使用IDEA打包scala程序并在spark中运行的更多相关文章

docker 运行jenkins及vue项目与springboot项目(五.jenkins打包springboot服务且在docker中运行)
docker 运行jenkins及vue项目与springboot项目: 一.安装docker 二.docker运行jenkins为自动打包运行做准备三.jenkins的使用及自动打包vue项目四 ...
intellij-idea打包Scala代码在spark中运行
.创建好Maven项目之后(记得添加Scala框架到该项目),修改pom.xml文件,添加如下内容: <properties> <spark.version></spar ...
使用IntelliJ IDEA编写Scala在Spark中运行
使用Scala写一个测试代码: object Test { def main(args: Array[String]): Unit = { println("hello world" ...
判断Java程序是否在jar中运行
URL url = TextRenderer.class.getResource(""); String protocol = url.getProtocol(); boolean ...
关于python程序在VS code中运行时提示文件无法找到的报错
经过测试,在设置文件夹目录时,可以找到当前目录下的htm文件,采用with open()语句可以正常执行程序,如下图. 而当未设置当前目录,直接用vscode执行该程序时,就会报错文件无法找到File ...
C编译器MinGW安装、下载及在notepad++中运行C程序
一.C编译器MinGW的下载及安装步骤打开MinGW官网:http://www.mingw.org/ 图一图二图三图四图五图六系统中配置环境变量: 图七验证是否安装成功: CMD中运行 ...
sbt打包Scala写的Spark程序，打包正常，提交运行时提示找不到对应的类
sbt打包Scala写的Spark程序,打包正常,提交运行时提示找不到对应的类详述使用sbt对写的Spark程序打包,过程中没有问题 spark-submit提交jar包运行提示找不到对应的类解 ...
通过IDEA搭建scala开发环境开发spark应用程序
一.idea社区版安装scala插件因为idea默认不支持scala开发环境,所以当需要使用idea搭建scala开发环境时,首先需要安装scala插件,具体安装办法如下. 1.打开idea,点击c ...
IDEA搭建scala开发环境开发spark应用程序
通过IDEA搭建scala开发环境开发spark应用程序一.idea社区版安装scala插件因为idea默认不支持scala开发环境,所以当需要使用idea搭建scala开发环境时,首先需要安 ...

随机推荐

Flink会话窗口测试
Flink会话窗口测试一.测试结论: 1.会话窗口的间隔时间和水位线作用一样,表示输出现在时间 - 间隔时间之前所有未结算时间的数据,作用类似于水位线,但是和水位线开闭不一样. 2.会话窗口显示的数 ...
Java中的关键字synchronized
1. 介绍在Java并发系列的文章中,这个是第二篇文章.在前面的一篇文章中,我们学习了Java中的Executor池和Excutors的各种类别. 在这篇文章中,我们会学习synchronized关 ...
scrapy实战4 GET方法抓取ajax动态页面(以糗事百科APP为例子)：
一般来说爬虫类框架抓取Ajax动态页面都是通过一些第三方的webkit库去手动执行html页面中的js代码, 最后将生产的html代码交给spider分析.本篇文章则是通过利用fiddler抓包获取j ...
阿里云域名的ssl证书申请与腾讯服务器域名的证书安装
阿里云域名中的SSL证书申请,腾讯云服务器中的证书安装: 因为公司的与域名都在阿里云上面,服务器却用的是腾讯云的.记得前2年用阿里云管理平台的时候,域名的SSL证书都很好找,也许是长时间不用,找SSL ...
数据结构丨N叉树
遍历 N叉树的遍历树的遍历一棵二叉树可以按照前序.中序.后序或者层序来进行遍历.在这些遍历方法中,前序遍历.后序遍历和层序遍历同样可以运用到N叉树中. 回顾 - 二叉树的遍历前序遍历 - 首先访 ...
构建工具--glup如何压缩,丑化代码
目录为什么使用实现为什么使用最近在迭代公司的项目,发现项目有如下缺点: 代码没有压缩,js文件,内存大,放在服务器上占空间: 源代码没有混淆或者丑化处理,本公司的程序员写出来的代码和高质量逻辑 ...
个人永久性免费-Excel催化剂功能第37波-把Sqlserver的强大分析函数拿到Excel中用
本人一直钟情于使用Sqlserver数据库的一大原因是其提供了非常好用.高效的数据分析函数(窗口函数),可以在做数据清洗和数据分析场合等多个场景使用.只需简单的一个函数即可做出常规SQL语句很难以实现 ...
OWASP 关于会话管理 - 译文 [原创]
英文原文:https://github.com/OWASP/CheatSheetSeries/blob/master/cheatsheets/Session_Management_Cheat_Shee ...
UVA663 Sorting Slides（烦人的幻灯片）
UVA663 Sorting Slides(烦人的幻灯片) 第一次做到这么玄学的题,在<信息学奥赛一本通>拓扑排序一章找到这个习题(却发现标程都是错的),结果用二分图匹配做了出来蒟蒻感觉 ...
C#3.0新增功能05 分部方法
连载目录 [已更新最新开发文章,点击查看详细] 分部类或结构可以包含分部方法. 类的一个部分包含方法的签名. 可以在同一部分或另一个部分中定义可选实现. 如果未提供该实现,则会在编译时删除 ...

使用IDEA打包scala程序并在spark中运行

使用IDEA打包scala程序并在spark中运行的更多相关文章

随机推荐

热门专题