[Spark Core] 在 Spark 集群上运行程序

0. 说明

　　将 IDEA 下的项目导出为 Jar 包，部署到 Spark 集群上运行。

1. 打包程序

　　1.0 前提

　　搭建好 Spark 集群，完成代码的编写。

　　1.1 修改代码

　　【添加内容，判断参数的有效性】

    // 判断参数的有效性

    if (args == null || args.length == 0) {

      throw new Exception("需要指定文件路径") ;

    }

　　【注释掉 conf.setMaster("...")】

    // 不用写，在提交代码的时候通过 spark-submit --master ... 自动生成

    // conf.setMaster("spark://s101:7077")

　　【将加载文件部分由固定路径改为读取传入的路径参数】

    // 1. 加载文件

    val rdd1 = sc.textFile(args(0))

　　【原代码参考】

　　Spark 实现标签生成中 Scala 代码部分

　　【修改过的代码如下】

import java.util

import com.share.util.TagUtil

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.rdd.RDD

/**

  * 标签生成

  */

object TaggenCluster {

  def main(args: Array[String]): Unit = {

    // 判断参数的有效性

    if (args == null || args.length == 0) {

      throw new Exception("需要指定文件路径") ;

    }

    // 创建 spark 配置对象

    val conf = new SparkConf()

    conf.setAppName("TaggenScalaApp")

    // 不用写，在提交代码的时候通过 spark-submit --master ... 自动生成

    // conf.setMaster("spark://s101:7077")

    // 创建上下文

    val sc = new SparkContext(conf)

    // 1. 加载文件

    val rdd1 = sc.textFile(args(0))

    // 2. 解析每行的json数据成为集合

    val rdd2: RDD[(String, java.util.List[String])] = rdd1.map(line => {

      val arr: Array[String] = line.split("\t")

      // 商家id

      val busid: String = arr(0)

      // json

      val json: String = arr(1)

      val list: java.util.List[String] = TagUtil.extractTag(json)

      Tuple2[String, java.util.List[String]](busid, list)

    })

    // 3. 过滤空集合 (85766086,[干净卫生, 服务热情, 价格实惠, 味道赞])

    val rdd3: RDD[(String, util.List[String])] = rdd2.filter((t: Tuple2[String, java.util.List[String]]) => {

      !t._2.isEmpty

    })

    // 4. 将值压扁  (78477325,味道赞)

    val rdd4: RDD[(String, String)] = rdd3.flatMapValues((list: java.util.List[String]) => {

      // 导入隐式转换

      import scala.collection.JavaConversions._

      list

    })

    // 5. 滤除数字的tag  (78477325,菜品不错)

    val rdd5 = rdd4.filter((t: Tuple2[String, String]) => {

      try {

        Integer.parseInt(t._2)

        false

      } catch {

        case _ => true

      }

    })

    // 6. 标1成对  ((70611801,环境优雅),1)

    val rdd6: RDD[Tuple2[Tuple2[String, String], Int]] = rdd5.map((t: Tuple2[String, String]) => {

      Tuple2[Tuple2[String, String], Int](t, 1)

    })

    // 7. 聚合  ((78477325,味道赞),8)

    val rdd7: RDD[Tuple2[Tuple2[String, String], Int]] = rdd6.reduceByKey((a: Int, b: Int) => {

      a + b

    })

    // 8. 重组 (83073343,List((性价比高,8)))

    val rdd8: RDD[Tuple2[String, List[Tuple2[String, Int]]]] = rdd7.map((t: Tuple2[Tuple2[String, String], Int]) => {

      Tuple2[String, List[Tuple2[String, Int]]](t._1._1, Tuple2[String, Int](t._1._2, t._2) :: Nil)

    })

    // 9. reduceByKey  (71039150,List((环境优雅,1), (价格实惠,1), (朋友聚会,1), (团建,1), (体验好,1)))

    val rdd9: RDD[Tuple2[String, List[Tuple2[String, Int]]]] = rdd8.reduceByKey((a: List[Tuple2[String, Int]], b: List[Tuple2[String, Int]]) => {

      a ::: b

    })

    // 10. 分组内排序  (88496862,List((回头客,5), (服务热情,4), (味道赞,4), (分量足,3), (性价比高,2)))

    val rdd10: RDD[Tuple2[String, List[Tuple2[String, Int]]]] = rdd9.mapValues((list: List[Tuple2[String, Int]]) => {

      val list2: List[Tuple2[String, Int]] = list.sortBy((t: Tuple2[String, Int]) => {

        -t._2

      })

      list2.take(5)

    })

    // 11. 商家间排序 (75144086,List((服务热情,38), (效果赞,30), (无办卡,22), (环境优雅,22), (性价比高,21)))

    val rdd11: RDD[Tuple2[String, List[Tuple2[String, Int]]]] = rdd10.sortBy((t: Tuple2[String, List[Tuple2[String, Int]]]) => {

      t._2(0)._2

    }, false)

    rdd11.collect().foreach(println)

  }

}

　　1.2 导出 Jar 包，并添加依赖的第三方类库

　　【打开 Project Structure】

　　【添加模块】

　　【移除第三方类库】

　　【添加第三方类库 fastjson】

　　【导入完成】

　　【构建 Jar 包】

　　【得到 Jar 包】

2. 运行程序

　　2.0 将 Jar 包传输到服务器

　　通过 Xftp 将 myspark.jar 传到服务器，过程略。

　　2.1 上传文件到 HDFS 中

hdfs dfs -put temptags.txt /user/centos

　　2.2 使用 spark-submit 提交应用(Scala)

spark-submit --class com.share.scala.mr.TaggenCluster --master spark://s101:7077 myspark.jar /user/centos/temptags.txt

　　2.3 使用 spark-submit 提交应用(Java)

spark-submit --class com.share.java.mr.TaggenCluster --master spark://s101:7077 myspark.jar /user/centos/temptags.txt

[Spark Core] 在 Spark 集群上运行程序的更多相关文章

Spark学习之在集群上运行Spark（6）
Spark学习之在集群上运行Spark(6) 1. Spark的一个优点在于可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力. 2. Spark既能适用于专用集群,也可以适用于共享的云计算 ...
Spark学习之在集群上运行Spark
一.简介 Spark 的一大好处就是可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力.好在编写用于在集群上并行执行的 Spark 应用所使用的 API 跟本地单机模式下的完全一样.也就是说 ...
Spark学习笔记——在集群上运行Spark
Spark运行的时候,采用的是主从结构,有一个节点负责中央协调, 调度各个分布式工作节点.这个中央协调节点被称为驱动器( Driver) 节点.与之对应的工作节点被称为执行器( executor) 节 ...
在local模式下的spark程序打包到集群上运行
一.前期准备前期的环境准备,在Linux系统下要有Hadoop系统,spark伪分布式或者分布式,具体的教程可以查阅我的这两篇博客: Hadoop2.0伪分布式平台环境搭建 Spark2.4.0伪分 ...
spark在集群上运行
1.spark在集群上运行应用的详细过程 (1)用户通过spark-submit脚本提交应用 (2)spark-submit脚本启动驱动器程序,调用用户定义的main()方法 (3)驱动器程序与集群管 ...
Eclipse提交代码到Spark集群上运行
Spark集群master节点: 192.168.168.200 Eclipse运行windows主机: 192.168.168.100 场景: 为了测试在Eclipse上开发的代码在Spa ...
在集群上运行Spark
Spark 可以在各种各样的集群管理器(Hadoop YARN.Apache Mesos,还有Spark 自带的独立集群管理器)上运行,所以Spark 应用既能够适应专用集群,又能用于共享的云计算环境 ...
将java开发的wordcount程序提交到spark集群上运行
今天来分享下将java开发的wordcount程序提交到spark集群上运行的步骤. 第一个步骤之前,先上传文本文件,spark.txt,然用命令hadoop fs -put spark.txt /s ...
06、部署Spark程序到集群上运行
06.部署Spark程序到集群上运行 6.1 修改程序代码修改文件加载路径在spark集群上执行程序时,如果加载文件需要确保路径是所有节点能否访问到的路径,因此通常是hdfs路径地址.所以需要修改 ...

随机推荐

vue 项目其他规范
列表 vuex数据管理 * 数据模块化:vuex数据管理-数据模块化数据适配:vuex数据管理-数据适配数据共享:vuex数据管理-数据共享路由优化 keep-alive组件设置保留滚动位置 ...
[转]magento2项目上线注意事项切换到产品模式
本文转自:https://segmentfault.com/a/1190000007929783 切换到产品模式 php magento deploy:mode:set production 执行以上 ...
C#快速读写文件
一.写入 //在应用程序当前目录下的File1.txt文件中追加文件内容,如果文件不存在就创建,默认编码 File.AppendAllText("File1.txt", " ...
node.js遇到的问题
1.cann't find module 'request' 不能找到’request' 模块解决方法:找到项目的根路径,cd到该路径,运行命令 npm install request 2.no ...
Asp.net core WebApi 使用Swagger生成帮助页实例
最近我们团队一直进行.net core的转型,web开发向着前后端分离的技术架构演进,我们后台主要是采用了asp.net core webapi来进行开发,开始每次调试以及与前端人员的沟通上都存在这效 ...
使用Hibernate Validator来帮你做数据校验
数据校验是贯穿所有应用程序层(从表示层到持久层)的常见任务.通常在每个层中实现相同的验证逻辑,这是耗时且容易出错的.这里我们可以使用Hibernate Validator来帮助我处理这项任务.对此,H ...
MySQL闪退问题的解决
刚刚学习了数据库,并且安装了MySQL,正当高兴之余,发现我的MySQL出现了闪退的显现.上网搜了好久的解决方案.最后解决了这个问题,也舒心了. 问题从这里开始: 接着我打开MySQL,寻思能不能用, ...
Sql Server 与 MySql 在使用 update inner join 时的区别
Sql Server -- 不使用别名 UPDATE tb_User SET tb_User.pass = '' FROM tb_User usr INNER JOIN tb_Address addr ...
java多线程——线程池源码分析（一）
本文首发于cdream的个人博客,点击获得更好的阅读体验! 欢迎转载,转载请注明出处. 通常应用多线程技术时,我们并不会直接创建一个线程,因为系统启动一个新线程的成本是比较高的,涉及与操作系统的交互, ...
Spring Boot配置Mybatis
在pom里加了mybatis的依赖后,在application.properties加上: mybatis.config-location=classpath:mybatis-config.xml m ...