[Spark Core] Spark 在 IDEA 下编程

0. 说明

　　Spark 在 IDEA 下使用 Scala & Spark 在 IDEA 下使用 Java 编写 WordCount 程序

1. 准备

　　在项目中新建模块，为模块添加 Maven 和 Scala 支持

　　pom.xml 中添加的内容如下

    <dependencies>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.11</artifactId>

            <version>2.1.0</version>

        </dependency>

        <dependency>

            <groupId>junit</groupId>

            <artifactId>junit</artifactId>

            <version>4.12</version>

        </dependency>

    </dependencies>

2. 编程

　　2.1 IDEA 下使用 Scala 编写 WordCount 程序

import org.apache.spark.{SparkConf, SparkContext}

/**

  * Scala 实现 MR

  */

object WordCountScala {

  def main(args: Array[String]): Unit = {

    // 创建 spark 配置对象

    val conf = new SparkConf()

    conf.setAppName("WCScala")

    conf.setMaster("local")

    // 创建上下文

    val sc = new SparkContext(conf)

    // 1. 加载文档

    val rdd1 = sc.textFile("file:///e:/data.txt")

    // 2. 压扁

    val rdd2 = rdd1.flatMap(_.split(" "))

    // 3. 标1成对

    val rdd3 = rdd2.map((_, 1))

    // 4. 聚合

    val rdd4 = rdd3.reduceByKey(_ + _)

    val arr = rdd4.collect()

    arr.foreach(println)

    // 5. 链式编程

    sc.textFile("file:///e:/data.txt")

      .flatMap(_.split(" "))

      .map((_, 1))

      .reduceByKey(_ + _)

      .collect()

      .foreach(println)

  }

}

　　2.2 IDEA 下使用 Java 编写 WordCount 程序

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import scala.Tuple2;

import java.util.Arrays;

import java.util.Iterator;

import java.util.List;

/**

 * Java 实现 MR

 */

public class WordCountJava {

    public static void main(String[] args) {

        // 创建 spark 配置对象

        SparkConf conf = new SparkConf();

        conf.setAppName("WCJava");

        conf.setMaster("local");

        // 创建上下文

        JavaSparkContext sc = new JavaSparkContext(conf);

        // 1. 加载文件

        JavaRDD<String> rdd1 = sc.textFile("file:///e:/data.txt");

        // 2. 压扁

        JavaRDD<String> rdd2 = rdd1.flatMap(new FlatMapFunction<String, String>() {

            public Iterator<String> call(String s) throws Exception {

                String[] arr = s.split(" ");

                return Arrays.asList(arr).iterator();

            }

        });

        // 3. 标1成对

        JavaPairRDD<String, Integer> rdd3 = rdd2.mapToPair(new PairFunction<String, String, Integer>() {

            public Tuple2<String, Integer> call(String s) throws Exception {

                return new Tuple2<String, Integer>(s, 1);

            }

        });

        // 4. 按 key 聚合

        JavaPairRDD<String, Integer> rdd4 = rdd3.reduceByKey(new Function2<Integer, Integer, Integer>() {

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 + v2;

            }

        });

        // 5. 收集

        List<Tuple2<String, Integer>> collect = rdd4.collect();

        for (Tuple2<String, Integer> t : collect) {

            System.out.println(t);

        }

    }

}

[Spark Core] Spark 在 IDEA 下编程的更多相关文章

大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池
第0章预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark ...
Spark Core核心----RDD常用算子编程
1.RDD常用操作2.Transformations算子3.Actions算子4.SparkRDD案例实战 1.Transformations算子(lazy) 含义:create a new data ...
[Spark Core] Spark Client Job 提交三级调度框架
0. 说明官方文档 Job Scheduling Spark 调度核心组件: DagScheduler TaskScheduler BackendScheduler 1. DagSchedule ...
[Spark Core] Spark 核心组件
0. 说明 [Spark 核心组件示意图] 1. RDD resilient distributed dataset , 弹性数据集轻量级的数据集合,逻辑上的集合.等价于 list 没有携带数据. ...
[Spark Core] Spark 使用第三方 Jar 包的方式
0. 说明 Spark 下运行job,使用第三方 Jar 包的 3 种方式. 1. 方式一将第三方 Jar 包分发到所有的 spark/jars 目录下 2. 方式二将第三方 Jar 打散,和我们 ...
【待补充】[Spark Core] Spark 实现标签生成
0. 说明在 IDEA 中编写 Spark 代码实现将 JSON 数据转换成标签,分别用 Scala & Java 两种代码实现. 1. 准备 1.1 pom.xml <depend ...
[Spark Core] Spark 实现气温统计
0. 说明聚合气温数据,聚合出 MAX . MIN . AVG 1. Spark Shell 实现 1.1 MAX 分步实现 # 加载文档 val rdd1 = sc.textFile(" ...
[Spark Core] Spark Shell 实现 Word Count
0. 说明在 Spark Shell 实现 Word Count RDD (Resilient Distributed dataset), 弹性分布式数据集. 示意图 1. 实现 1.1 分步实现 ...
Spark 3.x Spark Core详解 & 性能优化
Spark Core 1. 概述 Spark 是一种基于内存的快速.通用.可扩展的大数据分析计算引擎 1.1 Hadoop vs Spark 上面流程对应Hadoop的处理流程,下面对应着Spark的 ...

随机推荐

postman环境变量全局变量清理
一:主要内容清除一个环境变量.全局变量清除全部环境变量.全局变量清除部分环境变量.全局变量二:清除一个指定环境变量.全局变量 1. 清除一个环境变量,如清除用户名环境变量,username为变 ...
CentOS Java C JNI
使用JNI调用本地代码,整个开发流程主要包括以下几个步骤: 1.创建一个Java类(IntArray.java): 2.使用javac编译该类(生成IntArray.class): 3.使用javah ...
程序员必知的8大排序(一)-------直接插入排序，希尔排序（java实现）
http://blog.csdn.net/pzhtpf/article/details/7559896 程序员必知的8大排序(一)-------直接插入排序,希尔排序(java实现) 程序员必知的8大 ...
开启Centos网卡失败的解决办法
虚拟机安装了Centos,使用ip addr命令查看网卡,但是ens33没有ip地址,按照网上说的,修改ens33网卡的配置文件: vi /etc/sysconfig/network-scripts/ ...
表格行与列mouse经过时高亮显示
Insus.NET有在asp.net mvc应用程序,练习jQuery与css时,实现了<表格行mouse经过时高亮显示>http://www.cnblogs.com/insus/p/37 ...
maven根据不同的运行环境，打包不同的配置文件
使用maven管理项目中的依赖,非常的方便.同时利用maven内置的各种插件,在命令行模式下完成打包.部署等操作,可方便后期的持续集成使用. 但是每一个maven工程(比如web项目),开发人员在开发 ...
解决jquery绑定click事件出现点击一次执行两次问题
问题定位:通过浏览器F12定位到点击一次出现两次调用. 问题复现: $("#mail_span").on("click",function(){ ...
数据结构与算法--最短路径之Dijkstra算法
数据结构与算法--最短路径之Dijkstra算法加权图中,我们很可能关心这样一个问题:从一个顶点到另一个顶点成本最小的路径.比如从成都到北京,途中还有好多城市,如何规划路线,能使总路程最小:或者我们 ...
233 Matrix（hdu5015 矩阵）
233 Matrix Time Limit: 10000/5000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Total ...
vue + element ui 实现实现动态渲染表格
前言:之前需要做一个页面,能够通过表名动态渲染出不同的表格,这里记录一下.转载请注明出处:https://www.cnblogs.com/yuxiaole/p/9786326.html 网站地址:我的 ...

[Spark Core] Spark 在 IDEA 下编程

0. 说明

1. 准备

2. 编程

[Spark Core] Spark 在 IDEA 下编程的更多相关文章

随机推荐

热门专题