Spark-Spark setMaster & WordCount Demo

Spark setMaster源码

/**

   * The master URL to connect to, such as "local" to run locally with one thread, "local[4]" to

   * run locally with 4 cores, or "spark://master:7077" to run on a Spark standalone cluster.

   */

  def setMaster(master: String): SparkConf = {

    set("spark.master", master)

  }

要连接到的主URL，例如“local”用一个线程在本地运行，“local [ 4 ]”用4个内核在本地运行，或者“Spark : / / master : 7077”用Spark独立集群运行。

package cn.rzlee.spark.scala

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

// object相当于静态的

object ScalaWordCount {

  def main(args: Array[String]): Unit = {

    //创建spark配置,设置应用程序名字

    val conf = new SparkConf().setAppName("wordCountApp")

    // 创建spark执行入口

    val sc = new SparkContext()

    // 指定以后从哪里读取数据创建RDD（弹性分布式数据集）

    val lines: RDD[String] = sc.textFile("")

    // 切分压平

    val words: RDD[String] = lines.flatMap(_.split(" "))

    // 将单词和一组合

    val wordAndOne: RDD[(String, Int)] = words.map((_, ))

    // 按key进行聚合  相同key不变，将value相加

    val reduced: RDD[(String, Int)] = wordAndOne.reduceByKey(_+_)

    // 排序

    val sorted = reduced.sortBy(_._2,false)

    // 将结果保存到HDFS中

    sorted.saveAsTextFile("")

    //释放资源

    sc.stop()

  }

}

基于排序机制的wordCount

java 版本:

package cn.rzlee.spark.core;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.api.java.function.VoidFunction;

import scala.Tuple2;

import scala.actors.threadpool.Arrays;

/**

 * @Author ^_^

 * @Create 2018/11/3

 */

public class SortWordCount {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf().setAppName("SortWordCount").setMaster("local");

        JavaSparkContext sc = new JavaSparkContext(conf);

        // 创建line RDD

        JavaRDD<String> lines = sc.textFile("C:\\Users\\txdyl\\Desktop\\log\\in\\data.txt", 1);

        // 执行单词计数

        JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {

            @Override

            public Iterable<String> call(String s) throws Exception {

                return Arrays.asList(s.split("\t"));

            }

        });

        JavaPairRDD<String, Integer> pair = words.mapToPair(new PairFunction<String, String, Integer>() {

            @Override

            public Tuple2<String, Integer> call(String s) throws Exception {

                return new Tuple2<>(s, 1);

            }

        });

        JavaPairRDD<String, Integer> wordCounts = pair.reduceByKey(new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 + v2;

            }

        });

        // 进行key-value的反转映射

        JavaPairRDD<Integer, String> countWords = wordCounts.mapToPair(new PairFunction<Tuple2<String, Integer>, Integer, String>() {

            @Override

            public Tuple2<Integer, String> call(Tuple2<String, Integer> t) throws Exception {

                return new Tuple2<>(t._2, t._1);

            }

        });

        // 按照key进行排序

        JavaPairRDD<Integer, String> sortedCountWords = countWords.sortByKey(false);

        // 再次进行key-value的反转映射

        JavaPairRDD<String, Integer> sortedWordCounts = sortedCountWords.mapToPair(new PairFunction<Tuple2<Integer, String>, String, Integer>() {

            @Override

            public Tuple2<String, Integer> call(Tuple2<Integer, String> t) throws Exception {

                return new Tuple2<>(t._2, t._1);

            }

        });

        // 打印结果

        sortedWordCounts.foreach(new VoidFunction<Tuple2<String, Integer>>() {

            @Override

            public void call(Tuple2<String, Integer> t) throws Exception {

                System.out.println(t._1 + " appears " + t._2+ " times.");

            }

        });

        // 关闭JavaSparkContext

        sc.close();

    }

}

scala版本:

package cn.rzlee.spark.scala

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object SortWordCount {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local")

    val sc = new SparkContext(conf)

    val lines = sc.textFile("C:\\Users\\txdyl\\Desktop\\log\\in\\data.txt",1)

    val words: RDD[String] = lines.flatMap(line=>line.split("\t"))

    val pairs: RDD[(String, Int)] = words.map(word=>(word,1))

    val wordCounts: RDD[(String, Int)] = pairs.reduceByKey(_+_)

    val countWords: RDD[(Int, String)] = wordCounts.map(wordCount=>(wordCount._2, wordCount._1))

    val sortedCountWords = countWords.sortByKey(false)

    val sortedWordCounts: RDD[(String, Int)] = sortedCountWords.map(sortedCountWord=>(sortedCountWord._2, sortedCountWord._1))

    sortedWordCounts.foreach(sortedWordCount=>{

      println(sortedWordCount._1+" appear "+ sortedWordCount._2 + " times.")

    })

    sc.stop()

  }

}

Spark-Spark setMaster & WordCount Demo的更多相关文章

Spark练习之wordcount，基于排序机制的wordcount
Spark练习之wordcount 一.原理及其剖析二.pom.xml 三.使用Java进行spark的wordcount练习四.使用scala进行spark的wordcount练习五.基于排序 ...
Spark metrics on wordcount example
I read the section Metrics on spark website. I wish to try it on the wordcount example, I can't make ...
Spark初步从wordcount开始
Spark初步-从wordcount开始 spark中自带的example,有一个wordcount例子,我们逐步分析wordcount代码,开始我们的spark之旅. 准备工作把README.md ...
[spark]spark 编程教程
参考: 英文:https://spark.apache.org/docs/latest/programming-guide.html 中文:http://www.cnblogs.com/lujin ...
分布式计算框架-Spark(spark环境搭建、生态环境、运行架构）
Spark涉及的几个概念:RDD:Resilient Distributed Dataset(弹性分布数据集).DAG:Direct Acyclic Graph(有向无环图).SparkContext ...
[spark] spark 特性、简介、下载
[简介] 官网:http://spark.apache.org/ 推荐学习博客:http://dblab.xmu.edu.cn/blog/spark/ spark是一个采用Scala语言进行开发,更快 ...
Spark学习之wordcount程序
实例代码: import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.ap ...
Spark Streaming的样本demo统计
废话不多说,直接上代码 package com.demo; import java.util.List; import java.util.regex.Pattern; import org.apac ...
50、Spark Streaming实时wordcount程序开发
一.java版本 package cn.spark.study.streaming; import java.util.Arrays; import org.apache.spark.SparkCon ...

随机推荐

QT项目性能调优小记
最近的项目用到了QT 5.5,项目在运行过程中出现了一段时间CPU占用率持续25%,并频繁断网的情况,遂决定对项目性能进行优化. 优化工具也是VS2010自带的性能分析工具,具体的使用方法参见:htt ...
Trie|如何用字典树实现搜索引擎的关键词提示功能
Trie字典树 Trie字典树又称前缀树,顾名思义,是查询前缀匹配的一种树形数据结构可以分为插入(创建) 和查询两部分.参考地址极客时间下图为插入字符串的过程: 创建完成后,每个字符串最后一个字 ...
centos7 改变终端背景色
首先打开终端 2:选择 edit->preferences->profile 3: "model1"是我自己改的名字,最开始是"unname".双击 ...
[译]GLUT教程 - 动画
Lighthouse3d.com >> GLUT Tutorial >> Basics >> Animation 前面章节我们已经创建了一个白色三角形的窗体.还没到 ...
linux中的热插拔和mdev机制
mdev手册(自己翻译的留着看) mdev实现U盘或SD卡的自动挂载 mdev的使用以及mdev.conf的规则配置--busybox linux中的热插拔和mdev机制关于实现udev/mdev自 ...
memcached在Java中的应用以及magent的配置-每天进步一点点
memcached在Java中的应用: http://nhy520.iteye.com/blog/1775893 magent配置memcached分布式集群的应用: http://www.jians ...
UVa 10651 Pebble Solitaire（DP 记忆化搜索）
Pebble Solitaire Pebble solitaire is an interesting game. This is a game where you are given a board ...
DLX精确覆盖与重复覆盖模板题
hihoCoder #1317 : 搜索四·跳舞链原题地址:http://hihocoder.com/problemset/problem/1317 时间限制:10000ms 单点时限:1000ms ...
打包合并多个dll
复杂项目中会引用大量的第三方dll文件,为了便于管理会尝试把相关打包合并成一个dll文件. 推荐使用ILMerge,如需使用网上自行下载. 使用方法: cd 安装目录 ILmerge /target: ...
vue v-on命令
 <a v-on:click.stop="doThis"></a> <!-- 提交事件不再重载页面 ...

Spark-Spark setMaster & WordCount Demo

基于排序机制的wordCount

Spark-Spark setMaster & WordCount Demo的更多相关文章

随机推荐

热门专题