spark_wordcount

spark是基于scala写的，虽然spark有java API，或者python API,但是scala算是正统吧。

而且scala的语法书写起来十分的爽，不想java那样笨重，python不太了解，不给予评价。

接下来看下spark版的wordcount，相对与hadoop的mapreduce要简单许多。

/**

  * Spark简单入门 worldCount

  */

object SparkWC {

  def main(args: Array[String]): Unit = {

    // 创建spark的配置对象

    // setAppName()设置程序名字

    // setMaster() 设置为本地运行

    // local用一个线程模拟集群

    // local[2]用两个线程模拟集群

    // local[*]用所有的空闲线程模拟集群，，spark://spark101:7077

    val sparkConf = new SparkConf().setAppName("SparkWC").setMaster("local")

    // 根据conf创建SparkContext上下文，也就是程序执行入口

    val sc = new SparkContext(sparkConf)

    // 读文件

   // val files: RDD[String] = sc.textFile("D:\\Demo\\hadoop\\input\\word.txt")

    val files: RDD[String] = sc.textFile("D:\\Demo\\hadoop\\input\\word.txt")

    // 进行处理数据，进行单词统计，首先我们需要调用 flatMap算子，进行切分压平

    val lines: RDD[String] = files.flatMap(_.split(" "))

    // 调用map算子，进行单词的统计

    val worlds: RDD[(String, Int)] = lines.map((_,1))

    // 调用reduceByKey，按key对value聚合

    val re: RDD[(String, Int)] = worlds.reduceByKey(_ + _)

    // 将数据进行降序排序

    val sortWC: RDD[(String, Int)] = re.sortBy(_._2,false)

    // 打印数据

    println(sortWC.collect().toBuffer)

    // 数据存储到hdfs上

    sortWC.saveAsTextFile("D:\\Demo\\hadoop\\ouput\\out26")

  }

}

从代码中，可以看到spark的scala API的强大，希望对大家有用

spark_wordcount的更多相关文章

[转] 用SBT编译Spark的WordCount程序
问题导读: 1.什么是sbt? 2.sbt项目环境如何建立? 3.如何使用sbt编译打包scala? [sbt介绍 sbt是一个代码编译工具,是scala界的mvn,可以编译scala,java等,需 ...
spark基础知识（1）
一.大数据架构并发计算: 并行计算: 很少会说并发计算,一般都是说并行计算,但是并行计算用的是并发技术.并发更偏向于底层.并发通常指的是单机上的并发运行,通过多线程来实现.而并行计算的范围更广,他是 ...
用SBT编译Spark的WordCount程序
问题导读: 1.什么是sbt? 2.sbt项目环境如何建立? 3.如何使用sbt编译打包scala? sbt介绍 sbt是一个代码编译工具,是scala界的mvn,可以编译scala,java等,需要 ...
intellij-idea打包Scala代码在spark中运行
.创建好Maven项目之后(记得添加Scala框架到该项目),修改pom.xml文件,添加如下内容: <properties> <spark.version></spar ...

随机推荐

关于HttpClient，HttpURLConnection，OkHttp的用法
1 HttpClient入门实例 1.1发送get请求 /** * HttpClient发送get请求 * @param url 请求地址 * @return * @throws IOExceptio ...
[opentwebst]一个简单的登陆脚本
这个是个简单的vbs脚本,使用opentwebst进行录制 'Use the command line below to launch the script (or just double click ...
MSRA-TD5000数据集使用详解
中文检测的数据集,目前最火的应该是清华的CTW,https://ctwdataset.github.io/ 但是它的数据集只存储在微云和google driver,微云空间受限不能完全保存,所以下载的 ...
react写一个todo
概述最近学习redux,打算先复习一下react,所以用react写了一个todo.记录下来,供以后开发时参考,相信对其他人也有用. 代码代码请见我的github 组织架构如下图:
linux下静态链接库和动态链接库
关于链接库的知识,网上太多资料了,但是并不代表我很熟悉.今天遇到了一个问题,就是由于静态链接库和ubuntu系统不兼容导致的,虽然花了点时间才搞定但是,其中暴露的问题也不少. 没有区分好静态链接库 ...
vue 自学项目笔记
感觉小青推荐的学习网课, 利用vue 仿制一个去哪网, 学习的东西很多, 在食用之前,需要先确保js 和css 过关 js https://www.bilibili.com/video/av3009 ...
resin远程调试配置
1.进入resin的安装路径下的conf目录,下面有个resin.conf的文件,打开它,将下面这段配置添加进去,然后重启resin(大家应该知道如何重启吧): <jvm-arg>-Xde ...
[每天解决一问题系列 - 0011] 如何清除Windows中的Icon缓存
问题描述: 当更换一个应用或者快捷方式的图标后,会看到图标并没有及时更新问题原因: 原因是Windows为了使图标显示更快,做了缓存%localappdata%\IconCache.db 解决方案: ...
线程安全-005-synchronized其他概念
一.Synchornized锁重入例子程序: package com.lhy.thread01; public class SyncDouble1 { public synchronized voi ...
喜大普奔，SITE4J网站上线啦
喜大普奔,SITE4J网站上线啦: 你懂的:https://peterchenhdu.club/

spark_wordcount

spark_wordcount的更多相关文章

随机推荐

热门专题