Spark框架——WordCount案例实现

package wordcount

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Spark01_WordCount {

  def main(args: Array[String]): Unit = {

    //TODO 建立与spark的连接

    val sparConf = new SparkConf().setMaster("local").setAppName("WordCount")    //基本配置

    val sc = new SparkContext(sparConf)

    //TODO 执行业务操作

    //1.读取文件，获取一行一行的数据

    val lines: RDD[String] = sc.textFile("datas/1.txt")

    //2.将一行数据进行拆分，形成一个一个的单词

    //  扁平化：将整体拆分成个体

    //  "hello world,hello world" => hello,world,hello,world

    val words: RDD[String] = lines.flatMap(_.split(" "))

    //3.将数据根据单词进行分组，便于统计

    //  "(hello,hello),(world,world)

    val wordGroup: RDD[(String, Iterable[String])] = words.groupBy(word => word)

    //4.对分组后的数据进行转换

//      "(hello,hello),(world,world) => (hello,2),(world,2)

    val wordToCount = wordGroup.map {

      case (word,list) => {

        (word,list.size)

      }

    }

    //5.将转换结果采集到控制台打印出来

    val array: Array[(String, Int)] = wordToCount.collect()

    array.foreach(println)

    //TODO 关闭spark连接

    sc.stop()

  }

}

方式二

package wordcount

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Spark02_WordCount {

  def main(args: Array[String]): Unit = {

    //TODO 本地建立与spark的连接

    val sparConf = new SparkConf().setMaster("local").setAppName("WordCount")

    val sc = new SparkContext(sparConf)   //spark实例

    //TODO 执行业务操作

    //1.读取文件，获取一行一行的数据，按行读取

    val lines: RDD[String] = sc.textFile("datas/1.txt")

    //2.将一行数据进行拆分，形成一个一个的单词

    val words: RDD[String] = lines.flatMap(_.split(" "))

    val wordToOne = words.map(

      word => (word,1)

    )

    val wordGroup: RDD[(String, Iterable[(String, Int)])] = wordToOne.groupBy(

      t => t._1

    )

    val wordToCount = wordGroup.map {

      case (word,list) => {

        list.reduce(

          (t1, t2) => {

            (t1._1, t1._2 + t2._2)

          }

        )

      }

    }

    //5.将转换结果采集到控制台打印出来

    val array: Array[(String, Int)] = wordToCount.collect()

    array.foreach(println)

    //TODO 关闭spark连接

    sc.stop()

  }

}

方式三

package wordcount

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Spark03_WordCount {

  def main(args: Array[String]): Unit = {

    //TODO 本地建立与spark的连接

    val sparConf = new SparkConf().setMaster("local").setAppName("WordCount")

    val sc = new SparkContext(sparConf)   //spark实例

    //TODO 执行业务操作

    //1.读取文件，获取一行一行的数据，按行读取

    val lines: RDD[String] = sc.textFile("datas/1.txt")

    //2.将一行数据进行拆分，形成一个一个的单词

    val words: RDD[String] = lines.flatMap(_.split(" "))

    val wordToOne = words.map(

      word => (word,1)

    )

    //spark框架提供了更多功能，可以将分组和聚合使用一个方法实现

    //reduceByKey：相同的key数据，可以对value进行reduce聚合

    val wordToCount = wordToOne.reduceByKey(_+_)

    //5.将转换结果采集到控制台打印出来

    val array: Array[(String, Int)] = wordToCount.collect()

    array.foreach(println)

    //TODO 关闭spark连接

    sc.stop()

  }

}

运行截图：

Spark框架——WordCount案例实现的更多相关文章

大数据学习day18----第三阶段spark01--------0.前言（分布式运算框架的核心思想，MR与Spark的比较，spark可以怎么运行，spark提交到spark集群的方式）1. spark(standalone模式)的安装 2. Spark各个角色的功能 3.SparkShell的使用，spark编程入门（wordcount案例）
0.前言 0.1 分布式运算框架的核心思想(此处以MR运行在yarn上为例) 提交job时,resourcemanager(图中写成了master)会根据数据的量以及工作的复杂度,解析工作量,从而 ...
Spark Streaming updateStateByKey案例实战和内幕源码解密
本节课程主要分二个部分: 一.Spark Streaming updateStateByKey案例实战二.Spark Streaming updateStateByKey源码解密第一部分: upda ...
.Net for Spark 实现 WordCount 应用及调试入坑详解
.Net for Spark 实现WordCount应用及调试入坑详解 1. 概述 iNeuOS云端操作系统现在具备物联网.视图业务建模.机器学习的功能,但是缺少一个计算平台产品.最近在调研使用 ...
3. scala-spark wordCount 案例
1. 创建maven 工程 2. 相关依赖和插件 <dependencies> <dependency> <groupId>org.apache.spark< ...
ENode框架Conference案例分析系列之 - 文章索引
ENode框架Conference案例分析系列之 - 业务简介 ENode框架Conference案例分析系列之 - 上下文划分和领域建模 ENode框架Conference案例分析系列之 - 架构设 ...
Spark Streaming揭秘 Day9 从Receiver的设计到Spark框架的扩展
Spark Streaming揭秘 Day9 从Receiver的设计到Spark框架的扩展 Receiver是SparkStreaming的输入数据来源,从对Receiver整个生命周期的设计,我们 ...
[转] 用SBT编译Spark的WordCount程序
问题导读: 1.什么是sbt? 2.sbt项目环境如何建立? 3.如何使用sbt编译打包scala? [sbt介绍 sbt是一个代码编译工具,是scala界的mvn,可以编译scala,java等,需 ...
ENode框架Conference案例转载
ENode框架Conference案例分析系列之 - Quick Start 前言前一篇文章介绍了Conference案例的架构设计,本篇文章开始介绍Conference案例的代码实现.由于代码比较 ...
【iOS】7.4 定位服务->2.1.4 定位 - 官方框架CoreLocation 案例：指南针效果
本文并非最终版本,如果想要关注更新或更正的内容请关注文集,联系方式详见文末,如有疏忽和遗漏,欢迎指正. 本文相关目录: ================== 所属文集:[iOS]07 设备工具 === ...

随机推荐

14_Nonlinear Basic Feedback Stabilization_非线性系统稳定性设计
非线性系统线性化的方式:泰勒展开近似线性化(2_线性化_泰勒级数_泰勒公式_Linearization).反馈线性化,本文使用的是反馈线性化从图中可知道输入u非常大达到了900多,所以直接使用u消去 ...
二十三、原理图和PCB交互式布局
上图在原理图里面直接选择在PCB里面就可以移动了,大功告成
顺利通过EMC实验（12）
vue H5 超简单的swiper制作抖音上拉切换视频播放
-----html部分------ <swiper vertical :style="{height: windowheight+'px',width:375+'px'}" ...
(1/2)Canvas的交互&存为图片-基本篇
前言公司的产品同学看到朋友圈疯传的这张图后.一拍脑袋,决定做个H5版本的来推广一波. 需求如下: 文字变成可以点击的,而且还要能够变色(闪瞎有木有) 中间的姓名换成用户的微信头像点击button后 ...
html5知识点补充—mark元素的使用
使用mark元素高亮文本利用mark元素,文档作者可以高亮显示文档中的某些文本以达到醒目的效果. 如果用户在站点进行搜索,搜索页面中的关键字可以高亮显示.这时,就可以很好的利用到mark元素.不选用 ...
Codepen 每日精选（2018-4-11）
按下右侧的"点击预览"按钮可以在当前页面预览,点击链接可以打开原始页面. 纯 css 写行走的大象https://codepen.io/FabioG/ful... 纯 css 画的 ...
python爬取梦幻西游召唤兽资质信息（不包含变异）
一.分析 1.爬取网站:https://xyq.163.com/chongwu/ 2.获取网页源码: request.get("https://xyq.163.com/chongwu/&qu ...
iOS开发将html 富文本文字转换成oc 的富文本
- (NSMutableAttributedString *)mf_htmlAttribute:(NSString *)htmlString{ htmlString = [NSString strin ...
技术管理进阶——什么Leader值得追随？
原创不易,求分享.求一键三连 Leader眼里的主动性前几天孙狗下面小A身上发生了一件Case,让他感到很疑惑: 有一个跨部门较多的项目推进不力,于是善于交流的他被临时提拔成项目负责人,但马上令人 ...

Spark框架——WordCount案例实现

方式二

方式三

运行截图：

Spark框架——WordCount案例实现的更多相关文章

随机推荐

热门专题