Spark的word count

word count

 package com.spark.app

 import org.apache.spark.{SparkContext, SparkConf}

 /**

   * Created by Administrator on 2016/7/24 0024.

   */

 object WordCount {

   def main(args: Array[String]) {

     /**

       * 第1步；创建Spark的配置对象SparkConf，设置Spark程序运行时的配置信息

       * 例如 setAppName用来设置应用程序的名称，在程序运行的监控界面可以看到该名称，

       * setMaster设置程序运行在本地还是运行在集群中，运行在本地可是使用local参数，也可以使用local[K]/local[*],

       * 可以去spark官网查看它们不同的意义。 如果要运行在集群中，以Standalone模式运行的话，需要使用spark://HOST:PORT

       * 的形式指定master的IP和端口号，默认是7077

       */

     val conf = new SparkConf().setAppName("WordCount").setMaster("local")

 //  val conf = new SparkConf().setAppName("WordCount").setMaster("spark://master:7077")  // 运行在集群中

     /**

       * 第2步：创建SparkContext 对象

       * SparkContext是Spark程序所有功能的唯一入口

       * SparkContext核心作用： 初始化Spark应用程序运行所需要的核心组件，包括DAGScheduler、TaskScheduler、SchedulerBackend

       * 同时还会负责Spark程序往Master注册程序

       *

       * 通过传入SparkConf实例来定制Spark运行的具体参数和配置信息

       */

     val sc = new SparkContext(conf)

     /**

       * 第3步： 根据具体的数据来源(HDFS、 HBase、Local FS、DB、 S3等)通过SparkContext来创建RDD

       * RDD 的创建基本有三种方式： 根据外部的数据来源(例如HDFS)、根据Scala集合使用SparkContext的parallelize方法、

       * 由其他的RDD操作产生

       * 数据会被RDD划分成为一系列的Partitions，分配到每个Partition的数据属于一个Task的处理范畴

       */

     val lines = sc.textFile("D:/resources/README.md")   // 读取本地文件

 //  val lines = sc.textFile("/library/wordcount/input")   // 读取HDFS文件，并切分成不同的Partition

 //  val lines = sc.textFile("hdfs://master:9000/libarary/wordcount/input")  // 或者明确指明是从HDFS上获取数据

     /**

       * 第4步： 对初始的RDD进行Transformation级别的处理，例如 map、filter等高阶函数来进行具体的数据计算

       */

     val words = lines.flatMap(_.split(" ")).filter(word => word != " ")  // 拆分单词，并过滤掉空格，当然还可以继续进行过滤，如去掉标点符号

     val pairs = words.map(word => (word, 1))  // 在单词拆分的基础上对每个单词实例计数为1, 也就是 word => (word, 1)

     val wordscount = pairs.reduceByKey(_ + _)  // 在每个单词实例计数为1的基础之上统计每个单词在文件中出现的总次数, 即key相同的value相加

 //  val wordscount = pairs.reduceByKey((v1, v2) => v1 + v2)  // 等同于

     wordscount.collect.foreach(println)  // 打印结果，使用collect会将集群中的数据收集到当前运行drive的机器上，需要保证单台机器能放得下所有数据

     sc.stop()   // 释放资源

   }

 }

注意spark的套路：

1. 创建配置配置，创建sparkcontext；

2. 获取数据源；

3. flatmap进行元素独立；

4. filter进行过滤；

5. map封装为元组；

6. reduce进行计数；

按照数量排序

 package com.spark.app

 import org.apache.spark.{SparkContext, SparkConf}

 /**

   * Created by Administrator on 2016/7/24 0024.

   */

 object WordCountSorted {

   def main(args: Array[String]) {

     def conf = new SparkConf().setAppName("WordCountSorted").setMaster("local")

     def sc = new SparkContext(conf)

     val lines = sc.textFile("D:/resources/README.md")

     val words = lines.flatMap(_.split(" ")).filter(word => word != " ")

     val pairs = words.map(word => (word, 1))

     /**

       * 在这里通过reduceByKey方法之后可以获得每个单词出现的次数

       * 第一个map将单词和出现的次数交换，将出现的次数作为key，使用sortByKey进行排序（false为降序）

       * 第二个map将出现的次数和单词交换，这样还是恢复到以单词作为key

       */

     val wordcount = pairs.reduceByKey(_ + _).map(pair => (pair._2, pair._1)).sortByKey(false).map(pair => (pair._2, pair._1))

     wordcount.collect.foreach(println)

     sc.stop()

   }

 }

你可以采用一条龙的方式来进行上述实现，感觉那是一个畅快！

Spark的word count的更多相关文章

spark编写word count
创建SparkContext对象的时候需要传递SparkConf对象,SparkConf至少需要包含spark.master和spark.app.name这两个参数,不然的话程序不能正常运行 obje ...
[Spark Core] Spark Shell 实现 Word Count
0. 说明在 Spark Shell 实现 Word Count RDD (Resilient Distributed dataset), 弹性分布式数据集. 示意图 1. 实现 1.1 分步实现 ...
Spark：java api实现word count统计
方案一:使用reduceByKey 数据word.txt 张三李四王五李四王五李四王五李四王五王五李四李四李四李四李四代码: import org.apache.spar ...
Spark: 单词计数(Word Count)的MapReduce实现(Java/Python)
1 导引我们在博客<Hadoop: 单词计数(Word Count)的MapReduce实现 >中学习了如何用Hadoop-MapReduce实现单词计数,现在我们来看如何用Spark来 ...
Hive Word count
--https://github.com/slimandslam/pig-hive-wordcount/blob/master/wordcount.hql DROP TABLE myinput; DR ...
mac上eclipse上运行word count
1.打开eclipse之后,建立wordcount项目 package wordcount; import java.io.IOException; import java.util.StringTo ...
MapReduce工作机制——Word Count实例（一）
MapReduce工作机制--Word Count实例(一) MapReduce的思想是分布式计算,也就是分而治之,并行计算提高速度. 编程思想首先,要将数据抽象为键值对的形式,map函数输入键值对 ...
Word Count作业
Word Count作业一.个人Gitee地址:https://gitee.com/Changyu-Guo 二.项目简介该项目主要是模拟Linux上面的wc命令,基本要求如下: 命令格式: wc. ...
Word Count
Word Count 一.个人Gitee地址:https://gitee.com/godcoder979/(该项目完整代码在这里) 二.项目简介: 该项目是一个统计文件字符.单词.行数等数目的应用程序 ...

随机推荐

svn出错：directory 'xxxx' is out of date
OC Copy和Property
059——VUE中vue-router之路由嵌套在文章系统中的使用方法：
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
hadoop kafka import/export data (8)
reference: http://kafka.apache.org/quickstart need to solve issue ISSUE 1: [2019-01-29 15:59:39,272] ...
如何获取选定部分的HTML
其实这个程序很简单,首先是如何获取选定部分的HTML,还记得这段吗: HTMLDoc := WebBrowser1.Document as IHTMLDocument2; SelectRange : ...
团队作业之现场UML设计
项目UML设计(团队) 团队信息团队名:第三视角各成员学号及姓名姓名学号博客链接张扬(组长) 031602345 http://www.cnblogs.com/sxZhangYang/p/ ...
hibernate缓存清除（转）
文章有点杂,这不是原文,谢谢贡献者 http://www.360doc.com/content/16/0413/16/32415095_550307388.shtml 一.hibernate一级缓存( ...
OC基础:类的扩展.协议分类： ios学习 OC 2015-06-22 19:22 34人阅读评论(0) 收藏
//再设计一个类的时候,有些方法需要对外公开(接口),有些仅供内部使用. 类的扩展:为类添加新的特征(属性)或者方法对已知类: 1.直接添加 2.继承(在其子类中添加实例变量和方法) 3.使用ext ...
ThinkPHP CodeIgniter URL访问举例
ThinkPHP URL访问: http://localhost/think/index.php/Home/login/func/[name/syt/password/123/] ht ...
如何使用 python3 将RGB 图片转换为灰度图
首先,介绍第一种方法, 使用 PIL 库, PIL库是一种python语言常用的一个图形处理库. 关于 PIL 库的安装本文就不介绍了. from PIL import Image I ...

Spark的word count

Spark的word count的更多相关文章

随机推荐

热门专题