DataFrame WordCount

测试数据：

**

  * 使用DataFrame实现WordCount

  */

object DataFrameWordCount {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().appName(this.getClass.getSimpleName).master("local").getOrCreate()

    import spark.implicits._

    val linesDF = spark.sparkContext.textFile("D:\\workspace\\test_data.txt").toDF("line")

    linesDF.show(false)

    linesDF.printSchema()

    //将一行数据展开

    val wordsDF = linesDF.explode("line", "word")((line: String) => line.split(" "))

    wordsDF.printSchema()

    wordsDF.show(,false)

    //对 "word"列进行聚合逻辑并使用count算子计算每个分组元素的个数

    val wordCoungDF = wordsDF.groupBy("word").count()

    wordCoungDF.show(false)

    wordCoungDF.printSchema()

    println(wordCoungDF.count() + "----------")

  }

}

打印结果：

+------------+

|line        |

+------------+

|      |

|     |

|     |

|      |

+------------+

root

 |-- line: string (nullable = true)

root

 |-- line: string (nullable = true)

 |-- word: string (nullable = true)

+------------+----+

|line        |word|

+------------+----+

|      |   |

|      |   |

|      |   |

|      |   |

|      |   |

|      |   |

|     |   |

|     |   |

|     |   |

|     |   |

|     |   |

|     |  |

|     |  |

|     |   |

|     |   |

|     |   |

|     |   |

|     |   |

|      |   |

|      |   |

|      |   |

|      |   |

|      |   |

|      |   |

+------------+----+

+----+-----+

|word|count|

+----+-----+

|   |    |

|   |    |

|   |    |

|   |    |

|   |    |

|   |    |

|   |    |

|  |    |

|   |    |

|   |    |

+----+-----+

root

 |-- word: string (nullable = true)

 |-- count: long (nullable = false)

DataFrame WordCount的更多相关文章

RDD、DataFrame和DataSet的区别
原文链接:http://www.jianshu.com/p/c0181667daa0 RDD.DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同. RDD ...
spark RDD，DataFrame,DataSet 介绍
弹性分布式数据集(Resilient Distributed Dataset,RDD) RDD是Spark一开始就提供的主要API,从根本上来说,一个RDD就是你的数据的一个不可变的分布式元素集合,在 ...
Spark初步从wordcount开始
Spark初步-从wordcount开始 spark中自带的example,有一个wordcount例子,我们逐步分析wordcount代码,开始我们的spark之旅. 准备工作把README.md ...
PySpark理解wordcount.py
在本文中, 我们借由深入剖析wordcount.py, 来揭开Spark内部各种概念的面纱.我们再次回顾wordcount.py代码来回答如下问题对于大多数语言的Hello Word示例,都有mai ...
RDD、DataFrame和DataSet
简述 RDD.DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同:DataFrame多了数据的结构信息,即schema.RDD是分布式的 Java对象的集 ...
scala学习（3）-----wordcount【sparksession】
参考: spark中文官方网址:http://spark.apachecn.org/#/ https://www.iteblog.com/archives/1674.html 一.知识点: 1.Dat ...
Spark入门之DataFrame/DataSet
目录 Part I. Gentle Overview of Big Data and Spark Overview 1.基本架构 2.基本概念 3.例子(可跳过) Spark工具箱 1.Dataset ...
wordcount实例
scala的wordcount实例 package com.wondersgroup.myscala import scala.actors.{Actor, Future} import scala. ...
使用SparkSQL编写wordCount的词频统计
# 使用SparkSQL编写wordCount的词频统计 ## word.txt```hello hello scala sparkjava sql html java hellojack jack ...

随机推荐

redis aof和rdb区别
转自https://blog.csdn.net/m0_38110132/article/details/76906422 1.前言最近在项目中使用到Redis做缓存,方便多个业务进程之间共享数据.由 ...
JVM的内存划分以及常用参数
JVM的主要划分为: 堆内存,虚拟机栈,方法区,程序计数器,本地方法栈堆内存: 这部分区域是各个线程共享的,java的大部分对象都是储存在堆中. 1.堆在分配对象内存区域的时候可以分为两种,第一种叫 ...
excel 导入mysql
1. excel 导出csv格式,很简单导出即可 2. 使用命令行,进入mysql之后,使用命令行 tips: 删除第一行的属性名,csv后面若有空数据也可以删除,当然你不删除也没有关系,可以在mys ...
Spark2 Model selection and tuning 模型选择与调优
Model selection模型选择 ML中的一个重要任务是模型选择,或使用数据为给定任务找到最佳的模型或参数. 这也称为调优. 可以对诸如Logistic回归的单独Estimators进行调整,或 ...
ABP之事件总线(5)
前面已经对Castle Windsor的基本使用进行了学习,有了这个基础,接下来我们将把我们的事件总线再次向ABP中定义的事件总线靠近.从源码中可以知道在ABP中定义了Dictionary,存放三种类 ...
程序报错java.lang.OutOfMemoryError: PermGen space
参考文档: http://www.cnblogs.com/xwdreamer/archive/2011/11/21/2296930.html http://www.cnblogs.com/ceshi2 ...
F#周报2018年第49期
新闻 ML.NET 0.8--Machine Learning for .NET .NET Core 3预览 1以及开源Windows桌面框架 .NET Core 2.2 尝试C# 8.0 .NET ...
java课堂动手动脑总结
java有8种基本数据类型:byte,int,short,long,boolean,char,float,double. 对应的为:Byte,Int,Short,Long,Boolean,Charec ...
【RMAN】RMAN-05001: auxiliary filename conflicts with the target database
oracle 11.2.0.4 运行以下脚本,使用活动数据库复制技术创建dataguard备库报错rman-005001: run{ duplicate target database for sta ...
shell脚本之流程控制语句
一.分支控制语句 1.if .. fi条件 if condition; then action fi 2.if .. else .. fi条件 if condition;then action; el ...

DataFrame WordCount

DataFrame WordCount的更多相关文章

随机推荐

热门专题