Flink WorkCount代码

Flink-scala所需依赖

<properties>

    <flink.version>1.7.0</flink.version>

</properties>

<dependencies>

    <dependency>

        <groupId>org.apache.flink</groupId>

        <artifactId>flink-scala_2.11</artifactId>

        <version>${flink.version}</version>

    </dependency>

    <dependency>

        <groupId>org.apache.flink</groupId>

        <artifactId>flink-streaming-scala_2.11</artifactId>

        <version>${flink.version}</version>

    </dependency>

</dependencies>

流式处理WorkCount代码

import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}

import org.apache.flink.streaming.api.windowing.time.Time

object WordCount {

  //创建WordWithCount样例类，用来存储数据最终统计结果

  case class WordWithCount(word: String, count: Int)

  def main(args: Array[String]): Unit = {

    //获取上下文对象（初始化环境）

    val streamExecutionEnvironment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

    //获取netcat服务的数据

    val dataStream: DataStream[String] = streamExecutionEnvironment.socketTextStream("slave4", 9000)

    //必须要引入这个包，包含了计算用到的方法

    import org.apache.flink.api.scala._

    //对获取到的数据进行处理

    val dataStream1: DataStream[WordWithCount] = dataStream.flatMap(_.toLowerCase.split(" ") filter (_.nonEmpty))

      .map(WordWithCount(_, 1))

      .keyBy("word")

      .timeWindow(Time.seconds(2), Time.seconds(2))

      .reduce((a, b) => WordWithCount(a.word, a.count + b.count))

    //打印结果，设置并行度为1

    dataStream1.print.setParallelism(1)

    //启动执行

    streamExecutionEnvironment.execute("WordCount")

  }

}

批式处理WordCount代码

import org.apache.flink.api.scala.{DataSet, ExecutionEnvironment}

object WordCount {

  def main(args: Array[String]): Unit = {

    //获取上下文对象（初始化环境）

    val executionEnvironment: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment

    //获取文件中的数据

    val dataSet: DataSet[String] = executionEnvironment.readTextFile("./src/main/data/wordCount.txt")

    //必须要引入这个包，包含了计算用到的方法

    import org.apache.flink.api.scala._

    //对获取到的数据进行处理

    val aggregateDataSet: AggregateDataSet[(String, Int)] = dataSet.flatMap(_.toLowerCase.split(" ") filter (_.nonEmpty))

      .map((_, 1))

      .groupBy(0)0000000

      .sum(1)

    //打印结果

    aggregateDataSet.print

  }

}

流式处理与批式处理的区别

流式处理：Streaming

	初始化对象：StreamExecutionEnvironment

	返回值类型：DataStream

批式处理：Batch

	初始化对象：ExecutionEnvironment

	返回值类型：DataSet

Flink WorkCount代码的更多相关文章

Flink资料（8） -- Flink代码贡献的指导及准则
本文翻译自Contributing Code ----------------------------------------- Apache Flink是由自愿的代码贡献者维护.优化及扩展的.Apa ...
修改代码150万行！与 Blink 合并后的 Apache Flink 1.9.0 究竟有哪些重大变更？
8月22日,Apache Flink 1.9.0 正式发布,早在今年1月,阿里便宣布将内部过去几年打磨的大数据处理引擎Blink进行开源并向 Apache Flink 贡献代码.当前 Flink 1. ...
flink实时数仓从入门到实战
第一章.flink实时数仓入门一.依赖 <!--Licensed to the Apache Software Foundation (ASF) under oneor more contri ...
Flink - DataStream
先看例子, final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); D ...
新一代大数据处理引擎 Apache Flink
https://www.ibm.com/developerworks/cn/opensource/os-cn-apache-flink/index.html 大数据计算引擎的发展这几年大数据的飞速发 ...
如何参与flink开源项目
参与flink开源项目 https://flink.apache.org/how-to-contribute.html 1.回答社区问题 2.撰写bug报告 3.对于改进建议或新的特征 4.帮助别人并 ...
flink基础教程读书笔记
数据架构设计领域发生了重大的变化,基于流的处理是变化的核心. 分布式文件系统用来存储不经常更新的数据,他们也是大规模批量计算所以来的数据存储方式. 批处理架构(lambda架构)实现计数的方式:持续摄 ...
Flink（一）Flink的入门简介
一. Flink的引入这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop.Storm,以及后来的 Spark,他们都有着各自专注的应用场景.Spark 掀开了内存计算的先河 ...
什么是Apache Flink
大数据计算引擎的发展这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop.Storm,以及后来的 Spark,他们都有着各自专注的应用场景.Spark 掀开了内存计算的先河, ...

随机推荐

Spring中静态方法中使用@Resource注解的变量
开发中,有些时候可能会工具类的静态方法,而这个静态方法中又使用到了@Resource注解后的变量.如果要直接使用 Utils.staticMethod(),项目会报异常:如果不直接使用,还要先 new ...
web：屏蔽button元素的空格键和enter响应
用tab键可以在各种元素之间切换焦点,然后键盘上的空格和enter按键触发click事件,我这里不想要这种效果. 所以我需要屏蔽这两个按键. function keyup(e) { var currK ...
Ubuntu16.04.1上搭建分布式的Redis集群，并使用C#操作
为什么要集群: 通常为了,提高网站的响应速度,总是把一些经常用到的数据放到内存中,而不是放到数据库中,Redis是一个很好的Cache工具,当然了还有Memcached,这里只讲Redis.在我们的电 ...
Android Sensor 架构深入剖析【转】
本文转载自: 1.Android sensor架构 Android4.0系统内置对传感器的支持达13种,它们分别是:加速度传感器 (accelerometer).磁力传感器(magnetic fiel ...
eclipse中maven依赖的jar源码中文注释乱码解决
通过maven下载源代码,在eclipse中浏览源代码时,发现中文注释为乱码的问题. eclipse默认编码造成的问题.可以通过以下方法解决: 1.修改Eclipse中文本文件的默认编码:window ...
thymeleaf和freemarker比较
http://freemarker.cn/archives/168.html https://www.zhihu.com/question/64039553/answer/215942472 http ...
转载【MySQL】MySQL5.X常用日志配置及5.7和5.6主从复制的区别
转载:https://blog.csdn.net/zyb378747350/article/details/78728886 2)MySQL5.7和5.6主从复制的区别: . 5.6之后默认binlo ...
开源插件：MahApps.Metro.IconPacks
详见英文版:https://github.com/MahApps/MahApps.Metro.IconPacks/wiki 源代码名称:MahApps.Metro.IconPacks 源代码网址:ht ...
.netcore里使用StackExchange.Redis TimeOut 情况解决方法
在用StackExchange.Redis这个组件时候,时不时会出现异常TimeOut解决方法如下, 解决方法: 在Program的Main入口方法里添加一句话: System.Threading.T ...
【GMT43智能液晶模块】例程十五：LAN_TCPC实验——以太网数据传输
源代码下载链接: 链接:https://pan.baidu.com/s/1bFX8_UpUlML29oqoDGaw5g提取码:mrf5 复制这段内容后打开百度网盘手机App,操作更方便哦 GMT43购 ...

Flink WorkCount代码

Flink WorkCount代码的更多相关文章

随机推荐

热门专题