Flink（五） —— DataStream API

Source

从自定义的集合中读取数据

/**

    * 从集合中读取数据

    */

  def readDataFromCollection(): Unit = {

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    // 1.从自定义的集合中读取数据

    val list = List(

      SensorReading("sensor1", 153242, 35.8),

      SensorReading("sensor2", 153222, 15.4),

      SensorReading("sensor3", 153142, 6.7),

      SensorReading("sensor4", 151242, 38.7))

    val stream1 = env.fromCollection(list)

    stream1.print("stream1").setParallelism(1)

    env.execute("source test")

  }

从Kafka中读取数据

引入依赖

    <dependency>

            <groupId>org.apache.flink</groupId>

            <artifactId>flink-connector-kafka-0.10_2.11</artifactId>

            <version>1.7.2</version>

        </dependency>

代码

  /**

    * 从kafka中读取数据

    */

  def readDataFromKafka(): Unit = {

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    val props = new Properties()

    props.setProperty("bootstrap.servers", "localhost:9092")

    props.setProperty("key.serializer", "org.apache.kafka.common.serialization.StringSerializer")

    props.setProperty("value.serializer", "org.apache.kafka.common.serialization.StringSerializer")

    props.setProperty("group.id", "flink-demo")

    props.setProperty("auto.offset.reset", "latest")

    val stream1 = env.addSource(new FlinkKafkaConsumer010[String]("flinkdemo",new SimpleStringSchema(),props))

    stream1.print("stream1").setParallelism(1)

    env.execute("source test")

  }

从自定义的Source中读取数据



class SensorSource() extends SourceFunction[SensorReading] {

  var running: Boolean = true

  // 取消数据源的生成

  override def cancel(): Unit = {

    running = false

  }

  // 生成数据

  override def run(sourceContext: SourceContext[SensorReading]): Unit = {

    // 初始化一个随机数发生器

    val rand = new Random()

    var curTemp = 1.to(10).map(

      i => ("sensor_" + i, 60 + rand.nextGaussian() * 20)

    )

    while (running) {

      curTemp = curTemp.map(

        t => (t._1, t._2 + rand.nextGaussian())

      )

      val curTime = System.currentTimeMillis()

      curTemp.foreach(

        t => sourceContext.collect(SensorReading(t._1, curTime, t._2))

      )

      Thread.sleep(500)

    }

  }

}

Transform

样例数据

senor_1,1,10

senor_2,2,20

senor_3,3,40

senor_4,4,30

senor_5,5,30

senor_6,6,60

senor_1,7,70

map、reduce、keyBy

map

DataStream -> DataStream
通过应用给定的函数，对原先DataStream中的每个元素进行处理，获得一个新的DataStream

keyBy

DataStream -> KeyedStream[T,JavaTuple]
对DataStream中的元素按照给定的表达式进行分组

reduce

KeyedStream -> DataStream
通过规约原有DataStream中的元素，返回一个新的DataStream



  /**

    * 使用map、reduce

    */

  def testMap(): Unit = {

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    env.setParallelism(1)

    val streamFromFile = env.readTextFile("senor.txt")

    val dataStream: DataStream[SensorReading] = streamFromFile.map(data => {

      val dataArray = data.split(",")

      SensorReading(dataArray(0).trim, dataArray(1).toLong, dataArray(2).trim.toDouble)

    })

      .keyBy("id")

      .reduce((x, y) => {

        SensorReading(x.id, x.timestamp + 1, y.temperature + x.temperature)

      })

    dataStream.print()

    env.execute()

  }

split、select

split

DataStream → SplitStream
按照指定标准将指定的DataStream拆分成多个流用SplitStream来表示

select

SplitStream → DataStream
跟split搭配使用，从SplitStream中选择一个或多个流

def testSplit(): Unit = {

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    env.setParallelism(1)

    val streamFromFile = env.readTextFile("senor.txt")

    val dataStream: DataStream[SensorReading] = streamFromFile.map(data => {

      val dataArray = data.split(",")

      SensorReading(dataArray(0).trim, dataArray(1).toLong, dataArray(2).trim.toDouble)

    })

    // 多流转换算子

    val splitStream = dataStream.split(data => {

      if (data.temperature > 20) Seq("high") else Seq("low")

    })

    val high = splitStream.select("high")

    val low = splitStream.select("low")

    val all = splitStream.select("high", "low")

    high.print("high")

    low.print("low")

    all.print("all")

    env.execute()

  }

connect、coMap、coFlatMap

connect

DataStream,DataStream -> ConnectedStreams

coMap

ConnectedStreams -> DataStream



def testConnect(): Unit = {

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    env.setParallelism(1)

    val streamFromFile = env.readTextFile("senor.txt")

    val dataStream: DataStream[SensorReading] = streamFromFile.map(data => {

      val dataArray = data.split(",")

      SensorReading(dataArray(0).trim, dataArray(1).toLong, dataArray(2).trim.toDouble)

    })

    // 多流转换算子

    val splitStream = dataStream.split(data => {

      if (data.temperature > 20) Seq("high") else Seq("low")

    })

    val high = splitStream.select("high")

    val low = splitStream.select("low")

    // 创建一个新的数据流，数据类型与high、low不同

    val warning = high.map(data => (data.id, data.temperature))

    // 得到ConnectedStreams[T, T2]

    val connectedStreams = warning.connect(low)

    val coMapDataStreams = connectedStreams.map(data1 => (data1._1, data1._2, "warning"), data2 => (data2.temperature, "health"))

    coMapDataStreams.print()

    env.execute()

  }

UDF函数

Filter



def testFilter(): Unit = {

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    env.setParallelism(1)

    val streamFromFile = env.readTextFile("senor.txt")

    val dataStream: DataStream[SensorReading] = streamFromFile.map(data => {

      val dataArray = data.split(",")

      SensorReading(dataArray(0).trim, dataArray(1).toLong, dataArray(2).trim.toDouble)

    })

    dataStream.filter(new MyFilter()).print()

    env.execute()

  }

class MyFilter() extends FilterFunction[SensorReading] {

    override def filter(value: SensorReading): Boolean = {

      return value.id.startsWith("senor_1")

    }

  }

Sink



  def testFlinkSink2Kafka(): Unit = {

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    env.setParallelism(1)

    val streamFromFile = env.readTextFile("senor.txt")

    // Transform操作

    val dataStream = streamFromFile.map(data => {

      val dataArray = data.split(",")

      SensorReading(dataArray(0).trim, dataArray(1).toLong, dataArray(2).trim.toDouble).toString

    })

    // sink

    dataStream.addSink(new FlinkKafkaProducer010[String]("localhost:9092", "sinkTest", new SimpleStringSchema()))

    env.execute()

  }

参考文档

Basic API Concepts

Flink算子使用方法及实例演示：union和connect

Flink（五） —— DataStream API的更多相关文章

Apache Flink -Streaming(DataStream API)
综述: 在Flink中DataStream程序是在数据流上实现了转换的常规程序. 1.示范程序 import org.apache.flink.api.common.functions.FlatMap ...
Flink Program Guide （3） -- Event Time （DataStream API编程指导 -- For Java）
Event Time 本文翻译自DataStream API Docs v1.2的Event Time ------------------------------------------------ ...
Flink-v1.12官方网站翻译-P002-Fraud Detection with the DataStream API
使用DataStream API进行欺诈检测 Apache Flink提供了一个DataStream API,用于构建强大的.有状态的流式应用.它提供了对状态和时间的精细控制,这使得高级事件驱动系统的 ...
Flink Program Guide （10） -- Savepoints （DataStream API编程指导 -- For Java）
Savepoint 本文翻译自文档Streaming Guide / Savepoints ------------------------------------------------------ ...
Flink Program Guide （2） -- 综述（DataStream API编程指导 -- For Java）
v\:* {behavior:url(#default#VML);} o\:* {behavior:url(#default#VML);} w\:* {behavior:url(#default#VM ...
Flink DataStream API Programming Guide
Example Program The following program is a complete, working example of streaming window word count ...
Flink Program Guide （8） -- Working with State :Fault Tolerance（DataStream API编程指导 -- For Java）
Working with State 本文翻译自Streaming Guide/ Fault Tolerance / Working with State ---------------------- ...
flink DataStream API使用及原理
传统的大数据处理方式一般是批处理式的,也就是说,今天所收集的数据,我们明天再把今天收集到的数据算出来,以供大家使用,但是在很多情况下,数据的时效性对于业务的成败是非常关键的. Spark 和 Flin ...
Flink DataStream API 中的多面手——Process Function详解
之前熟悉的流处理API中的转换算子是无法访问事件的时间戳信息和水位线信息的.例如:MapFunction 这样的map转换算子就无法访问时间戳或者当前事件的时间. 然而,在一些场景下,又需要访问这些信 ...
[源码分析] 带你梳理 Flink SQL / Table API内部执行流程
[源码分析] 带你梳理 Flink SQL / Table API内部执行流程目录 [源码分析] 带你梳理 Flink SQL / Table API内部执行流程 0x00 摘要 0x01 Apac ...

随机推荐

Shiro密码处理
散列算法一般用于生成数据的摘要信息,是一种不可逆的算法,一般适合存储密码之类的数据,常见的散列算法如 MD5.SHA等.一般进行散列时最好提供一个 salt(盐),比如加密密码"admin& ...
二十一、CI框架之MCV
一.我们在M模型文件里面添加一个文件,代码如下: 二.在C控制器中加载模型,并调用模型函数,输出达到View,控制器代码如下: 三.在View里面输出控制器传过来的参数四.显示效果如下: 五.我们对 ...
深度理解js中var let const 区别
首先要理解js中作用域的概念作用域:指的是一个变量的作用范围 1.全局作用域直接写在script中的js代码,在js中,万物皆对象,都在全局作用域,全局作用域在页面打开时创建,在全局作用域中有一个 ...
java 微信红包算法代码实现及架构设计
转载至:https://www.zybuluo.com/yulin718/note/93148 微信红包的架构设计简介架构 @来源于QCon某高可用架构群整理,整理朱玉华. 背景:有某个朋友在朋友圈 ...
家中WIFI被人用WiFi万能钥匙共享后，我们应该怎么做？
据之前WiFi万能钥匙官方称,其用户总数已经超过了8亿,且日活用户达到2亿,在海量APP中仅次于微信和QQ.可以想象有着数量如此庞大的用户,家里的WiFi是如何的"不保险". 而据 ...
.NET CORE 获取微信支付回调
1.获取微信支付的回调的数据 Stream stream = HttpContext.Request.Body; byte[] buffer = new byte[HttpContext.Reques ...
bootstrap 支持的JavaScript插件
一次性导入: Bootstrap提供了一个单一的文件,这个文件包含了Bootstrap的所有JavaScript插件,即bootstrap.js(压缩版本:bootstrap.min.js). 具体使 ...
vscode 集成git bash, mingw, mintty 的terminal
设置右上角打开json文件的设置输入以下代码: "terminal.external.windowsExec": "D:\\Program Files\\Git\\b ...
JavaScript—瀑布流
现在网页中需要翻页的列表,好多都已经改为瀑布流了.所以这个思路还是特别重要的 HTML Css 页面因为每个图片的高度不一样所以她的 top 和left 我们待会通过JS计算动态生成 js部分思 ...
java this的用法以及原理
/** * this存在方法中,在方法中被调用. * 且是非static方法中被调用.(this 表示这个类的当前实例,而静态方法不依赖于该类的任何实例,随着类产生而装载,因此方法内不能引用 this ...

Flink（五） —— DataStream API

Source

从自定义的集合中读取数据

从Kafka中读取数据

从自定义的Source中读取数据

Transform

map、reduce、keyBy

split、select

connect、coMap、coFlatMap

UDF函数

Filter

Sink

参考文档

Flink（五） —— DataStream API的更多相关文章

随机推荐

热门专题