Spark Streaming自定义Receiver

一背景

Spark社区为Spark Streaming提供了很多数据源接口，但是有些比较偏的数据源没有覆盖，由于公司技术栈选择，用了阿里云的MQ服务ONS，要做实时需求，要自己编写Receiver

二技术实现

1.官网的例子已经比较详细，但是进入实践还需要慢慢调试，官方文档。

2.实现代码，由三部分组成，receiver，inputstream，util

3.receiver代码

import java.io.Serializable

import java.util.Properties

import com.aliyun.openservices.ons.api._

import com.aliyun.openservices.ons.api.impl.ONSFactoryImpl

import org.apache.spark.internal.Logging

import org.apache.spark.storage.StorageLevel

import org.apache.spark.streaming.receiver.Receiver

class OnsReceiver(

    cid: String,

    accessKey: String,

    secretKey: String,

    addr: String,

    topic: String,

    tag: String,

    func: Message => Array[Byte])

  extends Receiver[Array[Byte]](StorageLevel.MEMORY_AND_DISK_2) with Serializable with Logging {

  receiver =>

  private var consumer: Consumer = null

  private var workerThread: Thread = null

  override def onStart(): Unit = {

    workerThread = new Thread(new Runnable {

      override def run(): Unit = {

        val properties = new Properties

        properties.put(PropertyKeyConst.ConsumerId, cid)

        properties.put(PropertyKeyConst.AccessKey, accessKey)

        properties.put(PropertyKeyConst.SecretKey, secretKey)

        properties.put(PropertyKeyConst.ONSAddr, addr)

        properties.put(PropertyKeyConst.MessageModel, "CLUSTERING")

        properties.put(PropertyKeyConst.ConsumeThreadNums, "50")

        val onsFactoryImpl = new ONSFactoryImpl

        consumer = onsFactoryImpl.createConsumer(properties)

        consumer.subscribe(topic, tag, new MessageListener() {

          override def consume(message: Message, context: ConsumeContext): Action = {

            try {

              receiver.store(func(message))

              Action.CommitMessage

            } catch {

              case e: Throwable => e.printStackTrace()

                Action.ReconsumeLater

            }

          }

        })

        consumer.start()

      }

    })

    workerThread.setName(s"Aliyun ONS Receiver $streamId")

    workerThread.setDaemon(true)

    workerThread.start()

  }

  override def onStop(): Unit = {

    if (workerThread != null) {

      if (consumer != null) {

        consumer.shutdown()

      }

      workerThread.join()

      workerThread = null

      logInfo(s"Stopped receiver for streamId $streamId")

    }

  }

}

input代码

import com.aliyun.openservices.ons.api.Message

import org.apache.spark.streaming.StreamingContext

import org.apache.spark.streaming.dstream.ReceiverInputDStream

import org.apache.spark.streaming.receiver.Receiver

class OnsInputDStream(

    @transient _ssc: StreamingContext,

    cid: String,

    topic: String,

    tag: String,

    accessKey: String,

    secretKey: String,

    addr:String,

    func: Message => Array[Byte]

  ) extends ReceiverInputDStream[Array[Byte]](_ssc) {

  override def getReceiver(): Receiver[Array[Byte]] = {

    new OnsReceiver(cid,accessKey,secretKey,addr,topic,tag,func)

  }

}

util代码

import com.aliyun.openservices.ons.api.Message

import org.apache.spark.annotation.Experimental

import org.apache.spark.streaming.StreamingContext

import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}

object OnsUtils {

  @Experimental

  def createStream(

                    ssc: StreamingContext,

                    cid: String,

                    topic: String,

                    tag: String,

                    accessKey: String,

                    secretKey: String,

                    addr: String,

                    func: Message => Array[Byte]): ReceiverInputDStream[Array[Byte]] = {

    new OnsInputDStream(ssc, cid, topic, tag, accessKey, secretKey, addr, func)

  }

  @Experimental

  def createStreams(

                     ssc: StreamingContext,

                     consumerIdTopicTags: Array[(String, String, String)],

                     accessKey: String,

                     secretKey: String,

                     addr: String,

                     func: Message => Array[Byte]): DStream[Array[Byte]] = {

    val invalidTuples1 = consumerIdTopicTags.groupBy(e => (e._1, e._2)).filter(e => e._2.length > 1)

    val invalidTuples2 = consumerIdTopicTags.map(e => (e._1, e._2)).groupBy(e => e._1).filter(e => e._2.length > 1)

    if (invalidTuples1.size > 1 || invalidTuples2.size > 1) {

      throw new RuntimeException("Inconsistent consumer subscription.")

    } else {

      ssc.union(consumerIdTopicTags.map({

        case (consumerId, topic, tags) =>

          createStream(ssc, consumerId, topic, tags, accessKey, secretKey, addr, func)

      }))

    }

  }

}

三调用

val stream = (0 until 3).map(i => {

      OnsUtils.createStream(ssc,

        "CID",

        "BI_CALL",

        "call_log_ons",

        config.getString("ons.access_key"),

        config.getString("ons.sercet_key"),

        config.getString("ons.ons_addr"),

        func)

    })

    val unionStream = ssc.union(stream).foreachRDD(...)

stream可以决定设置多少个receiver，这个数量必须小于等于spark on yarn的num-executors，内存默认占用executors的内存的一半。

Spark Streaming自定义Receiver的更多相关文章

spark Streaming的Receiver和Direct的优化对比
Direct 1.简化并行读取:如果要读取多个partition,不需要创建多个输入DStream然后对它们进行union操作.Spark会创建跟Kafka partition一样多的RDD part ...
spark streaming 3: Receiver 到 submitJobSet
对于spark streaming来说,receiver是数据的源头.spark streaming的框架上,将receiver替换spark-core的以磁盘为数据源的做法,但是数据源(如监听某个 ...
Spark Streaming自定义Receivers
自定义一个Receiver class SocketTextStreamReceiver(host: String, port: Int( extends NetworkReceiver[String ...
9. Spark Streaming技术内幕 : Receiver在Driver的精妙实现全生命周期彻底研究和思考
原创文章,转载请注明:转载自听风居士博客(http://www.cnblogs.com/zhouyf/) Spark streaming 程序需要不断接收新数据,然后进行业务逻辑 ...
4. Spark Streaming解析
4.1 初始化StreamingContext import org.apache.spark._ import org.apache.spark.streaming._ val conf = new ...
Spark Streaming Backpressure分析
1.为什么引入Backpressure 默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batch processing time > ...
Spark Streaming性能优化: 如何在生产环境下应对流数据峰值巨变
1.为什么引入Backpressure 默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batch processing time > ...
【Streaming】30分钟概览Spark Streaming 实时计算
本文主要介绍四个问题: 什么是Spark Streaming实时计算? Spark实时计算原理流程是什么? Spark 2.X下一代实时计算框架Structured Streaming Spark S ...
第12课：Spark Streaming源码解读之Executor容错安全性
一.Spark Streaming 数据安全性的考虑: Spark Streaming不断的接收数据,并且不断的产生Job,不断的提交Job给集群运行.所以这就涉及到一个非常重要的问题数据安全性. S ...

随机推荐

Python自学day-15
一.防止页面变形在改变浏览器大小时,可能会导致里面的元素变形(特别是用百分比设置的宽度). 那么,我们如何解决这个问题? 可以在最外层的元素(例如div)中,设置一个固定像素的宽度,例如: < ...
Java面试常问问题及答案（非常详细）
一:java基础1.简述string对象,StringBuffer.StringBuilder区分string是final的,内部用一个final类型的char数组存储数据,它的拼接效率比较低,实际上 ...
Fiddler如何过滤无用的链接
场景:现在是移动端的天下,测试过程中,抓包工具肯定必不可少,如何使用这里就不赘述,这里给大家讲述下如何过滤那些没有的链接,js ,png等无用的信息工具:fiddler-use Filters功能: ...
python面试题（三）列表操作
接上一篇............. 0x01:列表的去重操作 al = [1, 1, 2, 3, 1, 2, 4] #set方法元素去重 al_set = set(al) print(list(al_ ...
echo-nginx-module的安装、配置、使用
一.下载压缩包 [root@www nginx-1.16.0]# wget https://github.com/openresty/echo-nginx-module/archive/v0.61.t ...
Flutter学习笔记（6）--Dart异常处理
如需转载,请注明出处:Flutter学习笔记(6)--Dart异常处理异常是表示发生了意外的错误,如果没有捕获异常,引发异常的隔离程序将被挂起,并且程序将被终止: Dart代码可以抛出并捕获异常,但 ...
STM32F072从零配置工程-自定义时钟配置详解
从自己的板子STM32F407入手,参考官方的SystemInit()函数: 核心在SetSysClock()这个函数,官方默认是采用HSE(设定为8MHz)作为PLL锁相环的输入输出168MHz的S ...
BI之路学习笔记3--olap cube理解实例
为什么会产生OLAP? 随着数据库技术的发展应用,数据库存储的数据量从M字节以及G(千兆)字节过渡到T字节和P字节,同时,用户的查询需求也越来越复杂,设计的已不仅是查询或者操纵一张关系表中的一条或几条 ...
py+selenium 明明定位不到元素，但却不报错或是报错AttributeError: 'list' object has no attribute 'click'【已解决】
问题:定位不到元素,但却不报错或者出现报错AttributeError: 'list' object has no attribute 'click' 如图或者解决方法: 将”driver ...
python函数知识三函数名的使用、格式化、递归
12.函数名的使用函数是第一类对象函数名可以当做值被赋值给变量 def func(): print(1) return a = func print(func) print(a) a() 函数名可 ...

Spark Streaming自定义Receiver

一 背景

二 技术实现

三 调用

Spark Streaming自定义Receiver的更多相关文章

随机推荐

热门专题

一背景

二技术实现

三调用