alpakka-kafka(9)-kafka在分布式运算中的应用

kafka具备的分布式、高吞吐、高可用特性，以及所提供的各种消息消费模式可以保证在一个多节点集群环境里消息被消费的安全性：即防止每条消息遗漏处理或重复消费。特别是exactly-once消费策略：可以保证每条消息肯定只被消费一次。换句话说就是在分布式运算环境里kafka的消息消费是能保证唯一性的。

但是，保证了消息读取唯一性，消息的处理过程如果也放到分布式运算环境里仍然会面对数据完整性（data integrity）问题。例如：消息处理过程是更新银行账户中金额、消息内容是更新某个账户的指令，那么，对多条针对同一个银行账户的消息进行并行处理时肯定会引发数据完整性问题。这就是本文重点讨论的问题。

我们来看看下面的代码：

kfkSource

        .async.mapAsync(parallelism=8) { msg => updateAccount(msg.value() }

          .toMat(Sink.fold(0) { (accu, e) => if (e) accu + 1 else accu })(Keep.right)

          .run()

在上面的例子里，从kafka队列里逐一读取的消息可能有多个被并行处理（最多有8个并行线程parallelism=8）, 如果这8条消息里包含相同的账户号码，肯定会产生数据完整性问题。那么如果：

> kfkSource

        .async.mapAsync(parallelism=1) { msg => updateAccount(msg.value() }

          .toMat(Sink.fold(0) { (accu, e) => if (e) accu + 1 else accu })(Keep.right)

          .run()

用(parallelism=1)，这样每条消息用单一线程处理，牺牲一些效率，能解决问题吗？答案是：在这台服务器上貌似可以。但我们的目的是在一个多节点集群环境里进行数据处理。这也应该是我们使用kafka的初衷嘛。在分布式环境里上面的这段代码等于是在多个节点上同时运行，同样会产生像多线程并行运算所产生的问题。
显然：问题的核心是重复的消息内容，在上面的例子里是多条消息里相同的银行账号。如果相同的账号在同一个线程里进行处理就可以避免以上问题了。akka actor信箱里的指令是按序逐个执行的，所以我们如果能保证把相同内容的消息发给同一个actor就可以解决问题了。为了实现有目的的向actor发送消息，可以使用集群分片（cluster-sharding）。在akka-cluster里，每一个分片都就等于一个命名的actor。还有一个问题是如果涉及大量的唯一账号，或者商品号，比如超百万的唯一编号又该怎么办呢？刚才讲过：我们只要保证每一种消息发给同一个分片，多种消息是可以发个同一个分片的。所以，对于大量编号我们可以通过hash算法来简化编号精度，如下：

def hashItemCode(code: String): String = {

     val arrCode = code.toCharArray

     var occur : Array[Int] = Array.fill(8)(0)

     arrCode.foreach {

       case x if (x >= '0' && x <= '2') =>

         occur(0) = occur(0) + 1

       case x if (x >= '3' && x <= '5') =>

         occur(1) = occur(1) + 1

       case x if (x >= '6' && x <= '8') =>

         occur(2) = occur(2) + 1

       case x if (x == '9' || x == '-' || x == '_' || x == ':') =>

         occur(3) = occur(3) + 1

       case x if ((x >= 'a' && x <= 'g') || (x >= 'A' && x <= 'G')) =>

         occur(4) = occur(4) + 1

       case x if ((x >= 'h' && x <= 'n') || (x >= 'H' && x <= 'N')) =>

         occur(5) = occur(5) + 1

       case x if ((x >= 'o' && x <= 't') || (x >= 'O' && x <= 'T')) =>

         occur(6) = occur(6) + 1

       case x if ((x >= 'u' && x <= 'z') || (x >= 'U' && x <= 'Z')) =>

         occur(7) = occur(7) + 1

       case _ =>

         occur(7) = occur(7) + 1

     }

     occur.mkString

  }

这个hashItemCode返回一个字串，代表原编码code中各种字母发生的频率，把这个字串作为sharding的entityId。
那么从kafaka读取一条消息后按hashItemCode结果指定发送给某个分片，下面是一个实际例子：

 def toStockWorker(jsonDoc: String) = {

    val bizDoc = fromJson[BizDoc](jsonDoc)

    val plu = bizDoc.pluCode

    val entityId = DocModels.hashItemCode(plu)

    log.step(s"CurStk-toStockWorker: sending CalcStock to ${entityId} with message: $jsonDoc")

    val entityRef = sharding.entityRefFor(StockCalculator.EntityKey, entityId)

    entityRef ! StockCalculator.CalcStock(jsonDoc)

  }

下面我提供一个exactly-once源代码作为参考；

 (1 to numReaders).toList.map {_ =>

      RestartSource

        .onFailuresWithBackoff(restartSource) { () => mergedSource }

//        .viaMat(KillSwitches.single)(Keep.right)

        .async.mapAsync(1) { msg =>    //only one message uniq checked

        for {                                      //and flow down stream

          newtxn <- curStk.isUniqStkTxns(msg.value())

          _ <- FastFuture.successful {

            log.step(s"ExactlyOnceReaderGroup-futStkTxnExists is ${!newtxn}: ${msg.value()}")

          }

        } yield (newtxn,msg)

      }

        .async.mapAsyncUnordered(8) { rmsg =>  //passed down msg

          for {       //can be parrallelly processed

            cmt <- if (rmsg._1) stkTxns.stkTxnsWithRetry(rmsg._2.value(), rmsg._2.partition(), rmsg._2.offset()).toFuture().map(_ => "Completed")

            else FastFuture.successful {"stktxn exists!"}

            pmsg <- FastFuture.successful {

              log.step(s"ExactlyOnceReaderGroup-stkTxnsWithRetry: committed transaction-$cmt")

              rmsg

            }

          } yield pmsg

        }

        .async.mapAsyncUnordered(8) { rmsg =>

        for {

          _ <- if(rmsg._1) FastFuture.successful {curStk.toStockWorker(rmsg._2.value())}

          else FastFuture.successful(false)

          pmsg <- FastFuture.successful {

            log.step(s"ExactlyOnceReaderGroup-updateStk...")

            rmsg

          }

        } yield pmsg

      }

        .async.mapAsyncUnordered(8) { rmsg =>

        for {

          _ <- if (rmsg._1) FastFuture.successful {

            pcmTxns.toPcmAggWorker(rmsg._2.value())

          }

          else FastFuture.successful(false)

          pmsg <- FastFuture.successful {

            log.step(s"ExactlyOnceReaderGroup-AccumulatePcm...")

          }

        } yield "Completed"

      }

         .toMat(Sink.seq)(Keep.left)

        .run()

    }

alpakka-kafka(9)-kafka在分布式运算中的应用的更多相关文章

使用kafka消息队列解决分布式事务(可靠消息最终一致性方案-本地消息服务)
微服务框架Spring Cloud介绍 Part1: 使用事件和消息队列实现分布式事务本文转自:http://skaka.me/blog/2016/04/21/springcloud1/ 不同于单一 ...
Kafka — 高吞吐量的分布式发布订阅消息系统【转】
1.Kafka独特设计在什么地方?2.Kafka如何搭建及创建topic.发送消息.消费消息?3.如何书写Kafka程序?4.数据传输的事务定义有哪三种?5.Kafka判断一个节点是否活着有哪两个条件 ...
kafka高吞吐量的分布式发布订阅的消息队列系统
一:kafka介绍kafka(官网地址:http://kafka.apache.org)是一种高吞吐量的分布式发布订阅的消息队列系统,具有高性能和高吞吐率. 1.1 术语介绍BrokerKafka集群 ...
zookeeper，kafka，redis等分布式框架的主从同步策略
1 zookeeper选主机制 1.1 LeaderElection选举算法选举线程由当前Server发起选举的线程担任,他主要的功能对投票结果进行统计,并选出推荐的Server.选举线程首先向所有 ...
Spark Streaming + Kafka整合(Kafka broker版本0.8.2.1+)
这篇博客是基于Spark Streaming整合Kafka-0.8.2.1官方文档. 本文主要讲解了Spark Streaming如何从Kafka接收数据.Spark Streaming从Kafka接 ...
Kafka(1)--kafka基础知识
Kafka 的简介: Kafka 是一款分布式消息发布和订阅系统,具有高性能.高吞吐量的特点而被广泛应用与大数据传输场景.它是由 LinkedIn 公司开发,使用 Scala 语言编写,之后成为 Ap ...
Kafka记录-Kafka简介与单机部署测试
1.Kafka简介 kafka-分布式发布-订阅消息系统,开发语言-Scala,协议-仿AMQP,不支持事务,支持集群,支持负载均衡,支持zk动态扩容 2.Kafka的架构组件 1.话题(Topic) ...
【Kafka】Kafka数据可靠性深度解读
转帖:http://www.infoq.com/cn/articles/depth-interpretation-of-kafka-data-reliability Kafka起初是由LinkedIn ...
Zookeeper在分布式架构中的应用
Zookeeper 是一个高性能.高可靠的分布式协调系统,是 Google Chubby 的一个开源实现.Zookeeper 能够为分布式应用提供一致性服务,提供的功能包括:配置维护.域名服务.分布式 ...

随机推荐

【LeetCode】27. Remove Element 解题报告（Python & Java）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法双指针记录起始位置日期题目地址:https:/ ...
【LeetCode】968. Binary Tree Cameras 解题报告（C++）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法日期题目地址:https://leetcode.c ...
【九度OJ】题目1192：回文字符串解题报告
[九度OJ]题目1192:回文字符串解题报告标签(空格分隔): 九度OJ http://ac.jobdu.com/problem.php?pid=1192 题目描述: 给出一个长度不超过1000的 ...
【LeetCode】837. New 21 Game 解题报告（Python）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法动态规划相似题目参考资料日期题目地址:htt ...
【剑指Offer】和为S的连续正数序列解题报告（Python）
[剑指Offer]和为S的连续正数序列解题报告(Python) 标签(空格分隔): 剑指Offer 题目地址:https://www.nowcoder.com/ta/coding-interview ...
Mysterious For(hdu4373)
Mysterious For Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)To ...
JSON.parse 和 JSON.stringify 详解
JSON格式,(简写JavaScript Object Notation),是一种用于数据交换的文本格式,书写简单. 基于JavaScript原生语法,能够序列化对象.数组.数值.字符串.布尔值和 n ...
JUC之集合中的线程安全问题
集合线程安全问题 JDK Version:9 首先说下集合线程安全是什么:当多个线程对同一个集合进行添加和查询的时候,出现异常错误. 复现例子: package com.JUC; import jav ...
每天学一点——python基本数据类型
python基本数据类型字符串类型(str) 字符串类型的数据一定是描述性质的,且由引号括起来的数据都是字符串数据(单引号.双引号.三引号.) 如下图 (简单易懂) 这里列举一些不明所以的问题如图 ...
C#中的隐式转换
你是否考虑过这个问题:为什么不同类型之间的变量可以赋值,而不需要强制转换类型?如: int i = 1; long l = i; object obj = 1; Exception exception ...

alpakka-kafka(9)-kafka在分布式运算中的应用

alpakka-kafka(9)-kafka在分布式运算中的应用的更多相关文章

随机推荐

热门专题