kafka具备的分布式、高吞吐、高可用特性,以及所提供的各种消息消费模式可以保证在一个多节点集群环境里消息被消费的安全性:即防止每条消息遗漏处理或重复消费。特别是exactly-once消费策略:可以保证每条消息肯定只被消费一次。换句话说就是在分布式运算环境里kafka的消息消费是能保证唯一性的。

但是,保证了消息读取唯一性,消息的处理过程如果也放到分布式运算环境里仍然会面对数据完整性(data integrity)问题。例如:消息处理过程是更新银行账户中金额、消息内容是更新某个账户的指令,那么,对多条针对同一个银行账户的消息进行并行处理时肯定会引发数据完整性问题。这就是本文重点讨论的问题。

我们来看看下面的代码:

kfkSource
.async.mapAsync(parallelism=8) { msg => updateAccount(msg.value() }
.toMat(Sink.fold(0) { (accu, e) => if (e) accu + 1 else accu })(Keep.right)
.run()

在上面的例子里,从kafka队列里逐一读取的消息可能有多个被并行处理(最多有8个并行线程parallelism=8), 如果这8条消息里包含相同的账户号码,肯定会产生数据完整性问题。那么如果:

> kfkSource
.async.mapAsync(parallelism=1) { msg => updateAccount(msg.value() }
.toMat(Sink.fold(0) { (accu, e) => if (e) accu + 1 else accu })(Keep.right)
.run()

用(parallelism=1),这样每条消息用单一线程处理,牺牲一些效率,能解决问题吗?答案是:在这台服务器上貌似可以。但我们的目的是在一个多节点集群环境里进行数据处理。这也应该是我们使用kafka的初衷嘛。在分布式环境里上面的这段代码等于是在多个节点上同时运行,同样会产生像多线程并行运算所产生的问题。
显然:问题的核心是重复的消息内容,在上面的例子里是多条消息里相同的银行账号。如果相同的账号在同一个线程里进行处理就可以避免以上问题了。akka actor信箱里的指令是按序逐个执行的,所以我们如果能保证把相同内容的消息发给同一个actor就可以解决问题了。为了实现有目的的向actor发送消息,可以使用集群分片(cluster-sharding)。在akka-cluster里,每一个分片都就等于一个命名的actor。还有一个问题是如果涉及大量的唯一账号,或者商品号,比如超百万的唯一编号又该怎么办呢?刚才讲过:我们只要保证每一种消息发给同一个分片,多种消息是可以发个同一个分片的。所以,对于大量编号我们可以通过hash算法来简化编号精度,如下:

def hashItemCode(code: String): String = {
val arrCode = code.toCharArray
var occur : Array[Int] = Array.fill(8)(0)
arrCode.foreach {
case x if (x >= '0' && x <= '2') =>
occur(0) = occur(0) + 1
case x if (x >= '3' && x <= '5') =>
occur(1) = occur(1) + 1
case x if (x >= '6' && x <= '8') =>
occur(2) = occur(2) + 1
case x if (x == '9' || x == '-' || x == '_' || x == ':') =>
occur(3) = occur(3) + 1
case x if ((x >= 'a' && x <= 'g') || (x >= 'A' && x <= 'G')) =>
occur(4) = occur(4) + 1
case x if ((x >= 'h' && x <= 'n') || (x >= 'H' && x <= 'N')) =>
occur(5) = occur(5) + 1
case x if ((x >= 'o' && x <= 't') || (x >= 'O' && x <= 'T')) =>
occur(6) = occur(6) + 1
case x if ((x >= 'u' && x <= 'z') || (x >= 'U' && x <= 'Z')) =>
occur(7) = occur(7) + 1
case _ =>
occur(7) = occur(7) + 1
}
occur.mkString
}

这个hashItemCode返回一个字串,代表原编码code中各种字母发生的频率,把这个字串作为sharding的entityId。
那么从kafaka读取一条消息后按hashItemCode结果指定发送给某个分片,下面是一个实际例子:

 def toStockWorker(jsonDoc: String) = {
val bizDoc = fromJson[BizDoc](jsonDoc)
val plu = bizDoc.pluCode
val entityId = DocModels.hashItemCode(plu)
log.step(s"CurStk-toStockWorker: sending CalcStock to ${entityId} with message: $jsonDoc")
val entityRef = sharding.entityRefFor(StockCalculator.EntityKey, entityId)
entityRef ! StockCalculator.CalcStock(jsonDoc)
}

下面我提供一个exactly-once源代码作为参考;

 (1 to numReaders).toList.map {_ =>
RestartSource
.onFailuresWithBackoff(restartSource) { () => mergedSource }
// .viaMat(KillSwitches.single)(Keep.right)
.async.mapAsync(1) { msg => //only one message uniq checked
for { //and flow down stream
newtxn <- curStk.isUniqStkTxns(msg.value())
_ <- FastFuture.successful {
log.step(s"ExactlyOnceReaderGroup-futStkTxnExists is ${!newtxn}: ${msg.value()}")
}
} yield (newtxn,msg)
}
.async.mapAsyncUnordered(8) { rmsg => //passed down msg
for { //can be parrallelly processed
cmt <- if (rmsg._1) stkTxns.stkTxnsWithRetry(rmsg._2.value(), rmsg._2.partition(), rmsg._2.offset()).toFuture().map(_ => "Completed")
else FastFuture.successful {"stktxn exists!"}
pmsg <- FastFuture.successful {
log.step(s"ExactlyOnceReaderGroup-stkTxnsWithRetry: committed transaction-$cmt")
rmsg
}
} yield pmsg
}
.async.mapAsyncUnordered(8) { rmsg =>
for {
_ <- if(rmsg._1) FastFuture.successful {curStk.toStockWorker(rmsg._2.value())}
else FastFuture.successful(false)
pmsg <- FastFuture.successful {
log.step(s"ExactlyOnceReaderGroup-updateStk...")
rmsg
}
} yield pmsg
}
.async.mapAsyncUnordered(8) { rmsg =>
for {
_ <- if (rmsg._1) FastFuture.successful {
pcmTxns.toPcmAggWorker(rmsg._2.value())
}
else FastFuture.successful(false)
pmsg <- FastFuture.successful {
log.step(s"ExactlyOnceReaderGroup-AccumulatePcm...")
}
} yield "Completed"
}
.toMat(Sink.seq)(Keep.left)
.run()
}

alpakka-kafka(9)-kafka在分布式运算中的应用的更多相关文章

  1. 使用kafka消息队列解决分布式事务(可靠消息最终一致性方案-本地消息服务)

    微服务框架Spring Cloud介绍 Part1: 使用事件和消息队列实现分布式事务 本文转自:http://skaka.me/blog/2016/04/21/springcloud1/ 不同于单一 ...

  2. Kafka — 高吞吐量的分布式发布订阅消息系统【转】

    1.Kafka独特设计在什么地方?2.Kafka如何搭建及创建topic.发送消息.消费消息?3.如何书写Kafka程序?4.数据传输的事务定义有哪三种?5.Kafka判断一个节点是否活着有哪两个条件 ...

  3. kafka高吞吐量的分布式发布订阅的消息队列系统

    一:kafka介绍kafka(官网地址:http://kafka.apache.org)是一种高吞吐量的分布式发布订阅的消息队列系统,具有高性能和高吞吐率. 1.1 术语介绍BrokerKafka集群 ...

  4. zookeeper,kafka,redis等分布式框架的主从同步策略

    1 zookeeper选主机制 1.1 LeaderElection选举算法 选举线程由当前Server发起选举的线程担任,他主要的功能对投票结果进行统计,并选出推荐的Server.选举线程首先向所有 ...

  5. Spark Streaming + Kafka整合(Kafka broker版本0.8.2.1+)

    这篇博客是基于Spark Streaming整合Kafka-0.8.2.1官方文档. 本文主要讲解了Spark Streaming如何从Kafka接收数据.Spark Streaming从Kafka接 ...

  6. Kafka(1)--kafka基础知识

    Kafka 的简介: Kafka 是一款分布式消息发布和订阅系统,具有高性能.高吞吐量的特点而被广泛应用与大数据传输场景.它是由 LinkedIn 公司开发,使用 Scala 语言编写,之后成为 Ap ...

  7. Kafka记录-Kafka简介与单机部署测试

    1.Kafka简介 kafka-分布式发布-订阅消息系统,开发语言-Scala,协议-仿AMQP,不支持事务,支持集群,支持负载均衡,支持zk动态扩容 2.Kafka的架构组件 1.话题(Topic) ...

  8. 【Kafka】Kafka数据可靠性深度解读

    转帖:http://www.infoq.com/cn/articles/depth-interpretation-of-kafka-data-reliability Kafka起初是由LinkedIn ...

  9. Zookeeper在分布式架构中的应用

    Zookeeper 是一个高性能.高可靠的分布式协调系统,是 Google Chubby 的一个开源实现.Zookeeper 能够为分布式应用提供一致性服务,提供的功能包括:配置维护.域名服务.分布式 ...

随机推荐

  1. 【九度OJ】题目1080:进制转换 解题报告

    [九度OJ]题目1080:进制转换 解题报告 标签(空格分隔): 九度OJ 原题地址:http://ac.jobdu.com/problem.php?pid=1080 题目描述: 将M进制的数X转换为 ...

  2. 【LeetCode】632. Smallest Range 解题报告(Python)

    作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 题目地址: https://leetcode.com/problems/smallest ...

  3. 【剑指Offer】左旋转字符串 解题报告(Python)

    [剑指Offer]左旋转字符串 解题报告(Python) 标签(空格分隔): 剑指Offer 题目地址:https://www.nowcoder.com/ta/coding-interviews 题目 ...

  4. Myeclipse查看jdk源代码

    过程如下: 1.点 "window"-> "Preferences" -> "Java" -> "Install ...

  5. Atcoder ABC137D:Summer Vacation(贪心)

    D - Summer Vacation Time Limit: 2 sec / Memory Limit: 1024 MB Score : 400 points Problem Statement T ...

  6. 查收新年礼物丨DevEco Studio 3.0 Beta2发布,20个新变化详解

    HUAWEI DevEco Studio是开发HarmonyOS应用和原子化服务的一站式集成开发环境(IDE),为开发者提供工程模板创建.开发.编译.调试.发布等功能. 2021年12月31日,新版本 ...

  7. Spring @Bean 注解的使用

    使用说明 这个注解主要用在方法上,声明当前方法体中包含了最终产生 bean 实例的逻辑,方法的返回值是一个 Bean.这个 bean 会被 Spring 加入到容器中进行管理,默认情况下 bean 的 ...

  8. CSS基础 元素整体透明效果(包含内容+背景及子元素)

    属性名:opacity:数字+px; 数字值取值0-1之间数字 数字值:1表示完全不透明 0表示完全透明使用后效果 html结构代码 <div class="box"> ...

  9. 关于vue部署到nginx服务下,非根目录,刷新页面404的问题

    如果在根目录则添加 try_files $uri $uri/ /index.html; 如果不在根目录则添加,格式如下 location  /xxxx  { try_files $uri $uri/ ...

  10. IDEA安装与配置

    一.安装 二.配置 配置字体:source pro code 忽略大小写提示 自动导包 多 tab显示 设置快捷键 设置鼠标悬浮提示 设置行号和方法分隔符 设置maven 断点调试 字符编码 自动删除 ...