kafkaspot在ack机制下如何保证内存不溢

新浪微博：intsmaze刘洋洋哥。

storm框架中的kafkaspout类实现的是BaseRichSpout，它里面已经重写了fail和ack方法，所以我们的bolt必须实现ack机制，就可以保证消息的重新发送；如果不实现ack机制，那么kafkaspout就无法得到消息的处理响应，就会在超时以后再次发送消息，导致消息的重复发送。

但是回想一下我们自己写一个spout类实现BaseRichSpout并让他具备消息重发，那么我们是会在我们的spout类里面定义一个map集合，并以msgId作为key。

public class MySpout extends BaseRichSpout {

    private static final long serialVersionUID = 5028304756439810609L;

    // key:messageId,Data

    private HashMap<String, String> waitAck = new HashMap<String, String>();

    private SpoutOutputCollector collector;

    public void declareOutputFields(OutputFieldsDeclarer declarer) {

        declarer.declare(new Fields("sentence"));

    }

    public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {

        this.collector = collector;

    }

    public void nextTuple() {

        String sentence = "the cow jumped over the moon";

        String messageId = UUID.randomUUID().toString().replaceAll("-", "");

        waitAck.put(messageId, sentence);

        //指定messageId，开启ackfail机制

        collector.emit(new Values(sentence), messageId);

    }

    @Override

    public void ack(Object msgId) {

        System.out.println("消息处理成功:" + msgId);

        System.out.println("删除缓存中的数据...");

        waitAck.remove(msgId);

    }

    @Override

    public void fail(Object msgId) {

        System.out.println("消息处理失败:" + msgId);

        System.out.println("重新发送失败的信息...");

        //重发如果不开启ackfail机制，那么spout的map对象中的该数据不会被删除的,而且下游

        collector.emit(new Values(waitAck.get(msgId)),msgId);

    }

}

那么kafkaspout会不会也是这样还保存这已发送未收到bolt响应的消息呢？如果这样，如果消息处理不断失败，不断重发，消息不断积累在kafkaspout节点上，kafkaspout端会不就会出现内存溢出？

其实并没有，回想kafka的原理，Kafka会为每一个consumergroup保留一些metadata信息–当前消费的消息的position，也即offset。这个offset由consumer控制。正常情况下consumer会在消费完一条消息后线性增加这个offset。当然，consumer也可将offset设成一个较小的值，重新消费一些消息。也就是说，kafkaspot在消费kafka的数据是，通过offset读取到消息并发送给bolt后，kafkaspot只是保存者当前的offset值。

当失败或成功根据msgId查询offset值，然后再去kafka消费该数据来确保消息的重新发送。

那么虽然offset数据小，但是当offset的数据量上去了还是会内存溢出的？

其实并没有，kafkaspout发现缓存的数据超过限制了，会把某端的数据清理掉的。

kafkaspot中发送数据的代码

collector.emit(tup, new KafkaMessageId(_partition, toEmit.offset));

可以看到msgID里面包装了offset参数。

它不缓存已经发送出去的数据信息。

当他接收到来至bolt的响应后，会从接收到的msgId中得到offset。以下是从源码中折取的关键代码：

public void ack(Object msgId) {

     KafkaMessageId id = (KafkaMessageId) msgId;

     PartitionManager m = _coordinator.getManager(id.partition);

     if (m != null) {

          m.ack(id.offset);

     }

 }

 m.ack(id.offset);

 public void ack(Long offset) {

     _pending.remove(offset);//处理成功移除offset

     numberAcked++;

 }

 public void fail(Object msgId) {

     KafkaMessageId id = (KafkaMessageId) msgId;

     PartitionManager m = _coordinator.getManager(id.partition);

     if (m != null) {

         m.fail(id.offset);

      }

  }

  m.fail(id.offset);

  public void fail(Long offset) {

 　　　　failed.add(offset);//处理失败添加offset

        numberFailed++;

   }

    SortedSet<Long> _pending = new TreeSet<Long>();

    SortedSet<Long> failed = new TreeSet<Long>();

关于kafkaspot的源码解析大家可以看这边博客：http://www.cnblogs.com/cruze/p/4241181.html

源码解析中涉及了很多kafka的概念，所以仅仅理解kafka的概念想完全理解kafkaspot源码是很难的，如果不理解kafka概念，那么就只需要在理解storm的ack机制上明白kafkaspot做了上面的两件事就可以了。

kafkaspot在ack机制下如何保证内存不溢的更多相关文章

Linux下TCP延迟确认(Delayed Ack)机制导致的时延问题分析
版权声明:本文由潘安群原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/105 来源:腾云阁 https://www.qclo ...
Storm的ack机制在项目应用中的坑
正在学习storm的大兄弟们,我又来传道授业解惑了,是不是觉得自己会用ack了.好吧,那就让我开始啪啪打你们脸吧. 先说一下ACK机制: 为了保证数据能正确的被处理, 对于spout产生的每一个tup ...
RabbitMQ的消息确认ACK机制
1.什么是消息确认ACK. 答:如果在处理消息的过程中,消费者的服务器在处理消息的时候出现异常,那么可能这条正在处理的消息就没有完成消息消费,数据就会丢失.为了确保数据不会丢失,RabbitMQ支持消 ...
rabbitmq++：RabbitMQ的消息确认ACK机制介绍
1):什么是消息确认ACK. 答:如果在处理消息的过程中,消费者的服务器在处理消息的时候出现异常,那么可能这条正在处理的消息就没有完成消息消费,数据就会丢失.为了确保数据不会丢失,RabbitMQ支持 ...
Storm可靠性实例解析——ack机制
对于Storm,它有一个很重要的特性:“Guarantee no data loss” ——可靠性很显然,要做到这个特性,必须要track每个data的去向和结果.Storm是如何做到的呢——ack ...
Linux 下增大tomcat内存
我的服务器的配置: # OS specific support. $var _must_ be set to either true or false. JAVA_OPTS="-Xms10 ...
Redis系列--内存淘汰机制（含单机版内存优化建议）
https://blog.csdn.net/Jack__Frost/article/details/72478400?locationNum=13&fps=1 每台redis的服务器的内存都是 ...
ARC机制下组合关系
// // Person.h // 01-autorelease基本概念 // // Created by apple on 14-3-18. // Copyright (c) 2014年 a ...
32位Windows7上8G内存使用感受+xp 32位下使用8G内存（转）
32位Windows7上8G内存使用感受+xp 32位下使用8G内存博客分类: Windows XPWindowsIE企业应用软件测试我推荐做开发的朋友:赶快加入8G的行列吧....呵呵..超爽 ...

随机推荐

Hadoop HDFS 用户指南
This document is a starting point for users working with Hadoop Distributed File System (HDFS) eithe ...
Android开发学习之路-SnackBar使用心得
SnackBar是DesignSupportLibrary中的一个重要的控件,用于在界面下面提示一些关键信息,跟Toast不同的地方是SnackBar允许用户向右滑动消除它,同时,也允许在SnackB ...
【requireJS源码学习01】了解整个requireJS的结构
前言现在工作中基本离不开requireJS这种模块管理工具了,之前一直在用,但是对其原理不甚熟悉,整两天我们来试着学习其源码,而后在探寻其背后的AMD思想吧于是今天的目标是熟悉requireJS整 ...
SQL Server数据库sql语句生成器(SqlDataToScript)的使用(sql server自增列(id)插入固定值)
SqlDataToScript是根据表数据进行生成 Insert Into语句,此工具还有一个好处是可以对自增列插入固定值,例如:自增的列id值为5,但是5这个行值已经删除,如果想存储Id自增列值为5 ...
LINQ系列：LINQ to SQL Exists/In/Any/All/Contains
1. Any 返回没有Product的Category var expr = from c in context.Categories where !c.Products.Any() select c ...
OpenCascade Primitives BRep-Cone
OpenCascade Primitives BRep-Cone eryar@163.com Abstract. BRep is short for Boundary Representation. ...
【开源】OSharp框架解说系列（2.1）：EasyUI的后台界面搭建及极致重构
OSharp是什么? OSharp是个快速开发框架,但不是一个大而全的包罗万象的框架,严格的说,OSharp中什么都没有实现.与其他大而全的框架最大的不同点,就是OSharp只做抽象封装,不做实现.依 ...
分析Mysql 5.6的Dockerfile
Docker官方的Mysql镜像的Dockerfile托管在Github上,地址如下: https://github.com/docker-library/mysql/tree/5836bc9af9d ...
【PHP面向对象(OOP)编程入门教程】17.克隆对象__clone()方法
有的时候我们需要在一个项目里面,使用两个或多个一样的对象,如果你使用“new”关键字重新创建对象的话,再赋值上相同的属性,这样做比较烦琐而且也容易出错,所以要根据一个对象完全克隆出一个一模一样的对象, ...
Java进击C#——语法之知识点的改进
本章简言上一章我们讲到关于面向对象思想上C#和JAVA之差别.笔者分别从面向对象的三大特性入手.而本章主要讲一些C#改进的知识点.在.NET Framework 2.0之后出现很多新的知识点.这些知 ...

kafkaspot在ack机制下如何保证内存不溢

kafkaspot在ack机制下如何保证内存不溢的更多相关文章

随机推荐

热门专题