Pulsar源码彻底解决重复消费问题
背景
最近真是和 Pulsar
杠上了,业务团队反馈说是线上有个应用消息重复消费。
而且在测试环境是可以稳定复现的,根据经验来看一般能稳定复现的都比较好解决。
定位问题
接着便是定位问题了,根据之前的经验让业务按照这几种情况先排查一下:
通过排查:1,2可以排除了。
- 没有相关日志
- 存在异常,但最外层也捕获了,所以不管有无异常都会 ACK。
第三个也在消费的入口和提交消息出计算了时间,最终发现都是在2s左右 ACK 的。
伪代码如下:
Consumer consumer = client.newConsumer() .subscriptionType(SubscriptionType.Shared) .enableRetry(true) .topic(topic) .ackTimeout(30, TimeUnit.SECONDS) .subscriptionName("my-sub") .messageListener(new MessageListener<byte[]>() { @SneakyThrows @Override public void received(Consumer<byte[]> consumer, Message<byte[]> msg) { log.info("msg_id{}",msg.getMessageId().toString()); TimeUnit.SECONDS.sleep(2); consumer.acknowledge(msg); } }) .subscribe();
那这就很奇怪了,因为代码里配置的 ackTimeout 是 30s,理论上来说是不会存在超时导致消息重发的。
为了排除是否是超时引起的,直接将业务代码注释掉了,等于是消息收到后立即就 ACK,经过测试发现这样确实就没有重复消费了。
为了再次确认是不是和 ackTimeout 有关,直接将 .ackTimeout(30, TimeUnit.SECONDS)
注释掉后测试,发现也没有重复消费了。
确认原因
既然如此那一定是和这个配置有关了,但看代码确实没有超时,为了定位具体原因只有去看 client 的源码了。
这里简单梳理下消息的消费的流程:
- 根据
.receiverQueueSize(1000)
的配置,默认情况下 broker 会直接给客户端推送 1000 条消息。 - 客户端将这 1000 条消息保存到内部队列中。
- 如果使用同步消费
receive()
时,本质上就是去take
这个内部队列。 - 如果是使用的是
messageListener
异步消费并配置ackTimeout
,每当从队列里获得一条消息后便会把这条消息加入UnAckedMessageTracker
内部的一个时间轮中,定时检测顶部是否存在消息,如果存在则会触发重新投递。
4.1 加入时间轮后,异步
调用我们自定义的事件,这个异步操作是提交到一个无界队列中由单个线程依次排队执行(这点是这次问题的关键) - 业务 ACK 的时候会从时间轮中删除消息,所以如果消息 ACK 的足够快,在第四步就不会获取到消息进行重新投递。
整体流程如上图,代码细节如下图:
所以问题的根本原因就是写入时间轮(UnAckedMessageTracker
)开始倒计时的线程和回调业务逻辑的不是同一个线程。
如果业务执行耗时,等到消息从那个单线程的无界队列中取出来的时候很有可能已经过了 ackTimeou 的时间,从而导致了超时重发。
也就是用户所理解的 ackTimeout
周期(应该进入回调时候开始计时)和 SDK 实现的不一致造成的。
之后我再次确认同样的代码换为同步消费是没有问题的,不会导致重复消费:
while (true) { Message msg = consumer.receive(); log.info( "consumer Message received: " + new String(msg.getData()) + msg.getMessageId().toString()); TimeUnit.SECONDS.sleep(2); consumer.acknowledge(msg); }
查看代码后发现同步代码的获取消息和加入 UnAckedMessageTracker
时间轮是同步的,也就不会出现超时的问题。
总结
所以其实 是messageListener
异步消费的 ackTimeout 的语义是有问题的,需要将加入 UnAckedMessageTracker
处移动到回调函数中同步调用。
我查看了最新的 2.11.x
版本的代码依然没有修复,正准备提个 PR 切换到 master 时才发现已经有相关的 PR 了,只是还没有发版。
修复的背景和思路也是类似的,具体参考:
https://github.com/apache/pul...
其实业务中并不推荐使用 ackTimeout 这个配置了,不好预估时间从而导致超时,而且我相信大部分业务配置好 ackTImeout
后直到后续出问题的时候才想起来要改。
所以干脆一开始就不要使用。
在 go 版本的 SDK 中直接废弃掉了这个参数,推荐使用 nack API 替换。
以上就是Pulsar源码彻底解决重复消费问题的详细内容,更多关于Pulsar重复消费解决的资料请关注脚本之家其它相关文章!
相关文章
java,android,MD5加密算法的实现代码(16位,32位)
下面小编就为大家带来一篇java,android,MD5加密算法的实现代码(16位,32位)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧2016-09-09springcloud项目里application.yml不加载的坑及解决
这篇文章主要介绍了springcloud项目里application.yml不加载的坑及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教2024-07-07Java构造方法 super 及自定义异常throw合集详解用法
异常是程序中的一些错误,但不是所有错误都是异常,且错误有时候是可以避免的,super可以理解为是指向自己超(父)类对象的一个指针,而这个超类指的是离自己最近的一个父类,构造器也叫构造方法、构造函数,是一种特殊类型的方法,负责类中成员变量(域)的初始化2021-10-10SpringBoot中@PathVariable、@RequestParam和@RequestBody的区别和使用详解
这篇文章主要介绍了SpringBoot中@PathVariable、@RequestParam和@RequestBody的区别和使用详解,@PathVariable 映射 URL 绑定的占位符,通过@RequestMapping注解中的{}占位符来标识URL中的变量部分,需要的朋友可以参考下2024-01-01
最新评论