Kafka
2023-08-23 10:47:25 0 举报
AI智能生成
Kafa详细讲解:组成、工作流程及原理、可靠性保证(ack确认机制、重复消费问题、顺序消费问题)
作者其他创作
大纲/内容
可靠性保证
ack机制
topic中的partition收到生产者发送的消息后,broker会向生产者发送一个ack确认,如果收到则继续发送,没收到则重新发送。
acks=0:不等待broker返回ack接着执行下面逻辑。如果broker还没接收到消息就返回,此时broker宕机那么数据会丢失
acks=1(默认):消息被leader副本接收到之后才算被成功发送。如果follower同步成功之前leader发生了故障,那么数据会丢失
acks=all:所有ISR列表的副本全部收到消息后,生产者收到broker的响应才算成功
重复消费
场景
消费者提交位移失败
消费者重复启动
重平衡(Rebalance)
消息重复发送
解决方案
使用消费者组(Consumer Group)
使用自动提交位移
使用唯一的消费者ID
幂等的消费逻辑
顺序消费
分区顺序
消费者组
顺序保证
工作流程
生产者发送消息
第一步、生产者配置参数
第二步、拦截器
第三步、序列化器
第四步、分区器
● 如果ProducerRecord对象提供了分区号,使用提供的分区号
● 如果没有提供分区号,提供了key,则使用key序列化后的值的hash值对分区数量取模
● 如果没有提供分区号、key,采用轮询方式分配分区号(默认)
第五步、send()发送消息
第六步、获取发送消息响应
broker收发消息
分区机制(主题-分区-消息)
消息存储
消费者消费消息
第一步、配置消费者客户端参数
第二步、创建消费者实例并指定订阅的主题
第三步、拉取消息并消费
第四步、交消费offset
自动提交
手动提交
同步提交
异步提交
基础
分布式事件流平台。希望不仅仅是存储数据,还能够数据存储、数据分析、数据集成等功能。消息队列(把数据从一方发给另一方),消息生产好了但是消费方不一定准备好了(读写不一致),就需要一个中间商来存储信息,kafka就是中间商
架构图
名词解释
Producer
消息生产者,向broker发送消息,也称为发布者
comsumer
读取消息的客户端
consumer group
一个consumer group由多个consumer组成,消费者组可以消费某个分区中的所有消息,消费的消息不会立马被删除。也称为订阅者
Topic
逻辑上的区分,通过topic将消息进行分类,不同topic会被订阅该topic的消费者消费
发送和订阅都必须指定topic
<ne-clipboard data="%7B%22type%22%3A%22fragment%22%2C%22name%22%3A%22%23fragment%22%2C%22children%22%3A%5B%7B%22type%22%3A%22element%22%2C%22id%22%3A%22uc690b99c%22%2C%22name%22%3A%22p%22%2C%22attrs%22%3A%7B%7D%2C%22children%22%3A%5B%7B%22type%22%3A%22text%22%2C%22id%22%3A%22uc6aa5162%22%2C%22name%22%3A%22%23text%22%2C%22attrs%22%3A%7B%7D%2C%22data%22%3A%22%E7%89%B9%E7%82%B9%EF%BC%9Atopic%E7%9A%84%E4%B8%80%E4%B8%AA%E5%88%86%E5%8C%BA%E5%8F%AA%E8%83%BD%E8%A2%ABconsumer%20group%E7%9A%84%E4%B8%80%E4%B8%AAconsumer%E6%B6%88%E8%B4%B9%EF%BC%9B%E5%90%8C%E4%B8%80%E6%9D%A1%E6%B6%88%E6%81%AF%E5%8F%AF%E4%BB%A5%E8%A2%AB%E5%A4%9A%E4%B8%AA%E6%B6%88%E8%B4%B9%E8%80%85%E7%BB%84%E6%B6%88%E8%B4%B9%EF%BC%8C%E4%BD%86%E5%90%8C%E4%B8%80%E4%B8%AA%E5%88%86%E5%8C%BA%E5%8F%AA%E8%83%BD%E8%A2%AB%E6%9F%90%E4%B8%AA%E6%B6%88%E8%B4%B9%E8%80%85%E7%BB%84%E4%B8%AD%E7%9A%84%E4%B8%80%E4%B8%AA%E6%B6%88%E8%B4%B9%E8%80%85%E6%B6%88%E8%B4%B9%E3%80%82%22%7D%5D%7D%2C%7B%22type%22%3A%22element%22%2C%22id%22%3A%22ua4ea3838%22%2C%22name%22%3A%22p%22%2C%22attrs%22%3A%7B%7D%2C%22children%22%3A%5B%7B%22type%22%3A%22text%22%2C%22id%22%3A%22u5979a4ec%22%2C%22name%22%3A%22%23text%22%2C%22attrs%22%3A%7B%7D%2C%22data%22%3A%22%E9%97%AE%E9%A2%98%EF%BC%9Atopic%E6%B6%88%E6%81%AF%E9%9D%9E%E5%B8%B8%E5%A4%9A%EF%BC%8C%E6%B6%88%E6%81%AF%E4%BC%9A%E8%A2%AB%E4%BF%9D%E5%AD%98%E5%9C%A8log%E6%97%A5%E5%BF%97%E6%96%87%E4%BB%B6%E4%B8%AD%EF%BC%8C%E6%96%87%E4%BB%B6%E8%BF%87%E5%A4%A7%22%7D%5D%7D%2C%7B%22type%22%3A%22element%22%2C%22id%22%3A%22ue2a9c890%22%2C%22name%22%3A%22p%22%2C%22attrs%22%3A%7B%7D%2C%22children%22%3A%5B%7B%22type%22%3A%22text%22%2C%22id%22%3A%22u85685140%22%2C%22name%22%3A%22%23text%22%2C%22attrs%22%3A%7B%7D%2C%22data%22%3A%22%E8%A7%A3%E5%86%B3%EF%BC%9A%E5%88%86%E5%8C%BA%22%7D%5D%7D%5D%2C%22attrs%22%3A%7B%7D%7D" source="https%3A%2F%2Fwww.yuque.com%2Fdengdengdengdeng-isshh%2Fggbq2p%2Fppsqwlg0ui9hcedv%23G3leg"></ne-clipboard><div class="lake-content" typography="classic"><p id="uc690b99c" class="ne-p" style="padding: 0px; min-height: 24px;"><span class="ne-text">特点:topic的一个分区只能被consumer group的一个consumer消费;同一条消息可以被多个消费者组消费,但同一个分区只能被某个消费者组中的一个消费者消费。</span></p><p id="ua4ea3838" class="ne-p" style="padding: 0px; min-height: 24px;"><span class="ne-text">问题:topic消息非常多,消息会被保存在log日志文件中,文件过大</span></p><p id="ue2a9c890" class="ne-p" style="padding: 0px; min-height: 24px;"><span class="ne-text">解决:分区</span></p></div>
partition
将一个topic中的消息分区来存储,有序序列,真正存放消息的消息队列
①、 分区中的数据存储在哪儿?<br>每个partition都有一个commit log文件<br><br>②、 为什么要分区(好处)存储?<br>如果commitlog文件很大的话可能导致一台服务器无法承担所有的数据量,机器无法存储,分区之后可以把不同的分区放在不同的机器上,相当于是分布式存储<br> 每个消费者并行消费<br> 提高可用性,增加若干副本<br>
Leader、Follower
每个分区都可以设置自己对应的副本(replication-factor参数),有一个主副本(leader)、多个从副本(follower)
职责
● leader:处理读写请求,负责当前分区的数据读写<br>● follower:同步数据,保持数据一致性
为什么要设置多副本?
单一职责。leader负责和生产消费者交互,follower负责副本拷贝,副本是为了保证消息存储安全性,当其中一个leader挂掉,则会从follower中选举出新的leader,提高了容灾能力,但是副本也会占用存储空间
offset
分区中的每条消息都有唯一的编号,用来唯一标识这一条message
ISR
<ne-clipboard data="%7B%22type%22%3A%22fragment%22%2C%22name%22%3A%22%23fragment%22%2C%22children%22%3A%5B%7B%22type%22%3A%22element%22%2C%22id%22%3A%22ucb4867bc%22%2C%22name%22%3A%22p%22%2C%22attrs%22%3A%7B%7D%2C%22children%22%3A%5B%7B%22type%22%3A%22text%22%2C%22id%22%3A%22u88f7066b%22%2C%22name%22%3A%22%23text%22%2C%22attrs%22%3A%7B%7D%2C%22data%22%3A%22%E5%8A%A8%E6%80%81%E9%9B%86%E5%90%88%EF%BC%8C%E4%BF%9D%E5%AD%98%E6%AD%A3%E5%9C%A8%E5%90%8C%E6%AD%A5%E7%9A%84%E5%89%AF%E6%9C%AC%E9%9B%86%EF%BC%8C%E6%98%AF%E4%B8%8Eleader%E5%90%8C%E6%AD%A5%E7%9A%84%E5%89%AF%E6%9C%AC%E3%80%82%E5%A6%82%E6%9E%9C%E6%9F%90%E4%B8%AA%E5%89%AF%E6%9C%AC%E4%B8%8D%E8%83%BD%E6%AD%A3%E5%B8%B8%E5%90%8C%E6%AD%A5%E6%95%B0%E6%8D%AE%E6%88%96%E8%90%BD%E5%90%8E%E7%9A%84%E6%95%B0%E6%8D%AE%E6%AF%94%E8%BE%83%E5%A4%9A%EF%BC%8C%E4%BC%9A%E4%BB%8E%E5%89%AF%E6%9C%AC%E9%9B%86%E4%B8%AD%E6%8A%8A%E8%8A%82%E7%82%B9%E4%B8%AD%E5%89%94%E9%99%A4%EF%BC%8C%E5%BD%93%E8%BF%BD%E8%B5%B6%E4%B8%8A%E6%9D%A5%E4%BA%86%E5%9C%A8%E9%87%8D%E6%96%B0%E5%8A%A0%E5%85%A5%E3%80%82kafka%E9%BB%98%E8%AE%A4%E7%9A%84follower%E5%89%AF%E6%9C%AC%E8%83%BD%E5%A4%9F%E8%90%BD%E5%90%8Eleader%E5%89%AF%E6%9C%AC%E7%9A%84%E6%9C%80%E9%95%BF%E6%97%B6%E9%97%B4%E9%97%B4%E9%9A%94%E6%98%AF10S%22%7D%5D%7D%5D%2C%22attrs%22%3A%7B%7D%7D" source="https%3A%2F%2Fwww.yuque.com%2Fdengdengdengdeng-isshh%2Fggbq2p%2Fppsqwlg0ui9hcedv%23G3leg"></ne-clipboard><div class="lake-content" typography="classic"><p id="ucb4867bc" class="ne-p" style="padding: 0px; min-height: 24px;"><span class="ne-text">动态集合,保存正在同步的副本集,是与leader同步的副本。如果某个副本不能正常同步数据或落后的数据比较多,会从副本集中把节点中剔除,当追赶上来了在重新加入。kafka默认的follower副本能够落后leader副本的最长时间间隔是10S</span></p></div>
0 条评论
下一页