Java知识总结思维导图模板_ProcessOn思维导图、流程图

jvm

内存

内存溢出

堆内存溢出

内存溢出

堆内存剩余空间小于该对象需要分配的空间

内存泄露

对象一直没有被垃圾回收，造成可用的堆内存越来越少

栈内存溢出

1.栈内存中栈帧过多，栈帧的总内存和超过了当前线程的栈内存大小

2.线程分配过度，导致总的栈内存不足以给下一个线程分配栈内存；

方法区+运行时常量池内存溢出

1.方法区

存储的字节码文件大小超过了方法区内存大小

动态创建了大量java类，这些类需要被存储到方法区，导致方法区内存不够

2.常量池内存溢出

程序中动态的创建了大量的基础数据类型和字符串，导致常量池不够分配新创建的常量

本机内存溢出

频繁调用本地方法，创建对象导致本机直接内存不够分配

对象内存分配原则

对象优先在eden区域分配

对象优先在eden区域分配内存

eden区域内存满了，再存放from suvivor区域

长期存活对象进入老年代

新生代对象经历过一定的垃圾回收次数还存活，就会被放到老年代内存中去；

大对象直接进入老年代

内存大小超过一定大小的对象直接放入老年代

相同年纪大小的对象的内存综合超过survivor区域内存一半，那么大于这个年纪的对象都会放在老年代

内存分配担保原则

新生代每一次gc之后，都有可能把存储不下的对象放在老年代；所以老年代会留出一些空间给这些新生代

老年代每次测量进入老年代对象的年纪大小，去做评估预测，老年代剩余空间是否能足够装下下次进入老年代的新生代对象，如果不够，就会做老年代的垃圾回收

java内存模型

内存模型概述

java是跨平台的，需要同一的内存模型来兼容不同不同的操作系统的差异，硬件差异等等。不能因为操作系统硬件的差异导致相同的程序出现不一样的结果

主内存+工作内存概述

线程都有自己的工作内存；每个线程的工作内存之间都是相互屏蔽；

线程操作变量，都是先通过工作内存，然后复制到主内存；其他线程才能再主内存中访问这个变量；

主内存，是可以被所有的线程访问。

主内存

主内存，是可以被所有的线程访问，公共内存

工作内存

线程都有自己的工作内存

主内存+工作内存之间数据交互

1.交互概述

1.线程的工作内存去访问主内存，获取变量值

2.内存之间的基本操作都是原子操作，不可再分割

8大原子操作

1.lock,表示主内存中变量已经被某个线程占有；

2.unlock,表示主内存中变量已经被某个线程释放，其他线程可以去获取这个变量

3.read,表示从主内存中读取变量到工作内存

4.load,表示主内存中读取的值赋值给工作内存中变量

5.use,表示工作内存中的值传递给工作引擎让工作引擎去做操作；

6.assign,表示工作引擎中计算后的值赋值到工作内存中；

7.store,表示工作内存把变量传递到主内存；

8.write,表示工作内存的值存入到主内存中；

交互原则

所有的操作必须符合前后逻辑关系

操作之前必须要满足前后依赖关系

配对操作之前含有其他操作关系，但是必须保证操作前后逻辑关系

变量被加锁多少次，就要被解锁多少次

内存模型三大特点

有序性

理解

线程内部：线程一定会按照串行的方式去执行指令

线程之间：由于cpu的执行权问题，多线程之间执行的任何代码都可能是交叉进行的，除了volatile，synchronized

原子性

主内存和工作内存之间的基本操作都是原子操作

可见性

共享变量被一个线程操作，操作后的记过能被其他线程直到

java可见性实现

volatile

volatile修饰的变量，修改的之后会立即从工作内存同步到主内存之中；实现其他线程对该变量的可见性

synchronized

解锁之前必须把变量的值从工作内存传递到主内存

final

对象的引用是不变的，所以说对所有线程来说都是可见的

java先行发生原则

解决问题

并发情况下，两个操作是否存在冲突的情况；判断数据是否存在并发问题，以及线程是否安全的重要依据

具体原则

1.锁定规则：同一个锁，只有被释放之后才能被另外一个线程再次占用；

2.读写原则：读写是一对操作，下一的读操作必定在写操作之后；

3.对象终结原则：对象被回收之前必须先要被初始化

4.传递性：a操作优先于b操作，b操作优先于c操作，那么a操作也有限与b操作

运行时数据区域

非堆内存

程序计数器

作用

java的多线程是通过计算机内核线程来回相互切换的，java的线程执行到了某一步，cpu执行权被切换到其他线程上时候，这个程序计数器的作用来了，就是去记录它所属的线程执行到了哪一步，哪一个指令，执行权再次切换回来的时候，这个计数器就会帮助线程准确无误的接着切换之前的代码接着执行。

特点

1.是线程所独有的

2.生命周期和线程周期相同

3.永远都不会有异常

不存在内存异常的情况

本地方法栈

native方法运行的时候用到的内存空间就是本地方法栈

为java语言调用本地方法，也就是调用native修饰的方法服务的。

方法区

特点

方法区被各个线程所共享

存储内容

也称作永久代，存储的都是，经过虚拟机加载之后的字节码文件，类的信息，常量池，静态变量

运行时常量池，存储了编译期的各种字面量（字面量都是常量池的一部分）

运行时常量池

栈内存

栈帧

特点

线程所独有，存储的都是临时数据

和线程生命周期一样

3.方法在执行的时候栈内存都会去创建这个方法对应的栈帧，栈栈中存储了这个方法的局部变量表，方法返回值，方法出口等等。我们在调用方法的时候通过方法当中嵌套方法，那么栈内存，同样会为这些方法都去创建对应的栈帧，线程去执行这个栈帧（方法），执行完一个栈帧，这个栈帧对应的内存就会被回收，这就是所谓的弹栈。线程永远都只会在栈内存中最上层的栈帧上执行。并且由于前后调用的方法之间存在着返回值的原因，对应的栈内存中的上下两个栈帧之间也并不是完全割裂的，他们需要返回值的传递。每个栈内存最多可以存储1000-2000个栈帧。所以说。

栈内存大小设置

-Xss128k

给栈内存分配128kb

JVM没有设置总的栈内存大小

操作系统会限制线程的数量，从而达到限制总的栈内存大小

JVM 自己用的区域，不属于堆，用于存放元数据、代码、常量池、直接内存等。

堆内存

堆内存区域划分

新生代

eden

from suvivor

to suvivor

老年代

内存比例

默认的新生代：老年代=1：2

默认eden：from suvivor：to suvivor=8：1：1

比例大小可以通过jvm参数调整

堆内存作用

java存储对象的主要区域

永久代说明

堆内存所说的永久代，只是在jdk1.8版本之前有这个概念，1.8就完全摒弃了这个概念，采用本地硬盘的方式来存储这些数据，有效防止了java这个永久代内存溢出。

jdk1.7

永久代也是属于内存，必须制定大小，大小受限制与所分配的内存大小

jdk1.8

存放在磁盘，可以不指定大小，大小受限制与磁盘

存放对象实例，是 GC（垃圾回收）的主要区域。

Java对象在内存中存储

分为三部

对象头

Mark Word

记录内容和锁的状态有关

无锁

对象的hashCode值

分代年纪

锁的标记位

是否偏向

偏向锁

偏向线程的id

偏向锁时间戳

分代年纪

锁的标记位

是否偏向

轻量级锁，重量级锁

指向锁的指针

锁的标记位

Gc标记

标记位

指向类的指针

数组长度

实例数据

对齐填充字节

拷贝

深拷贝

基础数据类型拷贝值，非基础数据类型，新创建对象，并用老对象给新对象字段赋值；

浅拷贝

基础数据类型拷贝值，非基础数据类型拷贝对应的引用

垃圾回收

垃圾收集算法

判断对象是否存活算法

可达性算法

可达性算法过程

GcRoot对象作为起点，向下搜索，搜索走过的路径称为引用链；一个对象到GcRoot没有任何引用链，那么这个对象就是不可达的。

GcRoot对象

new出来的对象

栈内存中栈帧引用的对象

方法区中引用的对象

本地方法区中引用的对象

软引用，弱引用，虚引用

引用计数算法（被废弃了）

概述

给对象添加一个引用计数器，当程序有地方用到这个对象，计数器+1;引用失效就会-1，任何时候如果引用计数器为0，那么就表示该对象要被回收了

问题

循环依赖，造成内存泄露，最后导致内存溢出

垃圾回收算法

分代收集算法

根据新生代，老年代情况的不同，针对新生代，老年代会有不同的垃圾回收算法；

复制算法（新生代的垃圾回收器都是使用此算法）

复制算法（新生代）

eden区域和一块存有对象的survivor的区域中还存活的对象，会复制到另外一块空闲的survivor区域；如果这块survivor区域内存大小不够，那么还会放在老年代当中；

注意：由于老年代中可以存放新生代的对象，如果此时老年代内存也不够，就会触发老年代的fullgc

新生代使用复制算法原因：新生代的对象存活率比较低，复制起来成本低

复制算法示意图

回收前

回收后

标记-整理算法(老年代)

老年代不适用复制算法原因：老年代的对象存活率高，如果使用复制算法成本太高

根据可达性算法，把存活的对象会向内存区域的一边做迁移跃动，最后会有一个迁移末端；末端之外的对象就是需要被回收的对象；

标记-整理示意图

回收前

回收后

标记-清除算法示意图

标记-清除算法（老年代）

根据可达性算法需要被回收的对象会被标记，然后堆标记的对象的存错回收；

缺点：

1.标记-清除的效率都不高

2.清除会造成很多内存碎片，有可能导致二级gc;

标记-清除算法示意图

回收前

回收后

三色标记算法

概述

三色标记算法是一种垃圾回收的标记算法

作用

让JVM不发生或仅短时间发生STW(Stop The World)，从而达到清除JVM内存垃圾的目的

使用范围

JVM中的CMS、G1垃圾回收器所使用垃圾回收算法即为三色标记法。

三色标记法过程

黑色：代表该对象以及该对象下的属性全部被标记过了。（程序需要用到的对象，不应该被回收）

灰色：对象被标记了，但是该对象下的属性未被完全标记。（需要在该对象中寻找垃圾）

白色：对象未被标记（需要被清除的垃圾）

三色标记存在问题

并发标记的时候，存在漏标的情况

综合概述：老年代垃圾回收算法还是选择标记-整理算法

垃圾收集器

分代回收器

按照老年代新生代分开回收

新生代垃圾回收器

serial

单线程回收，用户线程需要停止

特点

新生代采用复制算法（复制存活对象到 Survivor 区）。

回收时需要 Stop-The-World，所有用户线程暂停。

适用场景：

单核 CPU、小内存环境。

例如：客户端应用、小型桌面程序。

PN

多线程回收，用户线程需要停止

ParNew

新生代并行回收，常和 CMS 搭配

特点

新生代采用复制算法。

可以利用多核 CPU，加快回收速度。

常常和 CMS（老年代收集器）搭配使用。

适用场景：

多核 CPU 环境。

适合低延迟、对响应时间敏感的场景。

PS

多线程回收，用户线程需要停止

Parallel Scavenge

多线程收集器，目标是提高 CPU 利用率和吞吐量

目标

以高吞吐量标准设计的：应用程序运行时间 / 总时间

：高吞吐量（Throughput），即尽可能让应用线程运行更多时间，GC 占用更少时

特点

新生代采用复制算法。

提供自适应调节策略（GC Ergonomics），可以根据系统运行情况自动调整堆大小、Survivor 区比例、晋升阈值

更偏向于提高整体执行效率，而不是降低停顿时间。

老年代垃圾回收器

serial-old

老年代的单线程垃圾回收，用户线程需停止

算法

标记-整理 (Mark-Compact)。

特点

Serial 的老年代版本，单线程。

适用场景：

单核 CPU、小内存环境。

多用于客户端模式或作为 CMS 的“后备方案”（在 CMS 失败时触发）。

PS-old

老年代多线程回收，用户线程需要停止

目标是提高 CPU 利用率和吞吐量。

Parallel Scavenge 的老年代版本，多线程。

算法

标记-整理 (Mark-Compact)。

特点

是 Parallel Scavenge（新生代）的老年代版本。

注重吞吐量，适合需要最大化 CPU 利用率的场景。

和 Parallel Scavenge 搭配使用时，叫吞吐量优先收集器。

CMS

多线程回收，以用户线程暂停时间最短为设计标准

回收的时候，用户线程有一段时间不需要停止

缺点：产生内存碎片，可能会有 “Concurrent Mode Failure”。

算法

标记-清除 (Mark-Sweep)（而不是压缩）。

特点

目标是减少停顿时间 (Low Latency)。

回收过程分为：初始标记 → 并发标记 → 重新标记 → 并发清除。

优点：

大部分工作并发执行，降低了 STW 停顿时间。

缺点

采用标记-清除，会产生内存碎片。

在碎片过多或内存不足时，可能触发 Full GC（Serial Old 作为后备），停顿时间长。

CMS垃圾回收器工作流程图

示意图

整体式垃圾回收器

G1回收器（jdk9）

G1回收器历史

最早出现在jdk7；jdk9以后就是默认的垃圾回收器

特点

垃圾回收的时候几乎没有stop the world 时间

新生代，老年代都可以回收

可将内存分成很多歌大小相同的region区域，根据区域之间使用标记-整理算法，区域内部使用标记复制算法；

可预测垃圾回收时间

很重要的一个特点

对region区域做选择性回收，回收价值高的region区域

垃圾回收过程

1.初始标记：停顿所有的用户线程，标记各个region区域中能被gcroot关联到的对象。

2.并发标记：用户线程和gc线程并行，gc线程根据可达性算法找出存活的对象。

3.最终标记：停顿用户线程，并发执行gc线程去标记刚才用户线程操作引用对象的那部分内存。

4.筛选标记：根据可停顿时间，计算出最优的region区域，并发的对最优的区域进行回收（这个时候用户线程和gc线程是可以并发的）。

垃圾回收过程示意图

示意图

分区region

示意图

region特点

将java的堆内存分成2048个大小相同的region块

region大小特点

每个region 区域的大小都是2的N次幂；即1Mb,2Mb，4MB,

region 区域大小在jvm运行期间都是不会被改变

每个region区域的大小都是相等的

存储特点

每一个region区域只会属于Eden， Survivo，old其中的一种

Eden， Survivo，老年代的区域并不是连续；

新增一种新的内存区域，Humongous内存区域，超过0.5个region对象就会被放Humongous区域

三个过程

Young gc

mixed gc

FGc

G1回收器缺点

G1回收器本身运行垃圾回收程序时相对cms垃圾回收器需要占用更多的系统cpu,内存资源

在内存小于6G时，cms表现优于G1;大于8G,则G1回收器表现更好；6-8G之间，差不多；

最近最少使用算法

不能够完全说明这个问题；短期之内使用的比较少，但是整个周期内使用的次数比较多，这种也会被淘汰

最终选择LFU

热key优化?

将热点 key 拆分成多个 key

和对大key的处理方式一样

子key分散到多个槽位上

使用过期 / TTL 策略

对热点 key 设置短期 TTL

避免长期占用内存和单节点负载

主从读写分离

不适用分片集群的时候可以优化

限流 / 队列削峰

大key

如何监控大key

MEMORY USAGE命令

查询单个 key 占用内存：

可结合脚本扫描所有 key，统计大于阈值的 key

实现

编写脚本使用MEMORY USAGE命令扫描各个 Master 节点

获取到每一个节点的key排行榜，最后汇总

可视化监控

Redis Exporter + Prometheus

收集 key 的统计信息（按前缀或类型）

可以设置告警：

单 key 内存占用超过阈值

集合长度超过阈值

大 key 告警

告警实现

在Prometheus 配置规则

key_memory_bytes > 阈值 → 告警

内存超过阈值 → 警告

单 key 访问耗时超过阈值 → 警告

热点大 key → CPU/延迟告警

优化策略

拆分 key

List / Set / ZSet → 按分页或哈希拆分

限制写入

避免一次性 push/insert 大量数据

设置 TTL

避免长期占用大量内存

本地缓存或外部存储

超大对象存储在对象存储或数据库，Redis 缓存部分数据

Redis 的一致性保证？为什么不是强一致性？

Redis 的一致性模型

单节点

操作是原子性的，客户端每次写操作立即生效，读取也能马上看到最新值 → 强一致性

哨兵或集群模式

主从复制延迟：主节点写入后，从节点异步复制 → 从节点可能暂时读不到最新数据

为什么不是强一致性

Redis 选择了优先可用（AP）或最终一致性

主节点挂掉 → 自动切换新主节点

某些从节点可能落后 → 数据不完全同步

确保系统可用性，而非严格同步所有节点

一致性保证的机制

单节点模式

强一致性，写操作立即生效

主从复制（异步）

主节点写 → 异步复制到从节点

从节点可能滞后 → 弱一致性/最终一致性

哨兵模式

自动故障切换 → 数据可能丢失或落后

避免脑裂，需要多数哨兵确认 ODOWN

一致性是最终一致性

Cluster 模式

主节点宕机 → 从节点提升为新主节点

异步复制导致短期内部分节点数据不同步

通过投票机制 + quorum 保证多数节点数据可靠

最终一致性得到保证

Redis 如何做延时队列？

如何保证 Redis 高并发下的性能？

数据分片

分片（Sharding）

把数据按 Key 哈希到多个 Redis 实例，避免单节点瓶颈。

集群化

集群模式

Redis Cluster 可以水平扩展，多个 Master+Slave 节点共享数据

主从架构

Master 写入，Slave 提供读服务，提高并发读能力

缓存策略优化

添加本地缓存

过期策略

LRU/LFU 等策略淘汰冷数据，保证热点数据命中率

异步与批量处理

Pipeline：一次发送多个命令，减少往返时间

Lua 脚本：在 Redis 内部执行复杂逻辑，减少客户端多次请求

基础原理类

redis为啥快

1.数据存储在内存

2.数据结构简单

3.单线程不存在锁

4.io多路复用

Redis 为什么是单线程的？

- 避免上下文切换、内存操作快，多核可通过分片/多实例利用。

Redis 常见的使用场景？

缓存、分布式锁、计数器

数据结构类

1.Redis 常见的数据结构？底层实现是什么？

String（SDS）

Redis 自己实现的动态字符串

特点：

存储长度、已用空间、预分配空间 → 减少频繁 realloc

支持二进制安全（可存储 \0）

高性能拼接和扩容

List（双端链表/压缩列表）

有序集合

底层实现：

1. ziplist（压缩列表）

小量数据和短字符串优化

内存紧凑，但随机访问慢

2. 双向链表（linkedlist）

数据量大或元素较长时使用

支持快速头尾插入/删除

Hash（哈希表/ziplist）

无序集合，不允许重复，常用去重

底层实现

intset（整数集合）

全是整数且数量少时使用

内存紧凑，支持快速查找

哈希表（dict）

元素多或者包含非整数时

提供 O(1) 查找、添加、删除

Redis 会自动在 intset 和哈希表之间转换

Set（哈希表/intset）

键值对集合，用于对象存储

底层实现：

ziplist（压缩列表）

小量字段，短字符串

哈希表（dict）

字段多或者字符串长时

支持 O(1) 查找、添加、删除

Sorted Set（跳表+哈希表）

带 score 的集合

子主题

底层实现：

ziplist（压缩列表）

元素少且短字符串时使用

跳表（skiplist） + 哈希表

大量元素或字符串长时使用

哈希表存成员到 score 的映射 → 快速查找

跳表保证按 score 排序 → 支持范围查询

Bitmap / Bitfield

位操作，如签到、布隆过滤器、计数器

底层实现：

使用字符串（String）存储二进制位

操作通过位运算，非常高效

HyperLogLog

用途：基数统计（去重计数）

底层实现：

压缩算法 + 估算算法

内存固定（~12KB）

精确度允许一定误差（~0.81%）

3.Redis 为什么用跳表而不用红黑树？

4.Redis 的 HyperLogLog、Bitmap、GEO 是做什么的？

工作机制

缓存淘汰机制

缓存淘汰类型

不设置任何淘汰机制

noeviction

不做任何处理，写入超过限制后，会返回操作错误；读操作还是可以正常进行

默认淘汰策略

LRU最近最少使用淘汰

volatile-lru

设置了过期时间，清除最近最少使用的键值对

allkeys-lru

未设置过期时间，清除最近最少的键值对

存在问题

1、需要存储缓存数据之外额外的时间数据

2、可能会删除热key

解决方案

设置每一次要被淘汰的key的个数，个数如果=10比较，对热键数据影响比较小

实现

缓存对象中会存储这个缓存最近被访问的时间戳

淘汰的时候会根据当前的时间戳-缓存对象中的时间戳，差值最大的就被淘汰

LFU最小使用频率淘汰

volatile-lfu

设置了过期时间，清除某段时间内使用次数最少的键值对

allkeys-lfu

未设置过期时间，清除某段时间使用次数最少的键值对

TTL生命周期结束淘汰

volatile-ttl

设置了过期时间，清除过期时间最早的键值对

random随机淘汰

allkeys-random

未设置过期时间，随机清除键值对

volatile-random

设置了过期时间，随机清除键值对

缓存淘汰机制选择

1.如果缓存有明显的热点分部，那么就选择lru算法

2.如果缓存没有明显热点分部，那么就选择随机

触发内存淘汰时间点

1.Redis的每一次命令处理的时候，都会去判断当前redis是否已经达到最大缓存极限，如果达到极限，就会启用相应算法去处理需要清除的键值对；

2.过期key的回收

定期删除

Redis启动时候的定时时间，默认是每100毫秒的检测过期的key，过期就清理；

惰性删除

访问key的时候，key是否过期，过期就删除；

实际执行策略

Redis 惰性删除 + 定期删除同时启用

访问时删除 → 确保访问的 key 立即生效

后台扫描删除 → 确保不访问的 key 也能最终被回收

事件通知机制

事件通知概述

redis数据集改动事件之后对客户端的一种通知行为

事件通知类别

键空间通知

键事件通知

通知类型

删除，设置过期时间，重命名等一些和数据类型无关的操作的通知

字符串命令通知

列表命令通知

集合命令通知

哈希命令通知

有序集合命令通知

过期事件通知

缓存驱逐事件通知

不管发生什么事件都通知

事件通知使用

该功能默认是关闭；需要在config配置文件中开启该功能

配置形式：notify-keyspace-events +事件通知类别和通知类型；notify-keyspace-events "Ex"表示对过期事件进行通知发送

事件订阅缺陷

事件通知是不可靠的，服务器采用的是发送即忘，如果当订阅事件发生的时候；客户端掉线了，那么这个事件就不会通知到客户端，所有事件订阅是不可靠的

持久化机制

AOF

机制说明

1.记录每一个redis的写命令以日志的形式进行存储

2.AOF刷盘时间间隔

1.有命令就刷盘一次

2.一秒刷盘一次（推荐，也是默认的）

3.由系统决定刷盘时间间隔

3.为啥需要设置刷盘时间：持久化的目的是把数据记录在磁盘上，所以当数据在内存中的时候，就需要把内存中的数据放到磁盘上，放到磁盘上的时间间隔就是刷盘时间；

优缺点

优点

1.持久化实时性比较高（可以设置间隔多少秒追加一次日志，也就是间隔时间越短，丢失的数据就是越少）

缺点

1.AOF文件的体积通常大于RDB

2.数据恢复比rdb慢

AOF机制

1.当AOF文件过大时，后台会去优化AOF文件；

当AOF文件出错（以下两者方式都是可以解决AOF文件出错了，数据该怎么恢复的问题，最终还是需要重启redis服务器去载入AOF文件）

1.可以使用修复程序修改AOF文件；

2.为AOF文件创建一个备份文件

RDB(默认方式)

机制说明：就是以内存快照的形式缓存内存中的数据

缺点：1.实时性比较低，单独使用该持久化机制，服务器宕机导致数据丢失较多；

优缺点

缺点

1.实时性比较低，单独使用该持久化机制，容易导致数据丢失；

2.从主进程fork子进程的时候会被阻塞，

优点

1.rdb文件大小紧凑；可以设置间隔时间备份，还原到不同历史时期的数据状态

2.持久化的时候可以由子进程去完成所有的数据保存工作；父进程无需任何的io操作；

3.数据恢复比AOF快

数据存储：存储在dump.rdb文件中

RDB 的触发机制主要有两类：自动触发和手动触发

Redis 可以根据配置自动触发 RDB 快照，配置在 redis.conf 中以 save 指令定义

save 900 1 # 900秒内如果至少1个key发生变化，则触发RDB
save 300 10 # 300秒内如果至少10个key发生变化，则触发RDB
save 60 10000 # 60秒内如果至少10000个key发生变化，则触发RDB

Redis 也支持管理员手动触发 RDB 快照：

优点：确保 RDB 完成后返回

持久化机制

1.可以在不重启的情况下切换RDB到AOF模式

2.当RDB，AOF都打开的时候，程序默认使用AOF方式持久化

容灾措施

1.定期的把RDB文件备份到其他位置

Redis 持久化如何避免数据丢失？

Redis 的持久化机制本身是为了解决内存数据丢失问题，但不同持久化方式的可靠性不同

1. 高性能型场景（对数据丢失可容忍）

用途：缓存型场景，例如热点数据、会话数据、排行榜

方案：

RDB 快照即可，默认配置 save 900 1 等

不启用 AOF 或 AOF everysec

特点：

快速启动、性能高

宕机时可能丢失最近几分钟的数据，但业务可以容忍

2. 数据安全型场景（对数据丢失敏感）

用途：需要较高可靠性的业务，如消息队列、计数器、交易系统缓存

方案：

AOF + RDB 混合持久化

AOF 推荐 appendfsync everysec（性能和安全折中）

定期 RDB 快照作为备份

可结合主从复制，保证高可用

特点：

数据丢失窗口最小（一般 ≤ 1 秒）

启动稍慢，因为需要加载 AOF 文件

3. 超高可靠场景（金融、电商核心数据）

用途：绝对不能丢失的数据

方案：

AOF always + RDB + 主从复制 + Sentinel/Cluster 高可用

定期异地备份

特点：

性能稍差，但几乎保证不丢数据

启动时间最长（需要重放 AOF）

多路复用机制

epoll模式的多路复用

多线程

单线程性能瓶颈

网络IO

多线程只是用来处理网络数据读写和协议的解析，执行Redis命令依旧是单线程去执行

事物机制

事物本质

一组命令的集合，要么所有的命令都执行成功，要么都执行失败

特点

命令队列化：事务内命令先入队，不立即执行

一次性执行：执行 EXEC 时按顺序执行队列中的命令

错误处理：

语法错误：命令不会入队

运行错误（如操作类型错误）：事务仍继续执行，不回滚

只能保证原子性

原子性：事务中的命令要么全部执行，要么都不执行（在执行期间不会被其他客户端命令打断）

隔离性弱：事务执行期间，其他客户端可以看到数据库状态，但不会插入事务内的命令

一致性和持久性：依赖 Redis 本身的数据模型和持久化机制

事物执行过程

一个事物所有的命令都会放在队列中缓存，执行的时候会去串行执行队列中的命令

事物相关命令

MULTI

开启一个事物

EXEC

执行这个事物的所有命令

discard

取消事物

watch

监视某些key

unwatch

放弃监视某些key

watch命令特别说明

配置事物一起使用，只有被监视的key没有发生任务数据变化的时候，事物才会被执行，否则是不会被执行

使用方式：在事物开始之前监听某些key

事物中的错误类型

入队时候的语法错误

2.6.5之前版本，忽略入队失败的命令，可以继续执行事物

2.6.5开始版本，入队失败，执行事物的时候会自动放弃执行该事物

执行事物调用之后错误；比如说错误的用string数据结构的命令操作list数据结构的数据

exec事物开始执行的命令开始了，事物队列中某条或者某些命令执行失败了，Redis依旧会接着执行命令，不会放弃执行命令

redis事物与数据库事物最大差别

不支持回滚，即使事物队列开始执行后，有命令执行失败了也不会回滚

主从复制机制

复制分类

全量复制

作用：把从服务器数据的状态更新到和主服务器状态一致；=

使用场景：一般都刚刚搭建服从服务的时候

缺点

1.数据量较大时候，主从节点的网络开销很大

增量复制

作用

1.当主服务器收到写命令的时候，为了保持从服务器与主服务器的数据一致；就会让从服务器也去执行主服务器的命令；这个过程就是增量赋值的过程

2.对全量复制方式的工作方式弥补，当主从断开了连接，就不需要做全量复制，只需要执行断开期间主服务器的写命令

概述：复制分为全量复制，增量复制，也就是对应着同步操作，命令行操作；

心跳检测

1.各自彼此都模拟成对方的客户端发送心跳信息

2.主节点默认间隔10秒给从节点发送链接信息

3.从节点默认间隔1秒给主节点发送偏移量

主从复制过程

1. Slave 重连时发送 PSYNC 请求，告诉 Master 上次同步的偏移量（offset）。

2. Master 检查偏移量是否在缓冲区内：

如果在 → 直接发送缓冲区中未同步的命令（增量复制）。

Slave 执行 Master 发送的命令，补齐数据

如果不在 → 需要进行全量复制。

Master 生成 RDB 快照，将快照传递给从机；从机获取快照数据加载进内存

主机缓存这段时间之内的命令，在从机降快照加载完成之后，传递缓存之中的命令，从机再执行换从之中的命令；之后都是增量复制了。

复制原理

1.主节点处理完命令之后，会把命令字节长度累加记录起来，一个记录在命令表，一个记录在偏移量表

2.从节点收到主节点的命令，也会累计自身节点的复制的偏移量；

3.从节点每秒钟把自己的偏移量发送给主节点，主节点对比偏移量，

4.主节点就知道从节点的数据是否和主节点数据一致；

复制注意事项

1.从服务器在同步时，会清空所有数据

2.Redis不支持主主复制

3.主从复制不会阻塞master

4.主节点的处理完写命令就会直接给客户端返回，然后异步将命令传递给从服务器

Pipeline

客户端批量发送多条命令 → Redis 按顺序执行 → 客户端一次性读取返回

核心优化：减少每条命令的网络往返时间

特点：

不保证原子性

批量命令提高吞吐量

常用于批量写入或获取大量数据

redis集群

主从模式

特点

1.一主一备，主机写，从机读；主机挂了不影响从机读

2.主机挂了，系统还能提供读服务，并不能提供写服务，从机不会变成主机

缺点

Master 挂掉后，无法自动切换，需人工干预。

哨兵模式

特点

1.建立在主从模式之上，哨兵节点本身不做数据存储；

2.主节点挂了，哨兵节点就会从所有从节点中选取一个节点做为主节点；

3.挂掉的主节点重启之后，就作为从节点；

工作机制

1.客户端连接的是哨兵节点，由哨兵节点来提供Redis的各种服务

特点：

实现了高可用（HA）。

运维简单，适合中小型项目。

缺点：写请求仍然集中在 Master，容量受单机限制。

分片集群

概述

哨兵模式就能保证高可用了，但是如果数据量过大，一台服务器存不下所有数据，就需要搭建高可以用集群

分片集群自带高可用机制

特点

分片集群（Cluster） → 最少 6 节点（3 主 + 3 从）。

可在线添加，删除节点

既能保证高可用，又能实现水平扩展。

节点间自动分片，使用 **16384 个槽位（slot）**分布数据。

支持节点间的自动发现、自动故障转移。

数据存储特点：

数据按照槽位（slot）哈希分布存储在不同节点。

每个节点有自己的 Master，通常也有 Slave 做备份。

客户端可直接根据 key 找到对应的 slot -> 节点，进行访问。

如果集群中一个master挂了，会怎们样？

正常情况（有 Slave 备份）

其他 Master 不受影响，因为它们负责的槽位独立。

会从这个master从节点从选一个节点作为主节点

客户端会被告知新的 Master 地址（MOVED 或 ASK 重定向）

最终结果：集群整体可用，数据不会丢失（可能丢失少量主从未同步的数据）

异常情况 1（Master 没有 Slave）

这个 Master 负责的槽位（hash slots）不可用。

整个 Redis Cluster 会认为集群处于 FAIL 状态（不可用）。

客户端访问任何 key 时，可能都会报错（即使 key 在别的 Master 上）。

原因：Redis Cluster 必须保证槽位全集完整，否则视为集群故障。

异常情况 2（网络分区 / 少数节点故障）

如果 Master 节点挂了，但由于网络原因，集群无法达成多数派投票（quorum），那么故障转移不会发生。

这时，挂掉的 Master 负责的槽位依旧不可用，客户端请求会超时或失败。

影响范围

影响范围：只有挂掉的那个 Master 的槽位数据暂时不可用，几秒钟内自动恢复

投票过程说明

只有 Master 节点有投票权；Slave 节点没有投票权，它们只负责竞选成为新的 Master。

故障检测流程（两阶段）

主节点之间相互发送心跳，如果超过半数节点，发现有一个节点没有发送心跳信息给自己，就会被标记下线了

挂掉的主节点对应的从节点会发起选举，其他正常的主节点会根据从节点的（发起请求、数据同步最新、延迟最小），来选择谁作为新的主节点当超过半数的时候会成为新的主节点。

为什么可以在线加节点？

所有的master节点的数据都是在分部在16384 个哈希槽（hash slots）

新增 Master 节点时，可以把已有 Master 上的一部分槽位迁移到新节点

槽位迁移时，客户端访问会被 ASK 重定向到新节点，保证在线过程不中断。

Redis配置文件说明

内存相关

maxmemory

Redis最大存储大小

为0的时候表示可以无限制使用redis内存

maxmemory-policy

配置内存清理策略

maxmemory-samples

作为LRU,LFU,TTL内存回收策略，检查数量的key

redis命令

数据类型操作

String

在来的字符串后面追加拼接

APPEND myphone "nokia"

返回指定字符串的值中间几位对应的字符串

GETRANGE greeting 0 4

重新设置key的值返回老的key的值

GETSET db mongodb

把key为db 的数据的值设置成 mongodb,返回老的值

自增自减

DECR failure_times

failure_times对应的数值自减1

DECRBY count 20

count对应的数值指定自减的数量

INCR page_view

page_view的值自增1；

INCRBY rank 20

rank对应的数据自增20

INCRBYFLOAT mykey 0.1

mykey对应的值自鞥指定的浮点数值

位图操作

Hash表操作

设置值

HSET website google "www.g.cn"

key为website

value中field为Google，value为"www.g.cn"

获取指定value指定field对应的值

HGET site redis

获取key的所有field的值

HGETALL people

获取people所有field和值

删除指定key的指定的field的值

HDEL abbr a

指定field是否存在

HEXISTS phone myphone

自增自减

HINCRBY counter page_view 200

对key 为counter 中field字段难为page_view的自增200

HINCRBYFLOAT mykey field 0.1

返回所有的field

HKEYS website

HMSET website google www.google.com yahoo www.yahoo.com OK

操作结果

1) "google"2) "yahoo"

返回所有的域的值

HVALS website

1) "www.google.com"2) "www.yahoo.com"

List操作

往列表中添加

LPUSH languages python

可以重复添加

LPUSHX greet "hello"

往列表的表头添加

RPUSH languages c

往列表的表尾添加

LINSERT mylist BEFORE "World" "There"

指定key中在指定元素的前面或者后面添加元素

从列表中获取

LPOP course

获取表头元素并删除

RPOP mylist

获取表尾元素并删除

blpop key timeout

获取表头元素，如果没有元素就会阻塞，阻塞的时间为指定时间

brpop key timeout

获取表尾元素，如果没有元素就会阻塞，阻塞的时间为指定时间

LRANGE fp-language 0 1

返回list中指定某个索引位置的数据

LINDEX mylist 3

返回对应索引位置的值

删除

lrem key count value

根据key中value的值删除指定个数

ltrim key start stop

删除指定区间的值

Set

存储

添加单个

SADD bbs "discuz.net"

不能被重复添加

hmset

批量存储hash

移除

单个移除

SREM languages ruby

移除 languages 中的ruby元素

SMEMBERS not_exists_key

移除key的所有元素

删除集合并随机返回一个元素

SPOP db

获取

获取集合长度

SCARD tool

获取tool集合长度

获取集合中所有元素

SMEMBERS db

返回两个集合的交集

SINTER group_1 group_2

返回两个集合的并集

SUNION songs my_songs

返回两个集合的差集

SDIFF peter's_movies joe's_movies

判断

判断某个元素是不是当前set集合的元素

SISMEMBER joe's_movies "bet man"

判断key为 joe's_movies 中是否含有"bet man"

Zset

添加

添加单个元素

ZADD page_rank 10 google.com

往key为page_rank集合中添加数值为10 的google.com 元素

添加多个元素

ZADD page_rank 9 baidu.com 8 bing.com

给指定的元素添加分数

ZINCRBY salary 2000 tom

移除

移除一个或者对个元素

ZREM page_rank google.com

ZREM page_rank baidu.com bing.com

移除按照排名指定区间的数据

ZREMRANGEBYRANK salary 0 1

移除指定索引区间的值

ZREMRANGEBYSCORE salary 1500 3500

移除指定分数区间的值

获取

获取集合长度

ZCARD salary

获取salary集合长度

返回指定区间的元素

ZRANGE salary 200000 3000000 WITHSCORES

正序从小到大

ZRANGE salary 0 -1 WITHSCORES

整个集合从小到大排序

ZREVRANGE salary 0 -1 WITHSCORES

递减排列

获取指定分数区间的元素个数

ZCOUNT salary 2000 5000

获取salary集合中分数在2000到5000之间的分数

获取指定元素的分数

ZSCORE salary peter

获取salary集合 peter对应的分数

指定分数区间分页查询

zrevrangebyscore key max min [WITHSCORES] [LIMIT offset count]

排序获取元素排名

zrank key member

排序按照分数从小到大

zrevrank key member

排序按照分数从大到小

相同操作

设置

字符串

setnx key value

setex key seconds value

hash

HSETNX nosql key-value-store redis

重新设置 nosql 中指定field对应的数据

移动元素到另外集合

set集合

SMOVE songs my_songs "Believe Me"

将songs 集合中的"Believe Me"元素移动到my_songs

list

rpoplpush source destination

把 source的list集合尾部元素添加到目标元素的头部；并把值返回给客户端

brpoplpush source destination timeout

上一个命令的阻塞版本

批量操作

批量存储

字符串

MSET date "2012.3.30" time "11:00 a.m." weather "sunny" OK

Hash

HMSET website google www.google.com yahoo www.yahoo.com OK

批量获取

字符串

MGET date time weather

Hash

HMGET pet dog cat fake_pet

获取key 为pet中对应的field对应的数据

批量设置

字符串

MSETNX rmdbs "MySQL" nosql "MongoDB" key-value-store "redis"

返回长度

字符串

STRLEN mykey

返回mykey对应的value的长度

hash

hlen key

返回key对应的field的个数

list

LLEN job

list集合对应的长度

key操作

存活时间

获取key存活还有多少存活时间

TTL key

-1

没有设置存活时间

10084

还存活 10084秒

PTTL key

返回值是key存活的毫秒值

设置生存时间

EXPIRE cache_page 30000

设置的时间为毫秒值

PEXPIRE mykey 1500

生存时间为1500毫秒值

PERSIST mykey

移除key的生存时间

删除key

DEL name

指定key删除

FLUSHDB

清除整个redis的数据

判断key是否存在

EXISTS phone

模糊匹配获取key

先批量设置key，value MSETone1two2three3four4

KEYS *o*

返回值 four,two，one

KEYS t??

"two"

KEYS t[w]*

随机返回一个key

RANDOMKEY

返回值为随机的一个key

移动key到其他数据库

MOVE song 1

把key为song 的值移动到数据库1里面；Redis默认的存放在第一个数据库

重命名key

RENAME message greeting

0，key不存在

1，成功

renamenx key newkey

新的key不存在的时候才会成功

根据key获取value的数据类型

TYPE weather

排序

SORT

返回指定list，有序集合，无需集合拍过排序之后的结果

排序方式按照数字大小，字母的自然排序

序列，反序列key

DUMP

RESTORE

特殊命令

分页查询操作

Zset

List

说明，只有Zset和List支持分页查询；

计算地理位置

获取经纬度的geoHash值

Redis与MemCache的区别

线程操作

redis数据处理是单线程，memcache是多线程处理

数据结构

Redis支持更多更复杂的数据结构，memcache只支持keyvalue的字符串数据；

数据安全性

Redis支持数据的持久化，会把数据同步到磁盘上；memcache不支持数据的持久化

数据备份

Redis支持数据备份，需要开启主从模式；memcache不支持数据备份

过期策略

REDIS支持更多的过期策略；memcache支持的过期策略少

开发模式

jedis

redisson

springBoot+整合redis

本质还是springBoot整合了jedis

MQ

RabbitMQ

通信协议

基于AMQP协议

基础概念

消费者消息获取方式

（默认的方式）轮询poll的方式拉取消息

生产者推送消息给消费者

RabbitMq书写语言：erlang

基础概念

VirtualHost

：从主机中虚拟出来的一个虚拟主机；每个虚拟主机都是一个相对独立的rabbitmq服务器

一个虚拟主机里面可以有多个不同的交换机和不同的队列

exchange

概念：1.数据从生产者到消费者之间的数据转换层；2.隔离了一个虚拟主机下面不同数据之间的推送;3.生产者消费者隔离；

交换机种类

Headers Exchange默认交换机

不绑定route-key;交换机和queue名称一样

Fanout Exchange广播交换机

把消息发送到绑定了该交换机的所有队列上

不需要指定routeing-key

Direct Exchange直连交换机

数据会被发送到指定路由的queue上去

Topic Exchange主题交换机

消息会被转发到所有满足route-key的队列，以及bingkey模糊匹配到的队列

Queue

消息队列，实际存储消息数据

参数配置

name

交换机名称

Durability

是否持久化，true持久化

值集True flase

Auto-delete

所有的消费者完成消费后自动删除

ture，所有的消费者消费完成之后，自动删除

值集True flase

Arguments（拓展参数）

Message TTL

消息生存时间

时间单位毫秒

消息在被抛弃前可以存活多久

Auto expire

队列生存时间

时间单位是毫秒

队列在指定时间内没有被使用，就会自动被删除

Max length

队列容纳的消息的最大条数

超过设定条数就会默认放弃队列头部数据

Max length byte

队列可容纳最大字节数量

超过设定的长度的数据，那么就会默认放弃头部消息

Broker:

消息中间件的服务节点。

Connection

生产端消费端都需要和服务端建立Connection连接，也就是tcp连接

Channel

消息通道,在客户端的每个Connection连接里,可建立多个channel.

Channel是轻量级的Connection，减少了tcp频繁连接断开的开销

Channel实际上就是Tcp的连接复用

mandatory标志

表示作用

标记当消息发送出去，找不到路由的处理方式

处理方式

true：消息返回给服务端，服务端可以做后续的处理

false：消息返回服务端，服务端直接删除

队列工作模式

简单模式

生产者消费者一对一

work模式

生产者消费一对多；每个消费者获取的消息都是唯一

订阅模式

生产者消费者一对多，同样的消息会被订阅的消费者都消费到

路由模式

生产者指定发给一个消费者

主题模式

生产者指定发送给某一类消费者

工作流程

子主题

消息队列设计机制

消息确认机制

发送端-服务端

return消息机制

发送端把消息发送到服务器，结果找不到对应的交换机，路由队列；return消息机制就是应对这种情况

发送消息时候给Channel参数manDetory设置为true；消费就会返回到发送端可以做后续处理；如果为false,服务端就会直接把该条消息删除

事物消息机制

实现原理：AMQP协议

服务端

confirm消息机制

发送端把消息发送个服务端，服务端接收到消息并且把消息持持久化到磁盘就会给发送端一个异步的confirm应答

confirm种类

单条应答

批量应答

服务端-消费端

ack消息机制

ack种类模式

不确认

消费端发生异常或者无响应，都会通知服务端消费成功

自动确认

自动确认，如果发生异常，就会给服务端发送不确认信息；那么消费就会回到消息队列尾部

手动确认

针对个性化处理，针对默写异常是否需要做ack，或者做noack处理；

消息重试机制

消息重试目的

消费者异常的情况下，能够让生产者重新发送该消息；保证消息的最大程度被正常消费

消息重试配置说明：以springBoot整合RabbitMQ说明

enabled

开启重试机制

max-attempts

最大重试次数

initial-interval

重试间隔时间

max-interval

最大间隔时间（不能超过这个时间间隔）

multiplier

间隔时间乘法数（重试的时间间隔在上一次的倍数）

重试机制原理

消息被消费的时候会被监听，当抛出异常的时候，就会执行补偿机制；

实现的原理还是建立在消费端的ack机制之上

消息拒绝机制

消费端手动拒绝

单条拒绝

多条拒绝

消息被拒绝后可以再次回到队列中

消息重新入队机制

消息路由不成功的消息，可以配置相关的死信队列；消息可以发送到死信队列

批量消息发送机制

此机制需要开发做拓展

消息持久化

持久化的对象

交换机

把交换机的属性持久化；在宕机或者重启之后服务器可以自动的去创建交换机，避免手动或者跑程序创建

设置durable=true

队列

把队列的属性持久化，在宕机或者重启之后可以自动的去创建队列，避免手动创建

设置durable=true

消息

消息的持久化是建立在队列的持久化之上，如果队列没有持久化，那么消息也不能持久化

设置 deliveryMode =2 ； deliveryMode =1 是不进行持久化

概述

并不能完全解决消息丢失问题

持久化会降低rabbtimq性能

持久化过程

持久化概述

所有队列的消息都会写入到磁盘的中间中去；当写入的数据大小超过了文件大小，那么就会关闭此文件，再新建一个文件存储；

持久化时间节点

消息本身推送到消费端的时候在服务端需要存入磁盘

内存资源少，需要把队列中的数据存入磁盘

消息刷盘条件

消息并不是来一条消息就往磁盘上存储一条，而是先把消息都放入到一个缓冲池；等一定的条件才会缓存的消息写入磁盘

1.缓冲池缓冲的数据大小超过缓冲池本身

2.超过固定的刷盘时间25ms，不管缓冲池是否满了，都会刷盘

3.消息写入缓冲区后，没有其他后续请求写入，那么也会刷盘

读取持久化数据过程

根据消息ID，找到消息所在文件，根据消息在文件中的偏移量，找到该消息；

持久化消息删除

删除说明

收到消费者的ack消息的时候，并不是马上去删除消息，而是先给消息做一个删除的标记

删除过程

后台进程检车到垃圾数据比例超过50%，并且文件不少于3个，的时候就会触发持久化数据的垃圾回收；找到符合要求的左右两个文件，先整理左文件中的有效数据，然后再把有文件中有消息数据复制到左文件;再把又文件删除；

删除条件

1.所有文件中垃圾数据达到50%的比例；

2.存储的文件必须至少有三个；

RabbitMq队列问题+解决方案

消息延迟发送

RabbitMq本身并没有延迟队列；

解决方案

设置消息的存活时间

消费在队列中存活时间；当时间超过了消息就会被抛弃；设置死信交换机，被抛弃的消息就会落入到死信交换机；

核心点

1.不设置消费者，就可以让消息一直堆积，直到超过存活时间

具体解步骤

1.创建死信交换机

2.创建死信路由

3.新建消费者队列绑定死信路由

特别说明

1.死信交换机就是普通交换机

2.死信交换机被动接受其他交换机或者无法消费的消息

3.创建生产的交换机的时候就需要设置对应的死信交换机

消息丢失

消息丢失类型

生产者发送消息-服务端

丢失原因

1.由于网络原因导致数据丢包

2.交换机的路由没有被队列绑定，消息直接丢失

解决方案

针对1：

1.事物消息机制

发送端开启一个事物，再推送消息，如果投递失败；进行事物回滚，然后重新发送消息；如果服务端收到消息，发送端就提交事务。

缺点：事物消息造成发送端阻塞，发送端只有等到服务端回应之后，才会发送下一条数据；生产者的消息吞吐量大大降低；

2.confirm消息机制

发送端把消息发送个服务端，服务端接收到消息并且把消息持持久化到磁盘就会给发送端一个异步的confirm应答

确认方式

1.串行确认

发送一条确认一条；服务器返回flase,会重新发送

缺点：效率比较低

2.批量确认

发送端每发送一批，才会确认

缺点：重新发送消息的时候需要把同一批消息再次发送

3.异步确认

服务端接受到了一条或者多条之后，会异步回调发送端的异步确认方法；

发送端发送完消息，可以接着发送其他消息，不会阻塞；

整体流程

任何一种确认方式，服务端接受到消息之后不是立马给发送端确认；而是需要等待批量数据持久化之后再发送确认消息；

在发送消息之前把消息用排序的Map集合保存起来；如果消息发送失败，那么就会从map集合中读取消息再次发送

针对2：

1.设置mandatory 设置true

交换机找不到相应的队列就会把消息返回被生产者

2.alternate-exchange设置备用交换机

交换机找不到消息，消息会发给备用的交换机

服务端丢失

丢失原因

丢失原因：客户端在处理消息的时候突然机器挂了，导致消息丢失了；

解决方案

服务端设置交换机，队列，数据的持久化；服务器宕机后，重启会读取磁盘上的持久化的数据；

问题：由于消息的持久化是一批的持久化，可能宕机了，这一批数据还持久化到磁盘

消息的持久化

1、服务端收到生产者发送过来的消息，会做消息的持久化

2、当服务宕机后，会从磁盘当中读取相应的消息，最大程度上保证消息不在服务节点上丢失

消费端丢失

丢失原因

1.消费者在处理消息的时候出现异常了，那么这条消息就是没有被正常的消费；如果不采取措施，那么这个消息就会丢失

解决方案

ack机制

ack机制概述

消息只有正常消费后，反馈给服务端；服务端才会从队列里面把该条消息删除

ack机制三种模式

不确认

不会发送ack确认消息

自动确认

服务端发送完消息就自动认为该消息被成功消费

缺点：由于网络原因，造成数据从服务端发送到消费者消息丢失

手动确认

消费者消费成功之后，显示的给服务端ack信号；服务端只有收到该信号才会把数据从队列里面删除

设置手动ack，尽可能减少消费端的数据丢失问题；正常就是发送ack，异常就记录日志，然后发送nack

ack机制弊端

内存泄露

如果消费者异常没法发ack消息，服务端会认为这些数据都是没有被正常消费；就会堆积在队列当中，造成内存没法回收，内存泄露；

内存泄露解决方案

1.设置手动应答，如果异常，捕获异常记录日志，给服务端发送正常消费；

2.设置重试次数（默认是3次，三次不消费成功就会放入到默认的死信队列）

ack机制默认打开，而且是自动确认

消息堆积

消息堆积的本质

消费者的消费速度低于生产者生产的速度

堆积的实际原因

生产者原因

生产者突然发送大量信息

消费者原因

消费者消费失败

消费者出现性能瓶颈

消费者直接挂掉

消息堆积后果

队列溢出，新消息无法进入队列

消息无法被消费

阻塞时间超过消息存活时间

等待消费时间超过业务时间

消息堆积解决方案

优化消费者消费参数

设置多个线程同时处理消费消息

默认是单线程消费

设置一次从服务端拉取多条消息

默认是每次拉取一条消息

取消消费端ack确认机制

新增生产这队列，把消息推送另外的机器上

排查性能瓶颈，针对性改造

顺序消费

顺序错乱场景

1.生产者消费者一对多

2.生产者消费者一对一，消费者多线程消费

解决方案

针对1

生产者拆分成多个，让生产者和消费者一对一生产消费（消费者内部可以开多线程消费）

针对2

开启多个消费者，把前后有关联的数据往同一个消费者发送

消息重复消费

消息重复消费原因

1.消费端异常没有给服务端发送消息成功消费的标记；

2.服务端没有接收到消费端发送的消费成功的标记；

只要是服务端没有接收到消费成功的标记，服务端都会再次给消费端发送消息；

解决方案

1.在消费端做幂等性判断

1.全局消息id做幂等性判断

2.全局业务id做幂等性判断

2.消费端代码做限制，无论如何都会发送消费确认消息

RabbitMQ集群

集群模式：

1.主备模式

特点：

1.一主一备；也可以是一主多备

2.主节点提供读写，从节点备份主节点数据

3.主节点挂了，从节点就会变成主节点；原来的从节点回复之后，就会变成备用节点

使用场景

1.并发和数据量不高的情况下；

搭建过程

1.需要使用haproxy作为中间件

2.远程模式

概述：数据进行复制，跨地域让两个MQ集群复制和通信；如果当前集群MQ服务超过设定的阈值，那么消息就会被转移到远程的MQ上做分担处理；

说明：需要使用到shovel插件，让跨地域的集群通信

3.镜像模式

概述：集群模式，一般2-3个节点实现数据同，主节点收到发送过来的数据，然后同步到其他节点上。

需要搭配haProxy做高可用负载均衡器

4.多活模式

概述：多中心模式，多套数据中心部署相同的MQ集群；一个集群中通过负载均衡器使得只有一个节点接受消息

各个中心需要配置插件 federation，可以使一个集群节点与另外一个集群节点做通信

死信队列

死信队列定义

未被正常消费的消息存放的队列；

死信队列数据来源

1.拒绝消息

拒绝一条消息

拒绝多条消息

2.超时消息

超过消息本身设置的存活时间还没有被消息

超过消息发送时候队列设置的存活时间还没有被消息

3.溢出消息

超过队列的最大长度

超过了队列的最大容量

死信队列使用场景

延时操作

kafka

基础概念

topic

区分不同类别信息别称

broker

kafka服务器或者服务集群

副本

TODO

每个主题在创建时会要求制定它的副本数（默认1）

partition（分区）

特点

分区也就是让kafka相同的topic在不同机器，也就是同一个消息可以在不同的kafka节点上；这样就天然的让kafka变成队列集群

概述

同一个topic会有不同的分区，分区可在不同的机器

同一个topic可以有一个或者多个分区

所以一个节点上面可以有来自多个topic对应的分区

分区工作机制

每一个分区都是一个有序队列，分区中的消息都会被分配上一个有序的id（偏移量）

分区策略

message

生产者向某个topic发送的消息

offest偏移量

消息在日志文件中存储的位置

Segment

日志分段

Consumer

消费者

Consumer Group

消费者组

kafka消息核心api

生产者api

消费这api

stream-api

connectior-api

admin-api

管理台对应的api

ISR(InSyncRepli)、OSR(OutSyncRepli)、AR(AllRepli)

ISR

速率和leader相差低于10秒的follower的集合

kafka中与leader副本保持一定同步程度的副本（包括leader）组成ISR

OSR

速率和leader相差大于10秒的follower

AR

全部分区的follower

HW、LEO

HW：高水位，指消费者只能拉取到这个offset之前的数据

LEO：标识当前日志文件中下一条待写入的消息的offset

工作机制

零拷贝

零拷贝的实现

概述

DMA直接内存访问；现代计算机就是允许硬件之间直接进行数据交互；DMA将一个地址空间复制到另外一个地址空间，然后数据的传输是DMA设置之间完成

DMA

直接内存访问

DMA设备

能够不经过cpu直接相互直接就能进行数据交互的硬件设备

两种实现方式

mmap

概述（kafka就是mmap实现方式）

用户态直接应用内核态的文件句柄

mmap方式，用户态和内核态共享内核态数据缓冲区，数据不需要从内核态复制到用户态空间；用户态发送数据的时候，就直接应用内核态的文件句柄就行（无需把数据从内核态拷贝到用户态，再从用户态拷贝到socket套接字的内核空间）；

sendfile

数据不需要经历从内核态拷贝用户态；数据直接从DMA设备直接发送对应的做网络传输的DMA设备，由这个设备直接传输数据

Kafka零拷贝

概述

Kafka的零拷贝并不是说完全不存在拷贝，而是避免不必要的拷贝

零拷贝过程

从磁盘把数据拷贝到内核空间；

从内核空间中直接把数据发送到网卡；

传统拷贝方式步骤

1.从磁盘去读到内核空间缓存页；

2.应用从内核缓存页读取到用户空间缓存区；

3.应用程序将用户缓冲区的数据放入socket缓冲区；

4.操作系统将socket里面的数据复制到网卡接口，发送数据；

零拷贝和传统拷贝方式对比

1.kafka的零拷贝从获取数据到最终把数据发送出去只需要经历一次拷贝；

2.传统拷贝方式从获取数据到最终把数据发送出去，需要经历4次拷贝；

kafka的拷贝方式大大降低了数据在不同的内存空间中复制的次数，提高了系统io效率

kafka持久化机制

消息持久化原理

概述

基于磁盘的线性的读写（操作系统做了大量的IO技术优化），甚至会被随机的内存读写更快

io优化技术

read-ahead

write-behind

和其他数据缓存的差异

kafka是直接把数据写入日志文件；其他几乎都是先把数据缓存在内存中然后再间隔刷盘

持久化读写

读写操作

写操作

将数据顺序追加到文件末尾

文件写入超过一定大小会被滚动到新的文件中

写操作参数设置

操作系统积累多少条数据就一定要被刷到磁盘

操作系统积累了多少秒的数据就一定要被刷到磁盘

关于日志丢失

也就是根据设置最多丢失多少秒或者多少条数据

读操作

从文件中读取

读操作参数设置

最大消息大小

缓冲区大小

读取过程

1.缓冲区大小大于消息大小就可以直接读取成功

2.如果缓冲区大小小于消息大小，那么就会读取失败，缓冲区大小翻倍知道成功读取完整条消息；

读写概述

读写都是顺序写入顺序消费，能保持较高的效率

好处

1.读操作不会组阻塞写操作

2.不受内存大小限制

3.线性的读取速度依旧很快

4.相对于内存保存时间更长

删除

删除策略

删除策略是可以配置

常见删除策略

超过一定时常

保留最近多少磁盘大小文件

删除内容

日志文件中的消息和日志文件本身都会被删除

删除操作阻塞读操作

读操作读取的是要被删除文件的副本

持久化文件构成

日志文件

日志文件特点

1.topic的每一个分区都会专属的append-only日志文件；

3.每条消息在文件的位置称之为offset（偏移量）

2.属于分区的消息会被追加到日志文件的末尾

日志条目

概述

日志文件由日志条目组成

日志条目内容

消息头（4字节整形数，表示消息体有多长）

消息体

包含消息内容

消息偏移量（用来表示消息的起始位置）

日志文件名称

该文件第一条数据偏移量+.kafka

索引文件

记录每一个segment下包含的日志条目偏移量范围

日志清理

消息有效期

在消息有效期内，是允许消费者重复消费；

日志清理两种方式

日志删除

根据保留策略删除日志分段

参数配置log.cleanup.policy = delete

日志删除策略

基于时间

log.retention.hours、log.retention.minutes、log.retention.ms

最长时间7天

基于日志大小

log.segment.bytes，每个日志分段大小

og.retention.bytes ，总的日志大小

扫描，某个分段超过日志分段大小，那么就删除；如果总的文件大小超过了设定，那么就删除时间距离现在最久的日志

基于日志起始偏移量

logStartOffset；删除偏移量小于这个设定的偏移量大小的日志

日志压缩

根据消息的key进行压缩，相同的key的消息，只会保留一个副本；这个key就是业务消息中的key，需要去手动指定这个key对应的是业务中的那个字段

参数设定

log.cleanup.policy = compact

log.cleaner.enable = true

压缩过程

压缩线程会根据日志分段中需要被清理压缩的占比最高的日志分段开始压缩清理；根据业务中的key去做删除，相同的key只会保留一条消息；

log.cleaner.min.cleanable.ratio ，设置当需要被压缩的数据超过百分之多少的比例的时候，就进行压缩；

队列工作方式

消息发送/消费方式assign

消息发送方式

1.消息可以指定分区发送

2.消息可以通过负载均衡方式发送到不同的分区

3.通过指定key进行hash运算后确定让哪个分区发送

消息消费方式

消费者集群的各个消费者只能消费不同的分区

一个topic消息可以发送给多个消费者集群

一个消费者可以消费多个集群的消息

多个消费者集群可以消费一个topic下面的消息

订阅队列模式设置subscribe

设置多个消费者消费一个分区的消息-订阅

一个消费组中的一个消费者只订阅一个分区的消息-点对点

kafka集群

zk的作用

注册中心服务治理

注册服务节点

同一管理所有的服务器

注册topic

记录topic的分区信息与对应的服务器节点对应关系

注册消费者

消费者启动的时候，都会去zk创建自己的节点

负载均衡

生产者负载均衡

可以通过zk的配置文件动态感受来自服务器节点的新增减少，来实现相应的负载均衡

消费者负载均衡

zk动态感受消费者新增减少，来合理的实现负载均衡

记录数据

记录分区与消费者关系

将分区和消费者id绑定记录到临时节点上

记录消费中的偏移量

记录每个分区中消费者消费的偏移量会发送给zk，方便在消费者重启之后，或者是重新分配消息分区，能够继续之前的消费

负载均衡

四层负载均衡

此负载均衡是kafka自带的

缺点是无法动态感知服务器节点的新增减少，从而在服务器新增减少的时候，不能根据服务器做负载均衡

kafka事务

事务场景

生产者发送的多条消息需要组成事物，对所有消费者同时可见，或者同时不可见

生产者发给多个topic，多个分区发送消息，要么都成功，要么都失败

子主题 3

子主题 4

leader选取策略

策略

OfflinePartition Leader

有新的分区上线就重新选leader

ReassignPartition Leader

运行重新分区命令，重新选择leader

PreferredReplicaPartition Leader

运行重新选择leader命令

ControlledShutdownPartition Leader

服务正常关闭之后，重启重新选择leader

子主题

不支持读写分离

主要原因

数据一致性问题

leader副本的数据和其他副本数据都不一致，读写分离容易导致数据不一致

延时问题

leader副本数据到从副本数据有数据延迟；

消费者是pull(拉)还是push(推)

producer 将消息推送到 broker

consumer 从broker 拉取消息

如果是kafka节点向消费这push消息，可能会造成消费者消费积压，或者是消费者性能浪费

zookeeper对于kafka的作用

1、存储kafka元数据

2、集群不同节点之间通信

3、leader 检测、分布式同步、配置管理、识别新节点何时离开或连接、集群、节点实时状态等等。

kafka判断一个节点还活着的有那两个条件

1、节点和zk之间心跳检测正常

2、follow节点可以即时同步leader的写操作，且不能延时过高

ack 的三种机制

0

生产者不需要等到kafka节点的ack;

1

kafka节点上的leader副本收到消息就发送ack;

不需要等所有follow副本确认

-1

kafka所有的follow副本接收到消息，leader服务才会发送ack

kafka高性能原因

1、0拷贝

1、索引和日志文件读写

2、数据传输

2、对log文件进行分段处理，且分段数据会简历索引文件

3、本身就是天然的分布式

4、页缓存

对下一页数据的读取是从缓存中读取

5、对磁盘的写入顺序写入

6、消费采取pull模式

能够让消费者处于消费者机器自身资源相符的消费速度

leader副本和Follow副本区别

读写都是从leader副本操作的

follow副本的数据都是从lader服务同步

实际开发

引用场景

日志收集

同一日志同一收集，然后以同一服务的形式发放给各种消费者

消息系统（削峰，异步处理）

用户日活跟踪

运营指标

收集生产者各种生产数据，同一做报表处理

流式处理

和flink,spark，strom做流计算处理

实际的开发方式

1.需要导哪些包

2.有哪些核心API

消息队列实际问题

重复消费

消息重复消费原因

概述：

主要原因就是消息消费时候提交的偏移量，服务器并不知情

具体情况分类

1.强行杀掉线程，导致偏移量没有提交

2.消费了，还没有提交偏移量，分区就掉线了，触发重平衡，然后消息就会重复消费

3.消费者重新分配分区，导致消费者数据重新消费

4.消息消费时间过长，让zk觉得机器宕机了，触发了重平衡

解决方式

最稳定的方式就是在代码中根据消息唯一id做幂等性判断

消息一致性

概述

kafka消息一致性指的是分区中的leader和多个副本的消息数据保持一致性；

消息一致性解决方式

ISR机制

副本同步leader数据

同步参数

rerplica.lag.time.max.ms=10000

根据一定的时间间隔副本同步leader数据

rerplica.lag.max.messages=4000

当副本数据和leader数据查了多少条也会同步数据

ACK=all机制，生产者给服务器发送消息的时候，直到所有的副本都收到消息才会通知生产者，服务端这边已经收到消息

消息延迟消费

时间轮

延迟消息的实现

消息有序性

消息乱序原因

1.消息重试机制会导致消息乱序（一个分区对应一个消费者）

2.多个分区对应多个消费者，需要顺序消费的数据被分配到了不同的消费者

解决方案

针对1：max.in.flight.requests.per.connection=1禁止生产者想服务器响应前再次发送请求，也就是消息的重试必须是在上次失败之后，里面发起重试

针对2：

可以设置一个topic只有一个分区，只有一个消费者

生产者把需要顺序消费的消息发送到指定的分区上

消息丢失

消息丢失情况分类

生产者发送消息给节点丢失

消息丢失原因

发送消息的程序异常，导致消息压根没有发送出去

消息发送了，由于中间网络原因，以及服务器接收原因，导致数据服务器没有正常接收到数据

节点保存消息丢失

消息丢失原因

ACk设置=1，主机拿到了数据，从机还没有同步主机数据，这时候主机挂了，从机无法同步主机数据

主机拿到数据，主机就挂了，没有设置相应的从节点，来备份数据；

主机挂了，从机被选为主机，主机中还有部分数据没有被同步到从机

消费者丢失消息

消息丢失原因

消息在消费的时候，消息消费的自动确认提交偏移量；如果批量的消息有20条，消费到10条消息的时候异常了，那么就会自动提交消息的偏移量是20，也就是会导致后面10条消息是没有被正常消费，也相当于消息丢失；

针对不同丢失情况对策

生产者发送丢失

消息确认机制

消息确认等级

ACK =0

ACK=1

ACK=all

消息确认相应机制

ACK=1（默认设置），只要分区的leader副本接受到了消息，就会给生产者发送消息接受成功（其他副本再回去同步leader的数据）。

设计上是比较折中的在一定程度上能够保证消息的不丢失，也能保证一定的吞吐量

ACK=0，生产者给服务端发送消息，不等服务端是否有接收到消息，发送完了就认为消息到被服务端接受了；而实际情况是，消息会生产者的缓冲池中待一段时间然后才会被发送到服务端，生产者就不知道消息具体在啥时候发送到服务端；

缺点：网络宕机的时候，消息会丢失

优点：满足大吞吐量的数据发送；

ACK=all，消息的分区leader还有所有的副本都接受到消息，才会给生产者发送消息已经被接受了。

优点：最大程度上保证服务器节点接受到消息；

缺点：极度影响性能，导致数据的吞吐量低

消息重试机制

概述

生产者发送消息异常，然后会重新给服务器发送消息

消息重试前提条件(两者同时满足才能重试)

1.重试的次数小于retries指定的次数

也就是当重试的次数超过了设定次数，那么也不会发送的；

2.异常的类型是RetriableException或者事务管理器允许重新发送

消息重试机制参数设置

retries

消息重试次数，默认次数为int的最大值

retry.backoff.ms

重试的间隔时间

消息确认机制和重试机制区别

消息确认机制主要是针对消息发送到服务器正常接收这个过程的处理

消息重试机制，主要是针对消息发送之前生产者内部自己发送消息异常的兜底处理

节点数据丢失

1.ACK=all，让所有的服务器节点都获取到数据；

2.合理的设置从机的个数，设置数据的备份

参数设置：min.insync.replica

3.禁止主机挂掉，选从机作为新的主机

参数设置：unclean.leader.election.enable=false 本身默认就是flase

消费者消费数据丢失

设置消息消费提交偏移量为手动提交偏移量，通过代码在finnaly里面手动设置消息异常的那个前一条的偏移量做提交；

消息积压

积压原因

消费者消费能力不足

消费者处理不及时

解决方式

针对1

添加分区个数和消费者个数

针对2

合理增大每次拉取的消息数量

死信队列

不支持死信队列

消息如何控制只被消费群组中一个消费者消费

原则

kafka的一个分区的数据只会被消费者组中的一个消费者消费；一个消费者可以消费来自多个分区的数据；

详细说明

分区数量- 3，消费者数量- 3

Kafka 将一个分区分配给一个使用者。除非某些使用者发生故障并且发生使用者重新平衡（将分区重新分配给使用者），否则所有使用者都将映射到其分区，并按顺序使用这些分区的事件。

分区数量 - 1，使用者 - 3

如果消费者多于分区数量，Kafka就没有足够的分区来分配消费者。因此，该组中的一个消费者被分配给分区，而该组中的其他消费者将处于闲置状态。

分区- 4，消费者- 3

在此方案中，其中一个使用者获得 2 个分区，而在使用者重新平衡期间，另一个使用者可能会获得 2 个分区。

kafka参数设置

1.服务器配置

1.节点自身属性设置

broker.id

broker在集群中的标识

默认值-1

listeners

监听的服务地址(多个用,隔开)

无默认值

2.连接zk配置

zookeeper.connect

连接的zookeeper地址(多个地址用,隔开)

zookeeper.connection.timeout.ms

连接zookeeper超时时间(毫秒)

无默认超时时间

zookeeper.session.timeout.ms

连接ZK会话超时时间

zookeeper.sync.time.ms

zk的从机落后zk主机的最长时间

zookeeper.max.in.flight.requests

消费者有多少个未确认的消息，才会导致阻塞

3.日志配置

log.dirs

日志存放目录(有多个目录分布时使用,隔开)

无默认值

log.dir

日志存放目录(当log.dirs为null时)

默认值/tmp/kafka-logs

log.flush.interval.messages

将消息刷新到磁盘之前，日志分区上累计的消息数量

默认值：9223372036854775807

log.flush.interval.ms

刷盘前在内存中最长存在时间

log.retention.bytes

日志文件的最大容量

默认值-1，也就是可以无穷大

日志保存时间

log.retention.hours

日志文件保存的最长时间

默认是1周时间

log.retention.minutes

日志保存的最长分钟

默认为null

log.retention.ms

日志保存的最长分钟

默认为null

日志分区

log.roll.hours

新分区产生时间,以小时为单位

默认一周

log.roll.ms

子主题 1

子主题 2

log.segment.bytes

分区最大容量

默认1g

log.segment.delete.delay.ms

分区等待删除时间

默认60000ms

消息配置

message.max.bytes

拉取的批量消息的最大内存大小

默认值：0.9M

子主题 2

主题相关配置

auto.create.topics.enable

第一次发动消息时，自动创建topic。

默认值：true;

delete.topic.enable

是否可以删除topic

默认值：true

如果为Flase，那么管理工具将不能删除主题

auto.leader.rebalance.enable

rebalance配置

auto.leader.rebalance.enable

leader.imbalance.check.interval.seconds

分区重平衡检查的频率

leader.imbalance.per.broker.percentage

触发重平衡比例

默认值100%

线程配置

background.threads

后台处理线程个数

默认值10；

num.io.threads

处理请求线程数量

默认值：8

num.network.threads

处理网络请求网络相应线程数量

默认值3

num.recovery.threads.per.data.dir

日志恢复和日志关闭时刷新的线程数

默认值1

num.replica.alter.log.dirs.threads

日志之间移动副本线程数

无默认值

num.replica.fetchers

主节点数据复制到副本的线程数

偏移量

offset.metadata.max.bytes

与偏移量提交管道的元数据最大大小

offsets.commit.timeout.ms

偏移量超时时间

offsets.topic.num.partitions

偏移量提交主题分区的数量

offsets.topic.replication.factor

子主题 1

offsets.topic.segment.bytes

日志索引文件大小

默认值100M

子主题 6

unclean.leader.election.enable

leader挂了，是否会选举其他副本作为leader

默认值；false

压缩

compression.type

按照给定的压缩方式压缩数据

值集：“gzip”、“snappy”、“lz4”、“zstd”

事物

transaction.max.timeout.ms

事务执行最长时间，超时则抛出异常

900000ms

2.生产者配置

1.连接配置

bootstrap.servers

服务器节点配置

2.消息相关配置

buffer.memory

消息缓冲区大小

默认值：33554432 =32M

生产者最大可以用缓存；生产者可以用来缓冲等待发送到服务器的记录的总内存字节

消息序列化

key.serializer

指定消息的key的序列化类(需要实现Serializer接口)

无默认值

value.serializer

指定消息内容的序列化类(需要实现Serializer接口)

无默认值

消息发送

消息发送条件

batch.size

批量发送的最大容量

默认值16384 =16k；缓存到本地内存批量发送大小；每当消息的数据量达到16k才会把数据发送给服务器

作用

消息不是一条一条的发送，而是积累到一定量才会发送

linger.ms

生产者将请求传输之间到达的任何记录组合到一个批处理请求中的时间

默认值0

作用

消息发送延迟时间，也就是在一个延迟时间内所有的消息都是被同一批次的发送出去；

batch.size和liger.size只要满足一个，消息就会被发送

消息发送阻塞

max.block.ms

消息发送到具体分区的阻塞时间

默认值：60000ms，一分钟

阻塞原因：缓冲池已经满了，或者是系统元数据不可用，导致这个问题；

消息请求阻塞时间

request.timeout.ms

生产者请求发出后，获取相应的最长时间，如果超过了该时间，那么客户端就会重新发送

默认值：30000 ，30秒

消息发送大小

max.request.size：

生产者发送最大直接数量

默认值：1M

消息确认

acks

生产者要求领导者在考虑完成请求之前收到的确认数量

默认值1

用途：

配置消息发送发到服务的消息确认机制

值集

0:表示producer无需等待leader的确认;

1:代表需要leader确认写入它的本地log并立即确认;

-1(all):代表所有的备份都完成后确认

delivery.timeout.ms

生产者发送完消息，接受服务器消息确认的时间

默认值120000ms，120秒

消息重试

retries

消息发送失败消息重试次数

默认值是int的最大值

retry.backoff.ms

消息重新发送中间间隔时间

默认值100ms

消息压缩

compression.type

消息以怎么的压缩格式进行压缩

值集：“gzip”、“snappy”、“lz4”、“zstd”

和服务器连接

connections.max.idle.ms

关闭空闲连接时间（生产者和服务器最大失联时间）

默认540000

max.in.flight.requests.per.connection：

单个连接，可接受的最大未确认数量

默认值5；也就是消息发送需要服务端确认，这个就是在发送消息之前需要确认发送如果没有确认的消息大于等于该参数，那么就会发送失败。

自定义操作类

metric.reporters

参数修改之后发送通知的类

interceptor.classes

消息拦截器

发送消息之前消息会被拦截，消息还可以做相应的处理

数据传输设置

receive.buffer.bytes

TCP连接接受方缓冲区大小

默认值：32K

send.buffer.bytes

TCP连接发送方缓冲区大小

默认值：128

3.事物消息相关配置

transactional.id

事务ID(当有多个生产者时，标识哪个生产者的事务,可用于消息幂等)

transaction.timeout.ms

事务超时时间

3.消费者配置

1.连接配置

bootstrap.servers

服务器连接地址

2.消费者本身配置

group.id

消费者组的ID

client.id

消费者ID

3.消息配置

auto.offset.reset

初始偏移量当前偏移量不存在的时候，消费者消费的起始点

值集

earliest

自动到最早的偏移量位置

latest

自动把偏移量充值为最新偏移量

none

如果没有找到以前的偏移量，那么就会抛出异常

anything else

直接抛出异常

默认值

earliest

exclude.internal.topics

是否公开topic内部的元数据信息

默认值：true；

事物

isolation.level

隔离级别

生产者数据拉取配置

max.poll.records

自动拉取消息的个数

默认值：500

max.poll.interval.ms

自动拉取消息的频率

默认值：5分钟

fetch.max.bytes

拉取消息的最大数据量

默认值：50M

fetch.min.bytes

拉取最小字节数

默认值：1字节

如果服务器没有数据，那么就会阻塞，直到服务器有数据才会相应

fetch.max.wait.ms

拉取消息阻塞时间

默认值：500ms

生产者自动提交配置

enable.auto.commit

消费者是否是自动提交偏移量

auto.commit.interval.ms

消费者自动提交偏移量的间隔时间

生产者序列化配置

key.deserializer

指定消息的key的反序列化类(需要实现Deserializer接口)

value.deserializer

指定消息内容的反序列化类(需要实现Deserializer接口)

生产者连接配置

connections.max.idle.ms

超过多久关闭服务器和消费者的连接

默认值：540000

request.timeout.ms

消费者给服务端发送请求超时时间

默认值：30秒

session.timeout.ms

心跳发送相应超时时间

说明：消费者是会主动向服务器发送心跳，以此来正面自己是存活的

heartbeat.interval.ms

心跳时间：消费者心跳消息发送到消费者协调器的期望时间

默认值：3秒，设置必须是小于session超时时间的三分之一

kafka监控平台

kafka缺点

对于mqtt协议不支持

不支持物联网传感数据直接接入

仅支持统一分区内消息有序，无法实现全局消息有序

可以通过代码控制顺序

监控不完善，需要安装插件

依赖zookeeper进行元数据管理

kafka最全面试题

https://zhuanlan.zhihu.com/p/109814155

http://events.jianshu.io/p/869464e66cfb

RocketMQ

RocketMQ通信方式

示意图

基础概念

生产发送消息类型

消息种类划分

同步消息

最大程度上确保消息的不丢失

使用场景

重要的消息通知

短信通知

异步消息

使用场景

对业务的效应时间非常敏感的业务

单向消息

使用场景

不是特别关注发送结果的场景

日志发送

优缺点

同步消息，异步消息会有消息的重新发送，单向消息消息发送失败不会重新发送

同步消息，异步消息发送的时候需要服务器节点返回消息接收的确认信息，而单向消息没有

消费方式

拉取式消费

消费者从服务节点上拉取消息消费

默认的消费方式，但是实时性不高，但是不会造成消息消费堆积

推动式消费

服务器节点主动给消费者推送消息消费

优点

消息消费实时性高

缺点

消费者来不及消费过多消息，容易造成消费者消息堆积

本质

消息推送本质上还是消息拉取

基本概念解释

Name Server

功能

1、服务器路由提供者，

2、生产者，消费者能够通过名称服务查询各主题的相应元数据信息

工作模式

1、多个Name Serve 组成集群

2、集群中各个Name Server相互独立，没有信息交互

生产者组

同一类Producer的集合，生产者发送消息逻辑一致

消费者组

同一类Consumer的集合，这类Consumer通常消费同一类消息且消费逻辑一致

集群消费

集群消费模式下，相同的消费者组，每一个消费者平摊消息；

广播消费

消费者集群中的每一个消费者，都是都会受到消息；

普通顺序消费

工作特性

1、消费者通过同一个消息队列（topic分区）收到的消息是有序的

2、不同的消息队列收到的消息可能是无序的

优缺点

优点

生产者发送消息快速

缺点

同一个消费者消费的不同队列之间的消息，是无序的

使用场景

对程序性能要求高，但是顺序消费要求不高

严格顺序消费

消费者收到的所有消息均是有顺序的

优缺点

优点

最大程度上确保了消息的有序性

缺点

消息发送的吞吐量大大降低

使用场景

对消费有顺序要求，且对程序性能要求不高

RocketMQ消息特性

消息顺序

全局顺序消费（严格顺序消费）

某个Topic下的所有消息都要保证顺序

分区顺序消费（普通顺序消费）

部分顺序消息只要保证每一组消息被顺序消费即可

消息过滤

发送消息的时候设置tag，消费的时候根据对应的tag做相关的过滤处理

消息可靠性

影响消息可靠性几种情况

1、节点非正常关闭

2、节点宕机

3、节点所在服务宕机

4、服务器断电，但是能立即供电

5、机器无法开机

6、磁盘设备损坏

影响范围

1、前四种可以立即回复，可能会有少量的数据丢失

2、后面两种，如果服务器是单点，那么消息将全部丢失，如果不是单点，消息还可以恢复绝大部分消息

至少一次

Consumer先Pull消息到本地，消费完成后，才向服务器返回ack，如果没有消费一定不会ack消息

消息回溯

工作机制

按照特定时间回溯到具体的历史时间点，重新消费消息

事物消息

应用本地事务和发送消息操作可以被定义到全局事务中，要么同时成功，要么同时失败

定时消息

指消息发送到broker后，不会立即被消费，等待特定时间投递给真正的topic

消息重试

工作机制

1、消费者消费消息失败后，令消息再消费一次；

消费失败后的消息会进入消息重试队列

消息消费失败原因

1、消息反序列化失败

2、程序异常

2、消费者依赖的校友服务不可用

消息重投

工作机制

1、生产者发送消息时，同步消息，异步消息的发送如果失败了，生产者会重新发送

2、单向发送发送失败，生产者无法重新发送消息；

流量控制

生产者流量控制

生产这发送消息过多，服务器节点处理这些消息达到性能瓶颈

控制副作用

消息不会重投

消费者流量控制

消费者这边接收到的消息，消息处理不过来达到性能瓶颈

控制副作用

降低拉取频率

作用

降低服务器节点压力，降低消费者节点压力

死信队列

消息重试达到最大次数后，依旧无法正常消费，死信队列就会接受到该消息；

可以通过RocketMQ的控制台，对死信队列中的数据重新消费；

接受不能被处理的消息，放在以后再做处理

Rocket消息问题

消息消费问题

消息堆积

消息堆积的原因

Producer原因

生产者生产速度过快，超过了broker写入能力

短时间的业务高峰期；

Broker消息堆积

主从复制延迟

消息存储过多，ConsumeQueue/CommitLog 查询变慢

Consumer原因

消费者消费速度过慢（业务逻辑过长，线程数少）

顺序消费模式导致队列单线程被消息，吞吐量受限

消费者宕机，无法正常消费数据

解决方式

Producer原因

消息降级 / 延迟处理

非核心消息设置延时消费，或者延迟队列

对老消息，可批量迁移到备份 Topic，降低压力

削峰处理

异步处理

Broker消息堆积

调整刷盘策略为异步

扩容

增加主节点个数，分散消息存储压力和消费压力

调整队列数量（MessageQueue），增加分区并行消费能力。

Consumer

扩容

增加消费线程数，提高并发度

消费者组增加消费者实例数量

对顺序消费场景，可考虑业务分区优化，降低单线程瓶颈。

优化消费者逻辑

异步处理消息，批量处理消息，缓存优化。

设置数据开关，开关打开消息直接放入数据库，或者直接返回，最大程度上降低消费者程序时间

使用幂等性 + 并发安全设计，允许多线程并行消费。

判断MQ是否存在消息堆积场景方式

Producer发送消息的速率监控

Consumer消费消息的速率监控

Producer发送消息的最大偏移量（maxOffset）与Consumer消费消息的当前偏移量（currOffset）

的差别值与给定的消息堆积数值告警值对比，若是差别值大于数据告警值，则存在消息堆积，不然不存在消息堆积

消息堆积场景

差别值呈现增大趋势

producer消息的发送速度大于consumer的消息消费速度

处理方式

1、消费者进行扩容操作

2、提高消费者消费速度；

3、对生产者限流操作；

producer的生产速率无明显增长，consumer的消费速率无明显增长

处理方式

这种状况基本上是能够肯定是RocketMQ自己的故障造成的，需要提高Broken节点自身的服务器配置，和相关参数；

producer生产速率正常，RocketMQ服务器性能正常，consumer消费速率下降

差别值呈现平稳趋势或者降低趋势

最佳工作模式：RocketMQ自己的服务性能，必要的时候能够对RocketMQ 进行扩容，提升消息堆积能力。

消息顺序消费

问题出现原因

某些特殊场景下，发送出去的消息，消费者需要按照顺序来消费

顺序消费的前提

发送出去的多条消息，都是走的同一个topic发送

问题具体场景

大多数业务场景不需要考虑消息的顺序性

不需要考虑消费顺序

具体实现

生产端

通过自定义队列选择器（MessageQueueSelector），将需要顺序消费的消息消息固定路由到同一个队列（MessageQueue）。

Broker

单个队列内部，消息是按照写入的物理顺序存储的，天然有序。

消费端

消费者使用 MessageListenerOrderly（顺序监听器）保证同一个时刻是有一个线程去消费这一个队列的消息

RocketMQ 消费消息是多线程还是单线程？

非顺序消息 → 多线程并发消费（线程池处理）。

顺序消息

每一个队列只有一个线程去消费，保证队列内的消息是顺序消费

一个topic是有多个队列，每一个队列都会对应一个消费的线程

还是多线程

消息重复消费（消息幂等）

问题原因

网络问题，导致消息消费的确认消息，rocketMQ节点没有收到

1、消费者没有发出

2、网络原因导致数据丢失

3、rocketMQ节点没有收到

解决方式

1、代码层面

消费者代码逻辑中保持幂等性

2、消息消费层面

通过每条消息的唯一编号来保证

消费者记录消费过的消息的唯一id，接收到消息的时候，发现有此id已经消费，那么就不做处理

唯一编号

msgId

消息设置的key

消息体重的唯一标记

分布式锁控制

对同一条业务 Key 加锁（如订单号），在锁内只执行一次消费逻辑。

3、重复消息不处理

有些业务场景，重复接受到消息，也不会影响到业务，所以不处理也行

消息丢失

消息丢失场景

主要有三种场景

1、生产者发送到队列节点消息丢失

网络抖动导致消息丢失

2、RocketMQ节点消息未能持久化到磁盘

消息还未持久化到磁盘，节点宕机

已经持久化到磁盘，磁盘损坏，但是没有备份

3、RoekctMq节点消费者丢失

消息还未消费完成，就通知节点消息已经消费完了，此时消费者宕机，导致当前正在消费消息丢失；

处理方式

针对场景1处理

消息重投机制，消息投递失败，会再次投递=

支持三种发送方式：

同步发送（send）：发送后等待 Broker 返回结果 → 最可靠。

异步发送（sendAsync）：回调确认，适合高并发。

单向发送（sendOneway）：不关心结果，可能丢失。

失败重试

Producer 如果发送失败，会自动重试（默认 2 次，可配置）。

可以切换到其他 Broker 再发，降低单点风险。

针对场景2处理

1、刷盘策略

同步刷盘：消息必须写入磁盘成功才返回。

异步刷盘：写入 PageCache 即返回，后台线程再刷盘。

可根据业务选择：金融业务多用同步刷盘。

2、RocketMQ采用主从机构

Broker Master 写消息，Slave 异步或同步复制。

同步刷盘 + 同步复制：消息写入内存 & 磁盘成功，且复制到 Slave 才算成功 → 最可靠。

针对场景3处理

消费确认机制（ACK）

ack机制，设置消息成功消费之后，再通知节点消息已经成功消费

消息重试 & 死信队列（DLQ）

消费失败重试

超过最大重试次数进入死信队列，人工处理

处理方式带来的问题

导致问题

性能和吞吐量也将大幅下降

优化机制

使用事务机制传输消息

1、耗费性能，导致消息发送速率降低

同步刷盘

刷盘操作更为频繁，导致刷盘效率低下

主从机制

主机需要把数据同步到从机，消耗主机网络io，和cpu

消费完再通知节点

消费者消费消息速度降低

基础概念

核心组件有哪些

Producer（生产者）

负责发送消息到 Broker。

特点：

可同步、异步、单向发送

可以指定 Topic、Tag 或消息 Key

Consumer（消费者）

作用：从 Broker 消费消息。

模式：

集群（Clustering）：同组内消息均摊

广播（Broadcasting）：每个实例都消费全部消息

特点：

支持顺序消费（每个 Queue 顺序）

支持事务消息回查

Broker

作用：

存储消息（CommitLog + ConsumeQueue + IndexFile）

提供消息读写服务

特点：

支持主从复制（同步/异步）

可水平扩展

类型：

Master（主节点）

Slave（从节点）

NameServer

作用：

提供路由注册与发现服务

Producer/Consumer 通过 NameServer 获取 Broker 信息

特点：

无状态，可多节点部署

类似于服务注册中心

部署方式

单独部署或者Broker节点部署一起

Topic

作用：消息的分类标签

消费组消费 Topic 中的消息时，实际上是消费它的各个队列

Message Queue（消息队列）

作用：

Topic 内的物理队列

保证顺序消息的分区顺序

特点：

每个 Queue 可以被多个消费者均摊消费（集群模式）

顺序消息需保证同一 Key 消息进入同一 Queue

队列数量由创建 Topic 时指定（或者通过 Broker 配置的默认值）

类型

写队列

用于生产者向 Topic 写入消息时的队列数量

决定了并发写入能力

读队列

用于消费者从 Topic 读取消息时的队列数量

决定了消费端可以并行消费的队列数量

注意：

写队列是消息存储的物理队列

读队列是消费端并行读取队列的逻辑分配

消费者消费的是 Broker 上的写队列消息

RocketMQ 消息类型有哪些？

普通消息（Normal Message）

没有特殊属性，直接发送、存储、消费。

顺序消息（Ordered Message）

局部顺序（同一个业务的key的消息进入到同一个队列中）

实现方式

消息进入队列之前，会经过队列选择器，队列选择器根据key路由，相同的key会进去到同一个队列中

消费者设置顺序，保证消息是按照发送时候的前后顺序来被消费的。

机制：

一个 MessageQueue（分区）只会分配给一个线程消费；

该线程会按照消息在队列里的存储顺序，一条一条地拉取、处理；

在消费完成前，这个队列不会被别的线程抢走。

延时消息（Delayed Message）

消息不会马上投递，而是等到指定的时间点后才可被消费。

RocketMQ 内部是通过定时轮询机制 + 延时等级（level）来实现的（默认支持 18 个固定延时等级，比如 1s、5s、10s、30s、1m、2m、…、2h）。

应用场景：

订单 30 分钟未支付则取消

用户注册后 1 小时发送提醒邮件

事务消息（Transactional Message）

用于分布式事务场景。

RocketMQ 提供两阶段提交：

先发送一条半消息（Half Message），消费者不可见。

执行本地事务逻辑。

根据事务结果提交/回滚消息（如果超时未确认，Broker 会回查生产者）。

批量消息（Batch Message）

生产者可以一次发送一批消息，减少网络开销，提高吞吐量

rocketMq 消费群组中，多台服务器消费消息，还是一台服务器消费消息？

看消费模式和消费组（Consumer Group）的配置

集群模式

消费者组内有多个服务实例，消费同一个topic的消息

特点

同一个消息只会被组内的一个服务实例消费

多台服务器之间实现负载均衡，消息被均摊。

子主题

广播模式

消费者组内的每一个实例会消费topic的每一条消息

特点：

同一个消费组的每条消息每个实例都会消费一次

不做负载均衡，每个实例都收到完整消息

集群模式下消费的负载均衡是如何实现的？

每个消费者组中的消费实例只会去消费某些队列

每个队列在同一个消费组中只会被一个实例消费

队列分配策略

RocketMQ 内置了几种队列分配策略，最常用的是平均分配

示例：

Topic 有 4 个队列：Q0、Q1、Q2、Q3

消费组有 2 个消费者：C1、C2

分配结果：

消费者
分配队列
C1
Q0、Q1
C2
Q2、Q3

RocketMQ 消息存储机制

存储文件结构

RocketMQ 所有消息都存储在 Broker 的磁盘上

核心文件

CommitLog（消息日志）

内容

按照顺序存储所有的消息

每条消息内容

topic，队列，消息体，属性

默认文件大小为1GB,写满之后，新建一个消息日志继续写

ConsumeQueue（消费队列）

特点

每一个MessageQueue对应一个ConsumeQueue 文件

内容

记录消息在消息日志中的物理偏移量

消息大小

Tag 的 hash 值（用于消息过滤）

IndexFile（索引文件）

提供按 Key 查询消息的能力，前提是消息发送时候设置了key

消息写入机制

步骤

生产者发消息到broker节点，节点接受到消息写入commitlog中

写入commitlog的时候是按照顺序写入，然后ConsumeQueue去记录该条消息在commitlog中的物理位置偏移量

如果有设置消息 Key，还会写入 IndexFile。

消息消费机制

消费者会他对应的ConsumeQueue 找到消息的物理位置偏移量，再去commiLog中找到具体的消息内容，获取到消息之后，根根据tag过滤

刷盘策略（持久化）

RocketMQ 写 CommitLog 时，有两种刷盘方式

同步刷盘：消息必须写入磁盘成功才返回 → 高可靠。

异步刷盘：写入 PageCache(内存中) 就返回，后台线程再批量写盘 → 高性能。

存储机制特点

顺序写 CommitLog，读取的时候是随机读

多级文件结构（CommitLog + ConsumeQueue + IndexFile） → 兼顾写入性能和检索性能。

PageCache + mmap → 减少系统调用，提高磁盘 I/O 效率。

刷盘 + 主从复制 → 保证消息可靠性。

RocketMQ 消息拉取模型和推送模型？

拉取模型（Pull Consumer）

机制：Consumer 主动向 Broker 发起请求，拉取消息。

Consumer 需要自己管理：

拉取的起始位置（偏移量）

是否有新消息

轮询频率

优点：

消费者完全掌握主动权，能灵活控制速率。

适合定时批量拉取、低实时性场景。

缺点：

需要自己写轮询逻辑。

实时性差，可能“拉不到”消息。

推送模型（Push Consumer）

机制：RocketMQ SDK 封装了拉取逻辑，表现为 Broker 向 Consumer “推送”消息。

实际上，Push Consumer 底层还是 Pull，只是客户端 SDK 帮你轮询 Broker、拉取消息，再回调到 MessageListener

优点：

使用简单，开发者只需要写回调逻辑。

实时性好，消息几乎一到 Broker 就会被消费。

缺点：

速率由 Broker 控制，Consumer 可能被“推爆”，需要消费端限流。

RocketMQ 的特点

本质都是 Pull 模型：Broker 不会主动往 Consumer 发消息。

Push 是 SDK 封装的 Pull：SDK 内部起一个线程循环拉取消息，再“推送”给业务代码。

所以 RocketMQ 既能支持高实时（Push），也能支持按需批量（Pull）。

延迟消息实现？

等时间到了才会把消息转发给真正的topic,和queue中，消息才能被拉取到

延时等级

1s 5s 10s 30s
1m 2m 3m 4m 5m 6m 7m 8m 9m 10m
20m 30m
1h 2h

过程

1.生产者给消息设置一个延时等级，消息会被存储在特殊的延时队列中，

2.定时任务每100ms执行一次，看有没有延时消息，存在就会把延时topic上的消息写入到真正的topic和Commitlog中

3.然后 Consumer 才能拉取到消息，正常消费。

rocketMq事物消息？

事务消息的整体流程

发送半消息

先把消息发送broker节点上，存储为半消息，消费者对半消息不可见

执行本地事务

生产者端执行本地业务逻辑，事物完成之后给broker发送事物状态是成功了，还是需要回滚

成功，则半消息会转成正常消息投递给消费者

失败，则broker删除半消息，不投递

事务回查机制

broker长时间得不到生产者发送的事物消息状态，则会回查生产者该事物消息的状态。

典型应用场景

电商下单：写订单表 + 发送“订单创建成功”消息

金融转账：扣减账户余额 + 发送转账成功消息

库存扣减：扣库存 + 发送库存更新消息

RokectMQ Broker 主从复制

节点类型

主节点

负责接收生产者发送的消息，储存消息，提供给消费者消费

从节点

同步主机的数据，可用于高可用，负载分担消息

一个主节点可以有多个从节点，组成一个集群

nameServer会保存主节点和从节点的对应关系

复制模式

同步复制

流程

1.生产者把消息推给主节点，主节点写入commitLog，

2.等待消息被同步到从机，且从机同步成功，

3.主节点才会返回ack到生产者

优点：保证消息不丢失（Master 挂掉，Slave 也有完整数据）。

缺点：性能较低，写入延迟高，因为要等 Slave 完成同步。

异步复制

流程

2.主节点直接返回ack给生产者

3.消息再异步同步给从机

缺点

Slave 可能缺少部分消息。

优点：吞吐量高，写入延迟低。

RocketMQ NameServer 多节点无状态

功能

轻量级服务发现和路由中心

注册 Broker

Broker 启动时向 NameServer 注册自己的地址和 Topic 信息。

路由查询

Producer/Consumer 启动或发送/拉取消息时，从 NameServer 查询 Broker 的路由信息。

无状态（Stateless）

NameServer 不保存消息，不参与消息存储或投递。

内部只缓存路由表信息，可以丢失，不影响 Broker 和消息。

Producer/Consumer 查询路由信息后可以直接访问 Broker。

支持多节点部署

集群模式下推荐至少部署两台

Producer/Consumer 可以同时连接多个 NameServer，轮询使用

NameServer 挂掉一台不影响集群运行

轻量级、高可用

无状态意味着无需复杂的主备切换或数据同步。

高可用性靠多节点部署实现。

RocketMq集群中从机的作用？

从机的作用

数据冗余和可靠性

从机会复制主机的消息，备份主机的消息，保证消息不丢失

消费容错

除了顺序消费，普通消息是可以从从机拉取消费，提高系统可用性

高可用架构

主机宕机，从机可以切换成主机，保证服务可用

消费者访问 Slave

消费者默认是从主机拉取消息，可以设置从从机拉取消息

为啥在实际的技术选型中Kafka常用作日志数据的收集，而rocketMq常用作业务场景？

消息可靠性

kafka即使开启副本和ack机制依旧会有数据丢失

rocketMq在设计上对消息的可靠性，幂等性，事物消息能够更贴切实际的业务场景

设计初衷不同

Kafka强调高吞吐，批量处理，允许有数据丢失

RocketMQ起源于阿里双十一交易系统，定位是高可靠、严格顺序、金融级别保障

MQ对比

性能对比

示意图

各自优缺点

Kafka

优点

性能卓越，单机写入TPS约在百万条/秒，最大的优点，就是吞吐量高。
时效性：ms级
可用性：非常高，kafka是分布式的，一个数据多个副本，少数机器宕机，不会丢失数据，不会导致不可用
消费者采用Pull方式获取消息, 消息有序, 通过控制能够保证所有消息被消费且仅被消费一次;
有优秀的第三方Kafka Web管理界面Kafka-Manager；
在日志领域比较成熟，被多家公司和多个开源项目使用；
功能支持：功能较为简单，主要支持简单的MQ功能，在大数据领域的实时计算以及日志采集被大规模使用

缺点

Kafka单机超过64个队列/分区，Load会发生明显的飙高现象，队列越多，load越高，发送消息响应时间变长
使用短轮询方式，实时性取决于轮询间隔时间；
消费失败不支持重试；
支持消息顺序，但是一台代理宕机后，就会产生消息乱序；
社区更新较慢；

RabbitMQ

优点

由于erlang语言的特性，mq 性能较好，高并发；
吞吐量到万级，MQ功能比较完备
健壮、稳定、易用、跨平台、支持多种语言、文档齐全；
开源提供的管理界面非常棒，用起来很好用
社区活跃度高；

缺点

erlang开发，很难去看懂源码，基本职能依赖于开源社区的快速维护和修复bug，不利于做二次开发和维护。
RabbitMQ确实吞吐量会低一些，这是因为他做的实现机制比较重。
需要学习比较复杂的接口和协议，学习和维护成本较高

RocketMQ

优点

单机吞吐量：十万级
可用性：非常高，分布式架构
消息可靠性：经过参数优化配置，消息可以做到0丢失
功能支持：MQ功能较为完善，还是分布式的，扩展性好
支持10亿级别的消息堆积，不会因为堆积导致性能下降
源码是java，我们可以自己阅读源码，定制自己公司的MQ，可以掌控

缺点

支持的客户端语言不多，目前是java及c++，其中c++不成熟；
社区活跃度一般
没有在 mq 核心中去实现JMS等接口，有些系统要迁移需要修改大量代码

技术选型

Kafka

日志收集和传输

RocketMQ

RoketMQ在稳定性上可能更值得信赖，业务有并发场景，建议可以选择RocketMQ

RabbitMQ

数据量没有那么大，小公司优先选择功能比较完备的RabbitMQ

子主题

分布式

理论

分布式和微服务区别？

微服务是一种分布式架构的实现形式

微服务天然就是分布式，因为服务可能部署在多台服务器上，通过网络调用通信。

但分布式系统不一定是微服务，例如分布式缓存、分布式数据库、分布式计算集群。

分布式关注的是系统层面的问题

负载均衡、容错、网络分区、节点通信、分布式事务。

微服务关注的是业务层面的问题

服务拆分、模块化、自治服务、独立部署、持续交付、DevOps 支持。

分布式系统的特点有哪些？

多节点协作

系统由多台计算机或服务器组成

节点之间通过网络通信协作完成任务

资源可以共享：计算、存储、数据库、服务

透明性（Transparency）

分布式系统对用户和开发者应该表现为单一系统：

可扩展性（Scalability）

系统可以通过增加节点扩展处理能力

多节点协作、透明性、可扩展性、容错性、高并发以及一致性挑战，同时系统复杂性高，需要通过架构设计和中间件解决

什么是 CAP 定理？

在一个分布式系统中，**一致性（Consistency）、可用性（Availability）、分区容错性（Partition Tolerance）**三者不能同时完全满足，只能同时满足两个

Consistency（一致性）

所有节点在同一时间看到的数据是一致的，即同一数据的读操作总是返回最新写入结果。

Availability（可用性）

系统始终对外提供服务，每个请求都能得到响应（可能不是最新数据）。

Partition Tolerance（分区容错性）

系统可以在网络分区（节点之间无法通信）情况下继续运行

重点：在网络分区发生时，只能选择一致性和可用性其中一个。

BASE 理论？

BASE 理论是分布式系统中对数据一致性的一种设计理念

BASE 理论是 CAP 定理在系统可用性优先时的设计思想，BASE 是 “可用性优先、最终一致性” 的实践策略

B（基本可用）

S（最终一致性）

A（软状态）

强一致性、最终一致性、可用性优先

强一致性（Strong Consistency）

任何时刻，所有节点对同一数据的读写结果都是一致的

特点

数据同步严格，读写操作通常是同步阻塞

场景

金融交易系统

库存扣减系统

对数据一致性要求极高的业务

最终一致性（Eventual Consistency）

系统允许短时间内数据状态不一致，但经过一段时间后，所有节点的数据最终会收敛到一致

特点

写操作快速返回，提高可用性

节点之间通过异步同步或消息队列保证最终一致

临时的不一致可能导致读到旧数据或冲突

场景

社交媒体动态、点赞计数

缓存系统

大规模分布式存储（Dynamo、Cassandra）

可用性优先

在系统发生网络分区或节点故障时，仍然尽量提供服务

特点

系统高度可用，不会因为少数节点故障而完全不可用；

数据可能暂时不一致，需要通过最终一致性或补偿来修正

场景

秒杀或高并发访问的电商系统

海量日志、监控、统计系统

实战

分布式事物

什么是分布式事务

在多个独立节点或服务上执行的一组操作，要么全部成功，要么全部回滚，以保证系统数据一致性。

特点

涉及多个数据库或微服务

操作分布在不同物理节点

系统需要保证 ACID 特性（原子性、一致性、隔离性、持久性）

分布式事物解决方案

XA

XA事物理论基础

同一个服务中操作多个数据库

2PC协议

协议定义

一种原子承诺协议，一种分布式算法，协调参与分布式事物的所有应用提交事物，或者回滚事物

2PC协议过程

阶段1：准备阶段

1、协调者向所有事物参与者发送事物内容，并等待所有参与者执行的结果答复

2、各参与者执行事物操作，并且记录事物日志，但是不提交事物；

3、参与者向协调者反馈事物执行的结果；

阶段2：提交阶段（回滚阶段）

提交事物

1、协调者向所有参与者发送事物提交消息；

2、参与者提交事物，释放事物锁定期间的资源；

3、参与者向协调者反馈事物执行成功消息

4、协调者收到各个参与者执行成功的消息，事物就成功

回滚事物

1、协调者向所有参与者发送事物回滚消息；

2、参与者做回滚操作，释放事物锁定期间的资源；

3、参与者向协调者反馈事物执行成功消息

4、协调者收到各个参与者执行成功的消息，事物就中断

2PC协议示意图

阶段1：

阶段2：

2PC协议问题

最大问题

同步阻塞问题

参与者向协调者反馈事物执行的情况，直到等到协调者反馈，是做提交还是回滚操作；之间的时间参与者都是处于阻塞状态；

数据不一致问题

如果参与者或者协调者，一方不可以用，导致事物数据不一致；

解决方式

依赖于数据库支持XA事物模型

主流数据库：mysql、oracle、sqlserver、postgre都是支持XA事物

备注：主要是这些数据库都遵守2PC协议

XA事物解决方案

Atomikos

特点

简单方便，无需搭载服务器

使用范围

单体应用多个数据库数据源之间跨库事物处理；

理论可行：XA 可以跨服务数据库

实际不推荐：高并发、跨网络、服务自治受限 → 性能差、阻塞风险大

XA模式优缺点

XA模式是分布式强一致性的解决方案；

简单易理解，开发较容易

对资源进行了长时间的锁定，并发度低

TCC

TCC事物理论基础

最早是由 Pat Helland 于 2007 年发表的一篇名为《Life beyond Distributed Transactions:an Apostate’s Opinion》的论文提出

TCC补充说明

TCC 不是数据库自动事务，是业务层分布式事务模式

TCC 的核心就是通过业务代码手动实现跨服务事务的三段逻辑，以保证最终一致性

适合微服务和高并发场景

关键点在于：

Try 阶段锁定资源

Confirm/Cancel 阶段业务逻辑明确

幂等性设计 + 异常重试

三个阶段概述

Try 阶段

尝试执行，完成所有业务检查（一致性）, 预留必须业务资源（准隔离性）

Confirm 阶段

确认执行真正执行业务，不作任何业务检查，只使用 Try 阶段预留的业务资源，Confirm 操作要求具备幂等设计，Confirm 失败后需要进行重试。

Cancel 阶段

取消执行，释放 Try 阶段预留的业务资源。Cancel 阶段的异常和 Confirm 阶段异常处理方案基本上一致，要求满足幂等设计

TCC解决方案

seata

TCC事物特点

并发度较高，无长期锁定事物资源

开发量较大，需要自己提供try,confirm，cancel接口

一致性好

TCC适用于订单类业务，对中间状态有约束

TCC事物流程图

流程图

3PC协议

背景来源

主要是为了解决2PC中同步阻塞问题；

特点：

非阻塞协议，在实体提交或者终止之前增加一种超时机制，当超过这个时间上线事物还未提交，就会把该事物绑定的资源释放

3PC过程

阶段1：投票

1、协调者接收到事务请求后，向所有参与者发送能否提交请求，等待参与者返回信息

备注：如果协调者在接收事务请求时出现故障或者不可用，协调者将直接中止事务

2、参与者接收到协调者的的是否提交事物请求后，发送是否可以提交事物请求

阶段2：预提交

1、协调者，在超时时间内收到了各个参与者返回的可以提交按钮

备注：如果参与者都同意后会向协调者回复yes消息并进入准备状态，如果参与者获取资源失败或者出现不可用会回复no中止事务

2、协调者，向各个参与者发送预提交消息，参与者执行事物，并且记录日志，但是不做提交操作，并将执行结果返回给协调者；

阶段3：提交或者回滚

1、协调者接受到各个参与者发送回来的消息；

2、根据消息，做出是提交事物，还是回滚事物的决定，然后将将消息发送给各个参与者；各个参与者再根据协调者发送的消息，做回滚或者提交，并释放事物资源，向协调者反馈消息；

事物回滚情况

1、阶段1如果有返回不能提交事物

2、阶段2事物执行失败

3、预提交阶段中，协调者超时未收到消息

自动提交事物

阶段3参与者未收到协调者发送出来的提交或者回滚消息，那么就会自动提交事物

3PC问题

阶段3参与者未收到协调者发送出来的事物回滚的消息，那么参与者都是自动提交，就会造成事物不一致的情况；

AT

AT事物

一种自动化的分布式事务实现模式

核心思想是通过自动记录操作前后的数据状态（Undo/Redo），在分布式环境中实现事务的原子性和一致性，无需手动拆分三段逻辑（Try/Confirm/Cancel）

协议

数据库层的补偿事务协议

使用特点

单服务多数据源的 AT

核心：每个数据源都在本地事务中执行

系统通过 Undo/Redo 日志拦截数据库操作

事务协调器（TC）只需要指挥本地事务提交或回滚

这种场景非常适合 AT，回滚机制简单、自动

多服务情况下不适合

AT事物特点

业务无需编写各类补偿操作，回滚由框架自动完成

AT事物解决方案

seata

AT事物示意图

示意图

saga

saga事物理论基础

一种面向微服务的分布式事务模式，通过将全局事务拆分为一系列本地事务，并为每个本地事务定义补偿操作（Compensation），保证最终一致性

协议性质：属于补偿事务协议，但更偏流程编排

核心思想：

不依赖数据库底层事务

不阻塞资源

通过顺序执行本地事务 + 补偿回滚实现分布式事务一致性

saga事物特点

优点

事物并发度高，不会长时间锁定资源

缺点

需要定义补偿相关操作，代码量大

一致性弱，采用补偿机制实现事物一致性

Saga 模式的补偿操作

同步执行、异步消息驱动、定时任务方式实现，但都必须保证幂等性和逆向操作，保证全局事务最终一致性。

具体实现

同步补偿

特点：当某个事务失败时，立即同步调用已执行事务的补偿操作

优点：补偿及时，数据最终一致性快

缺点：阻塞当前事务流程，如果补偿操作耗时或失败，需要重试处理

T1: 创建订单 → 成功
T2: 扣减库存 → 失败
立即调用 T1 补偿：
T1: 取消订单 → 同步执行

异步补偿（消息驱动）

特点：失败时将需要补偿的操作发送到消息队列，由异步服务处理

优点：非阻塞，提高系统吞吐量

缺点：短时间内系统可能不一致，需要设计重试机制

常用技术：RabbitMQ、Kafka、RocketMQ 等消息队列

T1: 创建订单 → 成功
T2: 扣减库存 → 失败
T1 补偿消息发送到队列 → 异步服务消费并取消订单

定时补偿 / 补偿任务

特点：失败事务将补偿任务写入数据库或任务表，由后台定时任务扫描执行

优点：系统高可用，适合网络波动或服务宕机场景

缺点：补偿有延迟，可能造成短时间不一致

T1 补偿操作写入任务表：status=pending
后台任务扫描任务表执行补偿
执行完成后更新 status=done

幂等补偿

说明：无论补偿操作被调用多少次，结果都是相同的必要性：消息重试、网络失败、重复消费等场景必须保证幂等性，否则可能造成二次扣减或重复操作

取消订单操作：
if (order.status != CANCELLED) {
order.status = CANCELLED
refundPayment()
}

补偿操作设计原则

逆向操作

补偿操作应该逆转原操作的效果

如库存扣减 → 库存回滚

可幂等

确保多次执行不会破坏系统状态

异步 + 重试

尽量通过消息或定时任务实现异步补偿

异常情况要支持多次重试

可观察性

补偿操作要有日志、监控和报警，方便排查异常

saga事物解决方案

方案差别

1、思路不一样

最大努力通知型，消息通知方需要不断的通知消息发送方，来保证最终一致性

可靠消息一致性，实用通知方保证把消息发送出去，一致性是由消息发送方来保证的；

2、技术解决方向不同

最大努力通知，解决的是消息接收到了之后的一致性；

可靠消息，解决的是消息发出到接收的一致性；

3、使用场景不一样

最大努力通知型，关注的交易后的通知事物；

可靠消息一致性，关注的整个交易过程的事物；

具体实现方案

最大努力通知型

1、中间事物参与者提供查询事物是否成功接口；2、后续事物参与者调用该接口，获取事物是否成功消息

特点

利用接口查询做补偿

事物流程图

流程图

消息最终一致型

1、中间事物参与者发送事物成功或者失败的消息；2后续事物参与者订阅消息完成最终事物

特点

利用消息队列来通知消息

事物流程图

流程图

Saga事物示意图

示意图

Saga模式使用场景

事物流程比较长

对中间过程不敏感的业务

本地消息表 / Outbox Pattern

不算严格的分布式事务，而是利用消息队列保证最终一致性。

侧重点是“先把消息和业务操作写在一个本地事务里”，再异步投递消息。

可靠消息 + 最终一致性

属于 Outbox 的“标准化升级版”，依赖支持事务消息的 MQ。

也是最终一致性方案，但不是数据库级分布式事务。

对账 / 补偿机制

不是分布式事务协议，而是事后弥补不一致的手段。

适合高吞吐、允许临时不一致的系统（电商订单、积分、库存校对）。

解决方案技术选型

单体服务，跨数据

XA

AT

单服务多数据源XA，AT模式的区别

XA：严格 2PC，每个库都锁住资源，强一致但性能低

AT：基于 undo/redo 日志，事务本地提交，出现异常可回滚，高性能、柔性一致

跨服务，数据实时性高

TCC

跨服务，数据实时性低

saga

分布式系统中用户注册、下单、支付流程如何保证一致性？

1.用户注册一致性

场景：注册时需要写入用户表，同时可能需要初始化账户、发放优惠券、发送注册消息等。

常见方案：

本地事务 + 事件驱动：

本地事务

用户服务先写用户表（本地事务保证一致）。

事件驱动

通过消息队列（Kafka/RabbitMQ/Redis Stream）异步通知账户服务、优惠券服务，有新的用户注册了

在同一事务里写入 “注册成功事件” 到消息表。

保证：即使下游失败，消息会重试，最终达到一致。

幂等处理：下游系统处理事件要支持幂等（防止重复扣减或重复发券）。

2. 下单一致性

场景：用户下单，需要写订单库，同时扣减库存。

挑战：订单和库存不是一个数据库，不能直接用传统事务。

常见方案：

TCC（Try-Confirm-Cancel）：

Try：冻结库存（不是直接扣减），订单状态为“待确认”。

Confirm：下单成功后确认扣减库存，订单状态更新“已创建”。

Cancel：失败时释放冻结的库存，订单状态更新“取消”。

子主题

本地消息表 / Outbox Pattern：

订单服务本地事务写订单表 + 订单消息。

订单消息发送给库存服务，扣减库存。

如果消息丢失，库存服务通过定时任务扫描未处理订单。

可靠消息 + 最终一致性：

订单成功 → 发送扣库存消息。

库存扣减成功 → 回调或再发消息确认订单。

失败则补偿。

3.支付一致性

场景：支付涉及订单服务、支付服务（可能还有第三方支付平台，如支付宝/微信）、库存服务。

挑战：第三方支付结果通知是异步的，可能延迟或丢失。

常见方案：

支付状态机：

订单初始为 “待支付”。

支付服务收到支付请求 → 调用第三方。

第三方异步回调支付结果 → 更新支付服务状态。

支付服务再通知订单服务，更新订单为“已支付”。

对账 / 补偿机制：

定时对账：定时从第三方拉取支付状态，修正本地状态。

确保最终一致。

幂等性：订单更新“已支付”时要保证幂等，避免重复更新。

4. 整体一致性设计思路

避免分布式强一致事务：因为性能差、可用性低。

采用最终一致性：通过消息队列、补偿机制、定时对账来兜底。

保证幂等性：所有跨服务调用、消息消费都要保证幂等。

异常场景处理：

注册消息丢失 → 消息队列重试。

下单库存不足 → 回滚订单状态。

支付通知丢失 → 定时对账。

分布式锁

什么是分布式锁？

分布式锁（Distributed Lock）是一种在分布式系统中控制共享资源访问的机制

目的

保证同一时刻只有一个节点/进程访问某个资源

实现方式

基于数据库实现

思路

思路：通过数据库表记录锁状态（如 lock_table），利用事务或唯一索引实现互斥

示例：

CREATE TABLE lock_table (
lock_key VARCHAR(64) NOT NULL,
owner_id VARCHAR(64) NOT NULL,
created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
PRIMARY KEY (lock_key)
);

INSERT INTO lock_table (lock_key, owner_id) VALUES ('order:123', 'client1');
-- 如果插入成功，则获取锁；失败表示锁被占用

优点：简单，容易实现

缺点：数据库压力大，性能低，不适合高并发

Redis分布式锁

使用redisson连接方式

操作步骤

1.在try catch外面获取锁

通过RedisClient对象获取到RedissionLock对象

2.在try catch中加锁

通过RedissionLock对象进行加锁

分支主题

3.在finally里面解锁（防止死锁，解不了锁）

原理

因为redis的crud都是单线程的，通过想Redis中设置key,value的方式

设置成功，说明当前就获取到了Redis的锁

设置失败，说明其他请求已经向Redis中设置过了当前值，其他线程获取到了锁，当前线程会阻塞等待获取锁；

Redis的SETNX命令给向reids中添加键值对，key不存在就是添加成功，key存在就添加失败

1、添加成功相当于获取到redis锁

2、添加失败相当于未获取到redis锁

3、redis删除该key，相当于释放了锁

Lua脚本加锁过程

1.先判断key是否存在，不存在才会加锁；

2.如果key存在，那么通过lua脚本判断，获取锁的客户端id是否和当前客户端的id相同，也就是进行可重入判断；

3.如果客户端id也不一样，那么会返回一个当前获取锁需要等待的时间，并且进入while死循环中等待获取锁；

设计需要注意的点

适时释放锁

1、锁的释放操作需要放在finnaly代码中；

未设置，程序异常，导致当前代码永远死锁

2、给key设置超时时间；（相当于设置锁的有效期时常）

防止获取到锁的程序，由于某种原因一直不释放锁，阻塞后续线程执行

确保sentx命令还有设置超时命令是同一个原子操作；

该操作由redis提供相关的操作命令

防止sentx命令执行完成，再去执行设置超时时间中间，reids宕机；

加锁，解锁两个操作都是同一个线程

防止，自己设置的锁被其他业务误删；

锁需要具备可重入性

子主题

锁需要具备阻塞和非阻塞特性

原因

获取不到锁的线程，需要让这些线程做获取的锁的等待从而可以执行锁中间的代码，而不是直接返回到客户端

解决方式

死循环不断的尝试获取锁操作，获取到锁操作后，跳出死循环；

锁失效

原因

锁失效后，其他线程可以直接获取到锁对象，两个线程同时执行锁中间的代码，无法保证串行执行；

解决方式

需要给锁有效期续命

高并发分布式锁设计

核心思想

分而治之，类ConcurrentHashMap种的分段锁

将需要被并发访问的数据拆分成多份，每一份数据对应设置一个分布式锁

案例

高并发下秒杀商品，商品库存有1000个，将商品库存缓存到10个key，value中，每一个key value的缓存只有100个，这样并发度就是原来的10倍

特别注意：

当获取的key对应的库存数据为0时候，需要释放当前锁，且需要再次获取其他库存不为0的锁；

分布式锁使用场景

1、批量操作防止重复操作

背景说明

运营后台需要针对线下商品的批量操作，一个商品可以绑定200-300个门店，批量100个商品就会有2W-3W条数据更新

2W-3W条数据，使得程序响应过慢，运用以为操作失败，然后接着继续狂点，导致服务器内存溢出宕机；

解决方式

方式1

1、获取到批量操作的商品id，按照大小排序，获取对应的uuid值，作为key,也就是redis的锁

2、后面重复操进来的数据，发现锁已经被获取，就放弃执行当前操作，显示已经在执行中；

2、显示抢购商品秒杀活动

背景说明

以鸡蛋，大白菜，食盐等商品做1毛钱秒杀活动，达到线上引流目的

解决方式

1、初始化分段锁信息

key为商品id，value为hash表，hash表中的字段就是各个子锁key，值为库存数据

2、用原子类的Long记录请求请求数量

3、对请求数量按照锁的个数取模，以此来确定需要访问具体的是哪个子锁

4、尝试sentx操作，key为子锁key,为第三步中获取的value为库存

5、获取到锁之后，执行业务代码，然后在最后更新hash表中的库存数据，也更新当前子锁对应库存数据

6、最后解锁

7、未获取到锁的线程，在做死循环自旋的时候，每次sentx操作之前都是需要获取hash表中库存数据；确保获取的库存数据是最新数据

ZK分布式锁

操作步骤

1.通过zkClient对象创建临时节点，作为加锁

2.通过zkClient对象删除临时节点，作为解锁

原理

1.zk是不允许创建相同的临时节点

2.如果zkclient对象发现已经相同的临时节点已经存在了，那么就会阻塞被阻塞；

3.阻塞实际上就是等待创建了这个节点的客户端去删除这个临时节点；

4.阻塞结束之后，创建临时节点，就获取到了锁

本质

zk不允许重复创建临时节点

有创建临时节点，就会客户端就会被阻塞

优点：可靠性高、自动失效

缺点：实现复杂，对 Zookeeper 依赖强

全局唯一id生成

分布式Id要求

全局唯一

全局业务中必须要是唯一

趋势递增

这个id最好是能递增

高性能

高可用

接入方便

全局唯一id生成方式

UUID

优点

简单

无网路消耗

缺点

无业务意义

不是递增

存储消息空间大

UUID作为数据库主键，性能低下

使用场景

数据库实现方式

数据库自增id

方式概述

获取数据库自增的主键作为全局ID

优点

实现简单

id是递增

数值类型查询速度快

缺点

如果数据是单节点，无法完全保证数据的高可以用

数据库多主模式

方式概述

给几台数据库服务器自增时候设置相应的步长（比如说，自增3，自增4），获取到自增id

优点

解决单节点，并不能高可用问题

缺点

不利于后续扩容

号段模式

方式概述

从数据库批量获取自增ID

优点

批量减少数据库压力

号段方式是推荐的使用方式

ZK

实现概述

通过node节点版本生成序列号

可以生成32位，64位

redis

实现概述

利用的incr命令实现原子的自增

雪花算法

实现概述

正数位（占1比特）+ 时间戳（占41比特）+ 机器ID（占5比特）+ 数据中心（占5比特）+ 自增值（占12比特），总共64比特组成的一个Long类型。

百度uid-generator

和雪花算法类似

优点

可自定义时间戳，机器ID，序列号

美团Leaf

同时支持号段模式，雪花算法模式，可以切换

滴滴（Tinyid）

号段模式的实现

分布式缓存

分布式缓存常见策略：LRU、FIFO、LFU、TTL，应用场景？

LRU（Least Recently Used，最近最少使用）

原理

淘汰最长时间没有被访问过的数据。

实现方式

双向链表 + 哈希表（O(1) 时间复杂度）

应用场景

热点数据频繁访问

demo

电商商品详情、用户会话缓存

优势：高命中率，适合访问模式变化频繁

劣势：实现略复杂，需要维护访问顺序

FIFO（First In First Out，先进先出）

原理

淘汰最早放入缓存的数据

实现方式

队列（Queue）管理缓存顺序

应用场景

数据访问比较均匀，没有明显热点

临时缓存、批处理数据

优势：实现简单

劣势：可能淘汰仍热的数据，命中率低

LFU（Least Frequently Used，最不经常使用）

原理

淘汰历史访问次数最少的数据。

实现方式

哈希表 + 计数器，记录每个 key 的访问次数

应用场景

高频热点数据固定且访问频率差距大

视频播放量统计、排行榜缓存

优势：热点数据长期保留，命中率高

劣势：需要维护访问频率，计数器可能随时间膨胀，需要衰减策略

TTL（Time To Live，过期时间）

原理

为缓存数据设置过期时间，超过时间自动删除

实现方式

Redis 每个 key 可设置 EXPIRE 时间

应用场景

数据本身有时效性，例如：

会话信息（Session）

验证码

秒杀活动库存缓存

优势：简单、保证数据不过期

劣势：无法保证热点数据长期存在，需要结合 LRU/LFU

选择方案(组合使用)

热点数据 + 时效性数据

LRU + TTL

访问频率差异大且长期热点

LFU + TTL

简单缓存且均匀访问

FIFO + TTL

Redis与MemCache的区别

线程操作

redis数据处理是单线程，memcache是多线程处理

数据结构

Redis支持更多更复杂的数据结构，memcache只支持keyvalue的字符串数据；

数据安全性

Redis支持数据的持久化，会把数据同步到磁盘上；memcache不支持数据的持久化

数据备份

Redis支持数据备份，需要开启主从模式；memcache不支持数据备份

过期策略

REDIS支持更多的过期策略；memcache支持的过期策略少

设计分布式缓存架构，如何保证缓存一致性？

Redis / Zookeeper 在分布式场景中的作用？

Redis常见用途

分布式锁

分布式缓存

计数器 / 限流

Zookeeper常见用途

服务注册与发现

节点临时注册，客户端可感知服务上下线

分布式锁 / 选主

分布式定时任务

主要解决问题

微服务的分布式定时任务核心就是保证同一任务在集群中只执行一次

场景问题

重复执行：同一任务被多个实例同时执行

任务丢失：某个实例宕机，任务无法执行

负载不均：任务无法均匀分布到不同实例

所以需要分布式定时任务调度来保证任务只执行一次，并可容错和扩展。

分布式定时任务设计要点

任务幂等：任务执行可能重复，业务逻辑需要幂等

容错处理：任务失败可重试、迁移到其他实例

任务分片：大任务可分片执行，均衡负载

监控和报警：任务延迟、失败、执行次数异常需报警

XXL-JOB如何支持分布式调度、任务分片？

分布式调度实现

任务调度

任务注册：Executor 启动时向 Admin 注册自己（IP + port）

任务触发：Admin 根据 Cron 或触发规则生成调度列表

分配任务：

查询活跃 Executor 列表

根据任务分片策略或负载均衡策略，把任务派发给特定 Executor

心跳监控：

Executor 定期心跳 → Admin 判断健康状态

如果某 Executor 挂掉 → 重新分配任务给其他 Executor

分布式锁保障单机执行

Admin 调度任务时，使用数据库或内存锁，确保同一分片任务在集群中只执行一次

Executor 执行前再次校验任务状态，避免重复执行

任务分片机制

把一类任务拆成 N 份，由不同 Executor 执行，减少单机压力

分配规则：Admin 根据分片总数、活跃 Executor 数量，均匀分配

分片参数传递：

Executor 执行任务时，会带上 shardingIndex 和 shardingTotalCount

任务逻辑内部根据分片参数处理对应的数据

优点：

大任务拆分成多份并行执行

集群扩容后，分片重新分配，支持弹性伸缩

比如说我需要根据一个表里面的数据来做定时任务，XXL-JOB是如何分片？

demo

背景场景

假设有一个大表 order，每天需要处理数百万条数据

单机执行容易压力过大 → 需要分片并行处理

目标：每个 Executor 只处理表的一部分数据，并行完成任务

分片参数

每个分片会传递两个核心参数给 Executor：

参数含义
shardingIndex 当前分片的序号（0 开始）
shardingTotalCount 总分片数

比如 shardingTotalCount=4，shardingIndex=0~3，表示任务被拆成 4 份

分片数量来源

用户在任务配置时指定

用户在任务配置时指定在 XXL-JOB 管理后台创建任务时，可以设置：

总分片数（Sharding Total Count）

分片参数（Sharding Item Parameters）

策略驱动（可选）

XXL-JOB 默认分片策略是平均分配

可自定义分片策略，如：

按节点权重分配

按业务数据量分配

分片执行逻辑

Admin 在触发任务时，根据活跃 Executor 数量和任务配置生成分片列表

每个 Executor 接收到分片参数后，在任务逻辑中通过分片参数计算处理的数据范围

分片执行完成 → Admin 收集状态 → 标记任务完成

分片优点

并行执行：大表任务拆分成多片，提高效率

Executor 弹性：Executor 扩容后，Admin 重新分配分片

容错：某 Executor 异常 → 其他 Executor 可接管未完成的分片

简单易控：通过 shardingIndex + shardingTotalCount 控制数据划分

单点登录实现

设计一个秒杀系统，如何保证高并发下库存不超卖？

java诊断与链路追踪监控

链路追踪

链路追踪工具

cat

产品定位

CAT（Central Application Tracking）是一个实时和接近全量的监控系统

侧重于Java应用的监控

应用场景

mvc框架

rpc框架

持久层框架

分布式缓存框架

提供各项性能监控，健康检查，自动报警

cat系统的设计要求

实时处理

时间越久，监控的信息价值会锐减

全量数据

监控的是所有的请求数据

高可用

应用服务挂了，监控还在，可以辅助排查定位问题

高吞吐

全量数据的接收和处理能力

故障容忍

监控本身的故障不会影响业务代码的正常运行

可扩展

支持分布式，跨IDC部署，横向扩展的监控系统

不保证可靠

cat监控系统的可靠性可以做到四个九

cat整体设计

主要分为三个模块

CAT-client

应用应用埋点的底层sdk，的客户端

CAT-consumer

实时消费，处理客户端提供的数据

CAT-home

给用户展示的控制端平台

结构展示

客户端信息收集

1、为每一个线程创建一个ThreadLocal(线程局部变量)；

2、执行业务逻辑的时候，就把请求对应的监控信息存储在线程的局部变量中

请求对应的上下文其实是一个监控树的结构

3、业务线程执行结束之后，将监控对象放入一个异步内存队列中；

4、cat会有一个消费线程将异步队列中的信息发送给服务端；

核心监控对象

Transaction

一段代码运行时间，次数

Event

一行代码的执行次数

Heartbeat

jvm内部的一些状态信息，Memory.Thread等

Metric

一个请求调用的链路统计

序列化和通信设计

序列化

cat序列化协议是cat自己自定义的协议

通信

netty来实现nio

存储设计

cat报表数据

cat原始logview数据

整体架构设计图

设计图

子主题

流程说明

1、客户端向服务端发送消息基于netty-nio实现

2、服务端接受消息放入内存队列，开起一个线程消费来分发这个内存队列中的消息

3、消息解析完成站会，存入本地磁盘，然后再异步上传到HDFS

实时分析

总个数

总和

均值

最大，最小

吞吐

95线，99线，999线

诊断工具

arthas-阿尔萨斯

产品自我定位

线上监控诊断产品

大大提升线上问题排查效率

新名词学习

Perf

性能剖析（performance profiling）和代码优化

指标参数说明参考文档

https://blog.csdn.net/web18224617243/article/details/123953692

https://blog.csdn.net/Cr1556648487/article/details/126816451

https://docs.oracle.com/javase/8/docs/platform/jvmti/jvmti.html

https://arthas.aliyun.com/doc/getstatic.html

统计指标项目学习

java.ci.totalTime

jit编译花费的总时间

命令列表

常用命令

查看 logger 信息，更新 logger level

logger

查看当前 JVM 的 Perf Counter 信息

perfcounter

子主题

生成发放火焰图

profiler

内存相关

下载当前内存信息

heapdump

heapdump /tmp/dump.hprof

下载当前内存信息到某个目录下

子主题

查看jvm当前内存信息

jvm

查看当前 JVM 信息

查看 JVM 内存信息

memory

查看当前线程信息，查看线程的堆栈

最忙的几个

子主题

所有

子主题

编译文件相关

dump 已加载类的 bytecode 到特定目录

子主题

dump

反编译指定已加载类的源码

子主题

编译.java文件生成.class

子主题

查看 JVM 已加载的类信息

sc

子主题

查看已加载类的方法信息

sm

子主题

vmtool 利用JVMTI接口，实现查询内存对象，强制 GC 等功能。

子主题

方法监控

方法执行监控

monitor

输出当前方法被调用的调用路径

stack

方法内部调用路径，并输出方法路径上的每个节点上耗时

trace

方法执行数据的时空隧道，记录下指定方法每次调用的入参和返回信息，并能对这些不同的时间下调用进行观测

tt

函数执行数据观测

watch

参数查看

查看当前 JVM 的环境属性

子主题

查看当前 JVM 的系统属性

子主题

查看，更新 VM 诊断相关的参数

vmoption

子主题

查看指定参数

更新指定的 option

子主题

预览命令

当前系统的实时数据面板

dashboard

子主题

当前系统的实时数据面板，按 ctrl+c 退出

查看当前类静态属性

getstatic

预览

子主题

查看 classloader 的继承树，urls，类加载信息

输出当前目标 Java 进程所加载的 Arthas 版本号

文件相关

打印文件内容，和 linux 里的 cat 命令类似

子主题

打印命令历史

history

实现原理

cpu 使用率是如何统计出来的？

一段采样间隔时间内，当前 JVM 里各个线程的增量 cpu 时间与采样间隔时间的比例

和linux系统类似

具体步骤

首先第一次采样，获取所有线程的 CPU 时间(调用的是java.lang.management.ThreadMXBean#getThreadCpuTime()及sun.management.HotspotThreadMBean.getInternalThreadCpuTimes()接口)

然后睡眠等待一个间隔时间（默认为 200ms，可以通过-i指定间隔时间）

再次第二次采样，获取所有线程的 CPU 时间，对比两次采样数据，计算出每个线程的增量 CPU 时间

线程 CPU 使用率 = 线程增量 CPU 时间 / 采样间隔时间 * 100%

注意事项

命令本身也是需要消耗时间的,会对结果有一定干扰

把统计的时间拉长可以降低命令本身执行的时间损耗

功能概述

1:查看应用 load、内存、gc、线程的状态信息

2:可在不修改应用代码的情况下，对业务问题进行诊断

查看方法调用的出入参

查看方法异常

监测方法执行耗时

类加载信息

监控系统

监控系统的要求

1、快速发现故障

2、快速定位故障

3、辅助进行程序性能优化

监控维度

一、基础资源监控

1. 主机/容器资源

CPU、内存、磁盘、网络IO

容器层：Docker Stats、cAdvisor

2. 节点健康

节点是否在线、负载情况

K8s：Node Condition、Pod 状态

3. 存储和数据库

存储和数据库指标

1. 性能指标

查询响应时间（Query Latency）

单条 SQL 或事务平均耗时，慢查询监控

每秒查询数（QPS/Queries Per Second）

SQL 执行频率

并发连接数

当前活跃连接数 vs 最大连接数

事务吞吐量（TPS/Transactions Per Second）

每秒事务提交/回滚数

锁等待

死锁、行锁/表锁等待情况

缓存命中率

缓存层（如 MySQL InnoDB Buffer Pool、Redis）命中率

事务回滚率

反映异常或错误事务比例

2. 资源指标

CPU 使用率

数据库进程的 CPU 占用

内存使用

数据库缓存、buffer pool、连接缓存等内存使用

磁盘 I/O

读写吞吐量、延迟

网络 I/O

数据库与应用通信流量

数据库空间

数据文件/日志文件大小，剩余容量

3. 健康状态指标

数据库实例是否可用（Ping/Heartbeat）

子主题

主从复制延迟（MySQL、PostgreSQL 等）

数据库错误日志中的异常条数

进程数量/线程池状态

4. 业务指标（可选）

订单数量、支付事务量等业务层面的 DB 指标

这些指标有助于理解数据库负载和业务压力的关系

数据库指标获取（以mysql为例）

数据源

mysql内置监控工具

global_status

QPS、TPS、连接数、慢查询数等

global_variables

配置参数，缓存大小、线程数等

info_schema.*

表大小、索引、行数、锁等待等

perf_schema.*

SQL 执行时间分布、表锁/死锁等

慢查询日志 → 找到耗时长的 SQL

错误日志 → 监控异常事件、死锁、连接失败

数据传输

Prometheus + mysqld_exporter

通过 MySQL 提供的状态信息（主要是系统表和状态变量）采集，再以 Prometheus 可抓取的格式暴露

连接数据库，查询mysql的系统信息和信息表，将这些信息转成Prometheus 格式，通过http接口暴露给Prometheus

二、服务运行监控

1. 服务可用性（Availability）

服务实例是否存活（Health Check）

接口是否可访问（HTTP 200/500 状态码统计）

2. 请求指标监控

接口相关

调用总数

接口调用

错误数

最慢

最快

999线

95线

99线

平均耗时

总耗时

最大并发

平均QPS

错误率（Error Rate）、超时率

QPS（每秒请求数）、TPS（事务数）、延迟（Latency）

Exception监控

异常类型

异常方法：

异常时间

异常数量

堆栈信息

3. 资源消耗

服务容器 CPU/内存使用、线程数、GC频率

4. 容量与伸缩

当前实例数 vs 压力 vs 自动扩缩容阈值

数据库连接池监控

数据库连接池监控指标

连接池使用情况

活跃连接数（Active Connections / Used Connections）

当前正在使用的连接数

空闲连接数（Idle Connections）

可立即使用的空闲连接数

最大连接数（Max Connections）

连接池允许的最大连接数

等待获取连接数 / 阻塞数

当所有连接都被占用时，新的请求等待的数量

连接池性能指标

连接获取时间

获取连接的平均/最大耗时

连接池拒绝请求数

当连接池满时，拒绝的请求或抛出的异常

连接池初始化/关闭事件

监控池生命周期异常

其他辅助指标

连接池泄漏

长时间不释放的连接

数据库端活跃连接数

与应用端连接池使用情况对比

数据库连接池监控指标参数获取

通过连接池自身暴露的监控接口

大多数 Java 连接池都提供内置监控接口

HikariCP
HikariDataSource.getHikariPoolMXBean() → 获取活跃连接、空闲连接、等待数、连接获取耗时
Druid
Druid 提供 StatViewServlet 和 DruidDataSource.getStat() → 全面监控连接池状态
Tomcat JDBC Pool
org.apache.tomcat.jdbc.pool.jmx.ConnectionPoolMBean → JMX 方式暴露指标
C3P0
ComboPooledDataSource.getNumBusyConnections() / getNumIdleConnections() / JMX 支持

集成到应用监控系统

实现方式

Spring Boot + Micrometer

直接采集这些数据；暴露在 /actuator/metrics 或 Prometheus 格式接口

Prometheus

通过 Micrometer 或自定义 exporter 拉取连接池指标，转成Prometheus格式，提供http接口给Prometheus调用

没有现成的针对连接池的exporter工具

jvm监控

jvm监控指标

1. 堆内存（Heap）

Eden / Survivor / Old Generation

Eden区：新对象分配区，频繁GC

Survivor区：短暂存活对象

Old区：长寿命对象，Full GC 发生在这里

指标：

已用 vs 总容量

GC 次数与时间

堆使用趋势

2. 非堆内存（Non-Heap）

方法区/元空间（Metaspace）

存放类元数据和静态信息

指标：

已用 vs 总容量

Metaspace 内存泄漏监控

3. GC 性能

指标：

Minor GC / Major GC 次数

GC 暂停时间（Stop-the-world）

GC 时间占比

4. 线程与类加载

活跃线程数、线程池状态

已加载/卸载类数量

5. JVM 其他指标（可选）

堆外内存（Direct Memory）使用情况

文件句柄、Socket 连接等

常用监控工具

Prometheus + JMX Exporter + Grafana

通过 JMX 获取 JVM 内存、GC、线程等指标。

2. Spring Boot Actuator + Micrometer

简单易集成，指标直接暴露 HTTP 接口。

jvm内存监控参数获取

JMX

概述

全称Java Management Extensions，jdk5引进的技术

java.management包下提供接口

接口功能

ClassLoadingMXBean

获取类装载信息，已装载、已卸载量

CompilationMXBean

获取编译器信息

GarbageCollectionMXBean

获取GC信息，但他仅仅提供了GC的次数和GC花费总时间

MemoryManagerMXBean

提供了内存管理和内存池的名字信息

MemoryMXBean

提供整个虚拟机中内存的使用情况

MemoryPoolMXBean

提供获取各个内存池的使用信息

OperatingSystemMXBean

提供操作系统的简单信息

RuntimeMXBean

提供运行时当前JVM的详细信息

ThreadMXBean

提供对线程使用的状态信息

Java Management API 是 JMX 的 Java 内置实现和封装，使开发者无需手动操作 MBean 就能获取 JVM 指标

JMX架构

分层

资源层

包含 MBean 及其可管理的资源

提供了实现 JMX 技术可管理资源的规范

代理层

充当 MBean 和应用程序之间的中介

远程管理层

为远程程序提供Connector 和 Adapter访问 MBean Server

架构图

核心功能

实现对运行时应用程序动态资源查询

修改对运行时应用程序动态资源配置

利用JMX创建javaBean规则

JMX创建javaBean规则

具体规则

1、创建需要被存入进程的对象；

2、对象必须是接口，且必须以MBean结尾

demo

创建接口

public interface BlackListMBean {
    // 获取黑名单列表
    public String[] getBlackList();
    // 在黑名单列表中添加一个用户
    public void addBlackItem(String uid);
    // 判断某个用户是否在黑名单中
    public boolean contains(String uid);
    // 获取黑名单大小
    public int getBlackListSize();
}

实现接口

public class BlackList implements BlackListMBean {
    private Set<String> uidSet = new HashSet<>();
    @Override
    public String[] getBlackList() {
        return uidSet.toArray(new String[0]);
    }
    @Override
    public void addBlackItem(String uid) {
        uidSet.add(uid);
    }
    @Override
    public boolean contains(String uid) {
        return uidSet.contains(uid);
    }
    @Override
    public int getBlackListSize() {
        return uidSet.size();
    }
}

MBean 注册到 MBeanServer

// 获取 MBean Server
MBeanServer platformMBeanServer = ManagementFactory.getPlatformMBeanServer();

// 创建 MBean 初始黑名单用户为 a 和 b
BlackList blackList = new BlackList();
blackList.addBlackItem("a");
blackList.addBlackItem("b");

// 注册
ObjectName objectName = new ObjectName("com.common.example.jmx:type=BlackList, name=BlackListMBean");
platformMBeanServer.registerMBean(blackList, objectName);

演示

String hostname = "localhost";
int port = 9000;
// 循环接收
while (true) {
    // 简单从 Socket 接收字符串模拟接收到的用户Id
    try (Socket socket = new Socket()) {
        socket.connect(new InetSocketAddress(hostname, port), 0);
        try (BufferedReader reader = new BufferedReader(new InputStreamReader(socket.getInputStream()))) {
            char[] buffer = new char[8012];
            int bytes;
            while ((bytes = reader.read(buffer)) != -1) {
                String result = new String(buffer, 0, bytes);
                String uid = result;
                // 去掉换行符
                if (result.endsWith("\n")) {
                    uid = result.substring(0, result.length() - 1);
                }
                if (blackList.contains(uid)) {
                    System.out.println("[INFO] uid " + uid + " is in black list");
                } else {
                    System.out.println("[INFO] uid " + uid + " is not in black list");
                }
            }
        }
    }
    Thread.sleep(3000);
    System.out.println("[INFO] 休眠 3s ..............");
}

添加jvm配置

-Dcom.sun.management.jmxremote.port=8888 --表示远程jmx的端口
-Dcom.sun.management.jmxremote.authenticate=false --是否要使用用户名和口令验证
-Dcom.sun.management.jmxremote.ssl=false --是否使用安全socket

开通远程接口调用权限

登录远程jvm

已经实现的应用

jconsole

Java内置的实现监控工具 jconsole

消息中间件监控

rabbitMq监控

监控指标

基础设施和核心指标

CPU状态（user、system、iowait&idle percentages

内存使用率（used、buffered、cached & free percentages）

虚拟内存统计信息（dirty page flushes, writeback volume）