首页  思维导图  详情

雪花id生成器

2021-02-03 23:54:05   0  举报





AI智能生成

雪花id生成器

作者其他创作

大纲/内容

要求

全局唯一性

不能出现重复的ID号，既然是唯一标识，这是最基本的要求

趋势递增

在MySQL InnoDB引擎中使用的是聚集索引，由于多数RDBMS使用B-tree的数据结构来存储索引数据，
在主键的选择上面我们应该尽量使用有序的主键保证写入性能

单调递增

保证下一个ID一定大于上一个ID，例如事务版本号、IM增量消息、排序等特殊需求

信息安全

如果ID是连续的，恶意用户的扒取工作就非常容易做了，直接按照顺序下载指定URL即可；如果是订单号就更危险了，
竞对可以直接知道我们一天的单量。所以在一些应用场景下，会需要ID无规则、不规则

常见方法介绍

UUID

32个16进制数字，以连字号分为五段，形式为8-4-4-4-12的36个字符

550e8400-e29b-41d4-a716-446655440000

优点

性能非常高：本地生成，没有网络消耗

缺点

不易于存储：UUID太长，16字节128位，通常以36长度的字符串表示，很多场景不适用

信息不安全：基于MAC地址生成UUID的算法可能会造成MAC地址泄露，这个漏洞曾被用于寻找梅丽莎病毒的制作者位置

ID作为主键时在特定的环境会存在一些问题，比如做DB主键的场景下，UUID就非常不适用

MySQL官方有明确的建议主键要尽量越短越好[4]，36个字符长度的UUID不符合要求

对MySQL索引不利：如果作为数据库主键，在InnoDB引擎下，UUID的无序性可能会引起数据位置频繁变动，严重影响性能

类snowflake方案

41-bit

（1L<<41）/(1000L*3600*24*365)=69年

10-bit

1024台机器

避免机器id重复-使用redis，zk，nacos注册或分配id，防止重复

12个自增序列号

2^12个id

理论上QPS约为409.6w/s

优点

毫秒数在高位，自增序列在低位，整个ID都是趋势递增的

不依赖数据库等第三方系统，以服务的方式部署，稳定性更高，生成ID的性能也是非常高的

可以根据自身业务特性分配bit位，非常灵活

缺点

强依赖机器时钟，如果机器上时钟回拨，会导致发号重复或者服务会处于不可用状态

数据库生成

MySQL

利用给字段设置auto_increment_increment和auto_increment_offset来保证ID自增

begin;
REPLACE INTO Tickets64 (stub) VALUES ('a');
SELECT LAST_INSERT_ID();
commit;

优点

非常简单，利用现有数据库系统的功能实现，成本小，有DBA专业维护

ID号单调自增，可以实现一些对ID有特殊要求的业务

缺点

强依赖DB，当DB异常时整个系统不可用，属于致命问题。配置主从复制可以尽可能的增加可用性，但是数据一致性在特殊情况下难以保证。
主从切换时的不一致可能会导致重复发号

ID发号性能瓶颈限制在单台MySQL的读写性能

解决方案

方案

在分布式系统中我们可以多部署几台机器，每台机器设置不同的初始值，且步长和机器数相等

TicketServer1:
auto-increment-increment = 2
auto-increment-offset = 1

TicketServer2:
auto-increment-increment = 2
auto-increment-offset = 2

缺点

系统水平扩展比较困难，比如定义好了步长和机器台数之后，不容易扩展

ID没有了单调递增的特性，只能趋势递增，这个缺点对于一般业务需求不是很重要，可以容忍

数据库压力还是很大，每次获取ID都得读写一次数据库，只能靠堆机器来提高性能

Leaf方案

Leaf-segment数据库方案

方案

使用数据库的方案上，做了如下改变： - 原方案每次获取ID都得读写一次数据库，造成数据库压力大

改为利用proxy server批量获取，每次获取一个segment(step决定大小)号段的值

用完之后再去数据库获取新的号段，可以大大的减轻数据库的压力

各个业务不同的发号需求用biz_tag字段来区分，每个biz-tag的ID获取相互隔离，互不影响

如果以后有性能需求需要对数据库扩容，不需要上述描述的复杂的扩容操作，只需要对biz_tag分库分表就行

Begin
UPDATE table SET max_id=max_id+step WHERE biz_tag=xxx
SELECT tag, max_id, step FROM table WHERE biz_tag=xxx
Commit

优点

Leaf服务可以很方便的线性扩展，性能完全能够支撑大多数业务场景

D号码是趋势递增的8byte的64位数字，满足上述数据库存储的主键要求

容灾性高：Leaf服务内部有号段缓存，即使DB宕机，短时间内Leaf仍能正常对外提供服务

可以自定义max_id的大小，非常方便业务从原有的ID方式上迁移过来

缺点

ID号码不够随机，能够泄露发号数量的信息，不太安全

TP999数据波动大，当号段使用完之后还是会hang在更新数据库的I/O上，tg999数据会出现偶尔的尖刺

DB宕机会造成整个系统不可用

双buffer优化

Leaf服务内部有两个号段缓存区segment。当前号段已下发10%时，如果下一个号段未更新，则另启一个更新线程去更新下一个号段

当前号段全部下发完后，如果下个号段准备好了则切换到下个号段为当前segment接着下发，循环往复

每个biz-tag都有消费速度监控，通常推荐segment长度设置为服务高峰期发号QPS的600倍（10分钟），
这样即使DB宕机，Leaf仍能持续发号10-20分钟不受影响

每次请求来临时都会判断下个号段的状态，从而更新此号段，所以偶尔的网络抖动不会影响下个号段的更新

Leaf高可用容灾

一主两从的方式，同时分机房部署，Master和Slave之间采用半同步方式[5]同步数据

Leaf-snowflake方案

1+41+10+12

workerID

当服务集群数量较小的情况下，完全可以手动配置

服务规模较大，使用Zookeeper持久顺序节点的特性自动对snowflake节点配置wokerID

方案

启动Leaf-snowflake服务，连接Zookeeper，在leaf_forever父节点下检查自己是否已经注册过（是否有该顺序子节点）

如果有注册过直接取回自己的workerID（zk顺序节点生成的int类型ID号），启动服务

如果没有注册过，就在该父节点下面创建一个持久顺序节点，创建成功后取回顺序号当做自己的workerID号，启动服务

弱依赖ZooKeeper

除了每次会去ZK拿数据以外，也会在本机文件系统上缓存一个workerID文件。当ZooKeeper出现问题，恰好机器出现问题需要重启时，能保证服务能够正常启动。这样做到了对三方组件的弱依赖。一定程度上提高了SLA

解决时钟问题

服务启动时首先检查自己是否写过ZooKeeper leaf_forever节点

若写过，则用自身系统时间与leaf_forever/${self}节点记录时间做比较，若小于leaf_forever/${self}时间则认为机器时间发生了大步长回拨，
服务启动失败并报警

若未写过，证明是新服务节点，直接创建持久节点leaf_forever/${self}并写入自身系统时间，接下来综合对比其余Leaf节点的系统时间来判断自身系统时间是否准确，具体做法是取leaf_temporary下的所有临时节点(所有运行中的Leaf-snowflake节点)的服务IP：Port，然后通过RPC请求得到所有节点的系统时间，计算sum(time)/nodeSize。

若abs( 系统时间-sum(time)/nodeSize ) < 阈值，认为当前系统时间准确，正常启动服务，同时写临时节点leaf_temporary/${self} 维持租约

否则认为本机系统时间发生大步长偏移，启动失败并报警

每隔一段时间(3s)上报自身系统时间写入leaf_forever/${self}

由于强依赖时钟，对时间的要求比较敏感，在机器工作时NTP同步也会造成秒级别的回退，建议可以直接关闭NTP同步。要么在时钟回拨的时候直接不提供服务直接返回ERROR_CODE，等时钟追上即可。或者做一层重试，然后上报报警系统，更或者是发现有时钟回拨之后自动摘除本身节点并报警