Leaf-segment数据库方案
方案
使用数据库的方案上,做了如下改变: - 原方案每次获取ID都得读写一次数据库,造成数据库压力大<br>
改为利用proxy server批量获取,每次获取一个segment(step决定大小)号段的值
用完之后再去数据库获取新的号段,可以大大的减轻数据库的压力
各个业务不同的发号需求用biz_tag字段来区分,每个biz-tag的ID获取相互隔离,互不影响
如果以后有性能需求需要对数据库扩容,不需要上述描述的复杂的扩容操作,只需要对biz_tag分库分表就行
Begin<br>UPDATE table SET max_id=max_id+step WHERE biz_tag=xxx<br>SELECT tag, max_id, step FROM table WHERE biz_tag=xxx<br>Commit
优点
Leaf服务可以很方便的线性扩展,性能完全能够支撑大多数业务场景
D号码是趋势递增的8byte的64位数字,满足上述数据库存储的主键要求
容灾性高:Leaf服务内部有号段缓存,即使DB宕机,短时间内Leaf仍能正常对外提供服务
可以自定义max_id的大小,非常方便业务从原有的ID方式上迁移过来
缺点
ID号码不够随机,能够泄露发号数量的信息,不太安全
TP999数据波动大,当号段使用完之后还是会hang在更新数据库的I/O上,tg999数据会出现偶尔的尖刺
DB宕机会造成整个系统不可用
双buffer优化
Leaf服务内部有两个号段缓存区segment。当前号段已下发10%时,如果下一个号段未更新,则另启一个更新线程去更新下一个号段
当前号段全部下发完后,如果下个号段准备好了则切换到下个号段为当前segment接着下发,循环往复
每个biz-tag都有消费速度监控,通常推荐segment长度设置为服务高峰期发号QPS的600倍(10分钟),<br>这样即使DB宕机,Leaf仍能持续发号10-20分钟不受影响<br>
每次请求来临时都会判断下个号段的状态,从而更新此号段,所以偶尔的网络抖动不会影响下个号段的更新
Leaf高可用容灾
一主两从的方式,同时分机房部署,Master和Slave之间采用半同步方式[5]同步数据
Leaf-snowflake方案
1+41+10+12
workerID
当服务集群数量较小的情况下,完全可以手动配置
服务规模较大,使用Zookeeper持久顺序节点的特性自动对snowflake节点配置wokerID<br>
方案
<br>
启动Leaf-snowflake服务,连接Zookeeper,在leaf_forever父节点下检查自己是否已经注册过(是否有该顺序子节点)
如果有注册过直接取回自己的workerID(zk顺序节点生成的int类型ID号),启动服务
如果没有注册过,就在该父节点下面创建一个持久顺序节点,创建成功后取回顺序号当做自己的workerID号,启动服务
弱依赖ZooKeeper
除了每次会去ZK拿数据以外,也会在本机文件系统上缓存一个workerID文件。当ZooKeeper出现问题,恰好机器出现问题需要重启时,能保证服务能够正常启动。这样做到了对三方组件的弱依赖。一定程度上提高了SLA
解决时钟问题
服务启动时首先检查自己是否写过ZooKeeper leaf_forever节点
若写过,则用自身系统时间与leaf_forever/${self}节点记录时间做比较,若小于leaf_forever/${self}时间则认为机器时间发生了大步长回拨,<br>服务启动失败并报警<br>
若未写过,证明是新服务节点,直接创建持久节点leaf_forever/${self}并写入自身系统时间,接下来综合对比其余Leaf节点的系统时间来判断自身系统时间是否准确,具体做法是取leaf_temporary下的所有临时节点(所有运行中的Leaf-snowflake节点)的服务IP:Port,然后通过RPC请求得到所有节点的系统时间,计算sum(time)/nodeSize。
若abs( 系统时间-sum(time)/nodeSize ) < 阈值,认为当前系统时间准确,正常启动服务,同时写临时节点leaf_temporary/${self} 维持租约
否则认为本机系统时间发生大步长偏移,启动失败并报警
每隔一段时间(3s)上报自身系统时间写入leaf_forever/${self}
由于强依赖时钟,对时间的要求比较敏感,在机器工作时NTP同步也会造成秒级别的回退,建议可以直接关闭NTP同步。要么在时钟回拨的时候直接不提供服务直接返回ERROR_CODE,等时钟追上即可。或者做一层重试,然后上报报警系统,更或者是发现有时钟回拨之后自动摘除本身节点并报警