系统稳定性
2021-01-13 09:49:46 5 举报
AI智能生成
系统稳定性思考
作者其他创作
大纲/内容
4、稳定性建设
容量规划
混沌工程
通过不断给系统找麻烦来验证并完善系统能力
流量调度
容灾&异地多活
容错
分布式
故障机制
日志
链路
快速恢复
5、异地多活
成本
网络
过程思考
阶段性过程工作
主动与被动
0、衡量标准SLB
SLA (服务等级协议,全称:service level agreement)来衡量系统的稳定性
比如99.99%为标准,停机时间52.6分钟,平均到每周也就是差不多1分钟
1、规范
1、研发流程规范
2、开发规约
3、代码及文档管理
4、部署
2、单服务稳定性(业务层面)<br>
开关可控
功能开关,快速下线局部功能,以保证整体服务的可用性
单一职责
核心功能的接口,不应该过多的耦合不属于它的功能
服务隔离
核心业务能够做到熔断和降级
异常兜底
核心业务场景的兜底方法
监控发现
每个服务应该做好对应的监控工作,如有异常应及时响应,不应累积
3、集群稳定性(架构层面)
系统架构
避免单节点
部署发布
分批或蓝绿发布
限流熔断
某个节点故障时,down掉
监控体系
业务监控
系统监控
链路监控
apm监控
压测机制
高并发,容量预估
0 条评论
下一页