高可用方案
对等节点的故障转移
非对等节点的故障转移,通过心跳检测并实施主备切换
接口层面的超时设置、重试策略和幂等设计
降级处理:保证核心服务,牺牲非核心服务,必要时进行熔断;或者核心链路出问题时,有备选链路
限流处理:对超过系统处理能力的请求直接拒绝或者返回错误码
MQ场景的消息可靠性保证,包括producer端的重试机制、broker侧的持久化、consumer端的ack机制等
灰度发布,能支持按机器维度进行小流量部署,观察系统日志和业务指标,等运行平稳后再推全量
监控报警:全方位的监控体系,包括最基础的CPU、内存、磁盘、网络的监控,以及Web服务器、JVM、数据库、各类中间件的监控和业务指标的监控
灾备演练:类似当前的“混沌工程”,对系统进行一些破坏性手段,观察局部故障是否会引起可用性问题
高扩展方案
合理的分层架构
存储层的拆分
按照数据特征维度进一步做水平拆分(分库分表)
业务层的拆分
按照核心接口和非核心接口拆
按照请求源拆(比如To C和To B,APP和H5 )
按照请求源拆(比如To C和To B,APP和H5 )