监控的组成
2021-07-26 15:42:41 15 举报
AI智能生成
监控的组成
作者其他创作
大纲/内容
1、系统监控
内存、cpu、磁盘、load、hsf总体成功率,rt、tair总体成功率
2、服务监控
四大指标
qps
显著上涨、显著下跌、同比或环比下跌/上涨
rt
偶尔抖动,一般不处理
长时间增加,或突然增加,或同比增加,需要关注
成功率
流量小的时候,这个不准
流量大的时候,主要要看成功率
异常数
流量小的时候,主要看异常
服务
对外服务的4大指标
下游依赖服务的4大指标
中间件、缓存的4大指标
错误码
不应是异常,但是很可能除了数据上的错误
需要特殊关注
🚩对于服务系统,只要服务4大指标没问题,都不是大问题
3、业务监控
1、基于日志
业务日志(大的json格式)和监控日志,要区分开,json格式日志解析,容易遗漏和丢失
2、分类
1,按业务划分的流量监控或异常流量监控
2,分类业务的异常归类统计
按业务身份、门店、仓、行业等进行分类统计
一般都要同时有总计报警
3、特殊业务可以特殊定制,灵活性高
4,尤其重视错误码的top统计和报警
4、数据监控
1,基于sql查询
2,在业务系统体现在
超时监控
创单晚
接单晚
合批晚
下发晚
超时履约
积压监控
合批积压
下发积压
仓配餐饮
3,主要目的在于,不关系统怎么样,要保障数据的最终稳定性。🚩对于订单系统,只要数据不出错,都不是大问题
5,资损监控
1,资损场景梳理
2,资损对账
交易-履约 正逆向
履约-仓配 正逆向
特殊标记对账
交易、运费对账
等等
3、BCP对自己写对账、其他对账,都行,不限形式
4、资损最关键的点是
1,平时对账,防治资损风险
2,遇到资损,最快速止损
3,在服务降级和资损之间,要具体权衡,取伤需轻的
比如运费问题:宁愿资损运费,也不能影响下单rt
5、对业务系统体
具体场景具体分析
0 条评论
下一页