1、系统监控
内存、cpu、磁盘、load、hsf总体成功率,rt、tair总体成功率
2、服务监控
四大指标
rt
偶尔抖动,一般不处理
长时间增加,或突然增加,或同比增加,需要关注
成功率
流量小的时候,这个不准
流量大的时候,主要要看成功率
服务
对外服务的4大指标
下游依赖服务的4大指标
中间件、缓存的4大指标
错误码
不应是异常,但是很可能除了数据上的错误
需要特殊关注
🚩对于服务系统,只要服务4大指标没问题,都不是大问题
3、业务监控
1、基于日志
业务日志(大的json格式)和监控日志,要区分开,json格式日志解析,容易遗漏和丢失
2、分类
1,按业务划分的流量监控或异常流量监控
2,分类业务的异常归类统计
按业务身份、门店、仓、行业等进行分类统计
一般都要同时有总计报警
3、特殊业务可以特殊定制,灵活性高
4,尤其重视错误码的top统计和报警
4、数据监控
1,基于sql查询
2,在业务系统体现在
超时监控
创单晚
接单晚
合批晚
下发晚
超时履约
3,主要目的在于,不关系统怎么样,要保障数据的最终稳定性。🚩对于订单系统,只要数据不出错,都不是大问题