系统监控及报警梳理<br>
包括哪些
系统接入日志平台<br>
系统是否接入zabbix监控及新增设备是否更新
统一监控平台,系统健康报警
WINDQ积压告警,死信队列告警
UTS运行超时告警,异常告警
页面告警<br>
是否有KAFKA积压告警<br>
RSF是否有流控告警,响应超时告警,是否配置了并发组,PQS组,安全开关
告警治理项,把不合理告警去掉
waf防火墙配置是否完整,有无新增
系统监控面板
调用链,异常监管告警
三、技术文档
核心功能是否有时序图
时序图是否已更新<br>
降级方案是否已整理
是否有应急手册,是否有wiki,是否已更新<br>
是否有系统架构图
降级开关说明以及培训
是否有概要设计文档<br>
四、DB类监控及优化事项<br>
慢SQL优化,查询DBMS,拉出读写比较高或者平均响应时间较长(100ms)的前三十的sql进行重点索引优化;
是否存在db使用场景迁移redis方案,redis使用方式评审
是否存在写库迁移读库
是否存在sql设置查询超时
高可用方案,是否存在1主多从
五、应用异常类<br>
500和404相关错误是否已优化(错误数大于500以上的进行重点优化)
核心http接口响应时间过长(200ms)URL并且调用量在每天在10w以上进行重点优化<br>
对于httpclient,websevice等接口调用设置超时时间为3s是否已优化
分析云迹上应用报错日志,异常监管日志,是否已在版本里优化
六、系统安全相关<br>
应用防火墙对调用量比较大(300W/天)的接口是否做了流控
应用防火墙是否设置了防黄牛配置,注入等风险。
后台服务未做身份验证。
规避敏感字段使用的场景(1 姓名 2 身份证 3 出生日期 4 绑定手机 5 绑定邮箱 6 居住地址 <br>7收货地址 8 收货人姓名 9 收货人手机号 10 固定电话 11 登录密码 12 会员编号 13 会员卡号 <br>14 安保问题 15 联系手机 16 联系邮箱).