数据质量故障保障体系(故障复盘)
背景:从数据采集到数据消费,中间要经过几十个系统,任何一个环节出错都会导致数据异常,因此需要一个机制,把各个团队绑在一起,形成合力。
范围:对公司造成重大资损和公关危机
财报数据错误
商家数据错误
微贷信息错误
高管报表延迟或出错
故障定义:失败重要数据业务和资产,注册到任务中,填写号业务相关情况,如技术负责人、业务负责人、数据应用场景、延迟和错误带来的影响、是否发生资损等,最好挂到基线中,一键形成故障单。
故障等级:可以根据故障时长、故障投诉率、故障造成资损大小,团队也会根据故障分作为运维考核的一项
故障处理:尽快发现问题、尽快处理、并把处理进度通知到各相关方
故障复盘:分析原因、处理过程复盘、跟踪后续结果、故障定位到人,复盘不是为了惩罚人,而是避免问题再次发生