事故复盘-时间轴
2023-03-30 19:47:41 1 举报
事故复盘-时间轴
作者其他创作
大纲/内容
5min
扩容后第一台机器生效
13:37:27
13:50:23
全部扩容成功
4.超时时间和限流参数设置不合理
老全网window
.net扩容操作不熟练
13:23:00
14:18:52
全网活动超时设置300ms
部署失败UnknownHostException
统一超时设置200ms
Grafana异常告警
13:36:18
重新发包
cpu>80%告警
超时时间1s
部署失败未找到标记的当前包
assemble
13:53:34
基础服务linux
新全网linux
大前端产品价格agg服务【Java】int-spring-cl-product-price-aggregator-service
提交紧急扩容工单
重新部署
9min
1.告警响应慢
take
3min
13:16:00
TakeCouponContextAssemble
官微推送触达时间
13:55:05
13:27:00
13:36:14
超时时间350ms
单机限流400
13:28:42
老全网【.Net】int-service-mkt-int-wcf-mkt-flash-sale
13:47:02
4min
13:52:33
开始扩容
统一api
新打折超时设置200ms
营销统一API【Java】ext-spring-mkt-activity-service
ProofCreateServiceImpl
13:55:10
全网活动超时设置200ms
新全网【Java】ext-spring-mkt-flashsale-seckill-service
紧急buffer空了无法紧急扩容
10min
13:53:57
13:47:30
3.发布系统发布失败
时间轴
对外单机限流400 → 200
11min
6.5min
13:17:00
13:10:00
handleOptimization
13:33:30
单机限流600
标签超时设置200ms
未意识到问题浪费10min
14:00:25
基础服务【Java】ext-spring-mkt-activity-base-info
ProofTakeCmdExe
2.halley系统紧急扩容没有资源
0 条评论
回复 删除
下一页