云音乐贵州机房迁移总体方案回顾
2024-08-19 18:54:44 1 举报
AI智能生成
思维导图式回顾该方案
作者其他创作
大纲/内容
全域的稳定性风险
机器资源盘点
长传带宽盘点
迁移期间服务可用性要求
服务间跨区域调用RT摸查
信息梳理&摸查
因公网质量问题,带来迁移后用户体验差的风险
因跨机房延迟30ms,带来的业务侧面应用雪崩风险
因跨机房传输网络不稳定,带来的整体系统性风险
因杭州和贵州机房同时部署,带来的服务节点数量、API数量、RPC数量翻倍风险
因大规模数据变更,带来的系统性能风险
因新机房建设、搬迁带来的底层基础设施风险
因全域团队协作、大范围变更&发布,带来的人因操作、协作风险
新增系统风险
ZK强依赖问题
在线业务Kafka迁移Nydus
配置硬编码
服务间依赖改造
资源优化&控制
心遇依赖拆分
元信息不准确
组件版本过于陈旧问题
测试环境自动部署成功率低
租户多集群拆分为多应用
历史技术债务处理
标准化接入
监控告警
应急预案
业务技术侧方案
杭州集群下线
稳定性保障&治理
准备事项
执行步骤
测试环境演练
演练原则
演练目标
演练终止条件
线上环境演练
独立App迁移验证
测试&演练
SOP平台
自动升级平台
系统沉淀
元信息建设仍然不足
各项元信息的创建、更新、销毁标准化、系统化
应用配置标准化
批处理能力需再进一步增强
ZK稳定性、可维护性优化
公技侧稳定性保障长效机制和系统化建设
组件生产、发布、治理能力增强
不足反思
北京
项目难点
重点限制及要求
团队/l领域间解耦
服务端流量自闭换
C端优先
在可用范围内
分批原则
最终分批方案
分批方案
可灰度
可回滚
控制长传宽带
切流原则
切流点选择
存储层迁移策略
切流步骤
切流方案
回滚方案
云音乐贵州机房迁移总体方案回顾
0 条评论
回复 删除
下一页