服务治理全景图
2021-05-26 17:38:11 0 举报
服务治理全景图 待进一步完善
作者其他创作
大纲/内容
运维治理
应用基础信息<br>
应用ID<br>
应用名称<br>
负责人<br>
应用描述<br>
服务数量<br>
服务列表
服务基础信息<br>
基础信息<br>
服务ID<br>
服务名称<br>
服务接口列表<br>
服务版本<br>
所属应用<br>
应用ID<br>应用名称(例如:用户中心)
所属部门<br>
服务级别<br>
线上版本<br>
服务状态<br>
待上线<br>在线<br>待下线<br>下线
部署模式<br>
单机<br>集群
负责人<br>
负载均衡
轮询<br>随机等
SLA 服务级别协议 service-level agreement<br>提供者<br>消费者(调用它的服务)<br>关联应用<br>配置变更<br>路由访问规则<br>
维护历史
服务上线信息<br>
申请人<br>申请时间<br>申请执行内容<br>审批人<br>审批时间<br>执行人<br>执行时间<br>上线版本<br>执行结果
服务维护信息(列表)<br>
申请人<br>申请时间<br>申请执行内容<br>审批人<br>审批时间<br>执行人<br>执行时间<br>执行结果
服务下线信息
申请人<br>申请时间<br>申请执行内容<br>审批人<br>审批时间<br>执行人<br>执行时间<br>执行结果
monitor度量指标<br>
系统度量指标<br>
CPU<br>内存<br>系统负载<br>磁盘IO<br>线程数
服务度量指标<br>
服务之间调用<br>
单次调用指标<br>
调用者<br>
服务ID<br>服务名称
被调用者<br>
服务ID<br>服务名称
调用接口<br>
调用时间<br>
调用动作<br>
get<br>post
调用结果<br>
成功<br>失败 错误信息 错误码<br>
调用耗时
一分钟汇总<br>
服务维度<br>
服务ID<br>
服务名称<br>
调用量<br>
成功次数<br>失败次数<br>合计
总耗时(ms)<br>
平均耗时(ms)<br>
95分位耗时(ms)<br>
99分位耗时(ms)
接口维度
小时、天、月、季度、年汇总
服务与资源之间调用
JVM指标
GC类型<br>
新生代收集次数<br>
新生代收集时间<br>
老年代收集次数<br>
老年代收集时间<br>
内存使用
新生代<br>老年代<br>survivor<br>元数据区<br>永久代<br>CodeCache
tracing治理维度<br>
服务关系<br>
治理目标<br>
避免循环调用<br>梳理集中调用<br>避免深度调用<br>梳理冗余服务<br>优化资源配置<br>根据服务的重要性,进行分级运维
单服务调用关系视图<br>
调用的服务<br>
服务名称<br>
调用量<br>
成功次数<br>失败次数<br>合计次数
错误率<br>
调用耗时
总耗时(ms)<br>平均耗时(ms)<br>95分位耗时(ms)<br>99分位耗时(ms)
被哪些服务调用
服务名称<br>调用量<br>错误率<br>调用耗时
整体服务调用拓扑视图<br>
最长调用深度检测<br>
集中调用检测<br>
服务性能<br>
治理目标<br>
梳理资源占用,降低单点负载<br>梳理集中调用,避免调用瓶颈<br>优化调用性能<br>提高线上服务的健康度及稳定性
治理手段
调用耗时分区分布统计(接口)<br>
调用耗时分时分布统计(接口)<br>
调用量/并发量分时分布统计(接口)<br>
性能横比(接口)<br>
性能排序TopN横比图表<br>
性能最差TopN
分钟级别<br>
总调用量<br>平均延时(ms)<br>最大延时(ms)
小时级别<br>
天级别
调用量排序TopN横比图表<br>
调用次数最多TopN
分钟级别<br>
总调用量<br>成功次数<br>失败次数
小时级别<br>
天级别
计算资源排序TopN横比图表
CPU暂用时间最多TopN<br>
成功次数<br>平均延时(ms)
性能纵比(接口)<br>
基于时间序列的串联比较<br>
连续指标段的指标突变分析
每分钟调用次数变化最多TopN<br>
现值(次)<br>
旧值(次)<br>
变化率
每分钟调用耗时变化最多TopN
现值(ms)<br>旧值(ms)<br>变化率
综合性能分析<br>
动态阈值<br>
趋势预测
服务异常<br>
治理目标<br>
故障定界定位,解决线上问题<br>
故障根因分析,消除系统隐患<br>
通过业务异常排查用户痛点,改进业务设计质量<br>
通过业务异常排查系统业务漏洞,防范灰产攻击
治理手段
实时异常报表<br>
系统错误最多TopN<br>
最近1个月、1天、1小时系统错误最多TopN
成功量<br>
失败量
异常分布报表<br>
整体错误分布(错误类型的饼图)<br>
总量最多TopN错误在服务中的分布<br>
错误类名<br>
接口名<br>
错误总量
异常列表查询<br>
查询条件<br>
时间段<br>
traceId<br>
异常信息<br>
主机IP<br>
接口名称<br>
异常级别<br>
用户标识(手机,用户名等)
查询结果
时间<br>
traceId<br>异常信息<br>主机IP<br>异常级别<br>接口名称<br>用户标识(手机,用户名等)
业务异常分析
业务质量监控<br>
核心业务接口异常列表
时间<br>
用户标识<br>
接口名称<br>
错误信息<br>
错误码
异常行为监控
高危用户TopN<br>
用户标识<br>最新异常码<br>最新异常信息<br>最新异常触发时间<br>最新异常触发地点
服务资源<br>
治理目标<br>
基于应用视角的网络性能度量<br>
基于应用视角的资源性能及容量优化
治理手段
网络资源<br>
odin
数据库资源<br>
SQL
SQL分类统计<br>
insert<br>
select<br>
update<br>
delete
SQL执行时长TopN<br>
接口名称<br>
SQL语句<br>
平均执行时长(ms)
慢SQL耗时分布(散点图)(x=时间序列,y=时长(s))<br>
慢SQL分布统计(x=慢SQL次数, y=时间序列)
nosql
时序
和运维确定最优化实践
响应时长
其他资源
服务健康度<br>
性能监控指标<br>
服务负载水位<br>
请求成功率<br>
服务调用延时<br>
告警率
基础资源监控指标<br>
CPU负载<br>
内存使用率<br>
网络负载<br>
磁盘使用率
治理事件监控指标<br>
限流<br>
sentinel
熔断<br>
降级
架构合理性指标
外部服务依赖度<br>
内部代码冗余度
服务依赖<br>
服务分布<br>
服务容量
服务管控
鲁棒性架构保障<br>
服务节点冗余<br>
弹性伸缩<br>
单点无状态<br>
不可变基础设施<br>
故障传导阻断<br>
切换流量<br>
服务降级<br>
服务限流<br>
服务熔断<br>
超时控制<br>
重试阻尼<br>
幂等操作
服务上下线<br>
服务路由<br>
服务限流<br>
单点限流<br>
集群限流
服务降级<br>
屏蔽降级<br>
容错降级<br>
静态返回值降级<br>
备用服务降级
Mock降级<br>
熔断降级
服务熔断<br>
服务授权<br>
自主授权<br>
注册中心授权<br>
第三方授权
集群容错
快速失败<br>
失败安全<br>
失败转移<br>
重试阻尼<br>
防止级联重试<br>
重试降级
失败重试<br>
聚合调用<br>
广播调用
业务治理
治理目标<br>
构建完整、成体系的业务指标采集和度量框架<br>
基于系统指标的聚合分析开展风控
业务指标采集框架<br>
业务指标实时监控与分析<br>
指标展示<br>
指标聚合<br>
指标对比
风控
一致性风险<br>
跨域一致性<br>
跨域幂等性<br>
跨环境一致性<br>
总量平衡<br>
并发
控制性风险<br>
业务边界失控<br>
时间边界失控<br>
参与实体失控<br>
流程失控<br>
阈值失控
配置风险<br>
切换风险<br>
算法异常风险
监控系统设计
0 条评论
下一页