服务治理全景图
2021-05-26 17:38:11 0 举报
服务治理全景图 待进一步完善
作者其他创作
大纲/内容
运维治理
应用基础信息
应用ID
应用名称
负责人
应用描述
服务数量
服务列表
服务基础信息
基础信息
服务ID
服务名称
服务接口列表
服务版本
所属应用
应用ID
应用名称(例如:用户中心)
应用名称(例如:用户中心)
所属部门
服务级别
线上版本
服务状态
待上线
在线
待下线
下线
在线
待下线
下线
部署模式
单机
集群
集群
负责人
负载均衡
轮询
随机等
随机等
SLA 服务级别协议 service-level agreement
提供者
消费者(调用它的服务)
关联应用
配置变更
路由访问规则
提供者
消费者(调用它的服务)
关联应用
配置变更
路由访问规则
维护历史
服务上线信息
申请人
申请时间
申请执行内容
审批人
审批时间
执行人
执行时间
上线版本
执行结果
申请时间
申请执行内容
审批人
审批时间
执行人
执行时间
上线版本
执行结果
服务维护信息(列表)
申请人
申请时间
申请执行内容
审批人
审批时间
执行人
执行时间
执行结果
申请时间
申请执行内容
审批人
审批时间
执行人
执行时间
执行结果
服务下线信息
申请人
申请时间
申请执行内容
审批人
审批时间
执行人
执行时间
执行结果
申请时间
申请执行内容
审批人
审批时间
执行人
执行时间
执行结果
monitor度量指标
系统度量指标
CPU
内存
系统负载
磁盘IO
线程数
内存
系统负载
磁盘IO
线程数
服务度量指标
服务之间调用
单次调用指标
调用者
服务ID
服务名称
服务名称
被调用者
服务ID
服务名称
服务名称
调用接口
调用时间
调用动作
get
post
post
调用结果
成功
失败 错误信息 错误码
失败 错误信息 错误码
调用耗时
一分钟汇总
服务维度
服务ID
服务名称
调用量
成功次数
失败次数
合计
失败次数
合计
总耗时(ms)
平均耗时(ms)
95分位耗时(ms)
99分位耗时(ms)
接口维度
小时、天、月、季度、年汇总
服务与资源之间调用
JVM指标
GC类型
新生代收集次数
新生代收集时间
老年代收集次数
老年代收集时间
内存使用
新生代
老年代
survivor
元数据区
永久代
CodeCache
老年代
survivor
元数据区
永久代
CodeCache
tracing治理维度
服务关系
治理目标
避免循环调用
梳理集中调用
避免深度调用
梳理冗余服务
优化资源配置
根据服务的重要性,进行分级运维
梳理集中调用
避免深度调用
梳理冗余服务
优化资源配置
根据服务的重要性,进行分级运维
单服务调用关系视图
调用的服务
服务名称
调用量
成功次数
失败次数
合计次数
失败次数
合计次数
错误率
调用耗时
总耗时(ms)
平均耗时(ms)
95分位耗时(ms)
99分位耗时(ms)
平均耗时(ms)
95分位耗时(ms)
99分位耗时(ms)
被哪些服务调用
服务名称
调用量
错误率
调用耗时
调用量
错误率
调用耗时
整体服务调用拓扑视图
最长调用深度检测
集中调用检测
服务性能
治理目标
梳理资源占用,降低单点负载
梳理集中调用,避免调用瓶颈
优化调用性能
提高线上服务的健康度及稳定性
梳理集中调用,避免调用瓶颈
优化调用性能
提高线上服务的健康度及稳定性
治理手段
调用耗时分区分布统计(接口)
调用耗时分时分布统计(接口)
调用量/并发量分时分布统计(接口)
性能横比(接口)
性能排序TopN横比图表
性能最差TopN
分钟级别
总调用量
平均延时(ms)
最大延时(ms)
平均延时(ms)
最大延时(ms)
小时级别
天级别
调用量排序TopN横比图表
调用次数最多TopN
分钟级别
总调用量
成功次数
失败次数
成功次数
失败次数
小时级别
天级别
计算资源排序TopN横比图表
CPU暂用时间最多TopN
成功次数
平均延时(ms)
平均延时(ms)
性能纵比(接口)
基于时间序列的串联比较
连续指标段的指标突变分析
每分钟调用次数变化最多TopN
现值(次)
旧值(次)
变化率
每分钟调用耗时变化最多TopN
现值(ms)
旧值(ms)
变化率
旧值(ms)
变化率
综合性能分析
动态阈值
趋势预测
服务异常
治理目标
故障定界定位,解决线上问题
故障根因分析,消除系统隐患
通过业务异常排查用户痛点,改进业务设计质量
通过业务异常排查系统业务漏洞,防范灰产攻击
治理手段
实时异常报表
系统错误最多TopN
最近1个月、1天、1小时系统错误最多TopN
成功量
失败量
异常分布报表
整体错误分布(错误类型的饼图)
总量最多TopN错误在服务中的分布
错误类名
接口名
错误总量
异常列表查询
查询条件
时间段
traceId
异常信息
主机IP
接口名称
异常级别
用户标识(手机,用户名等)
查询结果
时间
traceId
异常信息
主机IP
异常级别
接口名称
用户标识(手机,用户名等)
异常信息
主机IP
异常级别
接口名称
用户标识(手机,用户名等)
业务异常分析
业务质量监控
核心业务接口异常列表
时间
用户标识
接口名称
错误信息
错误码
异常行为监控
高危用户TopN
用户标识
最新异常码
最新异常信息
最新异常触发时间
最新异常触发地点
最新异常码
最新异常信息
最新异常触发时间
最新异常触发地点
服务资源
治理目标
基于应用视角的网络性能度量
基于应用视角的资源性能及容量优化
治理手段
网络资源
odin
数据库资源
SQL
SQL分类统计
insert
select
update
delete
SQL执行时长TopN
接口名称
SQL语句
平均执行时长(ms)
慢SQL耗时分布(散点图)(x=时间序列,y=时长(s))
慢SQL分布统计(x=慢SQL次数, y=时间序列)
nosql
时序
和运维确定最优化实践
响应时长
其他资源
服务健康度
性能监控指标
服务负载水位
请求成功率
服务调用延时
告警率
基础资源监控指标
CPU负载
内存使用率
网络负载
磁盘使用率
治理事件监控指标
限流
sentinel
熔断
降级
架构合理性指标
外部服务依赖度
内部代码冗余度
服务依赖
服务分布
服务容量
服务管控
鲁棒性架构保障
服务节点冗余
弹性伸缩
单点无状态
不可变基础设施
故障传导阻断
切换流量
服务降级
服务限流
服务熔断
超时控制
重试阻尼
幂等操作
服务上下线
服务路由
服务限流
单点限流
集群限流
服务降级
屏蔽降级
容错降级
静态返回值降级
备用服务降级
Mock降级
熔断降级
服务熔断
服务授权
自主授权
注册中心授权
第三方授权
集群容错
快速失败
失败安全
失败转移
重试阻尼
防止级联重试
重试降级
失败重试
聚合调用
广播调用
业务治理
治理目标
构建完整、成体系的业务指标采集和度量框架
基于系统指标的聚合分析开展风控
业务指标采集框架
业务指标实时监控与分析
指标展示
指标聚合
指标对比
风控
一致性风险
跨域一致性
跨域幂等性
跨环境一致性
总量平衡
并发
控制性风险
业务边界失控
时间边界失控
参与实体失控
流程失控
阈值失控
配置风险
切换风险
算法异常风险
监控系统设计
0 条评论
下一页