k8s问题排查全景图
2022-10-13 09:51:40 29 举报
登录查看完整内容
Kubernetes(k8s)问题排查全景图涵盖了从基础设施到应用层的全方位诊断。首先,检查硬件和网络性能,确保节点、Pod和容器正常运行。其次,检查Kubernetes集群状态,包括API服务器、调度器、控制器管理器等组件的健康性。接着,分析Pod和容器日志,查找错误信息和异常行为。此外,关注资源使用情况,如CPU、内存、磁盘和网络I/O,以优化资源分配。最后,针对应用程序本身,检查配置、代码和依赖关系,确保应用运行正常。通过这一全景图,可以快速定位并解决Kubernetes环境中的问题,提高系统稳定性和性能。
作者其他创作
大纲/内容
确保多副本高可用
节点不可调度?
P95响应时间超长?
排查Deployment
正常
是
否
扩容
解决容量问题
解决网络问题
正常状态
node.kubernetes.io/unreachablenode.kubernetes.io/network-unavailable
排查调度问题
有下游服务依赖?
是否有日志?
是否有慢调用明细?
检查pid使用TopN
排查动作
解决配置问题
排查kube-proxy进程异常问题
节点容量不足?
排查ECS
网络有问题?
节点状态Unknown
审计节点修改时间
实际副本数==阈值副本数
CPU/MEM/DISK资源
查看日志解决
P95响应时间超长
排查CoreDNS解析问题
node.kubernetes.io/pid-pressure
节点Ready?
Pod
CMD资源不足
Service配置正常?
增加日志
kubelet进程是否正常?
Endpoint正常
请求量突增?
排查容器进行时
Service健康巡检正常
排查Condition对应实体
Deployment
ECS是否正常
开始排查
有错误下游?
容器运行时是否正常?
检查节点网络
Ready意外Condition是否正常
排查Endpoint问题
做profiling找到较大对象或者方法
自定义Taint
查看调用链路解决
node.kubernetes.io/memory-pressure
DNS解析正常?
Node
检查内存使用TopN
错误率是否高
是否有错误码
副本数>1?
错误率是否高?
节点是否有污点?
是否有traceId?
node.kubernetes.io/disk-pressure
解决错误
排查Pod
解决下游服务问题
检查对应资源
排查节点
kube-proxy正常?
Service
排查Service
排查Kubelet进程
检查磁盘使用TopN
收藏
0 条评论
回复 删除
下一页