数据库日常监控需要关注信息
2025-12-19 13:09:25 0 举报
AI智能生成
数据库日常监控需要关注哪一些信息
作者其他创作
大纲/内容
一、核心性能指标
1、核心性能指标
慢查询
慢查询数量
平均查询响应时间
持续升高
全表扫描次数
频繁
慢查询执行时间
超过业务允许的响应时间(如 >1s)
开启慢查询日志
分析 SQL 执行计划(EXPLAIN)
优化索引
优化表结构
QPS(每秒查询数)/TPS(每秒事务数)
突增
突降
查询执行效率
平均查询响应时间
全表扫描次数
2. 事务与锁相关
事务成功率/回滚率
回滚率过高>5%
事务冲突
死锁
业务逻辑问题
锁等待情况
锁等待次数
锁等待时间
长时间锁等待/死锁
会占用连接、阻塞其他操作。需要检查:
事务执行顺序
是否存在长事务
长事务
运行时间超过阈值的事务(如 >10min)
会占用连接、阻塞其他操作
需及时终止或优化
三、数据库连接状态
1、当前连接数 vs 最大连接数
2、连接来源与状态
活跃连接数
空闲连接数
异常连接(如非法 IP 连接)
五、日志监控
错误日志
慢查询日志
二进制日志(binlog)
审计日志
六、不同数据库的监控工具推荐
MySQL
原生工具
show status
show processlist
performance_schema
第三方工具
Prometheus + Grafana
Zabbix
Nagios
Percona Monitoring and Management (PMM)
PostgreSQL
原生工具
pg_stat_statements
pg_top
第三方工具
Prometheus + Grafana
Zabbix
pgBadger
Oracle
原生工具
AWR(自动工作量仓库)
ASH(活动会话历史)
第三方工具
Oracle Enterprise Manager (OEM)
Zabbix
二、服务器资源占用
CPU 使用率
持续 >80%
内存使用率
InnoDB 缓冲池命中率,需 >99%
磁盘 I/O 性能
磁盘读写吞吐量(IOPS)
磁盘使用率
>85%
读写延迟
>20ms(机械硬盘)
>1ms(SSD)
网络带宽
数据库服务器的入/出流量
是否有异常流量峰值
大量数据导出/导入
外部恶意访问
主从复制流量过高
四、数据安全与完整性(防止数据丢失、损坏)
1. 备份状态
备份任务是否按时执行
备份文件是否完整
备份恢复测试是否通过
2. 主从复制状态(分布式/高可用架构必看)
核心指标
主从延迟时间
复制线程状态
Slave_IO_Running
Slave_SQL_Running
异常处理
主从延迟过高
性能
是否有大事务
复制方式(如异步复制改半同步)
复制中断
排查错误日志,修复数据不一致后重新启动复制
3. 数据一致性
定期检查主从数据是否一致
如 :MySQL 用 pt-table-checksum
异常
数据不一致
可能是复制中断
SQL 语句不兼容主从架构
七、日常监控频率与告警策略
监控频率
核心指标
QPS
CPU
连接数
......
非核心指标
磁盘使用率
备份状态
告警
方式
邮件
短信
钉钉
企业微信机器人
阈值
CPU 持续 >80% 告警
连接数 >80% 告警
应急响应
1、资源瓶颈
2、慢查询
3、锁冲突
4、主从复制
八、总结
数据库日常监控的核心
提前发现隐患,快速定位问题
四大维度
性能
资源
连接
安全
实现自动化监测
自动化工具
监控、告警工具
核心指标的监控、预警
可视化工具
构建仪表盘,实现所有核心指标的
核心业务指标
建立完善的告警和应急流程
完善的告警机制
待补充
完善的应急流程
待补充
生产环境数据库的监控要求
7×24小时监控
定期进行性能压测
定期进行故障演练
宕机
主从切换
......
收藏
0 条评论
下一页