运维工作
2023-03-28 09:01:09 1 举报
AI智能生成
定期巡检、专家巡检、调整优化、故障排除、补丁升级、
作者其他创作
大纲/内容
信创环境
操作系统
虚拟主机运行监控
虚拟主机XX台
定期巡检
性能分析
系统负载
指标:Cpu利用率小于85%,运行队列小于CPU个数的4倍,阻塞队列小于运行队列,交换队列为0
top
cat /proc/loadavg<br>
内存使用<br>
指标:使用率低于90%,页面调出不持续增加,不存在页面扫描活动
free -h
磁盘空间<br>
lsblk
df -h
可用容量>20%
设备日志检查
开启日志、告知查看方法<br>systemctl status rsyslog Active: active (running)代表启动,非running为未启动
日志检查
登陆情况检查 last
登陆失败检查 lastb
安全日志检查 cat /var/log/secure.log | egrep 'failed | Invalid | disabled | not | warning | err'
启动日志检查 cat /var/log/boot.log | egrep 'failed | Invalid | disabled | not | warning | err'<br>
系统日志检查 cat /var/log/messages | egrep 'failed | Invalid | disabled | not | warning | err'<br>
硬件日志检查 dmesg | egrep 'failed | Invalid | disabled | not | warning | err'<br>
专家巡检
巡检内容
登录测试 使用远程连接工具登录<br>
主机型号巡检 <br>dmidecode | grep "Product Name"<br>
CPU数量巡检: <br>###CPU个数<br>cat /proc/cpuinfo | grep 'physical id' | sort | uniq | wc -l<br>###cpu核数<br>cat /proc/cpuinfo | grep 'process' | sort | uniq | wc -l<br>
CPU主频巡检<br>cat /proc/cpuinfo |grep MHz|uniq<br>
内存测量<br>free -h
硬盘数量、容量测量<br>###数量<br>fdisk -l | grep "Disk /dev/*"<br>
网卡功能巡检
网卡状态<br>ip addr
主机名称<br>hostname
网络连接状态<br>
查看网关 route -n
ping网关
检查主机系统时间
date
检查主机系统时间时区
cat /etc/timezone
Asia/Shanghai<br>
检查操作系统版本号<br>cat /etc/*-release | grep NAME<br>
巡检人员1次/季度
调整优化()<br>
操作系统配置优化
明确优化内容
性能调优
垃圾数据清理
明确垃圾数据目录
系统日志清理
<br>cd /var/log目录下 查看是否有超过一年未清理的日志,eg:yum.log-20200512
系统安装包清理
find / -name '*.deb'
是否有类似安装之后不使用的安装包 eg:/home/uos/audit/auditd_1%253a2.8.4.1-1+eagle_arm64.deb 这种
垃圾清理
清理旧版本的软件缓存
sudo apt-get autoclean
清理所有软件缓存
sudo apt-get clean
故障排除
基本故障
特殊故障(支撑)
记录
重大故障填报工单
所有故障EXCEL留存
补丁升级
统信安全应急响应中心(https://src.uniontech.com/index.php?m=&c=page&a=index)<br>
国家信息安全漏洞共享平台(https://www.cnvd.org.cn/patchInfo/list)<br>
国家信息安全漏洞库(http://www.cnnvd.org.cn/web/vulnerability/querylist.tag?isArea=0&repairLd=)<br>
uname -a 查看系统内核版本
每季度,需出季度安全报告,与开发协商补丁升级时间
安全加固
虚拟主机安全组防护<br>
安全加固内容检查
资产管理
配置管理
数据库、中间件
运行监控
<b>KADB数据库</b><br>
实例监控
gpstate <br>gpstate -f
主从监控
<b>MySQL数据库</b><br>
实例监控
ps -ef | grep mysql
端口
netstat -nltp | grep mysql
<b>Oracle数据库</b>
实例监控
ps -ef | grep oracle
监听
su - oracle<br>lsnrctl status
连接监控
sqlplus / as sysdba
kingbase
单机
ps -ef | grep kingbase | grep -w "D" | awk 'NR==1'
netstat -nltp | grep kingbase | grep -w "tcp"
集群
/cluster/kdb_cluster_poc/db/bin$ ksql -USYSTEM -p9999 -dTEST -W123456 -c "show pool_nodes;"
集群主备切换监控<br>tail -f /home/kingbase/cluster/cluster/log/recovery.log<br>tail -f /home/kingbase/cluster/cluster/log/cluster_restart.log<br>
定期巡检
巡检指标
数据库巡检
实例状况、服务进程<br>###检查数据库实例服务的状态<br>select status from v$instance;<br><br>
错误日志
<b>数据库日志</b><br>
<b>kingbase集群<br></b>###查看集群是否有错误日志<br>cat cluster.log | grep error<br>cat $KINGBASE_DATA/sys_log
<b>KADB<br></b>cat $MASTER_DATA_DIRECTORY/pg_log下的日志,筛选有哪些错误日志<br>eg:cat gpdb-2021-12-17_000000.csv | grep error
<b>MySQL<br></b>cat /etc/my.cnf | grep .log<br>查看里边的日志文件,查看是否有错误日志<br>eg:cat /usr/local/mysql/logs/error.log | grep error<br>
<b>Oracle</b><br>su - oracle<br>cd $ORACLE_BASE/diag/rdbms/smsdb/smsdb/trace<br>cat alert_smsdb.log | grep error
数据库所用空间需>20%
把数据目录添加到zabbix监控
数据库备份文件、备份日志情况
中间件
tomcat
实例状况、服务进程ps -ef|grep tomcat<br>
错误日志<br>查看tomcat目录logs下的日志
apusic<br>
实例状况、服务进程ps -ef|grep apusic
程序产生的日志位于applications同级目录下的logs目录domains\mydomain\logs
中间件三个帐号密码
nginx
实例状况、服务进程ps -ef|grep nginx
access.log日志大小,是否自动切割<br>
error.log查看<br>
查看Nginx并发进程数ps -ef | grep nginx | wc -l
redis
实例状况、服务进程ps -ef|grep redis
巡检人员1次/季度
专家巡检
数据库
license过期时间<br>
中间件
nginx<br>
根据访问IP统计UV
查询访问最频繁的IP(前10)<br>
查看某一时间段的IP访问量(1-8点)<br>
查看访问100次以上的IP
查看指定ip访问过的url和访问次数<br>
根据访问URL统计PV<br>
查询访问最频繁的URL(前10)<br>
查看访问最频的URL([排除/api/appid])(前10)
查看页面访问次数超过100次的页面
查看最近1000条记录,访问量最高的页面
统计每小时的请求数,top10的时间点(精确到小时)
统计每分钟的请求数,top10的时间点(精确到分钟)
统计每秒的请求数,top10的时间点(精确到秒)
查找指定时间段的日志
列出传输时间超过 0.6 秒的url,显示前10条
列出/api/appid请求时间超过0.6秒的时间点
获取前10条最耗时的请求时间、url、耗时
tomcat
apusic
redis
性能分析
中间件性能
数据库性能
调整优化
配置优化
性能调优
垃圾数据清理
数据库
中间件
故障排除
基本故障
特殊故障(支撑)
记录
重大故障填报工单
所有故障EXCEL留存
补丁升级
数据库
中间件
nginx
http://nginx.org/en/security_advisories.html
redis
数据备份和恢复<br>
数据库备份
备份检查
数据库恢复
恢复测试
数据迁移
五证合一
资产管理
配置管理
应用
运行监控
定期巡检
日志检查分析<br>
系统登录日志
系统操作日志
调整优化
使用支持—— 一般支持<br>
解答使用问题<br>
指导用户操作<br>
帐号、权限的创建、分配、 调整<br>
使用支持—— 数据查询<br>
数据查询<br>
统计、修改、校正
故障排除<br>
基本故障
特殊故障(支撑)
记录
重大故障填报工单
所有故障EXCEL留存
需求管理
应用系统需求响应、分析整理<br>
反馈和确认<br>
整理软件需求清单
系统备份和恢复
制定和改进备份策略和方案<br>
脚本
备份可用性测试
备份数据恢复
上传附件等
系统迁移
资产管理
配置管理
0 条评论
下一页