平台管理工具需求20230425V1.0_完整版
2023-04-26 13:45:20 3 举报
AI智能生成
登录查看完整内容
为你推荐
查看更多
平台管理工具需求
作者其他创作
大纲/内容
2023-04-25 V1.0 刘坤鹏 初始版本
版本:
PecCore各模块:是否完整、合法安装
数据库结构:是否完整
各Docker镜像:是否完整
各软件自身的完整性
PecCore不同节点相同软件的版本:是否一致
主备数据库:是否一致性
主备Docker镜像:是否一致
同软件版本的一致性
PecCore授权:是否有效、系统组态是否超授权容量
PecCore dbconn.cfg与网络节点的ConfigServer地址:是否一致
数据库配置:是否为推荐值
数据库日志模式:是否为简单模式
sync.ini与数据库表:是否一致
.......
各软件参数的正确性
操作系统版本:是否满足PecCore的要求
PecCore版本:是否满足各个组件的要求
PecService服务版本:是否满足各个组件的要求
......
各软件之间的兼容性
PecCore各节点之间的网络连接:是否正常
...
各软件之间的连通性
操作系统可用内存:是否满足PecCore、Matterhorn的要求
操作系统的系统盘剩余空间:是否满足PecCore、Matterhorn的要求
操作系统数据库文件盘剩余空间:是否满足PecCore、Matterhorn的要求
操作系统网络端口:是否满足PecCore、Matterhorn的要求
操作系统防火墙:是否打开
操作系统各进程CPU占比:是否超过阈值
操作系统各进程内存占比:是否超过阈值
操作系统记录的异常日志:是否有应用程序异常,是否有异常关机
各操作系统时钟:是否一致
PecCore、Matterhorn的各种服务:是否启动、所属用户是否一致
PecCore、Matterhorn的各种服务:是否有异常日志
各软件状态的正确性
监测设备映射方案(实时测点/定时记录/虚拟定时记录/秒级定时记录):是否配置、是否同时存在定时记录和虚拟定时记录映射方案、是否有无效映射方案(参数ID为NA)
各软件组态的正确性
PecCore缓存数据某时间段实际数量与预期数量:是否有差异
PecCore入库数据某时间段实际数量与预期数量:是否有差异
各环节数据的完整性
对策:提供系统诊断功能,定时诊断系统故障或潜在问题,并推送相关告警信息(异常)。
问题1:软件的运行环境、软件自身、系统组态等是否有故障或者有潜在的问题,无从得知,当用户(用服/用户)在使用软件达不到预期时,才发现问题,无法提前检查和预判。
对策:提供软件日志管理功能,集中按关键字检索程序日志、日志统计(如操作系统应用程序错误、启停机等)
对策:提供软件状态管理功能,集中查看软件运行状态、启停软件。
问题2:各软件部署在不同服务器不同的环境(如OS/Docker)中,软件运行状态查看和软件启停繁琐、门槛高
对策:提供软件版本管理功能,集中查看软件版本、检查是否有必须更新和可选更新。
问题3:各软件部署在不同服务器不同的环境(如OS/Dokcer等)中,软件版本的查看繁琐、门槛高,是否有必须更新和可选更新的版本不清楚
对策:提供软件参数配置功能,集中可视化配置软件参数、自动或半自动配置生效处理
问题4:各软件的参数配置比较分散,分布在不同服务器不同环境中,配置查看和修改及使配置生效繁琐、门槛高
问题5:各软件的日志文件比较分散、格式不统一,分布在不同服务器不同环境中,日志查看和检索繁琐
对策:实时记录各环节实际的记录数,与预期的根据组态(点数/间隔)计算的记录数,并按照数据链路呈现这些数据。用直观的曲线来呈现其趋势。
问题6:系统数据从采集到缓存,再到入库,再到按照业务模型做运算,涉及到多个环节,任何一个环节出现问题都会导致最终业务数据查看不符合预期,问题排查困难
对策:提供系统组态功能,通过组态配置平台,录入尽可能少的信息,自动生成相关组态配置,避免人为配置带来的错误;通过图模一体化工具,自动根据业务模型生成图形。
问题7:系统组态存在问题(如映射方案错误),导致软件运行结果不符合预期
对策:提供Matterhorn系统模型管理功能
问题8:Matterhorn的业务模型也存在很多版本,导致软件运行结果不符合预期
业务需求
程序版本一致性检测(2个及以上节点的版本是否一致)
PostgreSQL主用/备用数据库文件盘可用容量检测(可用空间多少,是否会影响数据库运行)
主用/备用数据库完整性检测(结构是否完整)
配置项、当前值、是否在建议范围内、建议范围、是否为推荐值、推荐值、所在行索引
PG主用/备用数据库配置项检测(xxxx)(配置是否异常)
网络连接检测(xxxx)(丢包率及平均往返程估时)
服务名称、描述及运行状态
双击查看详情
相关服务状态检测(是否完全启动)
重复ID检测(有无重复ID)
主用/备用数据库日志模式检测
主备数据库一致性检测
系统
操作系统版本检测(什么版本,是否满足PecStar的要求)
防火墙检测(是否打开,若打开会影响PecStar运行,请关闭)
内存检测(多少可用内存,是否满足PecStar的要求)
系统盘空间检测(多少剩余空间,对系统运行影响如何)
缓存数据磁盘空间检测(多少剩余空间,是否影响PecStar数据缓存)
“详细信息/操作系统_系统端口信息"
双击定位到详细信息
系统端口检测(PecStar端口是否被其他程序占用,PecStar是否可以正常运行)
当前登录用户检测(当前登录用户是谁,是否具有管理员权限)
进程CPU/内存占用检测(占用多少,运行是否正常)-阈值可设置
应用程序出错次数、最近出错时间、最近出错版本、系统运行版本
Windows登录/关闭、异常掉电时间
双击查看详细信息
Windows日志文件检测(是否发现应用程序异常日志)
ConfigServer地址一致性检测(dbconn.cfg中的ConfigServer地址与网络节点中的ConfigServer地址是否一致)
DatabaseManager服务状态检测(是否运行)
“详细信息/PecStar系统信息"
程序最新版本检测
调试信息配置检测(调试信息配置是否正常)
缺失文件名称、所属产品
文件完整性检测
节点
系统诊断
PecCore
DB
Docker
PC1
PC2
系统节点管理(一种综合视图,与其他维度视图可以切换)用树来呈现层级更为直观
当前数据库角色
CPU逻辑核数、CPU利用率%、CPU利用率-时序图
总内存、可用系统内存、内存利用率、内存利用率-时序图
当前设备连接用户数
设备运行时间
磁盘分区使用情况:分区、总空间、可用空间、使用率
磁盘IO-时序图
网口IO
服务器资源
客户端连接总数
服务器角色
各数据库连接数
连接使用状态
各数据库磁盘占用空间
数据库事务处理速度-TPS
PG数据库状态
运维监控仪表盘
All alerts
Down Nodes
High Memory Nodes
High CPU Nodes
High DISK Nodes
All Alerts Info
运维监控告警
选项:选择计算机节点,筛选容器,指定时间范围,手动刷新,指定自动刷新间隔
CPU Cores
Used Memory
Container Count
Images Count
Running Containers
Stopped Containers
CPU Load
Container CPU Usage
Container Memory Usage
Container Uptime
Container Memory Limit
Container Receive IO
Container Transport IO
Container BLOCK-WRITE IO
Container BLOCK-READ IO
选项:搜索(计算机名和主备IP)、筛选(状态:未创建网络节点/健康/不健康/离线/状态未知)
选项:筛选(状态:在线/离线)
选项:筛选(日志等级)、是否自动刷新、下载日志
日志文本
日志信息
选项:筛选时段,最近一小时
事件ID、项目名称、事件展示计算机名、事件产生事件、事件描述
重要事件
模块名称、版本号、状态、运行时长、CPU使用率、内存使用率、写字节数/s、读字节数/s、操作(查看、启/停、配置)
模块列表
筛选(日志等级:全部/告警)、筛选(日志文件名)、自动刷新、下载日志
通道名称、通道ID、驱动名称、程序名称、版本号、状态、运行时长、CPU使用率、内存使用率、写字节数/s、读字节数/s、操作(查看)
驱动列表
计算机名、项目名称、节点名称、计算机IP(主用)、计算机IP(备用)、状态、节点类型、操作(查看)
节点列表
节点状态
选项:筛选时段、最近一小时
项目名称、节点名称、事件产生时间、事件描述、操作(查看事件详情)
选项:选择计算机节点,指定时间范围,手动刷新,指定自动刷新间隔
节点信息
Basic Information
Message Info
Exchange Messages Rate
Exchange Message Count
Disk
Node IO Rate
Node GC
Memory usage
Rabbit MQ
服务角色变化
各db键信息统计
Cluster Enabled
Total Connection Received
Total Clients Received
处理过的命令总数
每秒处理的命令数
keyspace 命中次数
keyspace 未命中次数
Redis Up Time
Aof Enabled
Rdb Save Time
Rejected Connections
key 过期事件的总数
Evicted Keys
服务角色
Redis Memory Utilization
Redis CPU Rate
详情
Miss Rate
Total Tracking Items
Evicted / Expired
Total Keyspaces
Total Commands Processed
Total Commands Processed曲线图
Instantaneous OPS per sec
Blocked / Connected Clients
RedisperCacheStats
Received / Rejected Connections
Network Input / Output
RedisperformanceStats
Redis
选项:选择Application、instance、JVM Memory Pools Heap、JVM Memory Pools Non-Heap,指定时间范围,选择是否进程重启打标,指定自动刷新间隔,手动刷新,指定自动刷新间隔
进程启动时长
进程启动时间
堆内存使用率
非堆内存使用率
概览
QPS(1分钟平均)
错误数(1分钟平均)
请求耗时(1分钟平均)
饱和度
服务黄金指标
堆内存
非堆内存
总内存
JVM 内存
CPU 使用率
Load
线程数
各状态线程数
Logback日志数
文件描述符
JVM 负载
PS Eden Space
PS Old Gen
PS Survivo Space
JVM 堆内存详细
Metaspace
Compressed Class Space
Code Cache
JVM 非堆内存详细
GC 次数
GC 暂停时间
内存分配/晋升
垃圾回收(GC)
已加载的类的数量
加载类数量变化
类加载
Direct Buffers:used、capacity
Direct Buffers:count
Mapped Buffers:used、capacity
Mapped Buffers:count
Buffer Pools
JVM
选项:选择计算机节点、筛选数据库,指定时间范围,手动刷新,指定自动刷新间隔
ALL Clients
主备状态
Client Count
Deadlocks
Commit rate
Rollback rate
db、Files、Bytes
Temp Info
db、returned、deleted、inserted、updated、fetched
Tup Info
db、checkpoints_req、checkpoints_timed、checkpoints_sync_time、checkpoints_write_time、buffers_checkpoint、buffers_clean
Checkpoints Info
Blk rate
PostgresSQL
选项:选择计算机节点,筛选服务,指定时间范围,手动刷新,指定自动刷新间隔
服务进程数量
进程信息:服务名、进程名、用户名、pid、ppid、运行时间
进程CPU占用百分比
进程Mem占用百分比
进程 Mem-Rss 统计
进程 Mem-Vms 统计
进程 IO 读
进程 IO 写
进程 iops 读次数/每秒
进程 iops 写次数/每秒
文件描述符个数
任务的动态优先级
进程 Mem-Swap 统计
服务进程
用户进程统计
用户进程CPU占用百分比
用户进程Mem占用百分比
用户进程
运行时间
CPU核数
连接用户数
总CPU使用率
IOWait使用率
根目录使用率
内存使用率
交换分区使用率
各分区可用空间:设备名、文件系统、分区、总空间、可用空间、使用率
CPU使用率:总使用率、用户使用率、系统使用率、磁盘IO使用率
内存信息:总内存、已用、可用、使用率
磁盘读写速率(IOPS)
系统平均负载
每秒磁盘读写容量
磁盘使用率
进程信息
swap统计
Inode信息
网络端口
服务器
软件状态管理
RabbitMQ
Postgres
软件版本管理
各节点的各个程序参数
PostgreSQL
软件参数管理
各节点的各个程序:日志开关及日志
系统日志
应用程序日志
软件日志管理
本地缓存写入监视
本地缓存入库监视
Matterhorn平台
系统数据
组态配置平台
图模一体化
系统组态
模型元数据管理
模型版本管理
模型导入/导出
告警推送
分支主题
平台管理参数
系统模型
自动诊断时间间隔
CPU/内存占用告警阈值
数据完整性检测时间段
钉钉
微信
邮件
短信
系统诊断报告推送
平台管理工具设置
功能需求
适用所有CET自研的软件产品、软件解决方案产品、软硬结合的产品(运行环境比较苛刻);
支持整个软件系统中所有节点(服务器)的管理,即采用分布式架构,支持多节点(服务器)的管理;
支持上述CET自研软件所支持的所有类型及版本操作系统;
与CET自研软件集成部署;
需要与核心平台的相应组件做融合。
说明:
平台管理工具需求20230425V1.0
收藏
0 条评论
回复 删除
下一页