软件项目系统巡检报告
2019年 月 日
项目名称: 巡检部门:
-可编辑修改-
。
1 前言 1.1 巡检目的
为保障技术系统的平稳运行,将定期对各子系统进行巡检,并且根据巡检的实际结果给出相应建议。
本文档面向IT主管和技术维护人员,通过本文档共同完成对IT各子系统运行状况的调查与监控,使IT主管和技术维护人员充分了解网络系统运行的基本情况,并且为日常的系统网络、应用以及数据库的维护服务提供基本的参考数据。
1.2 系统组成
目前本项目技术系统主要由数据库系统、缓存集群系统、XX应用、YY应用、ZZ应用和管理平台组成。巡检中将对各子系统分别作全面的细致检查,为日常维护提供参考数据。
1.3 巡检范围
XX应用子系统 YY应用子系统 ZZ应用子系统 管理平台应用子系统 缓存集群子系统
-可编辑修改-
。
数据库子系统
应用日志和库表数据备份归档策略
-可编辑修改-
。
2 巡检工作汇报 2.1 XX应用子系统
CPU使用率检查 正常 异 常 内存运行状况 系统资源 磁盘空间使用率 正常 异 常 正常 异 常 磁盘IO使用率 正常 异 常 系统时间是否准确 正常 异 常 应用XX 应用运行健康
巡检意见:
进程存活与进程数量 正常 异 常 XX应用AA日志检查 正常 异 常 XX应用BB日志检查 正常 异 常 XX应用CC日志检查 正常 异 常 XX应用程序版本检查 正常 异 常 -可编辑修改-
。
2.2 YY应用子系统
CPU使用率检查 内存运行状况 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 系统资磁盘空间使用率 源 磁盘IO使用率 系统时间是否准确 进程存活与进程数量 应用YY YY应用AA日志检查 YY应用BB日志检查 YY应用CC日志检查 应用运YY应用程序版本检查 行健康 YY应用JVM内存使用检查 正常 异 常
巡检意见:
-可编辑修改-
。
2.3 ZZ应用子系统
CPU使用率检 内存运行状况 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 系统资磁盘空间使用率 源 磁盘IO使用率 系统时间是否准确 进程存活与进程数量 应用ZZ ZZ应用AA日志检查 ZZ应用BB日志检查 ZZ应用CC日志检查 应用运ZZ应用程序版本检查 行健康 ZZ应用网络连接数
巡检意见:
-可编辑修改-
。
2.4 管理平台应用子系统
CPU使用率检查 内存运行状况 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 系统资磁盘空间使用率 源使用 磁盘IO使用率 系统时间是否准确 进程存活与进程数量 管理平台 应用运平台程序版本检查 日志文件检查 行健康 网站访问与登录 平台各项管理功能 JJ指标 HH指标 DD指KK指标 标 LL指标 QQ指标
巡检意见:
-可编辑修改-
。
2.5 缓存集群子系统
CPU使用率检查 正常 异 常 内存运行状况 系统资源使用 磁盘空间使用率 正常 异 常 正常 异 常 磁盘IO使用率 正常 异 常 缓存集群系统时间是否准确 正常 异 常 各节点内存使用量 正常 异 常 集群服务健康状态 应用运行健康 缓存应用日志检查 正常 异 常 正常 异 常 集群日志检查 正常 异 常 缓存服务的网络连接
正常 异 常 巡检意见:
-可编辑修改-
。
2.6 数据库子系统
CPU使用率检查 内存运行状况 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 正常 异 常 系统资磁盘空间使用率 源使用 磁盘IO使用率 系统时间是否准确 查看DB服务进程 数据库服务登录DB库,检查库、表的正常 异 常 名称与数量 DB 服务的网络连接数量 正常 异 常 正常 异 常 应用运行健康 查看DB服务错误日志 OOOOPPPP检查 正常 异 常 WWWEEEE检查 RRRRRTTTT检查 正常 异 常 正常 异 常 -可编辑修改-
巡检意见:
。
2.7 日志和库表数据备份归档策略
检查配置表备份策略 正常 异常 检查数据表备份策略 正常 异常 日志和库表数据备份归档XX应用日志备份与归档 正常 异常 YY应用日志备份与归档 正常 异常 ZZ应用日志备份与归档 正常 异常 管理平台的日志备份与归档 正常 异常
巡检意见:
-可编辑修改-
。
3 巡检参与人员
联系人 电话 手机 Email
4 问题分析与运维建议
4.1 巡检工作中发现的问题以及对问题原因的分析
序号 问题 处理措施或建议 1 2 3 4.2 运维工作建议
1)持续提高对技术系统、网络、应用和数据库服务的监控与报警能力,及早发现系统中存在问题,可以有效避免问题影响的扩大化,将问题解决在萌芽状态。
-可编辑修改-
。
2)定期,如每周一次,检查各个应用主机节点、DB主机节点的日志归档、数据备份策略,检视这些策略是否在有效地运行,历史数据是否按预期的时间与方式被归档处理。检查重要数据的备份文件的有效性,确认这些备份数据是安全的且可在应急故障中用于恢复数据的。
3)定期检查或演练一下网络服务的高可用性,确保备份措施在发生了中断故障事件时,网络服务可以迅速且有效地切换到备机继续运行。建议将该应急切换操作进行自动化的实现,或者维护好手动切换需要使用的流程文档、操作手册和注意事项等。
4)采集和监测网络中各主机节点的网卡流量,合理设计报警阈值,用以辅助发现和定位异常的网络通信流量、信息安全威胁或是故障事件。
-可编辑修改-
。
THANKS !!!
致力为企业和个人提供合同协议,策划案计划书,学习课件等等
打造全网一站式需求
欢迎您的下载,资料仅供参考
-可编辑修改-
因篇幅问题不能全部显示,请点此查看更多更全内容