文档介绍:系统
应急预案
目 录
1. 目的 3
2. 适用范围 3
3. 涉及服务器列表 3
4. 危险因素分析 4
5. 危险事件等级定义分类 4
6. 应急响应流程 4
:部署环境的硬件设备故障、部署软件系统故障、网络故障及满意度系统本身的程序错误。
危险事件等级定义分类
1、一般故障:指系统出现轻微错误或瑕疵,具体包括:个别图片无法显示、个别信息内容出现明显错误、个别服务和功能无法正常使用等。
2、重大故障:指出现系统出现异常,但不影响系统日常使用,具体包括:局部页面错误、部分功能无法使用,部分信息内容出现明显错误等。
3、特大故障:指系统崩溃,应用服务停止,导致大规模用户无法使用系统,出现数据丢失,具体包括:系统服务无法启动、数据库无法连接、系统程序异常和数据库文件损坏等。
应急响应流程
事件报警与确认
工作人员对数据库服务器、应用系统的运行状况以及网络情况进行监测,及时发现系统的异常和网络故障,一旦发现异常情况需及时通知项目维护相关人员进行原因的排查和故障的处理;
对系统进行检查
检查网络连接:需要相关网络管理人员配合检查;
检查应用服务器性能指标,检查的内容包括:Web Sphere进程是否正常、CPU使用率、内存使用率;
检查后台数据库服务器性能指标,检查内容包括:数据库服务器双机状态、数据库进程是否正常、数据库服务是否启动、CPU使用率、内存使用率。
安全审计及事故分析
通过系统日志、网络设备日志、数据库访问日志等,对事件进行审计,对损失进行评估,追查事件的发生原因;
消除隐患、恢复正常运行
根据审计结果,排除系统隐患,恢复系统正常运行;
重新启动系统
启动数据库服务器->启动应用服务器;
安全报告、归档
提供故障分析报告,分析故障原因,修正预案处理流程并归档。
应急处理措施
一般故障
工作人员第一时间迅速准确判断事件原因,提交甘肃省烟草公司零售客户满意度网上调查系统项目组进行处置。
重大故障
按规定及时向信息中心报告。报告内容主要包括故障范围、影响范围、事件性质、事件发展趋势和采取的措施等。信息中心召集相关责任部门共同协商解决。必要时可以停止系统运行。
特大故障
按规定及时向甘肃省烟草公司信息中心办公室报告,并要实行报告势态进程。甘肃省烟草公司信息中心办公室根据系统故障发展态势,现场指导,组织派遣应急支援力量。具体措施如下:
系统无法登录
系统无法正常登录一般由于应用服务器与数据库服务器之间网络连接异常或数据库服务未启动导致,现场处理措施如下:
检查应用服务器与数据库服务器之间网络连接是否正常,若应用服务器与数据库服务器之间网络连接异常,恢复应用服务器与数据库服务器网络解决,重新启动系统;
应用程序后台服务是否运行正常;
检查数据库服务器数据库服务是否运行正常,如数据库服务器服务未启动则启动数据库服务器数据库服务,重新启动系统;
若以上方案均无法解决系统无法登录问题,抓取并保存系统出错信息及日志文件,简单判断异常部位,通知系统维护相关人员,保留现场,分析查找原因。
系统应用连接数据库超时
数据库连接超时,一种情况是应用服务器与数据库服务器网络连接异常;另一种情况是系统数据源出错,现场