1 / 21
文档名称:

系统应急预案.doc

格式:doc   大小:85KB   页数:21页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

系统应急预案.doc

上传人:yuzonghong1 2019/8/20 文件大小:85 KB

下载得到文件列表

系统应急预案.doc

文档介绍

文档介绍:系统应急预案 系统应急预案2015年7月系统名称涉及部门财务部涉及人员及联系方式及职责人员名称人员所在单位人员联系方式预案事件描述:调整失败,可能涉及如下情况:系统崩溃:系统出现重大故障是指所有的客户端程序都不能正常连接到服务器,任何合法的系统用户都无法正确登录系统,甚至于系统完全崩溃;数据丢失:系统数据丢失状态,如数据库服务出现故障,用户数据丢失,公司现有技术手段无法恢复;服务停顿:系统服务停顿状态,如系统由于不明原因导致大规模用户无法使用,服务停顿。接口无法正常调用:系统无法正常调用财务管控接口(财务管控接口、ERPRFC接口、ESB)。预案处理要求系统崩溃:停止系统后台服务,防止不知情用户继续投递数据。抓取并保存系统出错信息及日志文件,简单判断异常部位,通知相关人员到岗,保留现场,分析查找原因。数据丢失:停止服务和后台数据库服务,将剩余用户数据进行备份,抓取并保存系统出错信息及日志文件,通知相关人员到岗,保留现场,分析查找原因。服务停顿:联系网络管理人员、通知相关人员到岗,从网络和系统两个方面分析查找服务停顿原因。接口无法正常调用:联系相关接口服务提供方,确认服务是否正常。注:对故障进行快速处理及归档,争取每次故障修复时间控制在两小时以内。、操作系统、主页发布软件发生变更时要进行演练。,并对系统做全备份。。预案流程说明一、事件报警与确认:系统人员在对系统进行调整的过程中发现公司系统运行中的异常及其它故障。由运维人员首先确认系统是否发生重大故障,及时通知相应管控经理及信通公司相应负责人,启用预案。二、系统发生重大故障时,保护故障现场:必须及时采取以下措施,通知系统运维人员及时到场保证服务器不再有任何人进行任何操作通知所有使用系统的人员暂停对系统的登录三、分析故障原因:)操作系统异常问题原因:由于操作系统自身服务崩溃或系统组件冲突,服务器操作系统无法正常运行,部署在此操作系统上的应用服务器受此影响无法正常启动及运行,服务崩溃。应急预案:联系操作系统服务商进行系统恢复,解决系统组件冲突。操作步骤:按照当地科信部门或系统运维部分相关操作步骤进行。2)磁盘空间不足问题原因:由于SAPCE服务器及对应的Oracle服务器自动归档备份功能开启,会造成备份文件逐步增加,文件累计达到一定数据大小后,导致系统磁盘空间不足,引发服务器各项服务组件无法正常运行,服务崩溃。应急预案:(1)删除SAPCE自动备份文件。进入SAPCE服务器自动备份文件保存目录,保留最近的2个备份版本,删除其余备份文件。(2)删除Oracle归档日志。进入Oracle归档日志目录,保留最近1个月的归档日志备份,删除其余备份。如通过以上方式3仍无法释放磁盘空间资源,则需要进行服务器存储空间扩容。具体方案依据当地服务器硬件升级操作方案处理。操作步骤:(1)登录服务器,检查各分区磁盘剩余量。若剩余量低于10%,需要进行备份及归档文件清理操作。(2)进入SAPCE服务器文件备份目录,检查备份文件状态,若备份文件过多,可考虑删除最近2个备份版本之前的其余备份文件。(3)进入Oracle归档日志存储目录,检查归档日志状态,若归档日志过多,可考虑删除1个月之前的归档日志文件。(4)若服务器中,SAPCE备份及Oracle归档日志文件数量均不大,但服务器存储资源不足,可申请当地运维支持检查服务器上文件系统,删除非系统必需文件。(5)以上操作仍无法解决磁盘空间不足问题,则按照当地服务器硬件资源升级操作流程进行处理。3)磁盘读写保护异常问题原因:由于操作系统安装了磁盘读写控制软件,或是系统还原配置不正确,会导致系统所在应用服务器无法实现对底层文件系统的读写访问,造成依赖于文件读写服务的组件功能无法正常运行,服务崩溃。应急预案:(1)修改磁盘读写控制软件对SAPCE平台服务器的权限控制(2)调整系统还原配置参数,将其置为正确的配置操作步骤:(1)申请当地运维支持,检查是否安装了磁盘读写保护软件或装置,若有,则需解除其对SAPCE平台相关服务的读写控制(2)申请当地运维支持,检查系统还原情况配置,保证其配置正确。4)网络服务异常问题原因:服务器未正确分配IP地址,或是防火墙限制服务器的网络访问以及物理链路中断等原因,会导致系统用户无法正常登陆系统,关联业务系统与凭证系统集成服务异常。应急预案:为服务器分配正确的IP地址,并将此地址注册到防火墙可信任地址列表中。对于物理访问链路中断问题,检查并重新配置网络物理通信链路。此部分具体应急预案由当地科信部或运维部分统一处理。操作步骤:(1)检查服务器的IP地址是否分配正确,若分配错误或IP地址冲突,需要申请当地