文档介绍:超大彩信业务平台应急指导书
中国电信系统集成有限责任公司内蒙古分公司
2010年08月
目录
目录 2
第1章目的 3
第2章使用对象 3
第3章适用场合 3
第4章应急处理流程说明 3
紧急情况界定 3
应急措施及应急流程 3
第5章常见故障及应急处理篇 3
硬件故障篇 3
电源故障 3
防火墙、交换机故障 3
路由器故障 4
超级彩信平台服务器硬件故障 4
软件故障篇 4
超级彩信平台程序软件故障 4
超级彩信平台数据库软件故障 4
第6章预警处理篇 4
CPU过负荷预警处理 4
内存预警处理 4
磁盘空间预警处理 4
超级彩信平台程序故障预警处理 4
超级彩信平台数据库故障预警处理 4
第7章应急资源配备 4
目的
为保证公司业务的正常运行,避免和减少公司各服务器出现严重问题,在出现问题时能根据本方案及以前的备份资料迅速及时恢复系统的正常运行;保证公司数据的完整性,并可随时恢复;减少故障对公司的损失。
为了规范项目,便于维护人员在紧急情况下对硬件及软件的常见问题做出及时的判断和分析,特编写业务平台的应急预案书。
使用对象
项目维护人员
适用场合
网络安全漏洞造成数据被恶意攻击破坏,未采用容灾方案,数据在外界灾害中被破坏,用户硬件故障造成的数据损失,电力实效。
应急处理流程说明
紧急情况界定
发生电力故障时第一时间保证重要服务器、路由器及交换机的电源,关掉业务不是很重要的服务器,这样可以在断电时保证网络的基本运行,确保各分公司正常连接办公网、相关业务系统基本不受影响。并询问人事部故障处理时间,如果断电时间超出UPS使用时间,可通知各部UPS电源可待机时间。在UPS电源只够支撑半个小时的时候,电话通知各部做好文档保存工作,一线营业部门做好手工记帐准备,服务将在15分钟后中断。确定各部做好保存工作后将各组服务器关机,等待电力恢复。电力恢复后,将各服务器和网络设备开机,检查各组服务器和网络运行情况,发现故障及时跟进处理,确认运行正常后,电话各部通知服务已恢复正常运行。恢复后将结果报知部门经理并做好相关记录。
应急措施及应急流程
硬件故障应急流程:
当发生硬件故障时第一时间分析故障原因,、硬盘、、主板可用备用服务器顶替,以确保服务不中断。如果当值人员无法排除故障,可向本部同事请求技术支持并向本部经理汇报情况,由经理统一协调。发生故障同时电话通知相关业务部门,告知故障原因、处理时间,故障处理结束后电话通知使用部门和部门经理告知处理结果。并将处理结果在《服务器重大事件处理登记表》做好记录。
软件故障应急流程:
当发生软件故障时第一时间分析故障原因,当系统出现崩溃时,可通过系统GHOST备份还原系统。(系统GHOST在本机与文件服务器都做了备份)。当系统中病毒时,可进入安全模式查杀病毒和木马,安全模式无法进入的话可将硬盘外挂到另一台电脑进行查杀。当服务器数据库损坏后,可及时通过SQL恢复本机的备份数据。(数据库在本机与磁带机都有备份)。如果当值人员无法排除故障,可向本部同事请求技术支持并向本部经理汇报情况,由经理统一协调。发生故障同时电话通知相关业务部门,告知故障原因、处理时间,故障处理结束后电话通知使用部门和部门经理告知处理结果。并将处理结果在《服务器重大事件处理登记表》做好记录。
人为及自然损坏应急方案:
当发生人为及自然损坏时,第一时间通知部门经理由经理统一协调,发生服务器被盗和暴力破坏服务器时,可选择报警,追究破坏者刑事责任,从其它公司部门借调服务器,重新恢复相关数据。当发生数据被盗时,查看监控录像或服务器日志。报警追究刑事责任。发生不可抗力服务器自然损坏时, 从其它公司部门借调服务器,重新恢复相关数据。并将处理结果在《服务器重大事件处理登记表》做好记录。
常见故障及应急处理篇
本篇主要介绍在日常维护及应急处理中的一些常见硬件及软件故障,指导相关超大彩信平台维护人员掌握日常应急处理方法及流程。
硬件故障篇
本篇主要介绍在日常维护及应急处理中的一些常见硬件故障,指导相关超大彩信平台维护人员掌握日常应急处理方法及流程。
电源故障
电源指示灯报警,正常状态为绿色,报警状态为红色,建议联系供应商更换电源。
防火墙、交换机故障
防火墙、交换机故障会导致与各个外部实体网源连接中断,同时,也会导致超大彩信平台数据库与业务进程之间的通讯中断,导致程序异常,业务全阻。
路由器故障
超大彩信平台服务器硬件故障