1 / 72
文档名称:

信息网络运行维护管理规范.doc

格式:doc   大小:2,595KB   页数:72页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

信息网络运行维护管理规范.doc

上传人:AIOPIO 2020/4/23 文件大小:2.53 MB

下载得到文件列表

信息网络运行维护管理规范.doc

文档介绍

文档介绍:信息系统运维事件管理规范适用范围本规范适用于信息系统运维事件,包括对信息系统的使用咨询,系统故障,以及有关业务应用的支持要求。定义与术语术语术语解释岗位AB角一个岗位安排两个人,其中一个主要负责,称为A角,当A角不能履行职责时,由B角替代。呼叫中心接收用户运维请求的受理平台。事件管理和呼叫中心一起组成事件处理流程,有效解决各类IT突发事件,尽快恢复IT服务。配置管理管理各IT资产系统(配置元素,配置项)的流程,包括相互间的关联与依赖关系。配置管理数据库对所有IT组件、组件的不同版本和状态以及组件之间的相互关系进行跟踪、记录。运维管理知识库操作指南,开发文档、技术文档、验收文档等技术资料的集合。影响程度问题造成对IT环境的影响范围,包括对其他IT系统,对相关人员等。优先级问题需要找到解决方法和处理措施的紧急程度。重大故障在各系统的系统故障分级中定义为一级故障的故障现象,均视为重大故障。一般故障在各系统的系统故障分级中定义为二、三级故障的故障现象,视为一般故障。角色与职责本过程设立运维负责人、支持受理人、问题反映人、各系统管理岗,岗位设立AB角,负责信息系统运维事件的管理,具体职责要求如下:序号角色名称定义/职责1运维负责人全面负责运维各项工作。审核审批各项运行维护制度规范和工作流程,负责协调各部门间的工作。负责与其他部门间的协调工作。负责建立健全本级运维与上级运维部门、本级运维与下级运维之间高级技术支持之间的顺畅沟通机制。负责本级运维队伍的管理、培训工作。负责落实上级运维部门提出的运行维护任务。管理运行维护部门员工的工作。通过呼叫中心事件管理报告,监控事件管理的效率,改善运维服务质量。负责系统重大故障及紧急事件的处理,并负责组织进行相关事故原因的调查分析,形成事故分析报告和相应的解决方案。在业务部门,信息中心领导,以及信息中心内部维持良好的沟通渠道。完善和维护事件管理系统。2支持受理人负责接收用户反映的信息系统问题,并对问题记录、整理。负责对事件分类和提供初始的支持。将问题的解决步骤文档化。将服务请求分派给适当的工作组。跟踪服务请求的处理过程以确保在规定的时间内解决问题,同时在系统里更新相应信息。序号角色名称定义/职责对于无法解答的技术问题,及时转送其他相关人员;对于无法解答的业务问题,及时提交运维负责人。与服务请求的提交者进行直接的沟通,通报事件的处理情况。在结束事件之前要确认服务请求的提交者对事件的解决过程及结果是否满意。作为事件的责任人,监控,跟踪所有的事件处理过程,并作为和客户沟通的唯一联系点。编制管理信息报告。3问题反应人对于本级运维解决有困难的问题,负责向上级运维中心、高级技术支持或国家电网运维部门及时准确地上报。对于紧急、重大故障问题,负责向上级运维中心、高级技术支持或国家电网运维部门及时准确地上报。负责全程配合、协助国家电网解决上报问题,并跟踪问题的进展、解决、落实过程。4系统管理员在规定的时间内解决服务请求。对利用“临时方案"解决的服务需求,在资源及时间允许时应找到问题根源。在需要时(有重大故障及升级需求时),及时利用其它资源(开发商或供应商)帮助用户解决问题。将服务请求的解决方案的步骤文档化,并录入系统。更新文档记录。和主机管理人、存储管理人、数据库管理人、中间件管理人一道,对业务系统实行全方位的管理。工作流程与活动参与事件管理、服务请求管理、重大故障处理、事件升级、一般事件处理、服务报告管理流程涉及的系统运维工作。具体工作内容如下:事件管理运维事件管理的总体流程如图1《问题响应管理总体流程》所示:支持受理人接受来自各种渠道的服务请求、告警、故障事件等;通过服务请求管理系统将事件进行记录、分类、确定优先级;根据预定义的重大故障分类,判断是否启动《重大故障处理流程》(见图3);如遇紧急事件,则直接执行《升级流程》(见图4),由运维负责人直接调用适当资源尽快处理;一般事件则执行《一般事件处理流程》(见图5)。(图1问题响应管理总体流程)服务请求管理支持受理人接受来自各种渠道提交的有关信息系统运维的服务请求、告警、故障事件等;确认事件请求人是否属于服务对象。如果不是,则拒绝服务转交其它部门处理;问题概要需要在《服务请求记录表》(见附录1)中进行详细的记录,如详细情况描述;按照预定义的“系统服务分类”对事件涉及的系统进行分类,如:网络系统,主机系统、营销系统等;根据预定义的配置管理数据库的相关内容,将事件与配置项联系起来;选择事件的影响程度:低:造成个别用户不能正常访问。中:局域网内超过5%的用户不能正常访问。高:营销系统、“95598”系统等核心业务系统大面积瘫痪,不能正常对公众提供服务,造成负面的社会影响。选择优先级:无优先级:无时限要求,在方便的时候排除故障。低:24小时内排除故障。中:8小时内排除故障。高:4