文档介绍:IT基础设施运维管理规范
文件编号: 版本号:
总则
为了规范本部门运维管理工作,使得相关工作含有连续改善性及相互协作性,能够支撑企业系统健康可靠运行,由此制订本规范。
本规范适适用于信息管理中心技术保障部全部岗位人员。
部门职能
负责信息化基础设施技术保障,包含网络、电话、机房、服务器系统、数据安全等技术支持;
负责全部服务器系统技术运维工作
负责关键数据库性能调优及技术运维工作
负责多种网络设施、线路技术运维保障工作
负责其它设施运维保障工作,如机房设施、一卡通、考勤机等智能化设施。
负责信息化安全建设和实施;
岗位职责
经理:
负责信息化基础设施技术保障,包含,电脑终端、网络、电话、机房、服务器系统、数据安全等技术支持;
负责信息化安全建设和实施;
负责本部门组织管理,包含,修订组织职责、架构编制、岗位职级、分工授权等;
负责本部业务制度步骤规范制订和监督实施;
负责本部团体建设,包含,新职员入职、职员培训、绩效考评、职员心政、团体活动等;
负责本部门工作管理,包含,预算编制和管控、计划管理、汇报管理、会议管理等;
系统工程师:
负责全部服务器系统技术运维工作
负责关键数据库性能调优及技术运维工作
网络工程师:
负责多种网络设施、线路技术运维保障工作
负责其它设施运维保障工作,如机房设施、一卡通、考勤机等智能化设施
安全工程师:
负责信息化安全建设和实施;
其它说明事项:
系统工程师、DBA、网络工程师、安全工程师,以下统称运维工程师;
权限控制:除负责基础设施网络工程师,其它工程师不得拥有进入数据中心机房权限。网络工程师不得拥有系统工程师管理权限。
各岗位周期性工作清单见附一。
管理对象
IT基础设施管理对象包含网络、电话、机房、服务器、系统、信息安全等,具体内容以下:
网络:XXXX运行中心、JJJJ工业园、WWWW工业园、数据中心、北京办事处网络建设和维护。
电话:XXXX运行中心、JJJJ工业园、WWWW工业园电话网络建设和维护。
机房:数据中心机房建设和日常维护。
服务器:服务器软硬件采购、建设和日常维护。
系统:操作系统、数据库、应用系统、虚拟化日常维护。
信息安全:信息安全建设和维护。
运维规范
内部运维
运维工程师,负责岗位职责内对应IT设施《维护手册》制订和完善、并根据本运维规范实施维护管理工作和巡检工作。
运维工程师应该依据运维过程搜集统计信息,每个月整理出当月《月度运维汇报》提报部门经理,汇报中要关键关注IT设施问题和改善分析,并提出改善方法和提议。
部门经理,负责保障运维管理体系有效实施,包含本运维管理规范制订和完善,督导维护工程师完善各设施维护手册。
部门经理在月度工作会议上就当月各个运维工作汇报和团体沟通共识出整改方法,并形成新工作计划,推进落实实施。
参考运维手册:
《网络维护手册》
《系统维护手册》
巡检管理
巡检对象:机房、数据备份、网络、服务器、系统运行状态。
巡检周期:每日、每七天、每个月,详见附一《周期性工作清单》。
每位运维工程师依据各自维护设施,按时对检核内容进行检验。每日:当日下班前要把当日检验情况填报检核表。
部门经理将不定时检验巡检完成情况。
巡检期间,假如发觉设备或系统异常,应立即上报部门经理并展开调查,确定故障应立即进入故障处理步骤。
监控告警
使用*******作为统一监控中心,提供在线监控、流量分析、故障告警;
设定告警阀值:磁盘阀值95%,非数据库系统内存阀值70%,CPU阀值70%。
告警:达成阀值或系统中止时,平台经过短信通知到运维工程师,运维工程师收到告警后,应该立即检验系统健康情况,并在应急预案要求时间内恢复正常;
故障处理
依据企业《应急预案》要求,在要求时限内进行故障恢复;
预案安全等级:(具体系统安全要求,见《应急预案》)
安全等级
很关键
关键
通常
RTO
不间断
1小时以内
二十四小时以内
RPO
不间断
1小时以内
二十四小时以内
故障发生时,运维工程师在无法锁定问题根源时,应该立即开启应急机制,在要求时间内先恢复业务使用,并在非工作时间进行具体故障排查;
经过排查仍然无法处理时,应立即向部门经理汇报,并寻求外部资源直至问题处理;
运维审计
三权分立:角色分为审计员、设备管理员、运维人员,审计员仅能进行审计工作,对设备管理员和运维人员行为进行审计,不能创建运维账号,没有系统权限和账号,无法进行运维工作。设备管理员保管系统账号及权限分配,但不能创建运维账号,也无法进行运维工作。运维人员只能进行运维工作,没有系统账号及设备管理权限;
内部