文档介绍:自动化运维管理解决方案
目录
IT运维管理面临挑战3
应运而生的自动化解决方案5
自动化应用场景7
灾备切换自动化7
故障现场快照8
批量设备操作处理8
周期性作业调度9
应急处理流程9
重要配置备份、基线比对10
产了系统易用性;
执行可视化:提供图形界面方式,灾备切换流程无需通过繁琐命令行方式执行,管理员仅需在图形界面中选择相应流程并点击执行即可,执行前还可以在界面进行多人确认;
过程可视化:提供操作流程视图,所有人员在流程图中可以清晰了解灾备切换整体流程情况、当前执行环节,以及每个节点执行状态,为保证不同使用习惯,执行过程提供流程视图、树状视图两种展现形态;
规程可视化:提供自动生成操作规程文档功能,管理员配置完某自动化流程时,系统能够自动生成该流程的操作规程文档,系统使用人员可以根据文档清晰了解到本自动化流程完整信息。
故障现场快照
传统IT监控系统在故障发生时能及时告警,但是运维人员、厂商、开发商仅仅获得一条告警信息,无法从监控平台获取更多的信息完成故障分析及预防。
通过监控/监控集成、作业调度双重技术手段,在故障发生时,对故障现场的本机环境、跨服务器/跨设备环境进行全方位捕捉,对故障现场进行最大程度的保留,协助管理员、厂商、开发商进行事故后的详细分析,并设定相应预案。
通过故障现场快照,可以完成:
1、故障现场全方位场景获取,获取内容可以根据不同角色需求灵活定制;
2、故障发生时系统自行完成场景捕获、保存,并将其分发给不同的角色进行联合“会诊”;
3、根据预案内,通过定制化纳入到中,实现故障发生前的预警,并且提供及时处理,避免故障再次发生。
批量设备操作处理
随着IT规模不断扩大,IT设备数量不断增多,原有简单的运维操作,也随之成倍增长,即增加了运维工作量,又使重复性操作过程中,由于人员注意力降低导致的操作失误次数成倍增长。
例如:对设备批量程序更新、批量巡检等、批量密码修改等大批量、重复性操作。
提供批量作业并行处理平台,实现多设备同时批处理操作。通过自动化流程把,将简单的操作在大批量设备上操作,并对作业执行过程进行监控对执行结果进行检查。
通过部署批量设备操作流程:
1、批量设备并发执行,缩短批量操作执行时间,提高执行效率,并且提高系统升级一致性;
2、减少批量操作过程中,由于实施过程中因操作人员操作疲劳、注意力降低导致的误操作,从而减少人工失误导致的生产系统故障;
3、提高IT运维自动化水平,减少人工投入,降低运营成本;
周期性作业调度
随着IT应用系统不断上线,运维中周期性、重复性操作逐渐增多。此类操作即占用了运维人员大量日常工作时间,又存在人工误操作的风险。并且对于复杂作业流程,还需要运维人员有较高的技术水平及较高的系统熟练度,由此增加了因人员、岗位变动导致的而操作意外发生几率。
例如:可以对每日巡检、日终批量操作、事务数据收集、月结批处理、年结批处理等作业执行的自动化。
提供统一应用运行操控平台,实现跨平台、跨作业段、跨设备的作业协同调度操作。平台将周期性、重复性批处理作业,以及庞大复杂的作业流程,固化为自动化作业流程,通过时间调度引擎,按照既定时间规则,在指定时间点进行调度。从而实现作业的周期性自动化调度,运维人员仅需查看相应的作业执行过程、执行成功与否、执行结果报告(截图、操作命令输出结果等操作结果信息)。通过自动化流程把成百上千的批处理作业组织起来,规范跑批作业,对作业执行过程进行监控对执行结果进行检查。
通过周期性作业调度自动化:
1、降低了关键岗位的技能要求:过去,必须由全面掌握各业务系统的运维专家完成各类批处理作业的操作和判断;现在,普通运维人员即可使用自动化工具完成。
2、消除故障隐患、保证作业效率:一方面,对关键数据的完整性、合规性进行校验;另一方面,在发生异常时快速定位故障数据源,以便排查。
3、降低日常运维工作中人员的时间投入、精力投入,从而将运维人员解放出来,投入到更重要的IT运维工作中。
应急处理流程
IT系统发生严重故障发生时,时间就是金钱。一方面,如何缩短管理员接收通知到故障处理时间;另一方面,如何缩短故障处理过程花费的时间,并提高故障处理成功率,显得极其重要。
例如:文件系统满,导致新的日志无法写入;数据库归档日志空间满;数据库表空间满,数据无法写入;生产系统故障,需要紧急切换备份系统等。
自动化处理与监控告警集成,第一时间发现,调用预定义的故障应急处理流程;故障处理后,系统会调用检查流程,对故障恢复情况进行检查。全部操作完毕后,系统会将故障发生现场镜像、故障处理结果、处理完毕检查确认结果,一并发送给管理员,由管理员确认整个流程执行无误。
通过应急处理流程:
1、极大缩短了从故障发生到故障