文档介绍:智能化IT运维管理平台方案建议书
.企业运维现状与发展趋势
随着企业信息化的不断发展,运维人员需要面对越来越复杂的业务和越来越多样化的用户需求,不断扩展的应用需要越来越合理的模式来保障运维服务能灵活便捷、安全稳定地持续。
某企业从初期化工作平台还可帮助运维人员完成日常的重复性工作,提高运维效率,下图是实现自动化运维的流程图:
,指导性流程
运维的自动化能够预测故障、在故障发生前能够报警,让运维人员把故障消除在发生前,将所产生损失减到最低。由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现零延时”的运维。
建立完整、全面的运维管理制度,为自动化运维的实现保驾护航
运维制度的建立包括环境管理、资产管理、介质管理、设备管理、监控管理、管理、系统安全管理、恶意代码防范管理、密码管理、变更管理、备份与恢复管理、安全事件处置,应急预案管理等制度。
.运维管理制度是衡量运维工作的一把尺子,完善的管理制度能有效的提升运维工作效率,日常工作以管理制度为依据,按规定的要求和规定的流程操作既快速又准确;
.全面的运维管理制度能在问题和故障还没有出现,没有造成损失前就被及时的发现,从而问题得到有效的处理,业务连续性得到了保障;
.运维管理制度为运维工作提供了规范化的解决方案,使运维人员在处理问题时有章可循快速找到问题的根本原因,把问题对业务造成的损失降到最低;
.运维管理制度是为业务服务的,业务是不断发展的,运维管理制度要跟得上业务的不断发展实现管理制度的创新。
.自动化运维技术路线选型
自动化运维概述
自动化运维范围包括安装自动化、部署自动化、监控自动化、发布自动化、升级自动化、安全管控自动化、优化自动化、数据备份自动化等。
自动化运维系统包括商用自动化运维系统、开源自动化运维系
统,自建(研发)自动化运维系统。
商业的运维系统在功能上要全面一些,服务支持上能好一些,更新与升级有保障,采购成本较高,对运维人员的技术要求相对较低。
开源运维系统更灵活一些,服务支持需要运维人员自身多投入一些时间和精力,更新与升级更个性化一些,相对成本较低。自建自动化运维系统对人员的技术要求最高,成本也不低,但是当企业发展到一定规模后自建的运维系统才能更适合企业对于自动化运维的要求。
开源运维工具的应用场景与优势
Puppet是一个开源的软件自动化配置和部署工具,它使用简单且功能强大,很多大型IT公司均在使用puppet对集群中的软件进行管理和部署。
优缺点分析:优点是Web界面生成处理报表、资源清单、实时节点管理,
push命令可即刻触发变更;
缺点是相对其他工具较复杂、需学****Puppet的DSL或Ruby,安装过程缺少错误校验和生成错误报表。
SaltStack是一种全新的基础设施管理方式,部署轻松,在几分钟内可以运行起来,扩展性好,很容易管理上万台服务器,速度够快,服务器之间秒级通讯。
优缺点分析:优点是可以使用简单的配置模块或复杂的脚本,Web界面可以看到运行和监控的工作状态、事件日志,扩展能力极强;
缺点是缺少生成深度报告的能力。
Ansible是新出现的运维工具是基于Python研发的综合了众多老牌运维工具的优点实现了批量操作系统配置、批量程序的部署、批量运行命令等功能。
在进行大规模部署时,手工配置服务器环境是不现实的,这时必须借助于自动化部署工具。
优缺点分析:优点是模块可以用任何语言开发、备管节点不需要安装***、有Web管理界面、安装运行简单;
缺点是对windows备管节点需要加强、执行效率相对较低。
下图是Puppet、SaltstackAnsible这三款运维工具处理能力与处理效率的对比:
各种运维工具只是用于帮助人员进行运维的,每种工具都有其使用的优势领域,Puppet适用于软件自动化配置和部署;
SaltStack适用于基础设施管理,在几分钟内可运行起来,很容易管理上万台服务器,速度够快;
Ansible适用于批量操作系统配置、批量程序的部署、批量运行命令等;
下面是两个常用的开源监控系统:
1)Nagios是一款免费的开源IT基础设施监控系统,其功能强大,灵活性强,能有效监控Windows、Linux、VMware和Unix主机状态,交换机、路由器等网络设备的网络设置等。
一旦主机或服务状态出现异常时,会发出邮件或报警第一时间通知IT运维人员,在状态恢复后发出正常的邮件或短信通知。
优缺点分析:优点是配置灵活、监控项目很多、自动日志滚动、支持冗余方式主机监控、报警设置多样性。
缺点是事件控制台功能较弱、无法查看历史数据、插件易用性不好。
2)Zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。
用