文档介绍:网络故障管理何去何从
网络性能取决于连接用户到应用的网络的类型和容量。本地用户可能通过以太网或无线网络连接,远程用户则通过各种WAN技术连接,包括公共互联网或蜂窝网络等。每种连接都需要专门的方法来维持所需的性能。任何这些位置应用或网络的故障都可能降低客户满意度。
云故障检测
很多拓扑结构和设计其中包括虚拟化服务器、多个虚拟局域网和覆盖网络让云故障检测和网络故障管理变得更加复杂。一个租户的应用出现性能问题可能与影响另一个租户的问题并没有什么关联,但它们可能来自同一来源。每个租户的应用可能在相同超载或配置错误的服务器上执行,或者两个租户的覆盖网络通过相同超载或故障链接来路由。
海量的服务器、网络组件和链接是故障的一大来源。现代硬件极为可靠,尽管每个组件有多年故障平均时间,但对于数千独立的设备来说,依旧会有硬件故障发生。
配置错误是另一个问题来源,该问题可由网络故障管理进行跟踪。服务器和网络设备不断添加、升级或取代。大型云计算通常包括来自不同供应商的组件,甚至来自同一供应商的相同组件也可能运行着不同的软件版本。在这种环境中,任何变更都可能导致错误的出现,同时,对一个组件的改变还可能影响到其他组件。
简单地检测和报告错误已经不够,每个错误可能导致几十份错误报告。链路故障会在链路两端的交换机生成硬件故障指示,并且每次链路故障和恢复时都会发出新报告。2层和3层网络协议路由会改变,在备用路由流量水平接近最大数值时链路流量监控也会变化。同时,应用性能监控器会从通过该链路路由流量的每个应用报告问题。
故障相关性及其在网络中的作用
没有哪个网络管理员能够整理完单一故障生成的海量报告,并快速发现其根本原因。对此,故障相关性软件很重要,这是每个主流系统供应商网络管理产品的重要组成部分。
故障相关性产品利用各种机制来发现问题,其中包括SNMP trap、TL1消息、应用日志和SYSLOG条目。SNMP和特定产品轮询监控器运行在服务器、交换机和链路。相关性工具还可监控设备问题、电源电压和磁盘可用空间来预测未来的问题。
网络故障管理软件必须提供对网络准确的’且最新的视图。该软件必须保持更新无论是通过手动或者通过网络映射,以追踪添加的、移除的或更新的组件。它必须维护每种组件的内部型号,介绍其配置和功能,并包含网络运营政策的描述。当添加应用时,还必须更新服务水平协议SLA等信息。
此外,故障相关性软件必须与云编排软件来交互,追踪正在运行的应用、它们在哪些服务器运行和VLAN以及与每个租户相关的覆盖网络。网络故障管理软件还必须不断根据SLAN监控应用性能水平。
当出现问题时,相关性软件会获取所有接收到的故障指示,并利用有关的网络拓扑以及在故障出现前数据如何移动的信息来确定根本原因,并为网络管理人员提供简要的报告。
SDN网络
云计算与SDN技术管理的数据中心面临着与依靠传统技术的数据中心相同的潜在问题。它们都需要故障相关性软件,但SDN架构需要将相关性软件内置到网络控制器或与其紧密连接。