故障管理是基本的网络管理功能。它在网络运行出现异常时负责检测网络中的各种故障,主要包括网络结点和通信线路两种故障。在大型网络系统中,出现故障时往往不能确定具体故障所在的具体的位置。有时出现的故障是随机性的,需要经过很长时间的跟踪和分析,才能找到其产生的原因。这就需要有一个故障管理系统,科学地管理网络所发现的所有故障,具体记录每一个故障的产生、跟踪分析,以致后面确定并改正故障的全过程。因此,发现问题、隔离问题、解决问题是故障管理系统要解决的问题。
故障管理系统的主要功能有:
(1)故障警告。管理程序经常测试、记录网络的工作状态,当故障出现时发出警告信号。通过统计和分析形成故障报告,帮助管理人员进行故障定位和故障隔离。收集故障信息可以由管理主机定期查询管理对象,这种方式要消耗大量的网络带宽;另一种方法是由被管理对象在出现异常事项时主动报告地点、原因、特征等故障信息,形成故障警告,故障警告一般还包括可能采取的对应措施。
(2)事件报告管理。对管理对象发出的通知进行过滤处理,并加以控制,以决定该通知是否应该发送给管理主机、是否需要转发给其他有关的管理系统、是否需要发送给后备系统及控制发送的频率等。
(3)运行日志控制。将管理对象发出的通知和事件报告存储在运行日志中,供以后分析使用。运行日志可以存储来自其他系统的事件报告,管理主机可以操作运行日志,如删除、修改属性、增加记录、挂起或恢复日志的活动。
(4)测试管理。对测试过程进行管理,根据指令完成测试,并把测试结果返回或作为时间报告存储到运行日志中。
(5)确认和诊断测试的分类。确认和诊断测试分为链接测试、可链接测试、数据完整性测试、端链接测试、协议完整性测试、资源界限测试、资源自测试、基础设施的测试。故障管理是经常性和复杂的工作,不能对网络性能产生太大的影响,特别适合智能化的网络管理系统应用。