前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇网络故障诊断范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
世纪之交,全球因特网高速发展。抓住机遇,迎接挑战,我国的网络建设方兴未艾。政府上网工程拉开序幕,网络建设的新已经到来。网络诊断是管好、用好网络,使网络发挥最大作用的重要技术工作之一。本文首先简单介绍网络及路由器的基本概念,简述分层诊断技术,结合讨论路由器各种接口的诊断,综述互联网络连通性故障的排除。
二.网络与路由器概述
网络诊断是一门综合性技术,涉及网络技术的方方面面。为方便下面的讨论,首先简单回顾一下网络和路由器的基本概念。
1.计算机网络是由计算机集合加通信设施组成的系统,即利用各种通信手段,把地理上分散的计算机连在一起,达到相互通信而且共享软件、硬件和数据等资源的系统。计算机网络按其计算机分布范围通常被分为局域网和广域网。局域网覆盖地理范围较小,一般在数米到数十公里之间。广域网覆盖地理范围较大,如校园、城市之间、乃至全球。计算机网络的发展,导致网络之间各种形式的连接。采用统一协议实现不同网络的互连,使互联网络很容易得到扩展。因特网就是用这种方式完成网络之间联结的网络。因特网采用TCP/IP协议作为通信协议,将世界范围内计算机网络连接在一起,成为当今世界最大的和最流行的国际性网络。
2 .为了完成计算机间的通信,把每部计算机互连的功能划分成定义明确的层次,规定了同层进程通信的协议及相邻层之间的接口和服务,将这些层、同层进程通信的协议及相邻层之间的接口统称为网络体系结构。国际标准化组织(ISO)提出的开放系统互连参考模型(OSI)是当代计算机网络技术体系的核心。该模型将网络功能划分为7个层次:物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。
3 .TCP/IP即传输控制协议和网间互联协议是一组网络协议。TCP/IP起源于美国ARPANET网,发展至今已成为因特网使用的标准通信协议。使用TCP/IP能够使采用不同操作系统的计算机以有序的方式交换数据。
4 .路由器是一种网络设备,是用于网络连接、执行路由选择任务的专用计算机。路由器工作于网络层,对信包转发,并具有过滤功能。路由器能够将使用不同技术的两个网络互连起来,能够在多种类型的网络之间(局域网或广域网)建立网络连接。它将处在七层模型中的网络层的信息,根据最快、最直接的路由原理从一个网络的网络层传输到另一个网络的网络层,以达到最佳路由选择。同时在内部使用高档微处理器,用高速的内部总线连接适合各种网络协议的接口卡。并具有多种网管功能,能监视与路由器相连接的一些网络设备和它们的配置运行情况。
5 .CISCO路由器是目前网络建设中使用最多的一种路由器,有多种档次、多种系列,目前常用的当属2500系列,本文以2500系列为例讨论。2500系列路由器是固定接口的多协议路由器,支持CISCO IOS全部功能。根据特定的协议环境分为以下四种类型:固定配置的路由器(2501)、带HUB口的路由器(2507)、摸块化的路由器(2514)和访问服务器(2511)。它们结构简单、操作方便、易于配置和管理,是一种用于小规模局域网和广域网网络层中继的路由设备。
6.CISCO IOS是CISCO所特有的互连网操作系统,所有的CISCO产品都运行IOS,IOS将它们无缝连接在一起协同工作。给用户提供一个可支持任意硬件界面、任意链路层、网络层协议的可扩展的开放型网络。IOS支持众多的协议,包括各种网络通信协议和路由协议等。CISCO IOS已成为工业界网际网互联的事实标准。CISCO IOS提供几种不同的操作模式,每一种模式提供一组相关的命令集、不同的操作权限和操作功能。基于安全目的,CISCO用户界面中有两级访问权限:用户级和特权级。第一级访问允许查看路由状态,叫做用户EXEC模式,又称为查看模式;第二级访问允许查看路由器配置、修改配置和运行调试命令,叫做特权EXEC模式,又称为配置模式。在特权级中,按不同的配置内容,可进入不同的配置模式,如全球配置模式、接口配置模式、线配置模式等。
三.网络故障诊断概述
网络故障诊断应该实现三方面的目的:确定网络的故障点,恢复网络的正常运行;发现网络规划和配置中欠佳之处,改善和优化网络的性能;观察网络的运行状况,及时预测网络通信质量。
网络故障诊断以网络原理、网络配置和网络运行的知识为基础。从故障现象出发,以网络诊断工具为手段获取诊断信息,确定网络故障点,查找问题的根源,排除故障,恢复网络正常运行。
网络故障通常有以下几种可能:物理层中物理设备相互连接失败或者硬件及线路本身的问题;数据链路层的网络设备的接口配置问题;网络层网络协议配置或操作错误;传输层的设备性能或通信拥塞问题;上三层CISCO IOS或网络应用程序错误。诊断网络故障的过程应该沿着OSI七层模型从物理层开始向上进行。首先检查物理层,然后检查数据链路层,以此类推,设法确定通信失败的故障点,直到系统通信正常为止。
网络诊断可以使用包括局域网或广域网分析仪在内的多种工具:路由器诊断命令;网络管理工具和其它故障诊断工具。CISCO提供的工具足以胜任排除绝大多数网络故障。查看路由表,是解决网络故障开始的好地方。ICMP的ping、trace命令和Cisco的show命令、debug命令是获取故障诊断有用信息的网络工具。我们通常使用一个或多个命令收集相应的信息,在给定情况下,确定使用什么命令获取所需要的信息。譬如,通过IP协议来测定设备是否可达到的常用方法是使用ping命令。ping从源点向目标发出ICMP信息包,如果成功的话,返回的ping信息包就证实从源点到目标之间所有物理层、数据链路层和网罗层的功能都运行正常。如何在互联网络运行后了解它的信息,了解网络是否正常运行,监视和了解网络在正常条件下运行细节,了解出现故障的情况。监视那些内容呢?利用show interface命令可以非常容易地获得待检查的每个接口的信息。另外show buffer命令提供定期显示缓冲区大小、用途及使用状况等。Show proc命令和 show proc mem命令可用于跟踪处理器和内存的使用情况,可以定期收集这些数据,在故障出现时,用于诊断参考。
网络故障以某种症状表现出来,故障症状包括一般性的(象用户不能接入某个服务器)和较特殊的(如路由器不在路由表中)。对每一个症状使用特定的故障诊断工具和方法都能查找出一个或多个故障原因。一般故障排除模式如下:第一步,当分析网络故障时,首先要清楚故障现象。应该详细说明故障的症侯和潜在的原因。为此,要确定故障的具体现象,然后确定造成这种故障现象的原因的类型。例如,主机不响应客户请求服务。可能的故障原因是主机配置问题、接口卡故障或路由器配置命令丢失等。第二步,收集需要的用于帮助隔离可能故障原因的信息。向用户、网络管理员、管理者和其他关键人物提一些和故障有关的问题。广泛的从网络管理系统、协议分析跟踪、路由器诊断命令的输出报告或软件说明书中收集有用的信息。第三步,根据收集到的情况考虑可能的故障原因。可以根据有关情况排除某些故障原因。例如,根据某些资料可以排除硬件故障,把注意力放软件原因上。对于任何机会都应该设法减少可能的故障原因,以至于尽快的策划出有效的故障诊断计划。第四步,根据最后的可能的故障原因,建立一个诊断计划。开始仅用一个最可能的故障原因进行诊断活动,这样可以容易恢复到故障的原始状态。如果一次同时考虑一个以上的故障原因,试图返回故障原始状态就困难的多了。第五步,执行诊断计划,认真做好每一步测试和观察,直到故障症状消失。第六步,每改变一个参数都要确认其结果。分析结果确定问题是否解决,如果没有解决,继续下去,直到解决。
四.网络故障分层诊断技术
1. 物理层及其诊断
物理层是OSI分层结构体系中最基础的一层,它建立在通信媒体的基础上,实现系统和通信媒体的物理接口,为数据链路实体之间进行透明传输,为建立、保持和拆除计算机和网络之间的物理连接提供服务。
物理层的故障主要表现在设备的物理连接方式是否恰当;连接电缆是否正确;MODEM、CSU/DSU等设备的配置及操作是否正确。
确定路由器端口物理连接是否完好的最佳方法是使用show interface命令,检查每个端口的状态,解释屏幕输出信息,查看端口状态、协议建立状态和EIA状态。
2. 数据链路层及其诊断
数据链路层的主要任务是使网络层无须了解物理层的特征而获得可靠的传输。数据链路层为通过链路层的数据进行打包和解包、差错检测和一定的校正能力,并协调共享介质。在数据链路层交换数据之前,协议关注的是形成帧和同步设备。
查找和排除数据链路层的故障,需要查看路由器的配置,检查连接端口的共享同一数据链路层的封装情况。每对接口要和与其通信的其他设备有相同的封装。通过查看路由器的配置检查其封装,或者使用show命令查看相应接口的封装情况。
3. 网络层及其诊断
网络层提供建立、保持和释放网络层连接的手段,包括路由选择、流量控制、传输确认、中断、差错及故障恢复等。
排除网络层故障的基本方法是:沿着从源到目标的路径,查看路由器路由表,同时检查路由器接口的IP地址。如果路由没有在路由表中出现,应该通过检查来确定是否已经输入适当的静态路由、默认路由或者动态路由。然后手工配置一些丢失的路由,或者排除一些动态路由选择过程的故障,包括RIP或者IGRP路由协议出现的故障。例如,对于IGRP路由选择信息只在同一自治系统号(AS)的系统之间交换数据,查看路由器配置的自治系统号的匹配情况。
五.路由器接口故障排除
1. 串口故障排除
串口出现连通性问题时,为了排除串口故障,一般是从show interface serial命令开始,分析它的屏幕输出报告内容,找出问题之所在。串口报告的开始提供了该接口状态和线路协议状态。接口和线路协议的可能组合有以下几种:1)串口运行、线路协议运行,这是完全的工作条件。该串口和线路协议已经初始化,并正在交换协议的存活信息。2)串口运行、线路协议关闭,这个显示说明路由器与提供载波检测信号的设备连接,表明载波信号出现在本地和远程的调制解调器之间,但没有正确交换连接两端的协议存活信息。可能的故障发生在路由器配置问题、调制解调器操作问题、租用线路干扰或远程路由器故障,数字式调制解调器的时钟问题,通过链路连接的两个串口不在同一子网上,都会出现这个报告。3)串口和线路协议都关闭,可能是电信部门的线路故障、电缆故障或者是调制解调器故障。4)串口管理性关闭和线路协议关闭,这种情况是在接口配置中输入了shutdown命令。通过输入no shutdown命令,打开管理性关闭。
接口和线路协议都运行的状况下,虽然串口链路的基本通信建立起来了,但仍然可能由于信息包丢失和信息包错误时会出现许多潜在的故障问题。正常通信时接口输入或输出信息包不应该丢失,或者丢失的量非常小,而且不会增加。如果信息包丢失有规律性增加,表明通过该接口传输的通信量超过接口所能处理的通信量。解决的办法是增加线路容量。查找其他原因发生的信息包丢失,查看show interface serial命令的输出报告中的输入输出保持队列的状态。当发现保持队列中信息包数量达到了信息的最大允许值,可以增加保持队列设置的大小。
2.以太接口故障排除
以太接口的典型故障问题是:带宽的过分利用;碰撞冲突次数频繁;使用不兼容的幀类型。使用show interface ethernet命令可以查看该接口的吞吐量、碰橦冲突、信息包丢失、和幀类型的有关内容等。
1)通过查看接口的吞吐量可以检测网络的利用。如果网络广播信息包的百分比很高,网络性能开始下降。光纤网转换到以太网段的信息包可能会淹没以太口。互联网发生这种情况可以采用优化接口的措施,即在以太接口使用no ip route-cache命令,禁用快速转换,并且调整缓冲区和保持队列。
2)两个接口试图同时传输信息包到以太电缆上时,将发生碰橦。以太网要求冲突次数很少,不同的网络要求是不同的,一般情况发现冲突每秒有3、5次就应该查找冲突的原因了。碰橦冲突产生拥塞,碰橦冲突的原因通常是由于敷设的电缆过长、过分利用、或者“聋”节点。以太网络在物理设计和敷设电缆系统管理方面应有所考虑,超规范敷设电缆可能引起更多的冲突发生。
3)如果接口和线路协议报告运行状态,并且节点的物理连接都完好,可是不能通信。引起问题的原因也可能是两个节点使用了不兼容的幀类型。解决问题的办法是重新配置使用相同幀类型。如果要求使用不同幀类型的同一网络的两个设备互相通信,可以在路由器接口使用子接口,并为每个子接口指定不同的封装类型。
3. 异步通信口故障排除
互连网络的运行中,异步通信口的任务是为用户提供可靠服务,但又是故障多发部位。主要的问题是,在通过异步链路传输基于LAN通信量时,将丢失的信息包的量降止最少。
异步通信口故障一般的外部因素是:拨号链路性能低劣;电话网交换机的连接质量问题;调制解调器的设置。检查链路两端使用的调制解调器:连接到远程PC机端口调制解调器的问题不太多,因为每次生成新的拨号时通常都初始化调制解调器,利用大多数通信程序都能在发出拨号命令之前发送适当的设置字符串;连接路由器端口的问题较多,这个调制解调器通常等待来自远程调制解调器的连接,连接之前,并不接收设置字符串。如果调制解调器丢失了它的设置,应采用一种方法来初始化远程调制解调器。简单的办法是使用可通过前面板配置的调制解调器,另一种方法是将调制解调器接到路由器的异步接口,建立反向telnet,发送设置命令配置调制解调器。
show interface async 命令、show line命令是诊断异步通信口故障使用最多的工具。show interface async 命令输出报告中,接口状态报告关闭的唯一的情况是接口没有设置封装类型。线路协议状态显示与串口线路协议显示相同。show line命令显示接口接收和传输速度设置以及EIA状态显示。show line命令可以认为是接口命令(show interface async)的扩展。show line命令输出的EIA信号及网络状态:
noCTS noDSR DTR RTS:调制解调器未与异步接口连接。
CTS noDSR DTR RTS:调制解调器与异步接口连接正常,但未连接远程调制解调器。
CTS DSR DTR RTS:远程调制解调器拨号进入并建立连接。
确定异步通信口故障一般可用下列步骤:检查电缆线路质量;检查调制解调器的参数设置;检查调制解调器的连接速度;检查rxspeed 和txspeed是否与调制解调器的配置匹配;通过show interface async 命令和 show line命令查看端口的通信状况;从show line命令的报告检查EIA状态显示;检查接口封装;检查信息包丢失及缓冲区丢失情况。
关键词:校园网;结构;故障;诊断;排除
中图分类号:TP393文献标识码:A文章编号:1009-3044(2009)33-9181-03
Network Fault Diagnosis and Elimination in the Campus Network of College
WU Tao
(Information and Engineering Department,Lu'an Vocational and Technical College, Lu'an 237158,China)
Abstract: Based on the rapid development of college campus network,the paper introduces the concept of college campus network and its basic composition. Meanwhile, the diagnosis and elimination of its common fault were narrated in details. The paper also provides different methods for the campus network users and working staff in the field of campus network management and maintenance to solve practical problems.
Key words: campus network; composition; fault; diagnosis; elimination
在21世纪的今天,大学校园作为培养世纪人才的摇篮,数字化进程日新月异,紧跟时代潮流。校园网给高校宣传教育工作开辟了新的空间和渠道,同时也带来了新的挑战,它是当代世界高新技术运用与大众传媒相结合的产物。网络的规模不断扩大、网络的复杂性不断增长,网络管理的研究和应用已成为当今国际上网络领域的一个重要课题。
1 校园网简介
校园网是在学校区域内为学校教育提供资源共享、信息交流和协同工作的计算机网络信息系统。这里说的校园网是针对学校内部的计算机网络,不是一般的企业网;它有自己的特点和规律,它要为学校的教育教学实现资源共享、信息交流、引导或辅助教学及协同工作等功能。校园网是利用现代网络技术、多媒体技术及Internet技术等为基础建立起来的计算机网络,一方面连接学校内部子网和分散于校园各处的计算机,另一方面作为勾通学校校园内部网络的桥梁。校园网是为学校的教学、管理、办公、消息交流和通讯等服务的。
2 校园网络结构
校园网的结构与学校的层次结构、校园网的规模和主干网的选择关系密切。
2.1 校园网各层次构成
1) 校园网层次的构成
校园网建设依赖于校园网的大小和规模。根据校园网的大小和规模,可提供多种主干网络及支干网络的选配方式,然后根据自身网络的情形进行搭配。
校园网层次化设计,使其网络的结构也就是主干和支干设备的选择与相应的组织逻辑结构相统一,这种设计的特点主要表现在:
(1) 网络结构与实际的组织结构相对应,数据流量相一致;
(2) 网络结构的层次性对应于网络功能的层次性:
学校级(Campus)――高速网络数据连接;
部门级(Department)――传送部门间的数据:
工作组级(Workgroup)――连接用户,传送工作组间的数据;
(3) 根据网络功能的不同选择相应的网络设备:
(4) 网络易于升级扩展。
2) 校园网络规模
划分校园网络的大小主要依据以下三个方面的内容,一是校园网网络站点的多少;二是校园网的数据流量大小;三是校园网的分散程度。按照这种划分可以将校园网分为三个级别的网络:小型、中型和大型。如表1所示。
2.2 主干网络
1) 光纤分布数据接口(FDDI)
光纤分布数据接口FDDI是目前成熟的LAN技术中传输速率最高的一种,可以提供100Mbps带宽的高可靠性主干。但是价格高、网络延迟大,带宽难以扩展,技术上已显得较为落后。现在校园网很少采用FDDI组建主干网。
2) 异步传输模式(ATM)
异步传输模式ATM是作为下一代多媒体通信的主要高速网络技术出现的,从其开发的一开始,ATM就被设计成能提供声音、视频和数据传输。它为宽带综合业务数字信号提供了一种传输、复用和交换的方法,使语音、数据、图形和影视以固定的信元长度在一个网中传输,提高了传输速率。
ATM作为校园网主干有以下优势:
(1) ATM的容错功能很强;
(2) ATM易于扩展至极高的速率;
(3) ATM的VLAN功能,可以提供设备间很高的传输速率;
(4) ATM对实时的语音和图像传输延时较小;
(5) 校园网主干采用ATM技术易于与采用ATM设备的广域网实现无缝连接。
3) 千兆以太网
以太网的快速发展先后经历了快速以太网,交换式以太网和千兆以太网。目前,千兆以太网已经发展成为主流网络技术。同其他高速网络技术相比,千兆以太网最大的优点在于它对现有以太网具有良好的兼容性。广大的以太网用户(特别是校园网)可以对现有以太网进行平滑的升级,千兆以太网已成为校园网首选的主干网。千兆以太网、快速以太网和以太网的主要技术特性的比较,如表2所示。
4) 虚拟网(VLAN)
虚拟网VLAN在逻辑上类似于广播域。或者说,可以将虚拟网VLAN类比成一组终端用户的集合。它是一种通过将局域网内的设备逻辑地划分成一个个网段从而实现虚拟工作组的新兴技术。网络管理员可以根据需要的不同,通过网络软件灵活地建立和配置相应的虚拟网,并为每个虚拟网分配所需的网络带宽。
合理地划分VLAN对于校园网来说是十分关键的。VLAN的设计是系统集成的重点之一,由于划分VLAN必须参照网络安全原则及网络流量分析,因此,VLAN的划分要按照“事先设计,运行调整”的思路进行。
一般情况下,校园网从物理位置和逻辑功能上可划分为教学网、办公网、内部网等,由于各网段内对具体资源及数据安全要求都不相同,所以从内部网络的安全角度考虑,对于各部门之间应该划分VLAN,以便于采用基于策略的访问控制。VLAN技术将整个网络终端根据安全和流量均衡原则划分为多个子网,大大降低了广播包对整个网络带宽的消耗,提高了网络的运行效率。
2.3 校园网的结构描述
根据防火墙和Internet接入方式的不同,一般将整个校园网以防火墙为中心分为三个部分:内网区、外网区和服务区。内网区主要是校园网内部用户的集合,具体为学校办公用户、移动用户、内网学生上机等;外网区主要是指整个校园网的Internet接入;服务区提供整个校园网的网络功能,它是整个校园网的中心。
一、一次只进行一次修改
这可能一条是最重要的法则。如果你时间比较紧张的话,这条法则可能是最难遵守的一条。你可以考虑问题的多个来源,但不要进行多个修改。否则,在你结束故障诊断的时候,就不能确切地知道自己是怎样修复该问题的。更坏的情况是,可能由于多个修改导致出现别的问题,以至于新问题的出现掩盖了用于解决原问题的方法。
例如,在对防火墙进行估值诊断的时候,我们将客户在外部位置与内部位置之间进行移动;而同时,在我们分析防火墙配置的时候,不对防火墙配置进行修改。结果,我们知道该问题依赖于客户位置。如果我们同时修改了防火墙规则,那么在移动客户位置时并不一定能证明问题与移动客户有关;我们可能已经错误地将注意力集中在防火墙规则集的变更上了。
二、开放思维
在解决一个困难的问题是,开放思维显得十分重要。大多数人,尤其是有经验的同志,倾向于在一个几乎非意识的层面思考问题的许多方面。当你向希望了解结论又来的人进行解释时,是否遇到过麻烦呢?或者是不是不知如何向他进行解释呢?有时候,这些结论看起来是可靠的,它们来源于以前的经验,但已经融入到了自己的经验法则中。然而,有时候,这些结论受到不准确的感受、错误的假定、个人动机一级其他人为因素的影响。如果你认为在配置防火墙时没有出现错误――一种很自然的假定――你也许不会认真分析防火墙配置。如果可行的话,与另一个同志一同工作,这样有助于彼此客观地开展工作。
三、换个角度考虑
有时候,当你不能看出问题的解决方法时,就需要换一个角度进行思考。当对问题进行故障诊断时,如果出现了死角,则反过来进行思考,这样或许能够提供很大的帮助。有系统地将你已经经历的步骤向某个人解释,这样,你会发现自己的故障诊断方法中存在的漏洞。在任何情况下,灵感是一种强大的故障诊断手段,当难于找到一种解决方法时,灵感是必不可少的。
四、将重点一直放在问题修复上
我们认为,在你不清楚问题的起因之前,该问题是不会得到真正修复的。如果你不了解问题的真正起因,那么,即使这次修复了该问题,该问题也有可能在以后再次出现。当然,这时应当考虑具体的上下文。修复问题通常要比解释问题发生的原因容易。如果该问题目前亟待解决,否则会直接影响到用户的感受,则先修复它,然后再在以后调查问题的起因。
例如,我们可能很容易修复防火墙的问题――只需将备用的防火墙挂上去就行了。如果当时是上级部门紧急情况,我们当然会采取这种方法。那么一旦下次,备用的防火墙也出了问题,还会怎么办呢?
五、不要实现一种比原问题带来更多麻烦的修复方法
通常,这条准则值得考虑。你很可能不会通过查看线缆的某端来诊断光纤的问题。同时,与修复有关的麻烦不总是立刻就能察觉到,当你正在修复安全问题时,尤其如此。通常,为了让某个服务或设备工作,安全问题往往不是很受重视。从长时间的角度来看,相对于原来的问题而言,新出现的问题会更加麻烦。例如,你不应当通过在规则集的顶上设置一条“允许任何东西”规则来修复防火墙问题。
六、应当记住:最难于诊断的问题往往是最容易忽略的问题
关键词:无线传感器网络;故障诊断;分布式;累积和控制图;中值绝对偏差
中图分类号:TP393
文献标志码:A
文章编号:1001-9081(2016)11-3016-05
0 引言
无线传感网络(Wireless Sensor Network,WSN)是由无数成本低廉、体积微小的传感器节点组成,通常被随机放置在监测区域中,节点之间以多跳的形式对采集数据进行传输,最后将这些数据以无线通信的方式传送给观测者[1]。如今,无线传感器网络已经广泛应用于许多领域,如交通监控、工业控制、气象观测[2-4]。由于无线气象传感网的节点计算能力和能量有限,气象信息具有复杂性、数据突发性等特点,自节点部署开始,经过较长时间运行后可能会发生故障,但是由于气象传感网处在无人监控和检查的位置,节点本身运行的状态无从得知,为了更好地了解节点状态,就需要对节点进行故障检测。
现阶段,无线传感器网络的故障检测根据任务执行主体可分为集中式检测和分布式检测[5]。集中式检测算法中,文献[6]首先将感知数据变换为故障特征空间中的向量,然后依据已知故障数据库向用户指示需要采取的相关措施(如校准、验证读数等),最后用户根据传感器的实际情况对故障数据库进行更新,从而改进与优化故障检测系统。对于大规模无线传感网络来说,目前基于汇聚节点的诊断方法存在许多缺点。首先,主动信息收集会导致通信方面的巨大开销,大幅缩短了网络系统的寿命;其次,由于网络规模不断扩大和不可靠的无线通信,后端上的故障推理机常常获得不完整和不确定的信息,明显降低了检测精度; 最后,在汇聚节点上故障诊断方法的诊断延迟非常高[7]。
文献[8]提出了一种分布式无线传感器网络节点故障诊断(Distributed Fault Detection,DFD)算法,事先设定固定阈值,将节点自身的传感器测量值与邻居节点相比较来判断节点自身是否发生故障。但是该算法在节点的邻居数较少或者整个网络中节点发生故障概率较大时,故障诊断精度会大幅下降。文献[9]通过融合邻居节点的测量数据并对邻居节点测量数据进行加权,衡量测量节点与节点的数据之间差异的方法最终判断节点故障状态。针对WSN中节点故障原因复杂,文献[10]提出了一个WSN节点故障诊断方法,可以实现对具体故障进行诊断和判定,但是算法复杂性比较大,不适合节点数量较大的网络。文献[11]提出一种通过观察节点采样值数据变化率与时间特性相似度,判断是事件发生还是节点故障的事件检测方法。由于引入了节点可信度自适应调整机制,通过不断排除故障节点,该方法能够获得较高的故障识别率。
现有的分布式故障诊断算法没有充分利用传感器节点采集数据的特点,使得算法的复杂度较高;仅仅利用传感器网络具有空间相关性的特点来实现故障检测,消耗大量的能量,尤其是对于大规模无线传感网络而言。基于上述分析,本文采用分布式节点故障诊断算法,通过无线气象传感网内节点上搭载的气象传感器,对气象要素进行采集,利用节点之间的气象要素值存在时空相关性的特点,改进分布式节点故障诊断方法。通过节点自身历史数据和邻居协作方法融合进而提高无线气象传感器网络的故障诊断精度,同时降低故障诊断的误报率,节省节点间频繁交互产生的开销,使算法更加适用于节点资源有限的大规模无线气象传感网络。
为了检测错误的测量值,每个节点发生故障的概率相互独立。无线传感器网络的节点故障分为两类:硬故障和软故障。当传感器节点的某一模块发生损坏而造成无法通信,称之为硬故障;当传感器节点虽然发生故障,但是仍然具有接收、发送、采集及处理数据的能力,只是节点采集的数据是错误的,称之为软故障。图1中为节点s6发生软故障的节点。在分布式传感器网络故障诊断算法里,针对的主要是节点软故障的检测;若周围的邻居节点都检测不到某个节点,则可以判定该节点发生硬故障。
2 故障诊断算法
2.1 符号说明
相关符号说明如表1所示。
2.2 异常时间点的定位
由于传感器节点有限的计算和存储资源,使用一个轻量级的方法,将累积和控制图和引导相结合来检测观测节点在滑动窗口下历史数据的变化。本文采用累积和控制图(Cumulative Sum Control Chart, CUSUM)结合引导方案来确定参数值是否发生了显著变化[12]。
2.2.1 累积和控制图的计算
累积和控制图(CUSUM)主要依据序贯分析原理,对历史采样数据的偏差进行持续累积,更加灵敏地判断出节点的失控或者受控状态,有效地提高了发现节点异常的灵敏度。CUSUM是基于原始的时间序列构成。本文使用基于滑动窗口的策略来缓存最新的参数测量值。如图2(a)所示,假设时间窗口的大小w为30,某个传感器节点储存最新的30个感知数据。
首先计算这组数据序列的累积和控制图。设节点采样时间间隔为T,T的选择和系统响应时间相关,T应足够大,以保证节点可以在采样间隔时间内完成数据处理和发送[13]。设在t时刻节点si采集的数据Xti。对于数据{Xj*Ti}(1≤j≤w)表示为该数据序列上的数据点集合。累积和用{Cj}表示。这里定义C0=0,其他的累积和通过当前测量值与所有累积和的均值加上前一个累积和得出。具体计算公式如下:
累积和控制图如图2(b)所示。在累积和控制图里,直线表明原始的值是相对稳定,波动的线是由原始测量值的变化量引起。累积和趋势在图中向上倾斜表明,这一时期的值高于总体的平均值;反之则低于总体的平均值。并且测定结果和预期值之间的差异愈大,累积和图的倾斜愈陡。CUSUM算法优势在于将整个过程小偏移累加起来,起到放大作用,提高小偏移的灵敏度。并且,通过观察倾斜程度的变化,可找到过程出现变化的点。在每个时间窗口结束时,算法计算数据是否有任何突变:如果有,作为一个传感器的异常时间点被标记。
图2(b)中CUSUM曲线在C13变化,可以推断这里是一个突变。由于无线气象传感网络是一个以数据为中心的网络,气息要素具有实时更新和数据量大等特点,这里我们使用引导分析方案来对决策设置一个置信度来进一步提高检测的精度和效率。如果没有异常时间点,那么随机重新排序的数据序列会模仿原始的累积和控制图。
3 实验与分析
本文使用Matlab软件进行了一些实验来评估所提算法的性能。所模拟的WSN监测区域为一个32×32单元的区域。假定1024个节点随机部署且不可移动,不失一般性,我们假设每个节点的位置可以通过GPS或者其他定位技术得到,并且具有相同的通信半径。实验中节点上的感知数据服从正态分布,并且设θ1=90%,θ2=3。实验分别从故障检测精度和误报率两个方面对分布式故障检测(Distributed Fault Detection,DFD)[8]与本文算法(Self-Distributed Fault Detection,SDFD)方法进行仿真与比较。为了使实验结果更为客观并消除随机性因素,本文将每项实验进行100次后计算平均值从而得出最终的实验结果。
3.1 检测精度
所谓检测精度(Detection Accuracy,DA)指检测出的故障数与所有故障数量的比值即:
DA=(|F∩Q|)/|Q|(15)
其中:F表示算法检测到故障节点总数,Q表示实际故障节点数。
图4分别表示在节点平均邻居节点数为10、15、20时节点故障诊断精度随节点故障率变化的趋势。从图4中可以看出,在相同的平均邻居节点数下,两种算法的故障诊断精度都随节点故障率的增大而下降;当故障率大于15%时,在相同的平均邻居节点数和节点故障率下,本文算法的故障诊断精度明显优于DFD算法的故障诊断精度。由此可见,SDFD算法解决了随着节点故障率增大而造成传统邻居协作方法失效的问题,当节点故障率较高、平均邻居节点数较少时,也能达到较高的故障诊断精度。以图4(b)为例,当节点故障率大于35%时,DFD算法的故障诊断精度迅速降低,而本文算法仍能达到90%以上的故障诊断精度。
3.2 误报率
故障误报率(False Alarm Ratio,FAR)指把正常节点误判为故障节点的数目与正常节点总数的比值即:
其中:N为无线传感器网络中的节点总数,F表示算法检测到故障节点总数,Q表示实际故障节点数。
图5分别表示在节点平均邻居节点数为10、15、20时节点误报率随节点故障率变化的趋势。随着节点的故障率增大,算法的误报率随之增加。从误报率来看,DFD算法随着节点故障率的增大而增大,但本文中算法的误报率几乎为0。图5(b)中,在节点故障率为50%时,本文算法的误报率仍然低于3%,相对于DFD算法降低了22%。这是由于在DFD算法中,要利用邻居节点的感知数据进行比较,对所有分布在目标区域的节点与多个采样时间进行故障诊断,尤其是在节点故障率较高时,耗费巨大能量的同时产生了大量的冗余计算,较多故障的邻居节点的感知数据造成了算法的误判;而SDFD算法,只需定位出发生异常的时刻,排除了数据正常的时刻,并且利用中值绝对偏差的方法进而降低了大量的计算与通信开销,同时避免了很多冗余信息所造成的误判。
4 结语
针对故障检测算法计算冗余量大、误报率高的缺点,本文讨论了无线气象传感网络下一种分布式的轻量级的故障诊断算法,该方法充分利用传感器节点所采集气象要素的时空相关性特点,引入 CUSUM方法分析单个节点上的历史数据,结合网络内邻居节点间的数据交换和相互测试,对网络中节点故障与否作出判断,提高了诊断精度的同时降低了误报率,尤其在大量冗余信息和节点故障率较高的情况下,仍能有效准确地进行故障诊断。实验结果表明,在相同情况下,本文算法相比DFD算法能够获得较低的误报率以及较高的故障检测精度。下一步工作中,将深入研究本文提出的算法在复杂实际环境下的适用性,需要进一步优化算法,减少实际物理环境对算法性能所造成的干扰。
参考文献:
[1] 马峻岩,周兴社,张羽,等.传感器网络调试研究综述[J].计算机学报,2012,35(3):405-422.(MA J Y, ZHOU X S, ZHANG Y, et al. Debugging sensor networks: a survey[J]. Chinese Journal of Computers, 2012, 35(3): 405-422.)
[2] LI M, LIU Y, WANG J, et al. Sensor network navigation without locations[J].IEEE Transactions on Parallel & Distributed Systems, 2009, 24(7):2419-2427.
[3] MO L, HE Y, LIU Y, et al. Canopy closure estimates with GreenOrbs: sustainable sensing in the forest[C]// Proceedings of the 7th ACM Conference on Embedded Networked Sensor Systems. New York: ACM, 2009: 99-112.
[4] WERNER-ALLEN G, DAWSON-HAGGERTY S, WELSH M. Lance: optimizing high-resolution signal collection in wireless sensor networks[C]// Proceedings of the 6th ACM Conference on Embedded Network Sensor Systems. New York: ACM, 2008: 169-182.
[5] 李文锋,符修文.无线传感器网络抗毁性[J].计算机学报, 2015, 38(3): 625-647.(LI W F, FU X W. Survey on invulnerability of wireless sensor networks[J]. Chinese Journal of Computers, 2015, 38(3): 625-647.)
[6] RAMANATHAN N, SCHOELLHAMMER T, KOHLER E, et al. Suelo: human-assisted sensing for exploratory soil monitoring studies[C]// Proceedings of the 7th ACM Conference on Embedded Networked Sensor Systems. New York: ACM, 2009: 197-210.
[7] LIU K, MA Q, GONG W, et al. Self-diagnosis for detecting system failures in large-scale wireless sensor networks[J]. IEEE Transactions on Wireless Communications, 2014, 13(10): 5535-5545.
[8] CHEN J, KHER S, SOMANI A. Distributed fault detection of wireless sensor networks[C]// Proceedings of the 2006 Workshop on Dependability Issues in Wireless Ad Hoc Networks and Sensor Networks. New York: ACM, 2006: 65-72.
[9] 高建良, 徐勇军, 李晓维.基于加权中值的分布式传感器网络故障检测[J].软件学报,2007, 18(5):1208-1217.(GAO J L, XU Y J, LI X W. Weighted-median based distributed fault detection for wireless sensor networks[J]. Journal of Software, 2007, 18(5): 1208-1217.)
[10] LIN L, WANG H, DAI C. Fault diagnosis for wireless sensor networks node based on hamming neural network and rough set[C]// Proceedings of the 2008 IEEE Conference on Robotics, Automation and Mechatronics. Piscataway, NJ: IEEE, 2008: 566-570.
[11] 董传明,刘克中,罗广,等.无线传感器网络环境下的一种轻量级事件容错检测算法[J].传感技术学报,2014,27(1):135-141.(DONG C M, LIU K Z, LUO G, et al. A light weight fault-tolerant event detection method in wireless sensor networks[J]. Chinese Journal of Sensors & Actuators, 2014, 27(1):135-141.)
[12] HAWKINS D M, OLWELL D H. Cumulative sum charts and charting for quality improvement[J]. Journal of the American Statistical Association, 2012, 94(1):107-107.
【关键词】 网络故障 快速 诊断
1 网络故障诊断原则
网络诊断是一门综合性技术,以网络原理、网络配置和网络运行的知识为基础,从故障现象出发,以网络诊断工具为手段获取诊断信息,确定网络故障点,查找问题的根源,排除故障,恢复网络正常运行。
2 网络故障诊断目的
确定故障点,恢复网络的正常运行;发现规划和配置中欠佳之处,改善和优化网络性能;观察运行状况,及时预测网络通信质量。
3 网络故障分类
3.1 物理故障:主要指设备或线路损坏、插头松动、严重电磁干扰等情况
①线路故障。首先用ping或fping来检查线路的连通性。ping一般一次只能检测到一端到另一端的连通性,fping一次可ping多个ip地址,能一次检测一端到多端的连通性。如果连续几次ping都出现“request time out”信息,表明网络不通,这时就要检查端口插头。
②路由器故障。检测这种故障,需要利用mib变量浏览器,用它收集路由器的路由表端口流量数据、计费数据、路由器cpu的温度、负载以及路由器的内存余量等数据,通常情况下网络管理系统有专门的管理进程不断检测路由器的关键数据,并及时给出报警。路由器cpu利用率过高和路由器内存余量太小都直接影响到网络服务的质量。
③主机故障。该故障常见现象就是主机配置不当。如ip地址配置与其它主机冲突,或ip地址根本不存在,由此导致主机无法连通。另一故障就是安全故障。如,主机没有控制其上的finger、rpc、rlogin等服务,攻击者可以通过这些多余进程的正常服务或bug攻击该主机,甚至得到管理员权限。发现主机故障一般比较困难,特别遇到黑客,一般可以通过监视主机的流量或扫描主机端口和服务来防止可能的漏洞,日常使用过程中,一定要安装防火墙。
3.2 逻辑故障
逻辑故障一般是配置错误,也就是网络设备的配置原因导致的网络异常或故障。配置错误可能是路由器端口参数设定有误,或路由器配置错误以至于路由器循环或找不到远端地址,或者路由器掩码错误等。
逻辑故障的另一类就是一些重要进程或者端口关闭,以及系统的负载过高。比如也是线路中断,没有流量,用ping发现线路端口不通,检查发现该端口处于down的状态,这就表明该端口已经关闭,导致故障,这时只需重新启动该端口就可以了。还有一种情况是路由器的负载过高,表现为路由器cpu温度、利用率太高,内存剩余太少等,如果因此影响网络服务之来能够,就直接的方法就是:更换更好的路由器。
4 网络故障诊断的步骤
(1)分析故障时,要清楚故障现象,然后确定造成这种故障的原因。如,主机不响应客户请求服务,可能是主机配置不当、接口卡故障或路由器配置命令丢失等。
(2)收集需要的用语帮助隔离可能故障原因的信息。向用户提一些和故障有关的问题并从网络管理系统、协议分析跟踪、路由器诊断命令的输出报告或软件说明书中收集有用信息。
(3)根据收集到的情况考虑可能的故障原因、排除某些原因。如,根据某些资料可以排除硬件故障,就把注意力放在软件上,对于任何机会都应该设法减少可能的故障原因,以至于尽快给出有效的诊断。
(4)根据最后的可能原因,建立诊断计划,开始仅用一个最可能的故障原因进行诊断活动,最好不要一次考虑多个故障原因来处理。
(5)执行诊断计划,认真做好每步测试和观察,直到故障现象消失。
(6)每改变一个参数都要确认其结果,分析结果确定问题是否解决,如果没有解决,继续下去,直到解决。
5 网络故障排除常用的网络命令
(1)Ping:ping某个地址或者主机名,执行显示响应时间,表明ping成功,当前主机与目的主机存在一条连通的物理路径。ping成功,网络不通,问题在网络系统的软件配置方面;若ping不成功,则线路不通,网络适配器配置不正确,网络连接被禁用或ip地址配置不正确等。
(2)Ipconfig:当主机系统能到达远程主机但不能到达本地子网中的其他主机时,表示子网掩码设置有问题,进行修改后故障便不会再出现,键入ipconfig/?可获得使用帮助。
(3)Netstat:该命令列出本机和外部开放的端口及相应协议,也能看与本机联机的IP。但最主要是用来看端口,通过显示出的端口,我们能注意到哪些可能有问题,可以发现可疑程序打开了某个可疑端口,从而解决问题。
(4)Tracert:主要用于追踪本地网络到目的网络之间经过了多少台路由器。通过此信息我们可以检查网络故障的发生点。
(5)还有Route、Net、arp、nbtstat、ftp等等命令可能帮助我们处理网络故障。
6 常见网络故障排出工具:
万用表、时域反射仪、高级电缆测试器、示波器、协议分析器等,了解这些工具的特性用途,熟悉操作方法对我们快速诊断网络故障提供帮助。
附:日常网络故障解决案例:
故障一:交换机堆叠在一起,网络就变得非常慢,拆散交换机堆叠,网络就重新快起来。
解决方案:问题在于一个有缺陷的堆叠矩阵模块或堆叠接口模块或堆叠表,改变堆叠模块后将解决这类问题。
故障二:交换机变得比10m集线器还要慢,将交换机端口设置成10m,那么网络速率将恢复到10m交换机应有的状态,但是当端口被设置自适应或100m时,传输速率将变得非常低,甚至远远低于10m集线器,通过用户操控台电缆或设备视图检查受影响端口的情况,会发现该端口上有许多“短路”现象。
解决方案;这种情况是电磁干扰导致的,主要是设备室与电源电缆或电源开关机柜非常接近,而电源开关机柜的屏蔽效果不太好,解决方法是屏蔽电磁干扰。
故障三:交换机的一个端口变得非常缓慢,最后使整个交换机或整个堆叠都慢下来,通过控制台检查交换机的状态,发现交换机的缓冲池增长的非常快,达到了90%或更多。
解决方案:不可预见的环境干扰也可能减慢交换机的速率,因为环境干扰会终止一个端口的数据包转发,并占满交换机的缓冲池,最好解决方法就是重新设置出错的端口。