1、故障描述
此次出診的“病人”是一家化工企業(yè)的網絡,該企業(yè)除了一條與生產線網絡,還有一條遍布市區(qū)的銷售網絡,此次出現(xiàn)故障的這條銷售網絡(營業(yè)廳)。從客戶反饋來的的故障現(xiàn)象是:網絡時斷時續(xù),呈周期性“發(fā)作”,每隔10分鐘左右營業(yè)廳打來電話報告業(yè)務流程出現(xiàn)問題,無法提交數據。具體表現(xiàn)都很一致:先出現(xiàn)業(yè)務中斷,1分鐘后連接恢復,但速度非常慢。此故障已經持續(xù)了2天,網管人員懷疑是路由器故障,曾試著分別更換了備用的算路由器和主路由器均無效。
2、排錯過程
(1).故障呈現(xiàn)周期性
筆者首先趕到該企業(yè)的計算中心,首先向網絡管理人員了解故障情況。基本上與筆者的客服記錄報告的內容相同。從表現(xiàn)的故障現(xiàn)象來看,根據以往的經驗,基本上可以初步推斷是路由鏈路的問題。網管人員確認,業(yè)務中斷時,普通Ping測試不通,此現(xiàn)象以前也出現(xiàn)過幾次,很快就恢復了,因此也沒有引起注意。
(2).排錯思路
從記錄的故障報告(電話登記)看,無論是銷售網絡還是生產網絡的遠程網絡都報告過路由中斷現(xiàn)象。由于故障每隔10分鐘左右就會周期性地出現(xiàn),雖然比較頻繁,卻為故障診斷提供了很大方便。可以考慮選擇任意路由進行連續(xù)的Ping測試,監(jiān)測其連接狀況與故障發(fā)生時刻的關系。
(3).排錯記錄
監(jiān)測到路由遷移
為此筆者將網絡測試儀接入計算中心網絡進行監(jiān)測。選擇曾報告過故障的其下轄的某營業(yè)廳的路由器作連續(xù)的ICMP Ping測試,響應時間為9ms,質量尚可。3分鐘后,有用戶報告故障出現(xiàn),不過網絡測試儀顯示正常,說明筆者監(jiān)測的路由鏈路可能是正常的。立即改變監(jiān)測方向,向報告遇到故障的用戶的路由器做ICMP Monitor,結果大量的目標不可達記錄出現(xiàn),并出現(xiàn)源限制、回應請求和回應響應幀。20秒鐘后,出現(xiàn)大量重定向幀記錄,目標不可達幀記錄速度減緩,源限制、回應請求和回應響應則開始大量出現(xiàn)。
以上記錄表明,路由器的動態(tài)路由表在故障出現(xiàn)時發(fā)生了很大變化。網絡原來的路由中斷后,繼之被重定向路由取代。打開靜態(tài)路由表,為了與動態(tài)路由作比較,筆者啟動網絡測試儀分段路由追蹤功能,追蹤從測試儀到先前報告故障的遠程路由器。可以看到,路由在故障網絡的出口的下一站,即銷售網絡鏈接的第一個路由就發(fā)生了中斷。動態(tài)路由已經由備份路由取代。狀態(tài)為擁塞。原路由為主路由,通道速率為E1,為ATM鏈路,備份路由為DDN基本速率鏈接,速度僅為 64Kbps。打開主路由器的Mib庫,觀測到主路由器的流量為0.02%,錯誤為2%;表明它處于輕負荷狀態(tài),并有少量錯誤流量。觀察備份路由器的 Mib庫,流量為100%,說明它處于超負荷運行狀態(tài)。
監(jiān)測故障周期
由于故障為周期故障,為了觀測它的發(fā)生規(guī)律,筆者在征得客戶同意的前提下,決定不急于尋找主路由器中斷和擁塞的原因,而是先觀測在一個周期里故障變化的全過程并記錄之。筆者用第二臺網絡測試儀和網絡故障一點通接入網絡,分別觀察主路由器、備份路由器、主服務器的工作流量和錯誤,并對主路由器作連續(xù)的ICMP 監(jiān)測。約8分鐘后,主路由器流量開始迅速上升,備份路由器出現(xiàn)重定向指示,約15秒后報告?zhèn)浞萋酚善魍瞥鰞?yōu)化路由,動態(tài)路由表恢復到與靜態(tài)路由相同的設置,網絡完全恢復正常。
分析故障關系,可以斷定故障的關聯(lián)設備是主路由器。由于用戶在機架上已經安裝了冷備份的主路由器,筆者先將冷備份路由器替換到主路由器的位置。5分鐘后路由器更換完畢,開機接入網絡,3分鐘后網絡恢復正常。但只持續(xù)了2分鐘,故障現(xiàn)象又重新出現(xiàn)??磥?,必須對主路由器做詳細監(jiān)測才能發(fā)現(xiàn)真正的故障所在。
定位到主路由器
網絡建構拓撲是,主路由器與三個外圍遠程路由器和一個本地路由器相連,筆者可以同時監(jiān)測這幾個路由器的工作狀況。監(jiān)測結果如下:故障出現(xiàn)時,外圍主路由器和本地路由器的路由表隨著故障的出現(xiàn)也發(fā)生變化,而此時營業(yè)廳業(yè)務不受影響。受影響的業(yè)務方向是外地與本城、本城與外地、外地經本地跨區(qū)等。用 ATM測試儀測試遠程ATM路由通道,將遠端ATM交換機 Loopback(環(huán)回)以后監(jiān)測三個方向的通道情況,顯示完全正常。再對與主路由器相關的連接電纜進行測試,全部合格。這表明主路由器的工作環(huán)境是基本正常的。此時筆者需要了解主路由器鏈路中的“垃圾流量”的分布。此時,筆者只需要檢查主路由器的接地質量和供電環(huán)境即可(因為已經試驗更換過主路由器),這兩個因素當中的任何一個不負荷要求,都有可能引發(fā)主路由器中斷的故障。
電源是最后元兇
首先觀測為主路由器供電的UPS電源。當故障發(fā)生時UPS顯示過載,而輸出回路卻顯示輕負荷。用F43電力質量分析儀觀察也顯示故障時輸入諧波超差6倍。輸出回路超差400倍,故障恢復后,過載指示也隨之消失,但輸出回路仍超差80倍。證明UPS電源低效。
將主路由器的供電電源接到另一臺UPS電源上,故障徹底消失。故障原因為供電質量不合格。筆者注意到,該計算中心所在的大樓正在裝修,網管人員說等大樓裝修完畢后還要將網絡設備擴容。初步干擾源很可能就來自與裝修有關的部分。由于故障的周期性,經過仔細觀察發(fā)現(xiàn),故障出現(xiàn)的周期與樓旁塔吊的上下周期一致!為準確判定諧波干擾的源地點,筆者將電力質量分析儀接入供電網絡進行核實,結果發(fā)現(xiàn),每當塔吊上升時,故障現(xiàn)象就出現(xiàn)(下降時諧波為上升時的三分之一,網絡有少許變慢)。
3、故障總結
為主路由器供電的UPS電源由于失效,對外界電力干擾諧波的過濾能力下降,當為重負載的用電設備供電時,此諧波會引發(fā)許多設備出錯。如果此時恰逢UPS電源濾波失效,則相關設備會受到干擾。本故障中,主路由器由于大量干擾進入,使得鏈路阻塞,路由器連接中斷,路由變更指令使得各業(yè)務流量流向備份路由器,備份路由器的路由通道能力又不能滿足,致使網絡出現(xiàn)擁塞。這就是本次故障先中斷后恢復然后阻塞的原因。同城結算數據由于多數不經過主路由器,所以未受到影響。
塔吊下降時,雖然引入的干擾也不少,不過因為其干擾的絕對值未超過主路由器的承受范圍,所以主路由器還能應付。大樓裝修以前也出現(xiàn)過類似的故障,因干擾源很快消失并不再持續(xù)存在,因此不可能引起維護人員的注意。
4、建議
與電纜和光纜系統(tǒng)一樣,電力諧波和UPS電源也是列入定期檢查的內容,考試大建議作半年定期檢查,關鍵的網絡建議作為周定期檢查的項目。諧波干擾是經常存在的環(huán)境因素,如果此時UPS電源不出問題,一般不會影響網絡的正常運行,但諧波干擾是嚴重影響網絡性能的原因之一,一旦竄入網絡則引起的故障多數都是“致癱性”或致命性的。還由于多數用戶對干擾類型的故障“相當地”不熟悉,故提請大家引起較多關注。
此外,定期維護的概念應該為大家所接受,制定了詳細的網絡健康維護方案,確定定期維護的詳細規(guī)章,就能夠未雨綢繆,防患于未然。比如本例中的網絡故障,從表象上看似乎很詭異,誰能夠知道UPS電源是最后的元兇呢?如果管理員事前做好定期維護,類似這樣的故障就不會發(fā)生。
此次出診的“病人”是一家化工企業(yè)的網絡,該企業(yè)除了一條與生產線網絡,還有一條遍布市區(qū)的銷售網絡,此次出現(xiàn)故障的這條銷售網絡(營業(yè)廳)。從客戶反饋來的的故障現(xiàn)象是:網絡時斷時續(xù),呈周期性“發(fā)作”,每隔10分鐘左右營業(yè)廳打來電話報告業(yè)務流程出現(xiàn)問題,無法提交數據。具體表現(xiàn)都很一致:先出現(xiàn)業(yè)務中斷,1分鐘后連接恢復,但速度非常慢。此故障已經持續(xù)了2天,網管人員懷疑是路由器故障,曾試著分別更換了備用的算路由器和主路由器均無效。
2、排錯過程
(1).故障呈現(xiàn)周期性
筆者首先趕到該企業(yè)的計算中心,首先向網絡管理人員了解故障情況。基本上與筆者的客服記錄報告的內容相同。從表現(xiàn)的故障現(xiàn)象來看,根據以往的經驗,基本上可以初步推斷是路由鏈路的問題。網管人員確認,業(yè)務中斷時,普通Ping測試不通,此現(xiàn)象以前也出現(xiàn)過幾次,很快就恢復了,因此也沒有引起注意。
(2).排錯思路
從記錄的故障報告(電話登記)看,無論是銷售網絡還是生產網絡的遠程網絡都報告過路由中斷現(xiàn)象。由于故障每隔10分鐘左右就會周期性地出現(xiàn),雖然比較頻繁,卻為故障診斷提供了很大方便。可以考慮選擇任意路由進行連續(xù)的Ping測試,監(jiān)測其連接狀況與故障發(fā)生時刻的關系。
(3).排錯記錄
監(jiān)測到路由遷移
為此筆者將網絡測試儀接入計算中心網絡進行監(jiān)測。選擇曾報告過故障的其下轄的某營業(yè)廳的路由器作連續(xù)的ICMP Ping測試,響應時間為9ms,質量尚可。3分鐘后,有用戶報告故障出現(xiàn),不過網絡測試儀顯示正常,說明筆者監(jiān)測的路由鏈路可能是正常的。立即改變監(jiān)測方向,向報告遇到故障的用戶的路由器做ICMP Monitor,結果大量的目標不可達記錄出現(xiàn),并出現(xiàn)源限制、回應請求和回應響應幀。20秒鐘后,出現(xiàn)大量重定向幀記錄,目標不可達幀記錄速度減緩,源限制、回應請求和回應響應則開始大量出現(xiàn)。
以上記錄表明,路由器的動態(tài)路由表在故障出現(xiàn)時發(fā)生了很大變化。網絡原來的路由中斷后,繼之被重定向路由取代。打開靜態(tài)路由表,為了與動態(tài)路由作比較,筆者啟動網絡測試儀分段路由追蹤功能,追蹤從測試儀到先前報告故障的遠程路由器。可以看到,路由在故障網絡的出口的下一站,即銷售網絡鏈接的第一個路由就發(fā)生了中斷。動態(tài)路由已經由備份路由取代。狀態(tài)為擁塞。原路由為主路由,通道速率為E1,為ATM鏈路,備份路由為DDN基本速率鏈接,速度僅為 64Kbps。打開主路由器的Mib庫,觀測到主路由器的流量為0.02%,錯誤為2%;表明它處于輕負荷狀態(tài),并有少量錯誤流量。觀察備份路由器的 Mib庫,流量為100%,說明它處于超負荷運行狀態(tài)。
監(jiān)測故障周期
由于故障為周期故障,為了觀測它的發(fā)生規(guī)律,筆者在征得客戶同意的前提下,決定不急于尋找主路由器中斷和擁塞的原因,而是先觀測在一個周期里故障變化的全過程并記錄之。筆者用第二臺網絡測試儀和網絡故障一點通接入網絡,分別觀察主路由器、備份路由器、主服務器的工作流量和錯誤,并對主路由器作連續(xù)的ICMP 監(jiān)測。約8分鐘后,主路由器流量開始迅速上升,備份路由器出現(xiàn)重定向指示,約15秒后報告?zhèn)浞萋酚善魍瞥鰞?yōu)化路由,動態(tài)路由表恢復到與靜態(tài)路由相同的設置,網絡完全恢復正常。
分析故障關系,可以斷定故障的關聯(lián)設備是主路由器。由于用戶在機架上已經安裝了冷備份的主路由器,筆者先將冷備份路由器替換到主路由器的位置。5分鐘后路由器更換完畢,開機接入網絡,3分鐘后網絡恢復正常。但只持續(xù)了2分鐘,故障現(xiàn)象又重新出現(xiàn)??磥?,必須對主路由器做詳細監(jiān)測才能發(fā)現(xiàn)真正的故障所在。
定位到主路由器
網絡建構拓撲是,主路由器與三個外圍遠程路由器和一個本地路由器相連,筆者可以同時監(jiān)測這幾個路由器的工作狀況。監(jiān)測結果如下:故障出現(xiàn)時,外圍主路由器和本地路由器的路由表隨著故障的出現(xiàn)也發(fā)生變化,而此時營業(yè)廳業(yè)務不受影響。受影響的業(yè)務方向是外地與本城、本城與外地、外地經本地跨區(qū)等。用 ATM測試儀測試遠程ATM路由通道,將遠端ATM交換機 Loopback(環(huán)回)以后監(jiān)測三個方向的通道情況,顯示完全正常。再對與主路由器相關的連接電纜進行測試,全部合格。這表明主路由器的工作環(huán)境是基本正常的。此時筆者需要了解主路由器鏈路中的“垃圾流量”的分布。此時,筆者只需要檢查主路由器的接地質量和供電環(huán)境即可(因為已經試驗更換過主路由器),這兩個因素當中的任何一個不負荷要求,都有可能引發(fā)主路由器中斷的故障。
電源是最后元兇
首先觀測為主路由器供電的UPS電源。當故障發(fā)生時UPS顯示過載,而輸出回路卻顯示輕負荷。用F43電力質量分析儀觀察也顯示故障時輸入諧波超差6倍。輸出回路超差400倍,故障恢復后,過載指示也隨之消失,但輸出回路仍超差80倍。證明UPS電源低效。
將主路由器的供電電源接到另一臺UPS電源上,故障徹底消失。故障原因為供電質量不合格。筆者注意到,該計算中心所在的大樓正在裝修,網管人員說等大樓裝修完畢后還要將網絡設備擴容。初步干擾源很可能就來自與裝修有關的部分。由于故障的周期性,經過仔細觀察發(fā)現(xiàn),故障出現(xiàn)的周期與樓旁塔吊的上下周期一致!為準確判定諧波干擾的源地點,筆者將電力質量分析儀接入供電網絡進行核實,結果發(fā)現(xiàn),每當塔吊上升時,故障現(xiàn)象就出現(xiàn)(下降時諧波為上升時的三分之一,網絡有少許變慢)。
3、故障總結
為主路由器供電的UPS電源由于失效,對外界電力干擾諧波的過濾能力下降,當為重負載的用電設備供電時,此諧波會引發(fā)許多設備出錯。如果此時恰逢UPS電源濾波失效,則相關設備會受到干擾。本故障中,主路由器由于大量干擾進入,使得鏈路阻塞,路由器連接中斷,路由變更指令使得各業(yè)務流量流向備份路由器,備份路由器的路由通道能力又不能滿足,致使網絡出現(xiàn)擁塞。這就是本次故障先中斷后恢復然后阻塞的原因。同城結算數據由于多數不經過主路由器,所以未受到影響。
塔吊下降時,雖然引入的干擾也不少,不過因為其干擾的絕對值未超過主路由器的承受范圍,所以主路由器還能應付。大樓裝修以前也出現(xiàn)過類似的故障,因干擾源很快消失并不再持續(xù)存在,因此不可能引起維護人員的注意。
4、建議
與電纜和光纜系統(tǒng)一樣,電力諧波和UPS電源也是列入定期檢查的內容,考試大建議作半年定期檢查,關鍵的網絡建議作為周定期檢查的項目。諧波干擾是經常存在的環(huán)境因素,如果此時UPS電源不出問題,一般不會影響網絡的正常運行,但諧波干擾是嚴重影響網絡性能的原因之一,一旦竄入網絡則引起的故障多數都是“致癱性”或致命性的。還由于多數用戶對干擾類型的故障“相當地”不熟悉,故提請大家引起較多關注。
此外,定期維護的概念應該為大家所接受,制定了詳細的網絡健康維護方案,確定定期維護的詳細規(guī)章,就能夠未雨綢繆,防患于未然。比如本例中的網絡故障,從表象上看似乎很詭異,誰能夠知道UPS電源是最后的元兇呢?如果管理員事前做好定期維護,類似這樣的故障就不會發(fā)生。

