交換機網絡可靠性小貼士
H3C交換機基礎維護篇
小貼士No.1 配置動態鏈路聚合
鏈路聚合想必大傢都很熟悉了,鏈路聚合將多條物理鏈路捆綁在一起形成一條邏輯鏈路,實現增加鏈路帶寬的目的,同時這些鏈路相互備份,可以有效地提高鏈路的可靠性。
新華三交換機的鏈路聚合分為動態鏈路聚合和靜態鏈路聚合:
靜態聚合模式:一旦配置好後,端口的選中/非選中狀態就不會受網絡環境的影響,比較穩定。
動態聚合模式:通過LACP協議實現,能夠根據對端和本端的信息調整端口選中/非選中狀態,比較靈活。
動態鏈路聚合和靜態鏈路聚合最大的差別就在於,在選擇參考端口和確定端口選中狀態時,靜態鏈路聚合隻需要比較本端成員端口,本端成員端口屬性類配置變化不會影響到對端的選中狀態,比較穩定;而動態鏈路聚合需要和對端交互LACP協議,在兩端成員端口中選擇參考端口,端口的選中狀態同時受本端和對端影響。
PS:關於鏈路聚合的具體介紹,大傢可以參考新華三官網的配置手冊,這裡我們就不贅述啦~
交換機缺省是靜態鏈路聚合,動態鏈路聚合需要多配置一條命令(link-aggregation mode dynamic),在網絡穩定情況下,靜態和動態兩種模式沒有什麼差別,甚至靜態鏈路聚合下設備還不需要占用CPU處理LACP協議報文;但在有些故障環境下,靜態鏈路聚合就有問題了。我們來看一個故障案例。
·組網說明·
現場使用一組堆疊框式設備作為核心,如下圖中SW1和SW2,通過跨框靜態鏈路聚合下聯一臺匯聚設備。
![](https://news.xinpengboligang.com/upload/keji/22207c79caa9d9a58eacb857cbe77042.jpeg)
·故障現象·
網管監控平臺上收到大量核心交換機2/1槽位單板芯片異常告警,與此同時下行業務也開始報障,現場運維工程師將聚合組1中的T2/1/0/1成員口手動shutdown後,業務恢復正常。
·故障分析·
根據核心交換機上2/1槽位的告警日志,可以確認2/1槽位單板芯片出現了硬件故障,影響了所有通過2/1槽位轉發的業務。但是現場核心下行到匯聚SW3是通過聚合組互聯的,且是跨框聚合,兩個成員口分別在SW1的1/1槽位單板和SW2的2/1槽位單板上,即使2/1槽位單板故障了,流量也可以走1/1槽位單板轉發,不應該影響業務呀。
![](https://news.xinpengboligang.com/upload/keji/921a0e54e0196ac7c788f67d264ceb27.jpeg)
經過進一步分析,發現在故障時間點,下行SW3上聚合組1的成員口還都是選中狀態,所以還是會將流量hash到SW1和SW2上,hash到SW2的報文由於單板故障無法轉發,就全部被丟棄了,導致影響業務:
![](https://news.xinpengboligang.com/upload/keji/46a62e31130654824e921634d0c295a8.jpeg)
鏈路聚合本身應該可以提供冗餘保護,但是在現場這種故障條件下,SW2隻是單板芯片故障無法轉發報文,成員口T1/2/0/1並沒有down,靜態鏈路聚合下對端SW3無感知,還是會正常轉發報文到SW2。
如果SW1/2和SW3之間是動態鏈路聚合互聯,那麼當SW2的2/1槽位單板故障無法轉發報文時,T1/2/0/1也就無法正常發送LACP報文,對端SW3在超時時間內沒有收到LACP報文,連接SW2的成員口就會變為非選中狀態,SW3也就不會再往SW2發送報文了。
![](https://news.xinpengboligang.com/upload/keji/1fc7ba7643e3db578d25e1bcfe8501b2.jpeg)
除了以上案例,在很多其他故障場景下,靜態鏈路聚合也無法及時切換隔離故障:
比如兩臺設備間有透傳設備的情況,其中一臺的端口已經down了,但另一臺的端口還是up的,靜態鏈路聚合依舊會保持選中狀態;
比如一端為堆疊跨框聚合,單框設備故障導致堆疊分裂且沒有及時合並的情況下,對端還是會將成員口都保持選中,不僅會將報文轉發給故障設備,還會學習故障設備的ARP表項,造成嚴重的業務影響。
![](https://news.xinpengboligang.com/upload/keji/452048cc200bad5a4e32381ad191476d.jpeg)
靜態鏈路聚合不關註對端的特性讓它更穩定,但也無法及時感知對端故障,隻要成員口還是UP的,就會保持選中狀態,將業務流量持續發送給對端;而動態鏈路聚合實時交互LACP協議報文,可以及時感知到對端的異常,我們平時遇到的絕大部分單鏈路故障,都可以通過配置動態鏈路聚合實現冗餘備份。
雖然動態鏈路聚合也有其局限性,無法滿足毫秒級的切換要求,但大部分普通組網的鏈路冗餘備份需求動態鏈路聚合都是可以滿足的。大傢在開局組網規劃配置時,如果沒有特殊需求,建議都盡量使用動態鏈路聚合哦~
小貼士No.2 配置路由協議NSR
交換機的協議報文都是上送CPU處理的,而堆疊設備或者框式設備有主備主控之分,正常運行時,路由協議都是由主用主控板處理和維護的:
![](https://news.xinpengboligang.com/upload/keji/a12d2e38435146f40c9ac57bf74fe565.jpeg)
當主用主控板重啟或者故障時,設備會發生主備倒換,由備用主控接管路由協議,過程中涉及鄰居關系的重新建立和路由的重新收斂,可能會導致路由協議震蕩,進而影響業務。
那有沒有什麼辦法減少或者避免主備倒換時的路由震蕩呢?有的,答案就是配置路由協議NSR~
NSR全稱是Nonstop Routing,不間斷路由。顧名思義,NSR可以將路由協議相關信息從主進程備份到備進程,在設備發生主備倒換時,備份進程能夠無縫地接管主進程的工作,解決了主備倒換期間引發的路由震蕩問題,保證轉發業務不中斷。
那哪些路由協議可以配置NSR呢?其實幾乎所有路由協議都可以配置:
OSPF:
![](https://news.xinpengboligang.com/upload/keji/e51a0b7bf0a1e311e313a55cc654be85.jpeg)
BGP:
ISIS:
![](https://news.xinpengboligang.com/upload/keji/fbda75a981a6c836dbb7134b13a3a434.jpeg)
·NSR註意事項·
1、NSR特性與GR特性互斥,不能同時配置,如果同時配置會有如下報錯:
![](https://news.xinpengboligang.com/upload/keji/69d566a14fa854e79e3dee8bd6e21701.jpeg)
2、在堆疊升級/更換、更換主控板等涉及到主備倒換的操作之前,務必先配置NSR,減少變更過程中的業務影響。
3、交換機基本所有設備都支持NSR,建議聯系400或者代表處確認並升級到推薦版本,NSR優化更平滑~
斷網讓人膽戰心驚,多少次處理到天明,驀然回首,原來隻需一條命令。
![](https://news.xinpengboligang.com/upload/keji/5ce3e9a1ea2960f5ad1dc301f7f48ba2.jpeg)
動態鏈路聚合和NSR的配置都很簡單,卻可以避免大問題,快檢查一下自己的交換機上有沒有配置吧~