吳之沫,馬琳茹
(中國(guó)人民解放軍軍事科學(xué)院 系統(tǒng)工程研究院,北京 100039)
人們的日常生活離不開網(wǎng)絡(luò)提供的各種服務(wù),各行各業(yè)對(duì)網(wǎng)絡(luò)性能的要求越來越嚴(yán)格,網(wǎng)絡(luò)規(guī)模和復(fù)雜度呈爆炸性增長(zhǎng)趨勢(shì)。然而,當(dāng)前的網(wǎng)絡(luò)基礎(chǔ)設(shè)施面臨著各種各樣的潛在威脅,除了網(wǎng)絡(luò)部件自然老化而導(dǎo)致的失效問題,還隨時(shí)可能遭遇地震、洪水、颶風(fēng)等自然災(zāi)害,以及恐怖襲擊、軍事戰(zhàn)爭(zhēng)等人為災(zāi)難性事件。即使發(fā)生故障的是一個(gè)或幾個(gè)網(wǎng)絡(luò)部件,其周圍區(qū)域也會(huì)由于受到網(wǎng)絡(luò)信息流量過載的影響而發(fā)生擁塞,引發(fā)連鎖效應(yīng),最終導(dǎo)致相當(dāng)一部分節(jié)點(diǎn)甚至整個(gè)網(wǎng)絡(luò)崩潰。因此,及時(shí)對(duì)網(wǎng)絡(luò)故障進(jìn)行修復(fù)至關(guān)重要。
為解決現(xiàn)有TCP/IP 體系架構(gòu)服務(wù)質(zhì)量提升緩慢、路由故障恢復(fù)效率低下以及可擴(kuò)展性差等問題,科學(xué)家們提出使用覆蓋網(wǎng)絡(luò)對(duì)現(xiàn)有網(wǎng)絡(luò)進(jìn)行系統(tǒng)性、廣泛性、整體性改造。覆蓋網(wǎng)絡(luò)是一種整合式互聯(lián)網(wǎng)改進(jìn)方案,相較于打補(bǔ)丁式的改良式方案與從零開始的革命式方案,其是一種介于二者之間的折中方案[1],既不會(huì)明顯增加網(wǎng)絡(luò)復(fù)雜性,也無需拋棄現(xiàn)有網(wǎng)絡(luò)體系,只需在現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)的IP 層之上、應(yīng)用層之下增加一個(gè)中間層,采用覆蓋網(wǎng)絡(luò)改善當(dāng)前互聯(lián)網(wǎng)即可。這種對(duì)互聯(lián)網(wǎng)體系架構(gòu)的系統(tǒng)性修補(bǔ)可以在保留現(xiàn)有互聯(lián)網(wǎng)架構(gòu)的前提下提供更可靠的服務(wù),為下一代互聯(lián)網(wǎng)設(shè)計(jì)提供了一種可行性方案。
基于虛擬化傳輸?shù)奶匦?,覆蓋網(wǎng)絡(luò)部署時(shí)間短、可拓展性強(qiáng),在災(zāi)后恢復(fù)方面的應(yīng)用研究呈上升趨勢(shì),目前已被廣泛應(yīng)用于公路交通網(wǎng)絡(luò)[2]、光網(wǎng)絡(luò)[3]、相互依存網(wǎng)絡(luò)[4]、水下無線傳感器網(wǎng)絡(luò)[5]等各個(gè)領(lǐng)域。然而,覆蓋網(wǎng)絡(luò)在災(zāi)后恢復(fù)中的應(yīng)用研究尚不成體系,或僅聚焦于單純的故障定位[6]、故障檢測(cè)[7],或側(cè)重于相互依存網(wǎng)絡(luò)[4]的災(zāi)后響應(yīng)。為此,本文對(duì)覆蓋網(wǎng)絡(luò)應(yīng)用于信息網(wǎng)絡(luò)災(zāi)后恢復(fù)方面的相關(guān)文獻(xiàn)進(jìn)行整理與總結(jié),從故障建模和受損網(wǎng)絡(luò)連接恢復(fù)兩個(gè)方面入手,綜述覆蓋網(wǎng)絡(luò)災(zāi)后恢復(fù)方法,為相關(guān)研究者提供參考。
覆蓋網(wǎng)絡(luò)本質(zhì)上是一種面向服務(wù)的邏輯網(wǎng)絡(luò)[8],其節(jié)點(diǎn)由連接在互聯(lián)網(wǎng)上的部分終端節(jié)點(diǎn)或應(yīng)用類服務(wù)器組成,每條網(wǎng)絡(luò)鏈路對(duì)應(yīng)一條或多條物理鏈路。如圖1 所示,覆蓋網(wǎng)絡(luò)將二層報(bào)文封裝在IP 報(bào)文之上,利用成熟的IP 路由協(xié)議進(jìn)行數(shù)據(jù)分發(fā),構(gòu)建了一層邏輯拓?fù)?。其網(wǎng)絡(luò)拓?fù)溆煞?wù)提供商們根據(jù)用戶需求定義,可以在不改變互聯(lián)網(wǎng)基礎(chǔ)設(shè)施的前提下提供更可靠、容錯(cuò)性更好的服務(wù),彌補(bǔ)了傳統(tǒng)網(wǎng)絡(luò)路由的缺陷,提高了互聯(lián)網(wǎng)的可擴(kuò)展性和魯棒性。
Fig.1 Impact of overlay network technology on the Internet hierarchy architecture圖1 覆蓋網(wǎng)絡(luò)技術(shù)對(duì)互聯(lián)網(wǎng)層次架構(gòu)的影響
早在1974 年,英國(guó)學(xué)者Duerdoth[9]就提出了覆蓋網(wǎng)絡(luò)的概念,不過這個(gè)概念最初是應(yīng)用于電信技術(shù)上。在那個(gè)模擬技術(shù)與數(shù)字技術(shù)并存的時(shí)期,使用覆蓋網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)可以在保留原有電話服務(wù)的基礎(chǔ)上引入數(shù)字技術(shù),同時(shí)避免高昂的經(jīng)濟(jì)成本。隨著信息技術(shù)的發(fā)展,光纖技術(shù)開始走進(jìn)大眾視野。1986 年,德國(guó)學(xué)者提出寬帶通信服務(wù)覆蓋網(wǎng)絡(luò)[10],德國(guó)郵政公司將覆蓋網(wǎng)絡(luò)技術(shù)視為發(fā)展高效集成通用網(wǎng)絡(luò)的戰(zhàn)略[11]。自此,覆蓋網(wǎng)絡(luò)正式被視為承舊啟新的框架技術(shù),繼電報(bào)網(wǎng)、電話網(wǎng)、綜合業(yè)務(wù)數(shù)字網(wǎng)之后走進(jìn)了人們的視線。21 世紀(jì)初,覆蓋網(wǎng)絡(luò)被應(yīng)用于可靠多播技術(shù)[12],充分利用底層網(wǎng)絡(luò)拓?fù)洌ㄟ^覆蓋樹協(xié)議構(gòu)造了可靠分發(fā)樹,為用戶提供故障容忍的密集帶寬。此后,覆蓋網(wǎng)絡(luò)普遍應(yīng)用于網(wǎng)絡(luò)組播技術(shù)。
近年來,覆蓋網(wǎng)絡(luò)技術(shù)得到了深入研究和廣泛應(yīng)用,如以去中心化為特點(diǎn)的對(duì)等網(wǎng)絡(luò)(Peer to Peer,P2P)常用于文件共享[13-14]、即時(shí)通信[15]、協(xié)同處理[16]和流媒體通信[17]領(lǐng)域;內(nèi)容分發(fā)網(wǎng)(Content Delivery Network,CDN)用于視頻分發(fā),采用重定向機(jī)制縮短了分發(fā)服務(wù)器與用戶的距離[18],不僅可以提高訪問速度,還能緩解網(wǎng)絡(luò)擁塞;應(yīng)用層多播機(jī)制通過建立路由器間的多播分發(fā)樹管理成員和分發(fā)數(shù)據(jù)[19]。此外,覆蓋網(wǎng)絡(luò)還常用于增強(qiáng)服務(wù)質(zhì)量(Quality of Service,QoS)[20]、云計(jì)算數(shù)據(jù)中心網(wǎng)[21]、軟件定義網(wǎng)絡(luò)(Software Defined Network,SDN)[22]等技術(shù)領(lǐng)域。
覆蓋網(wǎng)絡(luò)受到大眾青睞的主要原因是其可以在不改變底層網(wǎng)絡(luò)的前提下提供組播、QoS 增強(qiáng)等服務(wù),對(duì)下層網(wǎng)絡(luò)故障透明,結(jié)構(gòu)多樣化且具有較低的部署成本和部署難度。這些優(yōu)點(diǎn)有效緩解了傳統(tǒng)IP 網(wǎng)絡(luò)的僵化問題,精簡(jiǎn)和優(yōu)化了網(wǎng)絡(luò)整體結(jié)構(gòu)。同時(shí),超節(jié)點(diǎn)的存在使復(fù)雜的網(wǎng)絡(luò)鏈路變得簡(jiǎn)單靈活,具有很好的魯棒性[23]。
伴隨科學(xué)技術(shù)日新月異的發(fā)展,通信網(wǎng)絡(luò)面臨的潛在威脅也越來越極端,一個(gè)完備的通信網(wǎng)絡(luò)體系必須具備一定的容災(zāi)能力。從數(shù)學(xué)層面來說,網(wǎng)絡(luò)容災(zāi)性可被描述為一個(gè)網(wǎng)絡(luò)被徹底破壞所需要除掉的節(jié)點(diǎn)數(shù)占總節(jié)點(diǎn)數(shù)的比例,在現(xiàn)實(shí)世界中則表現(xiàn)為當(dāng)局部網(wǎng)絡(luò)遭到破壞或網(wǎng)絡(luò)服務(wù)大規(guī)模損毀時(shí),網(wǎng)絡(luò)仍然可以保持關(guān)鍵服務(wù)正常運(yùn)行的能力。具有較高容災(zāi)性的網(wǎng)絡(luò)能夠更好地預(yù)防和抵御攻擊,并在受到攻擊后快速恢復(fù)。
如圖2 所示,圍繞提高容災(zāi)性這一目標(biāo),覆蓋網(wǎng)絡(luò)研究工作可以分為兩個(gè)方面:一是災(zāi)難損毀模型建立。合適的損毀模型可以精確描述網(wǎng)絡(luò)受損情況,分為確定性損毀模型和概率故障模型兩種;二是受損網(wǎng)絡(luò)的連接恢復(fù)??刹捎弥鲃?dòng)式保護(hù)、被動(dòng)式恢復(fù)以及主被動(dòng)結(jié)合恢復(fù)3 種策略,其中主動(dòng)式保護(hù)策略通過提供備份節(jié)點(diǎn)或鏈路,使覆蓋網(wǎng)絡(luò)可以迅速切換受損節(jié)點(diǎn)或鏈路,防止由于部分節(jié)點(diǎn)或鏈路失效而造成的大面積癱瘓;被動(dòng)式恢復(fù)策略是指在災(zāi)難發(fā)生后,即使網(wǎng)絡(luò)遭受到外力破壞導(dǎo)致拓?fù)浣Y(jié)構(gòu)發(fā)生變化或重組,仍然可以通過重路由等方式使系統(tǒng)恢復(fù)正常運(yùn)作,完成預(yù)期主要目標(biāo),強(qiáng)調(diào)的是網(wǎng)絡(luò)的恢復(fù)能力。
Fig.2 Classification of overlay network research work圖2 覆蓋網(wǎng)絡(luò)研究工作分類
網(wǎng)絡(luò)災(zāi)后恢復(fù)的前提是定位網(wǎng)絡(luò)發(fā)生損毀的位置,及時(shí)精確地監(jiān)控網(wǎng)絡(luò)故障,這就需要對(duì)災(zāi)難損毀故障進(jìn)行建模。災(zāi)難損毀模型可以直觀展示災(zāi)害對(duì)網(wǎng)絡(luò)的影響,包括受損位置、損毀范圍、癱瘓程度等。然而,由于災(zāi)難類型多樣,研究人員很難為每一種自然災(zāi)害和人為損壞建立合適的模型,現(xiàn)有研究多為利用幾何知識(shí)建立理論模型,主要分為確定性損毀模型和概率故障模型兩種。
確定性損毀模型的關(guān)鍵在于找到受災(zāi)區(qū)域,關(guān)注的是故障的地理位置,一旦計(jì)算出受災(zāi)區(qū)域,便假設(shè)這個(gè)區(qū)域中所有的網(wǎng)絡(luò)設(shè)備全部被損毀,即故障概率為1。2010年,Neumayer 等[24]首次將計(jì)算幾何的理論工具應(yīng)用于網(wǎng)絡(luò)容災(zāi)性研究中,提出一個(gè)簡(jiǎn)化的二部圖模型。該模型使用線段表示颶風(fēng)等造成的線性災(zāi)害,圓形表示地震等造成的區(qū)域性災(zāi)害,利用多項(xiàng)式時(shí)間算法在平面圖模型中識(shí)別最壞線切割和最壞圓切割,這是網(wǎng)絡(luò)最脆弱的部分,任何在地理位置上與該災(zāi)害區(qū)域相交的網(wǎng)絡(luò)組件均無法正常工作;Stojan 等[25]降低了Neumayer 等研究的復(fù)雜性,在其基礎(chǔ)上開發(fā)了一種多項(xiàng)式時(shí)間算法,采用橢圓形和多邊形表示網(wǎng)絡(luò)失效的脆弱區(qū)域;Tapolcai 等[26]受到二部圖模型的啟發(fā),提出固定半徑的圓盤破壞模型,以故障點(diǎn)為圓心,認(rèn)為一定半徑內(nèi)的所有網(wǎng)絡(luò)部件均受到了災(zāi)難影響??紤]到大多數(shù)災(zāi)難可能并不是均勻分布的,Gour 等[27]在固定半徑的圓盤失效模型中引入邊和路徑脆弱區(qū)的概念,使其適用于失效事件非均勻分布的災(zāi)難區(qū)域。該模型使用圓盤表示災(zāi)難損毀區(qū)域,簡(jiǎn)單直觀,極大降低了處理區(qū)域性損毀的復(fù)雜度,在災(zāi)后恢復(fù)工作中得到廣泛使用。然而,圓盤形災(zāi)難模型僅適用于區(qū)域性災(zāi)害,如地震、大規(guī)模殺傷性武器導(dǎo)致的災(zāi)難,而對(duì)于颶風(fēng)、海嘯、山體滑坡、自然火災(zāi)等,圓盤模型并不能精確描述。
在實(shí)際場(chǎng)景中,受災(zāi)區(qū)域往往不是呈現(xiàn)出圓盤形、四邊形、線形等規(guī)則形狀。為精確描述災(zāi)難造成的不規(guī)則傷害,Agrawal 等[28]針對(duì)地震造成的損毀,結(jié)合震中位置、震中密度、地震震級(jí)和網(wǎng)絡(luò)拓?fù)涞纫靥岢龅卣痫L(fēng)險(xiǎn)骨干網(wǎng)絡(luò)模型,將地理區(qū)域細(xì)分為多個(gè)任意形狀的地震帶,表示不同級(jí)別的地震風(fēng)險(xiǎn);同時(shí)還提出地震風(fēng)險(xiǎn)最小化節(jié)點(diǎn)遷移方案,使得模型在網(wǎng)絡(luò)動(dòng)態(tài)變化時(shí)也能準(zhǔn)確描述受損區(qū)域與受損程度。然而,這些關(guān)于災(zāi)難建模的研究均默認(rèn)網(wǎng)絡(luò)在一個(gè)平面上,而地球是類球形的,這種計(jì)算方式難免有些失真。對(duì)于一些小規(guī)模的損毀,這種失真是微不足道的,而對(duì)于一個(gè)幅員遼闊的國(guó)家、大陸甚至大洲,這種映射的誤差將會(huì)超過5%。為此,Vass 等[29]通過改進(jìn)多項(xiàng)式共享風(fēng)險(xiǎn)鏈路組(Shared Risk Link Groups,SRLG)生成技術(shù),使模型適應(yīng)球面幾何,生成更精確的SRLG 列表,同時(shí)還引入圖密度參數(shù),使模型同樣適用于不規(guī)則受災(zāi)區(qū)域。
確定性損毀模型雖然直觀,但過于簡(jiǎn)化,難以表達(dá)真實(shí)損毀場(chǎng)景的一些重要特征。事實(shí)上,某區(qū)域即使發(fā)生了災(zāi)害,其網(wǎng)絡(luò)組件也未必全部損毀,只是大大增加了發(fā)生故障的概率。網(wǎng)絡(luò)損毀的概率與鏈路長(zhǎng)度、節(jié)點(diǎn)密度、災(zāi)害強(qiáng)弱和災(zāi)害區(qū)域大小均有關(guān)系,可采用概率損毀模型進(jìn)行預(yù)測(cè)。例如,Vass等[30]假設(shè)在災(zāi)害發(fā)生后區(qū)域網(wǎng)絡(luò)平面中會(huì)產(chǎn)生一個(gè)明顯的故障概率分布,并依據(jù)該假設(shè)構(gòu)造了鏈路失效的聯(lián)合概率分布,提出通用概率區(qū)域損毀模型,其中鏈路的累積失效概率取決于鏈路長(zhǎng)度以及鏈路與災(zāi)害的地理鄰近性。針對(duì)虛擬網(wǎng)絡(luò)的生存性,Oliveira 等[31]提出高度時(shí)空相關(guān)的多鏈路故障災(zāi)難模型。由于網(wǎng)絡(luò)功能虛擬化(Virtual Network Feature,VNF)基礎(chǔ)設(shè)施具有極高的復(fù)用度,VNF 網(wǎng)絡(luò)中的節(jié)點(diǎn)和鏈路故障具有高度相關(guān)性,如果在前一組故障修復(fù)前發(fā)生了更多災(zāi)害,可能會(huì)導(dǎo)致多組相關(guān)鏈路發(fā)生故障。該文獻(xiàn)還創(chuàng)造性地采用基于網(wǎng)格分區(qū)的方案估計(jì)隨機(jī)區(qū)域故障下的各種網(wǎng)絡(luò)統(tǒng)計(jì)指標(biāo),網(wǎng)格劃分不僅有助于識(shí)別網(wǎng)絡(luò)的脆弱區(qū)域,還可以依據(jù)網(wǎng)格對(duì)故障發(fā)起適當(dāng)保護(hù)。
表1 對(duì)以上災(zāi)難損毀故障建模方案的基本信息進(jìn)行了總結(jié),其中適用網(wǎng)絡(luò)為靜態(tài)網(wǎng)絡(luò)的方案只能在災(zāi)難發(fā)生后進(jìn)行一次建模,而動(dòng)態(tài)網(wǎng)絡(luò)則可以根據(jù)受災(zāi)區(qū)域的變化進(jìn)行適應(yīng)性建模。
Table 1 Disaster damage modeling schemes表1 災(zāi)難損毀建模方案
建立災(zāi)難損毀故障模型的目的是為了更加及時(shí)有效地恢復(fù)受損鏈接。當(dāng)前應(yīng)用最為廣泛的網(wǎng)絡(luò)連接恢復(fù)策略為主動(dòng)式連接保護(hù)策略,主要應(yīng)用于發(fā)生單鏈路故障或多條獨(dú)立鏈路故障的場(chǎng)景,即當(dāng)網(wǎng)絡(luò)遭受不嚴(yán)重的破壞,只有個(gè)別節(jié)點(diǎn)或鏈路發(fā)生故障之時(shí)。研究指出,網(wǎng)絡(luò)中70%的故障都是單鏈路故障[32]。在大多數(shù)情況下,任意網(wǎng)絡(luò)節(jié)點(diǎn)對(duì)之間傳輸數(shù)據(jù)都只選擇路徑最優(yōu)的那一條,如果這條最優(yōu)路徑上的任何一條鏈路發(fā)生了故障,那么該節(jié)點(diǎn)對(duì)之間的通信便會(huì)中斷。主動(dòng)式連接保護(hù)策略即在災(zāi)難發(fā)生前為這對(duì)節(jié)點(diǎn)設(shè)置一條或多條備用路徑,當(dāng)使用最優(yōu)路徑無法進(jìn)行通信時(shí),源節(jié)點(diǎn)快速將流量轉(zhuǎn)入次優(yōu)路徑,使得通信業(yè)務(wù)得到恢復(fù)并實(shí)現(xiàn)正常傳輸。
根據(jù)備份原理,主動(dòng)式連接保護(hù)策略又可分為節(jié)點(diǎn)備份方案和鏈路備份方案。在節(jié)點(diǎn)備份方案方面,Zhi 等[33]以節(jié)點(diǎn)度作為評(píng)價(jià)指標(biāo),采用對(duì)等覆蓋網(wǎng)絡(luò)拓?fù)渥詣?dòng)恢復(fù)算法為關(guān)鍵節(jié)點(diǎn)的每一條邊選取一個(gè)度較小的點(diǎn)作為備用節(jié)點(diǎn),同時(shí)在節(jié)點(diǎn)接收數(shù)據(jù)包時(shí)執(zhí)行路徑壓縮算法,以確保網(wǎng)絡(luò)拓?fù)涞恼_性和連通性,提高網(wǎng)絡(luò)傳輸效率;朱國(guó)暉等[34]將建立覆蓋網(wǎng)絡(luò)的成本與收益納入考量,綜合考慮節(jié)點(diǎn)資源度、接受中心度、網(wǎng)絡(luò)收益開銷比、鏈路重要程度等因素建立覆蓋網(wǎng)絡(luò),只有新生成的鏈路所需資源之和小于物理網(wǎng)絡(luò)剩余資源時(shí)才將鏈路端點(diǎn)納入備用節(jié)點(diǎn)候選集;郝黨科等[35]將大數(shù)據(jù)技術(shù)引入節(jié)點(diǎn)篩選算法,將研究場(chǎng)景設(shè)定在高速公路網(wǎng)絡(luò)上,利用工程參數(shù)表和大數(shù)據(jù)用戶識(shí)別技術(shù)篩選出核心節(jié)點(diǎn),并由此建立關(guān)系庫(kù);然后應(yīng)用黃金分割搜索算法得出最優(yōu)備份節(jié)點(diǎn),最終實(shí)現(xiàn)了站點(diǎn)故障后網(wǎng)絡(luò)的自修復(fù),確保了故障區(qū)域的網(wǎng)絡(luò)覆蓋與業(yè)務(wù)質(zhì)量。
在面向業(yè)務(wù)的覆蓋網(wǎng)絡(luò)中可優(yōu)先選擇最佳鏈路恢復(fù)故障。例如,Li等[36]將保護(hù)能力感知技術(shù)與面向故障避免技術(shù)相結(jié)合以提高虛擬網(wǎng)絡(luò)的可靠性。其假設(shè)每條鏈路都對(duì)應(yīng)一個(gè)失效概率,由此選出需要重點(diǎn)保護(hù)的主鏈路,并使用基于馬爾可夫的線性規(guī)劃為每條主鏈路計(jì)算備份路徑。為減少預(yù)備份所需資源,耿海軍等[37]提出可在每個(gè)路由節(jié)點(diǎn)轉(zhuǎn)發(fā)表中保存和維護(hù)最優(yōu)下一跳和次優(yōu)下一跳,當(dāng)目標(biāo)節(jié)點(diǎn)的最優(yōu)路徑發(fā)生故障時(shí)便自動(dòng)切換至次優(yōu)下一跳,如此以來大大減小了算法的存儲(chǔ)空間;Hirano 等[38]和Khouangvichit 等[39]認(rèn)為傳統(tǒng)穩(wěn)健優(yōu)化方案高估了備份鏈路的容量,分別將備份鏈路設(shè)計(jì)問題描述為具有魯棒優(yōu)化和穩(wěn)健優(yōu)化的混合整數(shù)線性規(guī)劃(Mixed Integer Linear Programming,MILP)問題,以最小化備份資源為目標(biāo)尋找最優(yōu)備份鏈路;Wang 等[40]以提高備份資源利用率為思路,提出一種基于環(huán)的單鏈路故障恢復(fù)方法,根據(jù)節(jié)點(diǎn)重要性與鏈路性能選擇核心節(jié)點(diǎn)并將其連接成共享環(huán),使所有備份路徑共享該路徑,即每個(gè)備份路徑都包含共享環(huán)的一部分。共享環(huán)生成后,根據(jù)故障鏈路的位置處理故障,若故障鏈路不屬于共享環(huán),就先將受故障影響的數(shù)據(jù)包重定向至環(huán)節(jié)點(diǎn),然后沿環(huán)傳輸;若故障鏈路屬于共享環(huán),受故障影響的數(shù)據(jù)包將沿環(huán)以相反方向傳輸。該方法提高了備份的可重用性,降低了備份路由數(shù);同時(shí)為了保證備份路由性能,該方法還會(huì)根據(jù)預(yù)測(cè)負(fù)載定期更新環(huán)路。
主動(dòng)式連接保護(hù)策略可以非常高效地恢復(fù)網(wǎng)絡(luò)連接,這是由于所有路徑的計(jì)算工作是預(yù)先完成的,故障發(fā)生后只需要進(jìn)行簡(jiǎn)單的路徑切換。然而,為不同故障場(chǎng)景建立不同備份路徑需要較高的部署成本,而且當(dāng)發(fā)生地震、洪水等大規(guī)模區(qū)域損毀時(shí),主動(dòng)式連接保護(hù)策略提供的多條備份路徑極有可能同時(shí)失效。表2 列出了上述主動(dòng)連接保護(hù)策略的優(yōu)點(diǎn)、局限性等基本信息。
被動(dòng)式重新尋路策略無需提前預(yù)留資源,只需要在故障發(fā)生后根據(jù)當(dāng)前網(wǎng)絡(luò)的實(shí)時(shí)路由狀態(tài)及資源剩余情況計(jì)算重路由方案,基于設(shè)定的反應(yīng)機(jī)制應(yīng)對(duì)災(zāi)難損毀。目前關(guān)于該策略的研究主要集中在最短路徑計(jì)算、故障信息傳播等方面,且多數(shù)研究是依靠覆蓋網(wǎng)絡(luò)的虛擬性靈活繞開發(fā)生故障的網(wǎng)絡(luò)部件,以保持信息的正常傳輸。例如,張艷梅[41]通過限制網(wǎng)絡(luò)拓?fù)鋯挝粫r(shí)間內(nèi)需要維護(hù)的消息數(shù)量,在給定維護(hù)代價(jià)的基礎(chǔ)上使用自適應(yīng)搜索的免疫克隆算法求解路由性能最好、物理鏈路重用度最小的備選鏈路,將網(wǎng)絡(luò)災(zāi)后恢復(fù)工作轉(zhuǎn)化為多目標(biāo)約束優(yōu)化問題。從單個(gè)角度來看,該方法找到的備選鏈路可能并不是最優(yōu)的,但當(dāng)同時(shí)考慮維護(hù)代價(jià)、路由性能和物理鏈路負(fù)載等多個(gè)子目標(biāo)時(shí),其是最優(yōu)方案。然而與大多數(shù)主動(dòng)式連接保護(hù)策略相同,這種選擇節(jié)點(diǎn)或鏈路的方法難以應(yīng)對(duì)大規(guī)模災(zāi)難損毀。Zad 等[42]提出一種針對(duì)大規(guī)模區(qū)域損毀場(chǎng)景的網(wǎng)絡(luò)恢復(fù)方法,稱為迭代隨機(jī)恢復(fù)算法(Iterative Stochastic Recovery,ISR)。該算法將修復(fù)成本建模為網(wǎng)絡(luò)中每個(gè)要素的失效概率函數(shù),該成本與節(jié)點(diǎn)所在位置有關(guān),旨在恢復(fù)連接的同時(shí)最小化期望恢復(fù)成本。該算法無需使用故障概率先驗(yàn)知識(shí),解決了在不了解受損節(jié)點(diǎn)確切位置時(shí)的網(wǎng)絡(luò)恢復(fù)問題,但沒有考慮到災(zāi)難損毀后恢復(fù)資源受限的情況。
考慮到發(fā)生故障時(shí)覆蓋網(wǎng)絡(luò)路由與底層網(wǎng)絡(luò)均會(huì)發(fā)出報(bào)警信號(hào),且會(huì)采取各自獨(dú)立的重路由機(jī)制恢復(fù)故障,如果不對(duì)二者路由策略的沖突問題加以協(xié)調(diào)控制,將會(huì)產(chǎn)生恢復(fù)沖突和網(wǎng)絡(luò)資源浪費(fèi)現(xiàn)象。為此,Srinivasan 等[43]提出3 種雙重路由協(xié)調(diào)恢復(fù)機(jī)制:①為覆蓋網(wǎng)絡(luò)的故障恢復(fù)設(shè)置概率門限;②為網(wǎng)絡(luò)故障恢復(fù)設(shè)置計(jì)時(shí)器,等待IP層先進(jìn)行重路由;③為覆蓋網(wǎng)絡(luò)與IP 層檢測(cè)到的故障時(shí)間間隔設(shè)置門限。然而以上3 種方式均會(huì)增加故障恢復(fù)時(shí)間,且需要確定是哪一層發(fā)生了故障。為降低選路代價(jià),武照東[44]提出基于不同自治域的雙重路由協(xié)調(diào)機(jī)制,按照自治域?qū)收线M(jìn)行分類,自治域之內(nèi)的覆蓋網(wǎng)絡(luò)節(jié)點(diǎn)可以采用內(nèi)部網(wǎng)關(guān)協(xié)議(如OSPF 路由協(xié)議、RIP 協(xié)議)選擇路由,而自治域之間需要采用外部網(wǎng)關(guān)協(xié)議(如BGP 協(xié)議)使得自治域互聯(lián)。在OSPF 協(xié)議中的Hello 包中加入自治系統(tǒng)(Autonomous System,AS)號(hào),若接收節(jié)點(diǎn)的AS 號(hào)與源節(jié)點(diǎn)相同,則為自治域內(nèi)故障,可使用IP 網(wǎng)絡(luò)的重路由機(jī)制恢復(fù);若AS 號(hào)不同,則采用覆蓋網(wǎng)絡(luò)的重路由機(jī)制恢復(fù),如此以來可以降低網(wǎng)絡(luò)抖動(dòng)次數(shù),減少恢復(fù)時(shí)的競(jìng)爭(zhēng)沖突,實(shí)現(xiàn)路由的最優(yōu)恢復(fù)。
主動(dòng)式保護(hù)策略降低了受損網(wǎng)絡(luò)恢復(fù)時(shí)間,但需要大量備份資源;被動(dòng)式恢復(fù)策略更加靈活,但所需恢復(fù)時(shí)間較長(zhǎng)。從網(wǎng)絡(luò)全生命周期的視角考慮,將主動(dòng)式連接保護(hù)策略與被動(dòng)式重新尋路策略緊密結(jié)合起來可對(duì)網(wǎng)絡(luò)拓?fù)溥M(jìn)行更全面的保護(hù),極大提高其對(duì)災(zāi)難的抵御能力。
覆蓋網(wǎng)絡(luò)中最常見的主被動(dòng)結(jié)合災(zāi)后恢復(fù)策略均在彈性覆蓋網(wǎng)絡(luò)(Resilience Overlay Network,RON)的基礎(chǔ)上進(jìn)行[45]。作為一種應(yīng)用層路由技術(shù),RON 節(jié)點(diǎn)采用主動(dòng)與被動(dòng)相結(jié)合的方式監(jiān)測(cè)內(nèi)部路由的服務(wù)質(zhì)量,并依據(jù)這些信息選擇下一跳覆蓋節(jié)點(diǎn)。在生成彈性路由層時(shí)需要首先隔離部分鏈路,然后檢查鏈路的連通性并由此生成路由層。理論上來說,當(dāng)生成的彈性層足夠多、隔離的鏈路組合足夠豐富時(shí)便可以恢復(fù)所有類型的多鏈路故障。例如,Andersen 等[46]證實(shí)了RON 的故障診斷和恢復(fù)能力明顯優(yōu)于普通路由,能有效降低數(shù)據(jù)傳輸丟失率和延遲;Iloglu 等[47]對(duì)受損后的道路基礎(chǔ)設(shè)施網(wǎng)絡(luò)進(jìn)行數(shù)學(xué)建模,分別使用基于拉格朗日的求解過程和基于線性松弛的整數(shù)規(guī)劃過程兩種啟發(fā)式算法證明了多重覆蓋的可行性。然而,由于要想獲得好的恢復(fù)效果就必須生成足夠多的路由層,導(dǎo)致開銷巨大,傳統(tǒng)的RON 網(wǎng)絡(luò)難以大規(guī)模部署,可拓展性較差。此外,RON 的路由表只能覆蓋RON 節(jié)點(diǎn),對(duì)于RON 以外的目的地則無能為力。為此,趙珩等[48]提出基于網(wǎng)絡(luò)分塊的主被動(dòng)相結(jié)合的網(wǎng)絡(luò)恢復(fù)策略,利用Kmeans 算法將網(wǎng)絡(luò)分塊,選取集合中心的節(jié)點(diǎn)作為集合中間節(jié)點(diǎn),度最大的節(jié)點(diǎn)作為系統(tǒng)覆蓋節(jié)點(diǎn),如此以來網(wǎng)絡(luò)流量在傳輸中便可以借助源路由及時(shí)跳過故障區(qū)域,通信網(wǎng)絡(luò)的可靠性明顯提升。此外,考慮到災(zāi)后故障區(qū)域極容易發(fā)生網(wǎng)絡(luò)信息擁堵現(xiàn)象,該策略還加入擁塞感知恢復(fù)系統(tǒng),以便實(shí)現(xiàn)跳級(jí)處理,同時(shí)客戶端模塊與覆蓋節(jié)點(diǎn)模塊可保障系統(tǒng)中節(jié)點(diǎn)不會(huì)發(fā)生環(huán)路傳輸情況;Zhang 等[49]提出一種用較少備份資源實(shí)現(xiàn)故障恢復(fù)的方法,根據(jù)鏈路復(fù)用度和帶寬利用率兩個(gè)指標(biāo)確定鏈路對(duì)故障的影響程度,將其分為3 個(gè)具有不同優(yōu)先級(jí)的集合,對(duì)于具有更低延遲和更高傳輸質(zhì)量要求的鏈路,使用雙路徑恢復(fù)策略進(jìn)行恢復(fù),即為其記錄兩條備份路徑;對(duì)于復(fù)用度低或?qū)ρ舆t與數(shù)據(jù)包丟失沒有較高需求的鏈路采用反應(yīng)式恢復(fù)策略,該策略的備份路徑是動(dòng)態(tài)分配的,但不會(huì)在故障發(fā)生之前分配恢復(fù)路徑所需資源,故障發(fā)生后需要額外的信令建立備份路徑;對(duì)于優(yōu)先級(jí)居中的鏈路采用單路徑恢復(fù)策略,只需預(yù)先配置一條備份路徑用于恢復(fù)鏈路故障,從而滿足故障切換所需延遲,如果該策略失敗再觸發(fā)反應(yīng)式恢復(fù)策略。以上方法可以在滿足鏈路故障所需恢復(fù)延遲的同時(shí)降低對(duì)預(yù)備份資源的需求。
主動(dòng)式連接保護(hù)策略通過預(yù)先規(guī)劃為重要鏈路預(yù)留出冗余資源,在遭遇故障時(shí)及時(shí)建立保護(hù)連接,保證網(wǎng)絡(luò)的正常運(yùn)行。這種方法可以在較短時(shí)間內(nèi)恢復(fù)故障,預(yù)留資源不能被其他業(yè)務(wù)共享,會(huì)造成網(wǎng)絡(luò)資源利用率降低,且靈活性相對(duì)較差,若發(fā)生大規(guī)模災(zāi)害導(dǎo)致冗余鏈路同時(shí)損毀,該策略便會(huì)失效。被動(dòng)式重新尋路策略可在故障場(chǎng)景中動(dòng)態(tài)地為業(yè)務(wù)計(jì)算路由分配資源,從而恢復(fù)通信并提高網(wǎng)絡(luò)的生存性。這種方法的關(guān)鍵在于根據(jù)故障發(fā)生時(shí)刻的網(wǎng)絡(luò)現(xiàn)狀以及閑置資源重新規(guī)劃路由,從而實(shí)現(xiàn)對(duì)故障路由的替代,無需預(yù)留冗余資源,大大提高了資源利用率。然而,重新進(jìn)行路由規(guī)劃需要花費(fèi)較多時(shí)間,因此對(duì)故障的恢復(fù)速度不及主動(dòng)式連接保護(hù)策略。為提高網(wǎng)絡(luò)生存性,目前常在使用主動(dòng)式連接保護(hù)策略的同時(shí)通過被動(dòng)式重新尋路策略對(duì)網(wǎng)絡(luò)業(yè)務(wù)進(jìn)行保護(hù)。
與通用的故障處理思路相同,覆蓋網(wǎng)絡(luò)的災(zāi)后恢復(fù)策略同樣是先定位、再恢復(fù),相關(guān)研究主要聚焦于災(zāi)難損毀模型建立和受損網(wǎng)絡(luò)連接恢復(fù)兩方面。當(dāng)前對(duì)于覆蓋網(wǎng)絡(luò)在災(zāi)后恢復(fù)方面的應(yīng)用研究仍處于探索階段,雖然恢復(fù)個(gè)別節(jié)點(diǎn)或鏈路故障的方案較為成熟,但面對(duì)地震、颶風(fēng)等自然災(zāi)害導(dǎo)致的大規(guī)模網(wǎng)絡(luò)癱瘓,恢復(fù)方案仍存在局限性。在未來研究中應(yīng)充分考慮災(zāi)難發(fā)生的隨機(jī)性和不確定性,以降低冗余資源需求、縮短故障恢復(fù)時(shí)間和提高恢復(fù)率為目標(biāo)進(jìn)一步優(yōu)化覆蓋網(wǎng)絡(luò)的災(zāi)后恢復(fù)策略。