鮑寧海,袁園,劉自謙,匡明
?
基于鏈路生命期的光數(shù)據(jù)中心網(wǎng)絡(luò)業(yè)務(wù)恢復(fù)方案
鮑寧海,袁園,劉自謙,匡明
(重慶郵電大學(xué)通信與信息工程學(xué)院,重慶 400065)
針對(duì)大規(guī)模災(zāi)難事件對(duì)光數(shù)據(jù)中心網(wǎng)絡(luò)造成的關(guān)聯(lián)性和級(jí)聯(lián)性故障,提出一種基于鏈路生命期的災(zāi)后業(yè)務(wù)恢復(fù)方案。該方案利用全局業(yè)務(wù)帶寬退讓和局部鏈路的有限生命期,緩解災(zāi)后網(wǎng)絡(luò)的帶寬資源危機(jī),根據(jù)災(zāi)難損毀業(yè)務(wù)的帶寬需求和持續(xù)時(shí)間需求,確定業(yè)務(wù)恢復(fù)優(yōu)先級(jí),采用任播與多播相結(jié)合的路由策略提高業(yè)務(wù)的連通性和帶寬資源利用率。仿真結(jié)果表明,所提方案能夠最大限度地降低業(yè)務(wù)中斷率,并有效地延長(zhǎng)災(zāi)難損毀業(yè)務(wù)的持續(xù)時(shí)間,減少數(shù)據(jù)流量損失。
光數(shù)據(jù)中心網(wǎng)絡(luò);鏈路生命期;網(wǎng)絡(luò)生存性;業(yè)務(wù)恢復(fù);業(yè)務(wù)持續(xù)時(shí)間
數(shù)據(jù)中心(DC, data center)是一種具有大規(guī)模并行計(jì)算能力和海量數(shù)據(jù)存儲(chǔ)能力的超級(jí)資源中心。將多個(gè)地理上分散的數(shù)據(jù)中心通過(guò)大容量、低時(shí)延、穩(wěn)定可靠的波分復(fù)用(WDM, wavelength division multiplexing)光網(wǎng)絡(luò)組織起來(lái),構(gòu)建成高速互聯(lián)的光數(shù)據(jù)中心網(wǎng)絡(luò),能夠更加高效靈活地為用戶提供各類基于內(nèi)容的云業(yè)務(wù)[1-4]。在光數(shù)據(jù)中心網(wǎng)絡(luò)中,服務(wù)的內(nèi)容可以在多個(gè)位于不同地理位置的數(shù)據(jù)中心保存副本,持有副本的任何一個(gè)或多個(gè)數(shù)據(jù)中心都可以同時(shí)為用戶提供相同的服務(wù),這使基于任播和多播的內(nèi)容交付技術(shù)在光數(shù)據(jù)中心網(wǎng)絡(luò)中成為主流[5]。
近年來(lái),大規(guī)模災(zāi)難事件對(duì)廣泛分布的電信基礎(chǔ)設(shè)施造成了嚴(yán)重的威脅和破壞。例如,2008年發(fā)生的汶川地震、2011年發(fā)生的日本東部地震和海嘯以及2012年分別登陸美國(guó)南部的颶風(fēng)艾薩克和東北部的颶風(fēng)桑迪等都對(duì)當(dāng)?shù)氐耐ㄐ啪W(wǎng)及電力設(shè)施造成了巨大的破壞和長(zhǎng)時(shí)間的影響[6-8]。因此,應(yīng)對(duì)大規(guī)模災(zāi)難損毀的網(wǎng)絡(luò)生存性將成為影響光數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)展的重要問(wèn)題[9-10]。
根據(jù)光數(shù)據(jù)中心網(wǎng)絡(luò)業(yè)務(wù)的特點(diǎn),本文研究并提出一種基于鏈路生命期的光數(shù)據(jù)中心網(wǎng)絡(luò)業(yè)務(wù)恢復(fù)方案,以解決大規(guī)模災(zāi)難情況下,數(shù)據(jù)中心業(yè)務(wù)大量中斷、業(yè)務(wù)持續(xù)時(shí)間下降以及數(shù)據(jù)交付率低的問(wèn)題。大規(guī)模災(zāi)難引發(fā)的區(qū)域性網(wǎng)絡(luò)組件損毀(關(guān)聯(lián)性故障)和部分鏈路生命期下降(級(jí)聯(lián)性故障)將造成嚴(yán)重的網(wǎng)絡(luò)帶寬資源危機(jī)。針對(duì)這一現(xiàn)象,該方案利用全局業(yè)務(wù)帶寬退讓和局部鏈路的有限生命期,為恢復(fù)操作提供必要的帶寬資源保障;根據(jù)災(zāi)損業(yè)務(wù)的帶寬需求和持續(xù)時(shí)間需求確定業(yè)務(wù)恢復(fù)順序,為恢復(fù)操作提供合理的資源調(diào)度依據(jù);采用任播與多播相結(jié)合的路由策略,提高恢復(fù)操作的靈活性和帶寬資源的利用率。研究結(jié)果表明,本文提出的方案能夠顯著地降低災(zāi)后網(wǎng)絡(luò)的業(yè)務(wù)中斷率,并有效地延長(zhǎng)災(zāi)損業(yè)務(wù)的持續(xù)時(shí)間,減少數(shù)據(jù)交付損失率。
目前,光數(shù)據(jù)中心網(wǎng)絡(luò)的生存性問(wèn)題已經(jīng)受到各國(guó)研究人員的廣泛關(guān)注,特別是在大規(guī)模災(zāi)難抗毀問(wèn)題上已取得了一些研究成果。
針對(duì)大規(guī)模災(zāi)難可能造成的數(shù)據(jù)中心損毀和業(yè)務(wù)內(nèi)容丟失的問(wèn)題,文獻(xiàn)[11]提出一種災(zāi)難風(fēng)險(xiǎn)敏感的數(shù)據(jù)中心選址和動(dòng)態(tài)內(nèi)容管理方案,以降低數(shù)據(jù)中心在災(zāi)難事件中的損毀概率,并最大限度地提高業(yè)務(wù)內(nèi)容的可用性與可達(dá)性;文獻(xiàn)[12]提出一種快速協(xié)同數(shù)據(jù)備份算法,使備份數(shù)據(jù)吞吐量最大化,從而有效地縮短備份時(shí)間窗口。
在大規(guī)模災(zāi)難預(yù)警模型下,文獻(xiàn)[13]提出一種針對(duì)高危數(shù)據(jù)中心的快速數(shù)據(jù)撤離算法,以實(shí)現(xiàn)最短時(shí)間內(nèi)最大量的數(shù)據(jù)撤離;文獻(xiàn)[14]研究基于最小存儲(chǔ)代價(jià)和傳輸代價(jià)的數(shù)據(jù)緊急備份方案,在有限預(yù)警時(shí)間約束下,通過(guò)最優(yōu)站點(diǎn)選擇和站點(diǎn)間多通路傳輸?shù)姆绞剑瑢?shí)現(xiàn)數(shù)據(jù)的最小代價(jià)緊急備份。
文獻(xiàn)[15]研究一種數(shù)據(jù)中心網(wǎng)絡(luò)的內(nèi)容與路由保護(hù)方案,采用冗余副本安置和任播路由策略,實(shí)現(xiàn)業(yè)務(wù)通路和終端(內(nèi)容)節(jié)點(diǎn)的抗毀。文獻(xiàn)[16]提出一種災(zāi)難風(fēng)險(xiǎn)敏感的數(shù)據(jù)中心業(yè)務(wù)配置方案,采用多播路由策略對(duì)內(nèi)容站點(diǎn)和業(yè)務(wù)帶寬進(jìn)行分散配置,以降低數(shù)據(jù)中心業(yè)務(wù)的災(zāi)難風(fēng)險(xiǎn)并提高帶寬資源利用率。文獻(xiàn)[17]針對(duì)彈性光數(shù)據(jù)中心網(wǎng)絡(luò)的災(zāi)難模型,提出一種基于內(nèi)容連通性的帶寬自適應(yīng)業(yè)務(wù)保護(hù)算法,采用共享風(fēng)險(xiǎn)鏈路組分離的保護(hù)路由策略保障業(yè)務(wù)內(nèi)容的連通性,并通過(guò)帶寬頻譜的自適應(yīng)配置,提高頻譜資源利用率。
大規(guī)模災(zāi)難事件(如地震、海嘯、颶風(fēng)等)可能造成涉災(zāi)地區(qū)大面積的網(wǎng)絡(luò)組件損毀,而一些未遭受直接損毀的網(wǎng)絡(luò)組件也可能因電網(wǎng)中斷后,備用的電池、燃油耗盡而停止工作,從而使大量的數(shù)據(jù)中心業(yè)務(wù)中斷或服務(wù)時(shí)間下降。為了在災(zāi)后及時(shí)有效地恢復(fù)受損業(yè)務(wù),本文研究并提出一種基于鏈路生命期的業(yè)務(wù)恢復(fù)方案。
本節(jié)針對(duì)所提出的基于鏈路生命期的恢復(fù)(LR, link-lifetime-based restoration)方案和另外2種對(duì)比恢復(fù)方案進(jìn)行示例分析。對(duì)比方案分別為盡力而為的恢復(fù)(BR, best-effort restoration)方案和基于完全可靠性的恢復(fù)(FR, full-reliability-based restoration)方案,前者在恢復(fù)過(guò)程中不區(qū)分鏈路生命期是否有限,后者在業(yè)務(wù)恢復(fù)過(guò)程中不使用生命期有限的鏈路。圖1給出業(yè)務(wù)的初始配置和3種恢復(fù)方案配置示例,其中帶箭頭的實(shí)線表示業(yè)務(wù)的原始配置,帶箭頭的虛線表示恢復(fù)操作后發(fā)生變化的業(yè)務(wù)配置。
圖1 恢復(fù)方案示例
表1 原始業(yè)務(wù)配置
表2 LR相關(guān)業(yè)務(wù)配置
表3 BR相關(guān)業(yè)務(wù)配置
FR方案路由如圖1(d)所示。首先將所有受影響業(yè)務(wù)的帶寬全部釋放,并將圖中生命期下降的鏈路刪除,然后為每一個(gè)受影響的業(yè)務(wù)尋找一條資源代價(jià)最小的業(yè)務(wù)通路,并分配帶寬資源,如果該通路不滿足業(yè)務(wù)帶寬需求,則繼續(xù)尋找下一條通路以補(bǔ)充帶寬需求。FR恢復(fù)操作完成后配置發(fā)生變化的業(yè)務(wù)如表4所示。
表4 FR相關(guān)業(yè)務(wù)配置
通過(guò)對(duì)表1~表4的數(shù)據(jù)分析可以發(fā)現(xiàn),對(duì)于LR、BR和FR這3種恢復(fù)方案,其業(yè)務(wù)中斷率分別為0、0和20%,業(yè)務(wù)持續(xù)時(shí)間損失率分別為0、32%和32%,業(yè)務(wù)流量損失率分別為5%、31%和41%。其中,流量定義為帶寬與時(shí)間的乘積。顯然,LR通過(guò)合理利用具有有限生命期的鏈路資源,可以有效緩解災(zāi)后網(wǎng)絡(luò)資源緊張的情況,并在一定程度上改善受影響業(yè)務(wù)的服務(wù)質(zhì)量。
表5 符號(hào)定義
LR方案假設(shè)同一業(yè)務(wù)的內(nèi)容和副本可以安置于多個(gè)數(shù)據(jù)中心站點(diǎn),業(yè)務(wù)請(qǐng)求節(jié)點(diǎn)可以向網(wǎng)絡(luò)中任意一個(gè)或多個(gè)持有相關(guān)內(nèi)容或副本的數(shù)據(jù)中心發(fā)起業(yè)務(wù)連接請(qǐng)求,因此,LR將根據(jù)業(yè)務(wù)請(qǐng)求節(jié)點(diǎn)與內(nèi)容提供節(jié)點(diǎn)間的可連通性與路由資源情況,采用任播與多播相結(jié)合的路由策略,保證內(nèi)容的連通性和帶寬的可擴(kuò)展性。同時(shí),為了最大限度地滿足業(yè)務(wù)帶寬需求,根據(jù)網(wǎng)絡(luò)資源情況,同一業(yè)務(wù)請(qǐng)求節(jié)點(diǎn)與同一內(nèi)容提供節(jié)點(diǎn)間的路由可采用單通路或多通路配置方式。
圖2 網(wǎng)絡(luò)拓?fù)?/p>
采用靜態(tài)業(yè)務(wù)模型,隨機(jī)產(chǎn)生200個(gè)業(yè)務(wù)請(qǐng)求,均勻分布于所有非數(shù)據(jù)中心節(jié)點(diǎn),每個(gè)業(yè)務(wù)的帶寬在4~12個(gè)波長(zhǎng)之間隨機(jī)產(chǎn)生,每個(gè)業(yè)務(wù)的服務(wù)時(shí)間在1~12 h之間隨機(jī)產(chǎn)生,通過(guò)此方式產(chǎn)生30套業(yè)務(wù)。此外,再將該30套業(yè)務(wù)的服務(wù)時(shí)間范圍擴(kuò)展為1~24 h、1~36 h和1~48 h,由此共獲得120套業(yè)務(wù)。
圖3 LR方案業(yè)務(wù)中斷率
圖4 LR方案業(yè)務(wù)持續(xù)時(shí)間損失率
圖5 LR方案業(yè)務(wù)流量損失率
3種方案的業(yè)務(wù)中繼率如圖6所示。由圖6可知,與BR和FR相比,LR在性能上具有明顯的優(yōu)勢(shì),這是因?yàn)長(zhǎng)R臨時(shí)將未受影響業(yè)務(wù)的帶寬釋放了50%,極大緩解了災(zāi)后網(wǎng)絡(luò)帶寬資源緊張的問(wèn)題,保證了災(zāi)后所有業(yè)務(wù)的連通性。由于FR方案禁止使用生命期有限的鏈路,使災(zāi)后網(wǎng)絡(luò)的可用帶寬資源更加稀少,導(dǎo)致高達(dá)8.4%,而BR方案由于對(duì)鏈路的生命期不敏感,恢復(fù)過(guò)程中的可用帶寬資源較多,使較低,約為2%。此外,圖6中的數(shù)據(jù)顯示,3種恢復(fù)方案的性能主要取決于網(wǎng)絡(luò)中的可用帶寬資源,這是因?yàn)榉从车氖腔謴?fù)操作完成瞬間的業(yè)務(wù)連通性,而與業(yè)務(wù)的需求時(shí)間長(zhǎng)短沒(méi)有關(guān)系。
圖6 3種方案的業(yè)務(wù)中斷率
3種方案的業(yè)務(wù)持續(xù)時(shí)間損失率如圖7所示。其中,LR方案展現(xiàn)出了最佳的性能。隨著業(yè)務(wù)平均需求時(shí)間的增大,LR與BR的逐漸上升,且上升趨勢(shì)逐漸趨緩,與此同時(shí),LR相對(duì)于BR的性能優(yōu)勢(shì)卻在逐漸擴(kuò)大。這說(shuō)明LR能夠針對(duì)不同業(yè)務(wù)的服務(wù)時(shí)間需求,合理安排鏈路資源,充分利用鏈路的有限生命期。由于FR放棄了對(duì)有限生命期鏈路的利用,導(dǎo)致大量業(yè)務(wù)因缺乏帶寬資源而中斷,其較高的指標(biāo)直接取決于,而與業(yè)務(wù)需求時(shí)間無(wú)關(guān)。
圖7 3種方案的業(yè)務(wù)持續(xù)時(shí)間損失率
由于采用任播與多播相結(jié)合的路由策略,恢復(fù)后的業(yè)務(wù)可能會(huì)同時(shí)擁有多條連接不同數(shù)據(jù)中心的通路,而這些通路的帶寬和生命期可能各不相同,因此本文采用業(yè)務(wù)流量損失率評(píng)估3種恢復(fù)方案的資源利用率性能,如圖8所示。由圖8可知,LR的性能最優(yōu),且隨著業(yè)務(wù)平均需求時(shí)間的增大,LR與BR的指標(biāo)變化趨勢(shì)與圖7中指標(biāo)變化趨勢(shì)一致,即業(yè)務(wù)平均需求時(shí)間越大,LR的性能優(yōu)勢(shì)越顯著。而FR的性能依舊取決于其指標(biāo),且與業(yè)務(wù)需求時(shí)間無(wú)關(guān)。
圖8 3種方案的業(yè)務(wù)流量損失率
分布廣泛的光數(shù)據(jù)中心網(wǎng)絡(luò)正面臨著大規(guī)模災(zāi)難的嚴(yán)重威脅,災(zāi)難造成的關(guān)聯(lián)性故障和級(jí)聯(lián)性故障可能會(huì)使大量基于數(shù)據(jù)中心的云業(yè)務(wù)中斷或數(shù)據(jù)丟失,網(wǎng)絡(luò)生存性問(wèn)題將成為影響光數(shù)據(jù)中心網(wǎng)絡(luò)未來(lái)發(fā)展的一個(gè)重要問(wèn)題。為了有效解決災(zāi)難帶來(lái)的業(yè)務(wù)中斷和服務(wù)時(shí)間下降的問(wèn)題,本文提出一種基于鏈路生命期的業(yè)務(wù)恢復(fù)方案。該方案針對(duì)災(zāi)后網(wǎng)絡(luò)中的帶寬資源危機(jī),利用全局業(yè)務(wù)帶寬臨時(shí)退讓和部分鏈路的有限生命期增加網(wǎng)絡(luò)中的可用帶寬資源;根據(jù)災(zāi)損業(yè)務(wù)的帶寬和持續(xù)時(shí)間需求,調(diào)度資源配置優(yōu)先級(jí);采用任播與多播相結(jié)合的路由策略,優(yōu)化帶寬資源利用率。仿真結(jié)果顯示,本文所提方案能夠最大限度地降低業(yè)務(wù)中斷率,并顯著減少業(yè)務(wù)的持續(xù)時(shí)間損失率和流量損失率。
[1] BILAL K, MALIK S U R, KHAN S U, et al. Trends and challenges in cloud datacenters[J]. IEEE Cloud Computing, 2014, 1(1): 10-20.
[2] ZHAO X, VUSIRIKALA V, KOLEY B, et al. The prospect of inter-data-center optical networks[J]. IEEE Communications Magazine, 2013, 51(9): 32-38.
[3] KACHRIS C, KANONAKIS K, TOMKOS I. Optical interconnection networks in data centers: recent trends and future challenges[J]. IEEE Communications Magazine, 2013, 51(9): 39-45.
[4] 羅軍舟, 金嘉暉, 宋愛波, 等. 云計(jì)算: 體系架構(gòu)與關(guān)鍵技術(shù)[J]. 通信學(xué)報(bào), 2011, 32(7): 3-21.
LUO J Z, JIN J H, SONG A B, et al. Cloud computing: architecture and key technologies[J]. Journal on Communications, 2011, 32(7): 3-21.
[5] MUHAMMAD A, SKORIN-KAPOV N, FURDEK M. Manycast, anycast, and replica placement in optical inter-datacenter networks[J]. Journal of Optical Communications & Networking, 2017, 9(12): 1161-1171.
[6] RAN Y. Considerations and suggestions on improvement of communication network disaster countermeasures after the Wenchuan earthquake[J]. IEEE Communications Magazine, 2011, 49(1): 44-47.
[7] KOBAYASHI M. Experience of infrastructure damage caused by the Great East Japan Earthquake and countermeasures against future disasters[J]. IEEE Communications Magazine, 2014, 52(3): 23-29.
[8] KWASINSKI A. Effects of hurricanes Isaac and Sandy on data and communications power infrastructure[C]//Telecommunications Energy Conference ‘Smart Power and Efficiency’ (INTELEC. 2013: 1-6.
[9] HABIB M F, TORNATORE M, DIKBIYIK F, et al. Disaster survivability in optical communication networks[J]. Elsevier, Computer Communications, 2013, 36(6): 630-644.
[10] MUKHERJEE B, HABIB M F, DIKBIYIK F. Network adaptability from disaster disruptions and cascading failures[J]. IEEE Communications Magazine, 2014, 52(5): 230-238.
[11] FERDOUSI S, DIKBIYIK F, HABIB M F, et al. Disaster-aware datacenter placement and dynamic content management in cloud networks[J]. Journal of Optical Communications & Networking, 2015, 7(7): 681-694.
[12] YAO J, LU P, GONG L, et al. On fast and coordinated data backup in geo-distributed optical inter-datacenter networks[J]. Journal of Lightwave Technology, 2015, 33(14): 3005-3015.
[13] FERDOUSI S, TORNATORE M, HABIB M F, et al. Rapid data evacuation for large-scale disasters in optical cloud networks[J]. Journal of Optical Communications and Networking, 2015, 7(12): 163-172.
[14] MA L, SU W, WU B, et al. ε-time early warning data backup in disaster-aware optical inter-connected data center networks[J]. Journal of Optical Communications& Networking, 2017, 9(6):536-545.
[15] HABIB M F, TORNATORE M, LEENHEER M D, et al. Design of disaster-resilient optical datacenter networks[J]. Journal of Lightwave Technology, 2012, 30(16):2563-2573.
[16] SAVAS S S, DIKBIYIK F, HABIB M F, et al. Disaster-aware service provisioning with manycasting in cloud networks[J]. Photonic Network Communications, 2014, 28(2):123-134.
[17] MA C, ZHANG J, ZHAO Y L, et al. Bandwidth-adaptability protection with content connectivity against disaster in elastic optical datacenter networks[J]. Photonic Network Communications, 2015, 30(2):309-320.
[18] TORNATORE M, BARUFFALDI A, ZHU H, et al. Holding-time-aware dynamic traffic grooming[J]. IEEE Journal on Selected Areas in Communications, 2008, 26(3):28-35.
[19] XU Z, HUANG J, ZHOU Z, et al. A novel grooming algorithm with the adaptive weight and load balancing for dynamic holding-time- aware traffic in optical networks[J]. Optical Fiber Technology, 2013, 19(5): 392-399.
Link-lifetime-based service restoration in optical datacenter network
BAO Ninghai, YUAN Yuan, LIU Ziqian, KUANG Ming
School of Communication and Information Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China
Aiming at the correlated and cascading failures caused by large-scale disasters, a post-disaster service restoration scheme was proposed. This scheme utilized global service bandwidth concession and the limited lifetime of local links to mitigate resource crunch in the post-disaster network. According to their bandwidth and holding time requirements, the impacted services for restoration was prioritized firstly, then jointly employed anycast and manycast routing strategies to improve the service connectivity and bandwidth resource utilization. Simulation results show that the proposed scheme can significantly reduce the service loss ratio, effectively prolong the holding time of the impacted services and decrease the data flow loss ratio in the post-disaster network.
optical datacenter network, link lifetime, network survivability, service restoration, service holding time
TN929.11
A
10.11959/j.issn.1000?436x.2018146
鮑寧海(1973?),男,浙江寧波人,博士,重慶郵電大學(xué)副教授,主要研究方向?yàn)榫W(wǎng)絡(luò)生存性、網(wǎng)絡(luò)虛擬、網(wǎng)絡(luò)節(jié)能等。
袁園(1994?),男,江蘇揚(yáng)州人,重慶郵電大學(xué)碩士生,主要研究方向?yàn)楣鈹?shù)據(jù)中心網(wǎng)絡(luò)生存性。
劉自謙(1994?),男,山東菏澤人,重慶郵電大學(xué)碩士生,主要研究方向?yàn)楣鈹?shù)據(jù)中心網(wǎng)絡(luò)生存性。
匡明(1991?),男,河南新縣人,重慶郵電大學(xué)碩士生,主要研究方向?yàn)樘摂M網(wǎng)絡(luò)生存性。
2018?05?07;
2018?07?02
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61671092);重慶市基礎(chǔ)科學(xué)與前沿技術(shù)研究基金資助項(xiàng)目(No.cstc2016jcyjA0083);重慶市高校創(chuàng)新團(tuán)隊(duì)基金資助項(xiàng)目(No.KJTD201312)
The National Natural Science Foundation of China (No.61671092), The Fundamental Science and Frontier Technology Research Project of Chongqing (No.cstc2016jcyjA0083), The College Innovation Team Project of Chongqing (No.KJTD201312)