郭秉禮 黃善國
摘要:對構建下一代靈活數(shù)據(jù)中心互連網(wǎng)絡的問題,提出了結合不同維度光交換技術的光電混合互連網(wǎng)絡搭建思路,使未來數(shù)據(jù)中心網(wǎng)絡具備動態(tài)拓撲重構、靈活帶寬調(diào)整等特性,可以有效應對數(shù)據(jù)中心發(fā)展中由于硬件重構、業(yè)務多樣等趨勢導致的業(yè)務突發(fā)性強、通信模式差異大等問題。同時,在光電混合互連網(wǎng)絡的構建與實用化過程中,仍需在智能控制體系架構、高速突發(fā)接收、低延時與低抖動控制等方面取得突破。
關鍵詞:數(shù)據(jù)通信;數(shù)據(jù)中心;光交換;拓撲重構
Abstract: In this paper, a hybrid optical and electrical interconnection network with multi-dimension of optical switching technologies is proposed for the construction of next generation flexible data center interconnection network. The future data center network (DCN) has the characteristics of dynamic topology reconfiguration and flexible bandwidth adjustment which can effectively deal with the problems such as traffic burstness and various communication pattern due to hardware disaggregation and service diversification. At the same time, there are still lots of technique bottlenecks that need to be broken, including intelligent network control system, high speed optical burst receiver and low latency and low jitter network control system in the approach of building the optical/electrical hybrid interconnection network.
Key words: data communication; data center; optical switching; topology reconfiguration
視頻業(yè)務、在線游戲等個人業(yè)務的快速興起與以云計算/大數(shù)據(jù)為代表的企業(yè)互聯(lián)網(wǎng)業(yè)務的強勢推廣,對目前數(shù)據(jù)服務過程中的計算、交互與存儲能力提出了前所未有的挑戰(zhàn)。同時,隨著人工智能和機器學習等計算密集型服務的繁榮,也極大地提高了對數(shù)據(jù)計算、存儲執(zhí)行效率與資源利用率的要求。在傳統(tǒng)技術手段中,往往通過增加數(shù)據(jù)中心(DC)空間來容納更多的機架和服務器,進而達到增加數(shù)據(jù)處理能力的目的。然而,隨著業(yè)務需求的增加,線性擴容系統(tǒng)的方式使數(shù)據(jù)中心正在逼近能耗極限,目前需要尋找新的技術手段來最大限度地提高計算能力和效率。在節(jié)點算力與使用效率的提升方面,信息技術(IT)領域的研究人員提出諸如硬件解耦、與高性能計算體系融合等多方面的解決方案,在本文中不再贅述,后續(xù)部分著重討論數(shù)據(jù)中心互連網(wǎng)絡(DCN)方面的進展與目前面臨的挑戰(zhàn)。
在DC帶寬密度提升方面,在高速率、低功耗需求的驅(qū)動下,相同容積的光模塊需要具備更大的數(shù)據(jù)傳輸量,多通道、光子集成與混合集成技術可以將光組件做得很緊湊,順應光模塊小型化趨勢,方便使用成熟自動化集成電路(IC)封裝工藝,有利于量產(chǎn),是未來數(shù)據(jù)中心用光模塊提升帶寬密度的行之有效的技術手段。
另一方面,連接無數(shù)計算節(jié)點的互連網(wǎng)絡承擔了海量數(shù)據(jù)的傳輸與交換功能,不再只是一個流量轉發(fā)的、僅需追求穩(wěn)定的平臺,它逐漸成為一個重要的生產(chǎn)環(huán)節(jié)。上述業(yè)務的演進趨勢對數(shù)據(jù)通信中的互連網(wǎng)絡,在時延和吞吐量方面提出了更高的需求,使數(shù)據(jù)中心網(wǎng)絡業(yè)務承載能力的提升逐漸成為一件亟待解決的事情。本文中,我們通過分析目前DCN在應對突發(fā)業(yè)務與帶寬靈活調(diào)度等方面面臨的一些挑戰(zhàn),進一步探討光交換技術在幫助DCN應對上述挑戰(zhàn)中可能起到的積極作用,最后總結了光電混合DCN可行性及其仍需解決的一些技術難題。
1 數(shù)據(jù)中心互連網(wǎng)絡面臨的主要挑戰(zhàn)
目前DC通過電交換設備形成各種形態(tài)的互連拓撲,把大量通用服務器互連。隨著DC規(guī)模的急速增加以及服務器性能的提升,近年來的接入路由器和核心路由器端口速率需求將會隨之達到40 Gbit/s和400 Gbit/s。然而如圖1所示,電交換機的能效隨著交換容量的增大而無法繼續(xù)提升[1],這使得數(shù)據(jù)中心在能耗、帶寬提供這兩方面遇到瓶頸。DC亟須解決能耗問題帶來的擴容瓶頸,才能以合理的功耗繼續(xù)提升網(wǎng)絡帶寬。有研究表明DC中99%的鏈路利用率不足10%[2],同時歐盟FP7框架下開展的面向光通信的數(shù)據(jù)速率和功率感知的自適應收發(fā)器(ADDAPT)項目[3]的研究顯示,某些DC中鏈路無效數(shù)據(jù)傳輸時間高達90%,IBM研究人員通過實驗測試指出光模塊具有快速啟動與突發(fā)接收功能時能耗可節(jié)省85%。因此,如何提高DC系統(tǒng)能效,需要突破現(xiàn)有框架,從DC業(yè)務特點出發(fā),探索新的思路。
DC承載業(yè)務類型多樣,流量分布不均且具有很強的突發(fā)性[4],現(xiàn)有DCN流量工程機制復雜,無法快速應對流量的波動。一些熱點機架承載著數(shù)據(jù)中心中絕大部分的流量[4],造成熱點機架間的路徑出現(xiàn)擁塞,端到端數(shù)據(jù)延時加大,而其他位置的網(wǎng)絡資源卻處于閑置狀態(tài)?;ヂ?lián)網(wǎng)協(xié)議(IP)層帶寬調(diào)度技術又過于復雜,無法滿足DC業(yè)務時效性和網(wǎng)絡運維靈活性的需求。上述情況造成了互連帶寬的浪費,限制了整個數(shù)據(jù)中心的吞吐量與業(yè)務承載能力。
近年來以Facebook等互聯(lián)網(wǎng)巨頭為代表的數(shù)據(jù)中心用戶希望通過硬件解耦 [5],即在硬件層將同類資源聚合為資源池,如中央處理器(CPU)池、內(nèi)存(Memory)池、存儲(Storage)池,然后根據(jù)應用的需求分配具備相應特性的資源組合,來提高DC中資源的利用率和靈活性,同時降低資本性支出(CAPEX)和運營成本(OPEX)。資源池間互連網(wǎng)絡的帶寬提供能力(大瞬時帶寬、低延時、高動態(tài))是決定資源解耦范圍的關鍵因素之一。因此,全局資源調(diào)度與高效網(wǎng)絡重構能力也是硬件解耦等數(shù)據(jù)中心技術演進趨勢對DCN提出的新要求。
為了應對上述挑戰(zhàn),DC互連網(wǎng)絡亟須在能效提升和帶寬資源靈活調(diào)度方面尋找新的解決思路。由于光交換技術具有速率透明、低功耗、可重配置等優(yōu)勢,基于光交換的互連網(wǎng)絡被認為是一種解決DC面臨的問題的有效方法,以滿足DC日益增長的高帶寬、低延遲和高能效等方面的需求。
2 光交換相關技術的發(fā)展現(xiàn)狀與挑戰(zhàn)
2.1 光交換矩陣技術發(fā)展現(xiàn)狀
光交換矩陣可以實現(xiàn)光束在時間、空間、波長等維度上的切換,是光通信、光計算機、光信息處理等光信息系統(tǒng)的關鍵器件。通常來說,光交換矩陣的性能由開關單元、切換機制和互連結構等多方面因素決定。表1中,我們對目前具備商用可能性的光交換矩陣的相關性能進行了分析比較。其中,基于微機電系統(tǒng)(MEMS)和波束控制(Beam-Steering)的開關矩陣已經(jīng)達到商用成熟階段,規(guī)模已經(jīng)可以達到數(shù)百端口;納秒級切換時間的光交換矩陣規(guī)模仍較小,依賴于模塊多級級聯(lián),因此插損偏高。在近年來的光交換矩陣的研究中,研究人員在驅(qū)動集成、片上放大、偏振不敏感方面做了大量的研究,結果表明光交換矩陣整體向著高可靠、低損耗、小功耗、小體積以及大規(guī)模方向發(fā)展。同時,近幾年光交換矩陣在電信領域(光傳送網(wǎng)(OTN)建設中需要構建大量的可重構型光分插復用器(ROADM)、光交叉連接(OXC)節(jié)點,光交換矩陣是搭建這些節(jié)點的基礎模塊)、網(wǎng)絡測試領域有大規(guī)模應用的趨勢。
2.2 光收發(fā)節(jié)點技術
在傳統(tǒng)的點對點光纖通信或光電路交換(OCS)系統(tǒng)中,光接收機一般接收另外一個固定節(jié)點發(fā)送的連續(xù)模式光信號,并從中檢測出電信號。使用快速光交換的收發(fā)系統(tǒng),是因為光信號的非連續(xù)性:除了滿足傳統(tǒng)光接收機所要求的高靈敏度外,還要有較大的動態(tài)范圍和快速的響應能力,即突發(fā)模式接收技術。光突發(fā)模式接收機主要由信號整形、突發(fā)同步和數(shù)據(jù)恢復3大部分組成。表2中,我們對傳統(tǒng)接收機與突發(fā)模式接收機相關性能要求進行了比較。其中,對于突發(fā)模式信號,兩相鄰突發(fā)分組信號間有相位突變。在這種情況下,要避免使用傳統(tǒng)的交流耦合方式。因光接收機在交流耦合之后,要對信號進一步放大,再進行整形和判別輸出;而突發(fā)信號的不均衡,其直流成分(均值)發(fā)生漂移,要影響到后面放大器的直流工作點,使其不能穩(wěn)定工作。此外,判決電路對幅度不均衡信號進行判決時,要么會出現(xiàn)小信號的丟失,要么會出現(xiàn)大信號的脈寬失真。上述原因都是研制高速突發(fā)接收模塊的需要解決的技術難題。
目前,商用的突發(fā)模式光接收機主要應用在各種各樣的無源光網(wǎng)絡(PON)中,支持1.25 Gbit/s以及10 Gbit/s的速率。電子設備工程(EEE)下一代以太網(wǎng)無源光網(wǎng)絡(NG-EPON)正致力于25 Gbit/s單波長和50 Gbit/s雙波長的解決方案。這與最近數(shù)據(jù)中心傳輸速率從10 Gbit/s迅速轉變?yōu)?5 Gbit/s的趨勢是一致的[6]。近來,針對高速光突發(fā)模式接收機的研究也取得了一些進展。IBM在國際晶體管電路討論會(ISSCC)2015上報道了突發(fā)模式時鐘和數(shù)據(jù)恢復(BM-CDR)以25 Gbit/s的速率在18.5 ns鎖定時間下的成功演示實驗[7]。IBM和瑞士洛桑聯(lián)邦理工學院(EPFL)在國際固態(tài)電路(ISSCC) 2018上報道了使突發(fā)模式光接收機(BM-Optical RX)從10 Gbit/s提高到56 Gbit/s的實驗,該實驗演示56 Gbit/s BM-Optical RX通過鏈接協(xié)議完成384UI(6.8 ns)中的喚醒和CDR鎖定[8]。在2018年光纖通信展覽會及研討會(OFC)上,IBM報道了一種由850 nm光電二極管(PD)陣列組成的、以低成本垂直腔面發(fā)射激光器(VCSEL)為基礎的、14 nm 互補金屬氧化物(CMOS)的4×40 Gbit/s 2 pJ/bit光接收器(RX)。該RX可以實現(xiàn)低至8 ns的Power-on和CDR-Lock 時間[9]。綜上所述,高速光突發(fā)模式接收機的相關技術研究也得到了顯著進步,有望支撐未來100 G以內(nèi)光突發(fā)接收模塊的相關研制。
2.3 全光交換網(wǎng)絡相關技術
依賴于不同維度的光開關器件的研究進展,基于光交換的DCN近年來得到廣泛關注,包括IBM、Google在內(nèi)的大量企業(yè)與研究機構在數(shù)據(jù)中心內(nèi)也進行了大量的嘗試與實驗。表3和表4為目前業(yè)界主要的主要光互連方案在技術特性、成熟度等方面的比較。其中,開放式可插拔規(guī)范(OPS)、光突發(fā)交換技術(OBS)需要復雜的沖突避免機制,需要在光緩存器件、光邏輯器件等方面進行技術突破;光電路交換(OCS)相關技術的成熟度較高,光時隙交換次之,光時隙交換系統(tǒng)依賴于快速光交換器件;收發(fā)模塊方面,除OCS外,其他交換機制的實現(xiàn)均依賴于突發(fā)模式收發(fā)技術。綜上所述,光時分復用(OTDM)系統(tǒng)在數(shù)據(jù)延時、控制時效性等方面有一定的優(yōu)勢,混合波分復用(WDM)的OTDM系統(tǒng)可以作為一種實現(xiàn)數(shù)據(jù)中心內(nèi)動態(tài)光互連拓撲重構的可行方案;而OCS機制適合于可以提前預知流量變化的場景。
3 光電混合DCN發(fā)展趨勢
大量研究顯示,全光交換技術在特定場景下比電交換技術在能效等方面有一定的優(yōu)勢,但無法全面替代電交換技術細粒度的業(yè)務調(diào)度能力,所以如何設計光電混合的DCN成為目前業(yè)界所研究的重點。需要充分發(fā)揮各自的一些優(yōu)勢,使其能夠適應DC內(nèi)多樣、突發(fā)的業(yè)務流量。
3.1 數(shù)據(jù)中心內(nèi)業(yè)務特征
數(shù)據(jù)中心網(wǎng)絡業(yè)務的第1個特征是南北向流量與東西向流量的“二八定律”。在數(shù)據(jù)中心發(fā)展的早期,出于用戶對服務器上大容量存儲數(shù)據(jù)的訪問需求,大量流量流向機架外部,然而隨著互聯(lián)網(wǎng)和云產(chǎn)業(yè)的迅猛發(fā)展,現(xiàn)階段的數(shù)據(jù)中心中,這種南北向流量已降低至20%左右[10]。預計到2021年,94%的工作負載和計算實例將由云數(shù)據(jù)中心處理;傳統(tǒng)數(shù)據(jù)中心處理的比例僅為6%[11]。在新興的云數(shù)據(jù)中心中,應用和其所依賴的組件大多部署在同一個機架內(nèi),網(wǎng)絡流量具有明顯的特征:75%以上的流量停留在機架內(nèi)部,核心鏈路利用率低于25%[12]。
數(shù)據(jù)中心網(wǎng)絡的第2個特征是大象流與老鼠流的混合。一個數(shù)據(jù)中心通常需要承載各種各樣的業(yè)務,為用戶提供包括網(wǎng)頁搜索、直播視頻、基于IP的語音傳輸(VoIP)、數(shù)據(jù)存儲、資源下載、即時通信等豐富多彩的云服務。這些應用程序產(chǎn)生的流量具有不同的特征,可以根據(jù)其傳輸數(shù)據(jù)量的多少分為大象流和老鼠流。大象流通常產(chǎn)生自帶寬敏感型業(yè)務,例如數(shù)據(jù)庫同步、存儲備份、數(shù)據(jù)分析等需要占用大帶寬的業(yè)務;老鼠流通常產(chǎn)生自時延敏感型業(yè)務,例如社交網(wǎng)絡、搜索引擎等實時性業(yè)務。相關研究表明,傳輸數(shù)據(jù)量不足1 MB的突發(fā)性老鼠流占數(shù)據(jù)中心網(wǎng)絡流數(shù)量的90%以上,而傳輸數(shù)據(jù)量不超過100 MB的老鼠流占到數(shù)據(jù)中心網(wǎng)絡流數(shù)量的98%左右[13]。傳輸數(shù)據(jù)量大于100 MB的大象流的數(shù)量雖然比較少,卻承載了網(wǎng)絡中90%以上的數(shù)據(jù)量,即90%以上的流量被認為是老鼠流,而90%以上的數(shù)據(jù)量在大象流中。
數(shù)據(jù)中心網(wǎng)絡的第3個特征是流量分布的突發(fā)性和不均勻性。局部的hot spots承載了大量的流量,其他地方閑置的鏈路造成了網(wǎng)絡資源的浪費。有相關研究指出,數(shù)據(jù)中心網(wǎng)絡內(nèi)86%的鏈路會因為突發(fā)的大象流而產(chǎn)生超過10 s的網(wǎng)絡擁塞[14]。
上述DC內(nèi)的流量特征決定了DCN流量調(diào)度問題的復雜性以及傳統(tǒng)互聯(lián)網(wǎng)解決方案在應對上述一些問題時也必將會面臨著大量的不適應性。
3.2 基于通信模式的拓撲重構
針對上述流量特征,電交換網(wǎng)絡適合針對老鼠流進行靈活分發(fā),而光交換網(wǎng)絡提供了可重配置的快速光通道,為突發(fā)的大象流業(yè)務按需提供實時的高速連接。為了達到上述目的,需要在數(shù)據(jù)中心中部署知識平面、智能控制平面來實現(xiàn)流量的高效感知和光電混合網(wǎng)絡的實時控制。
圖2是基于AI流量分析的光電混合DCN重構體系。在該體系中,首先通過知識平面對數(shù)據(jù)中心業(yè)務進行感知與分析,可以充分利用sFlow、NetFlow等基于報文隨機采樣的網(wǎng)絡流量監(jiān)測控制技術。這些技術可以實時完整地提供全網(wǎng)范圍的數(shù)據(jù)鏈路層、網(wǎng)絡層和傳輸層的網(wǎng)絡流量信息,進而對網(wǎng)絡流量進行實時的分析與分類,從而與網(wǎng)絡控制平面形成聯(lián)動關系,然后再根據(jù)業(yè)務需求實時改變網(wǎng)絡拓撲,在數(shù)據(jù)面實現(xiàn)相應流量的高效匯聚以及轉發(fā)。
同時,在數(shù)據(jù)平面拓撲構造方面,通過電交換設備和點到點光鏈路構成DCN基礎拓撲,使其具備基本的連通性,再通過光交換矩陣連接必要的節(jié)點,如接入層機架頂端(ToR)或匯聚層ToR構成可重構的高速互連拓撲。
3.3 低延時或確定性延時控制技術
為了滿足光電混合網(wǎng)絡對動態(tài)業(yè)務實時調(diào)度的要求,需要極大提升現(xiàn)有網(wǎng)絡控制平面的時效性,包括有效降低控制軟件的響應時間及其抖動,降低控制消息傳遞時延及其抖動。傳統(tǒng)網(wǎng)絡控制系統(tǒng)(如軟件定義網(wǎng)絡控制器)響應時間隨網(wǎng)絡負載差異較大,業(yè)務響應時延基本保持在百毫秒到秒級;控制消息傳遞的時延與抖動也無法有效控制。如果實時網(wǎng)絡控制系統(tǒng)的時延抖動過大,會引起網(wǎng)絡協(xié)議振蕩,最終導致網(wǎng)絡穩(wěn)定性變差。為了提升控制效率,軟件加速技術、國際互聯(lián)網(wǎng)工程任務組(IETF)(DetNet)[15]和IEEE 802.1時間敏感網(wǎng)絡(TSN)等確定性網(wǎng)絡低延時傳輸技術、控制系統(tǒng)與收發(fā)節(jié)點的高精度時間同步技術都將是提升控制系統(tǒng)時效性的關鍵手段。
4 結束語
隨著移動互聯(lián)網(wǎng)業(yè)務的迅猛發(fā)展與普遍接入,用戶使用各種互聯(lián)網(wǎng)服務的行為產(chǎn)生了大量的數(shù)據(jù)。以5G為代表的通信網(wǎng)絡的快速推廣使得更高速的數(shù)據(jù)傳輸成為可能,而數(shù)據(jù)中心作為存儲、處理和分析這些數(shù)據(jù)的重要基礎設施,其節(jié)點算力逐漸增強,規(guī)模逐漸增大,要求數(shù)據(jù)中心互連網(wǎng)絡具備提供高帶寬、低能效、可應對突發(fā)數(shù)據(jù)的承載能力。結合不同維度的光交換技術的光電混合數(shù)據(jù)中心互連網(wǎng)絡將成為提升目前數(shù)據(jù)中心帶寬調(diào)度靈活性的關鍵技術手段,該技術亟待在流量分析、智能與高效控制多方面取得突破。