国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向HPC和DC的可重構(gòu)光互連網(wǎng)絡(luò)體系結(jié)構(gòu)綜述*

2022-06-23 03:09曹繼軍
關(guān)鍵詞:機(jī)柜交換機(jī)路由

曹繼軍

(國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院,湖南 長(zhǎng)沙 410073)

1 引言

目前,高性能計(jì)算HPC(High Performance Computing)技術(shù)正處于從100P級(jí)向E級(jí)跨越發(fā)展的關(guān)鍵階段,國(guó)際上首臺(tái)E級(jí)系統(tǒng)將會(huì)在2021年~2022年實(shí)現(xiàn)。同時(shí),隨著云計(jì)算、大數(shù)據(jù)應(yīng)用等技術(shù)的不斷發(fā)展,用戶數(shù)目和數(shù)據(jù)量也呈現(xiàn)快速爆炸增長(zhǎng)態(tài)勢(shì),這對(duì)數(shù)據(jù)中心DC(Data Center)的海量數(shù)據(jù)存儲(chǔ)、處理和傳輸提出了更高要求。高速互連網(wǎng)絡(luò)是HPC系統(tǒng)和DC的重要組成部分和全局性基礎(chǔ)設(shè)施,也是決定計(jì)算系統(tǒng)和服務(wù)平臺(tái)整體性能的關(guān)鍵因素之一。為了追求更高的計(jì)算性能以獲得更優(yōu)的應(yīng)用加速效果,盡量降低網(wǎng)絡(luò)通信開(kāi)銷(xiāo)成為HPC應(yīng)用和DC業(yè)務(wù)對(duì)高速互連網(wǎng)絡(luò)提出的基本需求,因此高帶寬和低延遲成為互連網(wǎng)絡(luò)設(shè)計(jì)和選擇的首要目標(biāo),也是HPC系統(tǒng)和高性能DC互連網(wǎng)絡(luò)區(qū)別于普通局域網(wǎng)的顯著特征。同時(shí),為了獲得較高的HPC聚合通信帶寬或DC“東西向”流量帶寬,高等分帶寬也成為HPC系統(tǒng)和DC互連網(wǎng)絡(luò)設(shè)計(jì)的重要指標(biāo)。然而,高等分帶寬意味著高成本,即構(gòu)建互連網(wǎng)絡(luò)需要使用更多的交換機(jī)和網(wǎng)絡(luò)端口及鏈路。對(duì)于超大規(guī)模HPC系統(tǒng)和DC而言,如果采用常用的無(wú)帶寬收縮的胖樹(shù)互連結(jié)構(gòu),其成本代價(jià)和工程難度都是難以接受的。同時(shí),高等分帶寬也意味著網(wǎng)絡(luò)資源利用率較低。因?yàn)榫蛻?yīng)用通信模式和流量特征而言,絕大部分應(yīng)用的計(jì)算規(guī)模在較小的節(jié)點(diǎn)范圍內(nèi)。例如,相關(guān)研究表明,超過(guò)80%應(yīng)用的計(jì)算規(guī)模不超過(guò)4 096個(gè)計(jì)算核數(shù)[1]。預(yù)期的E級(jí)HPC系統(tǒng)單機(jī)柜計(jì)算性能為10~20 PFlops,已經(jīng)遠(yuǎn)超過(guò)TH-1A整個(gè)計(jì)算系統(tǒng)的峰值計(jì)算性能(4.701 PFlops)[2],這足夠?yàn)榇蟛糠植⑿杏?jì)算應(yīng)用提供支撐。

高等分帶寬網(wǎng)絡(luò)所帶來(lái)的網(wǎng)絡(luò)資源整體利用率較低而代價(jià)較高的問(wèn)題被稱為網(wǎng)絡(luò)過(guò)供問(wèn)題(Overprovisioned Problem)。但是,如果單純采用成比例縮減匯聚層和核心層帶寬的方法,盡管可以降低成本代價(jià)和工程難度,提高網(wǎng)絡(luò)資源整體利用率,但是可能導(dǎo)致網(wǎng)絡(luò)出現(xiàn)通信瓶頸和性能顯著下降,從而造成網(wǎng)絡(luò)過(guò)載問(wèn)題(Oversubscribed Problem)。解決網(wǎng)絡(luò)過(guò)載問(wèn)題通常有2種方法:一種是負(fù)載適配網(wǎng)絡(luò)的方法,即設(shè)計(jì)優(yōu)化的負(fù)載分配算法或進(jìn)程映射算法,盡量避免嚴(yán)重的網(wǎng)絡(luò)擁塞或通信瓶頸出現(xiàn);另一種是網(wǎng)絡(luò)適配負(fù)載的方法,即為工作負(fù)載較重的節(jié)點(diǎn)或部件動(dòng)態(tài)調(diào)度更多的網(wǎng)絡(luò)帶寬資源,從而緩解網(wǎng)絡(luò)部分鏈路負(fù)載過(guò)重的問(wèn)題。目前,光交換網(wǎng)絡(luò)技術(shù)能較好地應(yīng)對(duì)上述網(wǎng)絡(luò)過(guò)供或者過(guò)載問(wèn)題帶來(lái)的挑戰(zhàn)。光交換網(wǎng)絡(luò)能夠按照通信需求在物理層實(shí)現(xiàn)網(wǎng)絡(luò)資源重新分配和調(diào)度,從而允許以較少的資源構(gòu)建能夠靈活滿足用戶通信需求的互連網(wǎng)絡(luò)。

因此,對(duì)于未來(lái)HPC和DC系統(tǒng)的互連網(wǎng)絡(luò),過(guò)分追求高等分帶寬的拓?fù)浣Y(jié)構(gòu)設(shè)計(jì)難以滿足成本要求,而根據(jù)應(yīng)用通信模式和流量特征實(shí)現(xiàn)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)重構(gòu)的互連網(wǎng)絡(luò),將是一種能夠降低工程難度并提高網(wǎng)絡(luò)資源利用率的最佳選擇。當(dāng)前,可重構(gòu)光互連網(wǎng)絡(luò)已成為高性能大規(guī)模網(wǎng)絡(luò)技術(shù)研究的熱點(diǎn),本文對(duì)其研究現(xiàn)狀進(jìn)行了綜述。

2 光互連網(wǎng)絡(luò)的優(yōu)勢(shì)

在傳輸帶寬方面,在基于100 Gbps偏振復(fù)用四相相移鍵控PM-QPSK(Polarization-Multiplexed Quadrature Phase Shift Keying)調(diào)制相干接收器高密度波分復(fù)用DWDM(Dense Wavelength Division Multiplexing)技術(shù)條件下,單模光纖的傳輸帶寬就可達(dá)12 Tbps[3]。在交換容量方面,由于高速光信號(hào)的損耗和串?dāng)_遠(yuǎn)低于電信號(hào),并且通過(guò)波分復(fù)用技術(shù),單一光波導(dǎo)內(nèi)承載的信道數(shù)目可以實(shí)現(xiàn)數(shù)十倍增長(zhǎng),所以光交換架構(gòu)可以實(shí)現(xiàn)較大的交換容量。在成本方面,采用光互連交換技術(shù)不僅可以減少電交換機(jī)端口數(shù)量,而且還可以降低用電和制冷成本。在能耗方面,由于光信號(hào)具有更低損耗和更長(zhǎng)傳輸距離,因此光鏈路可以使用更低的發(fā)送功率。同時(shí),由于光交換架構(gòu)可以采用無(wú)源或低能耗光器件,因此可進(jìn)一步降低網(wǎng)絡(luò)能耗。隨著硅光和光集成技術(shù)的快速發(fā)展,光互連交換設(shè)備成本日益降低,這更促進(jìn)了光互連交換技術(shù)在互連網(wǎng)骨干網(wǎng)和高端數(shù)據(jù)中心的應(yīng)用和部署??傊啾扔陔娀ミB交換技術(shù),光互連交換技術(shù)具有高帶寬、大交換容量、低成本和低能耗等技術(shù)特點(diǎn)。將光互連交換技術(shù)引入到HPC和DC中,對(duì)于有效應(yīng)對(duì)系統(tǒng)在成本和能耗等方面面臨的挑戰(zhàn)具有重要意義。

3 主要光交換器件簡(jiǎn)介

各種光互連網(wǎng)絡(luò)體系結(jié)構(gòu)差異性較大,其首要原因是它們所采用的光交換器件的功能和結(jié)構(gòu)等方面存在差異。下面將對(duì)本文涉及的主要光交換器件的原理、性能和適用場(chǎng)景進(jìn)行簡(jiǎn)單描述。

(1)MEMS(Micro Electro Mechanical System)光交換機(jī):一種采用微電子機(jī)械技術(shù)MEMS的光交換機(jī),它通過(guò)靜電或磁力控制微鏡陣列的鏡面角度來(lái)改變光束在自由空間的傳播方向,從而將從N條輸入光纖進(jìn)入的不同光束交換至N條不同輸出光纖,實(shí)現(xiàn)N×N的交換。MEMS光交換機(jī)控制簡(jiǎn)單,插入損耗低,功耗較低,但是交換速度通常在毫秒級(jí),因此適用于對(duì)交換延遲不敏感的場(chǎng)景。

(2)陣列波導(dǎo)光柵路由器AWGR(Arrayed Waveguide Grating Router):一種根據(jù)光波長(zhǎng)信息進(jìn)行路由選擇的陣列波導(dǎo)光柵路由器。在N×N的AWGR中,由端口i輸入的波長(zhǎng)編號(hào)為w的光束將被路由至[(i+w-2)modN]+1端口。同一輸出端口可以接收不同波長(zhǎng)的多個(gè)光信號(hào),并復(fù)用在一條光纖上輸出。AWGR功耗較低,交換延遲僅為納秒至皮秒級(jí),而且當(dāng)前512端口的AWGR器件已經(jīng)成熟[4]。AWGR通常需要與可調(diào)波長(zhǎng)光調(diào)制器TWC(Tunable Wavelength Converters)和光通道適配器OCA(Optical Channel Adapter)等光器件一起構(gòu)成光交換系統(tǒng)。

(3)可調(diào)波長(zhǎng)光調(diào)制器TWC:可將輸入的光信號(hào)變換成給定波長(zhǎng)輸出,目前160 Gbps的波長(zhǎng)轉(zhuǎn)換帶寬的TWC已經(jīng)商用,其重構(gòu)時(shí)間低至納秒級(jí)[5]。

(4)光通道適配器OCA:可將光信號(hào)轉(zhuǎn)換為電信號(hào),通常具有1∶N的多路解復(fù)用器,將光纖中混合光信號(hào)分離成多束單波長(zhǎng)的光信號(hào),并由后端的接收陣列將這N個(gè)光信號(hào)轉(zhuǎn)換為電信號(hào)。

(5)波長(zhǎng)選擇開(kāi)關(guān)WSS(Wavelength Selective Switch):對(duì)于1×K結(jié)構(gòu)的WSS,可以將單個(gè)端口輸入的光信號(hào)分配到K個(gè)輸出端口中的任意端口輸出。目前主流的WSS采用硅基液晶LCoS(Liquid Crystal on Silicon)方式實(shí)現(xiàn)。

4 幾種典型可重構(gòu)光互連網(wǎng)絡(luò)

近年來(lái)SIGCOMM(Special Interest Group on data COMMunication)[6]等重要國(guó)際會(huì)議和期刊公布了多種系統(tǒng)級(jí)可重構(gòu)光互連網(wǎng)絡(luò)方面的研究成果。例如,2010年的c-Through[7]和OSA[8],2011年的Helios[9],2013年的Mordia[10],2014年的FireFly[11],2016年的ProjecToR[12]、Optical Dragonfly[13]和Ace-net[14],2017年的RotorNet[15]和2020年的Sirius[16]等,本節(jié)將對(duì)這些可重構(gòu)光互連網(wǎng)絡(luò)的工作原理及技術(shù)特點(diǎn)進(jìn)行介紹與分析。

4.1 c-Through

c-Through[7]是在2010年SIGCOMM國(guó)際會(huì)議上公開(kāi)的一種光電混合網(wǎng)絡(luò)架構(gòu)。在該架構(gòu)中,每個(gè)柜頂ToR(Top of Rack)交換機(jī)同時(shí)連接至一個(gè)電交換網(wǎng)絡(luò)和一個(gè)光交換網(wǎng)絡(luò)。電交換網(wǎng)絡(luò)為傳統(tǒng)的層次式樹(shù)形結(jié)構(gòu)。光交換網(wǎng)絡(luò)采用單一的微機(jī)電系統(tǒng)MEMS光交換機(jī)連接所有ToR交換機(jī)的方式構(gòu)建。在同一時(shí)刻,該網(wǎng)絡(luò)可為每個(gè)源機(jī)柜到另一個(gè)目的機(jī)柜分配一條高帶寬的光傳輸鏈路。根據(jù)上層應(yīng)用的通信需求,通過(guò)重配MEMS光交換機(jī)可以改變高帶寬光鏈路在機(jī)柜間的分布,從而為數(shù)據(jù)量大的網(wǎng)絡(luò)流在機(jī)柜間構(gòu)造一條相對(duì)持續(xù)的光鏈路,而數(shù)據(jù)量較小的網(wǎng)絡(luò)流則直接基于電交換網(wǎng)絡(luò)進(jìn)行通信。c-Through互連結(jié)構(gòu)與流量管理方法如圖1所示。

Figure 1 Interconnection structure and trafficmanagement of the c-Through圖1 c-Through互連結(jié)構(gòu)與流量管理

在網(wǎng)絡(luò)控制平面,c-Through中各個(gè)服務(wù)器實(shí)時(shí)監(jiān)測(cè)每條Socket隊(duì)列所緩存的分組數(shù)目,并將該信息周期性地報(bào)告給集中式的光路管理器。通過(guò)收集所有服務(wù)器的Socket緩存狀態(tài),光路管理器可以計(jì)算出系統(tǒng)的流量矩陣,該矩陣反映了任意源機(jī)柜和目的機(jī)柜間等待發(fā)送的分組數(shù)目總和。對(duì)于根據(jù)流量矩陣分配MEMS最優(yōu)配置的問(wèn)題,光路管理器將該問(wèn)題視為二分圖的最大權(quán)重匹配問(wèn)題,并使用經(jīng)典Edmonds算法[17]求解。最后,光路管理器將配置下發(fā)到MEMS并通知服務(wù)器通過(guò)光網(wǎng)絡(luò)傳輸,而未獲得光連接的服務(wù)器仍采用電網(wǎng)絡(luò)傳輸。在網(wǎng)絡(luò)數(shù)據(jù)平面,c-Through對(duì)ToR進(jìn)行基于端口的VLAN劃分,并采用基于VLAN的路由算法將網(wǎng)絡(luò)從邏輯上分離為電網(wǎng)絡(luò)VLAN-s和光網(wǎng)絡(luò)VLAN-c。每個(gè)服務(wù)器配置2個(gè)具有相同MAC和IP地址的虛擬網(wǎng)絡(luò)接口,并分屬于VLAN-s和VLAN-c。

c-Through通過(guò)VLAN劃分方式隔離光網(wǎng)絡(luò)和電網(wǎng)絡(luò),降低了拓?fù)渲貥?gòu)對(duì)電網(wǎng)絡(luò)穩(wěn)定性造成的影響。該網(wǎng)絡(luò)還通過(guò)增大服務(wù)器上每條流Socket緩沖區(qū),對(duì)應(yīng)用的通信流量進(jìn)行存儲(chǔ)和調(diào)度,這樣既避免了頭阻塞,又提高了通信需求評(píng)估的準(zhǔn)確性,而且不會(huì)影響延遲敏感型應(yīng)用的通信延遲?;赩LAN的光電網(wǎng)絡(luò)隔離方法,保持了混合網(wǎng)絡(luò)架構(gòu)對(duì)上層應(yīng)用的透明性。但是,由于采用了慢速M(fèi)EMS光交換機(jī),網(wǎng)絡(luò)拓?fù)渲貥?gòu)的延遲較大。此外,由于要求為每條流分配較大的Socket緩沖區(qū),所以當(dāng)通信連接數(shù)較大時(shí),會(huì)對(duì)服務(wù)器系統(tǒng)的內(nèi)存容量造成壓力。

4.2 Helios

Helios[9]是在2011年SIGCOMM國(guó)際會(huì)議上公開(kāi)的新型光電混合網(wǎng)絡(luò)架構(gòu),是一種面向數(shù)據(jù)中心模塊PoD(Point of Delivery,通常包括250~1 000個(gè)服務(wù)器的具有獨(dú)立網(wǎng)絡(luò)和制冷系統(tǒng)等模塊的高度模塊化數(shù)據(jù)中心[18])之間互連的網(wǎng)絡(luò)結(jié)構(gòu)。如圖2所示,Helios為2層多根樹(shù)(Multi-rooted Tree)結(jié)構(gòu),其2層分別由底層的PoD交換機(jī)和上層的核心交換機(jī)構(gòu)成。核心交換機(jī)既包含傳統(tǒng)的電交換機(jī),也包含基于MEMS的光交換機(jī)。PoD內(nèi)的服務(wù)器通過(guò)銅纜連接至PoD交換機(jī),同一PoD內(nèi)的服務(wù)器通過(guò)PoD交換機(jī)通信,而不同PoD之間通過(guò)核心層交換機(jī)進(jìn)行通信。核心層的電交換機(jī)和光交換機(jī)分別用于處理All-to-All的突發(fā)流量和具有高帶寬和長(zhǎng)持續(xù)時(shí)間需求的流量。在圖2的互連結(jié)構(gòu)示意中,PoD交換機(jī)的一半上行鏈路端口與電交換機(jī)相連,另外一半上行鏈路端口通過(guò)無(wú)源的波分復(fù)用器WDM復(fù)用后連接到光交換機(jī)。

Figure 2 Interconnection structure andcontrol loop of the Helio圖2 Helio互連結(jié)構(gòu)與控制回路

用于拓?fù)渲貥?gòu)的管理控制軟件包含3個(gè)子模塊,分別是拓?fù)涔芾砥鱐M(Topology Manager)、電路交換管理器CSM(Circuit Switch Manager)和PoD交換管理器PSM(PoD Switch Manager),如圖2所示。PSM運(yùn)行在每個(gè)PoD交換機(jī)上,用于初始化交換機(jī)硬件,管理流表(Flow Table),和維護(hù)用于記錄從本PoD發(fā)往不同PoD的流量計(jì)數(shù)器(按字節(jié)計(jì)數(shù))。集中式的TM周期性地通過(guò)遠(yuǎn)程進(jìn)程調(diào)用RPC(Remote Procedure Call)方式獲得系統(tǒng)中各個(gè)PSM維護(hù)的流量計(jì)數(shù)器信息,并計(jì)算出記錄任意PoD之間的流量計(jì)數(shù)的字節(jié)計(jì)數(shù)矩陣。通過(guò)當(dāng)前周期和前一周期2個(gè)字節(jié)計(jì)數(shù)矩陣可以計(jì)算出PoD之間的流速率矩陣。為了實(shí)現(xiàn)只為具有高帶寬需求的流量分配光交換鏈路,TM從流速率矩陣中過(guò)濾掉速率較低(即低于15 Mbps)的元素得到修改后的流速率矩陣。同時(shí),為了獲得真正反映通信需求的流量需求矩陣TDM(Traffic Demand Matrix),TM進(jìn)一步采用Max-Min公平帶寬分配算法由修改后的流速率矩陣生成PoD間的流量需求矩陣。以最大化光鏈路利用率為目標(biāo),TM再使用經(jīng)典Edmonds算法[17]計(jì)算出最優(yōu)的光鏈路連接關(guān)系。最后,TM通知CSM配置MEMS光交換機(jī)從而在PoD之間建立光鏈路,并通知PSM修改PoD交換機(jī)的路由表。

通過(guò)使用商用的全光交換機(jī)和WDM收發(fā)器實(shí)現(xiàn)了帶寬和交換吞吐率的聚合,Helios網(wǎng)絡(luò)降低了網(wǎng)絡(luò)成本和能耗。與c-Through相比,Helios的優(yōu)點(diǎn)是不需要對(duì)服務(wù)器軟件棧進(jìn)行任何修改。但是,由于仍然采用了MEMS光交換機(jī),Helios也存在網(wǎng)絡(luò)拓?fù)渲貥?gòu)延遲較大的問(wèn)題。

4.3 OSA

OSA[8]是于2010年HotNet(Hot Topit in Network)會(huì)議提出(也稱為proteus[19])并在2016年TON (IEEE/ACM Transactions on Networking)國(guó)際期刊上正式公開(kāi)的一種光互連網(wǎng)絡(luò)。不同于c-Through和Helios等光電混合互連,OSA采用全光互連結(jié)構(gòu)。如圖3所示,OSA由ToR、MEMS和波長(zhǎng)選擇開(kāi)關(guān)WSS 3種光交換機(jī)互連而成。每個(gè)ToR交換機(jī)配置多個(gè)工作在不同波長(zhǎng)的光收發(fā)器,其發(fā)送的多波長(zhǎng)光信號(hào)經(jīng)過(guò)復(fù)用器(MUX)遠(yuǎn)程傳輸?shù)絎SS,WSS根據(jù)配置將波長(zhǎng)重新分組,并通過(guò)多個(gè)端口將光信號(hào)輸入MEMS光交換機(jī)。通過(guò)MEMS交叉開(kāi)關(guān)矩陣,每個(gè)ToR交換機(jī)可以與其它多個(gè)ToR交換機(jī)直連通信。對(duì)于非直連ToR交換機(jī)之間的通信,需要借助中間節(jié)點(diǎn)通過(guò)光電轉(zhuǎn)換識(shí)別報(bào)文頭部信息并轉(zhuǎn)發(fā)到目的ToR交換機(jī),從而實(shí)現(xiàn)多跳步路由。

Figure 3 Interconnection structure and control step of the OSA圖3 OSA互連結(jié)構(gòu)與控制步驟

集中式的OSA管理器(OSA Manager)負(fù)責(zé)流量需求評(píng)估、拓?fù)溆?jì)算、路由計(jì)算和波長(zhǎng)分配等,并通過(guò)配置MEMS、WSS和ToR交換機(jī)等網(wǎng)絡(luò)部件完成拓?fù)涞慕⑴c重構(gòu)。OSA的拓?fù)淇刂撇襟E如圖3所示:流量需求評(píng)估過(guò)程周期性地收集機(jī)柜間通信流量信息,利用TCP流的Max-Min公平帶寬分配算法獲得機(jī)柜間的流量矩陣。拓?fù)溆?jì)算過(guò)程采用帶權(quán)值的b-Matching問(wèn)題求解算法[20],根據(jù)流量矩陣和ToR間的連接關(guān)系,生成MEMS光交換機(jī)的配置信息。路由計(jì)算過(guò)程優(yōu)先保證具有高通信量的ToR交換機(jī)之間通過(guò)單跳步直接通信,而非高通信量的ToR交換機(jī)之間采用多跳步路由通信。波長(zhǎng)分配過(guò)程采用多圖的邊著色算法為T(mén)oR交換的收發(fā)器分配波長(zhǎng)。通過(guò)上述控制步驟,OSA實(shí)現(xiàn)了網(wǎng)絡(luò)吞吐率的最大化。

與c-Through和Helios等早期提出的光電混合網(wǎng)絡(luò)相比,OSA由于采用了全光交換架構(gòu)并引入WSS等新型交換器件,具備較高的拓?fù)浜蛶掛`活性,提高了網(wǎng)絡(luò)的利用率。OSA的缺點(diǎn)主要體現(xiàn)在:(1)多跳步路由的實(shí)現(xiàn)需要光電轉(zhuǎn)換過(guò)程,因此增加了交換延遲并且要求中間ToR節(jié)點(diǎn)對(duì)報(bào)文進(jìn)行緩存,實(shí)現(xiàn)難度增大;(2)仍然使用MEMS光交換機(jī)作為頂層交換機(jī),而且沒(méi)有電交換去平滑延遲敏感型應(yīng)用的通信需求,導(dǎo)致其業(yè)務(wù)的適應(yīng)性受到限制。

4.4 Optical Dragonfly

Optical Dragonfly[13]網(wǎng)絡(luò)是在2016年的OFC(Optical Fiber Communication)會(huì)議上公開(kāi)的以Dragonfly網(wǎng)絡(luò)[21]為基礎(chǔ)的拓?fù)淇芍貥?gòu)光電混合網(wǎng)絡(luò)。Dragonfly(p,a,b)網(wǎng)絡(luò)的互連結(jié)構(gòu)分為3層:最底層的路由節(jié)點(diǎn)連接p個(gè)端節(jié)點(diǎn),中間層每個(gè)局部組內(nèi)的每個(gè)路由節(jié)點(diǎn)與組內(nèi)的a-1個(gè)路由節(jié)點(diǎn)相連,最高層每個(gè)局部組內(nèi)共(b×a)條全局通道與其余局部組互連。Dragonfly網(wǎng)絡(luò)中用于組內(nèi)連接的電鏈路被稱為L(zhǎng)-Link,用于實(shí)現(xiàn)組間互連的鏈路被稱為D-Link。Dragonfly拓?fù)浣Y(jié)構(gòu)的網(wǎng)絡(luò)直徑較小,其實(shí)現(xiàn)代價(jià)比胖樹(shù)等具有高等分帶寬的網(wǎng)絡(luò)低,因此被Cray[22]和PERCS(Productive, Easy-to-use, Reliable Computing System)[23]等實(shí)際HPC系統(tǒng)所使用。Optical Dragonfly網(wǎng)絡(luò)改變了傳統(tǒng)Dragonfly網(wǎng)絡(luò)中D-Link所采用的固定鏈路連接,而采用根據(jù)網(wǎng)絡(luò)流量需求可動(dòng)態(tài)調(diào)整組間互連關(guān)系可重構(gòu)光互連網(wǎng)絡(luò)。圖4所示為包含4個(gè)組的Optical Dragonfly網(wǎng)絡(luò)互連結(jié)構(gòu),即將網(wǎng)絡(luò)的D-Link連接在光交換機(jī)(例如基于MEMS的光交換機(jī)),而通過(guò)重配光交換機(jī)可以實(shí)現(xiàn)網(wǎng)絡(luò)拓?fù)渲貥?gòu)。

Optical Dragonfly網(wǎng)絡(luò)的控制平面包括:檢測(cè)組間流量特征的監(jiān)測(cè)模塊(Monitoring Module)、確定組間優(yōu)化連接關(guān)系的網(wǎng)絡(luò)優(yōu)化器(Network Optimizer)和使用OpenFlow修改網(wǎng)絡(luò)拓?fù)涞耐負(fù)涔芾砥?Topology Manager)。該網(wǎng)絡(luò)中用于重配組間光網(wǎng)絡(luò)的軟件結(jié)構(gòu)如圖4所示,上層采用ODL(OpenDayLight)作為網(wǎng)絡(luò)控制器,底層路由節(jié)點(diǎn)支持OpenFlow協(xié)議,組內(nèi)和組間通信使用不同的轉(zhuǎn)發(fā)規(guī)則集。監(jiān)測(cè)模塊通過(guò)ODL REST API接口獲取組間通信的流量特征?;诹髁刻卣骱途W(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖,并采用最大加權(quán)匹配MWM(Maximum Weight Matching)算法,優(yōu)化模塊得出全局鏈路分配方案。拓?fù)涔芾砥鞲鶕?jù)全局鏈路分配方案產(chǎn)生出流規(guī)則并更新路由節(jié)點(diǎn)的流表和光交換機(jī)的端口連接關(guān)系。

Figure 4 Interconnection structure and controltechnique of the Optical Dragonfly圖4 Optical Dragonfly互連結(jié)構(gòu)與控制技術(shù)

Optical Dragonfly網(wǎng)絡(luò)的優(yōu)點(diǎn)主要體現(xiàn)在:(1)采用動(dòng)態(tài)重構(gòu)全局光鏈路的方法,緩解了傳統(tǒng)Dragonfly網(wǎng)絡(luò)等分帶寬低引發(fā)的相關(guān)問(wèn)題。在傳統(tǒng)Dragonfly網(wǎng)絡(luò)中,如果2個(gè)組間通信的流量較大,則采用直接和間接路由同時(shí)存在的多路徑路由方法提高通信的吞吐率,但間接路由增加了網(wǎng)絡(luò)跳步數(shù),而且也可能會(huì)對(duì)其它組間通信性能造成影響。Optical Dragonfly網(wǎng)絡(luò)采用可重構(gòu)的光鏈路作為組間通信的全局鏈路,任意組間通信都采取直接路由,因此降低了網(wǎng)絡(luò)跳步數(shù)和通信延遲。(2)在網(wǎng)絡(luò)的控制平面采用成熟的軟件定義網(wǎng)絡(luò)SDN(Software-Defined Network)技術(shù)監(jiān)測(cè)網(wǎng)絡(luò)流量并對(duì)其進(jìn)行配置,提高了Optical Dragonfly網(wǎng)絡(luò)的可實(shí)現(xiàn)性。

Figure 5 Measurement schematic diagram of flow requirements for the Ace-net圖5 Ace-net流量需求測(cè)量原理

4.5 Ace-net

Ace-net[14]是由中國(guó)科學(xué)院計(jì)算技術(shù)研究所在2016年提出的一種面向DC的光電混合網(wǎng)絡(luò)。在該網(wǎng)絡(luò)中,機(jī)柜內(nèi)的每臺(tái)服務(wù)器使用電鏈路連接到本機(jī)柜內(nèi)的ToR交換機(jī)上,機(jī)柜之間分別使用電網(wǎng)絡(luò)和光網(wǎng)絡(luò)互連。電網(wǎng)絡(luò)可以使用任意拓?fù)浣Y(jié)構(gòu),而光網(wǎng)絡(luò)中所有ToR交換機(jī)都連接到同一個(gè)陣列波導(dǎo)光柵路由器AWGR。電網(wǎng)絡(luò)在任意服務(wù)器間并行傳輸數(shù)量較小的網(wǎng)絡(luò)流,而光網(wǎng)絡(luò)在各組源和目的機(jī)柜間建立光鏈路從而傳輸數(shù)據(jù)量較大的網(wǎng)絡(luò)流。

Ace-net通過(guò)仲裁控制系統(tǒng)完成服務(wù)器通信需求信息收集、光鏈路的調(diào)度、可調(diào)波長(zhǎng)激光器TWC和ToR交換機(jī)的控制、數(shù)據(jù)傳輸過(guò)程的啟動(dòng)和停止等工作。在流量測(cè)量方面,如圖5所示,通過(guò)在操作系統(tǒng)內(nèi)核中監(jiān)控Socket緩沖區(qū)的占用情況,將緩沖區(qū)的占用值按照目的地址聚合到虛擬隊(duì)列中,虛擬隊(duì)列中的每一表項(xiàng)記錄本機(jī)與其對(duì)應(yīng)機(jī)柜間的網(wǎng)絡(luò)流信息,各個(gè)服務(wù)器虛擬隊(duì)列中的信息構(gòu)成整個(gè)網(wǎng)絡(luò)的通信需求表征。在集中仲裁方面,中央控制器通過(guò)被動(dòng)通告方式獲得每臺(tái)服務(wù)器的虛擬隊(duì)列信息,并為每個(gè)機(jī)柜維護(hù)一個(gè)向量,向量的每一項(xiàng)分別記錄本機(jī)柜與其對(duì)應(yīng)機(jī)柜之間的累積流量需求。中央控制器根據(jù)不斷接收服務(wù)器發(fā)送來(lái)的流量通知控制報(bào)文攜帶的流量需求信息,保持累積流量需求的實(shí)時(shí)性。在拓?fù)淇刂品矫妫ㄟ^(guò)掃描每個(gè)向量,獲得與本機(jī)柜累積流量需求最多的機(jī)柜,然后控制對(duì)應(yīng)的TWC進(jìn)行波長(zhǎng)變化,從而在2機(jī)柜之間建立一條持續(xù)的光鏈路。

Ace-net的擴(kuò)展性取決于AWGR路由器所能支持的最大端口數(shù)。目前,512×512端口的AWGR光器件已經(jīng)問(wèn)世,因此Ace-net網(wǎng)絡(luò)可以實(shí)現(xiàn)512服務(wù)器機(jī)柜間的超大規(guī)?;ミB;由于采用了納秒級(jí)波長(zhǎng)變換特性的TWC和波長(zhǎng)路由器AWGR,并設(shè)計(jì)了高效的網(wǎng)絡(luò)重構(gòu)控制平面,其延遲和吞吐率等性能優(yōu)于采用MEMS光交換機(jī)的c-Through網(wǎng)絡(luò)。但是,由于采用UDP協(xié)議傳輸控制報(bào)文,并且控制報(bào)文傳輸延遲也影響虛擬隊(duì)列管理的時(shí)效,所以拓?fù)渲貥?gòu)的仲裁會(huì)產(chǎn)生“輪空現(xiàn)象”,這在一定程度上會(huì)影響光網(wǎng)絡(luò)的利用率。

4.6 Mordia

Mordia[10]是在2013年SIGCOMM國(guó)際會(huì)議上公開(kāi)的面向DC的光交換網(wǎng)絡(luò)。與之前提出的c-Through和Helios等網(wǎng)絡(luò)結(jié)構(gòu)類(lèi)似,Mordia也采用了基于ToR的互連結(jié)構(gòu)。為了避免同一源ToR到不同目的ToR流量出現(xiàn)頭阻塞,Mordia的每個(gè)ToR需要為其它所有的ToR建立報(bào)文緩沖隊(duì)列,從而實(shí)現(xiàn)基于虛擬輸出隊(duì)列VOQ(Virtual Output Queue)的數(shù)據(jù)交換。為了克服早期的光電混合網(wǎng)絡(luò)采用MEMS光交換機(jī)所存在的鏈路切換速度過(guò)慢問(wèn)題,Mordia選用了具有微秒級(jí)配置延遲的波長(zhǎng)選擇交換機(jī)WSS構(gòu)建光互連網(wǎng)絡(luò),從而實(shí)現(xiàn)快速的拓?fù)渲貥?gòu)。圖6所示為Mordia網(wǎng)絡(luò)的原型系統(tǒng),該系統(tǒng)將WSS連接成環(huán)形構(gòu)成24×24交換結(jié)構(gòu)并實(shí)現(xiàn)與24個(gè)ToR交換機(jī)端口的互連,通過(guò)波長(zhǎng)分配及相關(guān)配置,可以實(shí)現(xiàn)任意源ToR與目的ToR之間的通信,而改變配置引起的鏈路切換時(shí)間可以低至11.5 μs。

Figure 6 Prototype system and connection scheduling schematic diagram of the Mordia圖6 Mordia原型系統(tǒng)與連接調(diào)度原理

在光鏈路調(diào)度方面,不同于傳統(tǒng)光電混合網(wǎng)絡(luò)采用的熱點(diǎn)調(diào)度HSS(HotSpot Scheduling)方法,Mordia使用了一種流量矩陣調(diào)度TMS(Traffic Matrix Scheduling)方法。HSS方法可概括為:在每個(gè)時(shí)間槽內(nèi),首先測(cè)量機(jī)柜間的流量矩陣并以此計(jì)算流量需求矩陣,然后在流量需求矩陣中識(shí)別流量需求熱點(diǎn)并通過(guò)重配光交換機(jī)為熱點(diǎn)的源和目的機(jī)柜間建立光鏈路。TMS方法的調(diào)度原理如圖6所示,在測(cè)量并評(píng)估獲得流量需求矩陣TDM后,考慮光鏈路的實(shí)際帶寬情況,使用Sinkhorn算法[24]可將該矩陣變換成為帶寬分配矩陣BAM(Bandwidth Allocation Matrix),然后使用BvN(Birkhoff-von Neumann)算法[25]計(jì)算出該BAM對(duì)應(yīng)的完美調(diào)度。

Mordia具有多方面優(yōu)點(diǎn):首先,使用的TMS流量調(diào)度方法克服了HSS調(diào)度方法存在的預(yù)測(cè)失真和局部最優(yōu)等問(wèn)題,提高了光網(wǎng)絡(luò)的利用率;其次,由于采用配置時(shí)間非常短的光器件,光鏈路調(diào)度的時(shí)間槽可以設(shè)計(jì)得更短,這將降低ToR交換機(jī)的VOQ緩沖區(qū)的容量需求。Mordia的主要缺點(diǎn)是缺乏擴(kuò)展性,Mordia原型系統(tǒng)實(shí)現(xiàn)了24×24的無(wú)阻塞光交換,沿用其所采用的C-band DWDM和單環(huán)技術(shù),只能擴(kuò)展到44×44的光交換規(guī)模。采用多環(huán)結(jié)構(gòu)也只能將其擴(kuò)展到數(shù)百端口,而且該結(jié)構(gòu)是一種阻塞的交換結(jié)構(gòu)。通過(guò)增加TWC可以提高其擴(kuò)展性并解決阻塞交換問(wèn)題,但這是以增加光器件和調(diào)度算法的復(fù)雜性為代價(jià)的。

4.7 Firefly

Firefly[11]是在2014年SIGCOMM國(guó)際會(huì)議上公開(kāi)的一種基于ToR互連的新型網(wǎng)絡(luò)架構(gòu)。Firefly采用了自由空間光通信FSO(Free-Space Optical Communications)技術(shù),其互連結(jié)構(gòu)如圖7所示。Firefly網(wǎng)絡(luò)主要由部署在天花板的反射鏡面(Ceiling Mirror)、配置在機(jī)柜頂部的可調(diào)FSO(Steerable FSO)設(shè)備和網(wǎng)絡(luò)帶外控制器等部件構(gòu)成。Firefly光鏈路如圖7所示,源機(jī)柜發(fā)送端將光信號(hào)直接從光纖輸出到自由空間,并經(jīng)過(guò)天花板鏡面反射進(jìn)入目標(biāo)區(qū)域,目的機(jī)柜接收端也采用直接耦合方式將光信號(hào)輸入光纖。為了解決光束從光纖進(jìn)入自由空間時(shí)的散射問(wèn)題和從自由空間耦合到光纖時(shí)的聚焦問(wèn)題,在光信號(hào)的發(fā)送端和接收端都設(shè)置了透鏡。Firefly提供了2種技術(shù)途徑實(shí)現(xiàn)光鏈路的可重構(gòu),即分別是基于開(kāi)關(guān)鏡面SM(Switchable Mirrors)[26]和Galvo鏡面GM(Galvo Mirrors)[27],在源和目的ToR之間建立可重配的光鏈路。

Figure 7 Interconnection structure and link design of the Firefly圖7 Firefly互連結(jié)構(gòu)與鏈路設(shè)計(jì)

SM的特點(diǎn)是能夠在電信號(hào)的控制下實(shí)現(xiàn)反射和透射2種狀態(tài)的轉(zhuǎn)換。SM類(lèi)型的網(wǎng)絡(luò)可重構(gòu)控制原理是:為每個(gè)光信號(hào)發(fā)送端配置多個(gè)SM,每個(gè)SM在預(yù)配置(Pre-Configuration)階段預(yù)先通過(guò)天花板反射鏡面的反射點(diǎn)對(duì)準(zhǔn)固定接收端。在鏈路配置和重配階段,發(fā)送端的某個(gè)SM被設(shè)置為反射狀態(tài)而其余SM被設(shè)置為透射狀態(tài),從而建立源機(jī)柜到目的機(jī)柜的光鏈路。改變SM的狀態(tài)組合就可以建立任意機(jī)柜間的光鏈路。GM的特點(diǎn)是能夠在電信號(hào)的控制下繞固定軸轉(zhuǎn)動(dòng),從而借助天花板發(fā)射鏡面將發(fā)送端的光信號(hào)傳輸?shù)藉F形目標(biāo)區(qū)域。GM類(lèi)型的網(wǎng)絡(luò)可重構(gòu)控制原理是:通過(guò)配置GM的角度,從源機(jī)柜發(fā)送端發(fā)射的光束可以到達(dá)指定接收區(qū)域的目的機(jī)柜。在運(yùn)行之前的預(yù)配置階段,預(yù)配置靈活拓?fù)銹CFT(Pre-Configured Flexible Topology)設(shè)計(jì)需要設(shè)計(jì)每個(gè)SM鏡面的反射點(diǎn)或GM鏡面的覆蓋區(qū)域,以形成多條備選網(wǎng)絡(luò)光鏈路,并使得網(wǎng)絡(luò)動(dòng)態(tài)等分帶寬最大化。分別采用隨機(jī)圖算法和基于塊的啟發(fā)式算法可以解決PCFT設(shè)計(jì)問(wèn)題。在實(shí)時(shí)運(yùn)行階段,需要根據(jù)流量需求評(píng)估情況周期性地或由特定事件(大負(fù)載遷移或大流量生成等事件)觸發(fā)性地重構(gòu)網(wǎng)絡(luò)鏈路,以使得網(wǎng)絡(luò)流量最大化。采用貪婪匹配算法可有效解決周期性拓?fù)渲貥?gòu)問(wèn)題。

Firefly的優(yōu)點(diǎn)體現(xiàn)在:采用了自由空間光技術(shù)實(shí)現(xiàn)互連,降低了光纖互連的實(shí)現(xiàn)代價(jià)和復(fù)雜性。該網(wǎng)絡(luò)實(shí)現(xiàn)了分布式光互連,與集中式光互連網(wǎng)絡(luò)相比,避免了需要內(nèi)部結(jié)構(gòu)復(fù)雜的核心光交換機(jī)實(shí)現(xiàn)光交換,因此提高了網(wǎng)絡(luò)的擴(kuò)展性和可靠性。利用SDN技術(shù),F(xiàn)irefly不僅實(shí)現(xiàn)了數(shù)據(jù)平面重配,而且ToR交換機(jī)可以向網(wǎng)絡(luò)控制器主動(dòng)報(bào)告觀測(cè)到的網(wǎng)絡(luò)流量需求。Firefly的缺點(diǎn)主要體現(xiàn)在:(1)該網(wǎng)絡(luò)采用的是自由空間光通信技術(shù),空間的潔凈程度會(huì)影響通信誤碼率,因此如何建立和維護(hù)具有高潔凈度的數(shù)據(jù)中心空間成為了需要考慮的現(xiàn)實(shí)問(wèn)題。(2)受限于所采用的光器件的屬性,該網(wǎng)絡(luò)的重配時(shí)間較長(zhǎng)(20 ms),而且網(wǎng)絡(luò)預(yù)配置后每個(gè)源ToR能夠連接到的目的ToR數(shù)量有限(10),因此降低了網(wǎng)絡(luò)的實(shí)用性。

4.8 ProjecToR

ProjecToR[12]是由Microsoft 研究院在2016年SIGCOMM國(guó)際會(huì)議上提出的面向DC的拓?fù)淇芍貥?gòu)光互連網(wǎng)絡(luò)。與Firefly類(lèi)似,ProjecToR也采用自由空間光通信技術(shù)來(lái)實(shí)現(xiàn)ToR間的可重構(gòu)互連。如圖8所示,每個(gè)ToR上集成若干個(gè)激光發(fā)射及接收裝置和數(shù)字微鏡設(shè)備DMD(Digital Micromirror Device)。DMD是集成了數(shù)十萬(wàn)個(gè)10 μm大小的鏡片陣列,通過(guò)改變配置可以調(diào)整每個(gè)微鏡片的方向。懸掛在數(shù)據(jù)中心上方空間的球狀多面鏡用來(lái)向目的ToR反射從源ToR發(fā)射來(lái)的激光,從而可以建立用于ToR間通信的光鏈路。ProjecToR把任意ToR間的所有可能的光鏈路分為2類(lèi):專(zhuān)用連接(Dedicated Link)和機(jī)會(huì)連接(Opportunistic Link)。專(zhuān)用連接支持單跳或多跳步通信,重配周期較大,主要用于傳輸數(shù)據(jù)量較小的流量;機(jī)會(huì)連接只支持單跳通信,重配周期較短,主要用于傳輸數(shù)據(jù)量較大的流量。

Figure 8 Interconnection structure and link planning method of the ProjecToR圖8 ProjecToR互連結(jié)構(gòu)與鏈路規(guī)劃方法

ProjecToR使用了大量的激光器作為數(shù)據(jù)發(fā)送和接收器件,如何根據(jù)流量需求調(diào)整MDM微鏡方向,動(dòng)態(tài)建立激光發(fā)射器與接收器之間不同類(lèi)型的連接并分配流量,成為了該網(wǎng)絡(luò)需要解決的關(guān)鍵問(wèn)題。在專(zhuān)用拓?fù)鋭澐址矫?,首先根?jù)每天的流量歷史信息計(jì)算每個(gè)ToR每5 min的最大發(fā)送和接收速率,然后在約束最小值為2且最大值為T(mén)oR激光發(fā)送器數(shù)目減2的情況下為每個(gè)ToR計(jì)算出用于專(zhuān)用連接的發(fā)送器和接收器數(shù)目。再根據(jù)任意2個(gè)ToR間通信的概率排序?yàn)門(mén)oR間分配激光發(fā)送器和接收器對(duì)構(gòu)成相對(duì)固定的連接。最后基于專(zhuān)用拓?fù)錇槊總€(gè)ToR對(duì)計(jì)算一組最短路徑,并在下發(fā)轉(zhuǎn)發(fā)規(guī)則后開(kāi)始傳輸數(shù)據(jù)。對(duì)于機(jī)會(huì)拓?fù)涞倪B接調(diào)度問(wèn)題,采用兩階異步穩(wěn)定婚配(Tow-tier and Asynchronous Stable Matching)算法在每個(gè)時(shí)間槽啟動(dòng)時(shí)計(jì)算激光發(fā)送器和接收器之間的匹配關(guān)系。

ProjecToR的優(yōu)點(diǎn)體現(xiàn)在:(1)實(shí)現(xiàn)了ToR的高扇出,例如對(duì)于具有1×105個(gè)服務(wù)器且每個(gè)機(jī)柜配置50個(gè)服務(wù)器的數(shù)據(jù)中心而言,使用768×1 024的MDM構(gòu)建的網(wǎng)絡(luò)可以保證每個(gè)源激光發(fā)射器平均與每個(gè)ToR的9個(gè)激光接收器建立連接關(guān)系。(2)參數(shù)重配改變MDM微鏡角度的速度較快,可達(dá)到12 μs,因此拓?fù)渲貥?gòu)的延遲較低,靈活性較高。但是,ProjecToR也存在明顯的缺點(diǎn):(1)該網(wǎng)絡(luò)采用的自由空間光通信技術(shù)本身具有一定的缺點(diǎn)且尚不成熟(如前所述)。(2)基于現(xiàn)有商品化的MDM構(gòu)建的光鏈路信號(hào)失真大約10.41 dB,仍然需要進(jìn)一步提高信號(hào)傳輸質(zhì)量。

4.9 RotorNet

RotorNet[15]是在2017年SIGCOMM國(guó)際會(huì)議上公布的一種基于ToR互連的光交換網(wǎng)絡(luò)。與傳統(tǒng)的基于ToR光交換網(wǎng)絡(luò)Folded-Clos拓?fù)浣Y(jié)構(gòu)互連方案類(lèi)似,RotorNet采用報(bào)文交換ToR交換機(jī)與機(jī)柜內(nèi)服務(wù)器節(jié)點(diǎn)實(shí)現(xiàn)電互連,并通過(guò)光鏈路連接到Rotor光交換機(jī),其互連結(jié)構(gòu)如圖9所示。Rotor光交換機(jī)由一組光交換機(jī)構(gòu)成,而且每個(gè)光交換機(jī)都連接到系統(tǒng)中的任何一個(gè)ToR交換機(jī)。作為RotorNet網(wǎng)絡(luò)的變種,ToR交換機(jī)的部分上行鏈路還可以連接到電交換機(jī),從而形成與Helios網(wǎng)絡(luò)[9]相類(lèi)似的一種光電混合網(wǎng)絡(luò)架構(gòu)。

Figure 9 Interconnection structure and optical link scheduling of the RotorNet圖9 RotorNet互連結(jié)構(gòu)與光鏈路調(diào)度

不同于先前研究所提出的Helios[9]等光交換網(wǎng)絡(luò)采用的光鏈路調(diào)度方法,即依據(jù)周期性測(cè)量和評(píng)估的通信流量需求集中式地對(duì)光鏈路進(jìn)行重配,RotorNet網(wǎng)絡(luò)的Rotor光交換機(jī)不考慮瞬時(shí)流量需求變化,也沒(méi)有集中式的光鏈路調(diào)度控制,而是以Round-Robin循環(huán)方式在輸入與輸出端口之間實(shí)現(xiàn)預(yù)先確定的連接模式。Rotor光交換機(jī)的光鏈路調(diào)度基本原理如圖9所示。從宏觀上講,Rotor光交換機(jī)在給定的時(shí)間間隔內(nèi)能夠?yàn)槿我庖粚?duì)ToR交換機(jī)提供直接光鏈路連接。RotorNet網(wǎng)絡(luò)采用2種路由策略,即單跳步直接轉(zhuǎn)發(fā)和兩跳步間接轉(zhuǎn)發(fā)。單跳步直接轉(zhuǎn)發(fā)在源和目的節(jié)點(diǎn)之間通過(guò)單個(gè)Rotor光交換機(jī)建立光鏈路,適用于均勻(Uniform)流量。兩跳步間接轉(zhuǎn)發(fā)在源和目的節(jié)點(diǎn)之間選擇一個(gè)中間節(jié)點(diǎn),源節(jié)點(diǎn)到中間節(jié)點(diǎn)和中間節(jié)點(diǎn)到目的節(jié)點(diǎn)間均采用單跳步直接轉(zhuǎn)發(fā)。兩跳步間接轉(zhuǎn)發(fā)采用VLB variant算法[28],適用于非均勻的稀疏(Sparse)流量。為了自適應(yīng)選擇上述兩種路由策略,RotorNet網(wǎng)絡(luò)實(shí)現(xiàn)了一種全分布式的RotorLB協(xié)議,即默認(rèn)采用單跳步直接轉(zhuǎn)發(fā),在空閑光鏈路上發(fā)送兩跳步間接轉(zhuǎn)發(fā)流量,并采用帶內(nèi)(in-Band)協(xié)議發(fā)現(xiàn)空閑鏈路。

RotorNet的優(yōu)點(diǎn)體現(xiàn)在:由于采用了簡(jiǎn)單的Round-Robin交換模型,其控制實(shí)現(xiàn)較為簡(jiǎn)單,因此單個(gè)Rotor光交換機(jī)具有超過(guò)1 000個(gè)端口的擴(kuò)展能力,而且交換延遲(20 μs)遠(yuǎn)低于同等規(guī)模交叉開(kāi)關(guān)(Crossbar)的重配時(shí)間。同時(shí),由于實(shí)現(xiàn)了兩跳步間接轉(zhuǎn)發(fā)策略,因此具備一定的路由容錯(cuò)能力。RotorNet的缺點(diǎn)主要體現(xiàn)在:對(duì)于非均勻流量,盡管RotorLB協(xié)議可以提高光交換鏈路的利用率,但是該協(xié)議破壞了數(shù)據(jù)流中報(bào)文序列到達(dá)目的節(jié)點(diǎn)的時(shí)間先后順序,從而需要端節(jié)點(diǎn)增加報(bào)文重定序(Reordering)處理,這為端節(jié)點(diǎn)通信性能和通信代價(jià)有一定程度的影響。此外,相對(duì)于單跳步直接轉(zhuǎn)發(fā),兩跳步間接轉(zhuǎn)發(fā)增加了延遲并降低了整體吞吐率。

4.10 Sirius

Sirius[16]是在2020年SIGCOMM國(guó)際會(huì)議上公布的一種面向服務(wù)器或柜頂ToR交換機(jī)的光交換網(wǎng)絡(luò)。Sirius采用扁平的高階光互連結(jié)構(gòu),從而降低了傳統(tǒng)低階電互連多層結(jié)構(gòu)帶來(lái)的擴(kuò)展代價(jià)(Scale Tax)。Sirius網(wǎng)絡(luò)主要由可調(diào)諧激光器和AWGR連接而成,其中可調(diào)諧激光器由多波長(zhǎng)光源和基于半導(dǎo)體光放大器SOA(Semiconductor Optical Amplifier)的波長(zhǎng)選擇器構(gòu)成,固定激光體、可調(diào)激光體和組合激光器等方式均可產(chǎn)生多波長(zhǎng)光源。如圖10所示為一個(gè)由4個(gè)節(jié)點(diǎn)和4個(gè)AWGR構(gòu)成的小規(guī)模Sirius網(wǎng)絡(luò),通過(guò)配置AWGR開(kāi)關(guān)狀態(tài),每個(gè)源節(jié)點(diǎn)可以到達(dá)任意目的節(jié)點(diǎn)。

Figure 10 Interconnection structure and routing method of the Sirius圖10 Sirius互連結(jié)構(gòu)與路由方法

與RotorNet[15]網(wǎng)絡(luò)類(lèi)似,Sirius網(wǎng)絡(luò)采用了基于VLB variant算法[28]的擴(kuò)展算法,即任意源節(jié)點(diǎn)與目的節(jié)點(diǎn)之間都統(tǒng)一借助于某個(gè)中間節(jié)點(diǎn)進(jìn)行路由。這種間接路由將數(shù)據(jù)中心的流量需求矩陣轉(zhuǎn)換為較為均勻的流量需求矩陣,即任何節(jié)點(diǎn)發(fā)送到系統(tǒng)中其他節(jié)點(diǎn)的流量需求基本相同,從而能夠較好地與Sirius網(wǎng)絡(luò)拓?fù)涮卣飨嗥ヅ洹>W(wǎng)絡(luò)節(jié)點(diǎn)按照預(yù)定義的步驟周期性地改變光鏈路連接,即節(jié)點(diǎn)上的每個(gè)收發(fā)器周期性地調(diào)制到所有波長(zhǎng)范圍,從而以Round-Robin循環(huán)方式將報(bào)文發(fā)送到AWGR輸出端口所連接到的所有節(jié)點(diǎn)。為了與基于時(shí)間槽的光鏈路調(diào)度相適應(yīng),注入到Sirius網(wǎng)絡(luò)的報(bào)文采用固定長(zhǎng)度。

Sirius的優(yōu)點(diǎn)體現(xiàn)在:(1)可擴(kuò)展性高。假設(shè)每個(gè)機(jī)柜的ToR交換機(jī)有256個(gè)上行鏈路且AWGR為100端口,則其最大互連規(guī)??梢灾С?5 600(100×256)個(gè)機(jī)柜,這是現(xiàn)有大型數(shù)據(jù)中心規(guī)模的6倍。(2)重構(gòu)速度快。由于將單步調(diào)制技術(shù)替換為多步調(diào)制技術(shù),從而將激光器調(diào)諧時(shí)間從毫秒級(jí)降低為納秒級(jí),大大降低了光網(wǎng)絡(luò)鏈路的重構(gòu)時(shí)間。(3)延遲較低。Sirius光網(wǎng)絡(luò)內(nèi)部采用無(wú)緩沖設(shè)計(jì),只在端節(jié)點(diǎn)上設(shè)置了緩沖區(qū)。并且通過(guò)擁塞控制機(jī)制,使得緩沖區(qū)較小,從而保證獲得可預(yù)測(cè)的低延遲通信。假設(shè)時(shí)間槽設(shè)置為100 ns,報(bào)文長(zhǎng)度為576 B,則16節(jié)點(diǎn)規(guī)模的Sirius網(wǎng)絡(luò)的報(bào)文排隊(duì)延遲最高為1.6 us,端端通信延遲較低。Sirius的缺點(diǎn)體現(xiàn)在:(1)需要精度高于100 ps的細(xì)粒度全局時(shí)間同步,實(shí)現(xiàn)難度較大;(2)需要接收端進(jìn)行報(bào)文重定序,增加了通信開(kāi)銷(xiāo);(3)任何通信報(bào)文都需要中間節(jié)點(diǎn)轉(zhuǎn)發(fā),其效率可能會(huì)低于RotorNet[15]網(wǎng)絡(luò)的RotorLB路由協(xié)議。

4.11 其它

除了上述幾種典型的光電混合網(wǎng)絡(luò)體系結(jié)構(gòu)外,近年來(lái)研究者還提出了HFA(Hybrid Accelerating Architecture)[29]、OpticV(Optical Viaduct network)[30]和FlyCast[31]等。下面具體介紹這3種可重構(gòu)光互連網(wǎng)絡(luò)的特點(diǎn):

(1)HFA是由IBM公司提出的光電混合網(wǎng)絡(luò),其結(jié)構(gòu)與c-Through類(lèi)似。其特點(diǎn)主要體現(xiàn)在該網(wǎng)絡(luò)支持2種工作模式:①周期性地監(jiān)視實(shí)時(shí)業(yè)務(wù)及配置光路,以適應(yīng)業(yè)務(wù)模式需求;②支持應(yīng)用直接通過(guò)API訪問(wèn)控制器,從而根據(jù)應(yīng)用自身需要配置光鏈路。此外,該網(wǎng)絡(luò)支持多跳步和多路徑路由,多跳步可以減少對(duì)機(jī)柜間鏈路重構(gòu)的需求,而多路徑可以提高機(jī)柜間的吞吐率。通過(guò)OpenFlow對(duì)網(wǎng)絡(luò)進(jìn)行重構(gòu)控制,與采用VLAN分配方式相比,具有更低的網(wǎng)絡(luò)重構(gòu)延遲。

(2)OpticV光電混合網(wǎng)絡(luò)的電網(wǎng)絡(luò)部分采用較為常用的3層網(wǎng)絡(luò)結(jié)構(gòu)(即接入層、匯聚層和核心層)方式構(gòu)建。區(qū)別于c-Through和Helios網(wǎng)絡(luò)所采用的光網(wǎng)絡(luò)與電網(wǎng)絡(luò)相對(duì)分離的傳統(tǒng)混合模式,OpticV將3層中的所有交換機(jī)連接到基于MEMS的光交換機(jī)。該網(wǎng)絡(luò)使更多的報(bào)文可以通過(guò)光網(wǎng)絡(luò)交換,因此具有更高的能效比。但是,將系統(tǒng)中所有電交換機(jī)連接到MEMS光交換機(jī),將使得系統(tǒng)可擴(kuò)展性受到限制,所以其較為適合中小規(guī)模的系統(tǒng)級(jí)互連。

(3)FlyCast網(wǎng)絡(luò)結(jié)構(gòu)與FireFly較為相似,其改進(jìn)之處是為網(wǎng)絡(luò)增加了分光鏡BS(Beam Splitter),從而配合開(kāi)關(guān)鏡面SM支持反射、透射和混合3種工作模式。其中,混合模式下原始光束被分為反射和透射2部分,從而可將數(shù)據(jù)從發(fā)送者組播到多個(gè)目的接收者,這對(duì)于提高組播聚合通信效率具有優(yōu)勢(shì)。

4.12 綜合比較

表1綜合比較了上述幾種典型的可重構(gòu)光互連網(wǎng)絡(luò)。就網(wǎng)絡(luò)架構(gòu)類(lèi)型而言,目前的設(shè)計(jì)方案主要包括光電混合互連網(wǎng)絡(luò)和全光互連網(wǎng)絡(luò)。其中,光電混合互連網(wǎng)絡(luò)在傳統(tǒng)的電報(bào)文交換網(wǎng)絡(luò)架構(gòu)的基礎(chǔ)上額外增加了光線路交換互連網(wǎng)絡(luò),因此這種架構(gòu)對(duì)傳統(tǒng)互連網(wǎng)絡(luò)具有較強(qiáng)的兼容性。但是,與純電互連網(wǎng)絡(luò)相比,光電混合互連網(wǎng)絡(luò)無(wú)法在設(shè)備開(kāi)銷(xiāo)、能耗和網(wǎng)絡(luò)管理等方面做出顯著改進(jìn),因此全光互連網(wǎng)絡(luò)架構(gòu)將更具有技術(shù)發(fā)展優(yōu)勢(shì),也逐漸成為近期光互連網(wǎng)絡(luò)研究的焦點(diǎn),該研究發(fā)展趨勢(shì)從表1中也可以看出來(lái)。

Table 1 Comprehensive comparison of typical reconfigurable optical interconnection networks

5 結(jié)束語(yǔ)

隨著“光進(jìn)電退”趨勢(shì)的不斷演進(jìn),光互連網(wǎng)絡(luò)技術(shù)將最有希望成為解決傳統(tǒng)電互連網(wǎng)絡(luò)技術(shù)發(fā)展所面臨問(wèn)題的關(guān)鍵技術(shù)。目前,光互連技術(shù)發(fā)展主要體現(xiàn)在2方面,(1)在模塊級(jí)方面,隨著工藝的進(jìn)步,光電子集成特別是硅基光電集成與共模封裝CPO(Co-Packaged Optical)將成為未來(lái)面向HPC和DC互連網(wǎng)絡(luò)技術(shù)發(fā)展的重要使能技術(shù)。(2)在系統(tǒng)級(jí)方面,尋求光電混合或全光互連等新型高速網(wǎng)絡(luò)架構(gòu),突破當(dāng)前以電互連為主要特征的網(wǎng)絡(luò)體系結(jié)構(gòu),將從根本上解決電互連網(wǎng)絡(luò)發(fā)展所面臨的問(wèn)題??芍貥?gòu)光互連網(wǎng)絡(luò)是SDN技術(shù)在光網(wǎng)絡(luò)控制層面上的擴(kuò)展應(yīng)用,有希望在未來(lái)較大規(guī)模的HPC和DC系統(tǒng)互連中得到實(shí)際應(yīng)用。

不同于現(xiàn)有電網(wǎng)絡(luò)的SDN技術(shù),可重構(gòu)光互連網(wǎng)絡(luò)需要進(jìn)一步考慮光網(wǎng)絡(luò)的特殊性,包括物理傳輸損傷、網(wǎng)絡(luò)性能的約束和按需分配帶寬的需求等,以滿足光網(wǎng)絡(luò)的特殊需求。具體而言,可重構(gòu)光互連網(wǎng)絡(luò)需要?jiǎng)討B(tài)管理和控制光調(diào)制、光層路由、波長(zhǎng)分配和波長(zhǎng)轉(zhuǎn)換等任務(wù),從而實(shí)現(xiàn)根據(jù)上層通信應(yīng)用需求對(duì)各種光層資源進(jìn)行統(tǒng)一且靈活的調(diào)度和控制。目前,隨著大數(shù)據(jù)和云服務(wù)等新興技術(shù)的快速發(fā)展,數(shù)據(jù)中心業(yè)務(wù)與應(yīng)用的通信帶寬需求出現(xiàn)快速增長(zhǎng)的態(tài)勢(shì),正推動(dòng)著光網(wǎng)絡(luò)資源向著開(kāi)放性以及支持軟件定義的方向發(fā)展。支持軟件定義的可重構(gòu)光互連網(wǎng)絡(luò)不僅可以緩解光網(wǎng)絡(luò)和多種網(wǎng)絡(luò)技術(shù)融合背景下的網(wǎng)絡(luò)業(yè)務(wù)調(diào)度、網(wǎng)絡(luò)資源管理和網(wǎng)絡(luò)運(yùn)營(yíng)成本控制的難度,而且還可以提高網(wǎng)絡(luò)資源利用率。

猜你喜歡
機(jī)柜交換機(jī)路由
淺談火電廠DCS 系統(tǒng)的接地
面向未來(lái)網(wǎng)絡(luò)的白盒交換機(jī)體系綜述
基于振動(dòng)臺(tái)試驗(yàn)的通信機(jī)柜地震易損性分析
局域網(wǎng)交換機(jī)管理IP的規(guī)劃與配置方案的探討
鐵路數(shù)據(jù)網(wǎng)路由匯聚引發(fā)的路由迭代問(wèn)題研究
一種計(jì)算機(jī)聯(lián)鎖機(jī)柜工程圖紙的自動(dòng)化生成方法
一種基于虛擬分扇的簇間多跳路由算法
更換匯聚交換機(jī)遇到的問(wèn)題
基于地鐵交換機(jī)電源設(shè)計(jì)思考
路由重分發(fā)時(shí)需要考慮的問(wèn)題