国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向大規(guī)模計算集群的多軌分割網(wǎng)絡

2017-12-08 05:30元國軍郇志軒孫凝暉
計算機研究與發(fā)展 2017年11期
關(guān)鍵詞:高帶寬數(shù)據(jù)包端口

邵 恩 元國軍 郇志軒 曹 政 孫凝暉

1(計算機體系結(jié)構(gòu)國家重點實驗室(中國科學院計算技術(shù)研究所) 北京 100190) 2(中國科學院大學 北京 100049)

(shaoen@ncic.ac.cn)

面向大規(guī)模計算集群的多軌分割網(wǎng)絡

邵 恩1,2元國軍1,2郇志軒1,2曹 政1孫凝暉1

1(計算機體系結(jié)構(gòu)國家重點實驗室(中國科學院計算技術(shù)研究所) 北京 100190)2(中國科學院大學 北京 100049)

(shaoen@ncic.ac.cn)

在千萬億次規(guī)模的系統(tǒng)中,互連網(wǎng)絡設計面臨新的挑戰(zhàn).高性能節(jié)點和大規(guī)模是構(gòu)建千萬億次系統(tǒng)的主要技術(shù)趨勢,不斷提高的節(jié)點計算能力要求互連網(wǎng)絡提供更高的性能,而不斷增大的規(guī)模又對互連網(wǎng)絡擴展性提出了更高的要求.此外,隨著系統(tǒng)規(guī)模的增大,集合通信的執(zhí)行時間也在不斷增長,制約了應用的擴展性,集合通信的性能需要得到進一步優(yōu)化.除性能之外,可靠性問題也隨著系統(tǒng)規(guī)模的擴大而日益嚴重.而隨著計算節(jié)點性能的不斷提高,互連網(wǎng)絡逐漸成為限制大規(guī)模計算機系統(tǒng)性能的瓶頸.互連網(wǎng)絡核心部件交換芯片可提供的聚合網(wǎng)絡帶寬受到工藝和封裝技術(shù)的限制.從網(wǎng)絡結(jié)構(gòu)與交換機結(jié)構(gòu)的協(xié)同設計思想出發(fā),提出了一種在交換機聚合帶寬限定的條件下多軌分割網(wǎng)絡結(jié)構(gòu)和設計方法.通過數(shù)學建模和網(wǎng)絡模擬仿真,分析了該多軌分割網(wǎng)絡的性能邊界.評測結(jié)果表明:該網(wǎng)絡可將短消息(長度小于128 B)的平均延遲性能提高10倍以上,為以短消息占多數(shù)的數(shù)據(jù)中心網(wǎng)絡的性能優(yōu)化提供了新思路.

大規(guī)模計算集群;多軌網(wǎng)絡;帶寬分割;數(shù)據(jù)中心網(wǎng)絡;大規(guī)模網(wǎng)絡模擬

隨著集群計算機計算節(jié)點性能的不斷提高,互連網(wǎng)絡性能逐漸成為大規(guī)模計算集群整體性能提升的瓶頸,然而網(wǎng)絡核心部件——“交換芯片”——的性能提升受到工藝和封裝的限制[1-2]: 1)高速串行收發(fā)器(serdes)的帶寬提升緩慢,端口帶寬提升依賴于多路高速串行鏈路的并行,例如100 Gbps端口采用4路25 Gbps鏈路;2)封裝技術(shù)限制交換芯片的引腳數(shù)目,進而限制交換芯片能夠集成的serdes數(shù)目.因此,工藝和封裝技術(shù)限定交換芯片能夠提供聚合網(wǎng)絡帶寬.在聚合帶寬限定的條件下,傳統(tǒng)追求高階高帶寬的best-effort設計方法將不再有效,交換芯片設計必須考慮最優(yōu)的帶寬分配,如圖1所示:1)多端口策略.端口帶寬低,端口數(shù)目多.2)高帶寬策略.端口帶寬高,端口數(shù)目少.

Fig. 1 Strategy between high bandwidth and multi-port圖1 高帶寬與多端口策略示意圖

直觀地,多端口策略是高帶寬策略的細化分割,更有利于提高組網(wǎng)的靈活性,降低網(wǎng)絡流的調(diào)度粒度,而高帶寬策略則有利于快速緩解網(wǎng)絡的擁塞.為評估2種策略的優(yōu)劣,本文分別使用滿足不同策略的交換芯片模型,構(gòu)建相同拓撲的網(wǎng)絡,通過理論分析和網(wǎng)絡模擬進行全系統(tǒng)網(wǎng)絡性能的評估.

為構(gòu)建相同的拓撲,本文借鑒多軌網(wǎng)絡(multi-rail network)的思想,提出了多軌分割網(wǎng)絡結(jié)構(gòu):將多端口交換芯片抽象為高帶寬交換芯片的細分,將其構(gòu)建的網(wǎng)絡(為方便描述,仍稱為多軌網(wǎng)絡)抽象為基于高帶寬交換芯片網(wǎng)絡的多軌化實現(xiàn).但有別于傳統(tǒng)多軌網(wǎng)絡,本文的多軌網(wǎng)絡由多層低帶寬網(wǎng)絡構(gòu)成,且層與層之間并不獨立,消息可以在不同層之間切換傳輸.本文多軌網(wǎng)絡的構(gòu)建方法、流量分配、消息分片和路由策略,是本文重點討論的內(nèi)容,是對基于高階交換芯片的組網(wǎng)方法的有益探索.

本文的網(wǎng)絡模擬均基于胖樹拓撲展開,模擬結(jié)果表明多端口策略相比高帶寬策略有3個優(yōu)點:1)使網(wǎng)絡具有可擴展性的網(wǎng)絡流量調(diào)度與帶寬分配策略;2)在降低基礎網(wǎng)絡硬件成本的同時,將短消息(長度小于128 B)的延遲性能提高近10倍以上;3)隨網(wǎng)絡流量注入率的增加,長消息傳輸(長度大于2 048 B)出現(xiàn)擁塞的情況會提前10%以上.因此,多軌分割網(wǎng)絡能夠給目前短消息占據(jù)多數(shù)的數(shù)據(jù)中心網(wǎng)絡帶來明顯的性能提升.

1 相關(guān)研究

本文所提出的帶寬分割化網(wǎng)絡借鑒多軌網(wǎng)絡的設計思想.多軌網(wǎng)絡是指網(wǎng)絡拓撲互聯(lián)節(jié)點間用大于一層以上的彼此獨立且具有相同結(jié)構(gòu)和功能的網(wǎng)絡相互連接,這種網(wǎng)絡通過設置多層并行子網(wǎng)的設計思路,將大規(guī)模計算集群從單純高聚合帶寬交換模式中解放,成為另一種網(wǎng)絡設計選擇.網(wǎng)絡分割度指網(wǎng)絡內(nèi)具有彼此獨立且具有相同結(jié)構(gòu)和功能的子網(wǎng)絡的個數(shù);而單軌網(wǎng)絡作為多軌網(wǎng)絡的特例,其分割度為1.同時,多軌網(wǎng)絡因其擁有靈活配置網(wǎng)絡帶寬資源的設計可能,通過優(yōu)化設計可以達到比高聚合帶寬設計性能更好的可能.但是本文提出的帶寬分割網(wǎng)絡結(jié)構(gòu),在包括帶寬鏈路分配、消息分片、路由和虛通道切換等策略方面,與傳統(tǒng)多軌網(wǎng)絡有很大區(qū)別.

對于傳統(tǒng)的多軌網(wǎng)絡結(jié)構(gòu),已經(jīng)有較為充分的研究.文獻[3]結(jié)合多核網(wǎng)絡系統(tǒng)對多軌網(wǎng)絡的需求,針對在系統(tǒng)軟件層對多軌網(wǎng)絡子網(wǎng)利用率低的問題,提出獨立的一套軟件層通信庫,結(jié)合該通信庫對小包通信場景的優(yōu)化,降低CPU通信開銷并提高通信并行性能.此論文所提出的通信協(xié)議優(yōu)化策略,并未全面分析多軌網(wǎng)絡的網(wǎng)絡結(jié)構(gòu).文獻[4]基于InfiniBand與RDMA的特征,通過增高帶寬數(shù)據(jù)傳輸緩沖方式提高多軌HCA網(wǎng)絡的通信性能,并針對MPI多軌中數(shù)據(jù)亂序處理進行優(yōu)化.文獻[5]希望通過在多軌網(wǎng)絡中設置靜態(tài)和動態(tài)的路徑分配算法來提升網(wǎng)絡的整體通信性能,雖然對路徑分配算法描述得非常清楚且給出數(shù)學模型,但是從模擬的結(jié)果上看整體通信性能并沒有提高,反而有惡化的現(xiàn)象.文獻[6]結(jié)合MPI在多軌網(wǎng)絡中上對失效備援和系統(tǒng)災備恢復方面的需求,設計并評測一套建立在多軌網(wǎng)絡上的系統(tǒng)切換與恢復算法.

文獻[7]面向Quadrics QsNetII集群系統(tǒng),基于多核多軌網(wǎng)絡設計思想,通過增加源節(jié)點到目的節(jié)點的連接通道,即增加通信聚合帶寬,提高網(wǎng)絡的通信性能.該文與本文雖然都對多軌網(wǎng)絡的結(jié)構(gòu)和通信行為進行分析,但是本文旨在不改變通信總帶寬的基礎上進行優(yōu)化策略,與文獻[7]側(cè)重點不同.

Fig. 2 The algorithm comparison between of multi-rail and single-rail圖2 多軌與單軌鏈路算法對比

目前已實現(xiàn)[8-9]針對多軌QsNetII網(wǎng)絡中基于多端口RDMA軟件通信層數(shù)據(jù)分片和歸集算法,并對小數(shù)據(jù)包進行性能評測.2篇論文對多軌網(wǎng)絡研究集中在彌補現(xiàn)有軟件通信庫功能的不足,與本文側(cè)重點不同.文獻[10]著眼于uDAPL獨立通信庫在對多軌網(wǎng)絡中通信功能支持方面進行的補充,通過實現(xiàn)2種多軌網(wǎng)絡的配置方法,實現(xiàn)在InfiniBand集群上的多軌通信性能優(yōu)化,也與本文側(cè)重點不同.

文獻[11-12]中分別對微軟與Facebook數(shù)據(jù)中心網(wǎng)絡的負載特性進行了分析,通過真實的網(wǎng)絡平臺實驗測試,分析并總結(jié)主流數(shù)據(jù)中心網(wǎng)絡負載的數(shù)據(jù)包長度上具有固定性分布,超過50%以上的負載數(shù)據(jù)包長保持在100~400 B之間,表明低負載數(shù)據(jù)包在數(shù)據(jù)中心網(wǎng)絡中占有重要比重.

2 多軌網(wǎng)絡模型分析

本節(jié)將基于網(wǎng)絡多軌化構(gòu)建思想對網(wǎng)絡多軌分割方法進行闡述,結(jié)合傳輸延遲性能理論推導,對其性能預期進行量化分析.

2.1多軌分割方法論

建立多軌網(wǎng)絡存在的2種策略:1)少量的高帶寬端口,即高帶寬策略;2)較多的低帶寬端口,即多端口策略.本節(jié)的目的就在于分析2種策略的性能差別,使用如下場景:單軌網(wǎng)絡使用一個高帶寬端口,多軌網(wǎng)絡使用多個低帶寬端口,但二者的聚合帶寬相同.下面將根據(jù)網(wǎng)絡結(jié)構(gòu)搭建方法和多軌分割在網(wǎng)絡通信行為上的變化進行說明.

這2種構(gòu)建多軌網(wǎng)絡的策略在拓撲搭建上,多端口策略是由高帶寬策略進行多軌帶寬分割變形而來,如圖2網(wǎng)絡分割方法所示,該方法不受網(wǎng)絡拓撲結(jié)構(gòu)所限制.圖2中40 Gbps link的網(wǎng)絡鏈路為具有少量端口數(shù)且單條端口和鏈路帶寬都較高的高帶寬策略;10 Gbps link的網(wǎng)絡鏈路為具有較多端口數(shù)且單條端口和鏈路帶寬都較低的多端口策略.圖2羅列出從系統(tǒng)進程層面之間的數(shù)據(jù)傳輸通路,具體的分割算法可以視為將40 Gbps link的每一條鏈路都拆分為4條10 Gbps link,由此保證單條鏈路的聚合帶寬不變,同時單一鏈路的目的也要相應地多出端口來承載分割多出的鏈路.

網(wǎng)絡通信行為方面,40 Gbps link網(wǎng)絡鏈路由于網(wǎng)卡端口的唯一性,會在進程分發(fā)task和目的NIC接收數(shù)據(jù)的2處鏈路造成網(wǎng)卡數(shù)據(jù)聚集(NIC gather)現(xiàn)象;又由于網(wǎng)絡流量指向非定向行,在網(wǎng)絡鏈路傳輸過程中也會在交換機上產(chǎn)生交換數(shù)據(jù)聚集(switch gather)現(xiàn)象. 而這些收集現(xiàn)象在數(shù)據(jù)載荷較輕的流量傳輸過程中,往往會造成網(wǎng)絡的局部擁塞.

Fig. 3 Network delay model of single-rail圖3 單軌網(wǎng)絡延遲模型

在進行網(wǎng)絡分割后,在圖2所示的10 Gbps link網(wǎng)絡中,進程在進行task分發(fā)以及網(wǎng)絡轉(zhuǎn)發(fā)時,由于網(wǎng)卡和交換設備端口的分割,數(shù)據(jù)包產(chǎn)生開始以及網(wǎng)絡轉(zhuǎn)發(fā)階段都進行task pipeline.而在交換機將數(shù)據(jù)傳輸?shù)侥康木W(wǎng)卡時,由于網(wǎng)卡端口的分割帶來的可選傳輸端口增多,因而任播通信方式也可以得以實現(xiàn).雖然從以上分析來看,分割后網(wǎng)絡在通信行為上能夠更好地進行流水線傳輸;但是由于單端口帶寬降低,網(wǎng)絡中對單一數(shù)據(jù)包轉(zhuǎn)發(fā)時延也會增大.而多軌網(wǎng)絡中網(wǎng)絡分割策略究竟對網(wǎng)絡性能有怎樣的影響,還需要進行定量分析.

2.2多軌網(wǎng)絡性能理論分析

本節(jié)理論分析做如下設定:虛切入網(wǎng)絡中的最大包長(MTU)為L,共有n個長度為L的網(wǎng)絡數(shù)據(jù)包連續(xù)傳輸,網(wǎng)絡接口控制器的輸入帶寬為BW_i,單軌模式下的網(wǎng)絡鏈路帶寬為BW_sl,多軌模式下單層網(wǎng)絡鏈路帶寬為BW_ml,交換機單級交換延遲為Tswitch,單級傳輸延遲為Tline,網(wǎng)絡跳步數(shù)為Hop_cnt,并行網(wǎng)絡層數(shù)為m,數(shù)據(jù)傳輸延遲為LBW_sl與交換延遲Tswitch.令單軌網(wǎng)絡的帶寬BW_sl=m×BW_ml,網(wǎng)絡控制器輸入帶寬BW_i=k×BW_ml.

單軌網(wǎng)絡的信息注入模型如圖3所示.

在單軌網(wǎng)絡中,消息的傳輸延遲Ts為

Ts= t0+(n-1)×max(LBW_sl,Tswitch)+

Hop_cnt×(Tswitch+Tline)+LBW_sl.

(1)

根據(jù)多軌網(wǎng)絡中的2種策略相應地存在對應的信息注入模型,如圖4所示.多軌網(wǎng)絡中,消息的傳輸延遲Tm為

Tm=t0+(m-1) ×LBW_i+(nm-1) ×

max(LBW_ml,m×LBW_i,Tswitch)+

Hop_cnt×(Tswitch+Tline)+LBW_ml.

(2)

設如下場景:單軌網(wǎng)絡使用一個高帶寬端口,多軌網(wǎng)絡使用多個低帶寬端口,但二者的聚合帶寬相同.令單軌網(wǎng)絡的帶寬BW_sl=m×BW_ml,網(wǎng)絡控制器輸入帶寬BW_i=k×BW_ml.可得多端口策略比高帶寬策略的性能提升倍數(shù)為

G=((n-1)×max(L(m×BW_ml),Tswitch)+

Hop_cnt×(Tswitch+Tline)+L(m×BW_ml))

max(LBW_ml,m×L(k×BW_ml),Tswitch)+

Hop_cnt×(Tswitch+Tline)+LBW_ml).

可得多端口策略比高帶寬策略的性能提升倍數(shù)為

G=((n-1)×max(L(m×BW_ml),Tswitch)+

Hop_cnt×(Tswitch+Tline)+L(m×BW_ml))

max(LBW_ml,m×L(k×BW_ml),Tswitch)+

Hop_cnt×(Tswitch+Tline)+LBW_ml).

(3)

(Tswitch+Tline))((1+kn-1n)×LBW_ml+

當持續(xù)傳輸消息時,n趨于無窮,則提升倍數(shù)的極限為

(4)

(Tswitch+Tline)+k×L(m×n×BW_ml))

Hop_cnt×(Tswitch+Tline)).

當持續(xù)傳輸消息時,n趨于無窮,則提升倍數(shù)的極限為

(5)

(Tswitch+Tline))((k+m2n-mn-

Hop_cnt×(Tswitch+Tline)).

當持續(xù)傳輸消息時,n 趨于無窮,則提升倍數(shù)的極限為

(6)

(Tswitch+Tline)+L(n×BW_ml))

((1+(m2-m)(k×n)-mn)×LBW_ml+

當持續(xù)傳輸消息時,n 趨于無窮,則提升倍數(shù)的極限為

(7)

5) 當Tswitch≥max(LBW_ml,m×L(k×BW_ml))時,則提升倍數(shù)為

(Tswitch+Tline)+L(m×n×BW_ml))

(Tswitch+Tline)+L(n×BW_ml)).

當持續(xù)傳輸消息時,n趨于無窮,則提升倍數(shù)的極限為

(8)

(9)

(10)

當Tswitch≥LBW_ml時(數(shù)據(jù)包較短),多端口策略相比高帶寬策略可以獲得m 倍的性能提升;當Tswitchlt;LBW_ml時(數(shù)據(jù)包較長),多端口策略的性能提升卻與m成反比.

因此若采用多端口策略,端口的數(shù)目不能無限制增加,其取值受限于k,即網(wǎng)絡接口控制器輸入帶寬與單層網(wǎng)絡帶寬的比值.當m=k 時,才能保證包長較大的情況下,多端口策略仍具有與高帶寬策略相當?shù)男阅?

通過3級胖樹為例,對以上分析進行計算,設Tswitch=130ns,Tline=100ns,BW_ml=10Gbps,k=6,Hop_cnt=5,n=10 000.可得不同分割度情況下,多軌策略性能提升倍數(shù)性能曲線,如圖5所示.數(shù)據(jù)負載重量都集中在小于數(shù)據(jù)包長度為128B的區(qū)間,多軌網(wǎng)絡中實行多端口策略較高帶寬網(wǎng)絡有性能提升優(yōu)勢.實際網(wǎng)絡情況具體如何還需要進行模擬仿真進行驗證.

Fig. 5 Performance improvement in multi-rail with multi-port圖5 多軌網(wǎng)絡多端口策略性能提升倍數(shù)

3 多軌胖樹網(wǎng)絡實例分析

Fig. 6 The topological difference between high bandwidth and multi-rail in Fat-tree network圖6 高帶寬網(wǎng)絡與多軌胖樹網(wǎng)絡的拓撲區(qū)別

標準胖樹(Fat-tree)拓撲結(jié)構(gòu)如圖6(a)結(jié)構(gòu)所示,具有等分帶寬、低網(wǎng)絡直徑以及易于擴展的特點.圖6(a)所示胖樹拓撲中,方框圖形為網(wǎng)絡交換節(jié)點,圓形圖形為產(chǎn)生數(shù)據(jù)和接收數(shù)據(jù)的網(wǎng)卡.圖6中網(wǎng)絡交換節(jié)點各有4個端口,即A~D.在能夠滿足高帶寬、低延遲和可擴展的需求之外,由于標準胖樹拓撲結(jié)構(gòu)包含眾多冗余鏈路的結(jié)構(gòu)特性,有效避免網(wǎng)絡中死鎖問題的出現(xiàn).

結(jié)合本文中所提出的數(shù)據(jù)分片算法,如2.1節(jié)中多軌分割方法所述,標準胖樹網(wǎng)絡進行帶寬分割后,形成的多軌分割胖樹網(wǎng)絡的拓撲結(jié)構(gòu)如圖6(b)所示.圖6(b)是基于圖6(a)標準胖樹網(wǎng)絡進行分割度為4的帶寬分割變換后形成的網(wǎng)絡結(jié)構(gòu).標準胖樹單條帶寬為40 Gbps,而多軌胖樹由于將單條40 Gbps鏈路分割成4條10 Gbps鏈路,對網(wǎng)絡交換節(jié)點的端口需求也正比增加.在圖6(b)中,每個交換節(jié)點的都有A~P共16個端口.多軌胖樹在拓撲結(jié)構(gòu)中的單層網(wǎng)絡擁塞可能性提高,因此需要設計專有負載均衡、數(shù)據(jù)處理以及通道處理算法.

本節(jié)將針對多軌胖樹網(wǎng)絡的特殊結(jié)構(gòu),設計流量均衡算法、數(shù)據(jù)分片算法以及路由和虛通道切換策略.為簡單描述,本文中所有的交換機都簡寫為SW,在集群中作為數(shù)據(jù)源的網(wǎng)卡簡寫為NIC.

3.1網(wǎng)絡流量均衡算法設計

網(wǎng)絡的多軌化為原有網(wǎng)絡提供更加豐富的路徑選擇,但是如果網(wǎng)絡中流量出現(xiàn)不均衡,網(wǎng)絡性能不但不會提高反倒會因為單一子網(wǎng)擁塞而導致更多不可預期的局部熱點,網(wǎng)絡也會更容易出現(xiàn)網(wǎng)絡擁塞.因此,配套的網(wǎng)絡流量均衡策略對多軌網(wǎng)絡優(yōu)勢體現(xiàn)尤為重要.本節(jié)通過對多軌網(wǎng)絡中原址路由算法進行優(yōu)化,提出一種基于單步均衡思想的流量均衡算法.下面以分割度為4的多軌胖樹網(wǎng)絡舉例來闡述該算法實現(xiàn)過程,設胖樹網(wǎng)絡中共有編號為0~3的4套胖樹子網(wǎng).

保證在已有的多軌網(wǎng)絡源址路由算法中,網(wǎng)絡數(shù)據(jù)包由系統(tǒng)進程產(chǎn)生后,統(tǒng)一集中在4路子網(wǎng)的“0”號子網(wǎng),即默認第1路子網(wǎng).首先保證圖2中Task Division階段NIC網(wǎng)卡產(chǎn)生原始數(shù)據(jù)輸出的4路帶寬均衡,即進程產(chǎn)生數(shù)據(jù)包根據(jù)網(wǎng)絡分割度將task進行分段,形成適合多軌網(wǎng)絡均衡的數(shù)據(jù)包個數(shù),由此保證NIC輸出的每一路都是10 Gbps帶寬.設連接相同源節(jié)點與目的節(jié)點的4條子網(wǎng)鏈路為同一組端口,即端口組.在多軌網(wǎng)絡的傳輸過程期間,在交換機的數(shù)據(jù)發(fā)送的中間處理過程中(即在原址路由表修改的步驟中)根據(jù)發(fā)往的目的節(jié)點端口ID,設置交換機的網(wǎng)絡局部變量,在每個交換設備中記錄下每個端口組上具有相同目的端口組和源發(fā)送節(jié)點的數(shù)據(jù)包所占用的端口號為歷史端口占用號.根據(jù)歷史端口占用號,設置當前數(shù)據(jù)包轉(zhuǎn)發(fā)端口,并修正歷史端口信息.在設置當前轉(zhuǎn)發(fā)端口時,可以通過依次遞增同一端口組中的端口號方式進行歷史端口占用號更新,保證每次發(fā)往統(tǒng)一交換設備的數(shù)據(jù)包能夠平均分配在4個子網(wǎng)上.

以上是多軌網(wǎng)絡中的端口流量均衡算法,在實現(xiàn)上是通過每次數(shù)據(jù)包在多軌網(wǎng)絡中轉(zhuǎn)發(fā)時進行單步修正的.結(jié)合3.3節(jié)中VOQ模式的使用策略,也可以采用相同機理的網(wǎng)絡虛通道流量均衡算法來進行實現(xiàn),實現(xiàn)機理與端口均衡相同,這里不再贅述.這種算法在實現(xiàn)上的優(yōu)勢:1)該流量均衡算法避免使用全局網(wǎng)絡狀態(tài)信息,僅使用網(wǎng)絡局部狀態(tài)信息就可以保證多軌分割網(wǎng)絡中同端口組子網(wǎng)間的流量均衡;2)算法可以在源址路由算法執(zhí)行網(wǎng)絡包頭修改的過程中進行,沒有額外的算法執(zhí)行時間損耗;3)根據(jù)分割度和交換設備的實際端口個數(shù)決定算法局部變量的存儲損耗,不會額外占用交換設備的過多存儲空間.

3.2數(shù)據(jù)分片算法

如圖7所示,進行重載數(shù)據(jù)(長消息)傳輸時,根據(jù)網(wǎng)絡分割度,對重載數(shù)據(jù)進行數(shù)據(jù)分割.根據(jù)圖5中不同分割度多軌網(wǎng)絡對網(wǎng)絡負載的傳輸性能的提升倍數(shù),考慮到數(shù)據(jù)分片帶來的信息包頭的冗余信息,合理安排重載數(shù)據(jù)的分片方式,由此一個長消息被分拆為若干數(shù)據(jù)塊,分發(fā)到多個鏈路中同時傳遞.

Fig. 7 Patch transmission of weight load圖7 重載數(shù)據(jù)包信息分片傳輸

在圖7某重載數(shù)據(jù)在分隔度為4的多軌網(wǎng)絡中,對重載數(shù)據(jù)分片后形成N個輕載數(shù)據(jù)包分別攜帶N個數(shù)據(jù)塊.這些輕載數(shù)據(jù)包依次被分配到鏈路A~D之中,在每個鏈路中,標記此消息在該鏈路中的首包和尾包,而此時所有鏈路中傳輸?shù)臄?shù)據(jù)包均為分片后的輕載荷數(shù)據(jù)包.由于單層網(wǎng)絡中該消息數(shù)據(jù)包的傳輸保序,因此目標節(jié)點通過對首包和尾包的記錄,即可獲得消息在單層網(wǎng)絡中的接收狀態(tài).本研究后續(xù)在對多軌網(wǎng)絡實際性能進行評測時所使用的流量,都將使用本節(jié)中網(wǎng)絡接口設計中數(shù)據(jù)包分片后形成的流量進行評測.

這樣的網(wǎng)絡接口和重載數(shù)據(jù)包處理方法,雖然增加對單個重載包的處理成本,但是通過對多鏈路并行使用,并根據(jù)數(shù)據(jù)長度決定鏈路的使用個數(shù),實現(xiàn)多鏈路的負載均衡和高效利用,因此在網(wǎng)絡整體性能角度上看,是極具性價比的網(wǎng)絡實現(xiàn)模式.

3.3路由和虛通道切換策略

虛擬輸出隊列(virtual output queuing, VOQ)結(jié)構(gòu)可以很好地解決隊頭阻塞(HOL blocking)問題,在VOQ結(jié)構(gòu)下,每個輸出端口設置多個虛通道緩沖隊列.如圖8(a)(b)所示,不同的數(shù)據(jù)包由于傳輸路徑不同,因而在節(jié)點A和節(jié)點B上流經(jīng)不同的虛通道,緩解數(shù)據(jù)端口緩沖排隊的擁塞情況,因此在單、多軌網(wǎng)絡中利用VOQ和數(shù)據(jù)包分片策略,都能發(fā)揮數(shù)據(jù)包傳輸并行化的優(yōu)勢.結(jié)合圖5中關(guān)于分隔度不同,多軌網(wǎng)絡對不同數(shù)據(jù)包長傳輸性能的差異,網(wǎng)絡結(jié)構(gòu)設計者除了需要確定重負載數(shù)據(jù)包數(shù)據(jù)分片的策略和多軌分割度之外,還需要考慮虛通道的設置個數(shù).不同分割度情況下,虛通道策略實現(xiàn)的數(shù)據(jù)并行效果如圖8(c)所示.在圖8(c)中表現(xiàn)單軌網(wǎng)絡(即分割度為1)和分割度為2的多軌網(wǎng)絡,在端口緩沖空間總量相同的前提下,對同樣重量的數(shù)據(jù)載荷進行數(shù)據(jù)分片后的并行傳輸效果.相同分割度情況下,受到端口轉(zhuǎn)發(fā)速率的影響,數(shù)據(jù)分片大小沒有本質(zhì)影響數(shù)據(jù)轉(zhuǎn)發(fā)效率.

Fig. 8 The design of virtual channel圖8 虛通道設計與效果示意圖

由于端口緩沖空間總量相同,分割度為2的多軌網(wǎng)絡的單獨虛通道緩沖隊列是單軌隊列的一半,因此數(shù)據(jù)轉(zhuǎn)發(fā)效率雖然在并行處理上提高1倍效率,但是獨立隊列有效使用率出現(xiàn)50%的性能折損.如果圖8(c)中多軌虛通道緩沖區(qū)的深度與對應單軌虛通道保持一致,即在現(xiàn)有基礎上緩沖區(qū)的深度翻倍,圖8中的“Busy”就也能進行數(shù)據(jù)包轉(zhuǎn)發(fā),而整體數(shù)據(jù)轉(zhuǎn)發(fā)性能也將翻一倍.因此,要想進一步發(fā)揮多軌網(wǎng)絡在VOQ模式下的性能,應該根據(jù)網(wǎng)絡熱點嚴重程度的不同,合理分配端口轉(zhuǎn)發(fā)緩沖區(qū)的深度.

4 網(wǎng)絡分割性能模擬與分析

本節(jié)中所進行的性能仿真都是基于(m-port,n-tree)胖樹網(wǎng)絡所進行的.其中,m為網(wǎng)絡中交換設備的端口總數(shù),n為樹的最大層級數(shù),記(m-port,n-tree)胖樹網(wǎng)絡為FT(m,n),樹的高度為n+1,包含2×(m/2)n個計算節(jié)點和(2n-1)×(m/2)n-1個交換機.本節(jié)仿真使用m=4,n=3標準胖樹網(wǎng)絡以及其多軌分割后形成的多軌胖樹網(wǎng)絡為仿真對象.在仿真所采用的網(wǎng)絡拓撲中,網(wǎng)絡交換節(jié)點從結(jié)構(gòu)上共分為3級,最接近節(jié)點網(wǎng)絡一級的網(wǎng)絡交換節(jié)點為邊界交換節(jié)點asymmetricSW,作為第3級switch.除此之外,另外還有2級交換節(jié)點,其中距離網(wǎng)卡最遠的switch層級為第1級,另外一層為第2級.流量產(chǎn)生方式上,仿真流量采用uniform隨機流量模型.NIC端帶寬分割和網(wǎng)絡數(shù)據(jù)流量分配后,switch,asymmetricSW交換機的工作時鐘周期f(單位為ns)與數(shù)據(jù)位寬b(單位為B)的設置對網(wǎng)絡性能的影響;分割度d作為區(qū)別多軌分割網(wǎng)絡結(jié)構(gòu)的特征參數(shù).網(wǎng)絡交換節(jié)點的聚合帶寬B計算為

(11)

因此在各個參數(shù)共同影響下的B,可以表示當前網(wǎng)絡聚合帶寬,其中d還單獨表示當前因為帶寬分割度不同所表現(xiàn)的多軌網(wǎng)絡拓撲結(jié)構(gòu)的差異.結(jié)合NIC端帶寬分割和網(wǎng)絡數(shù)據(jù)流量分配的情況下,本節(jié)仿真分為2部分:1)多軌極限性能仿真,用以模擬網(wǎng)絡多軌分割后網(wǎng)絡可達到的極限性能;2)數(shù)據(jù)均衡分片對比仿真,用以驗證多軌網(wǎng)絡的性能提升倍數(shù)理論.

本文網(wǎng)絡模擬基于cHPPNetSim(configurable HPP network simulator)多功能可配置并行網(wǎng)絡模擬器進行仿真.該模擬平臺主要功能是對大規(guī)模并行網(wǎng)絡進行細粒度的模擬,模擬結(jié)果可以得到網(wǎng)絡整體性能、局部性能,獲取每個網(wǎng)絡部件運行狀態(tài).

4.1多軌極限性能仿真

本次仿真中的多軌網(wǎng)絡除對40 Gbps網(wǎng)絡進行帶寬4等分之外,子網(wǎng)間流量可以交叉,與此對比的對象是未分割獨立帶寬10 Gbps網(wǎng)絡.獨立10 Gbps網(wǎng)絡可以表示4路獨立10 Gbps網(wǎng)絡在網(wǎng)絡設備獨立、子網(wǎng)路徑獨立不共用情況下40 Gbps網(wǎng)絡的網(wǎng)絡性能.由于子網(wǎng)間沒有相互串擾,較少因跨網(wǎng)串擾導致的局部子網(wǎng)擁塞,所以10 Gbps網(wǎng)絡模擬組的網(wǎng)絡性能在理論上是40 Gbps網(wǎng)絡進行帶寬4等分網(wǎng)絡的極限性能.

如圖9所示的是2個網(wǎng)絡的最大延遲性能差對比圖.受工作頻率影響,以高頻工作的40 Gbps的分割網(wǎng)絡在接收帶寬小于32 Gbps的情況下,分割后性能優(yōu)于10 Gbps獨立網(wǎng)絡50%左右;但從高強度注入率的情況看出,分割40 Gbps網(wǎng)絡性能在處理擁塞情況時仍然處于劣勢,性能較10 Gbps獨立網(wǎng)絡要差很多.

Fig. 9 The simulation of flow partitioning strategy of multi-rail圖9 流量均分策略多軌分割性能仿真

Fig. 10 Supplement simulation of flow partitioning圖10 流量均分策略性能補充仿真

為減少因為工作頻率較高帶來的網(wǎng)絡延遲性能提高,本節(jié)仿真特意增加40 Gbps,f=32 ns,b=40 B,d=4仿真組,代表40 Gbps分割網(wǎng)絡在低工作頻率情況下網(wǎng)絡特性的情況.如圖10所示2個網(wǎng)絡的最大延遲性能差對比圖.可以看出整體趨勢受到降低工作頻率的影響,在低注入率時性能提升幅度減小到10%左右.

4.2數(shù)據(jù)均衡分片對比仿真

在2.2節(jié)中對多軌網(wǎng)絡性能的理論分析,沒有考慮到網(wǎng)絡擁塞情況;但是在實際網(wǎng)絡中,擁塞情況往往會讓網(wǎng)絡性能急劇惡化.結(jié)合之前對多軌網(wǎng)絡的研究,多軌網(wǎng)絡雖然擁有結(jié)構(gòu)靈活,且解放高帶寬網(wǎng)絡設備依賴等問題;但是由于網(wǎng)絡路徑數(shù)量隨分割度正比增加,分割多軌網(wǎng)絡的通信性能會因任何一條擁塞的鏈路導致整個網(wǎng)絡的通信傳輸性能下滑.

本次仿真中對20 Gbps,40 Gbps,80 Gbps高帶寬網(wǎng)絡中傳輸?shù)臄?shù)據(jù)包進行數(shù)據(jù)均勻分片,比如4 096 B數(shù)據(jù)包在4×10 Gbps網(wǎng)絡中,通過(4 096-16)/4+16=1 036 B在4段均分數(shù)據(jù)分片網(wǎng)絡中4路子網(wǎng)并行傳輸1 036 B數(shù)據(jù)包.結(jié)合之前所實現(xiàn)的子網(wǎng)間流量均衡,4 096 B數(shù)據(jù)包在40 Gbps高帶寬網(wǎng)絡傳輸?shù)木W(wǎng)絡性能對比對象即為:1 036 B數(shù)據(jù)包在4×10 Gbps多軌分割網(wǎng)絡傳輸?shù)木W(wǎng)絡性能,以此類推.所得到的網(wǎng)絡特性結(jié)果如圖11~16所示:

Fig. 11 Network latency performance of multi-rail in 4×10 Gbps圖11 4×10 Gbps多軌網(wǎng)絡延遲性能

Fig. 12 The performance of light load圖12 輕重量數(shù)據(jù)載荷性能對比

Fig. 13 The performance of medium load圖13 中等重量數(shù)據(jù)載荷等性能對比

Fig. 14 The performance of weight load圖14 重度重量數(shù)據(jù)載荷度性能對比

Fig. 15 The bandwidth variation of maximum load圖15 網(wǎng)絡的最大負載帶寬變化曲線

Fig. 16 Practical improvement of multi-real network圖16 多軌網(wǎng)絡的實際性能提升倍數(shù)

4×10 Gbps多軌網(wǎng)絡進行不同數(shù)據(jù)大小傳輸下的網(wǎng)絡延遲性能,如圖11曲線所示.多軌網(wǎng)絡的網(wǎng)絡傳輸性能隨網(wǎng)絡負載數(shù)據(jù)包的包長逐步增大,網(wǎng)絡出現(xiàn)擁塞的情況就會更早地出現(xiàn),且網(wǎng)絡負載數(shù)據(jù)包越長,網(wǎng)絡最大流量帶寬隨之降低.結(jié)合圖1中的數(shù)據(jù)可體現(xiàn)出網(wǎng)絡最大流量帶寬的范圍.

40 Gbps高帶寬胖樹網(wǎng)絡與4×10 Gbps多軌網(wǎng)絡在輕重量數(shù)據(jù)載荷傳輸情況下網(wǎng)絡性能對比結(jié)果,如圖12所示.圖12中128 B→44 B與256 B→76 B兩條線表示在4×10 Gbps分割網(wǎng)絡中分別傳輸44 B和76 B兩種數(shù)據(jù)流量情況下的網(wǎng)絡延遲性能,分別與128 B和256 B兩種數(shù)據(jù)負載在40 Gbps高帶寬胖樹網(wǎng)絡中的網(wǎng)絡性能進行對比.圖12顯示,128 B和256 B這2種數(shù)據(jù)負載屬于輕重量數(shù)據(jù)載荷;在這種負載情況下,多軌網(wǎng)絡表現(xiàn)出網(wǎng)絡傳輸性能優(yōu)勢的現(xiàn)象,且多軌網(wǎng)絡的接收帶寬也比單獨高帶寬網(wǎng)絡要高.

40 Gbps高帶寬胖樹網(wǎng)絡與4×10 Gbps多軌網(wǎng)絡在中等重量數(shù)據(jù)載荷傳輸情況下網(wǎng)絡性能對比結(jié)果,如圖13所示.從圖13中可以看出,在512 B,1 024 B,2 048 B這3種數(shù)據(jù)負載屬于中等重量數(shù)據(jù)載荷;在這種負載情況下,多軌網(wǎng)絡表現(xiàn)出網(wǎng)絡傳輸性能出現(xiàn)劣勢的現(xiàn)象,且多軌網(wǎng)絡的接收帶寬也比單獨高帶寬網(wǎng)絡要低.

40 Gbps高帶寬胖樹網(wǎng)絡與4×10 Gbps多軌網(wǎng)絡在重度重量數(shù)據(jù)載荷傳輸情況下網(wǎng)絡性能對比結(jié)果,如圖14所示.從圖14中可以看出,在4 096 B和8 192 B這2種數(shù)據(jù)負載屬于重度重量數(shù)據(jù)載荷;在這種負載情況下,多軌網(wǎng)絡表現(xiàn)出網(wǎng)絡傳輸性能出現(xiàn)更加劣勢的現(xiàn)象,多軌網(wǎng)絡的接收帶寬不僅比單獨高帶寬網(wǎng)絡要低,而且比中等載荷仿真中更加明顯.

40 Gbps高帶寬胖樹網(wǎng)絡與4×10 Gbps多軌網(wǎng)絡在不同數(shù)據(jù)包長載荷情況下網(wǎng)絡的最大負載帶寬情況,如圖15所示.從圖15中看到,在較低負載情況下虛線的多軌網(wǎng)絡接收帶寬還處于較高的位置,但在數(shù)據(jù)負載大于400 B后,表明多軌網(wǎng)絡的整體網(wǎng)絡處理能力的最大負載帶寬要低于高帶寬胖樹網(wǎng)絡,且隨著網(wǎng)絡負載包長的增加,最大負載帶寬有進一步降低的趨勢.從圖15中的波峰位置可以看出,無論是高帶寬胖樹網(wǎng)絡還是多軌網(wǎng)絡,2種網(wǎng)絡都有最佳網(wǎng)絡負載點,低于或高于該點網(wǎng)絡整體性能都會有所下滑.針對同一總網(wǎng)絡帶寬情況下網(wǎng)絡分割程度不同,如何影響最佳網(wǎng)絡負載點的移動,還需對如40 Gbps高帶寬胖樹網(wǎng)絡與8×5 Gbps多軌網(wǎng)絡對比仿真的類似仿真進行分析.

單鏈路帶寬20 Gbps,40 Gbps,80 Gbps的3種網(wǎng)絡的高帶寬胖樹網(wǎng)絡與相應的10 Gbps多軌網(wǎng)絡在不同數(shù)據(jù)包長載荷情況下的實際策略性能提升倍數(shù),如圖16所示.結(jié)合第2節(jié)的理論分析可以證實,理論分析的整體趨勢確實存在,但是受到網(wǎng)絡擁塞和多軌網(wǎng)絡流量分配策略誤差等綜合情況的影響,提升倍數(shù)與理論分析結(jié)果間存在差異.

5 總結(jié)及下一步工作

在交換芯片聚合帶寬確定的條件下,本文所提出的多軌分割網(wǎng)絡的每條子網(wǎng)帶寬需要根據(jù)分割度進行等比例縮減.網(wǎng)絡多軌分割后,帶寬分配的網(wǎng)絡可擴展性更好.應對多發(fā)性局部流量擁塞造成的網(wǎng)絡阻塞情況,單一的高帶寬網(wǎng)絡拓撲結(jié)構(gòu)由于流量分配、擁塞避免算法的路徑切換顆粒度不夠小,無法避免多發(fā)性擁塞造成的擁塞情況.

輕載荷網(wǎng)絡負載下的網(wǎng)絡延遲性能根據(jù)分割度的提升也展現(xiàn)出了正比優(yōu)勢.在實際的系統(tǒng)中,短消息占據(jù)了數(shù)據(jù)中心網(wǎng)絡的大部分流量.在文獻[11]中,根據(jù)Facebook數(shù)據(jù)中心對數(shù)據(jù)負載情況的統(tǒng)計結(jié)果,主要數(shù)據(jù)負載集中在長度小于200 B的數(shù)據(jù)包上,基于Hadoop的大數(shù)據(jù)應用也存在同樣的負載特征.以PageRank為例,在map,shuffle,reduce在內(nèi)的3個主要工作階段中數(shù)據(jù)負載包長接近60%的負載流量都集中在小于128 B區(qū)間.

分析結(jié)果表明,本文的多軌分割網(wǎng)絡有利于提高短消息的延遲性能,因此該結(jié)論對于優(yōu)化實際網(wǎng)絡系統(tǒng)的性能有重要指導意義.評測結(jié)果客觀體現(xiàn)了多軌分割網(wǎng)絡自身固有的性能局限.在網(wǎng)絡擁塞狀態(tài)下,相較于高帶寬網(wǎng)絡,多軌分割網(wǎng)絡會出現(xiàn)更快的網(wǎng)絡性能下降現(xiàn)象.而該現(xiàn)象的主要成因是網(wǎng)絡流量處于非絕對平均狀態(tài),且多軌策略鋪設了更多的網(wǎng)絡路徑,鏈路出現(xiàn)擁塞的概率得到增加.所以,網(wǎng)絡設計者在進行多軌網(wǎng)絡設計時,除了需要根據(jù)網(wǎng)絡路徑和端口虛通道流量分配策略進行體系結(jié)構(gòu)設計,還需要結(jié)合網(wǎng)絡流量的實際熱點特征,針對網(wǎng)絡熱點端口,加大網(wǎng)絡端口隊列緩沖深度或提升關(guān)鍵路徑的路徑帶寬,來緩解多軌化分割后熱點路徑的擁塞問題.本文對多軌分割網(wǎng)絡的研究還僅僅處于初步探索階段.未來工作中會將非對稱網(wǎng)絡與網(wǎng)絡多軌化相結(jié)合.深入網(wǎng)絡局部性多軌化策略以及非對稱交換機方面的研究,針對實際大規(guī)模計算集群部署時出現(xiàn)的問題展開新的工作.同時,也將會進一步深入到目前實際集群應用的相關(guān)通信特性分析,探討針對各種實際應用使用下的網(wǎng)絡多軌優(yōu)化設計方法和相應的優(yōu)化策略.網(wǎng)絡多軌化策略目前值得進一步研究的問題還有很多,該思想會逐步成為高性能計算和大數(shù)據(jù)網(wǎng)絡體系結(jié)構(gòu)的重要研究熱點.

致謝感謝中國科學院國有資產(chǎn)經(jīng)營有限責任公司對本論文的大力支持!感謝中科院計算所的王展博士對本論文在網(wǎng)絡體系結(jié)構(gòu)方面的技術(shù)指導!

[1]Wang Dawei, Cao Zheng, Liu Xinchun, et al. Research and design of high performance interconnection network switch [J]. Journal of Computer Research and Development, 2008, 45(12): 2069-2078 (in Chinese)(王達偉, 曹政, 劉新春, 等. 高性能互聯(lián)網(wǎng)絡交換機研究與設計[J]. 計算機研究與發(fā)展, 2008, 45(12): 2069-2078)

[2]Cao Zheng. Research on interconnection network of dawning 5000 high productivity computer[D]. Beijing: Institute of Computing Technology, Chinese Academy of Sciences, 2009 (in Chinese)(曹政. 曙光5000高效能計算機系統(tǒng)的互連網(wǎng)絡研究[D]. 北京: 中國科學院計算技術(shù)研究所,2009)

[3]Brunet E, Trahay F, Denis A. A multicore-enabled multirail communication engine[C]Proc of IEEE Int Conf on Cluster Computing. Piscataway, NJ: IEEE, 2008: 316-321

[4]Liu Jiuxing, Vishnu A, Panda D K. Building multirail infiniband clusters: MPI-level design and performance evaluation[C]Proc of the 2004 ACMIEEE Conf on Supercomputing. Los Alamitos, CA: IEEE Computer Society, 2004: 33

[5]Salvador C. Static allocation of multirail networks [EBOL]. (2012-08-16)[2015-07-18].https:www.researchgate.netpublication2546969_Static_Allocation_of_Multirail_Networks

[6]Raikar S, Subramoni H, Kandalla, K, et al. Designing network failover and recovery in MPI for multi-rail infiniband clusters[C]Proc of IEEE Parallel and Distributed Processing Symp Workshops. Piscataway, NJ: IEEE, 2012: 1160-1167

[7]Qian Ying, Afsahi A. Efficient RDMA-based multi-port collectives on multi-rail QsNet II clusters[C]Proc of the 20th Int Conf on Parallel and Distributed Processing. Los Alamitos, CA: IEEE Computer Society, 2006: 273

[8]Qian Ying, Afsahi A. High performance RDMA-based multi-port all-gather on multi-rail QsNet Ⅱ[C]Proc of the 21st Int Symp on High Performance Computing Systems and Applications (HPCS 2007). Piscataway, NJ: IEEE, 2007: 3

[9]Qian Ying, Afsahi A. RDMA-based and SMP-aware multi-port all-gather on multi-rail QsNet Ⅱ SMP clusters[C]Proc of the 42nd Int Conf on Parallel Processing. Piscataway, NJ: IEEE, 2007: 48

[10]Cai Jie, Rendell A P, Strazdins P E. Non-threaded and threaded approaches to multirail communication with uDAPL[C]Proc of the 6th IFIP Int Conf on Network amp; Parallel Computing (NPC 2009). Piscataway, NJ: IEEE, 2009: 233-239

[11]Arjun R, Hongyi Z, Jasmeet B, et al. Inside the social network’s (datacenter) network [J]. ACM SIGCOMM Computer Communication Review, 2015, 45(5): 123-137

[12]Theophilus B, Ashok A, Aditya A, et al. Understanding data center traffic characteristics [J]. ACM SIGCOMM Computer Communication Review, 2010, 40(1): 92-99

ShaoEn, born in 1988. PhD candidate, engineer. His main research interests focus on SDN, big data, high performance interconnection, and optical network.

YuanGuojun, born in 1983. PhD candidate, engineer. His main research interests include computer architecture and optical flexible network.

HuanZhixuan, born in 1990. MSc candidate. His main research interests include inter-connection networks, computer architec-ture and parallel computing.

CaoZheng, born in 1982. PhD, associate professor. His main research interests include high performance computer archi-tecture, high performance interconnection, and optical interconnection.

SunNinghui, born in 1968. PhD, professor, PhD supervisor. His main research interests include computer architecture, high perfor-mance computing and distributed OS.

ASlicedMulti-RailInterconnectionNetworkforLarge-ScaleClusters

Shao En1,2, Yuan Guojun1,2, Huan Zhixuan1,2, Cao Zheng1, and Sun Ninghui1

1(State Key Laboratory of Computer Architecture (Institute of Computing Technology, Chinese Academy of Sciences), Beijing 100190)2(University of Chinese Academy of Sciences, Beijing 100049)

In large-scale clusters, the design of interconnection network is facing greater challenges. Firstly, the increasing computing capacity of a single node requires the network providing higher bandwidth and lower latency. Secondly, the increasing number of nodes requires the network to have extremely better scalability. Thirdly, the increasing scale of system leads to worse performance of collective communication, which is harmful to the performance and scalability of applications. Fourthly, the increasing number of devices requires the network to have better reliability. As the performance of computing nodes keeps increasing, interconnection network has gradually become the bottleneck of large-scale computing system. However, switch chip, the core component of interconnection network, can offer limited aggregate bandwidth because of the constraint of physical processes and packaging technologies. With the co-design of network architecture and switch micro-architecture, this paper proposes a sliced multi-rail network architecture regarding the given aggregate bandwidth. Through mathematical modeling and network simulation, we studies the performance boundaries of sliced multi-rail network. Evaluation results show that the average latency of the short message (less than 128B)can be increased by more than 10 times.

large-scale clusters; multi-rail network; bandwidth division; data center network; large-scale network simulation

2015-12-09;

2016-05-25

國家重點研發(fā)計劃項目(2016YFB0200300,2016YFGX030148,2016YFB0200205,2016GZKF0JT006);國家自然科學基金項目(61572464,61331008,61402444);國家“八六三”高技術(shù)研究發(fā)展計劃基金項目(2015AA01A301);華為科研基金項目(YB2015070066);中國科學院戰(zhàn)略性先導科技專項(XDB24060600)

This work was supported by the National Key Research and Development Program of China (2016YFB0200300, 2016YFGX030148, 2016YFB0200205, 2016GZKF0JT006), the National Natural Science Foundation of China(61572464, 61331008, 61402444), the National High Technology Research and Development Program of China (863 Program) (2015AA01A301), the Scientific Research Foundation of Huawei (YB2015070066), and the CAS Strategic Priority Program (XDB24060600).

TP303

猜你喜歡
高帶寬數(shù)據(jù)包端口
二維隱蔽時間信道構(gòu)建的研究*
一種有源二端口網(wǎng)絡參數(shù)計算方法
一種端口故障的解決方案
民用飛機飛行模擬機數(shù)據(jù)包試飛任務優(yōu)化結(jié)合方法研究
多按鍵情況下,單片機端口不足的解決方法
Achronix推出突破性的FPGA系列產(chǎn)品
現(xiàn)有網(wǎng)絡架構(gòu)及遷移方案
C#串口高效可靠的接收方案設計
城市光網(wǎng)引領高帶寬應用探討
面向PPPoE用戶的寬帶測速平臺的搭建和應用研究