段曉東/DUAN Xiaodong,程偉強(qiáng)/CHENG Weiqiang,王瑞雪/WANG Ruixue,王雯萱/WANG Wenxuan
(中國(guó)移動(dòng)通信有限公司研究院,中國(guó) 北京 100053 )
人工智能(AI)業(yè)務(wù)發(fā)展經(jīng)歷了漫長(zhǎng)的歷程。20世紀(jì)50年代,人們開(kāi)始嘗試模擬人腦的神經(jīng)網(wǎng)絡(luò)來(lái)解決計(jì)算機(jī)視覺(jué)和語(yǔ)音識(shí)別的問(wèn)題。但由于當(dāng)時(shí)無(wú)法解決神經(jīng)網(wǎng)絡(luò)計(jì)算復(fù)雜度高和可解釋性差的問(wèn)題, AI 技術(shù)進(jìn)入了“寒冬”。2012—2017年,Hinton等提出卷積神經(jīng)網(wǎng)絡(luò),大大推動(dòng)計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)的發(fā)展。同時(shí),基于深度學(xué)習(xí)的AlphaGo戰(zhàn)勝圍棋世界冠軍,進(jìn)一步點(diǎn)燃人們?cè)谏疃葘W(xué)習(xí)領(lǐng)域探索的熱情與信心。2017—2022 年,基于大型神經(jīng)網(wǎng)絡(luò)的Transformer架構(gòu)出現(xiàn),該模型可以更好地捕捉序列之間的依賴關(guān)系,開(kāi)啟了基于深度學(xué)習(xí)的AI 新時(shí)代。2022 年11 月,OpenAI公司開(kāi)發(fā)的大規(guī)模智能語(yǔ)言模型ChatGPT 橫空出世。ChatGPT 結(jié)合了GPT-3.5 和GPT-4 系列的大型語(yǔ)言模型,展現(xiàn)出驚人的語(yǔ)言能力[1]。該模型深入各個(gè)領(lǐng)域,在引爆全球科技領(lǐng)域的同時(shí),推動(dòng)AI產(chǎn)業(yè)全面進(jìn)入大模型時(shí)代。因此,ChatGPT的出現(xiàn)具有跨時(shí)代的意義。
近年來(lái),隨著算力經(jīng)濟(jì)的高速發(fā)展[2],AI業(yè)務(wù)在自動(dòng)駕駛、語(yǔ)音識(shí)別和自然語(yǔ)言處理等領(lǐng)域取得了許多重大成就,并涌現(xiàn)出人工智能即服務(wù)(AIaaS)和模型即服務(wù)(MaaS)兩種新型服務(wù)模式。當(dāng)前,教育、醫(yī)療、智慧城市和智能制造等行業(yè)迫切需要AI 賦能,例如:華為云、百度云、阿里云和騰訊云等提供AIaaS的企業(yè)均為用戶提供高品質(zhì)的人工智能服務(wù)。MaaS 擁有經(jīng)過(guò)大量數(shù)據(jù)集訓(xùn)練和優(yōu)化的模型,可為用戶提供圖像識(shí)別、自然語(yǔ)言處理、預(yù)測(cè)分析和欺詐檢測(cè)等服務(wù)。
為推動(dòng)AI業(yè)務(wù)的發(fā)展,中國(guó)陸續(xù)給予政策方面的扶持和激勵(lì),特別是東數(shù)西算工程的全面啟動(dòng),給AI大模型在智能計(jì)算(后文簡(jiǎn)稱為“智算”)中心的快速發(fā)展注入強(qiáng)大的助推劑[3]。AI 大模型的參數(shù)量呈指數(shù)級(jí)增長(zhǎng),有力地驅(qū)動(dòng)了“大模型”向“超大模型”演進(jìn)。與此同時(shí),智算規(guī)模和智算需求也呈指數(shù)級(jí)增長(zhǎng)。預(yù)計(jì)截至2030 年,智算占比將達(dá)到70%,AI技術(shù)將廣泛落地,中國(guó)將迎來(lái)智算中心建設(shè)的熱潮。
為加速智能經(jīng)濟(jì)發(fā)展和產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型,智算中心作為一種新的關(guān)鍵性信息基礎(chǔ)設(shè)施進(jìn)入公眾視野。智算中心既不同于超算中心,也不同于互聯(lián)網(wǎng)企業(yè)和運(yùn)營(yíng)商的云計(jì)算中心。智算中心既要借鑒超算中心分布式集群計(jì)算架構(gòu),以支持超大規(guī)模、復(fù)雜度高及多樣性的數(shù)據(jù)處理,又要參照云計(jì)算服務(wù)模式,采用統(tǒng)一的架構(gòu)和統(tǒng)一的應(yīng)用程序編程接口(API),以屏蔽底層技術(shù)細(xì)節(jié),降低使用門(mén)檻,向不同行業(yè)提供普適且靈活多樣的智算服務(wù)。
隨著業(yè)內(nèi)領(lǐng)軍企業(yè)競(jìng)相推出千億、萬(wàn)億級(jí)參數(shù)量的大模型,以圖形處理器(GPU)、神經(jīng)網(wǎng)絡(luò)處理器(NPU)為代表的AI 算力設(shè)施迅猛發(fā)展,使得智算中心底層GPU 算力部署規(guī)模達(dá)到萬(wàn)卡級(jí)別?;跀?shù)據(jù)并行、模型并行的分布式訓(xùn)練成為處理超大模型和超大數(shù)據(jù)集的關(guān)鍵手段。智算中心集群算力與GPU 算力、節(jié)點(diǎn)數(shù)量、線性加速比、有效運(yùn)行時(shí)間等呈正相關(guān),需要計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源的協(xié)同設(shè)計(jì),具體表現(xiàn)在以下幾個(gè)方面:在計(jì)算方面,單機(jī)算力無(wú)法支撐海量訓(xùn)練數(shù)據(jù),需要將計(jì)算任務(wù)切分到單機(jī)級(jí)別,以并行計(jì)算的集群架構(gòu)方式提供算力服務(wù);在存儲(chǔ)方面,為突破計(jì)算節(jié)點(diǎn)中大量密集數(shù)據(jù)存取帶來(lái)的算力瓶頸,搭建機(jī)械硬盤(pán)(HDD)、固態(tài)硬盤(pán)(SSD)、存儲(chǔ)類(lèi)內(nèi)存(SCM)等異構(gòu)存儲(chǔ)集群,以降低數(shù)據(jù)訪問(wèn)時(shí)延;在網(wǎng)絡(luò)方面,構(gòu)建連接中央處理器(CPU)、GPU、存儲(chǔ)等異構(gòu)算力資源的總線級(jí)、高性能無(wú)阻塞交換網(wǎng)絡(luò),以提升網(wǎng)絡(luò)通信性能和穩(wěn)定性;在機(jī)房建設(shè)方面,提前規(guī)劃“風(fēng)火水電”等基建設(shè)施,引入液冷系統(tǒng),實(shí)現(xiàn)低電源使用效率(PUE)數(shù)據(jù)中心的高能效利用。由此可見(jiàn),傳統(tǒng)智算中心正在向新型智算中心演進(jìn)。
面向智能計(jì)算業(yè)務(wù)的發(fā)展,新型智算中心圍繞“算、存、網(wǎng)、管、效”五大核心技術(shù)全面升級(jí),以提升GPU 集群算力,打造多元融合存儲(chǔ),構(gòu)建高速無(wú)損網(wǎng)絡(luò),管控異構(gòu)算力池化,以高效節(jié)能控制為目標(biāo),構(gòu)建標(biāo)準(zhǔn)統(tǒng)一、技術(shù)領(lǐng)先、兼容開(kāi)放的智算底座。
隨著GPU 高速發(fā)展和算力需求的激增,算力中心正向集約化方向發(fā)展,數(shù)據(jù)中心從“云化時(shí)代”轉(zhuǎn)向“算力時(shí)代”。在傳統(tǒng)云數(shù)據(jù)中心中,傳統(tǒng)的計(jì)算處理任務(wù)或離線大數(shù)據(jù)計(jì)算任務(wù)以服務(wù)器或虛擬機(jī)(VM)為池化對(duì)象,網(wǎng)絡(luò)負(fù)責(zé)提供服務(wù)器或VM之間的連接,并聚焦業(yè)務(wù)部署效率及網(wǎng)絡(luò)自動(dòng)化能力;而智算中心是服務(wù)于人工智能的數(shù)據(jù)計(jì)算中心,以GPU 等AI 訓(xùn)練芯片為主,并以提升單位時(shí)間、單位能耗下的運(yùn)算能力和質(zhì)量為核心訴求,為AI 計(jì)算提供更大的計(jì)算規(guī)模和更快的計(jì)算速度。傳統(tǒng)數(shù)據(jù)中心通過(guò)CPU來(lái)執(zhí)行計(jì)算任務(wù),且網(wǎng)絡(luò)帶寬需求為10~100 Gbit/s,并通過(guò)使用傳輸控制協(xié)議(TCP)來(lái)完成內(nèi)存數(shù)據(jù)的讀?。欢撬阒行木W(wǎng)絡(luò)主要用于承載AI 訓(xùn)練業(yè)務(wù),其GPU 算力與CPU 相比擁有更高的計(jì)算性能,且網(wǎng)絡(luò)帶寬需求為100~400 Gbit/s(甚至達(dá)到800 Gbit/s),并可以通過(guò)遠(yuǎn)程直接內(nèi)存訪問(wèn)(RDMA)來(lái)減少傳輸時(shí)延。由于RDMA 網(wǎng)絡(luò)對(duì)于丟包異常敏感,0.01%的丟包率就會(huì)使RDMA 吞吐率變?yōu)?,因此大模型訓(xùn)練的智算中心網(wǎng)絡(luò)需要縮短迭代過(guò)程中通信傳輸數(shù)據(jù)的時(shí)間,降低通信開(kāi)銷(xiāo),從而減少GPU 的計(jì)算等待,提升計(jì)算效率。綜上所述,零丟包、大帶寬、低時(shí)延、高可靠是智算中心網(wǎng)絡(luò)最為關(guān)鍵的特征。
與傳統(tǒng)數(shù)據(jù)中心不同,智算中心主要用于承載AI 模型訓(xùn)練業(yè)務(wù),其通信流量主要具備周期性、流量大、同步突發(fā)等特點(diǎn)。在大模型訓(xùn)練過(guò)程中,通信具有非常強(qiáng)的周期性,且每輪迭代的通信模式保持一致。在每一輪的迭代過(guò)程中,不同節(jié)點(diǎn)間的流量保持同步,同時(shí)流量以on-off的模式突發(fā)式傳輸。以上通信流量的特點(diǎn)對(duì)智算中心網(wǎng)絡(luò)提出了3 個(gè)需求:
1)高接入帶寬是基礎(chǔ)。大模型訓(xùn)練對(duì)帶寬比較敏感。網(wǎng)絡(luò)對(duì)通信影響最大的是序列化時(shí)延,網(wǎng)絡(luò)通信質(zhì)量主要取決于有效帶寬。但由于網(wǎng)絡(luò)交換的時(shí)間占比不高,靜態(tài)時(shí)延對(duì)模型訓(xùn)練效率影響不大。
2)網(wǎng)絡(luò)級(jí)負(fù)載均衡是關(guān)鍵。保證通信的有效帶寬是模型訓(xùn)練的關(guān)鍵因素之一。負(fù)載均衡技術(shù)是保證有效帶寬的關(guān)鍵。集合操作通信的完成時(shí)間由最慢節(jié)點(diǎn)的完成時(shí)間決定。在無(wú)阻塞網(wǎng)絡(luò)中,若鏈路負(fù)載不均衡,則會(huì)導(dǎo)致沖突流有效帶寬下降,沖突流的序列化時(shí)間增加。
3)高健壯網(wǎng)絡(luò)是保障。網(wǎng)絡(luò)持續(xù)高可用、故障業(yè)務(wù)無(wú)中斷是分布式系統(tǒng)運(yùn)行的基礎(chǔ)。在高健壯網(wǎng)絡(luò)中,鏈路故障時(shí)網(wǎng)絡(luò)會(huì)達(dá)到亞毫秒級(jí)的自動(dòng)收斂,降低了網(wǎng)絡(luò)故障對(duì)網(wǎng)絡(luò)擁塞的影響。
如今,基于融合以太網(wǎng)承載遠(yuǎn)程直接內(nèi)存訪問(wèn)(RoCE)協(xié)議的智算中心網(wǎng)絡(luò),通常采用五元組哈希實(shí)現(xiàn)鏈路負(fù)載分擔(dān)技術(shù),以及基于優(yōu)先級(jí)的流量控制(PFC)、顯式擁塞通告(ECN)協(xié)議實(shí)現(xiàn)網(wǎng)絡(luò)無(wú)損,該方案對(duì)智算中心網(wǎng)絡(luò)提出4個(gè)挑戰(zhàn):
挑戰(zhàn)1:傳統(tǒng)基于逐流的等價(jià)多路徑路由(ECMP)負(fù)載均衡技術(shù)在流量數(shù)小的情況下會(huì)失效,導(dǎo)致流量在交換網(wǎng)絡(luò)發(fā)生極化,鏈路負(fù)載不均。當(dāng)智算中心網(wǎng)絡(luò)中存在大象流時(shí),很容易發(fā)生多個(gè)流被散列到相同的路徑上的情況,從而導(dǎo)致鏈路過(guò)載,造成某個(gè)物理鏈路負(fù)載過(guò)大,甚至?xí)霈F(xiàn)擁塞而導(dǎo)致報(bào)文丟棄。
挑戰(zhàn)2:隨著網(wǎng)絡(luò)規(guī)模的不斷提升,報(bào)文交換方式由單網(wǎng)絡(luò)節(jié)點(diǎn)內(nèi)實(shí)現(xiàn)到單網(wǎng)絡(luò)節(jié)點(diǎn)間多跳實(shí)現(xiàn)轉(zhuǎn)變,各節(jié)點(diǎn)間也從松耦合關(guān)系變化為聯(lián)合轉(zhuǎn)發(fā)。業(yè)界通過(guò)Clos架構(gòu)搭建大規(guī)模分布式轉(zhuǎn)發(fā)結(jié)構(gòu)來(lái)滿足日益增長(zhǎng)的轉(zhuǎn)發(fā)規(guī)模需求。在該架構(gòu)下,各節(jié)點(diǎn)分布式運(yùn)行和自我決策轉(zhuǎn)發(fā)路徑導(dǎo)致無(wú)法完全感知全局信息和實(shí)現(xiàn)最優(yōu)的整網(wǎng)性能。
挑戰(zhàn)3:當(dāng)前流量進(jìn)入網(wǎng)絡(luò)時(shí),在不考慮出端口轉(zhuǎn)發(fā)能力的情況下,流量會(huì)以“推”的方式進(jìn)入網(wǎng)絡(luò)。分布式訓(xùn)練的多對(duì)一通信模型產(chǎn)生大量In-cast 流量,造成設(shè)備內(nèi)部隊(duì)列緩存的瞬時(shí)突發(fā)而導(dǎo)致?lián)砣踔羴G包,造成應(yīng)用時(shí)延的增加和吞吐的下降。PFC 和ECN 都是擁塞產(chǎn)生后的事后干預(yù)的被動(dòng)擁塞控制機(jī)制,它們無(wú)法從根本上避免擁塞。
挑戰(zhàn)4:AI 訓(xùn)練網(wǎng)絡(luò)是一個(gè)封閉的專(zhuān)用網(wǎng)絡(luò),針對(duì)訓(xùn)練效率,通過(guò)Underlay直接承載AI訓(xùn)練任務(wù),不再劃分Overlay 平面,使傳統(tǒng)SDN 能力失效。同時(shí),傳統(tǒng)的智能流分析技術(shù)已無(wú)法滿足高性能無(wú)損網(wǎng)絡(luò)隱患識(shí)別、故障預(yù)測(cè)和閉環(huán)等運(yùn)維可視化需求。
綜合當(dāng)前所面臨的挑戰(zhàn),未來(lái)智算中心網(wǎng)絡(luò)將向3個(gè)方向進(jìn)行演進(jìn):一是從“流”分發(fā)到“包”分發(fā)演進(jìn),即通過(guò)提供逐報(bào)文容器動(dòng)態(tài)負(fù)載均衡機(jī)制,消除哈希極化問(wèn)題,實(shí)現(xiàn)單流多路徑負(fù)載分擔(dān),提升有效帶寬,降低長(zhǎng)尾時(shí)延;二是從“局部”決策到“全局”調(diào)度演進(jìn),即實(shí)現(xiàn)全局視野的轉(zhuǎn)發(fā)調(diào)度機(jī)制,并實(shí)現(xiàn)集中式管理運(yùn)維、分布式控制轉(zhuǎn)發(fā),提高網(wǎng)絡(luò)可用性;三是從“推”流到“拉”流演進(jìn),即從被動(dòng)擁塞控制向依賴“授權(quán)請(qǐng)求”和“響應(yīng)機(jī)制”的主動(dòng)流控轉(zhuǎn)變,最大限度地避免網(wǎng)絡(luò)擁塞產(chǎn)生,同時(shí)需要引入全局集中式管理系統(tǒng),提升網(wǎng)絡(luò)自動(dòng)化及可視化能力。
基于以上面向未來(lái)智算中心的三大演進(jìn)方向,我們創(chuàng)新性地提出一種全調(diào)度以太網(wǎng)(GSE)技術(shù)方案,打造無(wú)阻塞、高帶寬、低時(shí)延、自動(dòng)化的新型智算中心網(wǎng)絡(luò),助力AIGC等高性能業(yè)務(wù)快速發(fā)展[4]。
為打造無(wú)阻塞、高帶寬、低時(shí)延的高性能網(wǎng)絡(luò),GSE架構(gòu)應(yīng)運(yùn)而生,如圖1所示。該架構(gòu)主要包括計(jì)算層、網(wǎng)絡(luò)層和控制層3 個(gè)層級(jí),包含計(jì)算節(jié)點(diǎn)、網(wǎng)絡(luò)邊緣處理節(jié)點(diǎn)(GSP)、網(wǎng)絡(luò)核心交換節(jié)點(diǎn)(GSF)及全調(diào)度操作系統(tǒng)(GSOS)4類(lèi)設(shè)備[4]。
▲圖1 全調(diào)度以太網(wǎng)(GSE)技術(shù)體系分層架構(gòu)
1)控制層:包含全局集中式GSOS,以及GSP和GSF設(shè)備端分布式節(jié)點(diǎn)操作系統(tǒng)(NOS)。其中,集中式GSOS用于提供網(wǎng)絡(luò)全局信息,實(shí)現(xiàn)基于全局信息編址、日常運(yùn)維管理等功能;設(shè)備端NOS 可實(shí)現(xiàn)動(dòng)態(tài)負(fù)載均衡、動(dòng)態(tài)全局調(diào)度隊(duì)列(DGSQ)調(diào)度等分布式網(wǎng)絡(luò)管控功能。
2)網(wǎng)絡(luò)層:GSE 網(wǎng)絡(luò)主要實(shí)現(xiàn)GSP 和GSF 協(xié)同,構(gòu)建出具備全局流量調(diào)度、鏈路負(fù)載均衡、流量精細(xì)反壓等技術(shù)融合的交換網(wǎng)絡(luò)。其中,F(xiàn)abric 部分可支持二層GSF 擴(kuò)展,以滿足更大規(guī)模組網(wǎng)需求。
3)計(jì)算層:即GSE 網(wǎng)絡(luò)服務(wù)層,包含高性能計(jì)算卡(GPU 或CPU)及網(wǎng)卡,初期將計(jì)算節(jié)點(diǎn)作為全調(diào)度以太網(wǎng)邊界,僅通過(guò)優(yōu)化交換網(wǎng)絡(luò)能力提升計(jì)算集群訓(xùn)練性能。未來(lái)計(jì)算將與網(wǎng)絡(luò)深度融合,以進(jìn)一步提升高性能計(jì)算能力。
GSE 3 層架構(gòu)涉及計(jì)算節(jié)點(diǎn)、GSP、GSF 及GSOS 4 類(lèi)設(shè)備,各設(shè)備分工如下:
1)計(jì)算節(jié)點(diǎn):即服務(wù)器側(cè)的計(jì)算卡、網(wǎng)卡,提供高性能計(jì)算能力。
2)GSP:即網(wǎng)絡(luò)邊緣處理節(jié)點(diǎn),用以接入計(jì)算流量,并對(duì)流量做全局調(diào)度;流量上行時(shí)具備動(dòng)態(tài)負(fù)載均衡能力,流量下行時(shí)具備流量排序能力。
3)GSF:即網(wǎng)絡(luò)核心交換節(jié)點(diǎn),作為GSP 的上一層級(jí)設(shè)備,用于靈活擴(kuò)展網(wǎng)絡(luò)規(guī)模,具備動(dòng)態(tài)負(fù)載均衡能力,以及反壓信息發(fā)布能力。
4)GSOS:即全調(diào)度操作系統(tǒng),提供整網(wǎng)管控的集中式網(wǎng)絡(luò)操作系統(tǒng)能力。
3.2.1 基于報(bào)文容器的轉(zhuǎn)發(fā)及負(fù)載分擔(dān)機(jī)制
智算中心網(wǎng)絡(luò)通常采用胖樹(shù)(Fat-Tree)架構(gòu),任意出入端口之間存在多條等價(jià)轉(zhuǎn)發(fā)路徑。與云數(shù)據(jù)中心業(yè)務(wù)流量不同,智算業(yè)務(wù)流量具有“數(shù)量少,單流大”的特點(diǎn)。傳統(tǒng)以太網(wǎng)逐流負(fù)載分擔(dān)方式導(dǎo)致鏈路利用率不均,從而引起網(wǎng)絡(luò)擁塞。單流多路徑是提升智算中心網(wǎng)絡(luò)有效帶寬、避免網(wǎng)絡(luò)擁塞的關(guān)鍵技術(shù)手段。業(yè)界傳統(tǒng)網(wǎng)絡(luò)中實(shí)現(xiàn)單流多路徑的技術(shù)方案包括切包交換、逐包交換和組包交換。
1)切包交換:核心思想是在網(wǎng)絡(luò)入口將數(shù)據(jù)包邏輯切分成若干個(gè)信元,將屬于同一個(gè)數(shù)據(jù)包的信元調(diào)度到不同路徑進(jìn)行傳輸,在網(wǎng)絡(luò)出口側(cè)對(duì)信元進(jìn)行排序及重組,如圖2所示。該方式可充分利用多路徑交換能力,最大程度實(shí)現(xiàn)鏈路負(fù)載均衡。但在高帶寬演進(jìn)趨勢(shì)下,由于被切分后的信元長(zhǎng)度短,信元頭部開(kāi)銷(xiāo)帶來(lái)較多的帶寬損耗,且極高的均衡調(diào)度頻率對(duì)硬件有較高的要求。
▲圖2 切包交換示意圖
2)逐包交換:核心思想是不對(duì)數(shù)據(jù)包進(jìn)行處理,直接通過(guò)輪詢或權(quán)重等機(jī)制將數(shù)據(jù)包發(fā)往不同路徑進(jìn)行傳輸,在網(wǎng)絡(luò)出口側(cè)對(duì)報(bào)文進(jìn)行排序,如圖3所示。該方式不存在額外的報(bào)文開(kāi)銷(xiāo),也無(wú)需高頻的均衡調(diào)度周期。但由于數(shù)據(jù)包長(zhǎng)度分布連續(xù),難以準(zhǔn)確根據(jù)已發(fā)往每條路徑的數(shù)據(jù)包總數(shù)據(jù)量來(lái)實(shí)現(xiàn)均衡負(fù)載,鏈路負(fù)載均衡性差,易受微突發(fā)影響導(dǎo)致網(wǎng)絡(luò)擁塞甚至丟包。
▲圖3 逐包交換示意圖
3)組包交換:核心思想是將數(shù)據(jù)包組裝成定長(zhǎng)且長(zhǎng)度較長(zhǎng)的數(shù)據(jù)幀,并為數(shù)據(jù)幀添加幀頭(用于組裝和還原)。當(dāng)數(shù)據(jù)包不足以填充一個(gè)大幀時(shí),就需要填充冗余數(shù)據(jù)成幀,并利用網(wǎng)絡(luò)各節(jié)點(diǎn)對(duì)大數(shù)據(jù)幀進(jìn)行存儲(chǔ)轉(zhuǎn)發(fā),如圖4所示。該方式下大幀均衡調(diào)度的周期短,可適應(yīng)高帶寬的轉(zhuǎn)發(fā)需求。但幀頭及冗余數(shù)據(jù)填充及存儲(chǔ)轉(zhuǎn)發(fā)機(jī)制會(huì)帶來(lái)一定程度的帶寬和時(shí)延損耗。
▲圖4 組包交換示意圖
基于上述分析,面向后續(xù)智算中心高帶寬、低時(shí)延的網(wǎng)絡(luò)需求,并結(jié)合逐包交換方式下即來(lái)即轉(zhuǎn)的低時(shí)延特性、組包交換方式下的高帶寬特性,本文在GSE 技術(shù)架構(gòu)中提出一種基于報(bào)文容器(PKTC)的轉(zhuǎn)發(fā)及負(fù)載分擔(dān)機(jī)制。該機(jī)制根據(jù)最終設(shè)備或設(shè)備出端口,將數(shù)據(jù)包邏輯分組,并組裝成長(zhǎng)度較長(zhǎng)的“定長(zhǎng)”容器進(jìn)行轉(zhuǎn)發(fā)。屬于同一個(gè)報(bào)文容器的數(shù)據(jù)包被標(biāo)記為相同的容器標(biāo)識(shí),沿著相同路徑進(jìn)行轉(zhuǎn)發(fā),以保證同屬于一個(gè)報(bào)文容器的數(shù)據(jù)包保序傳輸,如圖5所示。
▲圖5 報(bào)文容器轉(zhuǎn)發(fā)示意圖
3.2.2 基于報(bào)文容器的DGSQ 全局調(diào)度技術(shù)
分布式高性能應(yīng)用的特征是多對(duì)一通信的In-cast 流量模型。如果這種流量是短暫的,在出口處可以通過(guò)一定的Buffer進(jìn)行吸收;如果時(shí)間持續(xù)過(guò)長(zhǎng)且多個(gè)入口的流量相加遠(yuǎn)大于出口的線速帶寬,為了避免丟包,出口設(shè)備需啟用反壓機(jī)制保護(hù)流量。而反壓一旦出現(xiàn),網(wǎng)絡(luò)的轉(zhuǎn)發(fā)性能就會(huì)大幅度下降,從而損害分布式應(yīng)用的性能。
DCQCN目前是RDMA網(wǎng)絡(luò)應(yīng)用最廣泛的擁塞控制算法,也是典型的被動(dòng)擁塞控制算法。發(fā)送端根據(jù)接收到的擁塞通知報(bào)文(CNP)動(dòng)態(tài)調(diào)整發(fā)送速率。由于1個(gè)比特的ECN信號(hào)僅能定性表示網(wǎng)絡(luò)產(chǎn)生擁塞,但無(wú)法定量地表示擁塞程度,所以端側(cè)需要探測(cè)式調(diào)整發(fā)送速率。此外,收斂速度慢會(huì)導(dǎo)致網(wǎng)絡(luò)吞吐性能下降。解決網(wǎng)絡(luò)擁塞丟包最直接的手段是防止過(guò)多的數(shù)據(jù)注入到網(wǎng)絡(luò)中造成擁塞,保證網(wǎng)絡(luò)中任意設(shè)備端口緩存或鏈路容量不會(huì)過(guò)載。
如圖6所示,GSP1的A1口和GSP3的A3口同時(shí)向GSP2的A2口發(fā)送流量,且流量相加大于A2的出口帶寬。這造成A2 口出口隊(duì)列擁塞。這種情況僅通過(guò)負(fù)載均衡是無(wú)法規(guī)避的,需要全局控制保證送到A2 的流量不超過(guò)其出口帶寬。因此,引入基于全局的轉(zhuǎn)發(fā)技術(shù)和基于DGSQ 的調(diào)度技術(shù),才可實(shí)現(xiàn)全局流量的調(diào)度控制。
在負(fù)載均衡調(diào)度時(shí),報(bào)文容器被作為轉(zhuǎn)發(fā)單位。但由于報(bào)文是邏輯組裝,無(wú)需額外的硬件開(kāi)銷(xiāo)來(lái)對(duì)數(shù)據(jù)包進(jìn)行組裝和還原。在網(wǎng)絡(luò)中轉(zhuǎn)發(fā)時(shí)添加的報(bào)文容器標(biāo)識(shí),仍以數(shù)據(jù)包的形式傳輸,且無(wú)冗余數(shù)據(jù)填充的問(wèn)題,帶寬損耗小。
▲圖6 網(wǎng)絡(luò)In-cast流量發(fā)生場(chǎng)景
基于DGSQ 的全局調(diào)度技術(shù)如圖7 所示,在GSP 上建立網(wǎng)絡(luò)中所有設(shè)備出口的虛擬隊(duì)列,用以實(shí)現(xiàn)本GSP節(jié)點(diǎn)到對(duì)應(yīng)所有出端口的流量調(diào)度。本GSP節(jié)點(diǎn)的DGSQ調(diào)度帶寬依賴授權(quán)請(qǐng)求和響應(yīng)機(jī)制,由最終的設(shè)備出口、途經(jīng)的設(shè)備統(tǒng)一進(jìn)行全網(wǎng)端到端授權(quán)。由于中間節(jié)點(diǎn)的流量壓力差異,GSP 去往最終目的端口不再通過(guò)等價(jià)多路徑路由(ECMP)(路徑授權(quán)權(quán)重選擇路徑,而是需要基于授予的權(quán)重在不同的路徑上進(jìn)行流量調(diào)度。這種方式可保證全網(wǎng)中前往任何一個(gè)端口的流量既不會(huì)超過(guò)該端口的負(fù)載能力,也不會(huì)超出中間任一網(wǎng)絡(luò)節(jié)點(diǎn)的轉(zhuǎn)發(fā)能力,可降低網(wǎng)絡(luò)中In-cast 流量產(chǎn)生的概率,減少全網(wǎng)內(nèi)部反壓機(jī)制的產(chǎn)生。
▲圖7 基于DGSQ調(diào)度流程
基于PKTC 的負(fù)載均衡技術(shù)和DGSQ 全局調(diào)度技術(shù)在平穩(wěn)狀態(tài)下可很好地進(jìn)行流量調(diào)控與分配。但在微突發(fā)、鏈路故障等異常場(chǎng)景下,短時(shí)間內(nèi)網(wǎng)絡(luò)還是會(huì)產(chǎn)生擁塞,這時(shí)仍需要依賴反壓機(jī)制來(lái)抑制源端的流量發(fā)送。傳統(tǒng)PFC 或FC都是點(diǎn)到點(diǎn)的局部反壓技術(shù),一旦觸發(fā)擴(kuò)散到整個(gè)網(wǎng)絡(luò)中,會(huì)引起頭阻HoL、網(wǎng)絡(luò)風(fēng)暴等問(wèn)題。全調(diào)度以太網(wǎng)技術(shù)需要精細(xì)的反壓機(jī)制來(lái)守護(hù)網(wǎng)絡(luò)的防線,通過(guò)最小的反壓代價(jià)來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)的穩(wěn)定負(fù)載。
3.2.3 全調(diào)度以太網(wǎng)的GSOS
綜合考慮分布式NOS、集中式SDN 控制器的優(yōu)勢(shì),全調(diào)度以太網(wǎng)的GSOS 分為全調(diào)度控制器、設(shè)備側(cè)NOS 兩大部分,可全面提升GSE 網(wǎng)絡(luò)自動(dòng)化及可視化能力。
GSP和GSF的盒式設(shè)備支持獨(dú)立部署NOS,有助于構(gòu)建出分布式網(wǎng)絡(luò)操作系統(tǒng)。每臺(tái)GSP和GSF 具備獨(dú)立的控制面和管理面,可以運(yùn)行屬于設(shè)備自身的網(wǎng)絡(luò)功能,提升系統(tǒng)可靠性,降低部署難度。分布式NOS 可以將單點(diǎn)設(shè)備故障限制在局部范圍,避免對(duì)整網(wǎng)造成影響。
集中式GSOS 提供更好的網(wǎng)絡(luò)全局信息,簡(jiǎn)化基于全局端口信息的DGSQ系統(tǒng)的建立和維護(hù)。同時(shí)GSOS 也是整網(wǎng)運(yùn)維監(jiān)控的大腦,可協(xié)同設(shè)備實(shí)現(xiàn)對(duì)實(shí)時(shí)路徑、歷史的記錄及呈現(xiàn),以支撐網(wǎng)絡(luò)運(yùn)維。
GSE 交換網(wǎng)絡(luò)采用定長(zhǎng)的PKTC 進(jìn)行報(bào)文轉(zhuǎn)發(fā)及動(dòng)態(tài)負(fù)載均衡,通過(guò)構(gòu)建基于PKTC 的DGSQ 全調(diào)度機(jī)制、精細(xì)的反壓機(jī)制和無(wú)感知自愈機(jī)制,實(shí)現(xiàn)微突發(fā)及故障場(chǎng)景下的精準(zhǔn)控制,全面提升網(wǎng)絡(luò)有效帶寬和轉(zhuǎn)發(fā)延遲穩(wěn)定性。相關(guān)的具體端到端轉(zhuǎn)發(fā)流程圖9所示。
▲圖8 全調(diào)度以太網(wǎng)操作系統(tǒng)架構(gòu)
▲圖9 GSE網(wǎng)絡(luò)端到端流量轉(zhuǎn)發(fā)示意圖
1)源端GSP 設(shè)備從計(jì)算側(cè)收到報(bào)文后,通過(guò)轉(zhuǎn)發(fā)表找到最終出口,并基于最終出口按需將報(bào)文分配到對(duì)應(yīng)的DGSQ中進(jìn)行授權(quán)調(diào)度。
2)源端GSP 設(shè)備獲得授權(quán)后,遵循PKTC 的負(fù)載均衡要求,將報(bào)文發(fā)送到GSE網(wǎng)絡(luò)中。
3)當(dāng)?shù)竭_(dá)目的端GSP 設(shè)備后,報(bào)文先進(jìn)行PKTC 級(jí)別的排序,再通過(guò)轉(zhuǎn)發(fā)表存儲(chǔ)到物理端口對(duì)應(yīng)隊(duì)列,最終通過(guò)端口調(diào)度發(fā)送到計(jì)算節(jié)點(diǎn)。
作為一種標(biāo)準(zhǔn)開(kāi)放的新型以太網(wǎng)技術(shù),GSE可采用網(wǎng)卡側(cè)無(wú)感知的組網(wǎng)方案,即網(wǎng)絡(luò)側(cè)采用GSE技術(shù)方案,網(wǎng)卡側(cè)仍采用傳統(tǒng)RoCE 網(wǎng)卡。此外,也可以結(jié)合網(wǎng)卡能力演進(jìn),將GSE方案各組件的功能在網(wǎng)絡(luò)組件中重新分工,將部分或全部網(wǎng)絡(luò)功能下沉到網(wǎng)卡側(cè)來(lái)實(shí)現(xiàn)。也就是說(shuō),在未來(lái)的實(shí)際應(yīng)用中,可以將GSP的功能全部下沉到網(wǎng)卡以提供端到端的方案,也可以將網(wǎng)絡(luò)的起終點(diǎn)分別落在網(wǎng)絡(luò)設(shè)備和網(wǎng)卡上,為后續(xù)網(wǎng)絡(luò)建設(shè)和設(shè)備選型提供靈活的可選方案。
新型智算中心網(wǎng)絡(luò)技術(shù)已逐漸成為全球創(chuàng)新焦點(diǎn)。智算中心網(wǎng)絡(luò)是一個(gè)多要素融合的復(fù)雜系統(tǒng),是算網(wǎng)的深度融合,它依賴于AI 業(yè)務(wù)、網(wǎng)絡(luò)設(shè)備、交換芯片、網(wǎng)卡、儀表等上下游產(chǎn)業(yè)的協(xié)同創(chuàng)新。如何提升網(wǎng)絡(luò)規(guī)模和性能,構(gòu)建超大規(guī)模、超高帶寬、超低時(shí)延的高性能智算中心網(wǎng)絡(luò),是提升算力水平的關(guān)鍵。
GSE面向無(wú)損、高帶寬、超低時(shí)延等高性能網(wǎng)絡(luò)需求業(yè)務(wù)場(chǎng)景,兼容以太網(wǎng)生態(tài)鏈,通過(guò)采用全調(diào)度轉(zhuǎn)發(fā)機(jī)制、基于PKTC 的負(fù)載均衡技術(shù)、基于DGSQ 的全調(diào)度技術(shù)、精細(xì)的反壓機(jī)制、無(wú)感知自愈機(jī)制、集中管理及分布式控制等技術(shù),實(shí)現(xiàn)低時(shí)延、無(wú)阻塞、高帶寬的新型智算中心網(wǎng)絡(luò)[4]。該技術(shù)架構(gòu)旨在構(gòu)建一個(gè)標(biāo)準(zhǔn)開(kāi)放的高性能網(wǎng)絡(luò)技術(shù)體系,助力AIGC等高性能產(chǎn)業(yè)快速發(fā)展。由于該架構(gòu)創(chuàng)新難度大、開(kāi)發(fā)周期長(zhǎng),我們希望各個(gè)行業(yè)能夠攜手合作,持續(xù)推動(dòng)相關(guān)技術(shù)標(biāo)準(zhǔn)發(fā)展。