賈慶民,胡玉姣,張華宇,彭開(kāi)來(lái),陳平平,謝人超,2,黃韜,2
(1.網(wǎng)絡(luò)通信與安全紫金山實(shí)驗(yàn)室,江蘇 南京 211111;2.北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100876)
隨著邊緣計(jì)算、人工智能數(shù)據(jù)中心、超算數(shù)據(jù)中心等算力基礎(chǔ)設(shè)施的大量部署,終端用戶接入并使用計(jì)算資源變得更加方便快捷。然而,如何更加高效地利用這些計(jì)算資源成為當(dāng)前亟須解決的問(wèn)題[1-2]。一方面,許多邊緣計(jì)算節(jié)點(diǎn)的資源相對(duì)受限,難以高效快速處理計(jì)算任務(wù);另一方面,計(jì)算節(jié)點(diǎn)部署分散,節(jié)點(diǎn)之間缺乏有效協(xié)同,計(jì)算任務(wù)的分配與調(diào)度機(jī)制尚不完善,導(dǎo)致計(jì)算任務(wù)的處理效率不高、計(jì)算資源利用不均衡。為更加高效地利用海量分布式計(jì)算資源,更加快速地處理計(jì)算任務(wù),推動(dòng)計(jì)算資源與網(wǎng)絡(luò)的深度融合,算力網(wǎng)絡(luò)的概念得以提出。算力網(wǎng)絡(luò)是一種算網(wǎng)融合的新范式,旨在將分布式計(jì)算節(jié)點(diǎn)打通互聯(lián)、統(tǒng)籌調(diào)度,通過(guò)對(duì)網(wǎng)絡(luò)架構(gòu)和協(xié)議的改進(jìn)設(shè)計(jì),實(shí)現(xiàn)網(wǎng)絡(luò)和計(jì)算資源的優(yōu)化和高效利用[3-4]。隨著企業(yè)上云、消費(fèi)互聯(lián)網(wǎng)向產(chǎn)業(yè)互聯(lián)網(wǎng)轉(zhuǎn)型發(fā)展,計(jì)算與網(wǎng)絡(luò)的深度融合已成為社會(huì)經(jīng)濟(jì)數(shù)字化轉(zhuǎn)型的關(guān)鍵力量。
當(dāng)前,世界主要國(guó)家和經(jīng)濟(jì)體都高度關(guān)注算力網(wǎng)絡(luò)、算網(wǎng)融合相關(guān)技術(shù)的發(fā)展,并且積極布局。2020 年,美國(guó)政府發(fā)布《引領(lǐng)未來(lái)先進(jìn)計(jì)算生態(tài)系統(tǒng):戰(zhàn)略計(jì)劃》,計(jì)劃打造由邊緣計(jì)算、云計(jì)算、高性能計(jì)算等算力設(shè)施構(gòu)成的國(guó)家級(jí)計(jì)算生態(tài)系統(tǒng)[5]。2020 年,美國(guó)啟動(dòng)Pronto 項(xiàng)目,開(kāi)展面向5G 的云邊協(xié)同互聯(lián)的可編程算網(wǎng)一體化研究[6]。2021 年,歐盟發(fā)布《2030 年數(shù)字指南針》,提出要大力發(fā)展云計(jì)算基礎(chǔ)設(shè)施,構(gòu)建安全和高性能的可持續(xù)數(shù)字基礎(chǔ)設(shè)施[7]。我國(guó)也十分重視算網(wǎng)融合技術(shù)的發(fā)展和產(chǎn)業(yè)應(yīng)用,先后出臺(tái)一系列政策予以引導(dǎo)。2021 年,國(guó)家發(fā)展改革委等四部委聯(lián)合發(fā)布《全國(guó)一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實(shí)施方案》,啟動(dòng)實(shí)施“東數(shù)西算”工程,構(gòu)建國(guó)家算力網(wǎng)絡(luò)體系[8]。2022年,國(guó)務(wù)院發(fā)布《“十四五”數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》,要求優(yōu)化升級(jí)數(shù)字基礎(chǔ)設(shè)施,加快建設(shè)信息網(wǎng)絡(luò)基礎(chǔ)設(shè)施,推進(jìn)云網(wǎng)協(xié)同和算網(wǎng)融合發(fā)展,有序推進(jìn)基礎(chǔ)設(shè)施智能升級(jí)[9]。
另一方面,諸如智能制造、智能駕駛等新業(yè)務(wù),不僅需要高性能算力資源,還要求網(wǎng)絡(luò)提供確定性、可靠性的保障,以滿足新業(yè)務(wù)功能和性能需求[10-11]。然而,當(dāng)前的網(wǎng)絡(luò)還不能實(shí)現(xiàn)算力節(jié)點(diǎn)之間的端到端確定性傳輸和計(jì)算任務(wù)高效調(diào)度,這嚴(yán)重影響了時(shí)間敏感、計(jì)算密集型業(yè)務(wù)的發(fā)展。因此,開(kāi)展基于確定性的算力網(wǎng)絡(luò)技術(shù)研究,構(gòu)建連通異構(gòu)泛在算力節(jié)點(diǎn),保障實(shí)時(shí)傳輸、實(shí)時(shí)計(jì)算的算力網(wǎng)絡(luò),對(duì)于滿足計(jì)算任務(wù)在算力節(jié)點(diǎn)間端到端高質(zhì)量、確定性的傳輸和調(diào)度具有重要意義。
本文針對(duì)算力網(wǎng)絡(luò)在發(fā)展過(guò)程中對(duì)實(shí)時(shí)性、確定性的迫切要求,基于確定性網(wǎng)絡(luò)(DetNet,deterministic networking)等相關(guān)技術(shù),提出了確定性算力網(wǎng)絡(luò)的技術(shù)方案,設(shè)計(jì)了確定性算力網(wǎng)絡(luò)架構(gòu)和工作機(jī)制,分析了確定性算力網(wǎng)絡(luò)的關(guān)鍵技術(shù),進(jìn)而實(shí)現(xiàn)了傳輸路徑、傳輸時(shí)延的確定性和計(jì)算任務(wù)處理時(shí)延的確定性;同時(shí),實(shí)驗(yàn)結(jié)果也驗(yàn)證了確定性算力網(wǎng)絡(luò)的性能和有效性;與普通算力網(wǎng)絡(luò)相比,確定性算力網(wǎng)絡(luò)在傳輸時(shí)延、計(jì)算處理時(shí)延方面都有明顯提升。最后,對(duì)典型應(yīng)用場(chǎng)景進(jìn)行了分析,并對(duì)確定性算力網(wǎng)絡(luò)今后的發(fā)展趨勢(shì)和技術(shù)挑戰(zhàn)進(jìn)行了分析探討。
算力網(wǎng)絡(luò)和確定性網(wǎng)絡(luò)是確定性算力網(wǎng)絡(luò)的關(guān)鍵使能技術(shù),本節(jié)對(duì)算力網(wǎng)絡(luò)和確定性網(wǎng)絡(luò)的研究進(jìn)展進(jìn)行簡(jiǎn)要概述。
算力網(wǎng)絡(luò)通過(guò)改進(jìn)設(shè)計(jì)網(wǎng)絡(luò)架構(gòu)和協(xié)議,打通互聯(lián)分布式算力節(jié)點(diǎn),統(tǒng)籌算網(wǎng)資源,靈活調(diào)度計(jì)算任務(wù),實(shí)現(xiàn)網(wǎng)絡(luò)和計(jì)算資源的協(xié)同優(yōu)化和高效利用。算力網(wǎng)絡(luò)一經(jīng)提出就得到了業(yè)界的廣泛關(guān)注。當(dāng)前,算力網(wǎng)絡(luò)的發(fā)展方興未艾,體系架構(gòu)及諸多關(guān)鍵技術(shù)還未形成定論,產(chǎn)業(yè)及標(biāo)準(zhǔn)化工作也在不斷推進(jìn)中[12-14]。
在算力網(wǎng)絡(luò)架構(gòu)方面,從網(wǎng)絡(luò)控制的角度,算力網(wǎng)絡(luò)技術(shù)方案大致可以分為2 種,即集中式架構(gòu)方案和分布式架構(gòu)方案。其中,集中式架構(gòu)方案的特點(diǎn)是控制平面與數(shù)據(jù)平面分離,控制平面具有全局算網(wǎng)資源視圖,可以進(jìn)行全局統(tǒng)一算網(wǎng)編排調(diào)度,通常采用基于軟件定義網(wǎng)絡(luò)(SDN,software defined network)的技術(shù)架構(gòu)來(lái)實(shí)現(xiàn)[15-16]。分布式架構(gòu)方案的特點(diǎn)是通過(guò)相鄰路由節(jié)點(diǎn)之間的交互實(shí)現(xiàn)算網(wǎng)狀態(tài)信息同步,計(jì)算任務(wù)控制轉(zhuǎn)發(fā)也在路由節(jié)點(diǎn)決策完成,通常采用網(wǎng)絡(luò)層協(xié)議擴(kuò)展方式實(shí)現(xiàn),典型技術(shù)方案如計(jì)算優(yōu)先網(wǎng)絡(luò)(CFN,computing first networking)[12-13]。另一方面,從網(wǎng)絡(luò)分層的角度,算力網(wǎng)絡(luò)技術(shù)方案可以分為Overlay 方案和Underlay方案,Overlay 方案通常不涉及網(wǎng)絡(luò)協(xié)議的修改,在應(yīng)用層實(shí)現(xiàn)算力狀態(tài)的采集和目標(biāo)算力節(jié)點(diǎn)的選擇,通過(guò)底層網(wǎng)絡(luò)實(shí)現(xiàn)計(jì)算任務(wù)的傳輸調(diào)度;Underlay 方案通常需要在網(wǎng)絡(luò)層進(jìn)行協(xié)議修改,增加算力狀態(tài)信息,在網(wǎng)絡(luò)層實(shí)現(xiàn)算網(wǎng)狀態(tài)信息的擴(kuò)散。
在產(chǎn)業(yè)方面,網(wǎng)絡(luò)運(yùn)營(yíng)商和設(shè)備商積極推動(dòng)算力網(wǎng)絡(luò)的發(fā)展,發(fā)布多部白皮書并對(duì)算力網(wǎng)絡(luò)的發(fā)展背景、概念、架構(gòu)、關(guān)鍵技術(shù)、標(biāo)準(zhǔn)和生態(tài)等方面進(jìn)行了介紹和分析[15-16]。在標(biāo)準(zhǔn)化方面,中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)(CCSA,China Communications Standards Association)組織立項(xiàng)、編制了算力網(wǎng)絡(luò)系列行業(yè)標(biāo)準(zhǔn),包括算力路由、算網(wǎng)編排、算網(wǎng)設(shè)備、算力交易等多個(gè)方面,旨在推動(dòng)算力網(wǎng)絡(luò)的技術(shù)研究和標(biāo)準(zhǔn)化[17];2021 年7 月,國(guó)際電信聯(lián)盟電信標(biāo)準(zhǔn)化部門(ITU-T,International Telecommunication Union Telecommunication)發(fā)布了首個(gè)算力網(wǎng)絡(luò)技術(shù)的國(guó)際標(biāo)準(zhǔn)“Y.2501: computing power network-framework and architecture”,該標(biāo)準(zhǔn)對(duì)算力網(wǎng)絡(luò)的框架與架構(gòu)進(jìn)行定義和介紹,標(biāo)志著算力網(wǎng)絡(luò)得到了國(guó)際學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛認(rèn)可[18]。
在學(xué)術(shù)方面,學(xué)術(shù)界也圍繞算力網(wǎng)絡(luò)前沿技術(shù)開(kāi)展了廣泛研究。文獻(xiàn)[13]研究了算力網(wǎng)絡(luò)的調(diào)度技術(shù),提出了一種基于負(fù)載均衡的算力調(diào)度方案CFN-dyncast,即通過(guò)每個(gè)算力站點(diǎn)的負(fù)載和網(wǎng)絡(luò)狀態(tài),實(shí)現(xiàn)將用戶的算力需求分配到最優(yōu)的算力站點(diǎn)。文獻(xiàn)[19]研究了算力網(wǎng)絡(luò)與命名數(shù)據(jù)網(wǎng)絡(luò)[20]的融合技術(shù),提出了NSACS-PS 方案,即通過(guò)將命名數(shù)據(jù)網(wǎng)絡(luò)技術(shù)的命名機(jī)制應(yīng)用于算力服務(wù)的命名中,實(shí)現(xiàn)算力服務(wù)的接入控制優(yōu)化。文獻(xiàn)[21]研究了算力網(wǎng)絡(luò)與云原生技術(shù)的融合機(jī)制,提出了一種算力網(wǎng)絡(luò)與云原生數(shù)據(jù)中心網(wǎng)絡(luò)融合的方案Cyber-CFN,并利用算力網(wǎng)絡(luò)的機(jī)制方法實(shí)現(xiàn)均勻采樣的接口和模型。文獻(xiàn)[22]提出了一種基于網(wǎng)絡(luò)孿生的新型算網(wǎng)融合體系架構(gòu),通過(guò)分布式云的方式向電信運(yùn)營(yíng)商、云計(jì)算提供商和應(yīng)用服務(wù)提供商協(xié)調(diào)分配計(jì)算、存儲(chǔ)和通信資源,以保障云業(yè)務(wù)的服務(wù)質(zhì)量需求。文獻(xiàn)[23]提出了一種新型算網(wǎng)融合機(jī)制機(jī)理——可擴(kuò)展互聯(lián)網(wǎng)(EI,extensible Internet)技術(shù),在不對(duì)當(dāng)前網(wǎng)絡(luò)基礎(chǔ)架構(gòu)進(jìn)行任何重大變革情況下,從網(wǎng)絡(luò)層中抽象出L3.5 層來(lái)解決L3 層細(xì)腰問(wèn)題,支持網(wǎng)內(nèi)泛在計(jì)算與內(nèi)容就近響應(yīng),進(jìn)而實(shí)現(xiàn)算網(wǎng)資源的融合利用。
隨著智能駕駛、云虛擬現(xiàn)實(shí)(Cloud VR,cloud virtual reality)、智能制造等新應(yīng)用業(yè)務(wù)的發(fā)展,計(jì)算任務(wù)的卸載和分發(fā)通常要求極低的時(shí)延,以保證終端設(shè)備能做出及時(shí)的動(dòng)作響應(yīng)。例如,在使用Cloud VR 業(yè)務(wù)應(yīng)用時(shí),GPU 渲染計(jì)算需要在云端處理,如果時(shí)延過(guò)大,就會(huì)給用戶帶來(lái)眩暈感覺(jué),嚴(yán)重影響Cloud VR 的體驗(yàn)質(zhì)量。因此,這就要求算力網(wǎng)絡(luò)支持網(wǎng)絡(luò)傳輸確定性,以保證超低時(shí)延、超高可靠的傳輸。其中,通過(guò)確定性網(wǎng)絡(luò)技術(shù),實(shí)現(xiàn)算力節(jié)點(diǎn)之間、終端設(shè)備與算力節(jié)點(diǎn)之間的“準(zhǔn)時(shí)、準(zhǔn)確、快速”的數(shù)據(jù)傳輸,進(jìn)而控制并降低端到端時(shí)延,為時(shí)間敏感網(wǎng)絡(luò)(TSN,time-sensitive networking)業(yè)務(wù)提供確定性的網(wǎng)絡(luò)傳輸保障。
確定性網(wǎng)絡(luò)可提供實(shí)時(shí)數(shù)據(jù)傳輸,保證確定的通信服務(wù)質(zhì)量,如超低上界的時(shí)延、抖動(dòng)、分組丟失率,上下界可控的帶寬,以及超高下界的可靠性。確定性網(wǎng)絡(luò)已經(jīng)成為產(chǎn)業(yè)互聯(lián)網(wǎng)等新興產(chǎn)業(yè)形態(tài)的底座技術(shù),是數(shù)字經(jīng)濟(jì)發(fā)展的關(guān)鍵支撐[24]。確定性網(wǎng)絡(luò)技術(shù)研究的核心問(wèn)題是如何實(shí)現(xiàn)確定性時(shí)延、抖動(dòng)、分組丟失率、帶寬和可靠性等。例如,通過(guò)時(shí)鐘同步、頻率同步、調(diào)度整形、資源預(yù)留等機(jī)制方法實(shí)現(xiàn)確定性時(shí)延;通過(guò)優(yōu)先級(jí)劃分、抖動(dòng)消減、緩沖吸收等機(jī)制實(shí)現(xiàn)確定性抖動(dòng)和分組丟失率;通過(guò)網(wǎng)絡(luò)切片和邊緣計(jì)算等技術(shù)實(shí)現(xiàn)確定性帶寬;通過(guò)多路復(fù)用、包復(fù)制與消除、冗余備份等技術(shù)實(shí)現(xiàn)高可靠性[25]。
目前,可應(yīng)用于算力網(wǎng)絡(luò)的確定性網(wǎng)絡(luò)技術(shù)主要包括TSN 和DetNet[26-28]。TSN 主要應(yīng)用于數(shù)據(jù)鏈路層,首先基于業(yè)務(wù)需求對(duì)網(wǎng)絡(luò)流量進(jìn)行優(yōu)先級(jí)劃分,并將具有確定性需求的流量區(qū)分出來(lái),按照類似“時(shí)分復(fù)用”的思想方法,通過(guò)時(shí)鐘同步、流量整形等機(jī)制為高優(yōu)先級(jí)的流量提供確定性傳輸“時(shí)隙”,進(jìn)而保證傳輸?shù)膶?shí)時(shí)性和可靠性。DetNet 主要應(yīng)用于網(wǎng)絡(luò)層,該技術(shù)的目標(biāo)是在第二層橋接和第三層路由段上實(shí)現(xiàn)確定傳輸路徑,這些路徑可以提供時(shí)延、分組丟失和抖動(dòng)的最壞情況界限,以此提供確定性時(shí)延[24]。
在學(xué)術(shù)方面,學(xué)術(shù)界在確定性網(wǎng)絡(luò)領(lǐng)域開(kāi)展了大量的研究。文獻(xiàn)[29]研究了無(wú)線網(wǎng)絡(luò)場(chǎng)景下的確定性傳輸問(wèn)題,提出了一種基于空口信道質(zhì)量信息的5G 與時(shí)間敏感網(wǎng)絡(luò)聯(lián)合優(yōu)化機(jī)制,能有效降低信道質(zhì)量較差場(chǎng)景下的時(shí)間敏感網(wǎng)絡(luò)域傳輸時(shí)延,以及有效消除空口隨機(jī)變化導(dǎo)致的重傳對(duì)傳輸時(shí)延造成的抖動(dòng)。文獻(xiàn)[30]研究了面向大規(guī)模網(wǎng)絡(luò)的確定性傳輸問(wèn)題,提出了一種高可擴(kuò)展的大規(guī)模確定性網(wǎng)絡(luò)架構(gòu),可在IP 網(wǎng)絡(luò)中提供端到端時(shí)延和有界抖動(dòng)保證。文獻(xiàn)[31]研究了數(shù)據(jù)中心網(wǎng)絡(luò)中時(shí)延確定性問(wèn)題,分析了數(shù)據(jù)中心網(wǎng)絡(luò)從超低時(shí)延到確定性低時(shí)延的發(fā)展趨勢(shì),并重點(diǎn)探討了通過(guò)減少交換機(jī)中的排隊(duì)時(shí)延來(lái)有效降低網(wǎng)絡(luò)時(shí)延的設(shè)計(jì)思路。
同時(shí),算力節(jié)點(diǎn)之間任務(wù)的確定性傳輸也引起了學(xué)術(shù)界的關(guān)注。文獻(xiàn)[32]研究了多接入邊緣計(jì)算節(jié)點(diǎn)之間的任務(wù)確定性傳輸問(wèn)題,通過(guò)二層網(wǎng)絡(luò)確定性和三層網(wǎng)絡(luò)確定性技術(shù)的跨域協(xié)作,以及與5G網(wǎng)絡(luò)的集成設(shè)計(jì),解決了多接入邊緣計(jì)算網(wǎng)絡(luò)中的長(zhǎng)尾時(shí)延問(wèn)題。文獻(xiàn)[33]也針對(duì)移動(dòng)邊緣計(jì)算節(jié)點(diǎn)之間網(wǎng)絡(luò)傳輸確定性問(wèn)題,提出了一種確定性移動(dòng)邊緣計(jì)算網(wǎng)絡(luò)技術(shù)方案,通過(guò)設(shè)計(jì)循環(huán)映射和循環(huán)移位機(jī)制,保證移動(dòng)邊緣計(jì)算服務(wù)的確定性傳輸。
為了應(yīng)對(duì)產(chǎn)業(yè)互聯(lián)網(wǎng)時(shí)代時(shí)間敏感、計(jì)算密集型業(yè)務(wù)帶來(lái)的新挑戰(zhàn),基于算力網(wǎng)絡(luò)、確定性網(wǎng)絡(luò)等相關(guān)技術(shù),本文提出了確定性算力網(wǎng)絡(luò)技術(shù)方案。在此,給出確定性算力網(wǎng)絡(luò)的定義。確定性算力網(wǎng)絡(luò)是算力網(wǎng)絡(luò)發(fā)展的高級(jí)階段,在算網(wǎng)深度融合的基礎(chǔ)上,充分考慮了新業(yè)務(wù)在計(jì)算和傳輸方面的時(shí)間約束要求,通過(guò)采用傳輸和計(jì)算確定性的機(jī)制方法,包括任務(wù)優(yōu)先級(jí)劃分、資源預(yù)留、資源預(yù)調(diào)等,實(shí)現(xiàn)計(jì)算任務(wù)在約束時(shí)間內(nèi)的確定性傳輸和計(jì)算。接下來(lái),本節(jié)將對(duì)確定性算力網(wǎng)絡(luò)的設(shè)計(jì)原則、參考架構(gòu)及工作流程、關(guān)鍵技術(shù)等進(jìn)行展開(kāi)討論分析。
在傳統(tǒng)算力網(wǎng)絡(luò)主要強(qiáng)調(diào)算力節(jié)點(diǎn)間的連通性,即通過(guò)連通各個(gè)算力節(jié)點(diǎn)實(shí)現(xiàn)計(jì)算任務(wù)的分發(fā)調(diào)度,提升算力資源的利用率。但是隨著諸如智能駕駛、Cloud VR 等業(yè)務(wù)的發(fā)展,新業(yè)務(wù)不僅要求超高算力,還要求超低時(shí)延;單純地將用戶以及各算力節(jié)點(diǎn)進(jìn)行連通,并不能保證業(yè)務(wù)的正常運(yùn)行。因此,新業(yè)務(wù)對(duì)算力網(wǎng)絡(luò)的訴求,不僅是滿足任務(wù)的計(jì)算需要,而且是通過(guò)超低時(shí)延、超高可靠的方式完成任務(wù)傳輸和計(jì)算。
另一方面,在傳統(tǒng)算力網(wǎng)絡(luò)中,算力任務(wù)的分發(fā)調(diào)度通常需要綜合算力節(jié)點(diǎn)狀態(tài)和網(wǎng)絡(luò)鏈路狀態(tài),并對(duì)算力和網(wǎng)絡(luò)的狀態(tài)值進(jìn)行加權(quán)計(jì)算,獲取算網(wǎng)最優(yōu)均衡的算力調(diào)度策略,進(jìn)而得到目標(biāo)算力節(jié)點(diǎn)和傳輸路徑;然而,如果距離用戶最近的算力節(jié)點(diǎn)資源充沛,但網(wǎng)絡(luò)鏈路擁堵,通常會(huì)選擇次優(yōu)的算力節(jié)點(diǎn),進(jìn)而導(dǎo)致算力任務(wù)傳輸和計(jì)算處理時(shí)延的增加;而且,計(jì)算任務(wù)到達(dá)目標(biāo)算力節(jié)點(diǎn)之后,目前也缺少對(duì)計(jì)算任務(wù)處理提供算力資源保障的機(jī)制。因此,在確定性算力網(wǎng)絡(luò)中,需要對(duì)計(jì)算任務(wù)的傳輸提供低時(shí)延和高可靠保證;同時(shí),對(duì)于到達(dá)目標(biāo)算力節(jié)點(diǎn)的計(jì)算任務(wù),也需要為任務(wù)的計(jì)算處理提供時(shí)延保障。
基于確定性網(wǎng)絡(luò)在時(shí)鐘同步、資源預(yù)留、隊(duì)列調(diào)度等方面的技術(shù)優(yōu)勢(shì),本文設(shè)計(jì)的確定性算力網(wǎng)絡(luò)的目標(biāo)是實(shí)現(xiàn)計(jì)算任務(wù)的低時(shí)延、高可靠、確定性傳輸,避免計(jì)算任務(wù)數(shù)據(jù)包在傳輸過(guò)程中的擁堵、分組丟失等問(wèn)題;同時(shí),通過(guò)對(duì)計(jì)算任務(wù)的優(yōu)先級(jí)劃分、資源預(yù)留、資源預(yù)調(diào)等機(jī)制,為計(jì)算任務(wù)的處理提供實(shí)時(shí)高效的保障性機(jī)制。
基于上述技術(shù)目標(biāo),確定性算力網(wǎng)絡(luò)的系統(tǒng)設(shè)計(jì)應(yīng)該遵循如下原則。
1) 任務(wù)實(shí)時(shí)傳輸。保證計(jì)算任務(wù)的網(wǎng)絡(luò)傳輸實(shí)時(shí)性,即通過(guò)網(wǎng)絡(luò)確定性技術(shù)保證計(jì)算任務(wù)的傳輸時(shí)延低、抖動(dòng)小。
2) 任務(wù)實(shí)時(shí)計(jì)算。保證計(jì)算任務(wù)在算力節(jié)點(diǎn)的計(jì)算處理實(shí)時(shí)性,即通過(guò)計(jì)算任務(wù)的優(yōu)先級(jí)劃分、資源預(yù)留、資源預(yù)調(diào)等方式保證計(jì)算任務(wù)在算力節(jié)點(diǎn)實(shí)時(shí)計(jì)算。
3) 軟件定義化。通過(guò)采用基于SDN 的集中化的架構(gòu)方式,在控制平面增加對(duì)計(jì)算資源狀態(tài)的感知功能,實(shí)現(xiàn)對(duì)計(jì)算資源狀態(tài)和網(wǎng)絡(luò)資源狀態(tài)的一體化感知,進(jìn)而基于計(jì)算資源和網(wǎng)絡(luò)資源整體視圖,實(shí)現(xiàn)對(duì)計(jì)算任務(wù)的集中統(tǒng)一分發(fā)調(diào)度,提升計(jì)算任務(wù)分發(fā)效率和計(jì)算資源利用率。
4) 算網(wǎng)一體化。為了保證計(jì)算任務(wù)的實(shí)時(shí)傳輸、實(shí)時(shí)計(jì)算,需要對(duì)網(wǎng)絡(luò)資源和算力資源進(jìn)行統(tǒng)一管控,實(shí)現(xiàn)算網(wǎng)一體化融合,保證計(jì)算任務(wù)的最優(yōu)化處理。
5) 服務(wù)定制化。針對(duì)特定業(yè)務(wù)進(jìn)行標(biāo)識(shí),網(wǎng)絡(luò)傳輸、節(jié)點(diǎn)計(jì)算都進(jìn)行定制化的處理,以滿足特殊業(yè)務(wù)對(duì)算力網(wǎng)絡(luò)的特定要求。
確定性算力網(wǎng)絡(luò)需要同時(shí)解決網(wǎng)絡(luò)傳輸確定性問(wèn)題和任務(wù)實(shí)時(shí)計(jì)算問(wèn)題,因此,確定性算力網(wǎng)絡(luò)應(yīng)具備如下幾項(xiàng)核心能力。
1) 算網(wǎng)感知能力。算網(wǎng)感知是指通過(guò)采集、探測(cè)等方法獲取算力節(jié)點(diǎn)、網(wǎng)絡(luò)設(shè)備等算網(wǎng)設(shè)施的狀態(tài)信息,構(gòu)建算網(wǎng)狀態(tài)信息庫(kù),為計(jì)算任務(wù)調(diào)度、算力節(jié)點(diǎn)選擇、網(wǎng)絡(luò)路徑規(guī)劃等提供最新的狀態(tài)信息。算網(wǎng)感知能力通常包括算力服務(wù)感知、算力資源感知、網(wǎng)絡(luò)資源感知等。特別地,在確定性算力網(wǎng)絡(luò)中,強(qiáng)調(diào)算網(wǎng)感知實(shí)時(shí)性。
2) 規(guī)劃調(diào)度能力。規(guī)劃調(diào)度是確定性算力網(wǎng)絡(luò)的核心能力,旨在為實(shí)現(xiàn)計(jì)算任務(wù)的最優(yōu)分發(fā)和處理而進(jìn)行的網(wǎng)絡(luò)路徑規(guī)劃、算力節(jié)點(diǎn)選擇以及計(jì)算任務(wù)調(diào)度等;規(guī)劃調(diào)度能力需要基于算網(wǎng)感知的狀態(tài)信息進(jìn)行決策,并且將傳輸和計(jì)算的時(shí)延要求作為首要約束。
3) 資源管控能力。資源管控是指對(duì)網(wǎng)絡(luò)鏈路和算力節(jié)點(diǎn)的管理控制,為了保證確定性算力網(wǎng)絡(luò)的實(shí)時(shí)性,資源管控主要包括計(jì)算任務(wù)的優(yōu)先級(jí)劃分、網(wǎng)絡(luò)資源預(yù)留、算力資源預(yù)留等機(jī)制,保證任務(wù)的傳輸和計(jì)算具有充分的算網(wǎng)資源。
相對(duì)于傳統(tǒng)算力網(wǎng)絡(luò),確定性算力網(wǎng)絡(luò)在傳輸和計(jì)算方面均具備增強(qiáng)的確定性能力。在任務(wù)傳輸方面,為滿足計(jì)算任務(wù)傳輸所要求的時(shí)延、抖動(dòng)限制,需要為計(jì)算任務(wù)提供端到端的確定性傳輸保障,包括接入網(wǎng)絡(luò)、邊緣網(wǎng)絡(luò)、主干網(wǎng)絡(luò)以及算力節(jié)點(diǎn)內(nèi)的網(wǎng)絡(luò)等。在任務(wù)計(jì)算方面,為防止到達(dá)的計(jì)算任務(wù)排隊(duì)等待,需要及時(shí)處理到達(dá)計(jì)算處理單元的計(jì)算任務(wù),并對(duì)計(jì)算任務(wù)的處理進(jìn)行算力資源的保障;如果按照傳統(tǒng)“分時(shí)分片”的計(jì)算方式,計(jì)算任務(wù)的處理時(shí)延將難以保證。
因此,基于上述設(shè)計(jì)原則和應(yīng)該具備的核心能力,本文所提確定性算力網(wǎng)絡(luò)采用集中式的架構(gòu)設(shè)計(jì)思路,實(shí)現(xiàn)統(tǒng)一的算網(wǎng)狀態(tài)感知、集中的計(jì)算任務(wù)調(diào)度、高效的算網(wǎng)資源編排。確定性算力網(wǎng)絡(luò)的設(shè)計(jì)架構(gòu)主要包括確定性算力網(wǎng)絡(luò)基礎(chǔ)設(shè)施平面、確定性算力網(wǎng)絡(luò)管控平面、確定性算力網(wǎng)絡(luò)業(yè)務(wù)應(yīng)用平面以及相鄰平面間的接口,如圖1 所示。
圖1 確定性算力網(wǎng)絡(luò)參考架構(gòu)
1) 確定性算力網(wǎng)絡(luò)基礎(chǔ)設(shè)施平面主要由算網(wǎng)設(shè)備、算力節(jié)點(diǎn)構(gòu)成,是對(duì)計(jì)算任務(wù)進(jìn)行傳輸和處理的算網(wǎng)基礎(chǔ)設(shè)施。其中,傳輸部分通常包括接入網(wǎng)絡(luò)、邊緣網(wǎng)絡(luò)、主干網(wǎng)絡(luò)、數(shù)據(jù)中心網(wǎng)絡(luò)等,計(jì)算部分通常包括基礎(chǔ)算力節(jié)點(diǎn)、智能算力節(jié)點(diǎn)、超算算力節(jié)點(diǎn)等。該平面基于確定性算力網(wǎng)絡(luò)管控平面的決策指令信息,對(duì)計(jì)算任務(wù)進(jìn)行傳輸和處理。
2) 確定性算力網(wǎng)絡(luò)管控平面是確定性算力網(wǎng)絡(luò)的中樞神經(jīng)系統(tǒng),包括算力服務(wù)感知、算力資源感知、算力資源預(yù)留、算力任務(wù)調(diào)度等。確定性算力網(wǎng)絡(luò)管控平面通過(guò)南向接口與確定性算力網(wǎng)絡(luò)基礎(chǔ)設(shè)施平面交互,獲取基礎(chǔ)設(shè)施平面的算網(wǎng)狀態(tài)信息,構(gòu)建算力任務(wù)調(diào)度、算網(wǎng)管控等策略,形成決策指令并下發(fā)至基礎(chǔ)設(shè)施平面。
3) 確定性算力網(wǎng)絡(luò)業(yè)務(wù)應(yīng)用平面主要由各類定制化業(yè)務(wù)應(yīng)用構(gòu)成,特別是時(shí)間敏感、計(jì)算密集型業(yè)務(wù)應(yīng)用;確定性算力網(wǎng)絡(luò)管控平面通過(guò)北向接口實(shí)現(xiàn)對(duì)業(yè)務(wù)應(yīng)用的能力開(kāi)放,包括業(yè)務(wù)標(biāo)識(shí)、服務(wù)質(zhì)量要求等。
確定性算力網(wǎng)絡(luò)基本工作流程介紹如下。
步驟1確定性算力網(wǎng)絡(luò)管控平面實(shí)現(xiàn)對(duì)基礎(chǔ)設(shè)施平面的算力服務(wù)感知、算力資源感知、網(wǎng)絡(luò)資源感知,構(gòu)建算網(wǎng)狀態(tài)信息庫(kù)。
步驟2終端設(shè)備發(fā)起計(jì)算任務(wù)請(qǐng)求,并對(duì)計(jì)算任務(wù)進(jìn)行標(biāo)識(shí)。
步驟3算網(wǎng)接入路由器對(duì)計(jì)算任務(wù)請(qǐng)求進(jìn)行解析,并上報(bào)確定性算力網(wǎng)絡(luò)管控平面。
步驟4確定性算力網(wǎng)絡(luò)管控平面處理分析計(jì)算任務(wù),識(shí)別終端用戶、任務(wù)類型及任務(wù)優(yōu)先級(jí),并決定任務(wù)計(jì)算和傳輸?shù)姆?wù)等級(jí)和策略。
步驟5聯(lián)合考慮算力服務(wù)、算力資源、網(wǎng)絡(luò)資源等狀態(tài)信息,選擇最優(yōu)的算力節(jié)點(diǎn);基于計(jì)算任務(wù)到達(dá)的時(shí)間,對(duì)算力節(jié)點(diǎn)進(jìn)行計(jì)算資源預(yù)留和保障。
步驟6規(guī)劃終端設(shè)備到所選擇目標(biāo)算力節(jié)點(diǎn)的網(wǎng)絡(luò)路徑,并基于分段路由(SR,segment routing)技術(shù)[34]構(gòu)建網(wǎng)絡(luò)傳輸路徑;基于確定性網(wǎng)絡(luò)的帶寬資源預(yù)留等保障機(jī)制實(shí)現(xiàn)計(jì)算任務(wù)的確定性傳輸。
步驟7基于確定性網(wǎng)絡(luò),將計(jì)算任務(wù)按照SR路徑分發(fā)至目標(biāo)算力節(jié)點(diǎn)進(jìn)行計(jì)算處理,其中,到達(dá)目標(biāo)算力節(jié)點(diǎn)后,優(yōu)先將目標(biāo)計(jì)算任務(wù)送入計(jì)算處理單元,并對(duì)計(jì)算任務(wù)提供計(jì)算資源的保障。
特別地,如果在同一時(shí)間段內(nèi),最優(yōu)路徑上的確定性任務(wù)流達(dá)到上限,采用次優(yōu)路徑;算力節(jié)點(diǎn)選擇也是如此。
1) 算網(wǎng)狀態(tài)感知。算網(wǎng)狀態(tài)感知主要包括算力資源感知、網(wǎng)絡(luò)資源感知、算力服務(wù)感知。其中,算力資源感知主要包括對(duì)CPU、GPU、內(nèi)存等算力資源負(fù)載狀況的實(shí)時(shí)感知;網(wǎng)絡(luò)資源感知主要是對(duì)網(wǎng)絡(luò)帶寬、時(shí)延、網(wǎng)絡(luò)隊(duì)列等網(wǎng)絡(luò)資源狀態(tài)信息的感知;算力服務(wù)感知主要是對(duì)部署在算力節(jié)點(diǎn)的應(yīng)用服務(wù)信息進(jìn)行感知。通過(guò)對(duì)算力和網(wǎng)絡(luò)的狀態(tài)感知,構(gòu)建全局統(tǒng)一資源狀態(tài)視圖和服務(wù)狀態(tài)視圖,支撐計(jì)算任務(wù)的最優(yōu)調(diào)度。由于時(shí)間敏感、計(jì)算密集型業(yè)務(wù)領(lǐng)域要求在極短的時(shí)間內(nèi)完成計(jì)算任務(wù)的傳輸和處理。因此,如何設(shè)定算網(wǎng)狀態(tài)信息的采集時(shí)間間隔也是一項(xiàng)關(guān)鍵問(wèn)題,采集間隔過(guò)長(zhǎng),計(jì)算任務(wù)可能早已完成傳輸和計(jì)算;采集間隔過(guò)短,會(huì)導(dǎo)致網(wǎng)絡(luò)中狀態(tài)采集的報(bào)文過(guò)多,影響正常的業(yè)務(wù)數(shù)據(jù)傳輸。
2) 算力節(jié)點(diǎn)選擇。算力節(jié)點(diǎn)選擇主要是為計(jì)算任務(wù)選擇一個(gè)目標(biāo)計(jì)算處理節(jié)點(diǎn),滿足計(jì)算任務(wù)處理的要求。對(duì)于算力節(jié)點(diǎn)的選擇,通常需要在算網(wǎng)狀態(tài)感知的基礎(chǔ)上進(jìn)行,而且可以采用多種選擇策略,如基于算力最優(yōu)的節(jié)點(diǎn)選擇、基于算網(wǎng)均衡的節(jié)點(diǎn)選擇等。特別地,算力服務(wù)是否部署是算力節(jié)點(diǎn)選擇的一項(xiàng)重要標(biāo)準(zhǔn),如果從算網(wǎng)資源角度選擇的最優(yōu)算力節(jié)點(diǎn)沒(méi)有部署相應(yīng)的算力服務(wù),那么需要啟動(dòng)處理該計(jì)算任務(wù)的算力服務(wù)鏡像,即存在一個(gè)冷啟動(dòng)的過(guò)程,而該過(guò)程通常會(huì)給任務(wù)處理帶來(lái)較高時(shí)延。
3) 計(jì)算任務(wù)傳輸。計(jì)算任務(wù)傳輸主要是在選定算力節(jié)點(diǎn)之后,將用戶的計(jì)算任務(wù)請(qǐng)求按照超低時(shí)延、超高可靠的確定性方式傳輸分發(fā)至所選擇的目標(biāo)算力節(jié)點(diǎn)。為保證計(jì)算任務(wù)的傳輸確定性,可以采用基于SDN 的網(wǎng)絡(luò)傳輸架構(gòu)進(jìn)行設(shè)計(jì)。通過(guò)引入確定性網(wǎng)絡(luò)技術(shù)保證計(jì)算任務(wù)的傳輸時(shí)延抖動(dòng)確定性。其中,在小規(guī)模網(wǎng)絡(luò)環(huán)境,可以采用TSN技術(shù)進(jìn)行承載;在大規(guī)模網(wǎng)絡(luò)環(huán)境,可采用DetNet技術(shù)進(jìn)行承載。另一方面,通過(guò)引入SR 技術(shù)來(lái)實(shí)現(xiàn)計(jì)算任務(wù)傳輸?shù)穆窂酱_定性,以保證網(wǎng)絡(luò)系統(tǒng)按照最優(yōu)的路徑傳輸。
4) 算網(wǎng)資源管理。在計(jì)算任務(wù)確定性傳輸和計(jì)算過(guò)程中,除了常規(guī)的計(jì)算和網(wǎng)絡(luò)資源管理,還需要一項(xiàng)特殊的算網(wǎng)資源管理機(jī)制,即網(wǎng)絡(luò)資源預(yù)留和算力資源預(yù)留機(jī)制以保證計(jì)算任務(wù)傳輸和處理的流暢性,避免發(fā)生傳輸擁堵和處理等待。算網(wǎng)資源的預(yù)留保障機(jī)制可以采用集中式的算網(wǎng)管控平面進(jìn)行統(tǒng)一編排管理,并且通過(guò)精準(zhǔn)網(wǎng)絡(luò)測(cè)量和快速算力估計(jì),實(shí)現(xiàn)算網(wǎng)資源分配與任務(wù)的傳輸、計(jì)算相匹配,進(jìn)而保證計(jì)算任務(wù)數(shù)據(jù)包實(shí)現(xiàn)“傳輸路徑不擁堵,節(jié)點(diǎn)處理不等待”的目標(biāo)。
本文通過(guò)仿真實(shí)驗(yàn)對(duì)所提的確定性算力網(wǎng)絡(luò)技術(shù)方案進(jìn)行驗(yàn)證。其中,本文以計(jì)算任務(wù)的傳輸時(shí)延和計(jì)算處理時(shí)延作為驗(yàn)證系統(tǒng)性能的指標(biāo)。本節(jié)實(shí)驗(yàn)對(duì)比了確定性算力網(wǎng)絡(luò)和普通算力網(wǎng)絡(luò),其中,普通算力網(wǎng)絡(luò)不具備網(wǎng)絡(luò)和算力資源的確定性保障能力。
在任務(wù)計(jì)算處理時(shí)延方面,主要驗(yàn)證算力節(jié)點(diǎn)的處理時(shí)延,本文設(shè)置了不同的計(jì)算任務(wù)量來(lái)對(duì)比驗(yàn)證確定性算力網(wǎng)絡(luò)和普通算力網(wǎng)絡(luò)的算力節(jié)點(diǎn)計(jì)算任務(wù)處理時(shí)延。具體地,本文采用了學(xué)術(shù)界通用的仿真驗(yàn)證方法驗(yàn)證任務(wù)計(jì)算處理時(shí)延[35];其中,計(jì)算任務(wù)的計(jì)算量用CPU 的周期數(shù)表示,wi表示處理計(jì)算任務(wù)i所需要的CPU 周期數(shù),即計(jì)算任務(wù)i的計(jì)算量;算力節(jié)點(diǎn)的計(jì)算服務(wù)率(即CPUk的頻率)可表示為rk,則計(jì)算任務(wù)的時(shí)間為在確定性算力網(wǎng)絡(luò)中,算力節(jié)點(diǎn)的算力資源是可以得到保障的;在普通算力網(wǎng)絡(luò)中,算力節(jié)點(diǎn)的算力資源沒(méi)有相應(yīng)的保障機(jī)制,計(jì)算任務(wù)分配到的資源是不固定的。
在仿真實(shí)驗(yàn)中,設(shè)置計(jì)算任務(wù)量為wi=[10,20,30,40,50,60]Mcycles,算力節(jié)點(diǎn)為單核CPU 且頻率為0.5 GHz。由于在確定性算力網(wǎng)絡(luò)中算力節(jié)點(diǎn)為計(jì)算任務(wù)預(yù)留了計(jì)算資源,因此計(jì)算任務(wù)的處理性能和處理時(shí)延可以得到保障。而普通算力網(wǎng)絡(luò)系統(tǒng)將計(jì)算任務(wù)分發(fā)至算力節(jié)點(diǎn)后,就不再做算力資源的保障性支撐,導(dǎo)致沒(méi)有對(duì)該計(jì)算任務(wù)進(jìn)行持續(xù)性的算力資源保障,進(jìn)而造成處理時(shí)延的增加。如圖2 所示,相同計(jì)算任務(wù)量在相同算力配置的情況下,確定性算力網(wǎng)絡(luò)中算力節(jié)點(diǎn)的計(jì)算處理時(shí)延明顯低于普通算力網(wǎng)絡(luò)中算力節(jié)點(diǎn)的計(jì)算處理時(shí)延;同時(shí),隨著計(jì)算任務(wù)量的增加,確定性算力網(wǎng)絡(luò)的算力節(jié)點(diǎn)的計(jì)算處理時(shí)延是線性增長(zhǎng)的,而普通算力網(wǎng)絡(luò)的算力節(jié)點(diǎn)的計(jì)算處理時(shí)延是跳動(dòng)的、不穩(wěn)定的。這是因?yàn)榇_定性算力網(wǎng)絡(luò)中算力節(jié)點(diǎn)預(yù)留了算力資源,以保障計(jì)算任務(wù)的處理性能。綜上所述,在任務(wù)計(jì)算處理時(shí)延方面,確定性算力網(wǎng)絡(luò)是優(yōu)于普通算力網(wǎng)絡(luò)的。
圖2 計(jì)算任務(wù)處理時(shí)延對(duì)比
在任務(wù)傳輸時(shí)延方面,通過(guò)對(duì)比確定性算力網(wǎng)絡(luò)和普通算力網(wǎng)絡(luò)傳輸計(jì)算任務(wù)的時(shí)延來(lái)驗(yàn)證性能。特別地,在本節(jié)實(shí)驗(yàn)中,網(wǎng)絡(luò)傳輸部分采用紫金山實(shí)驗(yàn)室的確定性網(wǎng)絡(luò)仿真實(shí)驗(yàn)平臺(tái)進(jìn)行實(shí)驗(yàn)驗(yàn)證。該仿真平臺(tái)系統(tǒng)首先通過(guò)構(gòu)建傳感器、交換機(jī)等網(wǎng)絡(luò)參數(shù)模型,并針對(duì)實(shí)體網(wǎng)絡(luò)設(shè)備傳輸過(guò)程中的隨機(jī)性抖動(dòng)等網(wǎng)絡(luò)特征建模,還原真實(shí)網(wǎng)絡(luò)場(chǎng)景;然后根據(jù)構(gòu)建的網(wǎng)絡(luò)模型參數(shù)進(jìn)行實(shí)例化配置,對(duì)選取的確定性網(wǎng)絡(luò)仿真模塊進(jìn)行配置,進(jìn)而計(jì)算并分析確定性網(wǎng)絡(luò)協(xié)議的參數(shù),自動(dòng)把參數(shù)下發(fā)并配置到仿真交換機(jī)中;最后執(zhí)行仿真并給出精確的仿真結(jié)果[36]。
本節(jié)實(shí)驗(yàn)通過(guò)對(duì)比計(jì)算任務(wù)經(jīng)過(guò)不同跳數(shù)的網(wǎng)絡(luò)平均時(shí)延,驗(yàn)證確定性算力網(wǎng)絡(luò)和普通算力網(wǎng)絡(luò)的性能。在實(shí)驗(yàn)中,2 個(gè)相同的計(jì)算任務(wù)分別采用確定性算力網(wǎng)絡(luò)和普通算力網(wǎng)絡(luò)技術(shù),同時(shí)從2 個(gè)相同的終端設(shè)備發(fā)出計(jì)算任務(wù),并將計(jì)算任務(wù)的路由路徑設(shè)置為相同;在實(shí)際系統(tǒng)中,可通過(guò)SDN 和SR 技術(shù)來(lái)設(shè)置傳輸路徑,保障傳輸路徑確定性。如圖3 所示,由于確定性網(wǎng)絡(luò)采用了時(shí)鐘同步、帶寬預(yù)留、隊(duì)列調(diào)度優(yōu)化等機(jī)制,計(jì)算任務(wù)的傳輸時(shí)延明顯低于普通算力網(wǎng)絡(luò)。事實(shí)上,普通算力網(wǎng)絡(luò)采用“盡力而為”的機(jī)制,計(jì)算任務(wù)傳輸時(shí)延、傳輸可靠性都難以保證;而確定性算力網(wǎng)絡(luò)可以實(shí)現(xiàn)計(jì)算任務(wù)低時(shí)延、低抖動(dòng),甚至零分組丟失的傳輸,極大地保證了計(jì)算任務(wù)的傳輸質(zhì)量。
圖3 計(jì)算任務(wù)的傳輸時(shí)延對(duì)比
本節(jié)分別從車聯(lián)網(wǎng)、消費(fèi)互聯(lián)網(wǎng)、產(chǎn)業(yè)互聯(lián)網(wǎng)三大領(lǐng)域中選擇智能駕駛、云虛擬現(xiàn)實(shí)、智能制造三類典型應(yīng)用場(chǎng)景,具體分析確定性算力網(wǎng)絡(luò)在其中的應(yīng)用價(jià)值。
在智能駕駛場(chǎng)景中,由于單車智能存在感知范圍受限、制造成本高昂、時(shí)空同步困難、環(huán)境突變或惡劣天氣情況下感知穩(wěn)健性差等問(wèn)題,因此,智能駕駛未來(lái)將更多采用基于蜂窩車聯(lián)網(wǎng)(C-V2X,cellular vehicle-to-everything)的智能駕駛方案,特別是依靠車路協(xié)同技術(shù),以確保實(shí)時(shí)精準(zhǔn)感知、高可靠傳輸、低時(shí)延處理[37]。其中,在車路協(xié)同場(chǎng)景下,智能駕駛對(duì)時(shí)延和算力均有較高要求,例如L4 級(jí)智能駕駛要求時(shí)延不高于10 ms,帶寬不低于100 Mbit/s,同時(shí)L4 級(jí)智能駕駛對(duì)算力的要求達(dá)到接近400 TOPS(tera operation per second)[38]。因此,確定性算力網(wǎng)絡(luò)可以作為智能駕駛的底層技術(shù),基于統(tǒng)一的確定性算網(wǎng)感知、規(guī)劃調(diào)度、編排管理機(jī)制,將車輛、路側(cè)感知的數(shù)據(jù)以及車輛的運(yùn)行軌跡實(shí)時(shí)傳回最優(yōu)邊緣計(jì)算節(jié)點(diǎn),進(jìn)行實(shí)時(shí)高效的計(jì)算處理、分析決策,然后將計(jì)算結(jié)果低時(shí)延、高可靠地傳回智能駕駛車輛,實(shí)現(xiàn)車輛智能控制。因此,確定性算力網(wǎng)絡(luò)可以為智能駕駛提供低時(shí)延、高可靠的網(wǎng)絡(luò)傳輸和實(shí)時(shí)計(jì)算,滿足智能駕駛場(chǎng)景的實(shí)時(shí)性、確定性、高可靠的技術(shù)要求。
虛擬現(xiàn)實(shí)(VR,virtual reality)憑借其帶來(lái)的極致沉浸式體驗(yàn),已經(jīng)成為消費(fèi)互聯(lián)網(wǎng)領(lǐng)域的熱點(diǎn)技術(shù)。然而,傳統(tǒng)本地VR 存在用戶體驗(yàn)差、設(shè)備成本高、內(nèi)容分散等問(wèn)題,制約著VR 技術(shù)產(chǎn)業(yè)發(fā)展。隨著算網(wǎng)技術(shù)的發(fā)展,Cloud VR 成為應(yīng)對(duì)VR 挑戰(zhàn)的解決思路[39]。然而,Cloud VR 業(yè)務(wù)的實(shí)時(shí)編解碼、特征渲染、超低時(shí)延連接等對(duì)網(wǎng)絡(luò)和算力均提出了較高要求。例如,Cloud VR 達(dá)到良好的業(yè)務(wù)體驗(yàn)要求網(wǎng)絡(luò)時(shí)延在20 ms 以內(nèi)[39]。因此,采用確定性算力網(wǎng)絡(luò)承載Cloud VR業(yè)務(wù),可為Cloud VR 提供邊緣算力資源、實(shí)時(shí)網(wǎng)絡(luò)傳輸保障。例如,網(wǎng)絡(luò)可以感知Cloud VR 等媒體業(yè)務(wù)的流量模型,并基于該模型進(jìn)行端到端資源預(yù)留和調(diào)度,避免由于資源擁塞導(dǎo)致的時(shí)延和抖動(dòng)。
隨著制造業(yè)向著智能化改造和數(shù)字化轉(zhuǎn)型方向發(fā)展,企業(yè)生產(chǎn)系統(tǒng)呈現(xiàn)出現(xiàn)場(chǎng)少人化、無(wú)人化的趨勢(shì),工業(yè)控制系統(tǒng)也逐漸向著集中式云化部署的方向發(fā)展,進(jìn)而可以遠(yuǎn)程控制處理生產(chǎn)現(xiàn)場(chǎng)的工序操作,保障生產(chǎn)安全。同時(shí),智能制造的集中式云化部署也讓大型企業(yè)得以在更大范圍內(nèi)實(shí)現(xiàn)總部、多基地之間的生產(chǎn)要素調(diào)配和優(yōu)化,實(shí)現(xiàn)企業(yè)的降本增效[40-41]。因此,針對(duì)工業(yè)控制系統(tǒng)向著廣域化、云化發(fā)展的趨勢(shì),確定性算力網(wǎng)絡(luò)可以為下一代工業(yè)控制系統(tǒng)提供實(shí)時(shí)算力和實(shí)時(shí)傳輸保障。例如,將工廠控制系統(tǒng)以云服務(wù)的形式部署在云端,將感知設(shè)備采集的信息超低時(shí)延、超高可靠地傳輸至邊緣算力節(jié)點(diǎn),通過(guò)快速識(shí)別和決策將控制指令快速反饋給終端設(shè)備,并執(zhí)行動(dòng)作行為。
確定性算力網(wǎng)絡(luò)作為一種融合算力網(wǎng)絡(luò)、確定性網(wǎng)絡(luò)等技術(shù)的網(wǎng)絡(luò)新范式,還有一些趨勢(shì)性的研究問(wèn)題與技術(shù)挑戰(zhàn)需要進(jìn)一步探討,具體總結(jié)如下。
在確定性算力網(wǎng)絡(luò)中,感知節(jié)點(diǎn)算力和網(wǎng)絡(luò)鏈路狀態(tài)信息對(duì)計(jì)算任務(wù)的分發(fā)調(diào)度具有重要意義。由于計(jì)算任務(wù)在傳輸和處理方面均要求低時(shí)延,過(guò)長(zhǎng)的狀態(tài)采集時(shí)間間隔會(huì)影響狀態(tài)感知信息的準(zhǔn)確性,而過(guò)短的狀態(tài)采集時(shí)間間隔會(huì)增加網(wǎng)絡(luò)和算力節(jié)點(diǎn)的負(fù)載。因此,如何權(quán)衡算網(wǎng)狀態(tài)的準(zhǔn)確性和狀態(tài)采集時(shí)間間隔成為一項(xiàng)重要挑戰(zhàn)。今后,可以采用人工智能的方法,基于離線的算網(wǎng)狀態(tài)數(shù)據(jù)訓(xùn)練構(gòu)建算網(wǎng)狀態(tài)模型,預(yù)測(cè)算網(wǎng)的狀態(tài)信息;并結(jié)合實(shí)時(shí)在線感知的狀態(tài)信息,構(gòu)建算網(wǎng)狀態(tài)感知的模型策略,為計(jì)算任務(wù)的調(diào)度決策提供支撐。
云原生是云計(jì)算發(fā)展的重要趨勢(shì),而Serverless技術(shù)是云原生的關(guān)鍵[42]。當(dāng)最優(yōu)的算力節(jié)點(diǎn)沒(méi)有部署用戶請(qǐng)求的服務(wù)時(shí),除了將計(jì)算任務(wù)調(diào)度至次優(yōu)算力節(jié)點(diǎn),還可以通過(guò)Serverless 技術(shù),超低時(shí)延的彈性啟動(dòng)對(duì)應(yīng)的計(jì)算服務(wù),以滿足用戶實(shí)時(shí)計(jì)算需求。因此,在算力節(jié)點(diǎn)選擇或計(jì)算任務(wù)調(diào)度時(shí),是基于Serverless 技術(shù)啟動(dòng)計(jì)算服務(wù),還是將計(jì)算任務(wù)調(diào)度至次優(yōu)的算力節(jié)點(diǎn),成為一個(gè)權(quán)衡問(wèn)題。因此,研究基于Serverless的服務(wù)編排對(duì)于優(yōu)化計(jì)算任務(wù)調(diào)度具有重要意義,也是今后重要的研究方向。
時(shí)間敏感、計(jì)算密集型的業(yè)務(wù)通常要求算力節(jié)點(diǎn)能夠快速計(jì)算處理到達(dá)的任務(wù),以保證計(jì)算任務(wù)傳輸時(shí)延和處理時(shí)延總和最小化。在進(jìn)行計(jì)算任務(wù)調(diào)度時(shí),為保證計(jì)算任務(wù)的計(jì)算量與算力節(jié)點(diǎn)提供的算力資源能夠相匹配,需要對(duì)計(jì)算任務(wù)所需的算力進(jìn)行度量,實(shí)現(xiàn)對(duì)計(jì)算任務(wù)的精細(xì)化描述和表征[43];另一方面,由于算力節(jié)點(diǎn)的負(fù)載通常是動(dòng)態(tài)變化的,在選擇算力節(jié)點(diǎn)時(shí),也需要對(duì)算力節(jié)點(diǎn)的算力資源進(jìn)行估計(jì),以確保算力節(jié)點(diǎn)的算力資源可以滿足計(jì)算任務(wù)的計(jì)算需求。通過(guò)對(duì)算力進(jìn)行度量和估計(jì),可以更加準(zhǔn)確地為計(jì)算任務(wù)調(diào)度和算力節(jié)點(diǎn)選擇提供參考依據(jù),保障計(jì)算任務(wù)的確定性傳輸和計(jì)算。
傳統(tǒng)網(wǎng)絡(luò)采用的是“盡力而為”的數(shù)據(jù)傳送方式,為了保證數(shù)據(jù)的準(zhǔn)確性,在終端設(shè)備的網(wǎng)絡(luò)協(xié)議棧中增加了大量容錯(cuò)校驗(yàn)機(jī)制,隨之而來(lái)的問(wèn)題是占用了終端設(shè)備的算力資源、增加了終端設(shè)備的計(jì)算開(kāi)銷。隨著確定性網(wǎng)絡(luò)技術(shù)的發(fā)展,確定性網(wǎng)絡(luò)在時(shí)延、抖動(dòng)、分組丟失方面都進(jìn)行了極大優(yōu)化,網(wǎng)絡(luò)可靠性也得到了極大改善。由于確定性網(wǎng)絡(luò)在時(shí)延、抖動(dòng)、分組丟失等方面的高可靠性,傳統(tǒng)的容錯(cuò)校驗(yàn)機(jī)制就顯得冗余重復(fù)。因此,在確定性網(wǎng)絡(luò)環(huán)境下,對(duì)終端設(shè)備的網(wǎng)絡(luò)協(xié)議棧進(jìn)行容錯(cuò)校驗(yàn)方面的簡(jiǎn)化具有重要意義,也是今后確定性算力網(wǎng)絡(luò)研究的重要方向。
基于算網(wǎng)感知信息可以判斷單個(gè)任務(wù)下一時(shí)段負(fù)載較低或性能最優(yōu)的算力節(jié)點(diǎn),然后將計(jì)算任務(wù)調(diào)度分發(fā)至該目標(biāo)算力節(jié)點(diǎn);但當(dāng)多個(gè)用戶多個(gè)任務(wù)并發(fā)請(qǐng)求時(shí),目標(biāo)算力節(jié)點(diǎn)在下一時(shí)段可能成為多個(gè)用戶多個(gè)任務(wù)最優(yōu)的任務(wù)計(jì)算處理節(jié)點(diǎn),進(jìn)而導(dǎo)致目標(biāo)算力節(jié)點(diǎn)的負(fù)載快速增加,計(jì)算任務(wù)的處理性能受到影響。針對(duì)計(jì)算任務(wù)并發(fā)性問(wèn)題,在設(shè)計(jì)確定性算力網(wǎng)絡(luò)管控平面的計(jì)算任務(wù)調(diào)度策略時(shí),如何滿足并發(fā)用戶的任務(wù)請(qǐng)求且最大化利用最優(yōu)算力節(jié)點(diǎn)的資源,將是今后確定性算力網(wǎng)絡(luò)研究的一項(xiàng)重要挑戰(zhàn)。
面向智能制造、智能駕駛、云虛擬現(xiàn)實(shí)等新業(yè)務(wù)場(chǎng)景,聚焦新業(yè)務(wù)對(duì)時(shí)延、算力的特殊要求,特別是時(shí)間敏感、計(jì)算密集型業(yè)務(wù),本文提出了確定性算力網(wǎng)絡(luò)技術(shù)方案。該方案具有任務(wù)實(shí)時(shí)傳輸、任務(wù)實(shí)時(shí)計(jì)算、軟件定義化、算網(wǎng)一體化、服務(wù)定制化的特點(diǎn),具備算網(wǎng)感知、規(guī)劃調(diào)度、資源管控等核心能力,實(shí)現(xiàn)了任務(wù)傳輸?shù)臅r(shí)延確定性、抖動(dòng)確定性、路徑確定性和任務(wù)計(jì)算的實(shí)時(shí)性。本文通過(guò)實(shí)驗(yàn)驗(yàn)證了所提方案的有效性。
面向未來(lái),確定性算力網(wǎng)絡(luò)還需要進(jìn)一步結(jié)合人工智能技術(shù)提升自動(dòng)化、智能化決策水平,結(jié)合云原生技術(shù)提升網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)等多維資源的彈性編排能力。同時(shí),可信安全也是確定性算力網(wǎng)絡(luò)今后需要強(qiáng)化的方向,如何構(gòu)建內(nèi)生的可信安全機(jī)制也是今后需要重點(diǎn)探討的問(wèn)題。