邱 航 湯紅波 游 偉
(中國人民解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué) 鄭州 450002)
隨著移動通信的發(fā)展,快速部署各種新出現(xiàn)、多樣化和差異化的網(wǎng)絡(luò)服務(wù)已經(jīng)成為運(yùn)營商們面臨的重要挑戰(zhàn)之一[1]。為了滿足這些需求,第5代移動通信(5G)從僵化的硬件解決方案轉(zhuǎn)變?yōu)楦屿`活和可擴(kuò)展的軟件解決方案,降低了運(yùn)營商們在采購、管理和運(yùn)行期間的資本開銷(CPEX)和運(yùn)營支出(OPEX)。這一愿景的實(shí)現(xiàn)主要受益于網(wǎng)絡(luò)功能虛擬化和軟件定義網(wǎng)絡(luò)兩項(xiàng)關(guān)鍵技術(shù),使得按需和近乎實(shí)時地部署新服務(wù)成為可能[2]。網(wǎng)絡(luò)功能虛擬化(Network Function Virtualization, NFV)[3]實(shí)現(xiàn)了網(wǎng)絡(luò)設(shè)備中軟件與硬件解耦,提供了一種新的方式設(shè)計、編排、部署和管理多樣化的網(wǎng)絡(luò)服務(wù);同時,軟件定義網(wǎng)絡(luò)(Software-Defined Network, SDN)解耦了控制平面與數(shù)據(jù)平面,以SDN控制器的形式實(shí)現(xiàn)了網(wǎng)絡(luò)的集中化管理[4]。在NFV/SDN使能網(wǎng)絡(luò)中,運(yùn)營商能夠便捷地監(jiān)測網(wǎng)絡(luò)設(shè)備和流量,實(shí)現(xiàn)網(wǎng)絡(luò)服務(wù)的高效管理。
在NFV/SDN使能網(wǎng)絡(luò)中,服務(wù)功能鏈(Service Function Chain, SFC,簡稱服務(wù)鏈)已經(jīng)成為一種典型的網(wǎng)絡(luò)服務(wù)表示方式。根據(jù)IETF (Internet Engineering Task Force)制定的服務(wù)鏈標(biāo)準(zhǔn),SFC定義為一組有序或部分有序的VNFs集合,特別是一條SFC的流量需按照預(yù)定義的順序經(jīng)過一系列指定的VNFs[5]。NFV允許將軟件化的VNF部署在通用服務(wù)器里任何資源充足的VM或容器中,因此,在NFV/SDN使能網(wǎng)絡(luò)中,通過確定如何在多個候選服務(wù)器中部署服務(wù)請求的服務(wù)鏈為改善系統(tǒng)性能和服務(wù)質(zhì)量提供了一個機(jī)遇。同時,網(wǎng)絡(luò)服務(wù)的高效和自動部署無疑是邁向全自動網(wǎng)絡(luò)(即零接觸網(wǎng)絡(luò))的最重要的技術(shù)構(gòu)件之一。然而,由于服務(wù)的各種限制條件,網(wǎng)絡(luò)服務(wù)在基礎(chǔ)設(shè)施上的部署仍然非常復(fù)雜。
目前,面向服務(wù)請求的虛擬網(wǎng)絡(luò)功能放置或者服務(wù)鏈部署問題已經(jīng)成為學(xué)術(shù)界研究的一個熱點(diǎn)問題,被歸類為NFV系統(tǒng)中的一個資源管理問題[6],并被證明是一個NP難問題[7-9]。當(dāng)前文獻(xiàn)主要將其建模為不同優(yōu)化目標(biāo)的數(shù)學(xué)規(guī)劃模型,包括整數(shù)線性規(guī)劃(Integer Linear Programming, ILP)[10,11]和混合整數(shù)線性規(guī)劃(Mixed Integer Linear Programming,MILP)[12,13]等。由于數(shù)學(xué)規(guī)劃方法在大規(guī)模網(wǎng)絡(luò)中求出最優(yōu)解是非常困難的,因此許多工作通過設(shè)計啟發(fā)式算法以獲得近似最優(yōu)解。文獻(xiàn)[11]研究了數(shù)據(jù)中心中服務(wù)鏈的部署問題,通過考慮VNFs的資源開銷設(shè)計了一種啟發(fā)式算法完成VNF實(shí)例在大規(guī)模網(wǎng)絡(luò)中的放置。文獻(xiàn)[14]提出了一種改進(jìn)多階段圖的啟發(fā)式服務(wù)鏈部署算法,完成VNF的高效放置。在考慮流量預(yù)測的條件下,Tang等人[13]提出一種滑動窗口線性回歸的流量預(yù)測方法,然后通過松弛整數(shù)變量設(shè)計了兩種啟發(fā)式算法。然而,由于啟發(fā)式算法缺乏嚴(yán)格的理論證明,難以保證其總是求得近似最優(yōu)解。強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)用于描述和解決智能體(agent)在與環(huán)境的交互過程中通過學(xué)習(xí)策略以達(dá)成回報最大化或?qū)崿F(xiàn)特定目標(biāo)的問題,目前已證明其在求解組合優(yōu)化問題方面的優(yōu)勢[15]。袁泉等人[16]提出了一種改進(jìn)的基于Q學(xué)習(xí)的服務(wù)鏈部署方法,同時考慮了空間維度下的服務(wù)鏈映射和時間維度下的VNF生命周期管理,實(shí)現(xiàn)了VNF部署收益和時延的多目標(biāo)優(yōu)化。在現(xiàn)實(shí)網(wǎng)絡(luò)環(huán)境中,一個網(wǎng)絡(luò)中包含大量的硬件設(shè)備,由于網(wǎng)絡(luò)服務(wù)和用戶請求的多樣性,網(wǎng)絡(luò)資源狀態(tài)(例如帶寬、內(nèi)存和CPU等)的變化是復(fù)雜的,將會對VNF的部署產(chǎn)生重要影響;而且,在網(wǎng)絡(luò)功能虛擬化環(huán)境中,VNF能夠靈活地放置在網(wǎng)絡(luò)的多個位置,其可能產(chǎn)生大規(guī)模VNF放置和優(yōu)化的動作空間。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法采用Q表的形式評價當(dāng)前狀態(tài)下每個動作的性能,然而Q表的維度是有限的,僅能求解有限離散狀態(tài)和動作空間的低維度問題。因此,傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法在大規(guī)模底層網(wǎng)絡(luò)環(huán)境中,難以準(zhǔn)確地描述復(fù)雜的網(wǎng)絡(luò)資源狀態(tài)變化,且求解擴(kuò)展性不足。深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL)采用深度神經(jīng)網(wǎng)絡(luò)代替Q表,深度神經(jīng)網(wǎng)絡(luò)能夠建立高維狀態(tài)、動作和Q值之間的關(guān)系。因此,DRL擁有更加強(qiáng)大的學(xué)習(xí)能力,被廣泛地應(yīng)用于解復(fù)雜問題。文獻(xiàn)[17]設(shè)計了一種基于策略梯度的DRL算法求解服務(wù)鏈部署問題,目標(biāo)是實(shí)現(xiàn)運(yùn)營開銷和服務(wù)請求總吞吐量的聯(lián)合優(yōu)化。文獻(xiàn)[18]將深度確定性策略梯度算法用于求解VNF的放置問題,以提高服務(wù)請求的接受率。策略梯度適用于連續(xù)變量求解,而對于離散空間在擬合誤差傳遞過程中可能出現(xiàn)訓(xùn)練穩(wěn)定性不足的問題。
上述工作都在努力解決服務(wù)鏈部署問題,但由于服務(wù)請求的隨機(jī)到達(dá),網(wǎng)絡(luò)資源狀態(tài)通常表現(xiàn)出很大的變化,同時網(wǎng)絡(luò)環(huán)境的復(fù)雜性使得傳統(tǒng)算法求解效率明顯降低,因此需要一個合適的模型來捕捉動態(tài)網(wǎng)絡(luò)的狀態(tài)變化和一種高效的求解策略。本文提出了一種基于深度Q網(wǎng)絡(luò)的在線服務(wù)功能鏈部署方法。首先,我們引入馬爾可夫決策過程來描述動態(tài)的網(wǎng)絡(luò)資源狀態(tài)轉(zhuǎn)換過程;然后,提出了一種基于DQN的在線服務(wù)鏈部署算法來智能高效地解決服務(wù)鏈部署的復(fù)雜性問題,該算法旨在滿足服務(wù)請求的時延約束的同時最小化總資源占用開銷。仿真結(jié)果表明,本文方法能夠克服數(shù)學(xué)規(guī)劃的擴(kuò)展性問題,而且滿足時延要求的條件下最小化服務(wù)鏈部署開銷,可有效提高運(yùn)營商網(wǎng)絡(luò)的請求接受率和運(yùn)營收益。
本節(jié)詳細(xì)描述了服務(wù)鏈部署問題的數(shù)學(xué)規(guī)劃,然后說明了如何使用馬爾可夫決策過程建模網(wǎng)絡(luò)資源狀態(tài)轉(zhuǎn)變和服務(wù)鏈部署問題,最后簡要介紹了深度Q網(wǎng)絡(luò)。
圖1 服務(wù)功能鏈部署示意圖
首先,服務(wù)器有充足的資源可以放置多個VNFs,因此表述服務(wù)器的資源約束為
同時每個VNFs只能部署在一個服務(wù)器節(jié)點(diǎn)n上,因此
然后,本文不僅考慮帶寬資源約束,也考慮QoS中的時延要求,因?yàn)闀r延約束同樣影響服務(wù)請求部署是否成功。采用不可分割的多商品流問題建模VLs的底層網(wǎng)絡(luò)路徑,一條VL部署成功當(dāng)且僅當(dāng)其連接的VNFs部署成功,同時滿足它的時延要求。對于帶寬需求
在通信網(wǎng)絡(luò)環(huán)境中,服務(wù)請求的隨機(jī)到達(dá)和離開服從泊松過程,泊松過程滿足兩個條件:(1)不同服務(wù)請求到達(dá)或離開是相互獨(dú)立的事件;(2)在足夠小的單位時間內(nèi),有且僅有不超過一個服務(wù)請求到達(dá)或者離開[19]。定義Rτ ?R表示[ 0,τ]內(nèi)到達(dá)和離開的服務(wù)請求,當(dāng)每個服務(wù)請求到達(dá)時,NFV/SDN使能網(wǎng)絡(luò)的管理編排器將會獲取底層網(wǎng)絡(luò)狀態(tài)信息,包含服務(wù)器節(jié)點(diǎn)剩余資源、物理鏈路可用帶寬和傳輸時延等,為服務(wù)請求的服務(wù)鏈部署做好準(zhǔn)備。馬爾可夫決策過程(Markov Decision Process, MDP)是序貫決策的數(shù)學(xué)模型,用于在系統(tǒng)狀態(tài)具有馬爾可夫性質(zhì)的環(huán)境中模擬智能體可實(shí)現(xiàn)的隨機(jī)性策略與回報[20]??紤]到服務(wù)請求到達(dá)和離開以及服務(wù)鏈中VNF的序慣性,本文采用MDP描述服務(wù)鏈部署過程。MDP通常定義為5元組〈S,A,P,R,γ〉, 其中S表示狀態(tài)集合,A表示離散動作集合,P:S×A×S表示狀態(tài)轉(zhuǎn)移概率分布,R:S×A是 獎勵函數(shù),γ∈[0,1]是對未來獎勵的折扣因子。
傳統(tǒng)的Q-learning用表格的方式來記錄狀態(tài)和動作對應(yīng)的Q值的方法在處理一些大規(guī)模的問題上會占用極大的內(nèi)存,而且重復(fù)地搜索大規(guī)模表格也是一件很耗時的事情。深度Q網(wǎng)絡(luò)(Deep Q Network, DQN)是一種將神經(jīng)網(wǎng)絡(luò)和Q-learning結(jié)合的方法,直接將狀態(tài)作為神經(jīng)網(wǎng)絡(luò)的輸入,用神經(jīng)網(wǎng)絡(luò)計算出所有的動作價值,并從中選出一個最大值作為輸出,或者將狀態(tài)和動作都作為神經(jīng)網(wǎng)絡(luò)的輸入,直接輸出對應(yīng)的Q值。
DQN采用行為和觀察值的序列作為學(xué)習(xí)的樣本,由于這樣的序列彼此之間是完全不同的,所以用這樣的序列作為RL中狀態(tài)時,所有的狀態(tài)都是完全不同的值,可以將問題轉(zhuǎn)化為MDP,也就方便使用RL來解決問題。同時DQN擁有一個經(jīng)驗(yàn)復(fù)用池來學(xué)習(xí)之前的學(xué)習(xí)經(jīng)歷,其中存儲的“學(xué)習(xí)經(jīng)歷”就是之前提到的行為和觀察值序列,便于在DQN每次更新時抽取之前的學(xué)習(xí)經(jīng)歷進(jìn)行學(xué)習(xí)。隨機(jī)抽取的方式打亂了學(xué)習(xí)經(jīng)歷之間的相關(guān)性,也使得神經(jīng)網(wǎng)絡(luò)的更新更有效率。
本節(jié)首先引進(jìn)基于DQN的服務(wù)鏈部署架構(gòu),然后介紹基于DQN的在線服務(wù)鏈部署算法,最后詳細(xì)說明深度Q網(wǎng)絡(luò)的訓(xùn)練過程。
馬爾可夫決策過程能夠連續(xù)自動地描述網(wǎng)絡(luò)環(huán)境的變化和網(wǎng)絡(luò)資源狀態(tài)轉(zhuǎn)移?;谏鲜鰲l件,我們需要找到一種合適、高效的服務(wù)鏈部署算法,其能夠在每個狀態(tài)下自動采取合適的動作以獲得較好的收益。因此,我們推出一種基于DQN的在線服務(wù)鏈部署算法,在滿足時延要求的條件下最小化服務(wù)請求占用資源開銷。
圖2 網(wǎng)絡(luò)服務(wù)部署架構(gòu)
為有效應(yīng)對網(wǎng)絡(luò)的動態(tài)變化,本文采用泊松過程表示服務(wù)請求的到達(dá)和離開。當(dāng)服務(wù)請求到達(dá)時,NFV/SDN網(wǎng)絡(luò)管理編排器(MANO)決策是否接受服務(wù)請求,然后更新網(wǎng)絡(luò)狀態(tài)。MANO按照到達(dá)時間依次部署服務(wù)請求的服務(wù)鏈,如果服務(wù)鏈部署失敗則拒絕服務(wù)請求,并返回初始網(wǎng)絡(luò)狀態(tài)。服務(wù)鏈部署失敗的原因可能包含:(1)服務(wù)器資源短缺造成VNFs部署失??;(2)無法滿足服務(wù)請求的帶寬或時延約束。為減小服務(wù)鏈部署過程中VNF放置動作的取值空間,本文采用序列化的方式進(jìn)行服務(wù)鏈部署,即在每個MDP狀態(tài)轉(zhuǎn)移內(nèi)僅部署一個VNF?;贒QN的在線服務(wù)鏈部署算法(Deep Q network based Service Chain Deployment,DeepSCD)如表1所示。首先初始化網(wǎng)絡(luò)狀態(tài),根據(jù)輸入服務(wù)鏈的長度確定部署步長,檢查底層網(wǎng)絡(luò)資源狀態(tài),生成可用服務(wù)器節(jié)點(diǎn)集合作為動作空間,根據(jù)設(shè)置條件選擇一個動作at作為返回值;NFV/SDN使能網(wǎng)絡(luò)給予當(dāng)前網(wǎng)絡(luò)狀態(tài)下執(zhí)行的動作at的獎勵反饋,智能體根據(jù)獎勵更新策略并轉(zhuǎn)移至下一個狀態(tài)。如果部署過程中出現(xiàn)可用服務(wù)器節(jié)點(diǎn)集合為空,MANO返回信息通知資源無法滿足條件,拒絕服務(wù)請求,并返回初始化狀態(tài)。其中經(jīng)驗(yàn)復(fù)用池用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,本文設(shè)置復(fù)用池大小M=500,當(dāng)經(jīng)驗(yàn)池存儲樣本收集滿時開始進(jìn)行訓(xùn)練((11)~(15)行)。如果網(wǎng)絡(luò)資源滿足整個服務(wù)鏈的部署要求,同時檢查輸入狀態(tài)中的服務(wù)鏈部署策略的端到端時延值。如果該值滿足服務(wù)請求的時延約束則輸出該策略提供服務(wù);否則MANO返回?zé)o法滿足QoS條件消息拒絕服務(wù)請求。
表1 算法1 基于DQN的在線服務(wù)鏈部署算法
DQN采用兩個神經(jīng)網(wǎng)絡(luò),分別是在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),其中在線網(wǎng)絡(luò)不停地更新參數(shù),用來進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,計算出Q估計值;而目標(biāo)網(wǎng)絡(luò)則凍結(jié)參數(shù),隔一段時間更新一次,用來計算Q現(xiàn)實(shí)值。DQN的訓(xùn)練流程如圖3所示,目標(biāo)網(wǎng)絡(luò)Q(s′,a′|θ?)與 在線網(wǎng)絡(luò)Q(s,a|θ)結(jié)構(gòu)相同,只是在每L步后對目標(biāo)網(wǎng)絡(luò)進(jìn)行參數(shù)更新,使得θ?=θ。在一段時間內(nèi)保持Q值是穩(wěn)定不變的,一定程度上降低了當(dāng)前Q值與目標(biāo)Q值的相關(guān)性,提升了算法的穩(wěn)定性。在 Q網(wǎng)絡(luò)訓(xùn)練過程中,一般會通過隨機(jī)梯度下降來優(yōu)化損失函數(shù),損失函數(shù)為
圖3 DQN訓(xùn)練流程
仿真采用BtEurope[21]網(wǎng)絡(luò)拓?fù)?,包?4個數(shù)據(jù)中心節(jié)點(diǎn)和37條全雙工鏈路。數(shù)據(jù)中心可用資源容量在[5, 50](unit)區(qū)間內(nèi)隨機(jī)選取,鏈路帶寬容量隨機(jī)選取以下數(shù)值:100 Mbps, 150 Mbps,600 Mbps和1 Gbps,傳輸時延在[500, 1000](μs)內(nèi)隨機(jī)生成。一條服務(wù)鏈包含5~9個VNFs,VNF請求的資源數(shù)量服從[0.5, 2]上的均勻分布,VL請求帶寬在1~40 Mbps內(nèi)隨機(jī)選取,服務(wù)請求最大容忍時延設(shè)置在[5, 20] (ms)。
基于上述設(shè)置,本實(shí)驗(yàn)在Xeon E5-2630 v4 2.2 GB和64 GB內(nèi)存的Windows 10系統(tǒng)內(nèi)使用Pycharm IDE進(jìn)行仿真。采用基于Python 3.8的Pytorch 1.6機(jī)器學(xué)習(xí)庫執(zhí)行深度學(xué)習(xí),使用NetworkX[22]仿真數(shù)據(jù)中心基礎(chǔ)設(shè)施的底層網(wǎng)絡(luò)。管理編排智能體的設(shè)置使用以下參數(shù),折扣因子γ=0.85,神經(jīng)網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)采用Adma,目標(biāo)網(wǎng)絡(luò)的更新周期L=50,神經(jīng)網(wǎng)絡(luò)隱藏層采用2層全連接結(jié)構(gòu),神經(jīng)元個數(shù)為100,線性整流函數(shù)(Rectified Linear Unit, ReLU)作為激活函數(shù)。
為驗(yàn)證本文算法DeepSCD的性能和有效性,我們比較DeepSCD與啟發(fā)式算法First-Fit-Dijkstra(FFD)和貝葉斯方法(Bayes)的性能。FFD算法采用First-Fit算法為VNFs分配底層網(wǎng)絡(luò)服務(wù)器資源和Dijkstra算法定義VLs的底層傳輸路徑,在文獻(xiàn)[23-25]中作為評估性能的基準(zhǔn)線算法。貝葉斯方法采用貝葉斯學(xué)習(xí)方法來解決NFV組件的預(yù)測、分割和部署問題[26]。在DeepSCD中,VNFs的放置位置是由神經(jīng)網(wǎng)絡(luò)決定的,因此DQN agent生成動作的質(zhì)量將會對算法性能產(chǎn)生明顯的影響。
圖4顯示了本文所提服務(wù)鏈部署算法在不同學(xué)習(xí)率下的獎勵,學(xué)習(xí)率(Learning Rate, LR)分別為0.010, 0.025, 0.050和0.100。從圖中可以看出,學(xué)習(xí)率在算法的訓(xùn)練階段影響?yīng)剟畹闹?,因?yàn)椴煌膶W(xué)習(xí)率表示獎勵函數(shù)收斂的學(xué)習(xí)步長。在學(xué)習(xí)過程中,較大的學(xué)習(xí)率可能錯過全局最優(yōu)解,而較小的學(xué)習(xí)率可能導(dǎo)致收斂速度較慢。仿真環(huán)境中,LR=0.050表現(xiàn)出較好的性能,它不僅能獲得近似最優(yōu)解,而且收斂速度較快。
圖4 不同學(xué)習(xí)率對獎勵函數(shù)的影響
圖5描述了本文算法在記憶回放階段抽取樣本批量大小對獎勵函數(shù)的影響,批量大小(Batch Size,BS)分別為16, 32, 64和128。在訓(xùn)練過程中,從經(jīng)驗(yàn)復(fù)用池隨機(jī)抽取小批量樣本,并使用隨機(jī)梯度下降算法更新網(wǎng)絡(luò)參數(shù)??梢钥闯觯煌槿颖九看笮∮绊懹?xùn)練階段獎勵函數(shù)的收斂速度。抽取樣本批量過小可能帶來較大的方差,影響算法收斂速度甚至不收斂。大批量樣本的梯度估計更加穩(wěn)定和準(zhǔn)確,其需要較高的計算時間,且可能導(dǎo)致神經(jīng)網(wǎng)絡(luò)陷入較差的局部最優(yōu)解。因此,樣本批量設(shè)置不能過大或者過小。根據(jù)仿真結(jié)果,樣本批量設(shè)置為BS=64。
圖5 不同抽取樣本批量大小對獎勵函數(shù)的影響
圖6表示不同請求到達(dá)強(qiáng)度下成功部署的服務(wù)鏈的平均部署開銷,部署開銷由式(8)定義,對應(yīng)參數(shù)分別取值ξD=0.95 和ξB=0.05。從圖中可以看出,本文的DeepSCD算法相較于FFD和Bayes算法的部署開銷存在明顯的降低。FFD算法采用簡單的貪婪式部署,DeepSCD和Bayes算法能夠根據(jù)網(wǎng)絡(luò)資源狀態(tài)變化整體統(tǒng)籌調(diào)整SFC部署策略,保證服務(wù)請求部署開銷總體較低。Bayes學(xué)習(xí)基于假設(shè)模型參數(shù)和樣本的后驗(yàn)概率估計總體分布,樣本較少和網(wǎng)絡(luò)狀態(tài)的變化導(dǎo)致其準(zhǔn)確性相對降低。而DeepSCD算法采用的馬爾可夫決策模型,對網(wǎng)絡(luò)狀態(tài)變化的適應(yīng)性更好,因此在部署策略上更優(yōu)。
圖6 不同請求強(qiáng)度下的平均部署開銷
圖7表示不同請求強(qiáng)度下服務(wù)請求的請求接受率。3種算法均隨著請求到達(dá)強(qiáng)度的上升而下降,是因?yàn)殡S著服務(wù)請求數(shù)量的增加網(wǎng)絡(luò)資源被占用而導(dǎo)致后續(xù)服務(wù)請求被拒絕。FFD算法不考慮底層服務(wù)器節(jié)點(diǎn)和鏈路資源狀態(tài)對部署策略的影響,部分中心鏈路和節(jié)點(diǎn)被頻繁占用以致局部擁塞,故下降速度最快;而DeepSCD和Bayes算法統(tǒng)籌考慮了底層資源的分配策略,同時DeepSCD算法在服務(wù)鏈部署過程中序列化的方式能更好地捕捉網(wǎng)絡(luò)資源狀態(tài)的動態(tài)變化,故在請求接受率方面存在優(yōu)勢。
圖7 不同請求強(qiáng)度下的請求接受率
圖8表示不同請求強(qiáng)度下部署成功網(wǎng)絡(luò)服務(wù)的平均時延。FFD算法在接受服務(wù)請求時采用Dijkstra算法首先占用較低時延鏈路,使得后續(xù)服務(wù)鏈僅能選擇迂回鏈路以致時延迅速上升,而Bayes和DeepSCD算法通過全局規(guī)劃考慮避免了局部鏈路過度使用。相較于Bayes算法未考慮鏈路的時延參數(shù)動態(tài)變化,DeepSCD算法在部署過程中以序列化的方式實(shí)時更新鏈路時延信息,并根據(jù)輸入信息更新部署策略,使得網(wǎng)絡(luò)整體的鏈路使用更加高效。結(jié)果表明,本文算法能有效降低服務(wù)鏈的傳輸時延。
圖8 不同請求強(qiáng)度下的平均時延
本文主要研究了NFV/SDN使能網(wǎng)絡(luò)環(huán)境中服務(wù)鏈的部署問題,針對傳統(tǒng)服務(wù)鏈部署算法的不足和網(wǎng)絡(luò)狀態(tài)動態(tài)變化問題,在保障5G業(yè)務(wù)時延性約束的條件下,為降低運(yùn)營商網(wǎng)絡(luò)的資源開銷,提出基于DQN的在線服務(wù)鏈部署方法,并驗(yàn)證了方法的有效性。為了進(jìn)一步提高云化環(huán)境中資源利用的效率,后續(xù)將針對網(wǎng)絡(luò)中流量動態(tài)變化研究虛擬網(wǎng)絡(luò)功能的自動化擴(kuò)縮容問題,以滿足下一代移動網(wǎng)絡(luò)的智能化和自動化特征。