數(shù)據(jù)中心光互連網(wǎng)絡拓撲可重構研究

2022-02-21 03:05郭秉禮楊鴻珍王彥波孟泠宇黃善國

光通信研究 2022年1期

楊雯，郭秉禮，楊鴻珍，王彥波，范超，孟泠宇，黃善國

(1. 北京郵電大學電子工程學院信息光子學與光通信國家重點實驗室，北京 100867；2. 國網(wǎng)浙江省電力有限公司信息通信分公司，杭州 310036)

0 引言

傳統(tǒng)數(shù)據(jù)中心采用基于電交換技術的網(wǎng)絡架構，但隨著數(shù)據(jù)流量需求的不斷增大，傳統(tǒng)電交換網(wǎng)絡已無法滿足高效承載高速數(shù)據(jù)交互的需求[1]。同時，隨著部署在數(shù)據(jù)中心中的應用類型日趨多樣化，其流量分布特征差異較大，當網(wǎng)絡流量分布特征隨時間變化時，其適應性和靈活性差，無法保證網(wǎng)絡性能[2]。

光電混合組網(wǎng)技術具備靈活的鏈路連接特性，這為網(wǎng)絡拓撲重構以適配不同應用和服務產(chǎn)生的各種流量分布提供了可能性[3]。對于光電混合互連的數(shù)據(jù)中心網(wǎng)絡，可以由一個集中的軟件定義網(wǎng)絡(Software Defined Network，SDN)控制器來控制底層電和光交換設備，進而實現(xiàn)流量的精確調(diào)度和拓撲重構[4-5]。同時，機器學習(Machine Learning，ML)具備出色的大規(guī)模數(shù)據(jù)自動處理、分類和智能決策能力[6]。在現(xiàn)有ML技術中，深度強化學習(Deep Reinforcement Learning，DRL)將深度學習(Deep Learning，DL)的感知能力和強化學習(Reinforcement Learning，RL)的決策能力相結合，通過與目標系統(tǒng)環(huán)境的反復交互，使得學習復雜任務控制策略成為可能。隨著SDN相關控制軟件框架與基于意圖的網(wǎng)絡驅(qū)動技術的快速演進，使得結合ML等智能化決策機制的網(wǎng)絡自動化控制成為可能[7]。

本文提出了一種基于DRL的網(wǎng)絡拓撲重構優(yōu)化策略，在不同的網(wǎng)絡流量分布下，可以通過拓撲重構來降低業(yè)務的端到端時延。實驗結果表明，在75%的流量強度下，與傳統(tǒng)基于固定拓撲的網(wǎng)絡相比，結合網(wǎng)絡拓撲重構優(yōu)化機制的光電混合網(wǎng)絡將平均網(wǎng)絡延遲降低了約53.8%，丟包率降低約60.0%。

1 架構介紹

在網(wǎng)絡優(yōu)化方面，目前研究主要集中在使用ML技術來解決路由優(yōu)化以提升業(yè)務端到端時延和丟包等網(wǎng)絡性能。傳統(tǒng)的路由優(yōu)化方法[8-9]大都采用蟻群和遺傳算法等啟發(fā)式算法對數(shù)據(jù)流的路由選擇進行優(yōu)化，然而由于啟發(fā)式算法僅適用于特定問題，當網(wǎng)絡狀態(tài)改變時，算法的參數(shù)需要再調(diào)整，從而導致潛在的可擴展性問題。在文獻[10]中，Li等人提出了一種基于多ML方法的路徑預設計方案，該方案利用合適的聚類算法提取流特征，利用監(jiān)督學習機制對流量需求進行預測，然后根據(jù)不同約束因素的權重，提出了一種基于層次分析法的自適應多路徑路由方法；文獻[11]在解決動態(tài)路由規(guī)劃問題時，采用深度確定性策略梯度(Deep Deterministic Policy Gradient，DDPG) 算法作為策略算法來實現(xiàn)自適應路由，體現(xiàn)了DDPG算法在連續(xù)動作空間訓練中的有效性，實現(xiàn)了DRL與網(wǎng)絡仿真環(huán)境的交互。

隨著光交換器件和系統(tǒng)控制理論等多方面技術的進步，基于對光交換設備的重新配置可以實現(xiàn)網(wǎng)絡物理連接層面的動態(tài)重構。與傳統(tǒng)只針對路由進行優(yōu)化的技術相比，根據(jù)流量通信模式變化的拓撲重構技術為提升網(wǎng)絡性能提供了更加靈活和徹底的解決方案。因此，本文擬研究在數(shù)據(jù)中心光互連網(wǎng)絡中引入DRL Agent的方式來進行拓撲重構，進而優(yōu)化網(wǎng)絡性能。Agent可以通過對網(wǎng)絡監(jiān)控信息的感知與抽象，進行拓撲的重構訓練，從而完成預先設定的任務。在DRL算法選擇方面，文獻[11]驗證了DDPG算法在連續(xù)動作空間的條件下與網(wǎng)絡交互訓練的有效性；文獻[12]使用DDPG算法將連續(xù)的動作空間離散化，解決了推薦系統(tǒng)的大規(guī)模離散動作空間訓練問題。

由于DDPG算法在連續(xù)動作空間中與網(wǎng)絡的交互訓練在降低網(wǎng)絡時延及丟包率方面表現(xiàn)較好，本文設計了一個DRL Agent，采用DDPG算法作為主要算法進行Agent的訓練，針對拓撲矩陣的離散性，利用連續(xù)動作離散化訓練的方式，將動作空間進行離散化處理來與網(wǎng)絡進行交互，實現(xiàn)拓撲重構與網(wǎng)絡仿真環(huán)境的動態(tài)交互與連續(xù)訓練。同時，針對數(shù)據(jù)中心互連網(wǎng)絡的場景，設計了采用光電混合交換框架的可重構數(shù)據(jù)中心網(wǎng)絡架構。圖1所示為整體架構及DRL Agent與網(wǎng)絡的交互。

圖1 可重構數(shù)據(jù)中心網(wǎng)絡整體架構

由圖可知，整個系統(tǒng)根據(jù)功能分為3層，由下到上分別為DP、CP與KP[13]。

KP通過收集到的網(wǎng)絡拓撲和性能信息可以分析發(fā)現(xiàn)數(shù)據(jù)平面的問題所在，并自動修復檢測到的問題。通過重新配置光交換設備，可實現(xiàn)不同的互連拓撲，以適應不同業(yè)務分布的通信需求[14]。

SDN控制器管理DP的網(wǎng)絡連接，同時將DP的實際網(wǎng)絡狀況，如網(wǎng)絡延遲和拓撲等性能信息反饋給KP。KP通過對相關性能數(shù)據(jù)的分析，觸發(fā)相應的網(wǎng)絡優(yōu)化流程與策略。同時該KP在所提可重構架構中具有ML的智能決策模塊，即DRL Agent。SDN控制器會統(tǒng)計所有接口的流量信息，實時監(jiān)測隊列排隊的緩存使用情況，并周期性地收集統(tǒng)計。將收集到的流量信息以矩陣的形式輸入到DRL Agent，Agent根據(jù)流量的分布情況可生成有效的網(wǎng)絡策略，決策出適合的網(wǎng)絡拓撲，再將選出的網(wǎng)絡拓撲以鄰接矩陣的形式傳遞給CP，即SDN控制器，由SDN控制器實現(xiàn)全局、實時和定制化的網(wǎng)絡控制。

架構的底層為實際的網(wǎng)絡連接，每個相鄰節(jié)點相連形成基于電交換的環(huán)結構，同時每個節(jié)點通過光電轉(zhuǎn)換接口向上與OCS相連，用于電子分組信息與光信號之間的轉(zhuǎn)換。選擇好拓撲后，SDN控制器向DP發(fā)送拓撲重構信息，由OCS重新配置交叉連接，從而實現(xiàn)網(wǎng)絡拓撲的動態(tài)改變。本文主要關注DRL Agent與OMNeT++軟件仿真環(huán)境的訓練過程。

2 DRL Agent機制

DRL Agent與網(wǎng)絡的交互如圖1頂部所示，其由狀態(tài)、動作和獎勵3種信號通過SDN控制器與網(wǎng)絡進行交互。具體來說，狀態(tài)s是指每個時間節(jié)點環(huán)境的狀態(tài)，包含了整個拓撲的關鍵信息，形式為拓撲鄰接矩陣的對角矩陣，以列表的形式表示。動作a是指在每個狀態(tài)s中Agent可以采取的動作，以拓撲鄰接矩陣的完整形式表示。另外，定義獎勵反饋為r，Agent會根據(jù)獎勵r反饋優(yōu)化決策過程，以網(wǎng)絡的平均時延作為獎勵。Agent的目的是確定最優(yōu)的行為策略η，即從狀態(tài)空間到動作空間的映射(η:s→a)，以最大化期望的獎勵(最小化網(wǎng)絡延遲)?？赏ㄟ^使用兩個深度神經(jīng)網(wǎng)絡來迭代地改進對這3個信號間關系的了解[15]。

2.1 算法中動作選擇策略的分析

在DRL系統(tǒng)中，當下主流的動作選擇策略主要有兩類：基于價值的策略和基于Actor神經(jīng)網(wǎng)絡進行選擇的策略。對于基于價值的策略，策略的決策直接取決于價值函數(shù)，價值函數(shù)表示了在某個狀態(tài)下不同動作的價值。而對于價值函數(shù)來說，通常采用貪婪的方式進行選擇，即選擇價值最大的動作。通常情況下，價值函數(shù)是一個參數(shù)化函數(shù)，其將狀態(tài)和動作作為輸入Q(s,a)，Q()為價值函數(shù)，在選擇動作a時需要在動作集合A中對每個動作進行評估，從而得到使得價值最大的動作策略ηQ(s)。但當參數(shù)化函數(shù)的評估成本很高時，比如在使用深度神經(jīng)網(wǎng)絡(Deep Neural Networks，DNN)的情況下，執(zhí)行復雜度會隨著動作的數(shù)量線性增長，使得該方法變得難以處理。

基于Actor的架構避免了在式(1)中對argmax中的每個動作進行Q函數(shù)計算來評估所產(chǎn)生的巨大計算成本。Actor通過將策略參數(shù)化，從而直接學習策略。這樣做的好處是，與基于價值策略相比，擁有更好的收斂性及適用于高維連續(xù)動作空間，但缺點是容易收斂到非最優(yōu)解。另外，因為每次策略的更新不依賴以往的估計，意味著無法充分利用老的信息，因此數(shù)據(jù)利用率較低，泛化性較弱，不能擴展到以前未見過的動作。所以，基于Actor的方法不能像基于價值的方法那樣自然地在動作空間中推廣。

降低動作空間的復雜度和對行動進行概括的能力對于提高模型訓練的效率和泛化能力來說都是必要的。目前的方法不能同時滿足以上兩點，這促使我們需要對選擇動作策略進行優(yōu)化和改進。

2.2 動作選擇策略的改進

基于對以上兩個問題的分析，本文提出了一種新的策略體系結構，這種體系結構避免了評估所有動作的昂貴代價，同時保留了動作的泛化。這種策略建立在演員-評論家(Actor-Critic, AC)框架[15]之上。定義一個有效的行動執(zhí)行者Actor，并利用Critic來完善Actor的選擇，使用DNN作為Actor和Critic函數(shù)的逼近器，使用DDPG算法來訓練該策略。具體過程如下：

首先通過設計算法得到固定網(wǎng)絡規(guī)模下所有合法拓撲的集合作為KP訓練時的選擇動作集A。定義為

圖2 動作選擇過程

式中，QθQ()為一個由θQ參數(shù)化的函數(shù)，θ為Q的參數(shù)。該算法保留了Actor神經(jīng)網(wǎng)絡進行動作選擇相對于基于價值函數(shù)策略在動作選擇復雜度方面的改進，同時為了解決基于Actor的策略泛化能力弱的問題，在選擇動作時加入了K-NN算法進行特征分類。為了避免經(jīng)K-NN算法分類后可能會有一些特征上相似但Q值很低的動作被選擇，增加了一步對選擇出的K個動作的價值計算，選擇這K個動作中價值最高的動作作為最終動作，整體在不提高復雜度的前提下增強了模型的泛化性。

整體的算法流程如下：

獲取環(huán)境的狀態(tài)s；

3 仿真結果與性能分析

3.1 仿真平臺設置

本文基于OMNeT++離散事件仿真器和TensorFlow開源ML平臺，分別構建了重構網(wǎng)絡仿真環(huán)境和DRL Agent模型，并對兩者進行了聯(lián)合仿真實驗。仿照常見的數(shù)據(jù)中心光電混合互連網(wǎng)絡架構，本文建立了一個14個節(jié)點和3個節(jié)點度規(guī)模的網(wǎng)絡拓撲，所有的架頂交換機(Top of Rack, ToR)相鄰連接，形成一個固定的環(huán)結構，所有的ToR 通過光電轉(zhuǎn)換接口向上與OCS相連，通過重新配置OCS內(nèi)部交叉連接可以實現(xiàn)拓撲重構，從而滿足不同應用的通信需求，如圖3所示。其中具體的拓撲配置，即選擇的動作，由Agent基于以上動作選擇策略進行選擇，同時我們在選擇動作的過程中增加了一個隨機的探索策略，以避免在訓練過程中陷入局部最小值，設置回合數(shù)為10，每個回合步數(shù)為100。

圖3 網(wǎng)絡拓撲圖

3.2 訓練參數(shù)選擇

若Agent每次更新參數(shù)時都要與環(huán)境互動，就大大降低了模型參數(shù)更新的效率，所以經(jīng)驗回放機制被提出。該機制類似于一個有固定空間大小的存儲器，把Agent與環(huán)境互動所產(chǎn)生的部分結果進行存儲，等到了訓練階段時，每一次訓練過程都會從該存儲器中均勻采樣出一批一定數(shù)量的樣本用于Agent神經(jīng)網(wǎng)絡參數(shù)的更新。將所訓練的樣本數(shù)量分為多少個為一組，即batch size，這個值的大小與梯度下降的效率和結果直接相關。

假設訓練樣本共m個，若設置batch size為1，則每個樣本都是一個batch size。若設置batch size為m，則所有樣本組成這一個batch size。當設置batch size為m時，梯度下降稱為批量梯度下降法，神經(jīng)網(wǎng)絡進行梯度下降時從最遠的點開始，每次迭代需要遍歷整個訓練集，所以需要更大的內(nèi)存空間；當設置batch size為1時，此時梯度下降稱為隨機梯度下降法，神經(jīng)網(wǎng)絡進行梯度下降時隨機找一個點，每次迭代只處理一個訓練數(shù)據(jù)，所以需要很長的時間來完成訓練。

綜上，batch size過小時，花費時間多，同時梯度震蕩嚴重，不利于收斂；而batch size過大時，不同batch的梯度方向沒有任何變化，容易陷入局部極小值，所以應該對 batch size的大小進行合理選擇，從而在收斂時延與收斂時間之間達到一個較好的平衡。設置收斂時延的權重為0.7，收斂時間為0.3，將收斂時延及收斂時間進行歸一化處理，加權求和后取相反數(shù)，作為最后的訓練收益。

因為計算機字符都是以2的指數(shù)次冪進行存儲的，所以設置batch size時盡量選擇16、32、64、128和256 等。圖4(a)為設置不同batch size訓練得到的收斂時延和收斂時間情況，通過計算得出訓練收益最大為-0.677，此時的batch size為64，模型在收斂的時延與時間之間達到了一個較好的平衡。

圖4 不同batch size和K值率的訓練情況

通常情況下，在K-NN算法中，生成的動作集K的大小是特定于任務的，并且允許在策略質(zhì)量和速度之間進行一定的權衡。K-NN中的K值選取對算法的結果會產(chǎn)生重大影響。如果選擇較小的K值，就相當于用較小領域中的訓練實例進行預測，學習近似誤差會減小，只有與輸入實例較近或相似的訓練實例才會對預測結果起作用，與此同時帶來的問題是學習的估計誤差會增大，即K值的減小意味著整體模型變得復雜，容易發(fā)生過擬合；如果選擇較大的K值，就相當于用較大領域中的訓練實例進行預測，其優(yōu)點是可以減少學習的估計誤差，但缺點是學習的近似誤差會增大，這時輸入不相似的訓練實例也會對預測起作用，使預測發(fā)生錯誤，且K值的增大就意味著整體的模型變得簡單。在實際應用中，K值一般取一個比較小的數(shù)值。K-NN算法作為選擇動作的其中一步，對最終結果會產(chǎn)生間接影響，為了找到更適合重構拓撲模型訓練的生成動作集大小，我們使用不同的K值進行訓練并進行了效果的比對。圖4(b)所示為設置不同K值率(K值占動作集數(shù)量的比率值)訓練得到的收斂時延和收斂時間情況。由圖中數(shù)據(jù)計算得到最大訓練收益為-0.715，此時的K值率為20%，所以可以得出K值的選擇在動作集數(shù)量的20%左右時可以達到一個策略質(zhì)量和速度的平衡。

3.3 不同流量強度下的訓練結果分析

本文采用占總網(wǎng)絡容量25%～100% 4種強度級別的流量進行訓練，在參數(shù)選擇方面，每次訓練選擇動作集數(shù)量的20%作為K值、batch size為64，通過統(tǒng)計訓練過程中的平均網(wǎng)絡時延和丟包率來評估網(wǎng)絡性能，驗證策略的有效性。

圖5所示為實驗中不同流量強度下的平均網(wǎng)絡時延和丟包率。由圖可知，隨著訓練步數(shù)的增加，DRL Agent有效地降低了網(wǎng)絡延遲和丟包率。不同網(wǎng)絡流量強度下收斂的速度不同，由統(tǒng)計數(shù)據(jù)可知，流量越大即網(wǎng)絡的復雜性越高，需要收斂的步數(shù)越多，大約500步后，不同流量強度下的網(wǎng)絡時延和丟包率將收斂到一個穩(wěn)定的低值，相比于初訓練時的網(wǎng)絡性能有了大幅度的提升，如圖中75%的流量強度下，平均網(wǎng)絡延遲從3.25 s下降到1.50 s左右，整體降低了約53.8%，同時丟包率降低約60%。

圖5 不同流量強度下的平均網(wǎng)絡時延和丟包率

3.4 模型測試

為了測試模型的訓練效果，我們分別向訓練前與訓練后的模型輸入不同強度的流量，并記錄它們的平均網(wǎng)絡延遲，如圖6(a)所示。由圖可知，訓練后模型整體的平均網(wǎng)絡時延大小及穩(wěn)定性都明顯優(yōu)于未訓練的模型。

同時，為了評估策略在DRL Agent選擇行動時的優(yōu)勢，我們將K-NN算法與隨機策略和貪心算法在50%流量強度的情況下進行了比較。每個訓練過程設置為500步，共使用了14個不同的流量矩陣。對于K-NN算法和隨機策略，我們記錄了每個流量下訓練收斂的時延。由貪婪算法直接得到每個流量矩陣(Traffic Matrix，TM)下的網(wǎng)絡時延。圖6(b)為對比結果。實驗結果表明，K-NN算法產(chǎn)生的時延總體趨勢比隨機策略和貪心算法的時延更低、更穩(wěn)定。

圖6 模型性能評估

4 結束語

針對數(shù)據(jù)中心網(wǎng)絡中的鏈路拓撲固定連接導致的資源分配不合理和網(wǎng)絡性能惡化的問題，本文提出并驗證了一個完全自動化的DRL Agent，它使用DDPG算法來優(yōu)化訓練過程，通過SDN控制器來提供拓撲配置，通過自動重配網(wǎng)絡拓撲使網(wǎng)絡延遲達到最小化。同時，本文還設計了一種新的動作選擇機制，從原始動作的生成再利用K-NN算法進行分類，最后根據(jù)價值擇優(yōu)選取，實現(xiàn)了連續(xù)動作空間的離散化。實驗證明，通過這種方法使其能夠在離散動作空間中有效地學習和行動，面對不同的流量實現(xiàn)了自適應重構拓撲，使網(wǎng)絡資源得到了合理的分配，降低了網(wǎng)絡的平均延遲和丟包率，達到了優(yōu)化網(wǎng)絡性能的目的。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡