尚曉凱 翟慧鵬 韓龍龍
(國家計算機網(wǎng)絡與信息安全管理中心河南分中心 河南省鄭州市 450000)
隨著互聯(lián)網(wǎng)用戶和流量的激增,數(shù)據(jù)中心和電信運營商骨干網(wǎng)網(wǎng)絡承載面臨著前所未有的壓力,通過網(wǎng)絡設備擴容來提升骨干網(wǎng)的運載能力,不僅需要大量的物理設備購置、升級等建設成本,還需要考慮龐大的骨干網(wǎng)體系的生存性。彈性光網(wǎng)絡(EON)作為新一代全光技術成為重要研究方向,如何提高骨干網(wǎng)的資源使用效率、提升網(wǎng)絡可靠性、又靈活的處理各類業(yè)務服務效率已成為重要研究方向。
骨干網(wǎng)絡的互聯(lián)技術經(jīng)過了光電混合組網(wǎng)、波分復用(WDM)技術和EON 等發(fā)展階段。在光電混合組網(wǎng)骨干網(wǎng)互聯(lián)階段,電交換由于其能耗、交換容量等因素限制,逐步轉變?yōu)槿饨粨Q發(fā)展。WDM 技術原理是通過耦合器將多路波長耦合到一根光纖中進行傳輸,極大地提升了傳輸容量,能夠滿足數(shù)據(jù)中心之間的大容量業(yè)務傳輸需求,WDM技術憑借其大容量的優(yōu)勢,已被廣泛應用于骨干網(wǎng)和城域網(wǎng)中,WDM 光網(wǎng)絡在信道之間的最小間隔為50 GHz 或100GHz,當前單個WDM 信道可實現(xiàn)10Gbps、100Gbps、甚至400Gbps 的傳輸效率。然而,隨著數(shù)據(jù)中心的大量部署和運營商海量數(shù)據(jù)傳輸,這時采用固定信道寬度的WDM技術顯得力不從心,如圖1 所示,固定的柵格和信道間距較大,導致其網(wǎng)絡帶寬利用率低、靈活性差。
圖1: WDM 和EON 頻譜分配示意圖
EON 是將頻譜資源進行更加細化的分割,與傳統(tǒng)的WDM 技術相比,它采用正交頻分復用技術,將傳輸?shù)母黜棙I(yè)務數(shù)據(jù)分配到幾個低數(shù)據(jù)速率的子載波上,相鄰子載波的頻譜又是正交的,所以可以相互重疊,從而極大地提高網(wǎng)絡的頻譜效率。EON 不僅具有更小粒度的頻譜隙,同時EON將多個低速率子載波靈活的分配給網(wǎng)絡請求,具有高靈活性的業(yè)務傳輸能力。
EON 最大優(yōu)勢在于可根據(jù)業(yè)務實際需求分配相匹配的網(wǎng)絡資源,盡可能地減少不必要的損耗,資源分配算法是EON 最核心的問題之一,合理有效的資源分配算法不僅可以大大提高頻譜資源的利用率,而且提升光網(wǎng)絡的傳輸效率。近年來,一些智能算法也被引入到EON 的資源分配問題上,常見的智能算法有:蟻群算法、遺傳算法、機器學習、深度學習等一系列智能算法。智能算法在較大網(wǎng)絡規(guī)模、較苛刻約束條件等問題上具有較強的適用性。
本文針對彈性光網(wǎng)絡的頻譜利用率和阻塞率等性能,提出了DQN 資源分配算法,通過構建數(shù)學模型,對算法模型進行多次訓練,仿真實驗表明,該算法具有較好地提高頻譜資源利用率,同時降低網(wǎng)絡中的業(yè)務阻塞率。
強化學習是機器學習的重要分支之一,強化學習通過利用代理與環(huán)境進行交互,在提供動作的評價反饋的基礎上,為不斷優(yōu)化其狀態(tài),以獲得最大的累積獎勵,即通過把實際問題轉化為每次新狀態(tài)與舊狀態(tài)有關的迭代問題進行數(shù)學形式的求解。所以,也可描述為馬爾可夫決策過程,其過程主要組成包括:狀態(tài)空間、動作空間、回報函數(shù)以及狀態(tài)轉移概率等。深度強化學習(DQN)是在強化學習的基礎上引入深度學習,如圖2 所示為DQN 算法流程圖。
圖2: DQN 算法流程圖
首先,我們將彈性光網(wǎng)絡的拓撲定義成G(V,E,F),V、E 分別是網(wǎng)絡節(jié)點和鏈路的集合,F(xiàn) 是每條鏈路中的頻隙,當頻隙狀態(tài)被占用時設置為1,空閑時為0。在狀態(tài)空間中添加了業(yè)務優(yōu)先級的標志位,因此狀態(tài)向量可表示為:
其中,o、d、t 分別是業(yè)務請求的源、目的節(jié)點和業(yè)務持續(xù)時間,w表示業(yè)務請求頻譜寬度,p為業(yè)務的優(yōu)先級標志,取值為1 或0。
在動作空間中我們通過KSP 算法為業(yè)務找到K 條可用的候選鏈路,并對每條鏈路選取J 個可用的候選頻譜塊,若可用鏈路數(shù)是0 時,代表有業(yè)務阻塞,同理J 個頻譜塊也是如此,那么動作空間大小是K×J。
依據(jù)馬爾可夫決策過程的概念,強化學習的策略搜索轉化為數(shù)學問題,其中狀態(tài)價值函數(shù)V(s)在當前狀態(tài)s時,通過策略π 的積累回報的期望值可表示為:
3.1.1 頻譜資源利用率
在EON 的資源分配過程中,衡量一個分配方案的有異性指標就是頻譜資源的損耗大小,即頻譜資源利用率(SU)。SU 公式如下:
我們以國內典型的CERNET 網(wǎng)絡作為實驗拓撲進行仿真分析驗證,其網(wǎng)絡節(jié)點數(shù)有20 個,邊數(shù)有22 條,假設每條鏈路上的頻隙數(shù)設置為100 個。業(yè)務量的設置為業(yè)務到達率C 和業(yè)務持續(xù)時間t 的乘積,即A=C×t,A 代表業(yè)務量,單位為Erlang。
同時,假設業(yè)務請求達到設置滿足泊松分布,每項業(yè)務成功建立請求后的持續(xù)時間設置服從負指數(shù)分布,請求帶寬大小在1-5 范圍內隨機取整數(shù)值,源節(jié)點和目的節(jié)點在實驗的網(wǎng)絡拓撲的所有節(jié)點中隨機生成。
在深度強化學習模型中將對未來獎勵的衰減值γ 設為0.9,為了能夠進行算法性能的比較,我們與傳統(tǒng)的FF 算法[進行對比分析,F(xiàn)F 算法是基于最短路徑在可用頻隙索引號最小的位置建立業(yè)務請求,是一種經(jīng)典的頻譜分配算法。在實驗中,業(yè)務量設為200Erlang,候選路徑數(shù)K 和候選頻譜塊的數(shù)量J 設置為2,并以此判斷業(yè)務分配之前需提前訓練的次數(shù)。經(jīng)實驗,不同算法的分配訓練次數(shù)與業(yè)務阻塞率的關系如圖3 所示。
圖3: DQN 算法業(yè)務分配訓練次數(shù)
由圖3 可以看出: FF 算法在10000 次業(yè)務分配后業(yè)務的阻塞率逐漸穩(wěn)定在22.3%左右,DQN 算法在前5000 次業(yè)務分配時業(yè)務阻塞率呈指數(shù)型上升,后慢慢降低,最終在約50000 次業(yè)務分配后趨于平穩(wěn)。據(jù)此,后續(xù)實驗將對QDN算法模型進行50000 次的業(yè)務訓練的基礎上,再對業(yè)務分配的性能指標數(shù)據(jù)進行統(tǒng)計分析。
為了進一步對比分析兩種算法的性能,我們對兩種算法的頻譜利用率和業(yè)務阻塞率方面進行評估。其中,基礎參數(shù)選路徑數(shù)K=3,每條路徑上的候選頻譜隙數(shù)為J=1。當業(yè)務量在50-600Erlang 之間變化時,兩種算法進行業(yè)務分配時的頻譜利用率和業(yè)務阻塞率分別如圖4 和圖5 所示。
圖4: 頻譜利用率
圖5: 阻塞率
表1 和表2 統(tǒng)計了在業(yè)務量為100-600Erlang 時,兩種算法模型下實驗的頻譜利用率和業(yè)務阻塞率詳細數(shù)據(jù)。從上述圖5 和表2 中可以明顯看出,在業(yè)務量小于100Erlang時,兩種算法的業(yè)務阻塞率相差較小,其主要是由于在業(yè)務分配初期,網(wǎng)絡中頻譜資源相對豐富,業(yè)務阻塞率也相對較低,但隨著業(yè)務量的增加,兩種不同的算法對頻譜利用率和業(yè)務的阻塞率就有較大的差距。也就是當設置業(yè)務量從100Erlang 到600Erlang 時,DQN 算法的頻譜利用率相比于FF 算法分別提升了1.16%、2.46%、2.67%、6.43%、6.06%、8.95%,平均提升了4.62%;在阻塞率方面分別降低了2.53%、8.21%、11.32%、9.84%、9.79%、9.36%,平均約降低了8.51%。因此,DQN 算法的表現(xiàn)優(yōu)于FF 算法,能夠較好地提高頻譜資源利用率,降低業(yè)務阻塞率。
表1: 頻譜利用率
表2: 業(yè)務阻塞率
總體來看,本文提出的DQN 算法的光網(wǎng)絡資源分配方案始終表現(xiàn)出高頻譜利用率和低阻塞率,對其方案的綜合性能具有較大提升。這是因為我們提出的方案可以有效地預測業(yè)務請求,為未來任一時刻業(yè)務接入請求動態(tài)保留資源。
本文提出了一種基于DQN 的EON 資源分配方案,利用DQN 中強化學習的決策能力和神經(jīng)網(wǎng)絡對特征的感知能力,將頻譜分配過程構建成為不同的狀態(tài)和動作集合,通過不斷的訓練迭代,將根據(jù)輸入的環(huán)境狀態(tài)得到最佳的頻譜分配模型。在仿真實驗中,通過與傳統(tǒng)的FF算法進行對比分析,在CERNET 網(wǎng)絡拓撲中,DQN 算法相比于FF 算法頻譜利用率平均提升4.62%,業(yè)務阻塞率平均降低了8.51%。實驗結果表明,本文提出的DQN 算法在頻譜利用率和阻塞率方面均優(yōu)于傳統(tǒng)的FF 算法,能夠更好地應用于彈性光網(wǎng)絡的資源分配。