劉治國,張姣姣,潘成勝
(1.大連大學(xué) 信息工程學(xué)院, 遼寧 大連 116600; 2.大連大學(xué) 通信與網(wǎng)絡(luò)重點實驗室, 遼寧 大連 116600;3.南京信息工程大學(xué) 電子與信息工程學(xué)院, 南京 211800)
衛(wèi)星通信網(wǎng)絡(luò)由于其覆蓋廣、部署快、不受地面情況影響的優(yōu)點,已經(jīng)被用于多個商用系統(tǒng),同時在國家基礎(chǔ)服務(wù)、搶險救災(zāi)、軍事應(yīng)用等方面也是最可靠的通信手段[1-2]。然而由于衛(wèi)星高速運動,低地球軌道(low earth orbit,LEO)衛(wèi)星經(jīng)常發(fā)生點波束切換。新的點波束沒有足夠的可用帶寬,可能會導(dǎo)致切換失敗概率增加,降低用戶服務(wù)(quality of service,QoS)滿意度。因此本文中的重點在于如何利用合適的帶寬預(yù)留策略來滿足用戶的高QoS需求。
Maral等[3]提出了允許保證切換(guaranteed handover,GH)策略,該策略實現(xiàn)了一個合適的信道預(yù)留過程,保證正在進行的呼叫所有切換的成功,仿真證明GH方案比排隊方案獲得了更好的服務(wù)質(zhì)量。但是,造成信道資源嚴重浪費,鎖定的信道無法為其他新的業(yè)務(wù)或者是切換業(yè)務(wù)使用。
Huang等[4]提出基于概率的動態(tài)信道預(yù)留(probability dynamic reservation,PDR)的通信接納方案,根據(jù)實時業(yè)務(wù)的切換概率來動態(tài)預(yù)留帶寬。仿真證明該方案不僅降低了新通信阻塞概率,而且在一定程度上減少了越區(qū)切換連接丟失概率,同時保持了較高的資源利用率。
Chen等[5]提出一種基于自適應(yīng)概率的預(yù)留策略(reservation strategy based on adaptive probability,APRS),在一定的概率下,為前一個小區(qū)預(yù)留的帶寬可以分配給新呼叫請求。仿真證明,通過這種方式,增加系統(tǒng)可以服務(wù)的用戶數(shù)量并有效地使用帶寬。
Li等[6]提出了一種多波束聯(lián)合資源分配(multi-beam joint resource allocation,MJRA)方案,充分利用不擁擠的波束帶寬資源,在保證QoS的同時提高系統(tǒng)性能。
雖然上述文獻在一定程度上解決了頻繁點波束切換缺乏可用帶寬導(dǎo)致用戶連接中斷的問題,并降低了切換失敗率和新呼叫阻塞概率,提高了用戶服務(wù)質(zhì)量,但是策略中關(guān)于相關(guān)參數(shù)的計算過度依賴人工先驗條件,其策略缺少靈活性。
針對上述問題,提出基于Dueling-DDQN的星上帶寬資源預(yù)留算法,可根據(jù)用戶的業(yè)務(wù)特性進行帶寬資源預(yù)留。該方法首先構(gòu)建SDN衛(wèi)星網(wǎng)絡(luò)帶寬資源預(yù)留模型來獲取衛(wèi)星資源情況,然后構(gòu)建Dueling-DDQN(dueling-double deep Q-network)網(wǎng)絡(luò)結(jié)構(gòu),并作為決策評估器,可以避免人為條件的干擾,其中在網(wǎng)絡(luò)結(jié)構(gòu)中引入Noisy方法,增加探索效率。最后通過Dueling-DDQN算法對帶寬資源進行智能分配,有效提高用戶的服務(wù)質(zhì)量和帶寬利用率。
SDN[7]衛(wèi)星網(wǎng)絡(luò)帶寬資源預(yù)留模型由3個部分組成,包括GEO控制層、LEO轉(zhuǎn)發(fā)層和用戶請求接入層。
在圖1中,利用深度強化學(xué)習(xí)(deep reinforcement learning,DRL)方法來解決星上帶寬資源的動態(tài)預(yù)留問題[8-9],其中 SDN 控制器被部署為 GEO(geosynchronous earth orbit) 衛(wèi)星中的智能體(Agent),對整個衛(wèi)星網(wǎng)絡(luò)的全局資源控制,為各類呼叫請求制定動態(tài)細粒度的預(yù)留方法。通信用戶向LEO衛(wèi)星發(fā)出呼叫請求,LEO衛(wèi)星會將用戶呼叫請求信息作為狀態(tài)信息(State,s),傳遞給Agent以分配帶寬,Agent處理呼叫請求總共有3種動作策略(Action,a)以最大帶寬分配、以最小帶寬分配和不分配,通過最小帶寬分配和不分配來預(yù)留帶寬。Agent將動作策略返回給LEO衛(wèi)星,LEO衛(wèi)星會返回給Agent一個獎勵(Reward,r),為了評估當(dāng)前動作的質(zhì)量,通過環(huán)境狀態(tài)和智能體之間的持續(xù)交互,最終獲得獎勵積累最大的策略,并將最終的帶寬資源預(yù)留策略返回給用戶。
圖1 SDN衛(wèi)星網(wǎng)絡(luò)帶寬資源預(yù)留模型圖
關(guān)于模型的元素設(shè)置如下:
1) 狀態(tài)信息。假設(shè)一顆LEO衛(wèi)星的每個點波束對應(yīng)的總帶寬為Bm,可以為G種業(yè)務(wù)類型提供服務(wù),類別屬于Class Ⅰ或Class Ⅱ(G∈{Class Ⅰ, Class Ⅱ})[10-11]。業(yè)務(wù)優(yōu)先級的權(quán)重定義為λ=[λ1,λ2,…,λG]。通信用戶向低軌衛(wèi)星網(wǎng)絡(luò)系統(tǒng)發(fā)出呼叫請求P=[WS1,WS2,…,WSi…,WSn]T,n代表呼叫請求個數(shù),其中WSi=[WBi,WCi]。WBi代表業(yè)務(wù)類型WBi∈{1,2,…,G},WCi表示呼叫類型WCi∈{0,1}(0代表新呼叫,1代表切換呼叫)。
相應(yīng)的狀態(tài)信息包含呼叫請求信息WSi,si可以表示為
si=WSi
(1)
2) 動作策略。在Dueling-DDQN算法中,輸入一個狀態(tài)State,會對當(dāng)前的呼叫請求進行帶寬分配,接著便會執(zhí)行這個動作ai。本文中對呼叫請求處理有3種帶寬分配方式,定義為
(2)
式(2)中:Bmax表示以最大帶寬接入,Bmin表示以最小帶寬接入,Failed表示接入失敗。因為Bmin和Failed會影響信道預(yù)留,可以通過動作Bmin和Failed來處理呼叫請求,以預(yù)留帶寬。
3) 獎勵。以動作ai處理呼叫信息后,需要根據(jù)實際環(huán)境來檢驗信道帶寬分配方式ai的有效程度。環(huán)境會向Agent提供獎勵反饋,反映Action所執(zhí)行的正確性。如果所執(zhí)行的Action是一個拒絕操作,那么環(huán)境狀態(tài)便會提供一個負反饋。本文中關(guān)于3種動作,對應(yīng)的初始獎勵r′i定義如下:
(3)
以最大帶寬處理呼叫請求,獲得的獎勵最大,以最小帶寬處理呼叫請求獲得第二獎勵,拒絕獲得負獎勵,所以r0>r1>0>r2。此外,WSi的呼叫類型對策略的績效有不同的影響,如式(4)所示。σ0反映切換連接的優(yōu)先級,σ1表示新連接的優(yōu)先級。
(4)
圖2 Dueling-DDQN網(wǎng)絡(luò)結(jié)構(gòu)
1) 決策目標(biāo)。星上資源預(yù)留過程,是根據(jù)衛(wèi)星帶寬資源利用情況和呼叫信息,以分配信道帶寬,并根據(jù)獲得的累積獎勵確定最優(yōu)的資源預(yù)留策略。由于衛(wèi)星帶寬有限,不能以最高獎勵處理每一個業(yè)務(wù)請求,本文中方法的最終目標(biāo)是確定一個長期性能增益最大、最優(yōu)的動態(tài)星上資源策略π*,π*定義如下:
(5)
式(5)中:γ表示獎勵重要性的折扣因子,Eπ[·]表示帶寬預(yù)留策略π*的期望。
(6)
但是在原始的Dueling DQN算法中采用的epsilon-greedy(ε-greedy)是通過根據(jù)行動的最佳概率來選擇行動,從而提高探索效率。但是,ε-greedy實際上對于很多問題[13]都是無效的,在某些情況下,由于探索空間有限[14],可能永遠無法通過ε-greedy學(xué)習(xí)到最優(yōu)策略。因此將Noisy[15]方法應(yīng)用于Dueling-DDQN框架中,解決ε-greedy存在探索效率低效的問題。Noisy與傳統(tǒng)的探索啟發(fā)式方法ε-greedy策略不同,引入?yún)?shù)噪聲Noisy提高探索效率。
所以本文中關(guān)于價值函數(shù)和優(yōu)勢函數(shù)的計算,加入Noisy方法,最終動作值函數(shù)可以表示為式(7):
(7)
(8)
(9)
(10)
由于無法通過學(xué)習(xí)Q函數(shù)來唯一確定價值函數(shù)和優(yōu)勢函數(shù),通過優(yōu)勢函數(shù)的平均值來解決可識別性問題,如式(11)所示:
(11)
Dueling-DDQN算法中DDQN算法[16]是在原有的DQN算法模型基礎(chǔ)上,通過解耦目標(biāo)Q值動作的選擇和目標(biāo)Q值的計算,消除由于神經(jīng)網(wǎng)絡(luò)預(yù)測的最大Q值導(dǎo)致的誤差,每次更新也將神經(jīng)網(wǎng)絡(luò)向誤差最大的目標(biāo)Q值進行改進,導(dǎo)致存在過度估計問題。在動作選擇時,不是在目標(biāo)Q網(wǎng)絡(luò)里面找各個動作中最大Q值,而是先在當(dāng)前Q網(wǎng)絡(luò)中找出最大Q值對應(yīng)的動作,具體表達為式(12):
(12)
利用式(12)選擇出的amax去計算目標(biāo)Q值,如式(13):
(13)
DDQN的最終目標(biāo)Q值,可由式(12)和式(13)可得:
(14)
3) 損失(Loss)函數(shù)構(gòu)建。Dueling-DDQN算法基于Q-Learning來確定Loss函數(shù),函數(shù)表達式為
(15)
Q網(wǎng)絡(luò)通過最小化Loss函數(shù)持續(xù)更新神經(jīng)網(wǎng)絡(luò)參數(shù),基于Dueling-DDQN的衛(wèi)星帶寬資源預(yù)留算法流程如下:
算法:基于Dueling-DDQN的衛(wèi)星帶寬資源預(yù)留算法
1.初始化記憶池容量D,遍歷次數(shù)M
2.初始化衛(wèi)星系統(tǒng)相關(guān)參數(shù)
4.統(tǒng)計用戶業(yè)務(wù)的請求情況和衛(wèi)星當(dāng)前帶寬資源利用情況;
5. for episode=1,Mdo
6. 初始化衛(wèi)星資源狀態(tài)信息si
7. fori=1,ndo
8. 以Noisy方法使得Q值隨機化
9. 執(zhí)行帶寬分配動作ai,更新狀態(tài)信息si,并獲取衛(wèi)星下一資源狀態(tài)信息si+1
10.獲得當(dāng)前獎賞ri
11.將轉(zhuǎn)換transition
12. ifD>5 000 then
13. 隨機從記憶池中選擇一批數(shù)據(jù)進行訓(xùn)練
14. 代入式(15)更新Q網(wǎng)絡(luò);
15. end if
16. end for
17.end for
18.返回最優(yōu)策略
為了衡量信道帶寬預(yù)留策略的性能,通過3個部分來定義性能評估指標(biāo)。Pe1作為用戶通信過程中的系統(tǒng)整體性能評估的參考指標(biāo)。具體式(16)所示:
(16)
Pe2為通信速度的效益評估指標(biāo),具體表示為式(17):
(17)
Pe3為帶寬利用率評估指標(biāo),具體表示為式(18):
(18)
考慮衛(wèi)星在環(huán)繞地球的圓形軌道上周期性和固定的軌道運動所帶來的軌道可預(yù)測性,可以將單顆衛(wèi)星覆蓋模型簡化為小區(qū)模型[18-20],并且衛(wèi)星覆蓋范圍內(nèi)的用戶滿足均勻分布[21]。模擬了G種典型的多媒體服務(wù)[10],這些多媒體應(yīng)用的業(yè)務(wù)參數(shù)定義在表1中。在仿真模型中,衛(wèi)星方面的模擬參數(shù)[22],定義如表2所示。根據(jù)各類優(yōu)先級情況和中斷正在進行的連接更加影響用戶QoS,優(yōu)先級權(quán)重和權(quán)值參數(shù)[4,8]定義如表3所示。文中方法所涉及的深度強化學(xué)習(xí)參數(shù)也定義在表3中。經(jīng)過多次實驗不同的學(xué)習(xí)率獲得不同的性能,收斂速度也會不同,所以表3中學(xué)習(xí)率設(shè)置為0.01[23],學(xué)習(xí)速率為0.01時收斂的速率最快,穩(wěn)定性高。
表1 數(shù)據(jù)相關(guān)參數(shù)
表2 衛(wèi)星相關(guān)參數(shù)
表3 方法相關(guān)參數(shù)
在仿真模型中,針對不同的連接到達速率,我們比較了不同接入策略下的系統(tǒng)性能,包括基于無優(yōu)先接入策略(NPS)、基于概率的動態(tài)信道預(yù)留策略(PDR)、基于DQN的衛(wèi)星信道帶寬資源預(yù)留策略(DBR)和基于Dueling-DDQN的星上帶寬資源預(yù)留策略(DDBRR),最終仿真圖如圖3、圖4和圖5所示。
圖3分析了系統(tǒng)整體服務(wù)質(zhì)量,按照式(16)所示,可以看出Pe1越大,用戶服務(wù)質(zhì)量越低,Pe1越小,用戶服務(wù)質(zhì)量越好。顯然,本文中所提出的基于DDBRR策略性能最好,因為DDBRR策略避免了人工干擾,通過建立Dueling-DDQN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來做決策。DBR策略因為過估計等問題性能低于DDBR策略,而NPS策略性能最差,因為NPS策略沒有為高優(yōu)先級的業(yè)務(wù)呼叫保留信道。
圖3 Pe1用戶整體服務(wù)質(zhì)量
圖4顯示了性能評估指標(biāo)Pe2的仿真結(jié)果,從圖4中可以看出,本文中提出的DDBRR策略的Pe2值在所有方案中最低,但是從用戶通信速度滿意度方面,DDBRR策略性能優(yōu)于NPS、PDR和DBR策略。
圖4 Pe2用戶通信速度服務(wù)質(zhì)量
帶寬利用率是衡量系統(tǒng)的一個重要參數(shù),通過資源利用率來衡量系統(tǒng)性能。圖5表示了4種策略的帶寬利用率與連接到達速率的關(guān)系,性能評估指標(biāo)Pe3。與其他3種策略相比DDBRR策略帶寬利用率最高,說明本文中所提出的策略可以更加有效的利用系統(tǒng)帶寬資源。
圖5 Pe3帶寬利用率
針對波束頻繁切換缺乏可用帶寬導(dǎo)致用戶連接中斷問題,提出基于Dueling-DDQN的星上帶寬資源預(yù)留算法,可以根據(jù)當(dāng)前的衛(wèi)星資源狀態(tài)來做出最佳的帶寬分配策略?;贒ueling-DDQN算法,利用Dueling Network提高學(xué)習(xí)性能,通過DDQN保證無偏估計,其中加入Noisy來增加探索空間,通過不斷的學(xué)習(xí)探索來為請求動態(tài)分配帶寬。
通過仿真證明所提出的星上帶寬資源預(yù)留算法,可以保障用戶整體服務(wù)質(zhì)量、用戶通話質(zhì)量滿意度和最大化提高帶寬資源利用率。下一步的研究工作中將針對Dueling-DDQN算法模型中經(jīng)驗池采樣方法進行優(yōu)化,降低經(jīng)驗相關(guān)性。