杜丹冰
(長春師范大學(xué)教育學(xué)院,吉林 長春 130032)
為了滿足全球全面的三維覆蓋和在將來隨時(shí)隨地訪問的長期需求,空天地一體化網(wǎng)絡(luò)已成為當(dāng)今世界的重要研究方向。在空天地一體化網(wǎng)絡(luò)[1]中,無人機(jī)(unmanned aerial vehicles, UAV)[2]作為空中基站(base stations, BS),為地面用戶提供視距(line-of-sight, LoS)通信鏈路,提高蜂窩網(wǎng)絡(luò)對(duì)地面用戶覆蓋率和網(wǎng)絡(luò)吞吐量。
然而,基于UAV-協(xié)助的通信系統(tǒng)面對(duì)諸多挑戰(zhàn)。例如,UAV的移動(dòng)和位置對(duì)通信系統(tǒng)性的影響。此外,由于頻譜資源稀缺,如何有效管理UAV的頻譜資源也是空天地一體化網(wǎng)絡(luò)的關(guān)鍵。文獻(xiàn)[3]討論了頻譜資源的分配問題,并提出基于連續(xù)凸優(yōu)化技術(shù)的UAV軌跡和功率分配策略[4]。
除了頻譜資源分配問題外,回程鏈路的連通也是空天地一體化網(wǎng)絡(luò)必須考慮的問題之一。文獻(xiàn)[5]采用宏基站提供回程鏈路通信,并通過優(yōu)化UAV的二維軌跡最大化吞吐量。文獻(xiàn)[6]討論了基于衛(wèi)星-UAV網(wǎng)絡(luò)的資源分配問題,并采用單近地軌道(low earth orbit, LEO)衛(wèi)星為UAV提供回程鏈路。然而,該策略并沒有優(yōu)化UAV的位置。
為此,針對(duì)空天地一體化網(wǎng)絡(luò),文中提出基于強(qiáng)化學(xué)習(xí)的鏈路優(yōu)化(reinforcement learning-based link optimization, RLLO)算法。RLLO算法通過優(yōu)化衛(wèi)星-基站和基站-用戶間資源分配,資源管理和UAV的軌跡,提高系統(tǒng)吞吐量。具體而言,先建立目標(biāo)問題,再利用強(qiáng)化學(xué)習(xí)求解。仿真結(jié)果表明,文中所提出的RLLO算法有效地提升了吞吐量和地面用戶端的可達(dá)速率。
圖1 系統(tǒng)模型Fig.1 System Model
以rb,k表示用戶k與基站b間的平面距離(二維距離),以db,k表示用戶k與基站b間的三維距離。
以二值變量Kb(t)表示在時(shí)刻t的用戶k是否與基站b∈B關(guān)聯(lián),其中B=S∪U,時(shí)刻t的時(shí)長為Ts,且t∈{1,2,…,N},其中N為總時(shí)刻數(shù)。若Kb(t)=1,則表示它們關(guān)聯(lián);否則,Kb(t)=0。
此外,時(shí)長Ts足夠小,致使每個(gè)UAV在一個(gè)時(shí)隙內(nèi)的位置不變。假定所有通信是在毫米波段完成,并且不考慮衛(wèi)星對(duì)用戶接入鏈路的干擾。
在衛(wèi)星的回程鏈路中,衛(wèi)星均勻分布在環(huán)形軌道,并且在y軸移動(dòng)方向上的高度H固定[7]。衛(wèi)星在軌道平面內(nèi)的軌道速度為[8]:
(1)
式中:G,M分別為地球的萬有引力常數(shù)、質(zhì)量;R表示地球的半徑。軌道周期為:
(2)
假定回程鏈路的總帶寬為wBCK。將wBCK等間隔地劃分為L個(gè)帶寬。每個(gè)衛(wèi)星與每個(gè)BS間鏈路為視距鏈路(line-of-sight, LoS)[7]。因此,衛(wèi)星與基站b間的自由空間的路徑衰耗為:
L(t)=32.45+20lgfc+20lg(d(t))
(3)
式中:d(t)為衛(wèi)星與基站b間在時(shí)刻t的距離。
依據(jù)香農(nóng)公式[6],衛(wèi)星給基站b提供的速率:
(4)
(5)
式中:G,Gb,G分別為衛(wèi)星的發(fā)射天線增益,基站b的接收天線增益;為基站b離衛(wèi)星的最大距離[9]:
(6)
式中:rb,o為基站b離地球中心的距離;rb,L為基站b離衛(wèi)星的最短距離。
用戶依隨機(jī)游走移動(dòng)模型進(jìn)行移動(dòng)。在時(shí)刻t,用戶k∈K在速度范圍[Vmin,Vmax]內(nèi)隨機(jī)移動(dòng)。
以Q表示接入鏈路的可用信道集,wACC表示可用的帶寬。將總帶寬wACC劃分為Q個(gè)正交信道。
依據(jù)香農(nóng)公式,基站b為用戶k提供的最大速率可表示為:
(7)
式中:γb,k(t)為與基站b關(guān)聯(lián)的用戶k端的信干擾比,其定義為:
(8)
式中:pb(t)為基站b的傳輸功率;gb,k(t)為基站b與用戶k的信道增益;b′∈B/b;ρb(t)為在時(shí)刻t基站b的負(fù)載[10]:
(9)
式中:?k為數(shù)據(jù)包達(dá)到率;ζk為用戶k的數(shù)據(jù)包尺寸的均值。
為了簡(jiǎn)化表述,令ρb(t)=fb(ρ(t)),且ρ(t)=ρ1(t),…,ρB(t)。因此,將式(9)改寫為[11]:
ρ(t)=f(ρ(t))
(10)
式中:f(ρ(t))=(f1(ρ(t)),…,fB(ρ(t)))。
利用標(biāo)準(zhǔn)干擾函數(shù)迭代求解式(10)得到[11]:
ρm=min(f(ρm-1),1)
(11)
式中:ρm為第m次迭代后的輸出,其中m∈{1,2,…,Mt};Mt為總的迭代次數(shù)。
依據(jù)文獻(xiàn)[12],用戶k與基站b間鏈路呈LoS鏈路的概率可表示為:
(12)
(13)
式中:(xb(t),yb(t))為時(shí)刻t的基站b的位置;(xk(t),yk(t))為時(shí)刻t的用戶k的位置。
因此,時(shí)刻t基站b與用戶k間信道增益為:
(14)
(15)
(16)
式中:Pb為基站b的可用傳輸功率集;條件第1行對(duì)基站b的傳輸功率和信道進(jìn)行約束;條件第2行對(duì)基站負(fù)載進(jìn)行約束,使基站的負(fù)載率不高于1;條件第3行、條件第4行對(duì)基站關(guān)聯(lián)的衛(wèi)星數(shù)進(jìn)行約束,使每個(gè)基站至少關(guān)聯(lián)到一個(gè)且只有一個(gè)衛(wèi)星;條件第5行、條件第6行對(duì)用戶關(guān)聯(lián)的基站數(shù)進(jìn)行約束,使每個(gè)用戶至少關(guān)聯(lián)到一個(gè)且只有一個(gè)基站。
為了能有效地求解式(16)所示的目標(biāo)問題,將該目標(biāo)問題分解成兩個(gè)子問題:1)回程鏈路的基站與衛(wèi)星間的關(guān)聯(lián)問題(以下簡(jiǎn)稱第一子問題);2)接入鏈路中用戶與基站的關(guān)聯(lián),資源管理和UAV軌跡的設(shè)計(jì)的聯(lián)合問題。
可表述為:
(17)
由式(17)可知,每個(gè)基站選擇離自己具有最強(qiáng)的信號(hào)強(qiáng)度的衛(wèi)星為自己服務(wù)。
提升接入鏈路的吞吐量是設(shè)計(jì)RLLO算法的主要目的。RLLO算法通過優(yōu)化基站的傳輸功率和信道以及UAV的軌跡,最大化接入鏈路的吞吐量。由于窮盡搜索算法求解聯(lián)合問題的計(jì)算量過大,RLLO算法引用強(qiáng)化學(xué)習(xí)算法求解。強(qiáng)化學(xué)習(xí)算法能夠通過觀察、獎(jiǎng)勵(lì)和動(dòng)作來學(xué)習(xí)對(duì)輸入的正確反饋。
在強(qiáng)化學(xué)習(xí)算法中,基站扮演玩家,即將基站集B作為玩家集;值得注意的是,基站包含微基站SBS和無人機(jī)UAV。UAV作為空中飛行基站,如圖2所示。
圖2 強(qiáng)化學(xué)習(xí)框架Fig.2 Reinforcement learning structure
由于SBS和UAV的特性不同,它們采取不同的動(dòng)作。具體而言,對(duì)于編號(hào)為s的SBS,用as,i表示其動(dòng)作,由SBS的傳輸功率和信道兩項(xiàng)信息構(gòu)成,即as,i=(ps,qs),其中i∈{1,2,…,AS}。而AS=Ps×Q,且ps∈Ps,qs∈Q分別表示s的傳輸功率和信道。
對(duì)于編號(hào)為u的UAV,令zu和Zu分別表示其移動(dòng)方向和移動(dòng)方向集,即Zu={up,down,left,right,forward,backward,static}。用au,i表示其動(dòng)作,由傳輸功率,信道和移動(dòng)方向三項(xiàng)信息構(gòu)成,即au,i=(pu,qu,zu),其中i∈{1,2,…,AU},且pu∈Pu,qu∈Q,zu∈Zu。
此外,利用式(18)計(jì)算選擇編號(hào)為u的UAV作為空中基站b的獎(jiǎng)懲函數(shù):
(18)
式中:Cmax為歸一化因子。
強(qiáng)化學(xué)習(xí)算法通過不斷獲取周邊環(huán)境的反饋來達(dá)到學(xué)習(xí)目的,即強(qiáng)化學(xué)習(xí)算法根據(jù)當(dāng)前環(huán)境進(jìn)行判斷,并選擇相應(yīng)的動(dòng)作措施,從而迫使環(huán)境狀態(tài)發(fā)生改變,環(huán)境的改變帶來潛在的“獎(jiǎng)賞值”。再將獎(jiǎng)賞值反饋算法,進(jìn)而達(dá)到學(xué)習(xí)目的。
一般而言,在多步動(dòng)作之后,才能觀察到強(qiáng)化學(xué)習(xí)任務(wù)的最終獎(jiǎng)賞??紤]最簡(jiǎn)單的情形:最大化單步獎(jiǎng)賞。即在當(dāng)前時(shí)刻,在所有能采取的動(dòng)作集合中,選擇能使獎(jiǎng)賞最大的動(dòng)作。多臂老虎機(jī)問題(multi-armed bandits problem, MAB)是強(qiáng)化學(xué)習(xí)任務(wù)對(duì)應(yīng)的理論模型。MAB就是如何在有限時(shí)間內(nèi),獲取最大化搖臂機(jī)的累計(jì)獎(jiǎng)賞的理論算法。
在MAB問題中,賭徒對(duì)應(yīng)玩家;手臂對(duì)應(yīng)動(dòng)作。每位賭徒從手臂動(dòng)作集中選擇一個(gè)手臂,然后再觀察所選手臂的獎(jiǎng)勵(lì)。為了獲取基站最優(yōu)的動(dòng)作,采用上限置信區(qū)間(upper confidence bound, UCB)算法求解MAB問題。UCB考慮的是每個(gè)手臂獎(jiǎng)賞的置信區(qū)間的上界。
(19)
在1 000 m×1 000 m區(qū)域內(nèi)均勻分布用戶和基站。系統(tǒng)的仿真參數(shù)如表1所示。除最大傳輸率為24 dBm外,基站的其他相關(guān)參數(shù)如表2所示。
表1 系統(tǒng)仿真參數(shù)Table 1 System parameter
表2 基站的相關(guān)參數(shù)Table 2 BS parameter
為了更好地分析RLLO算法的性能,選擇兩個(gè)基準(zhǔn)算法進(jìn)行比較:隨機(jī)選擇(Random)和基于Q學(xué)習(xí)(Q-Learning)算法。Random算法表示每個(gè)基站以等概率隨機(jī)選擇其動(dòng)作;Q-Learning算法表示基站通過Q-Learning學(xué)習(xí)選擇其傳輸功率和信道。同時(shí),UAV隨機(jī)地選擇其移動(dòng)方向。
首先,分析UAV數(shù)對(duì)接入鏈路中的微基站的平均吞吐量的影響,設(shè)用戶數(shù)為300,如圖3所示。由圖3可知,當(dāng)UAV數(shù)從0增加至2,微基站的平均吞吐量也隨之增加。但是當(dāng)UAV數(shù)大于2后,微基站的平均吞吐量就隨之下降。原因在于:最初UAV數(shù)的增加,UAV扮演空中基站并分擔(dān)了微基站的負(fù)載,致使微基站的平均負(fù)載下降。因此,每個(gè)微基站的平均吞吐量就隨之上升。
圖3 基站的平均吞吐量Fig.3 Average throughput of BS
但當(dāng)UAV數(shù)增加到一定數(shù)量時(shí),UAV分擔(dān)的負(fù)載更多。由于用戶數(shù)固定,每個(gè)微基站的平均負(fù)載下降,最終導(dǎo)致吞吐量下降。此外,相比于Random和Q-Learning算法,RLLO算法有效地提升了吞吐量。
分析接入鏈路中用戶的平均速率,設(shè)用戶數(shù)為300,UAV數(shù)為1~8,如圖4所示。由圖4可知,用戶的平均速率隨UAV數(shù)的增加而增加。原因在于:UAV數(shù)越多,每個(gè)UAV為用戶分擔(dān)的負(fù)載越少,分配的帶寬越寬,速率就越高。相比于Random算法和Q-Learning算法,提出的RLLO算法有效提升用戶的平均速率。這歸功于:RLLO算法通過分配帶寬、傳輸功率的調(diào)整,最大化了用戶的平均速率。
圖4 UAVs數(shù)對(duì)用戶的平均速率的影響Fig.4 Average rate versus the number of UAVs
圖5給出用戶數(shù)對(duì)用戶的平均速率的影響,設(shè)用戶數(shù)為50~400,UAV數(shù)為4。由圖5可知,用戶數(shù)的增加,導(dǎo)致用戶的平均速率下降。原因在于:每個(gè)微基站可獲取的資源一定,當(dāng)用戶數(shù)增加,每個(gè)微基站的負(fù)載就隨之增加。最終,導(dǎo)致用戶端的信干比下降。
圖5 用戶數(shù)對(duì)用戶的平均速率的影響Fig.5 Average rate versus the number of users
下面分析鏈路發(fā)生中斷的用戶數(shù),設(shè)用戶數(shù)為50~400,UAV數(shù)為4。如圖6所示。
圖6 鏈路中斷的用戶數(shù)Fig.6 Average number of outage users versus the number of users
由圖6可知,鏈路中斷的用戶數(shù)隨用戶數(shù)的增加而上升。原因在于:用戶數(shù)越多,網(wǎng)絡(luò)資源競(jìng)爭(zhēng)越激烈,導(dǎo)致更多鏈路發(fā)生中斷。相比于Random算法和Q-Learning算法,RLLO算法減少了發(fā)生鏈路中斷的用戶數(shù)。這說明RLLO算法有效分配了網(wǎng)絡(luò)資源,為用戶提供了穩(wěn)定的數(shù)據(jù)傳輸鏈路。
分析RLLO算法、Q-Learning算法和Random算法的運(yùn)算性能,利用運(yùn)行時(shí)間評(píng)估其運(yùn)算性能。運(yùn)行時(shí)間越短,算法復(fù)雜度越低,運(yùn)算性能越優(yōu)。
表3為RLLO算法、Q-Learning算法和Random算法的運(yùn)行時(shí)間。運(yùn)行時(shí)間取獨(dú)立運(yùn)行次數(shù)為20時(shí)的平均值。
表3 運(yùn)行時(shí)間Table 3 Runtime
由表3可知,RLLO算法與Q-Learning算法的運(yùn)行時(shí)間相近,且RLLO算法的運(yùn)行時(shí)間略高于Q-Learning算法。RLLO算法和Q-Learning算法均采用強(qiáng)化學(xué)習(xí)算法,但由于Q-Learning算法采用隨機(jī)方式設(shè)定UAV移動(dòng)方向,并沒有優(yōu)化。因此Q-Learning算法的運(yùn)行時(shí)間低于RLLO算法。此外,由于Random算法只以隨機(jī)方式選擇動(dòng)作,并沒有利用算法優(yōu)化選擇動(dòng)作的過程,復(fù)雜度低,運(yùn)行時(shí)間最短。
文中通過聯(lián)合優(yōu)化回程鏈路和接入鏈路的資源,提高了空天地一體化網(wǎng)絡(luò)的吞吐量。RLLO算法假定LEO衛(wèi)星提供回程鏈接,而微基站和UAV為地面用戶提供服務(wù)。為了使基站能夠?qū)W習(xí)到最優(yōu)的策略,RLLO算法采用強(qiáng)化學(xué)習(xí),并利用基于MAB算法優(yōu)化UAV的三維軌跡和基站的資源分配。仿真結(jié)果表明,相比于Random和Q-Learning算法,RLLO算法提高了網(wǎng)絡(luò)吞吐量和用戶端的速率。