胡浪濤 畢松姣 劉全金 吳建嵐 楊 瑞 王 宏
①(安慶師范大學(xué)電子工程與智能制造學(xué)院 安慶 246133)
②(智能感知與計(jì)算安徽省高校重點(diǎn)實(shí)驗(yàn)室 安慶 246133)
③(安徽省鐵路投資有限責(zé)任公司 合肥 230601)
隨著5G無(wú)線網(wǎng)絡(luò)的快速發(fā)展,無(wú)人機(jī)(Unmanned Aerial Vehicle, UAV)因其具有低成本、高機(jī)動(dòng)性、覆蓋范圍廣、可以按需部署等優(yōu)點(diǎn),在無(wú)線通信領(lǐng)域引起了廣泛的研究[1–6]。UAV可以按需部署至當(dāng)前地面通信設(shè)備無(wú)法覆蓋的區(qū)域,用于緩解突發(fā)狀況下場(chǎng)景的通信壓力,進(jìn)而提高通信質(zhì)量。UAV作為一個(gè)空中基站為服務(wù)區(qū)內(nèi)的用戶提供信號(hào)的覆蓋[1,2]。例如,當(dāng)?shù)孛娉霈F(xiàn)緊急情況,地面基站被摧毀,UAV可臨時(shí)代替被損壞的基站,以維持正常的通信;考慮較遠(yuǎn)的用戶之間的通信場(chǎng)景,采用UAV作為中繼,可改善傳播環(huán)境,增強(qiáng)信號(hào)的傳播范圍,提高系統(tǒng)的通信性能[3,4];此外,UAV還作為空中用戶,用于輔助信息傳播和數(shù)據(jù)收集[5]。
在上述UAV通信應(yīng)用中,由于無(wú)線信道的廣播特性,其傳播沒(méi)有明確的物理邊界,這將導(dǎo)致通過(guò)無(wú)線方式傳播的機(jī)密信息很容易被非授權(quán)用戶竊聽或者受到攻擊。UAV網(wǎng)絡(luò)的安全和隱私問(wèn)題受到研究者的廣泛關(guān)注[7–10]。傳統(tǒng)的加密技術(shù)可以部分解決UAV網(wǎng)絡(luò)的安全問(wèn)題。然而,找到一種有效的方法來(lái)解決其潛在的數(shù)學(xué)問(wèn)題是困難的,加密技術(shù)的安全性將受到極大的限制。因此,物理層安全成為解決UAV網(wǎng)絡(luò)安全問(wèn)題的理想選擇,通過(guò)傳輸設(shè)計(jì)基本實(shí)現(xiàn)了安全通信[7,8]。文獻(xiàn)[9]考慮UAV和地面用戶的雙向通信中,在竊聽者存在的情況下,通過(guò)聯(lián)合優(yōu)化UAV軌跡和合法發(fā)射機(jī)的發(fā)射功率,提高合法信號(hào)質(zhì)量并降低竊聽信號(hào)質(zhì)量,以最大化平均安全速率。文獻(xiàn)[10]提出一種新型的UAV移動(dòng)干擾方案,利用UAV來(lái)傳輸干擾信號(hào),以防止竊聽者竊聽機(jī)密信息,通過(guò)聯(lián)合優(yōu)化UAV的軌跡和干擾功率,提高安全速率。
然而在復(fù)雜的城市環(huán)境中,UAV和地面用戶之間的視距鏈路可能會(huì)被阻擋[11],這嚴(yán)重降低了信道質(zhì)量。針對(duì)這一問(wèn)題,智能超表面(Reconfigurable Intelligent Surface, RIS)可以通過(guò)反射UAV和用戶之間的傳輸信號(hào)來(lái)輔助UAV安全通信,改善無(wú)線環(huán)境[12–14]。RIS是目前被廣泛認(rèn)可的潛在6G關(guān)鍵技術(shù)之一[15],RIS由大量低成本的可重構(gòu)反射單元組成,不需要復(fù)雜的編碼、解碼和射頻處理操作,可以有效地控制入射信號(hào)的相位、振幅、頻率等,改善無(wú)線傳播環(huán)境,可以實(shí)現(xiàn)更快、更可靠數(shù)據(jù)傳輸[16–19]。在UAV通信中搭建智能反射面,通過(guò)直射與反射信號(hào)疊加,可增強(qiáng)用戶收到的信號(hào)。由于RIS 的低成本、易部署特性,有望實(shí)現(xiàn)大范圍的航路信號(hào)覆蓋。文獻(xiàn)[12] RIS引入U(xiǎn)AV網(wǎng)絡(luò)并被證明可以顯著提高數(shù)據(jù)速率,但未考慮其安全性能。文獻(xiàn)[13]研究了RIS輔助下的UAV網(wǎng)絡(luò)的安全通信問(wèn)題,通過(guò)聯(lián)合優(yōu)化RIS的相移、UAV的軌跡和功率最大化安全速率。文獻(xiàn)[14]考慮了一種RIS輔助的UAV網(wǎng)絡(luò),其中UAV加裝一個(gè)RIS作為無(wú)源中繼,提出了一種迭代算法,通過(guò)聯(lián)合優(yōu)化UAV位置和RIS的相移最大限度地提高系統(tǒng)的保密率。
上述研究主要是利用傳統(tǒng)的優(yōu)化技術(shù),對(duì)RIS輔助安全通信系統(tǒng)中的UAV軌跡和RIS相移進(jìn)行聯(lián)合優(yōu)化,對(duì)于大規(guī)模系統(tǒng)效率較低。受深度強(qiáng)化學(xué)習(xí)可以實(shí)現(xiàn)對(duì)高維數(shù)據(jù)處理的啟發(fā),一些研究者嘗試?yán)萌斯ぶ悄芩惴ㄟM(jìn)行優(yōu)化RIS的反射波束形成[20]和UAV軌跡[21–23]。然而,文獻(xiàn)[21–23]沒(méi)有引入RIS這一先進(jìn)技術(shù),文獻(xiàn)[13]引入了RIS技術(shù),但是UAV的軌跡是在2維平面上進(jìn)行優(yōu)化,UAV的高度是固定的,這在真實(shí)的系統(tǒng)中是不現(xiàn)實(shí)的。本文基于雙深度Q網(wǎng)絡(luò)(Double Deep Q Network,DDQN)設(shè)計(jì)了一種聯(lián)合優(yōu)化RIS相移矩陣和UAV的3D軌跡算法,最大化系統(tǒng)可達(dá)到的安全速率。
圖1 RIS輔助UAV安全通信系統(tǒng)
其中,式(12a)表示在時(shí)隙t的用戶調(diào)度,式(12b)表示傳輸數(shù)據(jù)的任務(wù)量約束,式(12c)、式(12d)分別表示在UAV的水平速度、垂直方向速度約束,式(12e)表示UAV飛行高度約束,式(12f)表示每個(gè)時(shí)隙的飛行時(shí)間約束。式(12)描述的優(yōu)化問(wèn)題是非凸的。為求解此類問(wèn)題,本文提出一個(gè)基于DDQN的數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)算法。
動(dòng)態(tài)的無(wú)線環(huán)境可以建模為馬爾可夫決策過(guò)程(Markov Decision Process, MDP),強(qiáng)化學(xué)習(xí)中的智能體通過(guò)與未知環(huán)境交互不斷學(xué)習(xí),最大化智能體得到的獎(jiǎng)勵(lì)。在動(dòng)態(tài)的網(wǎng)絡(luò)環(huán)境中,經(jīng)常使用無(wú)模型強(qiáng)化學(xué)習(xí)算法,學(xué)習(xí)估計(jì)每個(gè)狀態(tài)-動(dòng)作值函數(shù) (稱為Q值函數(shù))。在t時(shí)隙,智能體從環(huán)境中獲取狀態(tài)st,執(zhí)行動(dòng)作at,與環(huán)境交互后對(duì)應(yīng)的到達(dá)下一個(gè)狀態(tài)st+1,并得到獎(jiǎng)勵(lì)值rt。
本文的目標(biāo)是優(yōu)化UAV的3D軌跡和RIS的相移以最大化合法用戶平均安全速率。為此,本文將平均安全速率最大化問(wèn)題表述為 MDP并隨后采用深度強(qiáng)化學(xué)習(xí)算法獲得累積平均安全速率獎(jiǎng)勵(lì)。本文以深度Q網(wǎng)絡(luò)(Deep Q Network, DQN)為基礎(chǔ),為克服DQN的Q值高估問(wèn)題,本文采用了DDQN框架,通過(guò)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),以最大化可實(shí)現(xiàn)的平均安全速率。將RIS輔助的UAV安全通信系統(tǒng)建模為一個(gè)環(huán)境,UAV可視為一個(gè)智能體。
3.1.1 Q學(xué)習(xí)
Q學(xué)習(xí)算法[25]中使用Q函數(shù)表示智能體在狀態(tài)s下,采取動(dòng)作a,所獲得的累計(jì)獎(jiǎng)勵(lì)值,Q函數(shù)表示為Qπ(st,at)
α是用以更新Q函數(shù)的學(xué)習(xí)率。
3.1.2 深度Q網(wǎng)絡(luò)(DQN)
Q學(xué)習(xí)用表格存儲(chǔ)Q值,對(duì)于維度較大的狀態(tài)空間和動(dòng)作空間實(shí)時(shí)更新難以實(shí)現(xiàn),DQN將值函數(shù)估計(jì)與神經(jīng)網(wǎng)絡(luò)相結(jié)合,解決Q學(xué)習(xí)的“維度爆炸”問(wèn)題。
圖2 RIS輔助無(wú)人機(jī)DDQN網(wǎng)絡(luò)結(jié)構(gòu)圖
本文設(shè)計(jì)了基于DDQN算法來(lái)優(yōu)化UAV的3D軌跡,通過(guò)介紹該算法的結(jié)構(gòu),給出了優(yōu)化UAV軌跡過(guò)程。DDQN優(yōu)化算法見表1。
表1 聯(lián)合優(yōu)化UAV軌跡和RIS相移算法(算法1)
本節(jié)通過(guò)仿真驗(yàn)證所提算法在RIS輔助UAV無(wú)線通信系統(tǒng)安全傳輸?shù)臄?shù)值結(jié)果,并將數(shù)值結(jié)果與沒(méi)有RIS輔助的系統(tǒng)、有RIS但不優(yōu)化相移的系統(tǒng)進(jìn)行比較。
本文使用Python 3.7, TensorFlow 1.15.0搭建RIS輔助UAV安全通信模型:選用兩層的神經(jīng)網(wǎng)絡(luò),輸入層包含3個(gè)神經(jīng)元,隱含層包含20個(gè)神經(jīng)元,使用RMSProp優(yōu)化器訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),激活函數(shù)為ReLU函數(shù),每個(gè)回合包含3000個(gè)時(shí)隙。將{st,at,rt,st+1}存入經(jīng)驗(yàn)池,待經(jīng)驗(yàn)值存滿后,隨機(jī)抽取32個(gè)經(jīng)驗(yàn)序列進(jìn)入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
UAV在所給定服務(wù)范圍內(nèi)飛行,m個(gè)用戶被隨機(jī)地分配在UAV服務(wù)區(qū)域內(nèi),設(shè)Lu0=[0,0]T,zR=50,qw=[700,320],d=λ/2。參數(shù)設(shè)置見表2[24]。
表2 仿真參數(shù)設(shè)置
本文將DDQN的優(yōu)化效果與DQN的優(yōu)化效果進(jìn)行比較,本文算法框架通過(guò)將選擇動(dòng)作網(wǎng)絡(luò)與目標(biāo)Q值生成網(wǎng)絡(luò)分離,克服了DQN的Q值過(guò)高的問(wèn)題,而獲得比DQN更好的最優(yōu)獎(jiǎng)勵(lì)。圖3顯示了4種方案的平均安全速率對(duì)比,隨著迭代次數(shù)增加,動(dòng)作價(jià)值函數(shù)隨著步長(zhǎng)增加而收斂。從圖3可以看出,所有方案的安全速率隨著步長(zhǎng)的增加而逐漸增加。本文所提RIS輔助UAV方案(DDQN_優(yōu)化RIS相移)的平均安全速率分別是DQN算法(DQN_優(yōu)化RIS相移)、有RIS但沒(méi)有優(yōu)化相移(DDQN_RIS隨機(jī)相移)和沒(méi)有RIS輔助(DDQN_無(wú)RIS)的1.58倍、1.97倍和5.21倍。仿真表明部署優(yōu)化后的RIS輔助UAV是可以提高無(wú)線通信安全性。
圖3 4種方案下的平均安全速率對(duì)比
圖4仿真了優(yōu)化UAV的3D軌跡算法和固定高度算法的平均安全速率,優(yōu)化3D軌跡的方案(優(yōu)化H)和固定高度的方案,固定高度方案分別為60 m和100 m。從仿真中可以看出,用戶所達(dá)到的安全速率與UAV的飛行高度也有著密切的關(guān)系。優(yōu)化UAV的3D軌跡明顯比固定高度的方案取得更好的性能。當(dāng)UAV高度的增加時(shí),路徑損耗增加,所達(dá)到的安全速率的值較低。由圖4可知,本文所提方案即優(yōu)化UAV的3D軌跡達(dá)到的平均安全速率分別是固定高度60 m和100 m的1.31倍、1.83倍,即本文所提優(yōu)化UAV的3D軌跡算法的可以實(shí)現(xiàn)較高的平均安全速率。
圖4 不同高度下所達(dá)到的平均安全速率
如圖5所示,本文所提基于DDQN的優(yōu)化算法與文獻(xiàn)[13]中使用到的傳統(tǒng)連續(xù)凸逼近SCA算法和基于DDQN未部署RIS算法進(jìn)行對(duì)比。仿真3種智能反射單元個(gè)數(shù),即{N=128, 192, 256},文獻(xiàn)[13]中設(shè)置無(wú)人機(jī)的高度為100 m保持不變。在本文DDQN算法中,UAV在3D空間里飛行,高度需要優(yōu)化。從圖5比較3種算法可以看出:優(yōu)化RIS的相移和UAV的3D軌跡,可以取得比固定高度的SCA算法獲得更大的安全速率,沒(méi)有部署RIS算法的UAV獲得最差的安全速率。從實(shí)驗(yàn)結(jié)果可以看出,優(yōu)化UAV的高度非常重要。另外仿真結(jié)果還可以看出,不同反射單元個(gè)數(shù)情況下,平均安全速率隨著反射單元的增加而增加。
圖5 不同反射面下不同算法所達(dá)到的平均安全速率
本文采用的是視距/非視距混合信道模型,因?yàn)榇嬖谡系K物等因素使得通信環(huán)境的信道增益是隨機(jī)的,相應(yīng)的UAV優(yōu)化軌跡也不是唯一的。UAV希望在服務(wù)用戶時(shí)盡可能遠(yuǎn)離Eve,降低合法用戶傳輸被Eve發(fā)現(xiàn)的概率。將本文所提RIS輔助UAV方案與有RIS但沒(méi)有優(yōu)化相移、沒(méi)有RIS兩個(gè)方案對(duì)比。圖6、圖7分別為UAV飛行3D軌跡圖和2D平面圖,圖中黃色菱形小方塊表示RIS,黑色菱形小方塊表示Eve,黑色“×”號(hào)表示合法用戶。由圖6和圖7可知,優(yōu)化RIS相移的UAV在獲得信息傳輸速率的保障下,優(yōu)化自己的水平位置和高度,靠近用戶飛行,從2D平面上看,它盡可能地遠(yuǎn)離竊聽者。沒(méi)有RIS的方案UAV更接近Eve,這顯然降低系統(tǒng)的安全性能。RIS隨機(jī)相移方案的性能是在優(yōu)化相移和無(wú)RIS方案之間,從水平面上看,它遠(yuǎn)離Eve,但是它也遠(yuǎn)離了用戶。RIS輔助UAV方案在滿足用戶所需服務(wù)的同時(shí),試圖遠(yuǎn)離Eve,從2D平面圖和3D軌跡圖可以看出本文所提方案具有可行性。
圖6 UAV的3D軌跡圖
圖7 UAV的2D平面圖
在SCA算法中,算法的復(fù)雜度為O(NiteN3.5),Nite表示迭代的次數(shù),N表示智能反射面單元數(shù);在本算法中,神經(jīng)網(wǎng)絡(luò)包含兩個(gè)全連接層和1個(gè)批標(biāo)準(zhǔn)化(Batch Normalization, BN)層,忽略BN層的開銷,計(jì)算全連接層的計(jì)算復(fù)雜度,UAV的3維坐標(biāo)作為輸入層,即神經(jīng)元個(gè)數(shù)為3,中間隱含層的神經(jīng)元個(gè)數(shù)為2 0,輸出層為動(dòng)作的個(gè)數(shù)L×H×C×Γ,1次訓(xùn)練的計(jì)算量為3×20+20×(L×H×C×Γ): 那么總體的復(fù)雜度為O(E×T×(3×20+20×(L×H×C×Γ))),其中E表示回合數(shù),T表示1個(gè)回合的訓(xùn)練步長(zhǎng)數(shù)目。和SCA算法對(duì)比,所提算法訓(xùn)練的復(fù)雜度較高,但是強(qiáng)化學(xué)習(xí)一旦訓(xùn)練完畢,進(jìn)行預(yù)測(cè)時(shí),算法的復(fù)雜度就非常小了。 算法的收斂性是通過(guò)在每個(gè)回合中不斷地降低DDQN目標(biāo)網(wǎng)絡(luò)的Q值和訓(xùn)練網(wǎng)絡(luò)的Q值之間的誤差來(lái)實(shí)現(xiàn)的。隨著回合步長(zhǎng)的增加,誤差會(huì)逐漸減小,從而算法達(dá)到收斂。
本文基于深度強(qiáng)化學(xué)習(xí)中的DDQN算法提出一種聯(lián)合優(yōu)化RIS相移和UAV的3D軌跡以保障物理層通信安全的方法,目的是在Eve存在的情況下,UAV基站向合法用戶發(fā)送的消息被安全傳輸,最大化平均安全速率。仿真表明,本文所提的算法可以對(duì)UAV的3D軌跡進(jìn)行優(yōu)化,盡可能遠(yuǎn)離Eve,降低被竊聽的概率。本文所提方案與固定飛行高度的傳統(tǒng)SCA方案、RIS輔助沒(méi)有優(yōu)化相移和沒(méi)有RIS輔助的方案相比,可以達(dá)到最高的平均安全速率,驗(yàn)證了所提算法的可行性。