張志才,付 芳,尹振華
(山西大學(xué) 物理電子工程學(xué)院,山西 太原 030006)
無人機(jī)被認(rèn)為是5G網(wǎng)絡(luò)重要的組成部分,能為地面用戶提供豐富的服務(wù),如軍事偵察、監(jiān)控和公共安全等[1-3],目前學(xué)術(shù)界關(guān)于無人機(jī)通信系統(tǒng)的研究已經(jīng)有了一定研究基礎(chǔ)[4,5].文獻(xiàn)[4]針對無人機(jī)系統(tǒng)的緩存放置問題,通過聯(lián)合優(yōu)化無人機(jī)路徑和緩存內(nèi)容放置以達(dá)到最大化吞吐量.文獻(xiàn)[5]提出一種無人機(jī)路徑規(guī)劃模式,以保證信道吞吐量.需要注意的是,上述研究[4,5]都忽略了信息安全,然而,由于無人機(jī)通信信道的廣播特性及信息傳輸?shù)碾[私性,無人機(jī)系統(tǒng)安全傳輸是不得不考慮的問題.雖然傳統(tǒng)的應(yīng)用層加密算法能有效地保證信息安全傳輸,但是這類方法的復(fù)雜度過高.近年來,物理層安全作為一種保密通信的技術(shù)手段受到學(xué)術(shù)界的廣泛研究[6-10].文獻(xiàn)[6]針對準(zhǔn)靜態(tài)衰落信道下無線通信網(wǎng)絡(luò)場景,通過分析衰落信道的信噪比對保密速率和通信中斷概率的影響,從而提出基于低密度奇偶校驗碼(LDPC)的密鑰協(xié)議;文獻(xiàn)[7]對無人機(jī)路徑和時間調(diào)度進(jìn)行了聯(lián)合優(yōu)化,實現(xiàn)了最小平均保密速率的最大化;文獻(xiàn)[8]綜合考慮優(yōu)化無人機(jī)路徑和功率控制,以最大化無人機(jī)通信系統(tǒng)下行鏈路的平均保密速率;文獻(xiàn)[9]針對監(jiān)控?zé)o人機(jī)下行傳輸場景,通過優(yōu)化無人機(jī)路徑以最大化接收端信干噪比,用凸優(yōu)化理論求解.文獻(xiàn)[10]綜合考慮無人機(jī)路徑規(guī)劃和傳輸速率分配,以最小化無人機(jī)信息傳輸時的中斷概率.需要注意的是,目前關(guān)于無人機(jī)安全通信的研究多以保密速率最大化[7,8]、或接收端信干噪比最大化[9]或中斷概率最小化[10]為優(yōu)化目標(biāo),沒有考慮無人機(jī)飛行能量消耗的限制,然而,由于無人機(jī)電池容量有限,如何提高無人機(jī)的能量效率是非常重要的問題.本文旨在通過物理層安全容量描述數(shù)據(jù)傳輸速率定義能量效率并通過合理的功率控制使能量效率最大化,將此優(yōu)化問題建模為MDP,用深度 Q 學(xué)習(xí)網(wǎng)絡(luò)(DQN)來尋求最佳功率策略,在保證信息安全的同時合理分配功率.
如圖 1 所示,本文設(shè)計了一種無人機(jī)信息傳輸和防竊取系統(tǒng).該系統(tǒng)主要由軟件定義網(wǎng)絡(luò)(SDN)控制器、無人機(jī)(UAV)、地面宏基站(MBS)和多個竊聽者(Eves)組成.無人機(jī)飛行在一個小區(qū)上空以廣播的形式向MBS發(fā)送信息,竊聽者隨機(jī)分布在該小區(qū)里想要截獲無人機(jī)發(fā)送的信息.假設(shè)無人機(jī)能通過機(jī)載攝像頭或雷達(dá)探測到竊聽者的位置,從而計算出無人機(jī)到竊聽者之間的距離.為了掩藏和保護(hù)UAV發(fā)送的信號不被地面Eves非法竊取,MBS發(fā)射人工噪聲干擾Eves,而MBS則可通過消除自身產(chǎn)生的干擾安全獲取信息,即無人機(jī)和MBS之間的合法信道能夠消除人工噪聲的影響,但是無人機(jī)和竊聽者之間的竊聽信道由于不易消除人工噪聲的影響而信道質(zhì)量明顯下降,從而保護(hù)無人機(jī)發(fā)出的信息安全傳輸避免竊聽.SDN控制層中的UAV和MBS根據(jù)基礎(chǔ)層獲取的信道條件(CSI)等信息,通過控制UAV發(fā)射信號功率和MBS發(fā)射人工噪聲功率以最大化能量效率和保證信息安全傳輸.
圖1 網(wǎng)絡(luò)架構(gòu)圖
為了表示方便,令UAV,MBS以及Eves 的位置在笛卡爾坐標(biāo)系中分別表示為(xU,yU,zU),(xB,yB,0)和(xe,ye,0),e∈ε={1,2,3,…,E}表示竊聽設(shè)備集合.因此,UAV與MBS之間的距離
(1)
編號為e的竊聽者記作Evee,UAV與Evee之間的距離
e∈ε.
(2)
MBS與Evee之間的距離
(3)
令hU2B表示 UAV與MBS之間的合法信道增益,hU2e表示UAV與Evee之間的竊聽信道增益,假設(shè)它們均是由視距(LoS)主導(dǎo)的信道模型,則
(4)
式中:dU2B表示UAV與MBS之間的3D距離,k為dU2B等于1 m時的單位信道增益,δ1為LoS信道的路徑損耗指數(shù).同理,hU2e滿足
(5)
令hB2e表示MBS 與Evee之間的非視距(NLoS)信道增益,主要由大規(guī)模路徑損耗和小型瑞麗衰落引起.則
(6)
式中:δ2為大規(guī)模路徑損耗指數(shù);ξ為小型衰落引起的遵循指數(shù)分布的隨機(jī)變量.
由于UAV的電池容量是一定的,如果用于通信設(shè)備的能量消耗過大,無人機(jī)的續(xù)航能力將會減小,并可能影響整個UAV系統(tǒng)網(wǎng)絡(luò).因此,本文在考慮信息安全的同時,將提高能量效率考慮在內(nèi).
傳輸速率是反映信息傳輸快慢的指標(biāo),根據(jù)香農(nóng)公式,UAV與MBS之間合法信道的傳輸速率
(7)
式中:B表示帶寬資源;pU(t)是無人機(jī)的發(fā)射功率;hU2B為合法信道增益;NB0是MBS的自然噪聲功率.由于Eves在接收UAV信息的同時,也會受到來自MBS人工噪聲的干擾,因此,竊聽信道的傳輸速率
rU2E(pU(t),pB(t))=
(8)
式中:NE0表示竊聽設(shè)備的自然噪聲功率;pB(t)表示MBS產(chǎn)生的人工噪聲功率.UAV與MBS之間的物理層安全容量可以定義為合法信道與竊聽信道的速率差,即安全速率
r(pU(t),pB(t))=
(9)
(10)
本文通過SDN控制無人機(jī)發(fā)射有用信號的功率pU(t)和基站MBS發(fā)射人工噪聲的功率pB(t),以實現(xiàn)在最大化能量效率的同時保證安全速率.無人機(jī)系統(tǒng)中的能效問題可表述為
Maximize∶η
s.t.minpU≤pU(t)≤maxpU,
minpB≤pB(t)≤maxpB,
(11)
式中:minpU與maxpU分別表示UAV的最小和最大發(fā)射功率;minpB與maxpB分別表示MBS的最小和最大干擾功率.約束條件的含義是,無人機(jī)發(fā)射有用信號的功率范圍在minpU與maxpU之間,并且基站MBS發(fā)射人工噪聲的功率pB(t)范圍在minpB與maxpB之間.
對上述優(yōu)化問題進(jìn)行建模,考慮到無線環(huán)境的動態(tài)特性具有馬爾科夫性質(zhì),因此我們將其建模為MDP〈S,A,P,r)〉,其中S表示狀態(tài)空間,包括以下內(nèi)容:
?UAV與MBS之間的距離dU2B;
?UAV與Eve e之間的距離dU2e,e∈ε;
?MBS與Eve e之間的距離dB2e,e∈ε;
A表示動作空間,包括以下內(nèi)容:
?UAV發(fā)射有用信號的功率pU(t);
?MBS發(fā)射人工噪聲的功率pB(t);
P∶S×A×S→[0,∞) 表示狀態(tài)轉(zhuǎn)移函數(shù),由于很難精準(zhǔn)預(yù)測狀態(tài)轉(zhuǎn)移函數(shù),故采用無模型的深度強(qiáng)化學(xué)習(xí)算法來求解上述MDP問題;
考慮到實際無人機(jī)網(wǎng)絡(luò)環(huán)境動作和狀態(tài)空間的連續(xù)性和多維度,以及相鄰時隙動作的耦合性,傳統(tǒng)以最大化短期回報為目標(biāo)的優(yōu)化方法很難保證長期回報最大化,而且由于Q學(xué)習(xí)過于依賴Q表,當(dāng)動作和狀態(tài)空間維度顯著增加時,Q學(xué)習(xí)會發(fā)生維度災(zāi)難.策略梯度Policy Graident算法是基于策略搜索的強(qiáng)化學(xué)習(xí)算法,當(dāng)無人機(jī)網(wǎng)絡(luò)動態(tài)變化時,梯度易出現(xiàn)不穩(wěn)定,導(dǎo)致收斂性能不好.針對無人機(jī)網(wǎng)絡(luò)環(huán)境動作和狀態(tài)空間具有多維連續(xù)的特征,采用DQN算法來求解上述MDP問題,它是一種基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)算法,在訓(xùn)練時采用了Q學(xué)習(xí)的思路,用神經(jīng)網(wǎng)絡(luò)擬合Q學(xué)習(xí)中的誤差項.
DQN算法采用神經(jīng)網(wǎng)絡(luò)近似值函數(shù),如圖 2 所示.算法包含兩個結(jié)構(gòu)相同參數(shù)不同的Q網(wǎng)絡(luò),分別為current Q網(wǎng)絡(luò)和target Q網(wǎng)絡(luò).一個step中,agent在狀態(tài)s下根據(jù)ε-greedy策略(π)做出動作a時會獲得回報r,同時轉(zhuǎn)移到下一狀態(tài)s′,這些信息(s,a,r,s′)存儲在Replay Buffer中,算法從中隨機(jī)選取minibatch經(jīng)驗用于訓(xùn)練,從而打亂了相關(guān)性,使學(xué)習(xí)更有效率.由于動作a同時影響當(dāng)前回報和未來收益,因此基于Bellman方程,current Q的近似值
Qπ(s,a)≈Q(s,a;θ)=r+γQ(s′,a′;θ),
(12)
式中:γ=[0,1]為折扣因子,θ為current Q網(wǎng)絡(luò)的參數(shù),該網(wǎng)絡(luò)每隔N步將參數(shù)傳遞給target網(wǎng)絡(luò).current Q值Q(s,a;θ)與target Q值Q*(s,a;θ*)之差構(gòu)成損失函數(shù),即
(13)
圖 2 算法流程圖
參數(shù)θ的更新公式為梯度下降
θi+1=θi+α?θL(θ),
(14)
式中:0<α≤1為學(xué)習(xí)效率.
本節(jié)中,針對本文提出的基于DQN算法的功率控制策略,在Python平臺進(jìn)行仿真.在覆蓋半徑為100 m的區(qū)域中,每個Episode隨機(jī)初始UAV和MBS的位置,多個Eves的位置在每個Step均進(jìn)行初始化,具體仿真參數(shù)如表 1 所示.
表 1 仿真參數(shù)設(shè)置
圖 3 是DQN算法不同學(xué)習(xí)效率(α)的收斂圖,從圖 3 中可知,當(dāng)α=0.1時,大約40個Episodes(每個Episode包含100個Step)可以收斂,而α=0.01時,大約需要300個Episodes才可以收斂,可見,在一定范圍內(nèi),收斂速度會隨著學(xué)習(xí)率的增高而加快.但并非學(xué)習(xí)率越高越好,如圖 3 中,當(dāng)α=0.5時,雖然收斂速度與α=0.1相當(dāng),但是收斂值明顯更低,這是因為陷入了局部收斂.因此,最佳的學(xué)習(xí)率為α=0.1.
圖 3 不同學(xué)習(xí)率收斂圖
從圖 4 可以看到,經(jīng)典的Policy Gradient算法在400個Episodes左右可以達(dá)到收斂,收斂值大約比DQN算法低100,這是因為DQN中采用了ε-greedy策略,從而使探索更充分,避免陷入局部最優(yōu).因此,本文所提出的算法在回報值和學(xué)習(xí)速度方面都優(yōu)于Policy Gradient算法,并且遠(yuǎn)勝過隨機(jī)選動作的情況,可以說明本文算法的有效性.
圖 4 本文算法與其他算法的性能比較
圖5為竊聽者密度與平均回報之間的關(guān)系圖,將UAV和MBS固定在半徑為100 m的區(qū)域中隨機(jī)撒點,變化Eves的密度和范圍.可以看到,當(dāng)覆蓋半徑一定時,隨著竊聽數(shù)量的減少,平均回報值會增大.當(dāng)竊聽數(shù)量固定時,隨著覆蓋半徑的擴(kuò)展,平均回報值逐漸增大.可見,區(qū)域面積竊聽密度越小,平均回報值越高.
圖 5 竊聽密度與平均回報關(guān)系圖
本文考慮了無人機(jī)系統(tǒng)中的物理層安全傳輸,主要研究了通過控制無人機(jī)發(fā)射有用信號的功率和MBS發(fā)射人工噪聲的功率,在保證無人機(jī)信息安全傳輸?shù)耐瑫r,最大化其能量效率.考慮到實際無人機(jī)網(wǎng)絡(luò)環(huán)境動作和狀態(tài)空間具有多維連續(xù)的特征,將上述優(yōu)化問題建模為MDP,并采用DQN算法來求解最優(yōu)功率控制策略.