無人機(jī)系統(tǒng)中基于能量效率的資源分配研究

2021-12-23 12:50張志才尹振華

測試技術(shù)學(xué)報 2021年6期

張志才，付芳，尹振華

(山西大學(xué) 物理電子工程學(xué)院，山西太原 030006)

0 引言

無人機(jī)被認(rèn)為是5G網(wǎng)絡(luò)重要的組成部分，能為地面用戶提供豐富的服務(wù)，如軍事偵察、監(jiān)控和公共安全等[1-3]，目前學(xué)術(shù)界關(guān)于無人機(jī)通信系統(tǒng)的研究已經(jīng)有了一定研究基礎(chǔ)[4,5].文獻(xiàn)[4]針對無人機(jī)系統(tǒng)的緩存放置問題，通過聯(lián)合優(yōu)化無人機(jī)路徑和緩存內(nèi)容放置以達(dá)到最大化吞吐量.文獻(xiàn)[5]提出一種無人機(jī)路徑規(guī)劃模式，以保證信道吞吐量.需要注意的是，上述研究[4，5]都忽略了信息安全，然而，由于無人機(jī)通信信道的廣播特性及信息傳輸?shù)碾[私性，無人機(jī)系統(tǒng)安全傳輸是不得不考慮的問題.雖然傳統(tǒng)的應(yīng)用層加密算法能有效地保證信息安全傳輸，但是這類方法的復(fù)雜度過高.近年來，物理層安全作為一種保密通信的技術(shù)手段受到學(xué)術(shù)界的廣泛研究[6-10].文獻(xiàn)[6]針對準(zhǔn)靜態(tài)衰落信道下無線通信網(wǎng)絡(luò)場景，通過分析衰落信道的信噪比對保密速率和通信中斷概率的影響，從而提出基于低密度奇偶校驗碼(LDPC)的密鑰協(xié)議；文獻(xiàn)[7]對無人機(jī)路徑和時間調(diào)度進(jìn)行了聯(lián)合優(yōu)化，實現(xiàn)了最小平均保密速率的最大化；文獻(xiàn)[8]綜合考慮優(yōu)化無人機(jī)路徑和功率控制，以最大化無人機(jī)通信系統(tǒng)下行鏈路的平均保密速率；文獻(xiàn)[9]針對監(jiān)控?zé)o人機(jī)下行傳輸場景，通過優(yōu)化無人機(jī)路徑以最大化接收端信干噪比，用凸優(yōu)化理論求解.文獻(xiàn)[10]綜合考慮無人機(jī)路徑規(guī)劃和傳輸速率分配，以最小化無人機(jī)信息傳輸時的中斷概率.需要注意的是，目前關(guān)于無人機(jī)安全通信的研究多以保密速率最大化[7，8]、或接收端信干噪比最大化[9]或中斷概率最小化[10]為優(yōu)化目標(biāo)，沒有考慮無人機(jī)飛行能量消耗的限制，然而，由于無人機(jī)電池容量有限，如何提高無人機(jī)的能量效率是非常重要的問題.本文旨在通過物理層安全容量描述數(shù)據(jù)傳輸速率定義能量效率并通過合理的功率控制使能量效率最大化，將此優(yōu)化問題建模為MDP，用深度 Q 學(xué)習(xí)網(wǎng)絡(luò)(DQN)來尋求最佳功率策略，在保證信息安全的同時合理分配功率.

1 系統(tǒng)架構(gòu)

1.1 信道模型

如圖 1 所示，本文設(shè)計了一種無人機(jī)信息傳輸和防竊取系統(tǒng).該系統(tǒng)主要由軟件定義網(wǎng)絡(luò)(SDN)控制器、無人機(jī)(UAV)、地面宏基站(MBS)和多個竊聽者(Eves)組成.無人機(jī)飛行在一個小區(qū)上空以廣播的形式向MBS發(fā)送信息，竊聽者隨機(jī)分布在該小區(qū)里想要截獲無人機(jī)發(fā)送的信息.假設(shè)無人機(jī)能通過機(jī)載攝像頭或雷達(dá)探測到竊聽者的位置，從而計算出無人機(jī)到竊聽者之間的距離.為了掩藏和保護(hù)UAV發(fā)送的信號不被地面Eves非法竊取，MBS發(fā)射人工噪聲干擾Eves，而MBS則可通過消除自身產(chǎn)生的干擾安全獲取信息，即無人機(jī)和MBS之間的合法信道能夠消除人工噪聲的影響，但是無人機(jī)和竊聽者之間的竊聽信道由于不易消除人工噪聲的影響而信道質(zhì)量明顯下降，從而保護(hù)無人機(jī)發(fā)出的信息安全傳輸避免竊聽.SDN控制層中的UAV和MBS根據(jù)基礎(chǔ)層獲取的信道條件(CSI)等信息，通過控制UAV發(fā)射信號功率和MBS發(fā)射人工噪聲功率以最大化能量效率和保證信息安全傳輸.

圖1 網(wǎng)絡(luò)架構(gòu)圖

為了表示方便，令UAV，MBS以及Eves 的位置在笛卡爾坐標(biāo)系中分別表示為(xU,yU,zU)，(xB,yB,0)和(xe,ye,0),e∈ε={1,2,3,…,E}表示竊聽設(shè)備集合.因此，UAV與MBS之間的距離

(1)

編號為e的竊聽者記作Evee，UAV與Evee之間的距離

e∈ε.

(2)

MBS與Evee之間的距離

(3)

令hU2B表示 UAV與MBS之間的合法信道增益，hU2e表示UAV與Evee之間的竊聽信道增益，假設(shè)它們均是由視距(LoS)主導(dǎo)的信道模型，則

(4)

式中：dU2B表示UAV與MBS之間的3D距離，k為dU2B等于1 m時的單位信道增益，δ1為LoS信道的路徑損耗指數(shù).同理，hU2e滿足

(5)

令hB2e表示MBS 與Evee之間的非視距(NLoS)信道增益，主要由大規(guī)模路徑損耗和小型瑞麗衰落引起.則

(6)

式中：δ2為大規(guī)模路徑損耗指數(shù)；ξ為小型衰落引起的遵循指數(shù)分布的隨機(jī)變量.

1.2 安全傳輸能效模型

由于UAV的電池容量是一定的，如果用于通信設(shè)備的能量消耗過大，無人機(jī)的續(xù)航能力將會減小，并可能影響整個UAV系統(tǒng)網(wǎng)絡(luò).因此，本文在考慮信息安全的同時，將提高能量效率考慮在內(nèi).

傳輸速率是反映信息傳輸快慢的指標(biāo)，根據(jù)香農(nóng)公式，UAV與MBS之間合法信道的傳輸速率

(7)

式中：B表示帶寬資源；pU(t)是無人機(jī)的發(fā)射功率；hU2B為合法信道增益；NB0是MBS的自然噪聲功率.由于Eves在接收UAV信息的同時，也會受到來自MBS人工噪聲的干擾，因此，竊聽信道的傳輸速率

rU2E(pU(t),pB(t))=

(8)

式中：NE0表示竊聽設(shè)備的自然噪聲功率；pB(t)表示MBS產(chǎn)生的人工噪聲功率.UAV與MBS之間的物理層安全容量可以定義為合法信道與竊聽信道的速率差，即安全速率

r(pU(t),pB(t))=

(9)

(10)

1.3 優(yōu)化目標(biāo)

本文通過SDN控制無人機(jī)發(fā)射有用信號的功率pU(t)和基站MBS發(fā)射人工噪聲的功率pB(t)，以實現(xiàn)在最大化能量效率的同時保證安全速率.無人機(jī)系統(tǒng)中的能效問題可表述為

Maximize∶η

s.t.minpU≤pU(t)≤maxpU,

minpB≤pB(t)≤maxpB,

(11)

式中：minpU與maxpU分別表示UAV的最小和最大發(fā)射功率；minpB與maxpB分別表示MBS的最小和最大干擾功率.約束條件的含義是，無人機(jī)發(fā)射有用信號的功率范圍在minpU與maxpU之間，并且基站MBS發(fā)射人工噪聲的功率pB(t)范圍在minpB與maxpB之間.

1.4 問題建模與求解思路

對上述優(yōu)化問題進(jìn)行建模，考慮到無線環(huán)境的動態(tài)特性具有馬爾科夫性質(zhì)，因此我們將其建模為MDP〈S，A，P，r)〉，其中S表示狀態(tài)空間，包括以下內(nèi)容：

?UAV與MBS之間的距離dU2B；

?UAV與Eve e之間的距離dU2e,e∈ε；

?MBS與Eve e之間的距離dB2e,e∈ε;

A表示動作空間，包括以下內(nèi)容：

?UAV發(fā)射有用信號的功率pU(t)；

?MBS發(fā)射人工噪聲的功率pB(t)；

P∶S×A×S→[0,∞) 表示狀態(tài)轉(zhuǎn)移函數(shù)，由于很難精準(zhǔn)預(yù)測狀態(tài)轉(zhuǎn)移函數(shù)，故采用無模型的深度強(qiáng)化學(xué)習(xí)算法來求解上述MDP問題；

考慮到實際無人機(jī)網(wǎng)絡(luò)環(huán)境動作和狀態(tài)空間的連續(xù)性和多維度，以及相鄰時隙動作的耦合性，傳統(tǒng)以最大化短期回報為目標(biāo)的優(yōu)化方法很難保證長期回報最大化，而且由于Q學(xué)習(xí)過于依賴Q表，當(dāng)動作和狀態(tài)空間維度顯著增加時，Q學(xué)習(xí)會發(fā)生維度災(zāi)難.策略梯度Policy Graident算法是基于策略搜索的強(qiáng)化學(xué)習(xí)算法，當(dāng)無人機(jī)網(wǎng)絡(luò)動態(tài)變化時，梯度易出現(xiàn)不穩(wěn)定，導(dǎo)致收斂性能不好.針對無人機(jī)網(wǎng)絡(luò)環(huán)境動作和狀態(tài)空間具有多維連續(xù)的特征，采用DQN算法來求解上述MDP問題，它是一種基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)算法，在訓(xùn)練時采用了Q學(xué)習(xí)的思路，用神經(jīng)網(wǎng)絡(luò)擬合Q學(xué)習(xí)中的誤差項.

2 基于Deep Q-learning Network算法的資源優(yōu)化

DQN算法采用神經(jīng)網(wǎng)絡(luò)近似值函數(shù)，如圖 2 所示.算法包含兩個結(jié)構(gòu)相同參數(shù)不同的Q網(wǎng)絡(luò)，分別為current Q網(wǎng)絡(luò)和target Q網(wǎng)絡(luò).一個step中，agent在狀態(tài)s下根據(jù)ε-greedy策略(π)做出動作a時會獲得回報r，同時轉(zhuǎn)移到下一狀態(tài)s′，這些信息(s,a,r,s′)存儲在Replay Buffer中，算法從中隨機(jī)選取minibatch經(jīng)驗用于訓(xùn)練，從而打亂了相關(guān)性，使學(xué)習(xí)更有效率.由于動作a同時影響當(dāng)前回報和未來收益，因此基于Bellman方程，current Q的近似值

Qπ(s,a)≈Q(s,a;θ)=r+γQ(s′,a′;θ)，

(12)

式中:γ=[0,1]為折扣因子，θ為current Q網(wǎng)絡(luò)的參數(shù)，該網(wǎng)絡(luò)每隔N步將參數(shù)傳遞給target網(wǎng)絡(luò).current Q值Q(s,a;θ)與target Q值Q*(s,a;θ*)之差構(gòu)成損失函數(shù)，即

(13)

圖 2 算法流程圖

參數(shù)θ的更新公式為梯度下降

θi+1=θi+α?θL(θ),

(14)

式中：0<α≤1為學(xué)習(xí)效率.

3 算法仿真與數(shù)據(jù)分析

本節(jié)中，針對本文提出的基于DQN算法的功率控制策略，在Python平臺進(jìn)行仿真.在覆蓋半徑為100 m的區(qū)域中，每個Episode隨機(jī)初始UAV和MBS的位置，多個Eves的位置在每個Step均進(jìn)行初始化，具體仿真參數(shù)如表 1 所示.

表 1 仿真參數(shù)設(shè)置

圖 3 是DQN算法不同學(xué)習(xí)效率(α)的收斂圖，從圖 3 中可知，當(dāng)α=0.1時，大約40個Episodes(每個Episode包含100個Step)可以收斂，而α=0.01時，大約需要300個Episodes才可以收斂，可見，在一定范圍內(nèi)，收斂速度會隨著學(xué)習(xí)率的增高而加快.但并非學(xué)習(xí)率越高越好，如圖 3 中，當(dāng)α=0.5時，雖然收斂速度與α=0.1相當(dāng)，但是收斂值明顯更低，這是因為陷入了局部收斂.因此，最佳的學(xué)習(xí)率為α=0.1.

圖 3 不同學(xué)習(xí)率收斂圖

從圖 4 可以看到，經(jīng)典的Policy Gradient算法在400個Episodes左右可以達(dá)到收斂，收斂值大約比DQN算法低100，這是因為DQN中采用了ε-greedy策略，從而使探索更充分，避免陷入局部最優(yōu).因此，本文所提出的算法在回報值和學(xué)習(xí)速度方面都優(yōu)于Policy Gradient算法，并且遠(yuǎn)勝過隨機(jī)選動作的情況，可以說明本文算法的有效性.

圖 4 本文算法與其他算法的性能比較

圖5為竊聽者密度與平均回報之間的關(guān)系圖，將UAV和MBS固定在半徑為100 m的區(qū)域中隨機(jī)撒點，變化Eves的密度和范圍.可以看到，當(dāng)覆蓋半徑一定時，隨著竊聽數(shù)量的減少，平均回報值會增大.當(dāng)竊聽數(shù)量固定時，隨著覆蓋半徑的擴(kuò)展，平均回報值逐漸增大.可見，區(qū)域面積竊聽密度越小，平均回報值越高.

圖 5 竊聽密度與平均回報關(guān)系圖

4 結(jié) 論

本文考慮了無人機(jī)系統(tǒng)中的物理層安全傳輸，主要研究了通過控制無人機(jī)發(fā)射有用信號的功率和MBS發(fā)射人工噪聲的功率，在保證無人機(jī)信息安全傳輸?shù)耐瑫r，最大化其能量效率.考慮到實際無人機(jī)網(wǎng)絡(luò)環(huán)境動作和狀態(tài)空間具有多維連續(xù)的特征，將上述優(yōu)化問題建模為MDP，并采用DQN算法來求解最優(yōu)功率控制策略.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡