国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

保障無人機(jī)安全通信的自主飛行3D路徑規(guī)劃

2022-06-23 02:45:28孫卉游亞璇沙德雙
信號(hào)處理 2022年5期
關(guān)鍵詞:時(shí)隙表演者軌跡

孫卉 趙 睿 游亞璇 沙德雙

(華僑大學(xué)廈門市移動(dòng)多媒體通信實(shí)驗(yàn)室,福建廈門 361021)

1 引言

無人機(jī)(unmanned aerial vehicle,UAV)輔助的無線通信近年來受到廣泛的關(guān)注,由于UAV 的高機(jī)動(dòng)性和靈活性,可以用于許多通信場(chǎng)景[1-4]。與地面固定基站不同的是,UAV 作為空中基站,可以在自然災(zāi)害、人為惡意破壞等突發(fā)情況下,隨時(shí)為地面用戶提供無線通信服務(wù),增加對(duì)地面用戶的覆蓋率[5]。另外,UAV 作為空中基站可以利用自身的移動(dòng)性,靈活地調(diào)整自身位置與地面用戶建立視距(line of sight,LoS)通信鏈路。

雖然UAV 作為空中基站有很多優(yōu)點(diǎn),但也存在一定的安全隱患。因?yàn)閁AV 輔助的無線通信是以廣播方式進(jìn)行通信,這樣容易被地面存在的惡意用戶竊聽。為了最大化UAV 輔助通信的安全速率,文獻(xiàn)[6]中利用UAV 充當(dāng)中繼來輔助物聯(lián)網(wǎng)節(jié)點(diǎn)傳輸信號(hào),通過WoLF-PHC 算法動(dòng)態(tài)優(yōu)化物聯(lián)網(wǎng)節(jié)點(diǎn)的發(fā)射功率、UAV 的發(fā)射功率和移動(dòng)軌跡來保證安全通信。文獻(xiàn)[7-9]中利用多架UAV 為地面用戶提供服務(wù),其中一部分UAV 作為發(fā)射機(jī),另一部分UAV作為干擾機(jī),多架發(fā)射機(jī)共同為地面用戶提供服務(wù),干擾機(jī)用于向地面發(fā)射干擾信號(hào)。通過聯(lián)合優(yōu)化UAV 的軌跡、發(fā)射功率和用戶調(diào)度來使最小安全速率最大化。文獻(xiàn)[10]中考慮了基于雙UAV的非正交多址(non-orthogonal multiple access,NOMA)場(chǎng)景,該場(chǎng)景由一架提供服務(wù)的UAV 和一架抗干擾UAV 組成,通過優(yōu)化UAV 軌跡和人工噪聲功率來最大化安全能量效率。文獻(xiàn)[11]中考慮的場(chǎng)景為一架UAV四處移動(dòng)并向移動(dòng)用戶發(fā)送機(jī)密信息,而另一架UAV發(fā)送人工噪聲信號(hào)干擾惡意竊聽者,通過聯(lián)合優(yōu)化UAV 的三維軌跡、最大速度以及避碰和定位誤差等約束條件,最大化最壞情況下的安全速率。

但上述文獻(xiàn)都是采用凸優(yōu)化方法求解通信模型,最近有大量文獻(xiàn)利用深度強(qiáng)化學(xué)習(xí)(deep rein?forcement learning,DRL)[12]對(duì)UAV輔助的安全通信問題進(jìn)行優(yōu)化。該方法是將問題建模為馬爾可夫決策過程(markov decision process,MDP)[13],其中智能體通過觀察環(huán)境狀態(tài),采取對(duì)應(yīng)行動(dòng),并獲得獎(jiǎng)勵(lì),接著轉(zhuǎn)移到下一狀態(tài)。與凸優(yōu)化方法不同的是,DRL 算法的目標(biāo)是最大化累積回報(bào),而不需要將非凸問題轉(zhuǎn)化為凸問題。DRL 算法可以利用深度神經(jīng)網(wǎng)絡(luò)來處理復(fù)雜的高維數(shù)據(jù)。文獻(xiàn)[14]中,UAV 作為空中基站,服務(wù)多個(gè)地面用戶,采用多智能體深度確定性策略梯度(multi-agent deep deter?ministic strategy gradient,MADDPG)算法,通過聯(lián)合優(yōu)化UAV 飛行軌跡、UAV 發(fā)射機(jī)的發(fā)射功率和UAV 干擾機(jī)的干擾功率,來最大化安全速率。文獻(xiàn)[15]利用K-means 算法獲取用戶的單元?jiǎng)澐?,提出基于Q-learning的部署位置選擇算法。

本文考慮如下通信場(chǎng)景,UAV 作為空中基站服務(wù)多個(gè)地面移動(dòng)用戶,地面存在一個(gè)竊聽者竊聽UAV 信息,通過優(yōu)化UAV 的3D 軌跡來最大化安全速率。我們基于DRL 算法,提出了一個(gè)名為正確軌跡深度確定性策略梯度(CT-DDPG)的算法用于規(guī)劃UAV 的3D 飛行軌跡來完成安全速率最大化的任務(wù)。由于本文提出的通信模型具有高維度狀態(tài)空間和連續(xù)動(dòng)作空間的控制問題,因此本文設(shè)計(jì)了基于深度確定性策略梯度(deep deterministic strategy gradient,DDPG)的CT-DDPG算法。

全文結(jié)構(gòu)如下,第2 節(jié)介紹UAV 作為空中基站,服務(wù)多個(gè)地面移動(dòng)用戶,同時(shí)地面存在一個(gè)竊聽者的系統(tǒng)模型,并對(duì)該系統(tǒng)模型進(jìn)行數(shù)學(xué)描述。第3 節(jié)首先簡(jiǎn)單介紹DRL 算法,然后詳細(xì)描述了本文提出CT-DDPG 算法。第4 節(jié)給出仿真結(jié)果,同時(shí)驗(yàn)證了本文理論分析結(jié)果的正確性。第5節(jié)對(duì)全文進(jìn)行總結(jié)。

2 系統(tǒng)模型和問題描述

2.1 系統(tǒng)模型

圖1 給出了UAV 輔助的安全通信模型,該模型由一架UAV 作為空中基站,服務(wù)邊長(zhǎng)為L(zhǎng)的正方形區(qū)域內(nèi)的M個(gè)地面用戶,M={1,…,M}。UAV 在時(shí)間t的3D 笛卡爾坐標(biāo)位置可以表示為u(t)=[x(t),y(t),z(t)]∈R3,0 ≤t≤T,其中T表示UAV 的總飛行時(shí)間??紤]到地面用戶采用相同速度v向任意方向移動(dòng),用戶m在時(shí)間t的位置坐標(biāo)可以表示為wm(t) ∈R3。UAV 采用頻分多址(frequency divi?sion multiple access,F(xiàn)DMA)的通信方式,為每個(gè)用戶提供相同的帶寬,假設(shè)總帶寬為B,那么每個(gè)用戶分配到的帶寬為Bm=,m∈M,UAV 與每個(gè)用戶通信采用相同的發(fā)射功率P。另外,地面存在一個(gè)竊聽者,其位置坐標(biāo)可以表示為we∈R3,假設(shè)竊聽者的位置坐標(biāo)是固定的,其位置可以通過配備在UAV上的光學(xué)攝像機(jī)檢測(cè)到[16]。

為方便起見,我們將UAV 的飛行時(shí)長(zhǎng)T劃分為N個(gè)等長(zhǎng)時(shí)間間隔,即T=Nδt,δt表示一個(gè)時(shí)間間隔的長(zhǎng)度。那么,UAV 在時(shí)隙n的位置坐標(biāo)可以表示為u[n]=[x[n],y[n],z[n]],n∈N={1,…,N}。同樣,用戶m在時(shí)隙n的位置坐標(biāo)分別可以表示為wm[n]。假設(shè)UAV 服務(wù)地面用戶的合法鏈路和UAV 到竊聽者的竊聽鏈路都建模為L(zhǎng)oS 信道,根據(jù)[17]中的測(cè)量結(jié)果表明,LoS 模型能夠很好的近似實(shí)際的UAV 與地面通信。因此,UAV 到地面用戶m在時(shí)隙n處的LoS 信道增益服從自由空間損耗模型,可以表示為:

其中,β0表示在參考距離d0=1 m 處的信道功率增益。dm[n]表示在時(shí)隙n處,UAV 到地面用戶的距離。同樣,UAV 到竊聽者在時(shí)隙n處的信道增益可以表示為:

其中,β0表示在參考距離d0=1 m 處的信道功率增益。de[n]表示在時(shí)隙n處,UAV到竊聽者的距離。

那么,在沒有竊聽者的情況下,UAV 到地面用戶m在時(shí)隙n處的可達(dá)速率(bps/Hz)可以表示為:

其中,σ2表示接收機(jī)處的加性高斯白噪聲(additive white gaussian noise,AWGN)。同樣的,UAV 到竊聽者在時(shí)隙n處的可達(dá)速率(bps/Hz)可以表示為:

根據(jù)(3)和(4),UAV 到地面用戶在時(shí)隙n處的平均安全速率(bps/Hz)可以表示為:

其中[x]+=max(x,0)。

2.2 問題描述

為了保證UAV 與地面用戶的安全通信,我們通過優(yōu)化UAV 的飛行軌跡{u[n]}n∈N={1,…,N},來最大化UAV 到地面用戶的平均安全速率。該問題的數(shù)學(xué)表達(dá)式如下:

在每個(gè)時(shí)隙n,我們假設(shè)UAV 的飛行加速度和飛行方向是固定的。因此,根據(jù)文獻(xiàn)[18]我們有:

其中,vd[n]表示UAV的飛行方向。

根據(jù)(12)和(13),可以發(fā)現(xiàn)u[n],v[n]和a[n]相互關(guān)聯(lián)。因此,可以通過優(yōu)化UAV 的速度v[n]和加速度a[n]代替優(yōu)化UAV 的軌跡u[n]。那么,問題(P1)可以重新表示為:

其中,u0和uc分別表示UAV的初始位置和終止位置,注意UAV 的初始位置和終止位置是隨機(jī)的。另外,問題(P2)是一個(gè)非凸的優(yōu)化問題,也是一個(gè)傳統(tǒng)的旅行商問題(traveling salesman problem,TSP)[19],該問題采用傳統(tǒng)的優(yōu)化方法很難被解決。幸運(yùn)的是,DRL 可以從一個(gè)大的策略空間中搜索解決方案,具有強(qiáng)大的數(shù)據(jù)處理能力。

3 基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)軌跡設(shè)計(jì)

本節(jié)使用DDPG 算法設(shè)計(jì)UAV 的3D 軌跡。為了解決2.2 節(jié)中的優(yōu)化問題,本文提出了CT-DDPG算法用于控制中心的訓(xùn)練,UAV 相當(dāng)于是一個(gè)智能體,在每個(gè)時(shí)間間隙n,UAV 通過與環(huán)境交互獲得當(dāng)前狀態(tài)s(i),隨后將s(i)輸入深度神經(jīng)網(wǎng)絡(luò),輸出相應(yīng)的動(dòng)作a(i)。同時(shí),UAV 能夠獲得一個(gè)回報(bào)r(i),以及轉(zhuǎn)移到下一個(gè)新的狀態(tài)s(i+1)。隨后,將上述過程得到的經(jīng)驗(yàn)(s(i),a(i),r(i),s(i+1))收集到經(jīng)驗(yàn)緩沖區(qū)R中,用于深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。

3.1 DDPG預(yù)備知識(shí)

本節(jié)將對(duì)DDPG 的相關(guān)知識(shí)做一個(gè)簡(jiǎn)短的介紹,參考文獻(xiàn)[20]對(duì)DDPG的詳細(xì)介紹,本節(jié)做一個(gè)簡(jiǎn)單的概括。

DDPG 算法是一個(gè)采用了表演者和批判者框架[21]的確定性策略梯度(deterministic strategy gradi?ent,DPG)算法[22],包含一個(gè)參數(shù)化的表演者函數(shù)u(s|θu),輸入狀態(tài)信息到該函數(shù)中,輸出相應(yīng)的動(dòng)作,另外有一個(gè)參數(shù)化的批判者函數(shù)Q(s,a|θQ),將輸入表演者函數(shù)的狀態(tài)信息和表演者函數(shù)輸出的動(dòng)作共同輸入到批判者函數(shù)中,批判者函數(shù)輸出的Q值實(shí)際上就是對(duì)表演者函數(shù)表現(xiàn)情況的打分。其中,θu和θQ分別表示表演者神經(jīng)網(wǎng)絡(luò)和批判者神經(jīng)網(wǎng)絡(luò)的參數(shù)。

與其他DRL算法類似,DDPG算法也設(shè)置了經(jīng)驗(yàn)緩沖區(qū),用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)參數(shù),還運(yùn)用了文獻(xiàn)[11]中的目標(biāo)網(wǎng)絡(luò)和“軟”目標(biāo)網(wǎng)絡(luò)更新。其中,目標(biāo)網(wǎng)絡(luò)是通過創(chuàng)建表演者和批判者神經(jīng)網(wǎng)絡(luò)的副本,即來表示。分別表示表演者目標(biāo)神經(jīng)網(wǎng)絡(luò)和批判者目標(biāo)神經(jīng)網(wǎng)絡(luò)的參數(shù)。通過它們緩慢跟蹤學(xué)習(xí)到的網(wǎng)絡(luò)權(quán)值來更新目標(biāo)網(wǎng)絡(luò)的權(quán)值,即θ′ ←τθ+(1 -τ)θ′,其中τ?1。

3.2 狀態(tài)空間

從2.1 節(jié)中得知,安全速率與UAV 的位置、地面用戶的位置以及竊聽者的位置有關(guān),同時(shí)地面用戶的位置每個(gè)時(shí)隙都在變化。因此,狀態(tài)空間包括地面用戶的位置{wm[n]}m∈M、竊聽者的位置we以及UAV 在每個(gè)時(shí)隙的位置u[n]。根據(jù)2.2 節(jié)中的描述,每個(gè)飛行周期結(jié)束,UAV 都要飛到隨機(jī)生成的終止位置uc。因此,終點(diǎn)uc也要被納入狀態(tài)空間中。另外,UAV 每個(gè)時(shí)隙的飛行速度v[n]與UAV的加速度a[n]有關(guān),為了滿足約束條件,UAV 的速度v[n]也被納入狀態(tài)空間中。

因此,狀態(tài)空間的表達(dá)式總結(jié)如下:

該狀態(tài)空間總共有(3M+10)維。

3.3 動(dòng)作空間

為了實(shí)現(xiàn)UAV 的3D 路徑規(guī)劃,本文采用文獻(xiàn)[18]中的球坐標(biāo)系,如圖2 所示,由UAV 的飛行速度、仰角以及方位角組成,即{v,φp,φa}。其中,飛行速度v要滿足優(yōu)化問題(P2)中的約束條件,即0 ≤v≤vmax,仰角φp應(yīng)該滿足使UAV 處于3D 坐標(biāo)系中z軸正半軸的條件,即0 ≤φp≤π,方位角φa應(yīng)該滿足使UAV 處于3D 坐標(biāo)系中x軸與y軸所組成平面的條件,即-π ≤φa≤π。

為方便起見,本文對(duì)UAV 的飛行速度、仰角以及方位角采用歸一化表示:

3.4 回報(bào)設(shè)計(jì)

在DRL 中,回報(bào)用于評(píng)估當(dāng)前狀態(tài)下的動(dòng)作是否是一個(gè)好的動(dòng)作,可以將優(yōu)化目標(biāo)Rsec作為回報(bào)的一部分,那么最大化回報(bào)相當(dāng)于最大化目標(biāo)函數(shù)值,這樣就可以很好的解決2.2 節(jié)中的優(yōu)化問題。另外,為了滿足優(yōu)化問題中的約束條件,可以對(duì)回報(bào)進(jìn)行如下設(shè)計(jì)。

3.4.1 安全速率

在每個(gè)時(shí)隙n,UAV 和地面用戶位置都會(huì)發(fā)生變化,可以利用(5)計(jì)算得到的安全速率作為回報(bào),即:

3.4.2 飛行距離

為了到達(dá)終止位置,UAV 在飛行過程中應(yīng)當(dāng)保持一定的飛行距離,盡量不要停留在原地,因此UAV 在每個(gè)時(shí)隙n都應(yīng)該獲得一定的獎(jiǎng)勵(lì),因此該部分的回報(bào)可以設(shè)置為:

其中,ddis表示UAV 當(dāng)前位置與上一時(shí)隙位置之間的距離。

3.4.3 約束

為了滿足2.2節(jié)中優(yōu)化問題(P2)的加速度和速度約束,本文設(shè)置如下回報(bào):

其中,ξa[n]是一個(gè)二進(jìn)制加速度約束控制指標(biāo),當(dāng)加速度滿足約束條件時(shí),ξa[n]=1,否則ξ a[n]=0。ka表示任意常數(shù),用于控制加速度約束的回報(bào)值。同樣的,ξv[n]是一個(gè)二進(jìn)制速度約束控制指標(biāo),當(dāng)速度滿足約束條件時(shí),ξv[n]=1,否則ξv[n]=0。kv表示任意常數(shù),用于控制速度約束的回報(bào)值。

3.5 訓(xùn)練算法

表1 CT-DDPG算法Tab.1 CT-DDPG algorithm

續(xù)表1

CT-DDPG 算法的每一片段從出發(fā)點(diǎn)開始,到終止點(diǎn)或最大時(shí)間點(diǎn)結(jié)束。

在訓(xùn)練階段,每一片段的開頭,先隨機(jī)初始化UAV 的起始位置u0和終止位置uc,以及地面用戶和竊聽者的位置。初始化一個(gè)隨機(jī)噪聲N0,用于平衡探索和開發(fā)。在初始階段,所選動(dòng)作與最優(yōu)解相距較遠(yuǎn),因此需要加入探索噪聲,以防陷入次優(yōu)解。但隨著迭代次數(shù)的增加,算法逐漸收斂,隨之逐漸減少探索噪聲,增加開發(fā)度。本文將探索噪聲設(shè)置為均值為0,方差為2 的高斯噪聲,在迭代過程中,以0.995的衰減率衰減。

在每個(gè)時(shí)隙n,智能體根據(jù)a[n]=u(s[n]|θu)+N0選擇動(dòng)作之后,根據(jù)3.3 節(jié)中對(duì)動(dòng)作空間的描述,動(dòng)作空間中速度v和仰角φp的歸一化值λv和的取值范圍為[0,1],而方位角φa的歸一化值的取值范圍為[-1,1]。如果采用文獻(xiàn)[17]在表演者神經(jīng)網(wǎng)絡(luò)輸出層使用不同激活函數(shù)的方式,會(huì)增加神經(jīng)網(wǎng)絡(luò)的復(fù)雜度,降低訓(xùn)練算法的收斂速度。因此,本文在表演者神經(jīng)網(wǎng)絡(luò)輸出層只采用一個(gè)激活函數(shù)tanh,該激活函數(shù)的取值范圍為[-1,1],只能滿足方位角歸一化值的取值范圍。為了能同時(shí)滿足λv、和的取值范圍,本文采用對(duì)激活函數(shù)輸出值進(jìn)行修正的方式解決。已知表演者神經(jīng)網(wǎng)絡(luò)輸出值為動(dòng)作a[n],該動(dòng)作的三個(gè)維度分別對(duì)應(yīng),將動(dòng)作a[n]的第一維度表示為a0[n],第二維度表示為a1[n],那么修正表達(dá)式分別為,這樣可以將原本[-1,1]的取值范圍修正為[0,1],正好滿足動(dòng)作空間中的歸一化值的取值范圍。

該算法還對(duì)UAV 在飛行過程中的位置進(jìn)行修正,如果UAV 在飛行過程中飛出預(yù)設(shè)邊界,立即將其速度歸一化值λv置為0。將修正后的動(dòng)作a[n]與環(huán)境交互,得到新的狀態(tài)s[n+1]后,輸出對(duì)應(yīng)的回報(bào)值r[n]。本文設(shè)置了三種情況下的回報(bào)值,一是UAV 的飛行軌跡超出預(yù)設(shè)邊界的情況,該情況下的回報(bào)值設(shè)置為r[n]=r1[n]+r2[n]+r3[n]+r4[n]-c1,其中c1表示任意常數(shù),是對(duì)UAV 飛出邊界的懲罰。二是UAV 到達(dá)預(yù)先設(shè)定目的地的情況,該情況下的回報(bào)值設(shè)置為r[n]=c2,c2表示任意常數(shù),表示UAV 只要飛到目的地就能獲得獎(jiǎng)勵(lì)。三是UAV 正常飛行的情況,該情況下的回報(bào)設(shè)置為r[n]=r1[n]+r2[n]+r3[n]+r4[n]。注意,在獲得回報(bào)的同時(shí),要更新地面用戶的位置。

智能體在得到回報(bào)r[n]后,再與環(huán)境進(jìn)行交互,得到新的狀態(tài)s[n+1],接著將{s[n],a[n],r[n],s[n+1]}存儲(chǔ)到經(jīng)驗(yàn)緩沖區(qū)R中。隨后,以Nb個(gè)小批量從經(jīng)驗(yàn)緩沖區(qū)R中采樣,按照目標(biāo)網(wǎng)絡(luò)參數(shù)u′和Q′計(jì)算表演者和批判者的損失函數(shù)值。最后,利用“軟”更新的方式更新目標(biāo)網(wǎng)絡(luò)參數(shù)u′和Q′。

在實(shí)施階段,UAV 根據(jù)實(shí)際環(huán)境情況,通過訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)選擇相應(yīng)的動(dòng)作,完成指定的任務(wù)。

4 仿真結(jié)果

在本節(jié)中,將進(jìn)行仿真以評(píng)估所提出的CTDDPG算法。

4.1 仿真設(shè)置

本文在配備Intel i7 處理器,CPU 主頻為2.90 GHz,內(nèi)存為8.00 GB 的計(jì)算機(jī)中使用TensorFlow 2.0.0,python 3.7.0 進(jìn)行仿真,考慮地面用戶和竊聽者隨機(jī)分布在100 m × 100 m 的正方形區(qū)域內(nèi),UAV 的最小和最大高度分別為zmin=5 m和zmax=20 m。本文設(shè)置地面用戶的數(shù)量M=4,移動(dòng)速度v=1 m/s,竊聽者的數(shù)量為1。設(shè)置UAV 的總帶寬B為1 MHz,發(fā)射功率P為10 W,最大飛行速度為vmax=20 m/s,最大加速度amax=5 m/s2。設(shè)置在參考距離d0=1 m處的信道功率增益β0=10-5,AWGN為σ2=10-11。設(shè)置經(jīng)驗(yàn)緩沖區(qū)R的大小為10000,小批量Nb的大小為32。UAV的總飛行時(shí)間T為800 s,時(shí)間間隔σt為8 s,因此總共有100個(gè)時(shí)間間隔。

4.2 網(wǎng)絡(luò)結(jié)構(gòu)

本文設(shè)置表演者網(wǎng)絡(luò)結(jié)構(gòu)為四層隱藏層,每層的神經(jīng)元個(gè)數(shù)分別為100,150,100,50。其中,輸入層包含用戶的位置坐標(biāo)、竊聽者的位置坐標(biāo)、UAV的位置坐標(biāo)、UAV 的速度以及UAV 的終止位置坐標(biāo)共13 個(gè)神經(jīng)元。輸出層包括UAV 的速度、仰角以及方位角。除了輸出層采用的是tanh 激活函數(shù)以外,其他每一層都采用ReLU 激活函數(shù)。另外,批判者網(wǎng)絡(luò)結(jié)構(gòu)也設(shè)置相同數(shù)量的隱藏層和神經(jīng)元個(gè)數(shù),但批判者網(wǎng)絡(luò)的輸入層包括動(dòng)作和狀態(tài)兩部分共13+3=16 個(gè)神經(jīng)元,輸出層的神經(jīng)元個(gè)數(shù)為1。其中,表演者網(wǎng)絡(luò)和批判者網(wǎng)絡(luò)采用的學(xué)習(xí)率分別為0.008和0.01。

4.3 仿真與分析

本節(jié)使用所提出的CT-DDPG 算法對(duì)系統(tǒng)模型進(jìn)行仿真,并進(jìn)行相應(yīng)的分析。

圖3畫出了所提算法在訓(xùn)練過程中的累計(jì)回報(bào)隨片段數(shù)增加的變化情況。從圖中可以看出,在開始的100 次迭代中,累計(jì)回報(bào)的波動(dòng)很大,在12000到16000之間不斷變化。原因是該算法在訓(xùn)練的初始時(shí)期還處于探索階段,存在探索噪聲,神經(jīng)網(wǎng)絡(luò)的輸出值與最優(yōu)值相距較遠(yuǎn),因此得到的回報(bào)值較小,同時(shí)存在波動(dòng)性。第100片段之后,累計(jì)回報(bào)隨著片段數(shù)的增加呈現(xiàn)上升趨勢(shì),直到第200片段處,累計(jì)回報(bào)達(dá)到最大值18000 左右,之后隨著片段數(shù)的增加,累計(jì)回報(bào)也不再出現(xiàn)很大波動(dòng),算法趨于收斂??梢钥闯?,該算法在迭代200 次左右就能趨于收斂,收斂速度快,進(jìn)一步說明該算法對(duì)提升訓(xùn)練速度的有效性。

圖4畫出了所提算法在訓(xùn)練過程中的總訓(xùn)練時(shí)間隨片段數(shù)增加的情況。從圖中可以看出,在經(jīng)過500 次迭代后,總訓(xùn)練時(shí)間為1270 s左右。在前100片段,每一片段的訓(xùn)練耗時(shí)少,這是因?yàn)樗惴ㄌ幱谔剿麟A段,探索得到的結(jié)果只用于儲(chǔ)存到經(jīng)驗(yàn)緩沖區(qū)R中。在100 片段之后,每一片段的訓(xùn)練耗時(shí)顯著增加,這是因?yàn)樗惴ㄒ呀?jīng)完成了前期探索,開始從經(jīng)驗(yàn)緩沖區(qū)R中取出數(shù)據(jù)進(jìn)行訓(xùn)練。

圖5 畫出了UAV 的3D 飛行軌跡圖,其中100 m × 100 m的正方形區(qū)域內(nèi)隨機(jī)分布4個(gè)用戶和1 個(gè)竊聽者。圖(a)是地面用戶實(shí)時(shí)移動(dòng),竊聽者位置固定的情況。隨機(jī)生成的UAV 起始點(diǎn)坐標(biāo)為[79,64,16],終止點(diǎn)坐標(biāo)為[12,3,16]。注意,地面用戶是以速度v=1 m/s 向隨機(jī)方向移動(dòng)的,每一時(shí)隙都移動(dòng)一段距離,但在圖中只畫出了地面用戶最后一個(gè)時(shí)隙的位置。圖(b)是地面用戶實(shí)時(shí)移動(dòng),竊聽者位置也實(shí)時(shí)移動(dòng)的情況。隨機(jī)生成的UAV起始點(diǎn)坐標(biāo)為[57,34,9],終止點(diǎn)坐標(biāo)為[4,3,9]。注意,地面用戶和竊聽者都以速度v=1 m/s 向隨機(jī)方向移動(dòng),每一時(shí)隙都移動(dòng)一段距離,但在圖中只畫出了最后一個(gè)時(shí)隙的位置。從圖中可以看出,UAV幾乎飛行在同一高度,這是因?yàn)楸疚牟捎玫氖荓oS信道模型,UAV 在一個(gè)固定的高度就能很好的完成任務(wù)。同時(shí),飛行高度滿足最小高度zmin=5 m 和最大高度zmax=20 m的約束條件。從UAV的飛行軌跡可以看出,為了達(dá)到最大安全速率,UAV在服務(wù)地面用戶的過程中,會(huì)盡可能的遠(yuǎn)離地面竊聽者。

圖6畫出了UAV的2D飛行軌跡圖。圖(a)是地面用戶實(shí)時(shí)移動(dòng),竊聽者位置固定的情況。圖(b)是地面用戶實(shí)時(shí)移動(dòng),竊聽者位置也實(shí)時(shí)移動(dòng)的情況。注意圖中只畫出了兩者最后一個(gè)時(shí)隙所在位置。從圖(a)中可以看出,在移動(dòng)用戶較為疏散,且距離竊聽者較遠(yuǎn)的區(qū)域,UAV 會(huì)在移動(dòng)用戶上方盤旋,為移動(dòng)用戶提供較長(zhǎng)時(shí)間的通信服務(wù)。而在移動(dòng)用戶較為集中,且距離竊聽者較近的區(qū)域,UAV選擇快速飛過該區(qū)域,保證為移動(dòng)用戶提供服務(wù)的同時(shí)最大化安全速率。從圖(b)中可以看出,UAV在飛行過程中會(huì)盡可能的遠(yuǎn)離移動(dòng)竊聽者,在地面移動(dòng)用戶上方盤旋,為地面移動(dòng)用戶提供安全服務(wù)。

5 結(jié)論

本文利用所提出的CT-DDPG 算法規(guī)劃UAV 的飛行軌跡,對(duì)地面多個(gè)移動(dòng)用戶且存在一個(gè)竊聽者的通信模型進(jìn)行仿真。由于該算法中的動(dòng)作歸一化值具有不同的取值范圍,與傳統(tǒng)算法在表演者網(wǎng)絡(luò)輸出層采用多個(gè)激活函數(shù)不同的是,該算法采用單個(gè)激活函數(shù),再利用區(qū)間收縮的方式對(duì)輸出值進(jìn)行修正,簡(jiǎn)化了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。從仿真結(jié)果可以看出,該算法在訓(xùn)練過程中能夠快速收斂,訓(xùn)練耗時(shí)短,執(zhí)行過程中UAV 能很好的服務(wù)地面移動(dòng)用戶,同時(shí)遠(yuǎn)離竊聽者。未來的研究可以對(duì)UAV 的信道模型進(jìn)行改進(jìn),使其更加貼近實(shí)際通信情況。

猜你喜歡
時(shí)隙表演者軌跡
軌跡
軌跡
復(fù)用段單節(jié)點(diǎn)失效造成業(yè)務(wù)時(shí)隙錯(cuò)連處理
軌跡
進(jìn)化的軌跡(一)——進(jìn)化,無盡的適應(yīng)
妙猜兩數(shù)
一種高速通信系統(tǒng)動(dòng)態(tài)時(shí)隙分配設(shè)計(jì)
時(shí)隙寬度約束下網(wǎng)絡(luò)零售配送時(shí)隙定價(jià)研究
基于TDMA的無沖突動(dòng)態(tài)時(shí)隙分配算法
2012年龍年網(wǎng)絡(luò)春晚節(jié)目單
小品文選刊(2012年6期)2012-05-08 04:43:11
宝应县| 五常市| 铁岭市| 临颍县| 宣恩县| 潮州市| 郓城县| 台安县| 新平| 丹江口市| 浮山县| 庄浪县| 东莞市| 古交市| 涞源县| 陆河县| 博客| 新安县| 广州市| 铜川市| 怀安县| 鄂温| 达拉特旗| 炉霍县| 定边县| 泾阳县| 湟源县| 子长县| 来宾市| 岱山县| 永安市| 临汾市| 万州区| 固镇县| 楚雄市| 瑞金市| 东丽区| 自贡市| 礼泉县| 阿克苏市| 广水市|