譚蓉俊
(昆明船舶設(shè)備研究試驗(yàn)中心 昆明 650216)
目前,有人-無(wú)人以及無(wú)人裝備集群正在大規(guī)模生成,通信成為集群協(xié)同能力的基礎(chǔ),其中信息安全是影響通信的關(guān)鍵因素之一。無(wú)人機(jī)(Unmanned Aerial Vehicles,UAV)由于其可移動(dòng)性、靈活部署的特性在無(wú)線(xiàn)通信中得到廣泛應(yīng)用[1]。與現(xiàn)有的地面通信系統(tǒng)相比,無(wú)人機(jī)輔助的無(wú)線(xiàn)通信網(wǎng)絡(luò)能克服地形特性造成的傳播限制,增強(qiáng)信號(hào)覆蓋范圍并降低運(yùn)營(yíng)成本[2]。由于無(wú)線(xiàn)信道的廣播性、開(kāi)放性,使得地面通信存在竊聽(tīng)安全問(wèn)題。與地面竊聽(tīng)者相比,無(wú)人機(jī)竊聽(tīng)者(Unmanned Aerial Vehicles Eavesdropper,UED)受地形特征約束較少,且空中與地面之間視距信道的存在,可形成比地面信號(hào)強(qiáng)度更強(qiáng)的竊聽(tīng)信號(hào),使得無(wú)人機(jī)竊聽(tīng)者為地面通信安全帶來(lái)更大威脅。因此,地面通信中含有無(wú)人機(jī)竊聽(tīng)者的安全性引起業(yè)界廣泛關(guān)注。
為解決通信安全問(wèn)題,物理層安全作為傳統(tǒng)加密技術(shù)的補(bǔ)充,利用無(wú)線(xiàn)信道的隨機(jī)性、廣播性,實(shí)現(xiàn)信息安全傳輸,無(wú)需加密和解密[3~5]。在物理層安全中,通過(guò)向竊聽(tīng)者發(fā)射人工噪聲信號(hào)以降低竊聽(tīng)信道容量,是提升物理層安全的有效方法。近年來(lái),無(wú)人機(jī)輔助發(fā)射的人工噪聲,即空中人工噪聲發(fā)射機(jī),可以充分利用無(wú)人機(jī)可移動(dòng)、靈活部署的特性,且空中與地面之間視距信道的存在,可形成比地面信號(hào)強(qiáng)度更強(qiáng)的干擾信號(hào)[6]。物理層安全中,由于無(wú)線(xiàn)信號(hào)的衰落特性,保密中斷概率(Secrecy Output Probability,SOP)可以作為衡量系統(tǒng)安全性能的指標(biāo)[7]。文獻(xiàn)[8]在含有無(wú)人機(jī)竊聽(tīng)者的通信系統(tǒng)中,采用空中人工噪聲發(fā)射機(jī)發(fā)射人工噪聲的方式提升物理層安全性能,通過(guò)推導(dǎo)保密中斷概率評(píng)價(jià)系統(tǒng)的安全性能。
空中人工噪聲發(fā)射機(jī)位置直接決定了視距信號(hào)的強(qiáng)度,進(jìn)而決定系統(tǒng)保密性能。因此,為實(shí)現(xiàn)空中人工噪聲發(fā)射機(jī)對(duì)竊聽(tīng)信道的最佳干擾效果,需要對(duì)空中人工噪聲發(fā)射機(jī)軌跡進(jìn)行優(yōu)化。空中人工噪聲發(fā)射機(jī)軌跡優(yōu)化問(wèn)題通常為非凸優(yōu)化問(wèn)題,傳統(tǒng)的方法采用迭代算法或者通過(guò)將凸優(yōu)化問(wèn)題轉(zhuǎn)換為非凸優(yōu)化問(wèn)題[9~10]。近年來(lái)強(qiáng)化學(xué)習(xí)的Q-learning算法,由于不需要狀態(tài)轉(zhuǎn)移概率,適用于無(wú)人機(jī)軌跡優(yōu)化問(wèn)題,通過(guò)對(duì)無(wú)人機(jī)軌跡優(yōu)化,實(shí)現(xiàn)資源的有效分配、保密性能最優(yōu)[11~13]。
綜上,針對(duì)含有無(wú)人機(jī)竊聽(tīng)者的系統(tǒng)中,本文采用無(wú)人機(jī)輔助發(fā)射人工噪聲,提升系統(tǒng)物理層安全性能。同時(shí),通過(guò)推導(dǎo)系統(tǒng)保密中斷概率衡量系統(tǒng)的保密性能,在此基礎(chǔ)上,為實(shí)現(xiàn)系統(tǒng)保密性能最優(yōu),提出基于Q-learning的空中人工噪聲發(fā)射機(jī)軌跡優(yōu)化算法,實(shí)現(xiàn)保密中斷最小的目標(biāo)。
如圖1所示,系統(tǒng)由合法發(fā)射機(jī)(Alice)、合法接收機(jī)(Bob)、無(wú)人機(jī)竊聽(tīng)者(Eve)和空中人工噪聲發(fā)射機(jī)(Jammer)組成。其中Alice和Bob進(jìn)行通信,Eve作為第三方竊聽(tīng)者竊聽(tīng)主信道信息,Jammer發(fā)送人工噪聲干擾信號(hào)對(duì)Alice到Eve的竊聽(tīng)信道產(chǎn)生干擾以降低竊聽(tīng)信道質(zhì)量。由于無(wú)線(xiàn)信號(hào)的廣播特性,Bob同時(shí)也會(huì)接收到人工噪聲信號(hào)。Eve的位置移動(dòng)采取隨機(jī)移動(dòng)的方式,其移動(dòng)方向服從均勻分布,分別為前、后、左、右、上、下。為避免Eve移動(dòng)過(guò)遠(yuǎn)失去竊聽(tīng)意義,限定Eve移動(dòng)速度在[0 ,cmax],其中cmax為Eve移動(dòng)的最大速度。
圖1 系統(tǒng)模型
系統(tǒng)保密中斷概率的優(yōu)化目標(biāo)是通過(guò)優(yōu)化空中人工噪聲發(fā)射機(jī)的位置,獲得對(duì)竊聽(tīng)者的最佳干擾,使得系統(tǒng)保密中斷概率最小。上述優(yōu)化問(wèn)題的數(shù)學(xué)表達(dá)式為
其中C1、C2 、C3 表示空中人工噪聲發(fā)射機(jī)x、y、z軸范圍。
根據(jù)文獻(xiàn)[19]附錄推導(dǎo)可知,式(12)為非凸優(yōu)化問(wèn)題,求解困難;應(yīng)用Q-learning強(qiáng)化學(xué)習(xí)算法,無(wú)需環(huán)境狀態(tài)轉(zhuǎn)移模型,可以有效解決無(wú)人機(jī)軌跡優(yōu)化問(wèn)題。因此,接下來(lái)設(shè)計(jì)Q-learning算法求解式(12)的非凸優(yōu)化問(wèn)題。
空中人工噪聲發(fā)射機(jī)作為智能體,采用Q-learning算法對(duì)飛行軌跡進(jìn)行優(yōu)化,以達(dá)到最小化系統(tǒng)保密中斷概率的目標(biāo)。根據(jù)式(12)的優(yōu)化問(wèn)題,定義Q-learning算法相關(guān)物理量如下。
其中0≤α≤1為學(xué)習(xí)率;0≤γ≤1為折扣因子(Discount Factor),表示未來(lái)的獎(jiǎng)勵(lì)相對(duì)于當(dāng)前獎(jiǎng)勵(lì)的重要程度;Q(st+1,a) 為新的狀態(tài)st+1下所有可能新的動(dòng)作的值函數(shù)。在基于Q-learning的軌跡優(yōu)化算法中,采用ε-greedy方法,以避免算法停留在局部最大值。具體地講,智能體以概率ε選擇Q值最大值對(duì)應(yīng)的動(dòng)作,以1-ε選擇其他動(dòng)作?;赒-learning的空中人工噪聲發(fā)射機(jī)軌跡優(yōu)化算法如表1所示。
表1 基于Q-learning的空中人工噪聲發(fā)射機(jī)軌跡優(yōu)化算法
本節(jié)通過(guò)仿真驗(yàn)證保密中斷概率推導(dǎo)的準(zhǔn)確性,并通過(guò)數(shù)值仿真結(jié)果分析基于Q-learning的空中人工噪聲發(fā)射機(jī)軌跡優(yōu)化算法性能。假設(shè)Alice、Bob獨(dú)立分布在地理位置為1km×1km的城市環(huán)境中,Eve按照隨機(jī)移動(dòng)方式改變位置。仿真參數(shù)設(shè)置如表2所示。
表2 系統(tǒng)參數(shù)
圖2給出了系統(tǒng)保密中斷概率理論值和仿真值與Alice發(fā)射功率下的結(jié)果。從圖中可以得到仿真值與式(11)理論值吻合,表明所推導(dǎo)的式(11)的準(zhǔn)確性;當(dāng)增大Alice發(fā)射功率時(shí),保密中斷概率減小,這表明當(dāng)增大Alice發(fā)射功率時(shí),雖然同時(shí)改善主信道質(zhì)量和竊聽(tīng)信道質(zhì)量,但由于人工噪聲對(duì)竊聽(tīng)信道的干擾,更多地降低了竊聽(tīng)信道質(zhì)量,保證了主信道質(zhì)量?jī)?yōu)于竊聽(tīng)信道質(zhì)量。另一方面,從圖中可以得到,隨著預(yù)定義傳輸速率R的增大,保密中斷概率增大,這是由于當(dāng)增大預(yù)定義傳輸速率R時(shí),式(11)由式(10)保密中斷概率的定義可知,保密中斷概率將會(huì)增大。
圖2 保密中斷概率與PA之間的關(guān)系
圖3描述的是回合獎(jiǎng)勵(lì)總值與訓(xùn)練回合數(shù)之間的關(guān)系,在不同初始位置下的收斂情況,可見(jiàn)隨著訓(xùn)練回合數(shù)的增加,每回合得到的獎(jiǎng)勵(lì)值由初始的振蕩,逐漸增加至穩(wěn)定,表明空中人工噪聲發(fā)射機(jī)能夠從錯(cuò)誤中吸取教訓(xùn),從而提高總的獎(jiǎng)勵(lì)值,實(shí)現(xiàn)算法收斂。在圖3中,不同的線(xiàn)表示每次學(xué)習(xí)空中人工噪聲發(fā)射機(jī)的不同初始位置,均在大約200回合之后實(shí)現(xiàn)了收斂,可見(jiàn)當(dāng)空中人工噪聲發(fā)射機(jī)初始位置發(fā)生變化時(shí),初始值振蕩不一致,最后趨于穩(wěn)定后得到最大獎(jiǎng)勵(lì)值不一致,算法的收斂速度也會(huì)發(fā)生變化,但最終都能實(shí)現(xiàn)算法收斂。
圖3 回合獎(jiǎng)勵(lì)總值與訓(xùn)練回合數(shù)之間的關(guān)系
圖4描述了不同算法下,Alice發(fā)射功率與系統(tǒng)保密中斷概率SOP的之間關(guān)系。其中,窮搜算法是指在空中人工噪聲發(fā)射機(jī)學(xué)習(xí)范圍內(nèi)逐一枚舉每個(gè)坐標(biāo)位置;遺傳算法是一種模擬自然進(jìn)化的優(yōu)化算法;隨機(jī)部署算法指的是任意給定的一個(gè)空中人工噪聲發(fā)射機(jī)的位置。從圖中可以得到,與遺傳算法個(gè)隨機(jī)部署相比,Q-learning算法得到的最優(yōu)解與窮搜算法得到的最優(yōu)解重合,表明Q-learning能夠找到最優(yōu)解;與遺傳算法和隨機(jī)部署算法相比,Q-learning算法的最優(yōu)解更準(zhǔn)確。另一方面,從圖4可以得到,隨著Alice發(fā)射功率的增加,保密中斷概率減小,其原因同圖2所描述一致??梢?jiàn),通過(guò)優(yōu)化空中人工噪聲發(fā)射機(jī)飛行軌跡和空間位置,可以有效提升物理層保密性能。
圖4 基于Q-learning的空中人工噪聲發(fā)射機(jī)軌跡優(yōu)化算法和其他算法準(zhǔn)確性能比較
圖5比較了窮搜算法和Q-learning算法在不同飛行區(qū)域?qū)W得最優(yōu)空中人工噪聲發(fā)射機(jī)位置所消耗的時(shí)間。消耗時(shí)間為三個(gè)階段耗時(shí)總和,分別是空中人工噪聲發(fā)射機(jī)飛到初始位置、空中人工噪聲發(fā)射機(jī)學(xué)習(xí)尋找最優(yōu)位置、空中人工噪聲發(fā)射機(jī)從當(dāng)前位置飛到最優(yōu)位置這三個(gè)階段。飛行區(qū)域1、2、3對(duì)應(yīng)的學(xué)習(xí)范圍依次遞增。從圖中可以得到,在同一區(qū)域,窮搜算法和Q-learning算法相比,窮搜算法所消耗的時(shí)間顯著比較長(zhǎng);在不同區(qū)域窮搜算法消耗時(shí)間也比Q-learning算法的長(zhǎng)。另一方面,空中人工噪聲發(fā)射機(jī)不同飛行區(qū)域相比,飛行區(qū)域較小時(shí),雖然窮搜算法耗時(shí)比Q-learning算法大,但相差不大;飛行區(qū)域較大時(shí),Q-learning算法耗時(shí)增加的幅度比窮搜算法明顯小,說(shuō)明Q-learning算法時(shí)間復(fù)雜度低于窮搜算法,尤其在大范圍內(nèi)搜索最優(yōu)解時(shí),Q-learning算法的優(yōu)勢(shì)更為明顯。
圖5 基于Q-learning的空中人工噪聲發(fā)射機(jī)軌跡優(yōu)化算法和窮搜算法時(shí)間比較
圖6和圖7繪制了空中人工噪聲發(fā)射機(jī)的飛行軌跡。其中圖6為Eve靜止時(shí)空中人工噪聲發(fā)射機(jī)獲得最優(yōu)解的飛行軌跡,空中人工噪聲發(fā)射機(jī)在學(xué)得最優(yōu)策略的過(guò)程中,假設(shè)空中人工噪聲發(fā)射機(jī)以勻速運(yùn)動(dòng),空中人工噪聲發(fā)射機(jī)每飛行一步,都會(huì)根據(jù)第4節(jié)所述的7個(gè)方向中選擇一個(gè)方向。從圖6中可以得到,空中人工噪聲發(fā)射機(jī)的飛行軌跡始終朝著減小瞬時(shí)保密中斷概率SOP的方向,這表明空中人工噪聲發(fā)射機(jī)在這種情況下已經(jīng)學(xué)得最優(yōu)策略,即圖3所述的Q-learning算法收斂。進(jìn)一步表明,在學(xué)習(xí)最優(yōu)策略時(shí),空中人工噪聲發(fā)射機(jī)可以在一定范圍內(nèi)始終往減小系統(tǒng)保密中斷概率的方向飛行,避免了像窮搜算法盲目搜索最優(yōu)位置。圖7描述了Eve移動(dòng)時(shí)無(wú)人機(jī)軌跡優(yōu)化圖,Eve通過(guò)隨機(jī)移動(dòng)模型改變位置后,空中人工噪聲發(fā)射機(jī)動(dòng)態(tài)移動(dòng)以實(shí)現(xiàn)系統(tǒng)最小瞬時(shí)保密中斷概率。圖7中空中人工噪聲發(fā)射機(jī)和Eve的顏色相同時(shí),表示在Eve當(dāng)前位置下空中人工噪聲發(fā)射機(jī)動(dòng)態(tài)移動(dòng)后最優(yōu)位置。Eve和空中人工噪聲發(fā)射機(jī)不同顏色的位置表示在Eve的位置發(fā)生變化后,空中人工噪聲發(fā)射機(jī)動(dòng)態(tài)運(yùn)動(dòng)所獲得的最優(yōu)位置。由圖6和圖7可知,空中人工噪聲發(fā)射機(jī)能跟蹤Eve移動(dòng)來(lái)確定自身最佳位置,進(jìn)而保證對(duì)應(yīng)每個(gè)Eve位置,保密中斷概率最小。
圖6 Eve靜止時(shí)空中人工噪聲發(fā)射機(jī)飛行軌跡
圖7 Eve隨機(jī)移動(dòng)時(shí)空中人工噪聲發(fā)射機(jī)飛行軌跡
本文針對(duì)含有無(wú)人機(jī)竊聽(tīng)者的通信系統(tǒng)中,利用無(wú)人機(jī)部署靈活、與地面通信具有視距信道的優(yōu)勢(shì),輔助發(fā)射人工噪聲,提升系統(tǒng)物理層安全性能。在估計(jì)竊聽(tīng)者位置基礎(chǔ)上,提出基于Q-learning的空中人工噪聲發(fā)射機(jī)的軌跡優(yōu)化算法,跟蹤無(wú)人機(jī)竊聽(tīng)者移動(dòng),實(shí)現(xiàn)系統(tǒng)保密中斷概率最小的目標(biāo)。仿真結(jié)果表明,本文所提優(yōu)化算法能快速收斂;與窮搜、遺傳算法、隨機(jī)部署等相比,本文所提算法能得到最優(yōu)解,并耗時(shí)最短;空中人工噪聲發(fā)射機(jī)能夠根據(jù)無(wú)人機(jī)竊聽(tīng)者實(shí)時(shí)自身最佳位置,對(duì)竊聽(tīng)信道實(shí)施干擾,從而保證系統(tǒng)保密中斷概率最小。