鄒超,孫藝夫,朱勇剛,林志,安康
(1.南京信息工程大學(xué)電子與信息工程學(xué)院,江蘇 南京 210044;2.國(guó)防科技大學(xué)第六十三研究所,江蘇 南京 210007;3.國(guó)防科技大學(xué)電子對(duì)抗學(xué)院,安徽 合肥 230037)
由于無線信道固有的廣播特性和開放性,無線傳輸極易受到安全威脅,為保護(hù)無線通信免受主動(dòng)干擾和數(shù)據(jù)攔截竊聽,各類無線物理層安全方法,包括跳頻通信[1]、功率控制[2]、中繼輔助[3]、人工噪聲輔助以及空域波束形成[4]等已被提出并得到廣泛的應(yīng)用。但是,跳頻通信技術(shù)會(huì)消耗額外的頻譜資源,功率控制方法難以適用干擾功率較大的場(chǎng)景,大規(guī)模中繼部署可能導(dǎo)致高昂的硬件成本,而發(fā)射人工噪聲則需要額外的發(fā)射功率。
近年來,可重構(gòu)智能表面(RIS,Reconfigurable Intelligent Surface)被認(rèn)為是提高無線通信頻譜效率和保密性能的重要解決方案[5-9]。具體來說,RIS 由大量無源、低成本的反射元件組成,每個(gè)反射元件可以通過編程來改變電磁波的相位、幅度、頻率甚至軌道角動(dòng)量,從而有效地調(diào)制無線電信號(hào)。因此,從安全通信的角度,RIS 已被廣泛用于增強(qiáng)和減弱不同用戶處的反射信號(hào),以達(dá)到同時(shí)消除干擾信號(hào)或抑制竊聽者信號(hào)的效果[10-15]。文獻(xiàn)[10]和[11]采用交替優(yōu)化(AO,Alternating Optimization)算法,共同優(yōu)化基站(BS,Base Station)的發(fā)射波束形成矢量和RIS 的相移矩陣,以實(shí)現(xiàn)保密率最大化。為了在保密速率受限的情況下最小化BS 處的發(fā)射功率,文獻(xiàn)[12]采用了AO 算法和半定規(guī)劃(SDP,Semidefinite Programming)松弛來解決優(yōu)化問題。不同于上述完美信道狀態(tài)信息(CSI,Channel State Information)假設(shè),文獻(xiàn)[13]提出了一個(gè)考慮級(jí)聯(lián)信道不完全信道狀態(tài)信息下反竊聽最小化發(fā)射功率問題 。此外,在文獻(xiàn)[14]和[15]中,作者進(jìn)一步研究了在不完全信道狀態(tài)信息下,針對(duì)惡意干擾和竊聽的RIS 輔助安全傳輸,并提出了一種魯棒波束形成設(shè)計(jì)實(shí)現(xiàn)聯(lián)合優(yōu)化BS 處功率分配/ 主動(dòng)波束形成矢量以及RIS 處的被動(dòng)反射波束形成。
此外,受人工智能(AI,Artificial Intelligence)的最新進(jìn)展啟發(fā),許多研究致力于將AI 技術(shù)應(yīng)用于RIS 輔助通信系統(tǒng)[16-20]。文獻(xiàn)[16]提出了一種基于深度強(qiáng)化學(xué)習(xí)(DRL,Deep Reinforcement Learning)的無源相移設(shè)計(jì),旨在最大化下行鏈路的接收信噪比。在文獻(xiàn)[17]中研究了RIS 輔助毫米波高鐵通信網(wǎng)絡(luò)中的性能,并提出了一個(gè)結(jié)合長(zhǎng)短期記憶(LSTM,Long Short-Term Memory)和深度確定性策略梯度(DDPG,Deep Deterministic Policy Gradient)的學(xué)習(xí)框架。仿真結(jié)果表明,LSTMDDPG 方案以較短的執(zhí)行時(shí)間實(shí)現(xiàn)更高的頻譜效率,從而使動(dòng)態(tài)高鐵網(wǎng)絡(luò)的決策成為可能。此外,文獻(xiàn)[18]進(jìn)一步研究了存在多個(gè)竊聽者的情況下多用戶RIS 輔助系統(tǒng)中的安全波束形成策略。值得注意的是,盡管DRL 在解決眾多具有挑戰(zhàn)性的控制任務(wù)方面表現(xiàn)出優(yōu)勢(shì),但由于DRL 應(yīng)用中使用的深度神經(jīng)網(wǎng)絡(luò)(DNN,Deep Neural Network)通常被視為黑盒模型,存在可解釋性和安全性方面的不足。因此,在處理敏感的安全問題時(shí),可解釋人工智能(XAI,Explainable AI)因其有助于理解和審查模型,或者提取相關(guān)問題的知識(shí)而引起廣泛關(guān)注。在XAI領(lǐng)域,決策樹(DT,Decision Trees)因其高度透明和簡(jiǎn)單的模型而引起了廣泛研究的關(guān)注[21-22]。與僅提供結(jié)果的黑盒模型不同,DT 揭示了決策的具體過程。此外,決策樹可以通過文本或圖形可視化的方式,直接反映出特征值的重要性差異,從而能夠向使用者解釋潛在的知識(shí)。
在復(fù)雜電磁環(huán)境下通信攻防中,由于雙方行為的隱蔽性、動(dòng)態(tài)性和對(duì)抗性,攻防行為缺乏完整表現(xiàn)形式,人工智能算法分析得到的決策方案可視化、可解釋程度還不高,難以有效地展現(xiàn),進(jìn)而被充分的認(rèn)可。因此,本文研究了基于可解釋機(jī)器學(xué)習(xí)的RIS 輔助安全通信方法,其目標(biāo)是在竊聽者存在的情況下,最大化多個(gè)用戶的可實(shí)現(xiàn)速率,同時(shí)滿足最低保密速率約束條件。其基本思路是,針對(duì)難以解決的非凸優(yōu)化問題首先提出一種基于DRL 的安全波束形成方法,并引入一種創(chuàng)新的級(jí)聯(lián)決策樹(CDT,Cascading Decision Tree)方法來生成可解釋的策略,以實(shí)現(xiàn)針對(duì)竊聽者的最優(yōu)波束形成策略,并提高RIS 輔助抗竊聽決策的有效性和可信度。
系統(tǒng)模型如圖1 所示:
圖1 系統(tǒng)模型
基于式(1),第k個(gè)用戶接收信號(hào)的傳輸速率為:
如果竊聽者試圖竊聽第k個(gè)用戶的信號(hào),則其可實(shí)現(xiàn)的竊聽速率為:
因此,第k個(gè)用戶的保密率表示為:
假設(shè)所有信道采用萊斯衰落信道模型,以HBR為例表示為:
其中HBR,Los為確定性LoS 分量,HBR,NLos為快衰落NloS 分量,分量為零均值單位方差的獨(dú)立同分布的圓對(duì)稱復(fù)高斯隨機(jī)變量,且K為L(zhǎng)oS 路徑功率與NloS 路徑功率之比[23]。
在上述模型中,基于RIS 的防竊聽問題轉(zhuǎn)化為通過優(yōu)化RIS 相移矩陣在滿足RIS 的反射單元約束下最大化系統(tǒng)傳輸速率。具體地,優(yōu)化問題可構(gòu)建為:
DRL 主要由智能體和環(huán)境兩部分組成。智能體通過與環(huán)境的交互接收反饋,不斷改進(jìn)自己的策略,以獲得最大的回報(bào)。這個(gè)學(xué)習(xí)過程被描述為馬爾可夫決策過程(MDP,Markov Decision Process)。經(jīng)典的強(qiáng)化學(xué)習(xí)算法,如Q 學(xué)習(xí)、確定性策略梯度和深度Q 網(wǎng)絡(luò)(DQN,Deep Q-Network)已被用于研究安全傳輸策略。然而,Q-學(xué)習(xí)不能處理連續(xù)狀態(tài),并且受到巨大維度狀態(tài)空間的約束。盡管DQN 在許多應(yīng)用場(chǎng)景中都有很好的效果,但它仍然存在收斂速度慢和估計(jì)過高的明顯缺點(diǎn)。此外,確定性策略梯度算法的動(dòng)作空間是一個(gè)連續(xù)集合,不適用于RIS 單元的離散相移設(shè)計(jì)。因此,本文采用了PPO算法來應(yīng)對(duì)挑戰(zhàn),如圖2 所示,該算法克服了上述算法的局限性,大大提高了可實(shí)現(xiàn)性能。
圖2 不同萊斯因子下的收斂性能
首先,將優(yōu)化問題(7) 重新表述為MDP 問題,且相應(yīng)的MDP 問題中的要素定義如下:
下面提出一種DRL 方法來搜索使獎(jiǎng)勵(lì)(10) 最大化的最優(yōu)策略。為保證穩(wěn)定訓(xùn)練過程,以便更可靠地更新策略,帶截?cái)嗟慕瞬呗詢?yōu)化(PPO-Clip,Proximal Policy Optimization with Clip)在目標(biāo)函數(shù)中進(jìn)行限制,以保證新的參數(shù)和舊的參數(shù)的差距不會(huì)太大,即:
隨后使用隨機(jī)策略梯度(SGD,Stochastic Policy Gradient)最大化目標(biāo)函數(shù)以訓(xùn)練策略網(wǎng)絡(luò)πw,表示為:
算法1 總結(jié)了基于RIS 輔助抗竊聽通信中的基于PPO 的相移優(yōu)化算法。
則每條可能路徑的K 維中間特征向量f為:
本節(jié)通過仿真結(jié)果來評(píng)估所提PPO-CDT 算法的性能。仿真結(jié)果參數(shù)設(shè)置如下:BS 的天線數(shù)為M=2,用戶個(gè)數(shù)為K=2,RIS 單元數(shù)為N=32,用戶處和竊聽者處的噪聲方差為,目標(biāo)保密速率為算法訓(xùn)練輪數(shù)E=1 500,每輪步數(shù)為T=20,學(xué)習(xí)率為l×10-3,獎(jiǎng)勵(lì)折扣系數(shù)為截?cái)鄥?shù)為ε=0.1。決策樹深度為D1=D2=3,中間特征維度為L(zhǎng)=3。此外,BS 和RIS 分別部署在[0,0,10]、[-2,5,5],用戶和竊聽者隨機(jī)分布在高度為1.5 的[0,10]×[0,10]的區(qū)域內(nèi)。
圖2 給出了不同的萊斯因子條件下各算法的收斂性能??梢杂^察到,所提方法顯著優(yōu)于基準(zhǔn)方案,即隨機(jī)反射和多臂賭博機(jī)(MAB,Multi-Armed Bandit)。盡管三種方案都獨(dú)立于CSI,但對(duì)其他信息的利用是不同的。隨機(jī)反射不依賴于任何信息,毫無疑問會(huì)達(dá)到最差的性能。MAB 假設(shè)一個(gè)固定的獎(jiǎng)勵(lì)分布,并探索所有臂的獎(jiǎng)勵(lì)分布。然而MAB 無法描述環(huán)境狀態(tài),也無法建立動(dòng)作與環(huán)境之間的聯(lián)系。因此,在動(dòng)態(tài)的通信系統(tǒng)中MAB 無法實(shí)時(shí)地根據(jù)當(dāng)前狀態(tài)做出最優(yōu)決策。DRL 定義了一個(gè)合適的狀態(tài)來表示智能體在環(huán)境中的位置,并利用PPO 從獎(jiǎng)勵(lì)和狀態(tài)信息中學(xué)習(xí)到最優(yōu)策略來最大化收益。此外,還可以發(fā)現(xiàn),所提方法與基準(zhǔn)方案的性能差距隨著萊斯因子的增大而增大。
圖3 給出了所學(xué)習(xí)到的決策樹結(jié)構(gòu)??梢钥闯觯c參數(shù)龐大的DNN 黑盒模型不同,CDT 結(jié)構(gòu)是透明的,可以直接分析。CDT 學(xué)習(xí)了CSI 和相移矩陣信息作為中間特征的組合來預(yù)測(cè),并據(jù)此做出相移調(diào)整決策。通過分析節(jié)點(diǎn)上的參數(shù)權(quán)重,可以提取問題知識(shí),了解對(duì)策略有重大影響的變量和閾值。此外,還可以觀察到CDT 的復(fù)雜度在很大程度在很大程度上取決于狀態(tài)和動(dòng)作的維度。因此,動(dòng)作設(shè)計(jì)為相位增量而非直絕對(duì)相位調(diào)控,大大減小了動(dòng)作空間維度,從而簡(jiǎn)化決策樹結(jié)構(gòu)提高可解釋性。
圖3 已學(xué)習(xí)決策樹的結(jié)構(gòu)
圖4 給出了測(cè)試階段的決策樹實(shí)例推理路徑。其中,實(shí)線表示實(shí)際的推理路徑,內(nèi)部節(jié)點(diǎn)正方形上的每種顏色代表節(jié)點(diǎn)的權(quán)重向量值,特征學(xué)習(xí)樹的葉節(jié)點(diǎn)根據(jù)特征系數(shù)著色,決策樹的葉節(jié)點(diǎn)根據(jù)輸出分類分布著色。在每一時(shí)刻,智能體觀察基于RIS 的安全傳輸環(huán)境狀態(tài)矢量首先經(jīng)過特征學(xué)習(xí)樹分類學(xué)習(xí)特征然后傳入決策樹輸出動(dòng)作概率分布,智能體對(duì)其貪婪采樣執(zhí)行安全波束形成策略。
圖4 決策樹實(shí)例路徑
本文提出了一種可解釋機(jī)器學(xué)習(xí)驅(qū)動(dòng)的RIS 安全通信方法。首先,將原始相移優(yōu)化問題描述為MDP 框架,并利用PPO 算法實(shí)現(xiàn)了RIS 的相位控制。然后,采用CDT 代替DNN 作為策略函數(shù)近似器以生成可解釋策略。仿真結(jié)果表明所提算法在性能上優(yōu)于基準(zhǔn)方案,并驗(yàn)證了生成的決策策略具有良好的可解釋性,提高了RIS 輔助抗竊聽決策的有效性和可信度,為RIS 輔助無線通信安全提供了參考和思路。