張 芳,倪守娟,顏 艷
(1.青島民航凱亞系統(tǒng)集成有限公司,山東 青島 266108;2.青島國際機(jī)場集團(tuán)有限公司,山東 青島 266308)
為了提高無線通信網(wǎng)絡(luò)傳輸?shù)陌踩珣B(tài)勢感知能力,需要設(shè)計(jì)和實(shí)現(xiàn)一種改進(jìn)的強(qiáng)化學(xué)習(xí)算法[1-2]。具體的設(shè)計(jì)結(jié)構(gòu)如圖1 所示。
圖1 改進(jìn)算法的設(shè)計(jì)結(jié)構(gòu)
如圖1 所示,在狀態(tài)表示的改進(jìn)方面,不僅考慮了當(dāng)前的多維度狀態(tài)特征,還將歷史信息整合進(jìn)來,使算法能夠更全面地把握當(dāng)前的無線通信網(wǎng)絡(luò)傳輸態(tài)勢。主要采用深度學(xué)習(xí)技術(shù),將多維度狀態(tài)特征和歷史信息進(jìn)行有效整合,使?fàn)顟B(tài)表示更加豐富和準(zhǔn)確。在動作空間的改進(jìn)方面,主要設(shè)計(jì)了多樣化的動作,以應(yīng)對無線通信網(wǎng)絡(luò)傳輸中的各種復(fù)雜情況。同時,改進(jìn)算法設(shè)計(jì)還實(shí)現(xiàn)了自適應(yīng)動作,使算法能夠根據(jù)當(dāng)前的網(wǎng)絡(luò)傳輸態(tài)勢自動選擇最適合的動作,從而提高網(wǎng)絡(luò)傳輸?shù)陌踩珣B(tài)勢感知能力。在獎勵機(jī)制的改進(jìn)方面,采用了多目標(biāo)優(yōu)化,將短期收益和長期收益進(jìn)行有效平衡。這使得算法在追求網(wǎng)絡(luò)安全的同時,也能夠關(guān)注網(wǎng)絡(luò)的傳輸效率。此外,還設(shè)計(jì)了一種長期激勵機(jī)制,以鼓勵算法在長期的網(wǎng)絡(luò)運(yùn)行中保持優(yōu)秀表現(xiàn)。在策略學(xué)習(xí)的改進(jìn)方面,主要從模型驅(qū)動的學(xué)習(xí)和遷移學(xué)習(xí)2 個方面進(jìn)行了改進(jìn)。利用模型驅(qū)動的學(xué)習(xí),使算法能夠更加精確地模擬網(wǎng)絡(luò)傳輸中的各種情況,從而提高算法的預(yù)測能力。采用遷移學(xué)習(xí)技術(shù),使算法能夠?qū)⒃谝粋€網(wǎng)絡(luò)環(huán)境中學(xué)到的知識應(yīng)用到另一個網(wǎng)絡(luò)環(huán)境中,從而提高算法的泛化能力。
總之,改進(jìn)強(qiáng)化學(xué)習(xí)算法在狀態(tài)表示、動作空間、獎勵機(jī)制、策略學(xué)習(xí)4 個方面都進(jìn)行了全面的技術(shù)性完善和優(yōu)化,通過這些具體的改進(jìn)形式,能夠使得改進(jìn)的強(qiáng)化學(xué)習(xí)算法更好地適應(yīng)無線通信網(wǎng)絡(luò)的傳輸安全需求,提高安全態(tài)勢感知的準(zhǔn)確性和實(shí)時性,從而增強(qiáng)網(wǎng)絡(luò)的整體安全性。
在構(gòu)建無線通信網(wǎng)絡(luò)傳輸安全態(tài)勢感知模型時,需要綜合考慮多方面的因素,確保網(wǎng)絡(luò)傳輸?shù)陌踩院涂煽啃訹3]。具體模型架構(gòu)流程如圖2 所示。
圖2 模型架構(gòu)流程
如圖2所示,建立模型架構(gòu)時,先要進(jìn)行數(shù)據(jù)采集,收集流量數(shù)據(jù)、信號強(qiáng)度等多種數(shù)據(jù),并對數(shù)據(jù)進(jìn)行預(yù)處理,消除噪聲,提取有用信息。接著通過特征提取中的模式識別技術(shù),從數(shù)據(jù)中提取反映網(wǎng)絡(luò)狀態(tài)和用戶行為的特征,并結(jié)合支持向量機(jī)(Support Vector Machine,SVM)整合威脅情報(bào),識別異常行為和威脅特征,具體的表達(dá)式為
式中:w為權(quán)重值;ai為拉格朗日乘子;yi為輸出標(biāo)簽,通常取值為+1 或-1;xi為輸入數(shù)據(jù)點(diǎn)。
在態(tài)勢理解層對威脅進(jìn)行建模,具體可利用邏輯回歸的預(yù)測計(jì)算進(jìn)行分類和標(biāo)注,為態(tài)勢預(yù)測提供依據(jù)。同時,整合網(wǎng)絡(luò)外部信息,如天氣狀況、地理位置等,為模型構(gòu)建提供更全面的網(wǎng)絡(luò)使用背景。具體的邏輯回歸預(yù)測計(jì)算為
式中:y為預(yù)測的輸出值,也稱為邏輯回歸得分;x為輸入的特征量,包含了用于預(yù)測的各個特征的值;b為截距項(xiàng),是邏輯回歸模型的另一個參數(shù),對應(yīng)于所有輸入特征值為0 時模型的預(yù)測值。當(dāng)y值接近于1 時,意味著模型預(yù)測輸出為正類;相反,當(dāng)y值接近于0 時,意味著模型預(yù)測輸出為負(fù)類。此外,通過動態(tài)分析和趨勢分析,實(shí)時監(jiān)測與分析網(wǎng)絡(luò)傳輸中的變化,預(yù)測潛在的安全態(tài)勢變化。如果動態(tài)分析或趨勢分析不成功,那么模型將會重新評估分析方法或增加更多的分析維度,直至預(yù)測結(jié)果準(zhǔn)確。最后,態(tài)勢展示層通過可視化界面,將安全態(tài)勢感知結(jié)果直觀展示給網(wǎng)絡(luò)安全分析師,并根據(jù)感知結(jié)果發(fā)出預(yù)警,指導(dǎo)相應(yīng)響應(yīng)措施。學(xué)習(xí)與優(yōu)化層利用過往安全事件數(shù)據(jù),持續(xù)優(yōu)化模型,適應(yīng)新的安全威脅,并定期更新模型參數(shù)和特征庫。
在無線通信網(wǎng)絡(luò)傳輸安全態(tài)勢感知模型的構(gòu)建中,獎勵函數(shù)的設(shè)計(jì)是關(guān)鍵組成部分,主要負(fù)責(zé)指導(dǎo)網(wǎng)絡(luò)中的節(jié)點(diǎn)如何通過各自的行為來優(yōu)化整個網(wǎng)絡(luò)的安全態(tài)勢[4]。獎勵函數(shù)通常設(shè)計(jì)為衡量個體行為對整個網(wǎng)絡(luò)安全的貢獻(xiàn)程度,激勵節(jié)點(diǎn)采取有利于網(wǎng)絡(luò)安全的行動。具體獎勵函數(shù)設(shè)計(jì)組成如下。
2.2.1 安全性能指標(biāo)
利用基于量子密鑰分發(fā)(Quantum Key Distribution,QKD)的量子通信協(xié)議,來確保通信的保密性。QKD 利用量子態(tài)的不確定性來生成和傳輸密鑰,任何試圖監(jiān)聽的行為都會被檢測到,從而保證密鑰的安全和通信的機(jī)密性。此外,網(wǎng)絡(luò)采用分布式架構(gòu),及時中斷在不安全的環(huán)境下發(fā)生的分布式拒絕服務(wù)(Distributed Denial of Service,DDoS)攻擊事件。
2.2.2 行為貢獻(xiàn)度
在無線通信網(wǎng)絡(luò)中,為提高安全態(tài)勢感知的效率,獎勵函數(shù)應(yīng)重點(diǎn)考慮節(jié)點(diǎn)的行為貢獻(xiàn)度[5]。通過建立信譽(yù)積分系統(tǒng),評估上報(bào)信息的準(zhǔn)確性和及時性,從而獎勵那些能夠快速識別并上報(bào)威脅的節(jié)點(diǎn)。在防御行為方面,主要通過部署入侵檢測系統(tǒng)(Intrusion Detection Systems,IDS)和入侵防御系統(tǒng)(Intrusion Prevention System,IPS),檢測正在進(jìn)行的攻擊或異?;顒?,并向網(wǎng)絡(luò)管理員發(fā)出警報(bào),及時隔離受感染的系統(tǒng),阻止惡意流量或修改網(wǎng)絡(luò)配置等危險動作。
2.2.3 網(wǎng)絡(luò)效率指標(biāo)
采用先進(jìn)的調(diào)制技術(shù)并優(yōu)化傳輸協(xié)議,減少傳輸延遲和提高數(shù)據(jù)吞吐量。同時,激勵節(jié)點(diǎn)使用動態(tài)頻率選擇和頻譜感知技術(shù),降低無線通信網(wǎng)絡(luò)中頻率干擾和沖突的概率,提高頻譜利用效率。此外,采用機(jī)器學(xué)習(xí)算法來預(yù)測和優(yōu)化網(wǎng)絡(luò)資源分配,獎勵那些能夠根據(jù)網(wǎng)絡(luò)負(fù)載動態(tài)調(diào)整發(fā)射功率和資源分配策略的節(jié)點(diǎn)。
通過以上3 個部分,可以構(gòu)建一個有效的獎勵機(jī)制,激勵網(wǎng)絡(luò)中的節(jié)點(diǎn)積極參與到網(wǎng)絡(luò)安全態(tài)勢感知,共同維護(hù)無線通信網(wǎng)絡(luò)的安全。
為全面評估基于改進(jìn)強(qiáng)化學(xué)習(xí)的無線通信網(wǎng)絡(luò)傳輸安全態(tài)勢感知方法的性能,需搭建一個適合測試的實(shí)驗(yàn)環(huán)境。實(shí)驗(yàn)要準(zhǔn)備OPNET 系列的網(wǎng)絡(luò)模擬器、Intel Xeon 系列的服務(wù)器、GeForce 系列的圖形處理器;同時還須準(zhǔn)備不間斷電源,確保實(shí)驗(yàn)過程中電源的穩(wěn)定性和系統(tǒng)的不間斷運(yùn)行;以及用于構(gòu)建網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),連接模擬無線節(jié)點(diǎn)的網(wǎng)絡(luò)交換機(jī)。通過以上設(shè)備,可以搭建一個適合測試基于改進(jìn)強(qiáng)化學(xué)習(xí)的無線通信網(wǎng)絡(luò)傳輸安全態(tài)勢感知方法的實(shí)驗(yàn)環(huán)境[6]。
在進(jìn)行結(jié)果分析前,模擬DDoS 攻擊,讓攻擊者通過發(fā)送大量偽造請求使服務(wù)器被這些請求所占滿,導(dǎo)致合法用戶無法獲得足夠的網(wǎng)絡(luò)服務(wù)資源,從而使得網(wǎng)絡(luò)服務(wù)變得不可用。仿真時間為100 s,仿真數(shù)據(jù)如表1 所示。
表1 仿真數(shù)據(jù)
如表1 所示,在模擬的DDoS 攻擊場景下,強(qiáng)化學(xué)習(xí)算法通過動態(tài)調(diào)整網(wǎng)絡(luò)策略來最小化這些影響??梢钥闯觯瑥?qiáng)化學(xué)習(xí)算法在提高傳輸成功率、減少延遲和丟包率、優(yōu)化能耗方面取得了一定的效果。這些數(shù)據(jù)表明,強(qiáng)化學(xué)習(xí)算法有助于提高網(wǎng)絡(luò)在遭受攻擊時的健壯性和效率。
接著,將改進(jìn)的強(qiáng)化學(xué)習(xí)方法與傳統(tǒng)的安全管理方法進(jìn)行對比,評估改進(jìn)后的方法在傳輸效率、延遲和丟包率等方面的表現(xiàn)。同時,使用定義的性能指標(biāo),對實(shí)驗(yàn)結(jié)果進(jìn)行量化分析。具體實(shí)驗(yàn)結(jié)果對比如表2 所示。
表2 測試實(shí)驗(yàn)結(jié)果
表2 數(shù)據(jù)顯示,強(qiáng)化學(xué)習(xí)方法顯著提升了無線通信網(wǎng)絡(luò)的傳輸效率,從原來的700 Mb/s 增加到850 Mb/s。這一變化表明,強(qiáng)化學(xué)習(xí)能夠更有效地利用無線通信資源,提高數(shù)據(jù)傳輸速度和網(wǎng)絡(luò)容量。此外,平均延遲從30 ms 減少到20 ms,表明強(qiáng)化學(xué)習(xí)方法提供了更快的響應(yīng)時間,對于實(shí)時應(yīng)用和用戶體驗(yàn)有顯著改善。丟包率也從2%降低到0.5%,這顯示了強(qiáng)化學(xué)習(xí)在管理網(wǎng)絡(luò)擁塞和干擾方面的有效性,增強(qiáng)了網(wǎng)絡(luò)的可靠性。能耗方面,強(qiáng)化學(xué)習(xí)方法節(jié)省了25%??傊@些結(jié)果證明了強(qiáng)化學(xué)習(xí)技術(shù)在無線通信網(wǎng)絡(luò)管理中的潛力,為網(wǎng)絡(luò)提供了更加高效、可靠和安全的環(huán)境。
文章針對無線通信網(wǎng)絡(luò)傳輸安全態(tài)勢感知問題,提出了一種基于改進(jìn)強(qiáng)化學(xué)習(xí)的方法。通過設(shè)計(jì)新的強(qiáng)化學(xué)習(xí)算法,構(gòu)建了無線通信網(wǎng)絡(luò)傳輸安全態(tài)勢感知模型,并通過仿真實(shí)驗(yàn)驗(yàn)證了方法的有效性。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的強(qiáng)化學(xué)習(xí)方法在傳輸效率、延遲、丟包率等方面顯著優(yōu)于傳統(tǒng)安全管理方法,同時具備更高的能源效率和資源利用率。