尚教凱 賀寅 徐池 徐銘
摘要:研究中發(fā)現(xiàn),將短波遠(yuǎn)程通信中兩點(diǎn)間的可用頻率作為單特征輸入,利用長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)(ISTM)可以實(shí)現(xiàn)對(duì)未來(lái)幾天短波頻率進(jìn)行預(yù)測(cè)。該文對(duì)輸入的樣本數(shù)據(jù)存在缺失值條件下的情況進(jìn)行分析,最終得到缺失值條件下該方法的應(yīng)用策略,對(duì)遠(yuǎn)程短波通信保障具有重要意義。
關(guān)鍵詞:頻率預(yù)測(cè);LSTM;缺失值
中圖分類號(hào):TP319 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)09-0251-04
1 引言
短波通信一直是海上遠(yuǎn)程通信不可缺少的手段??茖W(xué)技術(shù)的不斷進(jìn)步推動(dòng)著短波通信向著建鏈速度更迅捷、數(shù)據(jù)傳輸容量更大的方向發(fā)展,但實(shí)現(xiàn)準(zhǔn)確的短波通信頻率預(yù)測(cè)是制約著遠(yuǎn)程短波通信質(zhì)量提升的關(guān)鍵問(wèn)題。
現(xiàn)有的ITS-HF系列短波頻率預(yù)測(cè)軟件雖然能夠?qū)崿F(xiàn)復(fù)雜鏈路程序化,但該系列預(yù)測(cè)軟件的輸入條件過(guò)于苛刻,且局限性較強(qiáng),在實(shí)際海上通信過(guò)程中的效果并不好。而短波頻率作為典型的非線性時(shí)間序列,有很多學(xué)者基于模糊小波、神經(jīng)網(wǎng)絡(luò)、混沌理論等算法對(duì)時(shí)間序列預(yù)測(cè)開(kāi)展研究,任淑婷采用模糊小波神經(jīng)網(wǎng)絡(luò)方法對(duì)短波頻率進(jìn)行預(yù)測(cè),預(yù)測(cè)值與實(shí)際值的相對(duì)誤差在9%左右,但工程實(shí)現(xiàn)難度較大。
根據(jù)深度學(xué)習(xí)擅長(zhǎng)提取非線性時(shí)間序列數(shù)據(jù)特征的特點(diǎn),通過(guò)時(shí)間半年,間隔一小時(shí)的頻率樣本數(shù)據(jù)對(duì)長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)( ISTM)進(jìn)行訓(xùn)練,實(shí)現(xiàn)了對(duì)未來(lái)約20天每小時(shí)為間隔的點(diǎn)對(duì)點(diǎn)短波遠(yuǎn)程通信頻率預(yù)測(cè)。在實(shí)際應(yīng)用過(guò)程中,收集樣本數(shù)據(jù)過(guò)程中存在出現(xiàn)數(shù)據(jù)缺失的可能,這種情況就不能滿足預(yù)測(cè)模型對(duì)樣本數(shù)據(jù)中時(shí)間間隔為一小時(shí)的訓(xùn)練需求,那么出現(xiàn)這種缺失值時(shí),該模型是否還能實(shí)現(xiàn)頻率預(yù)測(cè)?缺失比例是否對(duì)預(yù)測(cè)結(jié)果產(chǎn)生影響?
為進(jìn)一步明確基于LSTM實(shí)現(xiàn)頻率預(yù)測(cè)方法對(duì)樣本數(shù)據(jù)的需求,本文對(duì)樣本數(shù)據(jù)存在缺失值的情況進(jìn)行分析。
2 LSTM模型
3 缺失值處理
數(shù)據(jù)收集過(guò)程中出現(xiàn)缺失值存在以下幾個(gè)原因,一是沒(méi)有歷史經(jīng)歷,未積累過(guò)相關(guān)資源;二是有歷史經(jīng)歷,資源積累過(guò)程中因?yàn)樵O(shè)備原因出現(xiàn)缺少丟失,比如數(shù)據(jù)未存儲(chǔ)成功、設(shè)備故障導(dǎo)致某些數(shù)據(jù)未收集或者未傳遞到數(shù)據(jù)庫(kù)中;三是出現(xiàn)奇異樣本,不適合被調(diào)用,處理過(guò)程中被刪除。
缺失值的處理辦法包括填充和刪除,而填充的方法包括:
1)當(dāng)調(diào)用的數(shù)據(jù)集中出現(xiàn)缺失值時(shí),將所有缺失值用NULL進(jìn)行填充,表示該項(xiàng)空值,不影響使用,
2)平均值填充。用該屬性其他值的平均值對(duì)該缺失項(xiàng)進(jìn)行填充。
3)用最可能的值填充。本系統(tǒng)中頻率生成子模塊能夠根據(jù)一定數(shù)量的樣本進(jìn)行頻率預(yù)測(cè),當(dāng)可通頻率存在缺失時(shí),該預(yù)測(cè)值就是最可能的值,用預(yù)測(cè)值進(jìn)行填充能夠補(bǔ)充缺失項(xiàng)。
為更好地明確缺失值對(duì)基于LSTM單特征輸入實(shí)現(xiàn)頻率預(yù)測(cè)的影響,本文對(duì)樣本數(shù)據(jù)中缺失值的處理辦法是刪除該項(xiàng)的整組數(shù)據(jù)。
4 仿真模型構(gòu)建
1)仿真環(huán)境
本文的仿真是在Python3.7環(huán)境下采用Python語(yǔ)言實(shí)現(xiàn)的,為滿足Python中numpy庫(kù)(Numerical Python,Python進(jìn)行科學(xué)計(jì)算和大數(shù)據(jù)分析的基礎(chǔ)庫(kù))導(dǎo)人數(shù)據(jù)要求,需要將仿真數(shù)據(jù)存儲(chǔ)為.csv或.xlsx格式文件。
2)仿真數(shù)據(jù)
由于數(shù)據(jù)需求量多,難以獲得能夠滿足算法訓(xùn)練要求的實(shí)際數(shù)據(jù),本文提取“亞大預(yù)測(cè)”模型預(yù)測(cè)結(jié)果中的兩點(diǎn)間最高可用頻率(Maximum Usable Frequency,MUF)替代短波可通頻率作為模型驗(yàn)證的仿真數(shù)據(jù)。
數(shù)據(jù)由兩部分組成,一部分是由2014年8月31日0900至2015年3月1日0800的跨度半年,間隔1小時(shí)的時(shí)間,另一部分是北京市石景山區(qū)與福建省福州市臺(tái)江區(qū)兩點(diǎn)間通信的最高可用頻率的數(shù)值。以上兩部分組成了4368組該時(shí)刻最高可用頻率的樣本數(shù)據(jù)集合,如下表所示:
通過(guò)Python編程,在數(shù)據(jù)預(yù)處理過(guò)程中,對(duì)仿真數(shù)據(jù)進(jìn)行缺失值處理,包括連續(xù)缺失、隨機(jī)缺失兩種方法,進(jìn)行缺失值處理后繼續(xù)進(jìn)行下一步。
3)為能夠驗(yàn)證該模型的訓(xùn)練效果,需要測(cè)試樣本與預(yù)測(cè)結(jié)果進(jìn)行比對(duì),因此,在仿真實(shí)現(xiàn)過(guò)程需要將預(yù)處理后的仿真數(shù)據(jù)劃分成訓(xùn)練樣本集和測(cè)試樣本集兩部分。
4)確定能夠評(píng)估短波頻率預(yù)測(cè)效果的評(píng)價(jià)指標(biāo)。這里選用均方根誤差( RMSE)作為計(jì)算短波頻率預(yù)測(cè)值與測(cè)試值誤差的公式。
5)將整個(gè)仿真的結(jié)果可視化,便于觀察進(jìn)行對(duì)比分析。這里使用Python中的matplotlib庫(kù)進(jìn)行實(shí)現(xiàn)。
整個(gè)仿真實(shí)現(xiàn)流程如圖1所示:
5 仿真結(jié)果與分析
缺失值的情況分為連續(xù)缺失以及隨機(jī)缺失兩種,下面通過(guò)Python軟件對(duì)這兩種情況進(jìn)行仿真,根據(jù)仿真結(jié)果進(jìn)行總結(jié)分析。
5.1 連續(xù)缺失情況
在基于LSTM單特征輸入實(shí)現(xiàn)頻率預(yù)測(cè)的方法中,當(dāng)需要調(diào)用的樣本數(shù)據(jù)集從中間部分連續(xù)缺失比例為12.5%時(shí),運(yùn)行結(jié)果如圖2所示。其中圖2(a)中的藍(lán)色部分為訓(xùn)練區(qū)域,黃色部分為預(yù)測(cè)區(qū)域,橫軸代表日期,坐標(biāo)間隔為1個(gè)月,縱軸代表頻率值,單位為MHz。圖2/b)中黃色線條為預(yù)測(cè)值,藍(lán)色線條為實(shí)際值.橫軸為日期,坐標(biāo)間隔為6小時(shí),縱軸為頻率值,單位為MHz。
當(dāng)需要調(diào)用的樣本數(shù)據(jù)集從中間部分連續(xù)缺失比例為25%時(shí),其預(yù)測(cè)值結(jié)果如圖3所示:
5.2 隨機(jī)缺失情況
當(dāng)需要調(diào)用的樣本數(shù)據(jù)集中隨機(jī)缺失比例為1.25%時(shí),其預(yù)測(cè)值結(jié)果如圖4所示:
當(dāng)需要調(diào)用的樣本數(shù)據(jù)集中隨機(jī)缺失比例為2.5%時(shí),其預(yù)測(cè)值結(jié)果如圖5所示:
當(dāng)需要調(diào)用的樣本數(shù)據(jù)集中隨機(jī)缺失比例為15%時(shí),其仿真結(jié)果如圖6所示:
當(dāng)需要調(diào)用的樣本數(shù)據(jù)集中隨機(jī)缺失比例為20%時(shí),其仿真結(jié)果如圖7所示:
當(dāng)需要調(diào)用的樣本數(shù)據(jù)集中隨機(jī)缺失比例為25%時(shí),其仿真結(jié)果如圖8所示:
基于LSTM單特征輸入實(shí)現(xiàn)頻率預(yù)測(cè)方法在缺失數(shù)據(jù)情況下的均方根誤差及運(yùn)行時(shí)間如表2所示:
通過(guò)對(duì)以上圖表對(duì)比分析,可以總結(jié)如下:
(l)從2(a)中可以看出兩塊藍(lán)色部分中間的白色區(qū)域?yàn)闃颖緮?shù)據(jù)集中缺失部分,通過(guò)圖表觀察可以發(fā)現(xiàn)在單特征輸入頻率預(yù)測(cè)模型中連續(xù)出現(xiàn)缺失值與未出現(xiàn)缺失值時(shí)相比RMSE值偏大,模型運(yùn)行時(shí)間稍少一些,但擬合效果較好,仍能夠滿足預(yù)測(cè)精度需求。
(2)隨機(jī)缺失數(shù)據(jù)情況下RMSE值比未出現(xiàn)缺失值時(shí)大,隨著隨機(jī)缺失數(shù)據(jù)增多,模型運(yùn)行時(shí)間減少。
(3)當(dāng)隨機(jī)缺失比例達(dá)到20%開(kāi)始,預(yù)測(cè)精度難以滿足通信需求,因此當(dāng)可通頻率資源庫(kù)中可提供的樣本數(shù)據(jù)集中隨機(jī)缺失比例達(dá)到20%以上時(shí),單特征輸入頻率預(yù)測(cè)模型的預(yù)測(cè)結(jié)果不可靠。
6 結(jié)語(yǔ)
本文通過(guò)對(duì)樣本數(shù)據(jù)中的缺失值情況進(jìn)行分析,總結(jié)得出當(dāng)訓(xùn)練樣本數(shù)量不少于3000組,時(shí)間間隔1小時(shí),隨機(jī)缺失比例不高于20%的條件時(shí),基于LSTM單特征輸入模型能夠用于實(shí)現(xiàn)短波頻率預(yù)測(cè)。
參考文獻(xiàn):
[1]賀驍,劉蕓江,肖瑤,等.基于傳播損耗的短波自適應(yīng)快速建鏈[J].電訊技術(shù),2014,54(3):302-306.
[2]楊青彬,余毅敏,余奇,等.基于lTS軟件的短波頻率管理系統(tǒng)設(shè)計(jì)[J].電訊技術(shù),2013,53(3):249-253.
[3]田曉銘,張海勇,徐池,等.泛Kriging法在海上短波通信頻率預(yù)測(cè)中的應(yīng)用[J].電訊技術(shù),2018,58(12):1434-1440.
[4]黃少昆,王偉民,黃子洋,等,電離層F2層臨界頻率預(yù)測(cè)方法探討[J].氣象水文裝備,2009,4(20):19-21.
[5]簡(jiǎn)相超,鄭君里,混沌和神經(jīng)網(wǎng)絡(luò)相結(jié)合預(yù)測(cè)短波通信頻率參數(shù)[J].清華大學(xué)學(xué)報(bào)f自然科學(xué)版),2001,41(1):16-19.
[6] Wang Y C.Short-term wind power forecasting by genetic algo-rithm of wavelet neural network[C]//2014 International Confer-ence on Information Science,Electronics and Electrical Engi-neering, April 26-28, 2014. Sapporo, Japan. IEEE, 2014:1752-1755,
[7]任淑婷,郭黎利.基于模糊小波神經(jīng)網(wǎng)絡(luò)的短波頻率預(yù)測(cè)[J].通信技術(shù),201 1,44(4):37-39.
[8]徐池,邱楚楚,李梁,等.海上短波通信頻率優(yōu)選技術(shù)現(xiàn)狀與分析[J].通信技術(shù),2015,48(10):1101-1105.
[9]尚教凱,張海勇,徐池,等.基于LSTM單特征輸入的短波可用預(yù)測(cè)研究[J].艦船電子工程,2019,39(11):76-78,88.
[10]鄧建新,單路寶,賀德強(qiáng),等.缺失數(shù)據(jù)的處理方法及其發(fā)展趨勢(shì)[J].統(tǒng)計(jì)與決策,2019(23):28-34.
【通聯(lián)編輯:朱寶貴】