陳麒龍 陸一軍
摘 要:針對航標(biāo)運行狀態(tài)模式識別依賴經(jīng)驗閾值的現(xiàn)狀,為檢驗經(jīng)驗閾值是否具有普適性,提出基于概率的閾值模式識別效率度量算法。實驗結(jié)果表明:該算法能準(zhǔn)確度量閾值的模式識別效率;經(jīng)檢驗,經(jīng)驗閾值不具備普適性。因而,提出基于概率的模式識別模型。實驗結(jié)果表明:以概率作為閾值具有普適性,該模型能準(zhǔn)確識別頻繁模式和異常模式,且性能更好。為實現(xiàn)數(shù)值預(yù)測,提出基于概率密度的加權(quán)平均算法。實驗結(jié)果表明:該算法的預(yù)測精度較高。本文為航標(biāo)運行狀態(tài)模式識別和數(shù)值預(yù)測提出了新的解決方案。
關(guān)鍵詞:水路運輸;航標(biāo);概率;模式識別;數(shù)值預(yù)測
航標(biāo)遙測數(shù)據(jù)是反映航標(biāo)運行狀態(tài)的數(shù)值信息,包括:數(shù)據(jù)采集時間(Time)、電壓(Voltage)、電流(Current)、航標(biāo)位置(Longitude、Latitude)、離位距離(Distance)。頻繁模式表示航標(biāo)的“常態(tài)”,異常模式表示航標(biāo)的“非常態(tài)”。對頻繁模式和異常模式的識別,傳統(tǒng)方法是依據(jù)經(jīng)驗閾值進行分類,存在主觀臆斷的問題。對航標(biāo)運行狀態(tài)的數(shù)值預(yù)測,目前仍處于研究階段。如何檢驗經(jīng)驗閾值是否具有普適性,如何實現(xiàn)航標(biāo)運行狀態(tài)的數(shù)值預(yù)測,是亟待解決的問題。
對數(shù)據(jù)的頻繁模式和異常模式的模式識別,已有不少算法和模型,如:基于相關(guān)性度量算法、基于頻繁子樹算法、基于最大熵隱馬爾科夫模型,以及基于統(tǒng)計特征的支持向量機 [1-4]。移動對象位置預(yù)測的模型有:馬爾科夫模型、高斯混合模型、卷積神經(jīng)網(wǎng)絡(luò)模型[5-7]。核密度估計(kernel density estimation,KDE)是一種估計數(shù)據(jù)的概率密度函數(shù)(probability density function,PDF)的算法,利用概率密度函數(shù)可以計算出給定數(shù)值區(qū)間的概率。概率可以用來度量經(jīng)驗閾值的模式識別效率,以此來檢驗經(jīng)驗閾值是否有效,判定經(jīng)驗閾值是否具有普適性。概率反映隨機事件發(fā)生的可能性,是客觀的,以概率作為閾值進行分類,就是將“大概率”的數(shù)據(jù)作為“常態(tài)”,將“小概率”的數(shù)據(jù)作為“非常態(tài)”,從而使閾值成為一種客觀的指標(biāo),而具有普適性。概率密度與概率是正相關(guān)的,將概率密度轉(zhuǎn)化為權(quán)重,以加權(quán)平均數(shù)作為預(yù)測值,既消減了極端值的影響,又使預(yù)測值趨于“大概率”。相對于相關(guān)性度量算法、頻繁子樹算法、馬爾科夫模型、支持向量機、高斯混合模型、卷積神經(jīng)網(wǎng)絡(luò)模型等,核密度估計和概率的計算過程更為簡單,算法和模型易于解釋,且性能良好,適合航標(biāo)運行狀態(tài)模式識別和數(shù)值預(yù)測。
1 經(jīng)驗閾值檢驗
1.1核密度估計原理
1.2 實例分析
已知經(jīng)驗閾值:電壓10.8 V,電流0.09 A,離位距離150 m。以洋山港主航道的Y4#燈浮標(biāo)連續(xù)60天凌晨3時的航標(biāo)遙測數(shù)據(jù)為例(如表1),檢驗經(jīng)驗閾值是否有效,是否具有普適性。
電壓的概率密度分布如圖1所示。對電壓經(jīng)驗閾值構(gòu)造區(qū)間為(0,10.8],計算出電壓小于或等于10.8 V的概率為0,表明在凌晨3時,以“10.8 V”作為電壓閾值無法有效識別異常模式,應(yīng)當(dāng)增大閾值。當(dāng)閾值為“13.2 V”時,區(qū)間(0,13.2]的概率為0.0651,表明在該時段,以“13.2 V”作為閾值識別異常模式的效率為6.51%,識別頻繁模式的效率為93.49%。
電流的概率密度分布如圖2所示。對電流經(jīng)驗閾值構(gòu)造區(qū)間為[0,0.09],計算出電流小于或等于0.09 A的概率為0.0506,表明在凌晨3時,以“0.09 A”作為電流閾值,識別異常模式的效率為5.06%,識別頻繁模式的效率為94.94%,電流經(jīng)驗閾值有效。
離位距離的概率密度分布如圖3所示。對離位距離經(jīng)驗閾值構(gòu)造區(qū)間為[150,+∞),計算出離位距離大于或等于150 m的概率為0,表明在凌晨3時,以“150 m”作為離位距離閾值,無法有效識別異常模式,應(yīng)當(dāng)減小閾值。當(dāng)閾值為“75 m”時,區(qū)間[75,+∞)的概率為0.0436, 表明在該時段,以“75 m”作為閾值識別異常模式的效率為4.36%,識別頻繁模式的效率為95.64%。
以上實驗表明:
(1)概率可以準(zhǔn)確度量閾值的模式識別效率,可以用來檢驗經(jīng)驗閾值是否有效;
(2)經(jīng)驗閾值不具有普適性;
(3)利用概率可以找到合適的閾值。
2 模式識別
2.1 基于概率的模式識別原理
基于概率的模式識別的思路是:以理論概率作為閾值,將概率小于理論概率的樣本單元作為異常模式,而概率大于理論概率的樣本單元作為頻繁模式。模式識別流程是:第一步,對樣本容量為n的樣本估計概率密度函數(shù);第二步,以新觀測值為中心構(gòu)造區(qū)間;第三步,積分計算區(qū)間的概率;第四步,計算理論概率作為閾值,將區(qū)間的概率與閾值進行比較和分類。
區(qū)間長度應(yīng)當(dāng)根據(jù)樣本數(shù)據(jù)精度來設(shè)置,假設(shè)新觀測值為xi,樣本數(shù)據(jù)的精度為b,那么區(qū)間為:[xi-(b/2) , xi+(b/2)]。閾值a的計算公式為:a=b/R,R表示樣本數(shù)據(jù)的極差,即:R=max(x)- min(x)。閾值的本質(zhì)是:將樣本的值域等間隔劃分為m個區(qū)間,區(qū)間長度為b,樣本單元落入某一區(qū)間的理論概率,即:m=R/b,a=1/m=b/R。
2.2實例分析
以洋山港主航道Y4#燈浮標(biāo)“12/31 3:08”的航標(biāo)遙測數(shù)據(jù)為例(電壓13.228 V,電流0.098 A,離位距離43.6 m)。
電壓的數(shù)據(jù)精度為0.001,樣本數(shù)據(jù)的極差為0.08。因此,閾值為0.0125。新觀測值13.228的區(qū)間為[13.2275,13.2285],區(qū)間的概率為0.0171,大于閾值,為頻繁模式。
電流的數(shù)據(jù)精度為0.001,樣本數(shù)據(jù)的極差為0.08。因此,閾值為0.0125。新觀測值0.098的區(qū)間為[0.0975, 0.0985],區(qū)間的概率為0.0860,大于閾值,為頻繁模式。
離位距離的數(shù)據(jù)精度為0.1,樣本數(shù)據(jù)的極差為63.2。因此,閾值為0.0016。新觀測值43.6的區(qū)間為[43.55, 43.65],區(qū)間的概率為0.0013,小于閾值,為異常模式。
以上實驗可以得出結(jié)論:
(1)以概率作為閾值,使閾值成為一種客觀的指標(biāo),具備普適性;
(2)基于概率的模式識別模型能夠有效識別頻繁模式和異常模式。
2.3 與傳統(tǒng)方法比較
傳統(tǒng)方法的優(yōu)點是:直接進行數(shù)值對比,計算量小。缺點是:①閾值不具備普適性,如果閾值設(shè)置不合理就無法識別異常模式;②閾值設(shè)置過程繁瑣,為保證閾值有效,需要先度量閾值的模式識別效率,找出合適的閾值;③當(dāng)燈器設(shè)備的規(guī)格型號改變時,就必須重新設(shè)置電壓和電流的閾值;④閾值的模式識別效率需要定期評估,需要定期調(diào)整閾值。
新模型的優(yōu)點是:①以概率作為閾值,具有普適性;②閾值設(shè)置簡單、靈活可控,可以使用理論概率,也可以使用其他概率;③燈器的型號規(guī)格改變時,無需重新設(shè)置電壓和電流的閾值;④模型易于解釋,閾值就是模式識別的效率,對于給定的觀測值,閾值越小,分類結(jié)果越偏向頻繁模式,閾值越大,分類結(jié)果越偏向異常模式。缺點是:需要計算概率密度函數(shù)和概率,比傳統(tǒng)方法的計算量大。
綜上所述,新模型的性能比傳統(tǒng)方法更好,但是計算量更大。 在航標(biāo)管理上,總是希望發(fā)現(xiàn)航標(biāo)潛在的異常,而且現(xiàn)在的服務(wù)器性能完全能夠滿足新模型的計算需求。因此,推薦使用新模型。
3 數(shù)值預(yù)測
3.1基于概率密度的加權(quán)平均算法
3.2 實例分析
已知“12月31日凌晨3時”的實測數(shù)據(jù):電壓13.228 V、電流0.098 A、航標(biāo)位置(122.28244440 °, 30.54266667 °)。以表1的數(shù)據(jù)為樣本,計算“12月31日凌晨3時”的預(yù)測值及誤差,過程數(shù)據(jù)如表2所示。
電壓的概率密度是雙峰分布(如圖1),預(yù)測值為13.2282,誤差為0.0002;電流的概率密度是單峰分布(如圖2),因此權(quán)重為1,預(yù)測值為0.0983,誤差為0.0003;航標(biāo)位置的概率密度是多峰分布(如圖4),分別對經(jīng)度和緯度計算加權(quán)平均數(shù),預(yù)測值為(122.28278039 °,30.54292107 °),以歐氏距離表示的誤差為0.00042。
3.3 數(shù)值預(yù)測精度評估
以洋山港主航道Y4#燈浮標(biāo)12月1日至12月7日各時段的數(shù)值預(yù)測為例。實驗組:新算法,對照組:中位數(shù)。度量指標(biāo):均方誤差,? ? ? ? ? ? ? ? ? ? ? ? ? ? ,xi是預(yù)測值,yi是實測值。如表3所示,各時段的實驗組MSE都比較小,表明新算法的預(yù)測精度較高;從各時段的MSE看,大多數(shù)時段的實驗組比對照組小,且MSE之和,實驗組也比對照組小,表明新算法的預(yù)測精度優(yōu)于中位數(shù)。
3.4統(tǒng)計性質(zhì)分析
樣本數(shù)據(jù)的特性對預(yù)測精度的影響體現(xiàn)在:樣本數(shù)據(jù)的方差越小,則MSE越小;反之,樣本數(shù)據(jù)的方差越大,則MSE越大。將概率密度峰值轉(zhuǎn)化為權(quán)重,以加權(quán)平均數(shù)作為預(yù)測值,消減了極端值的影響,使預(yù)測值趨于“大概率”。概率密度峰值反映的是“常態(tài)”情況下的數(shù)值水平,未來偶然出現(xiàn)的“非常態(tài)”的實測值,將導(dǎo)致短期內(nèi)的MSE變大,但是對長期的MSE影響不大。
4 結(jié)論
針對航標(biāo)運行狀態(tài)模式識別依賴經(jīng)驗閾值的現(xiàn)狀,為檢驗經(jīng)驗閾值的普適性,提出基于概率的閾值模式識別效率度量算法,并用于檢驗經(jīng)驗閾值。經(jīng)檢驗,經(jīng)驗閾值不具備普適性。因而,提出基于概率的模式識別模型,該模型能夠有效識別頻繁模式和異常模式,而且比傳統(tǒng)方法的性能更好。為實現(xiàn)數(shù)值預(yù)測,提出基于概率密度的加權(quán)平均算法,該算法的數(shù)值預(yù)測精度較高。本文為航標(biāo)運行狀態(tài)模式識別和數(shù)值預(yù)測提供了新的解決方案。下一步,將研究航標(biāo)漂移、燈器設(shè)備故障導(dǎo)致的“持續(xù)非常態(tài)”情況下的航標(biāo)運行狀態(tài)數(shù)值預(yù)測,擬從短期觀測數(shù)據(jù)著手,分析數(shù)值變化趨勢,比較和分析線性回歸模型、非線性回歸模型、時間序列模型的擬合效果和預(yù)測精度,尋找合適的模型。
參考文獻(xiàn):
[1] 任永功, 高鵬, 張志鵬. 一種利用相關(guān)性度量的不確定數(shù)據(jù)頻繁模式挖掘[J]. 小型微型計算機系統(tǒng), 2019, 40(03):623-627.
[2] 吉小洪, 徐愛萍. 基于TrieMerging機制數(shù)據(jù)流滑動窗口模型的頻繁模式挖掘[J/OL]. 計算機應(yīng)用研究:1-7[2020-02-20]. https://doi.org/10.19734/j.issn.1001-3695.2019.01.0006.
[3] 胡江, 趙冬梅, 張旭, 等. 基于最大熵隱馬爾科夫模型的電網(wǎng)故障診斷方法[J]. 電網(wǎng)技術(shù), 2019, 43(09):3368-3375.
[4] 劉玉敏, 劉莉. 基于統(tǒng)計特征的動態(tài)過程質(zhì)量異常模式識別[J]. 統(tǒng)計與決策, 2017(19):32-36.
[5] 宋路杰, 孟凡榮, 袁冠. 基于Markov模型與軌跡相似度的移動對象位置預(yù)測算法[J]. 計算機應(yīng)用, 2016, 36(01):39-43+65.
[6] 喬少杰, 金琨, 韓楠, 等. 一種基于高斯混合模型的軌跡預(yù)測算法[J]. 軟件學(xué)報, 2015, 26(05):1048-1063.
[7] 肖延輝, 王欣, 馮文剛, 等. 基于長短記憶型卷積神經(jīng)網(wǎng)絡(luò)的犯罪地理位置預(yù)測方法[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2018, 2(10):15-20.
[8] 關(guān)紹云, 鄭麗坤, 金一寧, 等. 基于高斯核函數(shù)的局部離群點檢測算法[J]. 哈爾濱商業(yè)大學(xué)學(xué)報(自然科學(xué)版), 2019, 35(02):185-190+203.
[9] Andrew Harvey, Vitaliy Oryshchenko. Kernel density estimation for time series data[J]. International Journal of Forecasting, 2012, 28(01):3-14.
[10] Moses Charikar, Paris Siminelakis. Hashing-Based-Estimators for Kernel Density in High Dimensions[C]// 2017 IEEE 58th Annual Symposium on Foundations of Computer Science (FOCS). IEEE, 2017.
[11] 馬夢知, 范厚明, 黃莒森, 等. 基于非參數(shù)核密度估計的集裝箱碼頭交通需求預(yù)測模型[J]. 大連海事大學(xué)學(xué)報(自然科學(xué)版), 2019, 45(01):77-84.
[12] 程媛, 遲榮華, 黃少濱, 等. 基于非參數(shù)密度估計的不確定軌跡預(yù)測方法[J]. 自動化學(xué)報, 2019, 45(04):153-164.