航標(biāo)運行狀態(tài)模式識別和數(shù)值預(yù)測

2020-06-23 03:28陳麒龍陸一軍

中國水運 2020年5期

陳麒龍陸一軍

摘要：針對航標(biāo)運行狀態(tài)模式識別依賴經(jīng)驗閾值的現(xiàn)狀，為檢驗經(jīng)驗閾值是否具有普適性，提出基于概率的閾值模式識別效率度量算法。實驗結(jié)果表明：該算法能準(zhǔn)確度量閾值的模式識別效率;經(jīng)檢驗，經(jīng)驗閾值不具備普適性。因而，提出基于概率的模式識別模型。實驗結(jié)果表明：以概率作為閾值具有普適性，該模型能準(zhǔn)確識別頻繁模式和異常模式，且性能更好。為實現(xiàn)數(shù)值預(yù)測，提出基于概率密度的加權(quán)平均算法。實驗結(jié)果表明：該算法的預(yù)測精度較高。本文為航標(biāo)運行狀態(tài)模式識別和數(shù)值預(yù)測提出了新的解決方案。

關(guān)鍵詞：水路運輸;航標(biāo);概率;模式識別;數(shù)值預(yù)測

航標(biāo)遙測數(shù)據(jù)是反映航標(biāo)運行狀態(tài)的數(shù)值信息，包括：數(shù)據(jù)采集時間（Time）、電壓（Voltage）、電流（Current）、航標(biāo)位置（Longitude、Latitude）、離位距離（Distance）。頻繁模式表示航標(biāo)的“常態(tài)”，異常模式表示航標(biāo)的“非常態(tài)”。對頻繁模式和異常模式的識別，傳統(tǒng)方法是依據(jù)經(jīng)驗閾值進行分類，存在主觀臆斷的問題。對航標(biāo)運行狀態(tài)的數(shù)值預(yù)測，目前仍處于研究階段。如何檢驗經(jīng)驗閾值是否具有普適性，如何實現(xiàn)航標(biāo)運行狀態(tài)的數(shù)值預(yù)測，是亟待解決的問題。

對數(shù)據(jù)的頻繁模式和異常模式的模式識別，已有不少算法和模型，如：基于相關(guān)性度量算法、基于頻繁子樹算法、基于最大熵隱馬爾科夫模型，以及基于統(tǒng)計特征的支持向量機 [1-4]。移動對象位置預(yù)測的模型有：馬爾科夫模型、高斯混合模型、卷積神經(jīng)網(wǎng)絡(luò)模型[5-7]。核密度估計（kernel density estimation，KDE）是一種估計數(shù)據(jù)的概率密度函數(shù)（probability density function，PDF）的算法，利用概率密度函數(shù)可以計算出給定數(shù)值區(qū)間的概率。概率可以用來度量經(jīng)驗閾值的模式識別效率，以此來檢驗經(jīng)驗閾值是否有效，判定經(jīng)驗閾值是否具有普適性。概率反映隨機事件發(fā)生的可能性，是客觀的，以概率作為閾值進行分類，就是將“大概率”的數(shù)據(jù)作為“常態(tài)”，將“小概率”的數(shù)據(jù)作為“非常態(tài)”，從而使閾值成為一種客觀的指標(biāo)，而具有普適性。概率密度與概率是正相關(guān)的，將概率密度轉(zhuǎn)化為權(quán)重，以加權(quán)平均數(shù)作為預(yù)測值，既消減了極端值的影響，又使預(yù)測值趨于“大概率”。相對于相關(guān)性度量算法、頻繁子樹算法、馬爾科夫模型、支持向量機、高斯混合模型、卷積神經(jīng)網(wǎng)絡(luò)模型等，核密度估計和概率的計算過程更為簡單，算法和模型易于解釋，且性能良好，適合航標(biāo)運行狀態(tài)模式識別和數(shù)值預(yù)測。

1 經(jīng)驗閾值檢驗

1.1核密度估計原理

1.2 實例分析

已知經(jīng)驗閾值：電壓10.8 V，電流0.09 A，離位距離150 m。以洋山港主航道的Y4#燈浮標(biāo)連續(xù)60天凌晨3時的航標(biāo)遙測數(shù)據(jù)為例（如表1），檢驗經(jīng)驗閾值是否有效，是否具有普適性。

電壓的概率密度分布如圖1所示。對電壓經(jīng)驗閾值構(gòu)造區(qū)間為（0，10.8]，計算出電壓小于或等于10.8 V的概率為0，表明在凌晨3時，以“10.8 V”作為電壓閾值無法有效識別異常模式，應(yīng)當(dāng)增大閾值。當(dāng)閾值為“13.2 V”時，區(qū)間（0，13.2]的概率為0.0651，表明在該時段，以“13.2 V”作為閾值識別異常模式的效率為6.51%，識別頻繁模式的效率為93.49%。

電流的概率密度分布如圖2所示。對電流經(jīng)驗閾值構(gòu)造區(qū)間為[0，0.09]，計算出電流小于或等于0.09 A的概率為0.0506，表明在凌晨3時，以“0.09 A”作為電流閾值，識別異常模式的效率為5.06%，識別頻繁模式的效率為94.94%，電流經(jīng)驗閾值有效。

離位距離的概率密度分布如圖3所示。對離位距離經(jīng)驗閾值構(gòu)造區(qū)間為[150，+∞），計算出離位距離大于或等于150 m的概率為0，表明在凌晨3時，以“150 m”作為離位距離閾值，無法有效識別異常模式，應(yīng)當(dāng)減小閾值。當(dāng)閾值為“75 m”時，區(qū)間[75，+∞）的概率為0.0436，表明在該時段，以“75 m”作為閾值識別異常模式的效率為4.36%，識別頻繁模式的效率為95.64%。

以上實驗表明：

（1）概率可以準(zhǔn)確度量閾值的模式識別效率，可以用來檢驗經(jīng)驗閾值是否有效;

（2）經(jīng)驗閾值不具有普適性;

（3）利用概率可以找到合適的閾值。

2 模式識別

2.1 基于概率的模式識別原理

基于概率的模式識別的思路是：以理論概率作為閾值，將概率小于理論概率的樣本單元作為異常模式，而概率大于理論概率的樣本單元作為頻繁模式。模式識別流程是：第一步，對樣本容量為n的樣本估計概率密度函數(shù);第二步，以新觀測值為中心構(gòu)造區(qū)間;第三步，積分計算區(qū)間的概率;第四步，計算理論概率作為閾值，將區(qū)間的概率與閾值進行比較和分類。

區(qū)間長度應(yīng)當(dāng)根據(jù)樣本數(shù)據(jù)精度來設(shè)置，假設(shè)新觀測值為xi，樣本數(shù)據(jù)的精度為b，那么區(qū)間為：[xi-（b/2）， xi+（b/2）]。閾值a的計算公式為：a=b/R，R表示樣本數(shù)據(jù)的極差，即：R=max（x）- min（x）。閾值的本質(zhì)是：將樣本的值域等間隔劃分為m個區(qū)間，區(qū)間長度為b，樣本單元落入某一區(qū)間的理論概率，即：m=R/b，a=1/m=b/R。

2.2實例分析

以洋山港主航道Y4#燈浮標(biāo)“12/31 3：08”的航標(biāo)遙測數(shù)據(jù)為例（電壓13.228 V，電流0.098 A，離位距離43.6 m）。

電壓的數(shù)據(jù)精度為0.001，樣本數(shù)據(jù)的極差為0.08。因此，閾值為0.0125。新觀測值13.228的區(qū)間為[13.2275，13.2285]，區(qū)間的概率為0.0171，大于閾值，為頻繁模式。

電流的數(shù)據(jù)精度為0.001，樣本數(shù)據(jù)的極差為0.08。因此，閾值為0.0125。新觀測值0.098的區(qū)間為[0.0975， 0.0985]，區(qū)間的概率為0.0860，大于閾值，為頻繁模式。

離位距離的數(shù)據(jù)精度為0.1，樣本數(shù)據(jù)的極差為63.2。因此，閾值為0.0016。新觀測值43.6的區(qū)間為[43.55， 43.65]，區(qū)間的概率為0.0013，小于閾值，為異常模式。

以上實驗可以得出結(jié)論：

（1）以概率作為閾值，使閾值成為一種客觀的指標(biāo)，具備普適性;

（2）基于概率的模式識別模型能夠有效識別頻繁模式和異常模式。

2.3 與傳統(tǒng)方法比較

傳統(tǒng)方法的優(yōu)點是：直接進行數(shù)值對比，計算量小。缺點是：①閾值不具備普適性，如果閾值設(shè)置不合理就無法識別異常模式;②閾值設(shè)置過程繁瑣，為保證閾值有效，需要先度量閾值的模式識別效率，找出合適的閾值;③當(dāng)燈器設(shè)備的規(guī)格型號改變時，就必須重新設(shè)置電壓和電流的閾值;④閾值的模式識別效率需要定期評估，需要定期調(diào)整閾值。

新模型的優(yōu)點是：①以概率作為閾值，具有普適性;②閾值設(shè)置簡單、靈活可控，可以使用理論概率，也可以使用其他概率;③燈器的型號規(guī)格改變時，無需重新設(shè)置電壓和電流的閾值;④模型易于解釋，閾值就是模式識別的效率，對于給定的觀測值，閾值越小，分類結(jié)果越偏向頻繁模式，閾值越大，分類結(jié)果越偏向異常模式。缺點是：需要計算概率密度函數(shù)和概率，比傳統(tǒng)方法的計算量大。

綜上所述，新模型的性能比傳統(tǒng)方法更好，但是計算量更大。在航標(biāo)管理上，總是希望發(fā)現(xiàn)航標(biāo)潛在的異常，而且現(xiàn)在的服務(wù)器性能完全能夠滿足新模型的計算需求。因此，推薦使用新模型。

3 數(shù)值預(yù)測

3.1基于概率密度的加權(quán)平均算法

3.2 實例分析

已知“12月31日凌晨3時”的實測數(shù)據(jù)：電壓13.228 V、電流0.098 A、航標(biāo)位置（122.28244440 °， 30.54266667 °）。以表1的數(shù)據(jù)為樣本，計算“12月31日凌晨3時”的預(yù)測值及誤差，過程數(shù)據(jù)如表2所示。

電壓的概率密度是雙峰分布（如圖1），預(yù)測值為13.2282，誤差為0.0002;電流的概率密度是單峰分布（如圖2），因此權(quán)重為1，預(yù)測值為0.0983，誤差為0.0003;航標(biāo)位置的概率密度是多峰分布（如圖4），分別對經(jīng)度和緯度計算加權(quán)平均數(shù)，預(yù)測值為（122.28278039 °，30.54292107 °），以歐氏距離表示的誤差為0.00042。

3.3 數(shù)值預(yù)測精度評估

以洋山港主航道Y4#燈浮標(biāo)12月1日至12月7日各時段的數(shù)值預(yù)測為例。實驗組：新算法，對照組：中位數(shù)。度量指標(biāo)：均方誤差，? ? ? ? ? ? ? ? ? ? ? ? ? ? ，xi是預(yù)測值，yi是實測值。如表3所示，各時段的實驗組MSE都比較小，表明新算法的預(yù)測精度較高;從各時段的MSE看，大多數(shù)時段的實驗組比對照組小，且MSE之和，實驗組也比對照組小，表明新算法的預(yù)測精度優(yōu)于中位數(shù)。

3.4統(tǒng)計性質(zhì)分析

樣本數(shù)據(jù)的特性對預(yù)測精度的影響體現(xiàn)在：樣本數(shù)據(jù)的方差越小，則MSE越小;反之，樣本數(shù)據(jù)的方差越大，則MSE越大。將概率密度峰值轉(zhuǎn)化為權(quán)重，以加權(quán)平均數(shù)作為預(yù)測值，消減了極端值的影響，使預(yù)測值趨于“大概率”。概率密度峰值反映的是“常態(tài)”情況下的數(shù)值水平，未來偶然出現(xiàn)的“非常態(tài)”的實測值，將導(dǎo)致短期內(nèi)的MSE變大，但是對長期的MSE影響不大。

4 結(jié)論

針對航標(biāo)運行狀態(tài)模式識別依賴經(jīng)驗閾值的現(xiàn)狀，為檢驗經(jīng)驗閾值的普適性，提出基于概率的閾值模式識別效率度量算法，并用于檢驗經(jīng)驗閾值。經(jīng)檢驗，經(jīng)驗閾值不具備普適性。因而，提出基于概率的模式識別模型，該模型能夠有效識別頻繁模式和異常模式，而且比傳統(tǒng)方法的性能更好。為實現(xiàn)數(shù)值預(yù)測，提出基于概率密度的加權(quán)平均算法，該算法的數(shù)值預(yù)測精度較高。本文為航標(biāo)運行狀態(tài)模式識別和數(shù)值預(yù)測提供了新的解決方案。下一步，將研究航標(biāo)漂移、燈器設(shè)備故障導(dǎo)致的“持續(xù)非常態(tài)”情況下的航標(biāo)運行狀態(tài)數(shù)值預(yù)測，擬從短期觀測數(shù)據(jù)著手，分析數(shù)值變化趨勢，比較和分析線性回歸模型、非線性回歸模型、時間序列模型的擬合效果和預(yù)測精度，尋找合適的模型。

參考文獻(xiàn)：

[1] 任永功，高鵬，張志鵬. 一種利用相關(guān)性度量的不確定數(shù)據(jù)頻繁模式挖掘[J]. 小型微型計算機系統(tǒng)， 2019， 40（03）：623-627.

[2] 吉小洪，徐愛萍. 基于TrieMerging機制數(shù)據(jù)流滑動窗口模型的頻繁模式挖掘[J/OL]. 計算機應(yīng)用研究：1-7[2020-02-20]. https：//doi.org/10.19734/j.issn.1001-3695.2019.01.0006.

[3] 胡江，趙冬梅，張旭，等. 基于最大熵隱馬爾科夫模型的電網(wǎng)故障診斷方法[J]. 電網(wǎng)技術(shù)， 2019， 43（09）：3368-3375.

[4] 劉玉敏，劉莉. 基于統(tǒng)計特征的動態(tài)過程質(zhì)量異常模式識別[J]. 統(tǒng)計與決策， 2017（19）：32-36.

[5] 宋路杰，孟凡榮，袁冠. 基于Markov模型與軌跡相似度的移動對象位置預(yù)測算法[J]. 計算機應(yīng)用， 2016， 36（01）：39-43+65.

[6] 喬少杰，金琨，韓楠，等. 一種基于高斯混合模型的軌跡預(yù)測算法[J]. 軟件學(xué)報， 2015， 26（05）：1048-1063.

[7] 肖延輝，王欣，馮文剛，等. 基于長短記憶型卷積神經(jīng)網(wǎng)絡(luò)的犯罪地理位置預(yù)測方法[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn)， 2018， 2（10）：15-20.

[8] 關(guān)紹云，鄭麗坤，金一寧，等. 基于高斯核函數(shù)的局部離群點檢測算法[J]. 哈爾濱商業(yè)大學(xué)學(xué)報（自然科學(xué)版）， 2019， 35（02）：185-190+203.

[9] Andrew Harvey， Vitaliy Oryshchenko. Kernel density estimation for time series data[J]. International Journal of Forecasting， 2012， 28（01）：3-14.

[10] Moses Charikar， Paris Siminelakis. Hashing-Based-Estimators for Kernel Density in High Dimensions[C]// 2017 IEEE 58th Annual Symposium on Foundations of Computer Science （FOCS）. IEEE， 2017.

[11] 馬夢知，范厚明，黃莒森，等. 基于非參數(shù)核密度估計的集裝箱碼頭交通需求預(yù)測模型[J]. 大連海事大學(xué)學(xué)報（自然科學(xué)版）， 2019， 45（01）：77-84.

[12] 程媛，遲榮華，黃少濱，等. 基于非參數(shù)密度估計的不確定軌跡預(yù)測方法[J]. 自動化學(xué)報， 2019， 45（04）：153-164.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

航標(biāo)運行狀態(tài)模式識別和數(shù)值預(yù)測