盛麗華,沈 暉
(南通大學信息化中心,江蘇 南通 226019)
多源異構信息作為社會經(jīng)濟活動中大量出現(xiàn)的非結構化、非標準化數(shù)據(jù)資源,對監(jiān)測結果采集和分析有著至關重要的作用。由于計算機技術和互聯(lián)網(wǎng)的不斷進步,各項系統(tǒng)的結構日益復雜。系統(tǒng)內(nèi)部數(shù)據(jù)類型開始復雜化和多樣化,如何準確監(jiān)測多源異構數(shù)據(jù)是現(xiàn)階段研究的熱點話題[1-2]。
國內(nèi)相關專家針對上述內(nèi)容展開了大量研究,例如涂夢昭等人[3]分析地下水存水量的變化趨勢,構建利用GRACE衛(wèi)星數(shù)據(jù)校準水文模型,通過模型完成地下儲水量監(jiān)測。王周虹等人[4]將網(wǎng)分裝置采集的信息上調(diào)至調(diào)控主站,通過變電站內(nèi)各種類型的配置描述文件,構建調(diào)控交互數(shù)據(jù)監(jiān)測模型,利用信息之間的關聯(lián)度將離散報文匹配分析處理,最終實現(xiàn)交互數(shù)據(jù)的監(jiān)測。王軍飛等人[5]主要通過PS點選取方法提取邊坡數(shù)據(jù)特征,通過相干系數(shù)初選PS點,同時剔除極限誤差點,最終獲取PS點,實現(xiàn)數(shù)據(jù)監(jiān)測。
在上述幾種監(jiān)測方法的基礎上,提出一種基于邊緣計算的多源異構數(shù)據(jù)融合信息化監(jiān)測方法。實驗結果表明,所提方法的實時性和監(jiān)測性能均得到明顯改善。
半?yún)?shù)回歸模型主要是由參數(shù)分量和非參數(shù)分量共同組成,具有比較強的解釋能力。多源異構數(shù)據(jù)由于存在非線性誤差,所以可以將觀測模型表示為式(1)的形式:
s=Ha+s(t)+u
(1)
式中,s(t)代表和時間存在關聯(lián)的函數(shù),即非線性函數(shù);Ha代表半?yún)?shù)回歸模型;u代表多源異構數(shù)據(jù)中的噪聲;s代表觀測模型。
通過獲取的多源異構數(shù)據(jù),估計得到非線性函數(shù)對應的值,利用觀測值減去全部線性值,進而構建觀測模型為:
(2)
為了獲取更加滿意的去噪效果,引入小波閾值收縮法去噪處理。由于小波變換中的正變換具有比較強的相關性,可以有效分解信號的能量,獲取信號在小波域集合中的小波系數(shù)。將半?yún)?shù)回歸模型引入到小波閾值收縮方法中,將其應用于多源異構數(shù)據(jù)預處理中[6-7],詳細的操作步驟如下所示:
1)對于全部的多源異構數(shù),通過最小二乘多項式擬合處理,獲取對應的擬合值集合D,如式(3)所示:
(3)
2)計算全部多源異構數(shù)據(jù)對應的殘差值,如式(4)所示:
τ(x,y)=D·sgn(ω)-β(x,y)*s(t)
(4)
式中,τ(x,y)代表多源異構數(shù)據(jù)的殘差值;ω代表噪聲標準方差;β(x,y)代表半軟閾值。
3)檢驗步驟2)獲取的殘差值是否為白噪聲序列,假設是,則直接跳轉(zhuǎn)至步驟5);反之,則繼續(xù)下一步。
4)選取Daubechies小波對多源異構數(shù)據(jù)殘差序列分解處理,獲取小波系數(shù)。為了有效避免傳統(tǒng)閾值方法存在的不足,引入半軟閾值方法對多源異構數(shù)據(jù)預處理,采用Daubechies小波對去噪后的小波系數(shù)重構處理,進而估計出對應的非線性函數(shù),同時跳轉(zhuǎn)至步驟1)。
5)輸出擬合值,完成多源異構數(shù)據(jù)預處理[8-9]。
分析邊緣計算的相關定義和技術特點,可以有效解決多源異構數(shù)據(jù)融合問題。優(yōu)先給出多源異構數(shù)據(jù)標準化處理的詳細操作步驟:
1)將采集到的多源異構數(shù)據(jù)通過時序特征分解處理,將B作為標準轉(zhuǎn)換的輸入,設定B以矩形的形式存在,如式(5)所示:
(5)
2)對多源異構數(shù)據(jù)的形成特點展開深入分析,融合全部類型的數(shù)據(jù),進而完成數(shù)據(jù)變換處理,根據(jù)數(shù)據(jù)的類型制定對應的廣義冪-標準分數(shù)標準化變換方案,即:
①假設B是以向量的形式存在,則可以直接得到變換處理后的向量結果;
②假設B的存儲形式為矩陣,需要采用列向量計算全部數(shù)據(jù)的均值和標準差,對兩者標準化處理,即可獲取對應的結果矩陣;
③假設B的表現(xiàn)形式為多維數(shù)組,則需要根據(jù)維度信息對數(shù)據(jù)求解,得到與之對應的均值和標準差,對兩者標準化處理,即可獲取高維數(shù)據(jù)組。
3)將B采用廣義冪-標準分數(shù)數(shù)據(jù)展開標準化處理B′,對應的矩陣為:
(6)
4)通過選定的多源異構數(shù)據(jù)處理方案對數(shù)據(jù)迭代處理,同時重復步驟2)和步驟3),完成迭代處理之后,將全部匯聚數(shù)據(jù)變換處理。
5)在完成多源異構數(shù)據(jù)的量綱和量級處理處理后,全部數(shù)據(jù)的格式均為統(tǒng)一的,可以將其直接傳輸?shù)较到y(tǒng)內(nèi)存儲,主要是為了簡化后續(xù)多源異構數(shù)據(jù)的融合步驟,當全部數(shù)據(jù)完成標準化處理后,則停止計算。
在邊緣計算模式下,多源異構數(shù)據(jù)的融合處理主要包含三個步驟,分別為:
1)信息融合處理;
2)狀態(tài)評估方法;
3)關聯(lián)決策。
(7)
式中,cm代表測試數(shù)據(jù)集;m代表測試數(shù)據(jù)集總數(shù);t代表數(shù)據(jù)采集時間;E(u)代表隨機兩個成分之間的沖突程度。
多源異構數(shù)據(jù)融合的操作步驟如下所示:
1)對多源異構數(shù)據(jù)屬性子集展開概率初始化處理,將R設定為多源異構數(shù)據(jù)融合模型的框架,則函數(shù)u:2u→[0,1]需要滿足以下約束條件:
(8)
式中,u(A)代表多源異構數(shù)據(jù)之間的信任程度。
2)根據(jù)步驟1)設定的約束條件可以獲取信任函數(shù)Bel(A),如式(9)所示:
(9)
式中,u(B)代表全部子集分配概率值之和;A和B代表不同的多源異構數(shù)據(jù)融合集合。
3)設定多源異構數(shù)據(jù)融合似然函數(shù),以此為依據(jù)確定全部數(shù)據(jù)特征屬性的信任程度值。其中,數(shù)據(jù)屬性成分對應的可信度ρ(a)可以采用式(10)計算:
(10)
4)計算多源異構數(shù)據(jù)融合的信任空間,進而獲取信任函數(shù)和似然函數(shù)之間的關系表達式,如式(11)所示:
(11)
式中,τ(a)代表信任函數(shù);pl(a)代表多源異構數(shù)據(jù)的特征度量結果;?(a)代表似然函數(shù)。
5)通過構建的多源異構數(shù)據(jù)融合框架確定數(shù)據(jù)合成規(guī)則,根據(jù)不同源中數(shù)據(jù)特征屬性索引完成特征級數(shù)據(jù)融合處理,最終完成數(shù)據(jù)融合處理[10-11]。
在完成多源異構數(shù)據(jù)的預處理和融合處理之后,采用隱半馬爾可夫模型展開數(shù)據(jù)信息化監(jiān)測。隱半馬爾可夫模型是一種操作簡單且效率高的隨機模型,在各個研究領域內(nèi)都得到了十分廣泛的應用。
隱半馬爾可夫模型ψ是由一個三元組成的,對應的表達式如式(12)所示:
ψ=(r,M,Z)
(12)
式中,r代表系統(tǒng)的初始狀態(tài)概率;Z代表狀態(tài)集合;M代表狀態(tài)空間的轉(zhuǎn)移概率矩陣,如式(13)所示:
(13)
在系統(tǒng)的調(diào)用序列中,可以將不同數(shù)據(jù)的排列組合看做是模型的不同狀態(tài)。在數(shù)據(jù)使用過程中,需要更好完成數(shù)據(jù)的轉(zhuǎn)換和銜接等操作,為后續(xù)的數(shù)據(jù)監(jiān)測提供一定的數(shù)據(jù)支撐[12-13]。
將提取的特征向量設定為隱半馬爾可夫模型的狀態(tài),則狀態(tài)和轉(zhuǎn)移可表示為圖1的形式:
圖1 隱半馬爾可夫模型狀態(tài)及轉(zhuǎn)移圖
隱半馬爾可夫模型中的狀態(tài)轉(zhuǎn)移矩陣和初始分布可以通過對歷史數(shù)據(jù)的觀察得到。在訓練數(shù)據(jù)中,為了完成數(shù)據(jù)的拓展,則隱半馬爾可夫模型的狀態(tài)轉(zhuǎn)移概率為:
1)必要狀態(tài)下的狀態(tài)轉(zhuǎn)移概率?ij可以表示為式(14)的形式:
(14)
式中,Qij代表狀態(tài)i向狀態(tài)j轉(zhuǎn)移的概率;Nij代表狀態(tài)i向狀態(tài)j轉(zhuǎn)移的總次數(shù);ε代表必要狀態(tài)。
2)補充狀態(tài)下的狀態(tài)轉(zhuǎn)移概率如式(15)所示:
?i(u,v)={Qij-ε}·Nij
(15)
隨著多源異構數(shù)據(jù)的長度持續(xù)增加,經(jīng)過計算可以得到各個觀測序列的取值概率。但是在正常狀態(tài)下,概率值會越來越小,無法將概率取值作為判斷觀測序列是否正常的依據(jù)。所以,需要對長度完全一致的觀測序列展開監(jiān)測更加有意義。
為了方便多源異構數(shù)據(jù)融合信息化監(jiān)測,可使用以下的遞推公式L(s):
(16)
式中,tu,v代表滑動窗口;對于滑動窗口而言,需要滿足以下條件:
1)確定性:
對數(shù)據(jù)集訓練處理,得到各個數(shù)據(jù)集對應的狀態(tài)量,確保各個狀態(tài)量在訓練數(shù)量增加的情況下不會發(fā)生任何變化。
2)隨機性:
將狀態(tài)設定為變量,通過一種隨機規(guī)則可以較好描述系統(tǒng)調(diào)用的隨機性。
通過對隱半馬爾可夫模型[14-15]的分析,建立和進程對應的隨機模型,將研究系統(tǒng)內(nèi)對應的調(diào)用序列設定為一個隨機信號,全部信號均來自設定的信號源,同時進程具有特定的功能。由于大部分信號離散源是有記憶的,所以可以采用具有時間規(guī)律的條件熵展開衡量,同時設定隱半馬爾可夫模型的狀態(tài)序列長度H(x,y),對應的計算式為:
(17)
完成上述操作之后,將融合處理后的數(shù)據(jù)輸入到隱半馬爾可夫模型中,實現(xiàn)多源異構數(shù)據(jù)融合信息化監(jiān)測。
為了驗證基于邊緣計算的多源異構數(shù)據(jù)融合信息化監(jiān)測(所提方法)的有效性,分別采取參考文獻[3]方法與參考文獻[4]方法做對比。實驗選取Windows 2015作為實驗平臺,數(shù)據(jù)庫為SQL,對應的組成架構如圖2所示。
圖2 實驗架構示意圖
采用不同方法對數(shù)據(jù)監(jiān)測實時性展開測試處理,實驗測試結果如圖3所示。
圖3 不同方法的數(shù)據(jù)監(jiān)測實時性測試結果對比
分析圖3中的實驗數(shù)據(jù)可知,各個方法的數(shù)據(jù)監(jiān)測實時性會隨著時間的變化而變化。在三種方法,所提方法的多源異構數(shù)據(jù)融合信息化監(jiān)測實時性百分比均處于95%以上,而參考文獻[3]方法與參考文獻[4]方法的檢測實時百分比在75%~80%之間,所提方法的實時性明顯優(yōu)于其它兩種方法。
為了驗證所提方法的監(jiān)測性能,在設定時間內(nèi)分析采用各個方法獲取的多源異構數(shù)據(jù)融合信息化監(jiān)測結果,實驗結果如圖4所示。
圖4 不同方法的多源異構數(shù)據(jù)融合信息化監(jiān)測結果對比
由圖4中的實驗數(shù)據(jù)可知,采用不同方法對多源異構數(shù)據(jù)融合信息化監(jiān)測處理,經(jīng)過對比分析證明,采用所提方法獲取監(jiān)測結果與實際值一致,而另外兩種方法獲取的監(jiān)測結果和真實值存在較大誤差。因此可以得出,所提方法的監(jiān)測結果更加精準。
為了準確監(jiān)測融合處理后的數(shù)據(jù)變化情況,提出一種基于邊緣計算的多源異構數(shù)據(jù)融合信息化監(jiān)測。采用小波閾值去噪方法對多源異構數(shù)據(jù)預處理,消除其線性誤差。構建多源異構數(shù)據(jù)融合架構,完成數(shù)據(jù)融合處理,并將其輸入到隱半馬爾可夫模型中,實現(xiàn)多源異構數(shù)據(jù)融合信息化監(jiān)測。經(jīng)過實驗測試證明,所提方法可以獲取高精度的監(jiān)測結果,且監(jiān)測實時性明顯優(yōu)于其它方法。在后續(xù)研究過程中,對所提方法展開更加全面的優(yōu)化處理,可以進一步增加多源異構數(shù)據(jù)來源的廣度,例如監(jiān)測對象的聲音信號以及生產(chǎn)計劃等,充分利用多源異構數(shù)據(jù)的優(yōu)勢。