楊青
摘 要: 傳統(tǒng)定位算法定位準確性通常較低,因此提出一種新的海量數(shù)據(jù)環(huán)境下可破壞性數(shù)據(jù)定位算法。在不同信道NAV任務的優(yōu)先排隊模型狀態(tài)空間中,針對局部性交叉項信息量,在計算吞吐量下,建立信道數(shù)據(jù)傳輸模型。構造可破壞性數(shù)據(jù)信號模型,將相空間重構與非線性時間序列分析法結合在一起,對可破壞性數(shù)據(jù)產生的原因進行分析,完成可破壞性數(shù)據(jù)特征提取。把數(shù)據(jù)符號屬性值映射為數(shù)字值,完成對所有數(shù)字特征的歸一化處理。對原始可破壞性數(shù)據(jù)特征進行改進,通過Fisher線性分析法在改進后特征空間中對可破壞性數(shù)據(jù)特征進行分類,實現(xiàn)可破壞性數(shù)據(jù)識別。節(jié)點識別到可破壞性數(shù)據(jù)后,通過鄰居節(jié)點數(shù)據(jù)完成投票決策,通過節(jié)點與鄰居節(jié)點位置實現(xiàn)可破壞性數(shù)據(jù)的定位。實驗結果表明,所提算法定位準確性高。
關鍵詞: 海量數(shù)據(jù); 可破壞性; 數(shù)據(jù); 定位
中圖分類號:TP393 文獻標志碼:A 文章編號:1006-8228(2018)11-05-05
Abstract: The accuracy of traditional localization algorithm is usually low. Therefore, a new localization algorithm for destructive data in mass data environment is proposed. In the state space of the priority queuing model of different channel NAV tasks, the channel data transmission model is established for the amount of local cross item information in the case of computing throughput. The destructiveness data signal model is constructed, and the phase space reconstruction and nonlinear time series analysis are combined to analyze the causes of the destructiveness data, and the feature extraction of the destructiveness data is completed. The data symbol attribute value is mapped to digital value, and the original destructiveness data feature is improved by the normalization processing of all digital features. The destructiveness data feature is classified by Fisher linear analysis method in the improved feature space and the destructiveness data is recognized. When a node identifies the destructiveness data, the voting decision is completed through the neighbor node data and the locating of the destructiveness data is realized through the node and the neighbor node position. Experimental results show that the proposed algorithm has high location accuracy.
Key words: massive data; destructiveness; data; location
0 引言
現(xiàn)階段,我國互聯(lián)網(wǎng)技術迅猛發(fā)展,網(wǎng)絡變成經(jīng)濟建設及發(fā)展過程中的重要組成部分。實物數(shù)據(jù)化運算技術出現(xiàn)后,大數(shù)據(jù)時代隨之到來[1-2]。海量數(shù)據(jù)環(huán)境下,存在大量可破壞性數(shù)據(jù),對網(wǎng)絡安全帶來很大隱患,需研究一種有效的可破壞性數(shù)據(jù)定位算法,為提高網(wǎng)絡安全性提供技術支持[3-4]。
張繼紅等提出當前常見的可破壞性數(shù)據(jù)定位算法主要包括粒子群算法、分層拓撲算法和神經(jīng)網(wǎng)絡算法等[5]。粒子群算法利用定義可破壞性數(shù)據(jù)查詢執(zhí)行代價,依據(jù)粒子全局尋優(yōu)完成對可破壞性數(shù)據(jù)的定位,算法實現(xiàn)過程簡單,然而將查詢執(zhí)行代價作為目標函數(shù)有很大的定位誤差;分層拓撲算法按照構造的可破壞性數(shù)據(jù)庫分層拓撲模型完成對海量數(shù)據(jù)環(huán)境下信息狀態(tài)的計算,實現(xiàn)可破壞性數(shù)據(jù)定位。該算法效率相對較高,然而在快速定位的過程中對可破壞性數(shù)據(jù)定位性能有限,具有定位準確性低的弊端;神經(jīng)網(wǎng)絡算法利用構造神經(jīng)網(wǎng)絡拓撲模型實現(xiàn)對破壞性數(shù)據(jù)的定位,盡管適應能力強,卻具有計算過程復雜,計算速度慢的弊端。針對上述算法的弊端,提出一種新的海量數(shù)據(jù)環(huán)境下可破壞性數(shù)據(jù)定位算法。
1 海量數(shù)據(jù)環(huán)境下可破壞性數(shù)據(jù)定位算法
1.1 海量數(shù)據(jù)環(huán)境下網(wǎng)絡信道數(shù)據(jù)傳輸模型
為了對海量數(shù)據(jù)環(huán)境下可破壞性數(shù)據(jù)進行定位,首先建立網(wǎng)絡數(shù)據(jù)傳輸模型。通常情況下,網(wǎng)絡承載著差異協(xié)議與信道,同時利用云存儲完成資源調度[6]。網(wǎng)絡信道模型包括輪流協(xié)議、隨機訪問協(xié)議以及信道分割三種類型[7-8]。在對網(wǎng)絡信道數(shù)據(jù)協(xié)議進行設計的過程中,通過SeerSim分析法[9]建立網(wǎng)絡數(shù)據(jù)傳輸信道,在不同信道NAV任務的優(yōu)先排隊模型狀態(tài)空間可描述如下:
在網(wǎng)絡信息交換過程中,海量數(shù)據(jù)在傳輸調度時產生可破壞性數(shù)據(jù),當前局部性交叉項信息量可描述如下:
針對某通用接收節(jié)點,在n=N的情況下,CPU需完成數(shù)據(jù)包處理;在n=1,…,N-1的情況下,求解獲取信息量狀態(tài)概率后,假設第k個節(jié)點的通信區(qū)間中存在n個鄰居節(jié)點,則網(wǎng)絡平均吞吐量λ可通過下式求出:
依據(jù)上述分析,在不同信道NAV任務的優(yōu)先排隊模型狀態(tài)空間中,針對局部性交叉項信息量,在計算吞吐量情況下,建立信道數(shù)據(jù)傳輸模型,用圖1進行描述。
在圖1所示模型中完成數(shù)據(jù)通信和調度,對可破壞性數(shù)據(jù)進行定位。
1.2 可破壞數(shù)據(jù)信息流模型建立
在上節(jié)建立的信道數(shù)據(jù)傳輸模型的基礎上,對可破壞性數(shù)據(jù)進行定位的過程中,首先需建立可破壞性數(shù)據(jù)信號模型,依據(jù)信號檢測技術完成對信號的檢測。在干擾環(huán)境下,為了實現(xiàn)對破壞性數(shù)據(jù)信號離散數(shù)據(jù)的解析華處理,建立信息網(wǎng)絡破壞性數(shù)據(jù)信號解析模型,即:
1.3 可破壞性數(shù)據(jù)特征提取
對海量數(shù)據(jù)環(huán)境下可破壞性數(shù)據(jù)信息流模型進行分析,對可破壞性數(shù)據(jù)特征進行提取,為可破壞性數(shù)據(jù)定位提高依據(jù)。
將相空間重構與非線性時間序列分析法[11]結合在一起,對可破壞性數(shù)據(jù)產生的原因進行分析,特征提取公式如下:
綜上,在對海量數(shù)據(jù)環(huán)境下可破壞性數(shù)據(jù)進行定位的過程中,首先建立可破壞性數(shù)據(jù)信息流模型,同時在構建模型的基礎上分析可破壞性數(shù)據(jù)的組成形式,并且提取可破壞性數(shù)據(jù)的特征,為實現(xiàn)可破壞性數(shù)據(jù)定位奠定基礎。
1.4 可破壞性數(shù)據(jù)分類識別
完成可破壞性數(shù)據(jù)定位前,需完成對可破壞性數(shù)據(jù)特征的預處理,把數(shù)據(jù)符號屬性值映射為數(shù)字值,然后完成對所有數(shù)字特征的歸一化處理[12],將其映射至[0,1]范圍內,歸一化處理可通過下式實現(xiàn):
可破壞性數(shù)據(jù)核特征判斷方法根據(jù)Fisher線性分析法實現(xiàn)[13],該方法的目的為使類間離散度最大化,類內離散度最小化,然后依據(jù)運算目標對原始向量的最優(yōu)映射方向進行搜尋,保證各類間距離達到最大,從而完成對可破壞性數(shù)據(jù)的分類,實現(xiàn)可破壞性數(shù)據(jù)的識別。然而海量數(shù)據(jù)環(huán)境中的數(shù)據(jù)存在隨機性與多樣性的特性,使得得到的判別結果存在誤差。為了得到準確的結果,首先利用非線性映射函數(shù)Γ把原始特征空間映射至新的特征空間U,然后通過Fisher線性分析法在改進后的特征空間中實現(xiàn)對數(shù)據(jù)的分類。詳細過程如下:
通過非線性函數(shù)Γ把可破壞性數(shù)據(jù)輸入樣本e∈Wq映射至高維線性空間U中[14],也就是,則改進后的特征空間U中目標函數(shù)可通過下式求出:
通過上述分析可完成對原始可破壞性數(shù)據(jù)特征的改進,然后通過Fisher線性分析法在改進后特征空間中對可破壞性數(shù)據(jù)特征進行分類,從而實現(xiàn)可破壞性數(shù)據(jù)識別。
1.5 可破壞性數(shù)據(jù)定位
完成對可破壞性數(shù)據(jù)的分類識別后,對其進行定位。通常情況下,海量數(shù)據(jù)環(huán)境下存在大量的節(jié)點,節(jié)點采集數(shù)據(jù)通常存在空間關聯(lián)性,也就是物理位置相隔較近的節(jié)點感知數(shù)據(jù)改變情況相似[15]。所以,當節(jié)點識別到可破壞性數(shù)據(jù)后,可通過鄰居節(jié)點數(shù)據(jù)完成投票決策,通過節(jié)點與鄰居節(jié)點位置實現(xiàn)可破壞性數(shù)據(jù)的定位。
節(jié)點附近環(huán)境有很大的不同,本節(jié)并非通過節(jié)點的時序關聯(lián)性對鄰居節(jié)點進行確定,而是把待定位節(jié)點與不同節(jié)點滑動窗口中信號強度作為含可破壞數(shù)據(jù)的待定位節(jié)點的屬性,通過節(jié)點間屬性相關性完成選擇。
通過皮爾森相關系數(shù)對mi與mj的屬性相關系數(shù)進行計算,如果sim(i,j)超過閾值,則認為節(jié)點mi與mj空間相關:
2 實驗和結果分析
2.1 實驗環(huán)境和評價指標設計
本節(jié)通過Matlab軟件實現(xiàn)對海量數(shù)據(jù)環(huán)境下可破壞數(shù)據(jù)定位方法的仿真。選用的真實實驗數(shù)據(jù)為某院校校園系統(tǒng),該系統(tǒng)采樣頻率是每隔5min采樣1次。
為了評價本文可破壞性數(shù)據(jù)定位方法的性能,將定位準確性和ROC曲線作為評價指標進行評價。
可破壞性數(shù)據(jù)定位準確性EACC可通過下式求出:
其中,M用于描述原始數(shù)據(jù)中實際含可破壞性數(shù)據(jù)節(jié)點個數(shù),N用于描述定位的實際含可破壞性數(shù)據(jù)節(jié)點個數(shù)。
ROC是一種有效的評價定位算法的指標,AUC作為ROC的定量統(tǒng)計能夠有效地描述定位性能的好壞,通常認為AUC值越高,定位性能越佳。AUC計算公式如下:
其中,n0與n1依次用于描述正常樣本個數(shù)和可破壞性樣本個數(shù);S0用于描述第i個正常樣本的排序位置。
2.2 仿真數(shù)據(jù)定位
本節(jié)將文獻[7]算法和文獻[8]算法作為對比進行測試,對海量數(shù)據(jù)環(huán)境下可破壞性數(shù)據(jù)定位性能進行測試。采用的綜合數(shù)據(jù)庫是同時含有局部密度與低密度模式的數(shù)據(jù)集,共有1230個數(shù)據(jù)節(jié)點,將其分割成5個類別,依次是曲線狀與4個高斯分布類簇。曲線狀分布數(shù)據(jù)節(jié)點個數(shù)是500。
4個高斯類簇所含數(shù)據(jù)節(jié)點個數(shù)依次是200個、300個、100個、100個,隨機形成30個可破壞性數(shù)據(jù)節(jié)點添加至數(shù)據(jù)庫中。針對綜合數(shù)據(jù)集,分別采用本文算法、文獻[7]算法和文獻[8]算法對其中的破壞性數(shù)據(jù)進行定位,在鄰居節(jié)點數(shù)量為100個時,三種算法定位比較結果用圖2進行描述。
圖2中,三角形代表各算法定位結果,方塊代表實際定位結果。分析圖2可知,文獻[7]算法和文獻[8]算法不僅定位誤差大,而且還存在無法識別可破壞數(shù)據(jù)的情況,而本文算法可保持高精度可破壞性數(shù)據(jù)定位性能,驗證了本文算法的有效性。
針對文獻[7]算法,在鄰居節(jié)點數(shù)較高的情況下,二者傾向于定位全局可破壞性數(shù)據(jù)節(jié)點,然而忽略了局部可破壞性數(shù)據(jù)節(jié)點,導致定位準確性降低。針對文獻[8]算法,針對圖2(d)左下角類簇中的數(shù)據(jù)節(jié)點,因為和其間隔最小的類簇約含100個數(shù)據(jù)節(jié)點,在鄰居節(jié)點逐漸升高的情況下,其鄰近節(jié)點傾向于考慮密度較小的曲線形數(shù)據(jù)集,所以該算法無法有效識別高密度類簇附近的可破壞性數(shù)據(jù)節(jié)點,導致可破壞性數(shù)據(jù)識別及定位精度低。
除此之外,圖3描述了鄰居節(jié)點數(shù)量逐漸升高時,三種算法定位評價指標改變過程。發(fā)現(xiàn)在鄰居節(jié)點數(shù)量較小的情況下,三種算法均有很高的定位性能,但是隨著鄰居節(jié)點數(shù)量的逐漸增加,文獻[7]算法和文獻[8]算法定位性能顯著降低,而本文算法仍可保證高檢測性能,驗證了本文算法的優(yōu)越性。
2.3 真實數(shù)據(jù)測試結果
本節(jié)同時把本文算法應用于兩種真實數(shù)據(jù)集Iris與Wine中,Iris數(shù)據(jù)集含1800個實例,各示例含4維屬性,將全部實例分割成3類,類標簽依次是A、B、C。Wine數(shù)據(jù)集含1300個實例,各實例含10維屬性,全部實例被分割成D、E、F三類。針對上述數(shù)據(jù)集,依次隨機選擇2個類簇當成正常數(shù)據(jù)點,從余下的一類中選擇8個數(shù)據(jù)點當成可破壞性數(shù)據(jù)。
研究的2種數(shù)據(jù)集都是高維數(shù)據(jù)集,為了在二維坐標系中對可破壞性數(shù)據(jù)定位結果進行可視化處理,通過非負矩陣分解法完成對數(shù)據(jù)的降維操作,以獲取可體現(xiàn)原始數(shù)據(jù)特征的二維屬性,再以二維屬性為基礎建立二維可視化坐標系。
圖4描述的是本文算法對可破壞性數(shù)據(jù)的定位結果,其中上三角代表定位的可破壞性數(shù)據(jù),其他數(shù)據(jù)點代表正常數(shù)據(jù)。由圖4可知,本文算法可準確定位2個數(shù)據(jù)集中的可破壞性數(shù)據(jù)。
在采用本文算法、文獻[7]算法和文獻[8]算法對真實數(shù)據(jù)集中的可破壞性數(shù)據(jù)進行定位后,得到的定位評價結果用表1進行描述。
分析表1可知,在鄰居節(jié)點數(shù)增加后,文獻[7]算法和文獻[8]算法定位性能出現(xiàn)了很大的改變,而本文算法定位性能很穩(wěn)定,而且有很高的定位準確性與AUC。
3 結論
提出一種新的海量數(shù)據(jù)環(huán)境下可破壞性數(shù)據(jù)定位算法,由于其數(shù)據(jù)量大,數(shù)據(jù)特征分布廣泛的特點,只能以數(shù)據(jù)節(jié)點初始坐標進行定位,產生過多的測距約束性。傳統(tǒng)的定位算法由于受到這種約束條件的干擾,導致算法陷入局部最優(yōu),產生定位精度低和抗干擾性差的問題。提出基于數(shù)據(jù)融合算法的海量數(shù)據(jù)環(huán)境下的高效數(shù)據(jù)定位方法。依據(jù)海量數(shù)據(jù)系統(tǒng)中數(shù)據(jù)節(jié)點間需要符合的測距約束性條件組建軟約束集中模型,在代價函數(shù)中引入懲罰項,融合于負梯度算法獲取數(shù)據(jù)節(jié)點初步定位的估計值,再利用Fisher線性分析法進行數(shù)據(jù)識別,最終完成了對海量數(shù)據(jù)環(huán)境下數(shù)據(jù)的高效定位。仿真證明,數(shù)據(jù)融合算法的海量數(shù)據(jù)環(huán)境下的高效數(shù)據(jù)定位方法具有定位精度高,抗干擾性能好的特點。
參考文獻(References):
[1] 劉建芳,王劉濤,馬飛.海量數(shù)據(jù)環(huán)境下高效數(shù)據(jù)定位算法研究與仿真[J].計算機仿真,2016.33(3):376-379
[2] 周小平,劉祥磊.基于組合定位海量數(shù)據(jù)處理的鐵路機車安全距離預警[J].中國安全生產科學技術,2015.11(10):103-109
[3] 何天榮.基于模糊數(shù)學的海量數(shù)據(jù)特征定位研究[J].內蒙古師大學報(自然漢文版),2017.46(2):178-181
[4] 唐曉紅,閆明,林國亮.海量定位數(shù)據(jù)存儲技術與警務應用研究[J].廣東公安科技,2014.22(1):17-22
[5] 張繼紅,陳小全.海量交通安全數(shù)據(jù)的元數(shù)據(jù)管理研究[J].計算機研究與發(fā)展,2011.48(s1):74-77
[6] 周小平,劉祥磊.海量鐵路機車GIS定位數(shù)據(jù)分布式處理技術[J].中國科技論文,2015.10(7):812-816
[7] 畢林,趙輝,賈明濤.面向數(shù)據(jù)庫特征的基于LMDB與線性八叉樹海量塊段模型存儲技術(英文)[J].Transactions of Nonferrous Metals Society of China,2016.26(9):2462-2468
[8] 毛衡,胡寧,陳蔚等.實時廣告競拍平臺中的海量數(shù)據(jù)分析和競價預測[J].應用數(shù)學與計算數(shù)學學報, 2016.30(1):1-15
[9] 蹇旭.云計算環(huán)境下的海量數(shù)據(jù)特定特征挖掘技術[J].現(xiàn)代電子技術,2017.40(13):178-180
[10] 王曉英.海量冗余數(shù)據(jù)干擾下數(shù)據(jù)庫中數(shù)據(jù)優(yōu)化檢索方法[J].華僑大學學報(自然版),2016.37(6):758-761
[11] 李雪梅,邢俊峰,劉大偉等.基于HBase的海量GIS數(shù)據(jù)分布式處理實踐[J].大數(shù)據(jù),2016.2(3):73-82
[12] 張啟明,周自強,谷山強等.海量雷電監(jiān)測數(shù)據(jù)云計算應用技術[J].電力系統(tǒng)自動化,2012.36(24):58-63
[13] 胡永利,樸星霖,孫艷豐等.多源異構感知數(shù)據(jù)融合方法及其在目標定位跟蹤中的應用[J].中國科學:信息科學,2013.43(10):1288-1306
[14] 李林陽,呂志平,陳正生等.海量連續(xù)運行參考站網(wǎng)數(shù)據(jù)云存儲模型[J].導航定位學報,2014.2(3):64-70
[15] 黃潮.云計算環(huán)境下的海量光纖通信故障數(shù)據(jù)挖掘算法研究[J].激光雜志,2017.38(1):96-100