基于網(wǎng)格過濾的局部線性嵌入法在商業(yè)大數(shù)據(jù)高維離群點檢測中的應用研究

2024-11-22 00:00:00葉晟

電腦知識與技術 2024年26期

關鍵詞：商業(yè)大數(shù)據(jù)；網(wǎng)格過濾；高維數(shù)據(jù)；離群點；局部線性嵌入法

中圖分類號：TP391 文獻標識碼：A

文章編號：1009-3044（2024）26-0067-04開放科學（資源服務）標識碼（OSID）：

0 引言

在目前的信息新時代，大數(shù)據(jù)是生產要素，也是國家的基礎性戰(zhàn)略資源。商業(yè)大數(shù)據(jù)以海量的數(shù)據(jù)集合為特征，它在商業(yè)營銷、決策等方面有著廣泛的用途。根據(jù)相關數(shù)據(jù)及其預測，從2015年至2025年，中國企業(yè)級的數(shù)據(jù)量將得到大幅度的增長。伴隨著信息技術的發(fā)展，企業(yè)數(shù)量的增加以及應用場景的不斷豐富，商業(yè)大數(shù)據(jù)將會有一個大幅度的增長。

商業(yè)大數(shù)據(jù)應用主要是指相關數(shù)據(jù)服務組織將采集到的原始數(shù)據(jù)經(jīng)過專業(yè)的數(shù)據(jù)分析工具的清洗、修剪、整理及分類后變?yōu)榻Y構化的信息。然后專業(yè)技術人員又將這些結構化的信息經(jīng)過數(shù)據(jù)挖掘轉變?yōu)橄嚓P的專業(yè)數(shù)據(jù)集，形成專業(yè)數(shù)據(jù)集后，專業(yè)技術人員將這些數(shù)據(jù)集根據(jù)不同的應用進行數(shù)學建模。相關的數(shù)學模型建立了以后，也就意味著某種具體的商業(yè)應用形成了相關的數(shù)據(jù)資產。專業(yè)技術人員通過挖掘數(shù)據(jù)資產背后所隱藏的價值，賦能給各行各業(yè)，為信用評級、風險管理、營銷決策等提供附加價值。

商業(yè)大數(shù)據(jù)的應用根據(jù)客戶類型及使用形式，可以分為企業(yè)端基礎數(shù)據(jù)服務、企業(yè)端標準數(shù)據(jù)服務、企業(yè)端場景化數(shù)據(jù)服務等形式。

目前，商業(yè)大數(shù)據(jù)的應用主要是集中在電信、金融等領域。但是隨著技術的發(fā)展及商業(yè)大數(shù)據(jù)應用的普及，政務、工業(yè)、公檢法等領域也逐漸越來越適應利用大數(shù)據(jù)進行相關業(yè)務的管理及決策。另外，在一些傳統(tǒng)行業(yè)，比如電力、鐵路、石化等，這些行業(yè)中的一些龍頭企業(yè)也不斷地利用其自身雄厚的經(jīng)濟實力，不斷完善自身的大數(shù)據(jù)的建設、管理和應用的能力。商業(yè)大數(shù)據(jù)的應用越來越向實體行業(yè)滲透已經(jīng)是一個不爭的事實。

1 商業(yè)大數(shù)據(jù)中高維數(shù)據(jù)離群點檢測的必要性

隨著大數(shù)據(jù)技術在商業(yè)應用上的成熟，需要對大量商業(yè)應用的相關數(shù)據(jù)進行卓有成效的采集。因為高維數(shù)據(jù)往往更能準確地反映商業(yè)應用中不同數(shù)據(jù)單元的相互聯(lián)系，所以對高維數(shù)據(jù)的數(shù)據(jù)挖掘則顯得尤其具有重要意義。而在對高維數(shù)據(jù)的挖掘中，離群點的檢測對于數(shù)據(jù)異常的判斷具有重要的參考作用[1-2]。離群點檢測的主要內容就是通過數(shù)據(jù)挖掘發(fā)現(xiàn)與正常數(shù)據(jù)維度偏差比較大的數(shù)據(jù)點，從而進行相應的降噪處理從而達到將采集的數(shù)據(jù)恢復正常的目的。離群點產生的原因有很多，譬如隨著商業(yè)應用的深入，商業(yè)應用中所采集用戶的大數(shù)據(jù)的維度變得越來越高階，相關的數(shù)據(jù)結構也變得越來越復雜。所以若要對這些由相關應用所產生的大數(shù)據(jù)進行有效的利用，那么對數(shù)據(jù)中離群點的檢測則變得至關重要了起來。

國內現(xiàn)有很多專家對高位數(shù)據(jù)離群點的檢測進行了很多卓有成效的研究。楊曉玲[3]等利用對象區(qū)域密度和臨近區(qū)域間的相互關系，通過計算得到兩者間的相對距離，然后對應最小生成樹結構，將離群簇和離群點進行一個分割，從而實現(xiàn)對離群點的檢測。但這種方法的缺點是對機器內存的占用跟數(shù)據(jù)維度的增加成正比，所以應用的實踐性不強。邱華[4]等則預先對已產生的海量數(shù)據(jù)進行處理，然后對這些處理過的數(shù)據(jù)利用極限學習機進行訓練，經(jīng)過訓練之后會得到一個對于局部離群因子閾值的預測，之后再利用WLOF 閾值對數(shù)據(jù)進行聚類處理，從而檢測出離群點。但這種方法效率比較低，同樣應用的實踐性不強。

針對以上問題，提出面向高維數(shù)據(jù)檢測的局部線性嵌入法。通過劃分網(wǎng)格對高維數(shù)據(jù)進行預處理。然后將預處理過的數(shù)據(jù)中的高維離群點，利用角度方差進行一個自動化的檢測。經(jīng)過實驗測試表明，在實踐中這種方法不僅可以大幅提高內存的使用率，還可以極大地減少檢測的時間，并且還能保證檢測結果的精度。

2 局部線性嵌入法對高維數(shù)據(jù)的檢測

2.1 劃分網(wǎng)格

為了實現(xiàn)對高維數(shù)據(jù)離群點的檢測，首先要進行網(wǎng)格劃分的處理，而處理的依據(jù)則來自這些高維數(shù)據(jù)的空間維度。對應的維數(shù)空間可以表示為公式（1）：

2.2 處理高維數(shù)據(jù)集

在檢測離群點的過程中，對于高維數(shù)據(jù)集的處理是關鍵的步驟，為了準確地描述它的數(shù)據(jù)結構，我們采用局部線性嵌入法對它來進行處理，通過分析數(shù)據(jù)點的不同組合的特性后，從而得出高維數(shù)據(jù)的數(shù)據(jù)結構。處理高維數(shù)據(jù)集的流程圖如圖1所示：

（1）輸入高維數(shù)據(jù)集，然后利用相關算法獲取最近鄰點。

（2）通過重構誤差獲取高維數(shù)據(jù)點及其鄰近的數(shù)據(jù)點的權值。

（3）通過相關公式獲得鄰近的數(shù)據(jù)點經(jīng)過變換后的重構權值，同時將高維數(shù)據(jù)集進行降維處理。

（4）將降維后的數(shù)據(jù)集重新通過公式進行計算，得到一系列具有相關特性的數(shù)據(jù)點。

（5）將這一系列的數(shù)據(jù)點根據(jù)權值特性劃分成符合要求的數(shù)據(jù)聚類，輸出相關結果，完成高維數(shù)據(jù)集的處理。

2.3 高維數(shù)據(jù)離群點的采集

在高維數(shù)據(jù)集離群點的采集過程中，真正能對商業(yè)應用提供重要意義的數(shù)據(jù)點實際只占全部數(shù)據(jù)集合的一小部分，大部分數(shù)據(jù)點的信息對于數(shù)據(jù)挖掘的過程起到的只是干擾作用，并且這部分信息的存在還會影響到處理結果的準確性。

前后文信息是數(shù)據(jù)離群點的重要組成部分。它不僅可以體現(xiàn)離群數(shù)據(jù)和其他數(shù)據(jù)的一致性關系，除此以外，它還可以提供更具參考意義的信息，比如離群數(shù)據(jù)的具體含義和不同之處。

在這里，我們可以利用MapReducc模型來進行高維數(shù)據(jù)離群點的采集。MapReducc模型是一個廣泛應用于不同領域的大數(shù)據(jù)模型。MapReducc模型的數(shù)據(jù)邏輯在于可以將一個大的編程任務劃分成不同的，然后進行分布式處理，這樣不僅執(zhí)行效率高，而且對于硬件資源的占用也會比其他數(shù)據(jù)模型低得多。MapReducc模型在處理數(shù)據(jù)的過程中主要分成以下幾個步驟，分別為：

（1）切割數(shù)據(jù)：根據(jù)不同應用的不同需求，將高維數(shù)據(jù)進行切割，得到對應的待處理的輸入數(shù)據(jù)。

（2）負載均衡：通過集群聚類計算不同節(jié)點的處理效率，然后再根據(jù)計算結果從宏觀上來分配不同節(jié)點的計算資源，使之得到最佳的調度處理。

（3）處理錯誤信息：對不同節(jié)點計算后的結果進行核對處理和統(tǒng)計，統(tǒng)計它們的錯誤情況，并將全部節(jié)點的錯誤信息進行收集，并根據(jù)具體情況作出是否要發(fā)出警告信息的判斷。

（4）通信處理：對于高維數(shù)據(jù)集當中需要通信的全部節(jié)點進行高效的管理，確保每個數(shù)據(jù)節(jié)點間都能正常通信，而且在通信過程中保證數(shù)據(jù)的有效性、可靠性和安全性。

通過如上所述分析，可以得出高維數(shù)據(jù)離群點采集的詳細流程如下：

（1）輸入經(jīng)過處理的高維數(shù)據(jù)集。

（2）經(jīng)過分布式運算處理，得出不同子空間的離散程度。

（3）通過分布式計算得出不同數(shù)據(jù)子集的維度信息，從而得出不同數(shù)據(jù)對象的離散程度。

（4）根據(jù)不同的離散程度形成不同的稀疏矩陣。

（5）根據(jù)不同的離散程度通過運算得出具有特異性的因子，然后將這些因子按照從小到大的順序排列，然后從這些順序排列中得出我們想要的關于高位數(shù)據(jù)離群點的采集結果。

2.4 檢測高維數(shù)據(jù)離群點

在高維數(shù)據(jù)集中，正常數(shù)據(jù)和離群數(shù)據(jù)的比值如果比較懸殊，而在維度比較低的空間中又存在分布比較密集的區(qū)域，則我們對于差異因子的取值利用密度分布來進行描述則顯得比較適宜。

對于網(wǎng)格化后的數(shù)據(jù)集，我們選取其中體積最大的網(wǎng)格來作為我們的標準網(wǎng)格。其中我們可以利用數(shù)據(jù)點和鄰近對象之間的矢量距離來作為測量半徑，根據(jù)半徑的大小來作為劃分網(wǎng)格的依據(jù)，以效避免過度稀疏情況的產生。

由于分布稀疏是高維數(shù)據(jù)集的分布特性，所以劃分網(wǎng)格時，有可能會產生不包含任何數(shù)據(jù)的空白網(wǎng)格單元。因此在對網(wǎng)格劃分的前期，在進行類型判斷時，應先采用方法將這些空白的網(wǎng)格單元予以過濾，這樣既可以節(jié)省空間資源，對時間復雜度又能進行有效降低。

另外，對于算法復雜度影響比較大的因素還有網(wǎng)格的存儲結構。因此，針對高維大數(shù)據(jù)的稀疏特點，我們可以利用哈希表來完成網(wǎng)格單元的存儲工作。利用哈希表的既有優(yōu)點，我們可以在大大節(jié)省系統(tǒng)存儲資源的同時，還可以有提高查詢和遍歷的效率。網(wǎng)格單元信息利用哈希表來進行存儲，利用網(wǎng)格及其相鄰的網(wǎng)格關系，對不同子空間進行劃分映射處理后，可以形成一張數(shù)據(jù)表。

如上所述，利用角度方差來對高位數(shù)據(jù)離群點進行數(shù)據(jù)檢測，步驟如圖2所示。

（1）通過密度分布矩陣來對相關屬性進行相應的處理，構建形成不同的數(shù)據(jù)子空間，從而完成對高維數(shù)據(jù)集的預處理。

（2）確定標準網(wǎng)絡，然后確定數(shù)據(jù)子空間內進行測量的矢量維度半徑。對于前期已經(jīng)完成處理的網(wǎng)格，需要先刪除其中已經(jīng)確定的空白網(wǎng)格，然后將剩余部分利用哈希表進行存儲，并進行遍歷計算。另外，已經(jīng)確定好的標準網(wǎng)絡即作為中心網(wǎng)絡，以此作為依托對鄰近網(wǎng)絡進行數(shù)據(jù)處理。同時，利用稀疏矩陣選擇網(wǎng)格，并經(jīng)過一定的數(shù)據(jù)處理后得到正常運行的網(wǎng)絡。

（3）經(jīng)過網(wǎng)格劃分后形成候選網(wǎng)格，然后利用角度方差因子進行分布式計算。其中，將網(wǎng)格密度設為重要指標，分別對比不同子空間的角度方差因子和離群度，經(jīng)過降序排列后，輸出排名高的數(shù)據(jù)對象將其作為離群點，從而完成對高維數(shù)據(jù)離群點的檢測。

3 仿真實驗

為了驗證所提面向高維數(shù)據(jù)離群點檢測的局部線性嵌入法的有效性，我們需要進行仿真實驗以進行驗證。

（1）測試環(huán)境：實驗所使用的計算機操作系統(tǒng)為Windows 11，配置Intel i5處理器和128GB運行內存，同時使用Matlab軟件作為驗證平臺。

（2）測試結果：實驗分別對本文所提方法以及文獻[3]方法展開高維數(shù)據(jù)離群點的相關檢測，根據(jù)測試需要，先假定好空間維數(shù)，然后根據(jù)不同的數(shù)據(jù)密度閾值分別進行數(shù)據(jù)訓練，然后得到不同情況下的時間執(zhí)行效率。

從得出的實驗結果進行分析可知，在密度閾值發(fā)生變化的情況下，兩種方法的執(zhí)行效率產生了明顯的差異。本文所提方法的執(zhí)行效率會隨著數(shù)據(jù)密度閾值的增加而提升，而文獻 [3]方法對于數(shù)據(jù)的執(zhí)行效率則基本保持不變。由此可以看出，在限定時間的情況下，本文所提方法的執(zhí)行效率會比較高。

我們進一步通過實驗分析在不同數(shù)據(jù)集下，這兩種方法在執(zhí)行時間上的變化。由實驗結果可知，隨著測試數(shù)據(jù)集變得越來越復雜，這兩種方法的執(zhí)行時間也會變得越來越長。但是對比另外一種方法，本文所提方法明顯執(zhí)行時間更短，所以這也可以證明本文所提方法的執(zhí)行效率更高。

其次，為了檢測對于高維數(shù)據(jù)離群點的檢測準確性，我們將檢測精度作為檢測指標，通過不同數(shù)據(jù)集進行相關的數(shù)據(jù)訓練，實驗結果的準確性越高，說明所用方法的檢測精度越高。

從實驗數(shù)據(jù)可知，本文所提方法在不同的數(shù)據(jù)集下的輸出精度一直都保持穩(wěn)定，且精度均值也比較高。而文獻[3]的方法在同樣的條件下進行數(shù)據(jù)訓練，輸出結果精度明顯偏低，同時該方法的輸出結果明顯還會受到數(shù)據(jù)集復雜度的影響。因此，本文所提方法對于檢測高維數(shù)據(jù)離群點的準確性而言具有明顯的優(yōu)勢。

最后，我們再來分析一下在進行不同數(shù)據(jù)集訓練時，不同檢測方法對于系統(tǒng)內存資源的占用情況。由實驗得出的實驗數(shù)據(jù)結果可知，隨著所采用的實驗數(shù)據(jù)集的維數(shù)增高，不同檢測方法對于內存資源的占用也會隨之升高。在進行對比的兩種檢測方法中，本文所提方法對于內存的占用一直比較低，而文獻[3]的方法對于內存的占用情況則明顯偏高。據(jù)此，本文所提方法在進行高維數(shù)據(jù)離群點的檢測時能有效降低內存資源的占用情況。

4 結論

針對商業(yè)大數(shù)據(jù)的數(shù)據(jù)挖掘中高維數(shù)據(jù)離群點的檢測，提出了基于網(wǎng)格過濾的局部線性嵌入方法。在進行網(wǎng)格維度劃分時，我們利用數(shù)據(jù)子空間的概念，先利用相關算法將子空間進行劃分，然后使用局部線性嵌入法進行檢測。局部線性嵌入法在保證商業(yè)數(shù)據(jù)精度的同時，還能夠大幅地降低系統(tǒng)資源及數(shù)據(jù)檢測的執(zhí)行時間，這一點已經(jīng)在實踐中得到了證明。

電腦知識與技術2024年26期

電腦知識與技術的其它文章: 融合思政元素與知識圖譜的項目化教學改革與實踐研究; 新工科背景下民辦高校計算機科學與技術專業(yè)個性化人才培養(yǎng)改革探索與實踐; 計算機網(wǎng)絡理實一體化教學改革與實踐研究; 基于OBE理念的數(shù)據(jù)庫原理與應用課程教學改革研究; 大學計算機基礎課程思政教學的實踐與探索; 思維導圖在中職計算機網(wǎng)絡技術教學中的應用探析

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于網(wǎng)格過濾的局部線性嵌入法在商業(yè)大數(shù)據(jù)高維離群點檢測中的應用研究