国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)庫中多源異構(gòu)異常數(shù)據(jù)清洗方法

2024-01-05 09:42:42王彩霞
通化師范學院學報 2023年12期
關(guān)鍵詞:多源查全率異構(gòu)

王彩霞,陶 健

在互聯(lián)網(wǎng)技術(shù)迅速發(fā)展的背景下,數(shù)據(jù)量呈現(xiàn)爆發(fā)式增長.為了有效應(yīng)對大規(guī)模數(shù)據(jù)存儲和訪問的需求,較多不同類型的數(shù)據(jù)庫被開發(fā)出來,使得多源異構(gòu)數(shù)據(jù)的生成量較大[1].在對數(shù)據(jù)庫中的多源異構(gòu)數(shù)據(jù)進行管理的過程中,基于外界環(huán)境干擾、數(shù)據(jù)傳輸錯誤等原因,數(shù)據(jù)庫中可能存在一些異常數(shù)據(jù)[2].這些異常數(shù)據(jù)將會對數(shù)據(jù)庫數(shù)據(jù)的取用造成一定的影響,導致數(shù)據(jù)庫應(yīng)用效率降低.基于此,對數(shù)據(jù)庫中的多源異構(gòu)異常數(shù)據(jù)進行清洗逐漸成為當前該領(lǐng)域?qū)<遗c學者的重點研究方向之一,很多研究人員提出了異常數(shù)據(jù)清洗方法.

韓紅桂等[3]基于ISVM 建立數(shù)據(jù)補償模型,計算約束條件對該模型進行優(yōu)化,避免模型過擬合,采用粒子群算法對該模型參數(shù)進行優(yōu)化,多次迭代后,使用優(yōu)化后的模型對數(shù)據(jù)進行清洗.但數(shù)據(jù)清洗完成后,多源異構(gòu)數(shù)據(jù)的可擴展性較差,數(shù)據(jù)清洗效果有待提升;劉云鵬等[4]基于變分模態(tài)分解方法建立變分模型,在該模型中對數(shù)據(jù)進行自適應(yīng)的信號分解,運用拉依達準則對分解后的數(shù)據(jù)進行異常識別,利用長短期記憶神經(jīng)網(wǎng)絡(luò)計算數(shù)據(jù)特征相似度量,清洗小于閾值的數(shù)據(jù).但利用該方法所獲取的數(shù)據(jù)清洗結(jié)果查全率較低,多源異構(gòu)異常數(shù)據(jù)清洗不充分,數(shù)據(jù)清洗質(zhì)量不高.李琳等[5]利用DBSCAN 算法建立數(shù)據(jù)空間,計算數(shù)據(jù)點之間的歐式距離,按照升序的方法對空間中的數(shù)據(jù)進行重新排列,根據(jù)排列結(jié)果進行聚類處理,采用箱線圖法對數(shù)據(jù)進行清洗,計算數(shù)據(jù)的邊緣特征值,并進行區(qū)間劃分,按照數(shù)據(jù)的區(qū)間進行清洗.但該方法無法有效識別異常的多源異構(gòu)數(shù)據(jù),數(shù)據(jù)清洗完成度較低.

考慮到上述文獻所提出的異常數(shù)據(jù)清洗方法無法滿足數(shù)據(jù)庫中多源異構(gòu)異常數(shù)據(jù)的清洗需求,提出一種基于時序關(guān)聯(lián)和密度聚類算法的數(shù)據(jù)庫中多源異構(gòu)異常數(shù)據(jù)清洗方法.該方法通過計算數(shù)據(jù)特征的時序關(guān)聯(lián)度,采用密度聚類算法對異常數(shù)據(jù)進行識別,填補異常數(shù)據(jù)缺失,完成異常數(shù)據(jù)的清洗.

1 數(shù)據(jù)庫中多源異構(gòu)異常數(shù)據(jù)清洗方法設(shè)計

1.1 預(yù)處理多源異構(gòu)數(shù)據(jù)/SVM

將數(shù)據(jù)庫中的多源異構(gòu)數(shù)據(jù)進行統(tǒng)一采集,將采集到的多源異構(gòu)數(shù)據(jù)匯集成數(shù)據(jù)集,根據(jù)該數(shù)據(jù)集建立數(shù)據(jù)空間,在數(shù)據(jù)空間中進行排列[6].對空間中的數(shù)據(jù)進行去噪處理.對數(shù)據(jù)特征點的密度進行計算,如公式(1)所示.

式中:θ表示數(shù)據(jù)特征點密度,i表示數(shù)據(jù),k表示空間中的數(shù)據(jù)維度,a表示數(shù)據(jù)在空間中的分布大小.

根據(jù)現(xiàn)實的數(shù)據(jù)去噪需要,為去噪過程設(shè)定一個閾值.以該閾值為界限,將數(shù)據(jù)在空間中劃分為兩個數(shù)據(jù)群[7].建立數(shù)據(jù)特征點的二維圖,對數(shù)據(jù)劃分界線進行調(diào)整,直至一個界限中的數(shù)據(jù)完全符合噪聲要求.

完成多源異構(gòu)數(shù)據(jù)的去噪過程后,對去噪后的數(shù)據(jù)進行歸一化處理,如公式(2)所示.

式中:j表示去噪后的數(shù)據(jù),zj表示歸一化后的標準格式數(shù)據(jù),nj表示去噪后的數(shù)據(jù)特征量,表示數(shù)據(jù)特征量均值,s表示數(shù)據(jù)特征點標準差,η表示密度系數(shù).

在式(2)的計算中,密度系數(shù)的取值由去噪閾值決定,將完成上述兩個處理步驟的數(shù)據(jù)在復(fù)數(shù)空間進行映射[8],完成數(shù)據(jù)庫中多源異構(gòu)數(shù)據(jù)的預(yù)處理過程.

1.2 計算數(shù)據(jù)特征的時序關(guān)聯(lián)

在1.1 小節(jié)所構(gòu)建的多源異構(gòu)數(shù)據(jù)復(fù)數(shù)空間中,對數(shù)據(jù)特征進行提取.構(gòu)建數(shù)據(jù)特征提取的網(wǎng)絡(luò)模塊,將空間中的數(shù)據(jù)在該模塊中進行匹配[9].將數(shù)據(jù)特征以散點的形式進行排列,以此建立散點特征矩陣,如圖1 所示[10].

圖1 數(shù)據(jù)特征散點矩陣

結(jié)合圖1 散點矩陣設(shè)計原理對多源異構(gòu)數(shù)據(jù)的特征進行分類提取,對提取出來的數(shù)據(jù)特征進行分析,計算數(shù)據(jù)特征之間的時序關(guān)聯(lián).建立三元時序模塊對原始數(shù)據(jù)特征進行全局性的時序關(guān)聯(lián)[11].在該模塊中進行數(shù)據(jù)特征的耦合,計算有序功效函數(shù),如公式(3)所示[12].

式中:f表示有序功效函數(shù),Gj表示數(shù)據(jù)j的有序程度,Gmax和Gmin分別表示數(shù)據(jù)空間中的最大有序程度和最小有序程度.

由此對多源異構(gòu)數(shù)據(jù)的時序關(guān)聯(lián)進行表達,如公式(4)所示[13].

式中:F表示多源異構(gòu)數(shù)據(jù)時間序列.

基于數(shù)據(jù)的時間序列,對數(shù)據(jù)特征的時序關(guān)聯(lián)度進行計算,如公式(5)所示.

式中:δ表示數(shù)據(jù)特征時序關(guān)聯(lián)度,表示時間序列均值,L表示數(shù)據(jù)特征的長度.

通過上述步驟,完成多源異構(gòu)數(shù)據(jù)特征時序關(guān)聯(lián)度的計算.

1.3 基于密度聚類算法識別異常數(shù)據(jù)

根據(jù)上述步驟計算得到多源異構(gòu)數(shù)據(jù)特征時序關(guān)聯(lián)度,對數(shù)據(jù)庫中的異常數(shù)據(jù)進行識別.本研究采用密度聚類算法進行異常數(shù)據(jù)的識別步驟.將多源異構(gòu)數(shù)據(jù)按照計算所得的特征時序關(guān)聯(lián)度在原始數(shù)據(jù)空間中進行反饋.設(shè)置數(shù)據(jù)與其相鄰數(shù)據(jù)的聚類簇點,以此確定該數(shù)據(jù)的聚類歸屬[14].計算數(shù)據(jù)與其聚類簇點之間的歐式距離,如公式(6)所示.

式中:d表示數(shù)據(jù)與簇點在空間中的歐式距離,o表示數(shù)據(jù)聚類的簇點,lj表示數(shù)據(jù)在空間中的位置,lo表示簇點在空間中的位置.

對聚類完成后的數(shù)據(jù)進行密度計算,如公式(7)所示.

式中:θ'表示聚類后的數(shù)據(jù)空間密度,m表示數(shù)據(jù)序列,x表示聚類連接點.

對密度聚類算法進行不斷迭代,直至數(shù)據(jù)密度的計算值達到最優(yōu),且不再變化[15].根據(jù)最終的數(shù)據(jù)密度計算結(jié)果,對異常數(shù)據(jù)進行識別.設(shè)定異常識別的邊界值,如公式(8)所示.

式中:μ表示密度均值,σ表示密度標準差.

將數(shù)據(jù)密度的計算值不屬于上述區(qū)間的數(shù)據(jù)進行逐一篩選,完成基于密度聚類算法的異常數(shù)據(jù)識別過程.

1.4 清洗多源異構(gòu)異常數(shù)據(jù)

對識別出來的多源異構(gòu)異常數(shù)據(jù)進行清洗.對異常數(shù)據(jù)的缺失數(shù)據(jù)點進行分析,根據(jù)異常數(shù)據(jù)時序關(guān)聯(lián)度的不同將異常數(shù)據(jù)劃分為局部缺失和長期缺失兩種異常類型.通過矩陣對其求解,如公式(9)所示.

式中:h表示數(shù)據(jù)缺失的時間序列長度,c表示數(shù)據(jù)當前的維度.

建立最小化缺失函數(shù)對異常數(shù)據(jù)的缺失部分進行填補,如公式(10)所示.

式中:J表示為異常數(shù)據(jù)填補的缺失內(nèi)容,Y表示與異常數(shù)據(jù)時序關(guān)聯(lián)度相同的正常數(shù)據(jù)的時間序列長度.

對填補后的數(shù)據(jù)進行異常值檢測,判定其缺失度是否滿足需求,填補失敗的異常數(shù)據(jù)返回重新進行矩陣求解與填補,直至全部數(shù)據(jù)完成缺失填補過程.將填補后的數(shù)據(jù)在原始數(shù)據(jù)空間中進行反饋映射,將其導回至數(shù)據(jù)庫中,完成數(shù)據(jù)庫中多源異構(gòu)異常數(shù)據(jù)的清洗過程.

2 實驗

2.1 實驗準備

設(shè)計實驗對本文所提出的數(shù)據(jù)庫中多源異構(gòu)異常數(shù)據(jù)清洗方法進行有效性驗證.實驗采用某個公開數(shù)據(jù)庫中的數(shù)據(jù)信息作為實驗數(shù)據(jù)的模擬樣本,選取的數(shù)據(jù)庫包含大量多源異構(gòu)數(shù)據(jù).該數(shù)據(jù)庫中的數(shù)據(jù)已經(jīng)進行過隱私處理,確保不會對數(shù)據(jù)來源造成隱私泄露的安全問題.對該數(shù)據(jù)庫中的數(shù)據(jù)進行異常分析,得到結(jié)果如圖2 所示.

圖2 數(shù)據(jù)樣本異常分析

圖2 中,數(shù)據(jù)的不同線型代表該數(shù)據(jù)庫中的數(shù)據(jù)為異構(gòu)數(shù)據(jù),數(shù)據(jù)的形狀表示了該數(shù)據(jù)的狀態(tài).由圖2 可知,該數(shù)據(jù)庫中的多源異構(gòu)數(shù)據(jù)存在異常數(shù)據(jù),可用于實驗數(shù)據(jù)的模擬.

對該數(shù)據(jù)庫中的多源異構(gòu)數(shù)據(jù)進行采集.采用串口數(shù)據(jù)線將數(shù)據(jù)采集器與數(shù)據(jù)庫進行連接.將該數(shù)據(jù)庫中的多源異構(gòu)數(shù)據(jù)進行數(shù)據(jù)采集與傳輸,并對數(shù)據(jù)庫中的數(shù)據(jù)進行單獨采集.根據(jù)采集得到的數(shù)據(jù)庫多源異構(gòu)數(shù)據(jù)樣本進行實驗數(shù)據(jù)模擬.將采集的數(shù)據(jù)樣本通過數(shù)據(jù)采集傳輸裝置傳輸至本次實驗所用的主控計算機,如圖3 所示.

圖3 實驗設(shè)備

圖3 中,將數(shù)據(jù)采集傳輸裝置利用連接線路與主控計算機進行連接,導出采集到的數(shù)據(jù).再通過主控計算機與數(shù)據(jù)模擬裝置進行連接,進行實驗數(shù)據(jù)的模擬.其中,本次實驗所使用的數(shù)據(jù)采集傳輸裝置的參數(shù)配置如表1 所示.

表1 數(shù)據(jù)采集傳輸裝置參數(shù)配置

實驗所使用的主控計算機配置參數(shù)如表2 所示.

在上述環(huán)境中,開展本次實驗.將模擬所得的數(shù)據(jù)按照3∶1 的比例進行劃分,其中的3/4作為訓練數(shù)據(jù)集,對本次實驗應(yīng)用到的算法及模型進行訓練,剩余的1/4 作為測試集,用于數(shù)據(jù)清洗實驗.

完成上述準備后,開展本次數(shù)據(jù)庫中多源異構(gòu)異常數(shù)據(jù)清洗實驗.

2.2 數(shù)據(jù)庫中多源異構(gòu)異常數(shù)據(jù)清洗

對本文所提出的基于時序關(guān)聯(lián)和密度聚類算法的數(shù)據(jù)庫中多源異構(gòu)異常數(shù)據(jù)清洗方法進行可行性測試.使用實驗測試集中的數(shù)據(jù)進行本次測試.隨機篩選出測試集中的部分多源異構(gòu)數(shù)據(jù),共篩選出2 000 條多源異構(gòu)數(shù)據(jù).使用本文所提方法對其中的異常數(shù)據(jù)進行識別,將異常數(shù)據(jù)識別的結(jié)果繪制成混淆矩陣,如圖4 所示.

圖4 異常數(shù)據(jù)識別混淆矩陣

對識別得到的異常數(shù)據(jù)進行清洗,分析清洗后得到數(shù)據(jù)的可擴展性(圖5).由圖5 可知,應(yīng)用本文所提方法得出的異常數(shù)據(jù)清洗,僅用1.6 min 完成了異常數(shù)據(jù)的識別,使用2.5 min 完成了異常數(shù)據(jù)的清洗,且清洗后的多源異構(gòu)數(shù)據(jù)可擴展性大幅度提高,提升幅度達0.97,效果較為明顯.在完成異常數(shù)據(jù)的清洗后,多源異構(gòu)數(shù)據(jù)的可擴展性變化較為平穩(wěn).從這一清洗結(jié)果可以初步判斷,本文所提出的多源異構(gòu)異常數(shù)據(jù)清洗方法結(jié)果較優(yōu),表明本文所提方法在數(shù)據(jù)庫多源異構(gòu)異常數(shù)據(jù)清洗實踐中具有可行性.

圖5 多源異構(gòu)異常數(shù)據(jù)清洗

2.3 結(jié)果評價指標

為了更加直觀地體現(xiàn)出本研究所提方法的有效性,對異常數(shù)據(jù)清洗的質(zhì)量進行評估,本次實驗采用數(shù)據(jù)清洗的查全率作為實驗結(jié)果的評價指標,其計算方法如公式(11)所示.

式中:λ表示清洗結(jié)果查全率,N表示實驗數(shù)據(jù)總數(shù)量,n1表示識別出的異常數(shù)據(jù)量,n2表示成功清洗的數(shù)據(jù)量.

其中,成功清洗的標準設(shè)定為該數(shù)據(jù)的可擴展性達到1.0 以上.查全率能夠有效對異常數(shù)據(jù)清洗的質(zhì)量進行評價,計算所得的查全率結(jié)果數(shù)值越高,說明該方法識別并進行清洗的異常數(shù)據(jù)越多,對數(shù)據(jù)庫中多源異構(gòu)異常數(shù)據(jù)的清洗越充分.查全率的計算結(jié)果與異常數(shù)據(jù)清洗方法的可靠性呈正相關(guān),查全率越高,則該方法的可靠性就越高,具備更高的實踐應(yīng)用價值.

2.4 結(jié)果分析與討論

為了體現(xiàn)本研究所提方法實驗結(jié)果的有效性,分別應(yīng)用文獻[3]和文獻[4]所提出的異常數(shù)據(jù)清洗方法作為本文所提方法的對比對象,將三種方法的清洗結(jié)果進行橫向?qū)Ρ仍u價.

為了減少實驗誤差,本次實驗共進行10次,每次導入的多源異構(gòu)數(shù)據(jù)不同,但同一輪次為每種方法導入的數(shù)據(jù)保持一致,確保實驗變量唯一.經(jīng)過實驗,得到三種方法的異常數(shù)據(jù)清洗結(jié)果如圖6 所示.

圖6 不同方法異常數(shù)據(jù)清洗結(jié)果

由圖6 可知,在10 個輪次的清洗實驗中,本文所提方法的查全率結(jié)果始終比較高,均值可達0.94,而文獻[3]和文獻[4]所提出的異常數(shù)據(jù)清洗方法的查全率結(jié)果的均值分別為0.75 和0.63.將三種方法的查全率結(jié)果進行對比可知,本文所提出異常數(shù)據(jù)清洗方法的查全率提升顯著.

從實驗結(jié)果可以看出,本文所提出的數(shù)據(jù)庫中多源異構(gòu)異常數(shù)據(jù)清洗方法查全率較高,說明該方法能對異常的多源異構(gòu)數(shù)據(jù)進行有效識別和清洗,并且清洗的完成度比較高.由此可見,本文所提方法具備較高的可靠性,在數(shù)據(jù)庫中,對多源異構(gòu)數(shù)據(jù)的管理實踐過程中,應(yīng)用效果較優(yōu),具備較高的實踐應(yīng)用價值.

3 結(jié)語

在數(shù)據(jù)庫的運行過程中,多源異構(gòu)數(shù)據(jù)基于各種各樣的原因存在著不定量的異常數(shù)據(jù),對數(shù)據(jù)庫的存取性能造成了較大的影響.對此,本研究提出了一種數(shù)據(jù)庫中多源異構(gòu)異常數(shù)據(jù)清洗方法.實驗結(jié)果顯示,依據(jù)所提方法得出的異常數(shù)據(jù)清洗結(jié)果查全率較高,表明本文研究內(nèi)容能夠有效對多源異構(gòu)異常數(shù)據(jù)進行識別并清洗,有助于推動多源異構(gòu)數(shù)據(jù)庫的應(yīng)用與發(fā)展.

猜你喜歡
多源查全率異構(gòu)
ETC拓展應(yīng)用場景下的多源異構(gòu)交易系統(tǒng)
試論同課異構(gòu)之“同”與“異”
基于GNSS硬件在環(huán)的多源融合定位高逼真仿真方法
海量圖書館檔案信息的快速檢索方法
基于詞嵌入語義的精準檢索式構(gòu)建方法
overlay SDN實現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
電信科學(2016年11期)2016-11-23 05:07:56
LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
一種利用點特征和互信息的多源遙感影像配準方法
遙感信息(2015年3期)2015-12-13 07:26:54
在新興異構(gòu)SoCs上集成多種系統(tǒng)
空間位置信息的多源POI數(shù)據(jù)融合
寻乌县| 屏南县| 邓州市| 平塘县| 永新县| 灵台县| 小金县| 张家口市| 西盟| 岳阳县| 三河市| 原阳县| 武隆县| 阿合奇县| 开封市| 海晏县| 古交市| 玉田县| 静海县| 绥宁县| 会同县| 永安市| 兰西县| 望都县| 浪卡子县| 长白| 宁南县| 济阳县| 互助| 淮南市| 杂多县| 梅河口市| 宁南县| 二连浩特市| 石嘴山市| 桓台县| 宁河县| 鄂伦春自治旗| 浮梁县| 本溪市| 碌曲县|