李煥云 王勝杰
摘要:針對常規(guī)異常檢測方法聚合數(shù)據(jù)流數(shù)據(jù)時誤判率較大的問題,設計一種基于數(shù)據(jù)建模的數(shù)據(jù)流異常檢測方法。計算各個數(shù)據(jù)個體之間的歐幾里度量參數(shù),規(guī)范化處理異常數(shù)據(jù)流數(shù)據(jù),設定數(shù)據(jù)流中的判斷節(jié)點,利用數(shù)據(jù)建模技術判斷數(shù)據(jù)狀態(tài),規(guī)范化處理異常數(shù)據(jù)流數(shù)據(jù),采用臨近采樣方法在設定的數(shù)據(jù)集節(jié)點處構建一個檢測窗口,設定檢測周期后,最終實現(xiàn)對異常數(shù)據(jù)流的檢測。準備實驗數(shù)據(jù)集,設定各個數(shù)據(jù)集間的間隔周期,模擬數(shù)據(jù)流結構,準備兩種常規(guī)檢測方法以及設計檢測方法進行實驗,結果表明:設計的異常檢測方法誤判率數(shù)值最小。
關鍵詞:數(shù)學建模;數(shù)據(jù)流;異常檢測;誤判率
中圖分類號:TP393? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)33-0144-02
開放科學(資源服務)標識碼(OSID):
數(shù)據(jù)建模是將各類數(shù)據(jù)處理為一個抽象組織,在確定管轄范圍后,采用固定的組織形式將數(shù)據(jù)轉化為數(shù)據(jù)處理工具的過程。使用數(shù)學建模內(nèi)置的二維或是三維數(shù)字關系,搭建多個邏輯關系,采用該邏輯關系表述數(shù)據(jù)結構間的關系。數(shù)據(jù)流是一組有序的數(shù)據(jù)序列,內(nèi)置數(shù)據(jù)起點以及數(shù)據(jù)終點字節(jié),在輸入流和輸出流的控制下,形成一個特定的數(shù)據(jù)處理過程[1-3]。為此,在數(shù)據(jù)建模技術的支持下,構建一種數(shù)據(jù)流異常檢測方法是很有必要的。國外在研究數(shù)據(jù)流異常檢測起步較早,在數(shù)據(jù)庫技術的支持下,率先建立了一種訪問系統(tǒng),并設計得到了入侵檢測方法。國內(nèi)在研究異常檢測方法起步較晚,結合人工智能技術,研究得到了多種檢測方法。
1 基于數(shù)學建模的數(shù)據(jù)流異常檢測方法
1.1 規(guī)范化處理異常數(shù)據(jù)流數(shù)據(jù)
數(shù)據(jù)流內(nèi)的數(shù)據(jù)由多個屬性的數(shù)據(jù)構成,對應的數(shù)據(jù)有著不同的數(shù)據(jù)格式以及設計單位,所以在檢測異常數(shù)據(jù)流時,應規(guī)范化處理數(shù)據(jù)流中的數(shù)據(jù)[4]。在規(guī)范化處理前,計算各個數(shù)據(jù)個體之間的歐幾里度量參數(shù),并根據(jù)該度量參數(shù)的數(shù)值,計算各個數(shù)據(jù)個體間的相似度,采用Z-score規(guī)范化處理方式處理數(shù)據(jù)流中的各項數(shù)據(jù)后,線性變換數(shù)據(jù)流中的原始數(shù)據(jù),保持數(shù)據(jù)流中原始數(shù)據(jù)間的大小數(shù)值關系,假設屬性數(shù)值的標準差后,標定屬性一個有意義的最大值,標定為不同的維度參數(shù)后,形成多個維度數(shù)據(jù)空間。為了保證數(shù)據(jù)流的正常處理流程,消除數(shù)據(jù)信息流中的干擾,利用統(tǒng)計概率處理方法計算數(shù)據(jù)流中的標準信息熵,可表示為:
[h(x)=-i=1np(xi)n]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(1)
其中,[p(xi)]表示標準最大值對應的函數(shù),[n]表示數(shù)據(jù)空間的維度數(shù)值。當計算得到信息熵的數(shù)值大于零時,則表示數(shù)據(jù)流處于一個穩(wěn)定狀態(tài)。在該種穩(wěn)定狀態(tài)下,將數(shù)據(jù)流空間內(nèi)的節(jié)點劃分為不同處理順序的數(shù)據(jù)節(jié)點,整合為不同集合的數(shù)據(jù)組后,應用數(shù)據(jù)建模技術,判斷各個數(shù)據(jù)組中數(shù)據(jù)流的狀態(tài)。
1.2 利用數(shù)學建模判斷數(shù)據(jù)狀態(tài)
使用上述得到的數(shù)據(jù)集,在劃分數(shù)據(jù)集的數(shù)據(jù)分界處,設定不同的數(shù)據(jù)節(jié)點,以該節(jié)點作為狀態(tài)判斷點。使用該節(jié)點周圍的兩個數(shù)據(jù)組作為處理對象,采用距離計算方式,使用各個數(shù)據(jù)集中通用的屬性數(shù)據(jù),計算通用數(shù)據(jù)間的距離,采用數(shù)據(jù)建模方法描述數(shù)據(jù)為一個狀態(tài)數(shù)據(jù)集,隨機選定一個數(shù)據(jù)點,計算該點與設定節(jié)點間的距離,當該距離數(shù)值在預先設定的參數(shù)數(shù)值之間,則表示該數(shù)值為正常狀態(tài),當該數(shù)值在設定的參數(shù)數(shù)值之外,則表示對應處理的數(shù)據(jù)集為異常狀態(tài)[5]。
為了增強判斷數(shù)據(jù)狀態(tài)時的精準性,在預先設定參數(shù)時,應在劃分的數(shù)據(jù)集中定義一個局部異常因子,使用數(shù)據(jù)密度參數(shù)作為該局部異常因子的約束值,采用數(shù)學描述方法將給定的數(shù)據(jù)點處理為一個衡量數(shù)值,假設該衡量數(shù)值明顯不同于局部平均數(shù)值,則認定該數(shù)據(jù)集對應的數(shù)據(jù)流存在異常,異常數(shù)據(jù)狀態(tài)判斷后,針對該部分異常數(shù)據(jù),構建檢測過程。
1.3 實現(xiàn)對異常數(shù)據(jù)流的檢測
基于上述處理過程,采用臨近采樣方法在設定的數(shù)據(jù)集節(jié)點處不斷采集數(shù)據(jù),并構建一個滑動窗口,在采集的數(shù)據(jù)流處,建立一個數(shù)據(jù)密度估算數(shù)值關系,可表示為:
[f(x)=1Sct=1kxt]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)
其中,[Sc]表示采樣參數(shù),[xt]表示數(shù)據(jù)密度函數(shù),[k]表示滑動周期。在上述數(shù)值關系內(nèi),確定一個簇首數(shù)值,在密度數(shù)值返回各數(shù)據(jù)集中處理時,設定一個返回周期,按照不同的時間尺度,不斷替換密度數(shù)值中的正常數(shù)據(jù)流中的數(shù)據(jù)。
為了消除檢測過程中產(chǎn)生的誤判,在簇首節(jié)點處下傳一個全局分布參考數(shù)值,數(shù)據(jù)流節(jié)點結合該信息區(qū)分數(shù)據(jù)集內(nèi)的有效數(shù)據(jù),構建一個滑動區(qū)分窗口,當存在節(jié)點進入該滑動窗口時,自動觸發(fā)計算窗口處理數(shù)據(jù)集的密度,并更新為下一個檢測窗口,不斷循環(huán)處理形成一個自動處理過程。對應多個檢測狀態(tài),定義上述檢測過程的異常概率,計算異常狀態(tài)下的數(shù)據(jù)流相關性,并將該統(tǒng)計特征處理為一個聯(lián)合參數(shù),控制該聯(lián)合參數(shù)在檢測窗口中的比例,對應不同的比例數(shù)值,設定不同條件下的檢測常量,在該檢測常量的控制下,構建一個連續(xù)的數(shù)據(jù)流異常檢測過程,綜合上述處理,最終完成對基于數(shù)據(jù)建模的數(shù)據(jù)流異常檢測方法的構建。
2 對比實驗
2.1 實驗準備
采用KDDCUP-99數(shù)據(jù)集作為處理對象,選定數(shù)據(jù)集中500個數(shù)據(jù)作為實驗對象,將正常網(wǎng)絡訪問數(shù)據(jù)作為數(shù)據(jù)流正常數(shù)據(jù),將異常訪問狀態(tài)下的測試數(shù)據(jù)作為異常數(shù)據(jù)流處理對象。在實際處理過程中,將不同種異常網(wǎng)絡數(shù)據(jù)看作為相同異常狀態(tài),在標記異常數(shù)據(jù)組后,選定100組測試數(shù)據(jù)作為異常數(shù)據(jù)流,將400組數(shù)據(jù)作為正常數(shù)據(jù)流。設定每組數(shù)據(jù)在檢測時的采樣節(jié)點,在每四組正常數(shù)據(jù)內(nèi)安置一個異常數(shù)據(jù),并設定數(shù)據(jù)組成數(shù)據(jù)集間隔數(shù)值,設定的間隔數(shù)值如表1所示。
在表1設定的間隔數(shù)值控制下,將上述數(shù)據(jù)形成的數(shù)據(jù)流,整合為下表所示的數(shù)據(jù)特征,并對應不同的數(shù)據(jù)特征,設定不同的轉化參數(shù)。并使用設定的屬性數(shù)據(jù)對應設定的轉換參數(shù)后,準備兩種常規(guī)異常檢測方法與設計的異常檢測方法進行測試,對比三種檢測方法的性能。
2.2 結果及分析
基于上述實驗準備,控制三種異常檢測方法從安插節(jié)點YCSJ-01-01開始檢測,并將其作為起始時間統(tǒng)計點,統(tǒng)計三種檢測方法的運行時間,運行時間結果如下表2所示。
由表2可知,與兩種常規(guī)檢測方法相比,設計的檢測方法檢測所需的時間最短,時效性最強。
在上述實驗環(huán)境下,定義檢測方法的檢測誤判率為誤檢數(shù)據(jù)占據(jù)正常數(shù)據(jù)的比例,統(tǒng)計不同數(shù)據(jù)周期下,三種檢測方法實際產(chǎn)生的檢測誤判率,實驗結果如下表3所示.
由表3可知,與兩種常規(guī)檢測方法相比,設計得到的檢測方法產(chǎn)生的誤判率數(shù)值最小,能夠正確檢測多種數(shù)據(jù)。
3 結束語
隨著數(shù)據(jù)處理技術的發(fā)展,數(shù)據(jù)流形式逐漸豐富,產(chǎn)生的異常數(shù)據(jù)流逐漸成為當下的研究熱點,在數(shù)據(jù)建模技術的支持下,構建一種異常檢測方法,能夠改善常規(guī)檢測方法存在的不足,為今后研究檢測異常數(shù)據(jù)流提供研究依據(jù)。
參考文獻:
[1] 楊杰,張東月,周麗華,等.基于網(wǎng)格耦合的數(shù)據(jù)流異常檢測[J].計算機工程與科學,2020,42(1):25-35.
[2] 鄧麗,劉慶連,鄔群勇,等.基于數(shù)據(jù)流時空特征的WSN異常檢測及異常類型識別[J].傳感技術學報,2019,32(9):1374-1380.
[3] 杜臻,馬立鵬,孫國梓.一種基于小波分析的網(wǎng)絡流量異常檢測方法[J].計算機科學,2019,46(8):178-182.
[4] 徐曉丹,姚明海,劉華文.基于稀疏表征的異常點檢測方法[J].華中科技大學學報(自然科學版),2020,48(7):20-25.
[5] 董書琴,張斌.基于深度特征學習的網(wǎng)絡流量異常檢測方法[J].電子與信息學報,2020,42(3):695-703.
【通聯(lián)編輯:張薇】