趙向兵,白 偉
(1.山西大同大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,山西大同 037009; 2.太原廣播電視大學(xué),山西太原 030012)
離群數(shù)據(jù)檢測(cè)研究
趙向兵1,白 偉2
(1.山西大同大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,山西大同 037009; 2.太原廣播電視大學(xué),山西太原 030012)
通過(guò)充分調(diào)研,對(duì)現(xiàn)有離群數(shù)據(jù)檢測(cè)算法作了分析比較,總結(jié)出各算法的特點(diǎn),并且探討和展望了離群數(shù)據(jù)檢測(cè)的幾個(gè)熱點(diǎn)問(wèn)題,為離群數(shù)據(jù)檢測(cè)算法的進(jìn)一步研究打下基礎(chǔ)。
離群數(shù)據(jù);高維離群;數(shù)據(jù)流;分布離群
近年來(lái),隨著計(jì)算機(jī)硬件技術(shù)和數(shù)據(jù)庫(kù)技術(shù)的飛速發(fā)展,許多行業(yè)建立了自己的數(shù)據(jù)庫(kù)系統(tǒng)。隨之而來(lái)出現(xiàn)了龐大的存儲(chǔ)數(shù)據(jù),這就需要有強(qiáng)有力的工具,檢測(cè)隱藏在這些數(shù)據(jù)里難以被人們發(fā)現(xiàn)的重要信息。數(shù)據(jù)挖掘就是基于這種需求,引起人們廣泛興趣并迅速發(fā)展起來(lái)的一門(mén)學(xué)科。數(shù)據(jù)挖掘是從大量的、隨機(jī)的、有噪聲的、模糊的、不完整的數(shù)據(jù)中,檢測(cè)出隱含于其中潛在的有用信息,從而為人們提供決策依據(jù)。離群數(shù)據(jù)檢測(cè)作為數(shù)據(jù)挖掘的一種重要技術(shù),在數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)領(lǐng)域等方面得到了廣泛關(guān)注。其應(yīng)用前景非常廣闊,如:行用卡欺騙、金融領(lǐng)域、藥物研究、氣象預(yù)報(bào)、客戶分類(lèi)、電信詐騙、犯罪行為監(jiān)測(cè)和網(wǎng)絡(luò)入侵檢測(cè)等。
到目前為止,離群數(shù)據(jù)沒(méi)有被普遍采納的定義,基于此Hawkins給出了揭示離群數(shù)據(jù)本質(zhì)的定義:“離群點(diǎn)的表現(xiàn)與其它點(diǎn)如此不同,以至于懷疑它是由完全不同的機(jī)制產(chǎn)生的”[1]。早期的數(shù)據(jù)挖掘算法通常將離群數(shù)據(jù)作為噪聲,去除掉離群數(shù)據(jù)來(lái)減少其對(duì)正常數(shù)據(jù)的干擾,但離群數(shù)據(jù)可能極有價(jià)值,因?yàn)橐蝗f(wàn)個(gè)正常數(shù)據(jù)可能只包含一條有用信息,而一個(gè)離群數(shù)據(jù)可能正是此條有用信息。檢測(cè)的目的在于找出隱含于海量數(shù)據(jù)中相對(duì)孤立而稀疏的異常數(shù)據(jù)模式,離群數(shù)據(jù)的檢測(cè)可以看作兩個(gè)子問(wèn)題:1)在給定數(shù)據(jù)集中定義什么樣的數(shù)據(jù)是離群數(shù)據(jù);2)找出檢測(cè)離群數(shù)據(jù)的有效方法[2]。引起離群點(diǎn)的因素主要是兩個(gè)方面:1)數(shù)據(jù)來(lái)源不同。因?yàn)樵跀?shù)據(jù)采集過(guò)程中,數(shù)據(jù)本身的變化導(dǎo)致了數(shù)據(jù)異常。例如:自然氣候變化、客戶習(xí)慣改變等,這些有用的離群數(shù)據(jù)是我們重點(diǎn)關(guān)注的對(duì)象。2)數(shù)據(jù)采集時(shí),數(shù)據(jù)異常是人為因素所致。如干擾信號(hào)、測(cè)量失誤等。由于這些錯(cuò)誤干擾數(shù)據(jù)的正確分析,進(jìn)而影響其結(jié)果,是真正的噪聲數(shù)據(jù),所以有必要清除這些數(shù)據(jù)。
近年來(lái),隨著離群數(shù)據(jù)檢測(cè)的廣泛應(yīng)用及對(duì)其重要性認(rèn)識(shí)的加深,數(shù)據(jù)挖掘研究領(lǐng)域已成為熱點(diǎn)問(wèn)題之一。離群數(shù)據(jù)檢測(cè)方法大致分為以下幾類(lèi):基于統(tǒng)計(jì)學(xué)方法、基于距離方法、基于密度方法、基于偏差方法[3]。下面分別綜述各算法的特點(diǎn)。
1.1 基于統(tǒng)計(jì)的離群點(diǎn)挖掘算法
離群點(diǎn)挖掘最早出現(xiàn)于統(tǒng)計(jì) (statistical-based)學(xué)領(lǐng)域,其主要思想是假設(shè)已知數(shù)據(jù)集的概率分布或概率模型(如泊松分布和正態(tài)分布)和數(shù)據(jù)參數(shù)(如均值和方差),利用數(shù)據(jù)集的規(guī)律及分布狀況進(jìn)行不一致性檢測(cè),把嚴(yán)重偏離分布曲線的數(shù)據(jù)確定為離群點(diǎn)?;诜植茧x群數(shù)據(jù)檢測(cè)方法可以依托概率統(tǒng)計(jì)理論,這為離群數(shù)據(jù)檢測(cè)提供有力支撐。利用概率統(tǒng)計(jì)理論生成統(tǒng)計(jì)模型,有利于解釋離群數(shù)據(jù),同時(shí)節(jié)省數(shù)據(jù)的存儲(chǔ)空間。然而,此方法只適用于周期數(shù)據(jù),單屬性數(shù)據(jù)及數(shù)值型數(shù)據(jù)的挖掘?,F(xiàn)實(shí)生活中,大多數(shù)為高維數(shù)據(jù),基于統(tǒng)計(jì)離群點(diǎn)算法不能滿足高維數(shù)據(jù)的挖掘。而基于統(tǒng)計(jì)的方法必須以已確定的數(shù)據(jù)分布為前提條件,所以不適用未知數(shù)據(jù)分布情況。該算法可移植性差,主要被應(yīng)用于科研計(jì)算領(lǐng)域。
1.2 基于距離的離群點(diǎn)挖掘算法
1998年,Knorr和Ng提出基于距離 (distancebased)的方法,該方法不依賴(lài)統(tǒng)計(jì)檢驗(yàn),不需要知道數(shù)據(jù)的具體分布,而是把沒(méi)有“足夠多”鄰居的對(duì)象看作是離群對(duì)象,根據(jù)給定對(duì)象的距離定義鄰居。通常描述為DB(p,d),如果數(shù)據(jù)集S中至少有P部分與對(duì)象O的距離大于d,則對(duì)象O是一個(gè)帶參數(shù)P和d的離群數(shù)據(jù)。該方法拓展了基于統(tǒng)計(jì)思想的算法,即使數(shù)據(jù)集不滿足任何特定分布模型,它也能有效的發(fā)現(xiàn)離群點(diǎn)。但隨著維數(shù)的增加,其算法復(fù)雜度也會(huì)大幅增加。且在高維數(shù)據(jù)集中,空間的稀疏性不能對(duì)離群數(shù)據(jù)給出一個(gè)合理的解釋。此外,該方法需要用戶設(shè)置參數(shù)p和d,確定這些參數(shù)需要多次試湊。基于距離的離群點(diǎn)檢測(cè)算法雖然對(duì)以上算法有所改進(jìn),但它沒(méi)有從根本上解決數(shù)據(jù)的稀疏程度,因?yàn)榇怂惴ǖ膮?shù)選擇是就全局而言的,對(duì)于局部離群無(wú)能為力,挖掘出來(lái)的離群點(diǎn)也只能算是全局離群點(diǎn)。
基于距離的離群數(shù)據(jù)檢測(cè)算法分為:基于索引、嵌套循環(huán)和單元算法。基于索引檢測(cè)算法就是采用多維索引結(jié)構(gòu)搜索每個(gè)對(duì)象O在半徑d范圍內(nèi)的鄰居。該算法有良好的擴(kuò)展性,但我們?cè)谟?jì)算復(fù)雜度時(shí)只研究了搜索對(duì)象花費(fèi)的時(shí)間,沒(méi)有考慮建造索引任務(wù)的復(fù)雜度。嵌套循環(huán)算法和基于索引的算法具有同樣的時(shí)間復(fù)雜度,但嵌套循環(huán)算法的研究是針對(duì)避免索引結(jié)構(gòu)的構(gòu)建,試圖大幅減少I(mǎi)/ O的訪問(wèn)次數(shù)。將內(nèi)存的緩沖空間分為兩部分,同時(shí)將數(shù)據(jù)集合分成若干個(gè)邏輯塊。邏輯塊有選擇性的裝入每個(gè)緩沖區(qū)域,通過(guò)精心選擇達(dá)到最佳的I/ O效率。為了降低此算法的復(fù)雜度,主要對(duì)存儲(chǔ)于內(nèi)存的數(shù)據(jù)集合作單元?jiǎng)澐痔幚?,該算法不是逐個(gè)對(duì)每對(duì)象而是對(duì)每個(gè)劃分單元查找離群數(shù)據(jù)。
1.3 基于密度的方法
基于密度(density-based)的方法是在基于距離方法的基礎(chǔ)上發(fā)展起來(lái)的,其思想是根據(jù)數(shù)據(jù)之間的距離和某一給定范圍內(nèi)的數(shù)據(jù)提出了“密度”概念,然后根據(jù)密度判定數(shù)據(jù)是否為離群點(diǎn)。所以它是一個(gè)局部概念。典型的算法有Breuing和Kriegel提出的LOF,計(jì)算每個(gè)點(diǎn)的局部離群因子識(shí)別離群數(shù)據(jù),LOF是點(diǎn)P和其最近鄰的局部可達(dá)密度比率的平均值。LOF(P)越大,越可能是離群數(shù)據(jù)。該算法的主要缺點(diǎn)是I/O代價(jià)比較高,對(duì)高維數(shù)據(jù)效率低。該方法對(duì)每個(gè)對(duì)象是否為離群對(duì)象的判定依據(jù)于兩方面:(1)一定范圍內(nèi)數(shù)據(jù)對(duì)象的個(gè)數(shù),(2)數(shù)據(jù)對(duì)象之間的距離。這兩個(gè)數(shù)據(jù)的結(jié)合體現(xiàn)了數(shù)據(jù)的局部特性和密度含義,用不同密度區(qū)域中數(shù)據(jù)對(duì)象的離群度檢測(cè)離群點(diǎn),所以此方法比較準(zhǔn)確,而且便于解釋離群點(diǎn)具體意義,得到了廣泛的發(fā)展空間。但時(shí)間復(fù)雜度達(dá)到了O(DNk),且此算法參數(shù)確定存在人為因素,參數(shù)的選擇也比較困難。
1.4 基于偏差的離群點(diǎn)挖掘算法
基于偏差(density-based)的離群點(diǎn)檢測(cè)是通過(guò)檢測(cè)對(duì)象的主要特征來(lái)識(shí)別離群點(diǎn),存在描述特征差異的數(shù)據(jù)對(duì)象認(rèn)為是離群點(diǎn)。Arning等提出一種“序列異常”概念,從一系列類(lèi)似對(duì)象中識(shí)別異常的方法進(jìn)行模仿,利用相異度函數(shù)計(jì)算光滑因子的最大子集,集合中的對(duì)象即為離群數(shù)據(jù)。其主要思想是檢驗(yàn)數(shù)據(jù)集的主要特征進(jìn)而發(fā)現(xiàn)離群點(diǎn)。如果一個(gè)數(shù)據(jù)嚴(yán)重不同于前面的序列時(shí),即可依據(jù)相異度函數(shù)計(jì)算光滑因子的最大子集,即為異常集,集合中的對(duì)象即為離群數(shù)據(jù)。雖然其方法理論上可以挖掘各種類(lèi)型的數(shù)據(jù),但是由于要事先知道不容易被人們發(fā)現(xiàn)的數(shù)據(jù)主要特征,所以很難選擇數(shù)據(jù)的相異度函數(shù),而且結(jié)果不盡如人意。該算法趨于理想化,在大多數(shù)情況下,不能運(yùn)用于復(fù)雜的高維數(shù)據(jù)。
現(xiàn)有的研究表明,目前離群數(shù)據(jù)檢測(cè)的熱點(diǎn)問(wèn)題主要是對(duì)高維數(shù)據(jù)、數(shù)據(jù)流和分布式方面的研究。
2.1 高維大數(shù)據(jù)集離群點(diǎn)檢測(cè)
隨著計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)的采集量不斷增大,且維數(shù)也不斷增加,離群數(shù)據(jù)的檢測(cè)面臨著巨大的挑戰(zhàn)。在高維數(shù)據(jù)集中,數(shù)據(jù)和數(shù)據(jù)之間非常稀疏,數(shù)據(jù)對(duì)象之間的距離及區(qū)域密度不再有直觀的意義。許多算法在高維數(shù)據(jù)的離群點(diǎn)檢測(cè)中不再有效,所以對(duì)高維數(shù)據(jù)離群點(diǎn)的檢測(cè)是一個(gè)復(fù)雜且有巨大發(fā)展空間的研究課題。
現(xiàn)在,解決高維數(shù)據(jù)的離群數(shù)據(jù)檢測(cè)方法有投影變換和屬性提取。通過(guò)投影子空間進(jìn)行查找,但子空間的組合數(shù)較大,必須在其中找到最優(yōu)的組合,這就可以用遺傳算法、微粒群等算法。另外,在降維時(shí)可以對(duì)冗余屬性和不相關(guān)屬性進(jìn)行刪除,得到最小屬性集合,使其具有幾乎全部屬性的分布情況。2005年,Aggarwal等提出了一種新的高維離群數(shù)據(jù)檢測(cè)算法,通過(guò)離群子空間度量——稀疏度系數(shù),將高維數(shù)據(jù)投影到低維子空間中,利用遺傳算法搜索離群數(shù)據(jù),這樣可以提高離群數(shù)據(jù)的效率。但該算法也有不足之處:(1)結(jié)果不很準(zhǔn)確;(2)不能保證檢測(cè)出所有的離群數(shù)據(jù);(3)只能在有限維上尋找。在此基礎(chǔ)上又提出了一種基于用戶實(shí)例的高維數(shù)據(jù)檢測(cè)算法,利用用戶掌握的實(shí)例提取離群數(shù)據(jù)概念,然后用改進(jìn)的遺傳算法搜索離群子空間,該算法具有很高的準(zhǔn)確性、可解釋性和可伸縮性。張繼福等[4]進(jìn)行了一些細(xì)節(jié)方面處理。在離群子空間基礎(chǔ)上引入了稠密度系數(shù)的概念,提高了實(shí)驗(yàn)結(jié)果的準(zhǔn)確性和高效性。 金義富等[5]提出了基于關(guān)鍵維或區(qū)域的子空間及聚類(lèi)算法,收到了良好的效果。Shekhar等學(xué)者提出二分算法,將屬性分為空間屬性和非空間屬性,計(jì)算對(duì)象與其鄰域的非空間屬性值的比值或差值,消除數(shù)據(jù)的自相關(guān)性,簡(jiǎn)稱(chēng)為SLZ算法。該算法不能解決數(shù)據(jù)的空間異質(zhì)性問(wèn)題,而主要檢測(cè)全局離群點(diǎn)。Cbawla等[6]同時(shí)考慮了數(shù)據(jù)的自相關(guān)性和異質(zhì)性,引入波動(dòng)參數(shù)β,用β和對(duì)象與其鄰域歐拉距離的乘積表示空間局部離群度SLOM。但β需處于對(duì)稱(chēng)分布狀況,所以在空間鄰居較少或波動(dòng)幅度較小的狀況下不能準(zhǔn)確反映波動(dòng)情況,有誤檢和漏檢的可能。薛安榮等[7]人提出了一種SLOF算法,該算法同時(shí)解決了空間自相關(guān)性約束問(wèn)題和空間異質(zhì)性約束問(wèn)題,用空間領(lǐng)域偏離因子表示離群度,但該算法屬性權(quán)值還由鄰域?qū)<覜Q定。針對(duì)這一點(diǎn),一種改進(jìn)的基于加權(quán)屬性的SLOF離群點(diǎn)挖掘算法[8]對(duì)該算法做了改進(jìn),進(jìn)一步減少了人為因素。
總之,高維離群數(shù)據(jù)的檢測(cè)還有很大的研究空間,且計(jì)算復(fù)雜,還需進(jìn)一步改善。
2.2 數(shù)據(jù)流離群點(diǎn)檢測(cè)
數(shù)據(jù)流是一種新型數(shù)據(jù),應(yīng)用于通信服務(wù)、金融服務(wù)和網(wǎng)絡(luò)控制等領(lǐng)域。與傳統(tǒng)數(shù)據(jù)相比,其具有連續(xù)性、無(wú)限性、實(shí)時(shí)性,按照到達(dá)的先后順序控制。由于數(shù)據(jù)流的數(shù)據(jù)量很龐大,不可能掃描和存儲(chǔ)整個(gè)數(shù)據(jù)流集合。所以對(duì)數(shù)據(jù)流研究離群檢測(cè)時(shí),關(guān)鍵是設(shè)計(jì)高效的單遍掃描檢測(cè)算法。典型算法有:基于抽樣方法、樹(shù)模型、基于散列和指數(shù)直方圖等方法。在一些現(xiàn)有算法中,通過(guò)較小權(quán)重的設(shè)置或丟棄舊數(shù)據(jù)來(lái)照應(yīng)變化分布的情況,但存在缺陷,沒(méi)有考慮到分布變化是怎樣發(fā)生以及何時(shí)發(fā)生。所以采用參照和滑動(dòng)兩個(gè)數(shù)據(jù)窗口,利用兩個(gè)窗口的數(shù)據(jù)集分布情況辨別數(shù)據(jù)流數(shù)據(jù)變化,并對(duì)變化數(shù)據(jù)進(jìn)行量化和分析,收到比較好的效果。文獻(xiàn)[9]提出一種動(dòng)態(tài)網(wǎng)格劃分檢測(cè)算法,過(guò)濾掉稠密區(qū)域數(shù)據(jù),減小考察數(shù)據(jù)規(guī)模,通過(guò)計(jì)算其離群度來(lái)確定離群數(shù)據(jù)。文獻(xiàn)[10]利用組合優(yōu)化解決數(shù)據(jù)流離群數(shù)據(jù)檢測(cè)的問(wèn)題??傊?,數(shù)據(jù)流離群數(shù)據(jù)檢測(cè)方法是比較前沿的研究領(lǐng)域,有待于進(jìn)一步的研究。
2.3 分布式離群點(diǎn)檢測(cè)
現(xiàn)階段分布式系統(tǒng)在實(shí)際應(yīng)用中得到了較大的發(fā)展,對(duì)各個(gè)節(jié)點(diǎn)之間傳輸數(shù)據(jù)的離群點(diǎn)檢測(cè),以上算法是不可行的,所以提出了分布式離群數(shù)據(jù)挖掘算法。
解決高維海量數(shù)據(jù)集的一種途徑是基于網(wǎng)格分布式離群挖掘,網(wǎng)格作為一種能帶來(lái)巨大處理、存儲(chǔ)能力和其他IT資源的新型網(wǎng)絡(luò),網(wǎng)格計(jì)算可以通過(guò)共享網(wǎng)絡(luò)將不同地點(diǎn)計(jì)算機(jī)相聯(lián),形成虛擬的超級(jí)計(jì)算機(jī),可為研究和其它數(shù)據(jù)集中的應(yīng)用提供強(qiáng)大的處理能力。建立在此基礎(chǔ)之上的數(shù)據(jù)挖掘,不僅結(jié)合了網(wǎng)格計(jì)算思想及其技術(shù)優(yōu)點(diǎn),而且能高效分析處理廣域分布的海量數(shù)據(jù)集,并給科學(xué)研究領(lǐng)域,經(jīng)濟(jì)社會(huì)生活帶來(lái)巨大的價(jià)值。
全美有12所大學(xué)和研究機(jī)構(gòu)參與了Globu的研發(fā)項(xiàng)目,作為美國(guó)argonne國(guó)家實(shí)驗(yàn)室的Globus,研究了網(wǎng)格計(jì)算的關(guān)鍵理論,如數(shù)據(jù)管理、資源管理、信息服務(wù)、及安全等,開(kāi)發(fā)了能在各種平臺(tái)上運(yùn)行的網(wǎng)格計(jì)算軟件(toolkit),組建大型網(wǎng)格試驗(yàn)平臺(tái),開(kāi)發(fā)適合于大型網(wǎng)格系統(tǒng)運(yùn)行的程序。Globus網(wǎng)格計(jì)算協(xié)議是以互聯(lián)網(wǎng)協(xié)議中的通信、名字解析、路由為基礎(chǔ)。
目前,盡管基于網(wǎng)格平臺(tái)的分布式數(shù)據(jù)挖掘已成為研究熱點(diǎn)之一,但是在國(guó)內(nèi)外,對(duì)它的研究成果還較少。
離群點(diǎn)檢測(cè)技術(shù)的應(yīng)用前景非常廣泛,已引起了許多研究者的關(guān)注。該文章主要詳細(xì)討論離群點(diǎn)檢測(cè)算法,比較各種檢測(cè)算法的特點(diǎn),最后總結(jié)了離群點(diǎn)檢測(cè)算法的三個(gè)熱點(diǎn)問(wèn)題。
[1]Hawkins D.Identification of Outliers[M].London:Chapman and Hall,1980.
[2]Jiawei Han,Micheline Kanmber.數(shù)據(jù)挖掘:概念與技術(shù)(第二版)[M].范明,孟小峰譯.北京:機(jī)械工業(yè)出版社,2008.
[3]呂曉玲,謝邦昌.數(shù)據(jù)挖掘:方法與應(yīng)用[M].北京:中國(guó)人民大學(xué)出版社,2009.
[4]張繼福,蔣義勇,胡立華.基于概念格的天體光譜離群數(shù)據(jù)識(shí)別方法[J].自動(dòng)化學(xué)報(bào),2008,34(9):1060-1066.
[5]金義富,朱慶生,邢永康.一種基于關(guān)鍵域子空間的離群數(shù)據(jù)聚類(lèi)算法[J].計(jì)算機(jī)研究與發(fā)展,2007,44(4),651-659.
[6]Chawla Sanjay,Sun Pei.SLOM:a newmeasure for localspatialoutliers[J].Knowledge and Information Systems,2006(9):412-429.
[7]薛安榮,鞠時(shí)光,何偉華,等.局部離群點(diǎn)挖掘算法研究[J].計(jì)算機(jī)學(xué)報(bào),2007,30(8):1457-1458.
[8]趙向兵.一種改進(jìn)的基于加權(quán)屬性的SLOF離群點(diǎn)挖掘算法[J].山西大同大學(xué)學(xué)報(bào):自然科學(xué)版,2011,27(3):11-13.
[9]楊宜東,孫志揮,朱玉全,等.基于動(dòng)態(tài)網(wǎng)格的數(shù)據(jù)流離群點(diǎn)快速檢測(cè)算法[J].軟件學(xué)報(bào),2006,17(8):1796-1803.
[10]周曉云,孫志揮,張柏禮,等.高維類(lèi)別屬性數(shù)據(jù)流離群點(diǎn)快速挖掘算法[J].軟件學(xué)報(bào),2007,18(4):933-942.
Research on Outlier Detection
ZHAO Xiang-bing1,BAIWei2
(1.School ofMathe matic s and Computer Science,ShanxiDatong University,Datong Shanxi,037009; 2.Taiyuan R adio and T elevision U niversity,T aiyuan Shanxi,030012)
This paper analyzed and compared outlier detection algorithms through full investigation.The characteristics of each algorithm was summarized.Furthermore several hot issueswere discussed and prospected in order to prepare further research of outlier detection algorithms.
outlier data;high-dimension outlier;data stream;distribution outlier 〔責(zé)任編輯 高?!?/p>
TP311
A
1674-0874(2012)02-0010-04
2011-02-28
趙向兵(1978-),男,山西大同人,助教,研究方向:數(shù)據(jù)挖掘。