宋金玉,郭一平,王 斌
(1.解放軍陸軍工程大學(xué) 指揮控制工程學(xué)院,江蘇 南京 210007;2.解放軍陸軍工程大學(xué) 教學(xué)考試中心,江蘇 鎮(zhèn)江 212000)
全球知名咨詢公司麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素?!钡F(xiàn)實生活中,人們常常抱怨“數(shù)據(jù)豐富,信息貧乏”。這是因為在海量的數(shù)據(jù)中,存在大量無用甚至錯誤的“臟數(shù)據(jù)”,根據(jù)“垃圾進,垃圾出(garbage in,garbage out)”[1]原理,低質(zhì)量的數(shù)據(jù)難以提供有價值的信息,反而會帶來負(fù)面影響,會因各種數(shù)據(jù)/信息質(zhì)量(data/information quality,DQ/IQ)問題給用戶帶來麻煩甚至損失[2-4]。
數(shù)據(jù)質(zhì)量低的一個方面就是數(shù)據(jù)異常,即數(shù)據(jù)集中出現(xiàn)明顯區(qū)別于其他正常數(shù)據(jù)的數(shù)據(jù)。由于數(shù)據(jù)異常往往使數(shù)據(jù)表現(xiàn)為孤立點[5],也稱之為離群點或異常點。這些數(shù)據(jù)可能是需要消除的錯誤數(shù)據(jù),也可能是重要的報警點,預(yù)示出現(xiàn)問題或者發(fā)生了重要變化。
離群點檢測(又稱為異常檢測)是找出其行為不同于預(yù)期對象的過程,通過檢測并去除數(shù)據(jù)源中的這些孤立點可達到消除數(shù)據(jù)異常的目的,從而提高數(shù)據(jù)源的數(shù)據(jù)質(zhì)量。
數(shù)據(jù)挖掘技術(shù)中的聚類分析工具,可以用于離群點(噪聲)檢測。聚類分析采用某種算法將大的數(shù)據(jù)集合根據(jù)數(shù)據(jù)相似性把所有數(shù)據(jù)劃分成簇,即采用相似度進行歸類,相似度較高的歸為一類,明顯不屬于任何一類的單個(或少量)數(shù)據(jù)集可認(rèn)為是異常數(shù)據(jù)。聚類算法有很多種,其中基于密度的方法(density-based method)考慮數(shù)據(jù)集中的每個對象,根據(jù)一定距離內(nèi)數(shù)據(jù)密度來劃分簇數(shù),數(shù)據(jù)比較密集的可以被認(rèn)為一個簇,而比較稀疏的區(qū)域則被認(rèn)為是噪聲。
有代表性的基于密度的全局鄰域(density-based spatial clustering of applications with noise,DBSCAN)算法將數(shù)據(jù)空間中的數(shù)據(jù)抽象為數(shù)據(jù)點,通過計算點之間距離和點密度來進行聚類,可將噪聲或離群點從簇內(nèi)分離。在DBSCAN算法使用中,需設(shè)置鄰域閾值(Eps)和點數(shù)閾值(Minpts)兩個參數(shù),根據(jù)參數(shù)將有一定密度的區(qū)域劃分為簇,且聚類結(jié)果對參數(shù)值敏感。
目前已有許多文獻對Eps和Minpts參數(shù)值的設(shè)定方法進行了研究。對于密度均勻的數(shù)據(jù),文獻[6]通過分析數(shù)據(jù)的統(tǒng)計特性來自適應(yīng)確定Eps和Minpts。對于不同密度數(shù)據(jù)的聚類,文獻[7]采用自適應(yīng)的Eps參數(shù);文獻[8]根據(jù)基于網(wǎng)絡(luò)與基于密度的聚類算法間的等效規(guī)則來計算不同密度的密度閾值;文獻[9]提出基于數(shù)據(jù)分區(qū)的PDBSCAN算法;文獻[10]提出基于網(wǎng)格分區(qū)來確定Eps的方法。
文中根據(jù)數(shù)據(jù)的統(tǒng)計特性,利用圖表的可視化結(jié)果,提出了一種確定DBSCAN算法參數(shù)的方法。
由于數(shù)據(jù)集中相似重復(fù)記錄的個數(shù)是不確定的,因此,要求聚類算法應(yīng)具有能夠發(fā)現(xiàn)任意形狀簇的能力。DBSCAN算法[11]可將具有足夠高密度的區(qū)域劃分為一個簇,簇數(shù)事先是不確定的,點的鄰域的形狀取決于兩點間的距離函數(shù)dist(p,q),對象間的距離是根據(jù)對象的屬性值計算得來的。因此,聚類結(jié)果取決于選擇哪些屬性變量、采用何種距離度量以及如何計算度量的屬性。
下面介紹用來描述算法的相關(guān)概念[12]。
(1)距離。
對象間的距離采用求數(shù)據(jù)相異度的方法。假設(shè)X1,X2代表數(shù)據(jù)集中的兩個數(shù)據(jù)對象,n是參與計算的數(shù)據(jù)對象的屬性個數(shù),每個數(shù)據(jù)對象用n維向量(Xi1,Xi2,…,Xin)表示,X1k,X2k分別為兩個數(shù)據(jù)點的第k維坐標(biāo)。d12是兩點間距離,有多種形式的距離度量可采用。如歐幾里德函數(shù),則d12可由如下公式計算:
(1)
其中,d12就表示這兩個數(shù)據(jù)對象的相異度。當(dāng)兩個對象越相似或接近時,d12值越接近0,而當(dāng)兩個對象越不相同或相距較遠(yuǎn)時,d12值越大。還可以根據(jù)每個屬性的重要性為其賦一個權(quán)重。
(2)鄰域、密度、核心點、邊界點。
數(shù)據(jù)集中任意一點的鄰域記為NEps(p),是數(shù)據(jù)集中與p點的距離小于給定Eps的點的集合。
NEps(p)={q∈D‖dist(p,q)≤Eps}
(2)
鄰域中點的個數(shù)稱為該點的密度,若其大于或等于給定的最小值MinPts,則稱點p為核心點,否則稱為邊界點。
(3)直接密度可達、密度可達、密度相連。
數(shù)據(jù)集中任意兩點p,q,如果q∈NEps(p),且|NEps(p)|≥MinPts,則稱點q是從點p關(guān)于Eps和MinPts直接密度可達的。
如果p,q兩點間存在一個點的序列p1,p2,…,pn,且p1=p,pn=q,pi+1是從pi直接密度可達的,則稱點q是從點p關(guān)于Eps和MinPts密度可達的。
如果存在一個點o,q和p都是從點o關(guān)于Eps和MinPts密度可達的,則稱點q是從點p關(guān)于Eps和MinPts密度相連的。
(4)簇。
數(shù)據(jù)集中基于密度的簇是基于密度可達的最大密度相連的點的集合。簇中的任意兩點是關(guān)于Eps和MinPts密度相連的。
給定參數(shù)Eps和MinPts,DBSCAN算法的實現(xiàn)就是生成相應(yīng)的簇。DBSCAN算法從任意點p開始,檢索所有從點p關(guān)于Eps和MinPts密度可達的點。如果p是核心點,就生成一個關(guān)于Eps和MinPts的簇;如果p是邊界點,且沒有從p密度可達的點,算法就去處理數(shù)據(jù)集中的下一個點。算法實現(xiàn)的流程參見圖1。
相比其他聚類算法,例如基于層次的算法等,DBSCAN算法的優(yōu)點是可以發(fā)現(xiàn)數(shù)據(jù)集中任意形狀的簇,它的聚類速度比較快,聚類能力也很強。但必須為每個簇指定恰當(dāng)?shù)腅ps和MinPts,及每個簇中的至少一個點。由于很難事先獲得數(shù)據(jù)集中所有簇的相關(guān)信息,DBSCAN算法實現(xiàn)時對所有簇采用相同的全局參數(shù)值Eps和MinPts,但把確定參數(shù)的任務(wù)留給用戶,而且算法生成的結(jié)果對參數(shù)是敏感的。如若根據(jù)數(shù)據(jù)集中存在的比較密集的區(qū)域,選取了一個較大的Minpts值,那么數(shù)據(jù)集中其他區(qū)域會因為密度不夠大而不能被劃分成簇,會造成噪聲點過多現(xiàn)象;若根據(jù)數(shù)據(jù)集中存在的比較稀疏的區(qū)域,選取了一個較小的Minpts值,那么整個數(shù)據(jù)集很容易直接被劃成一個大簇,參數(shù)值的微小變化往往會導(dǎo)致差異很大的聚類結(jié)果。
圖1 DBSCAN算法流程
傳統(tǒng)DBSCAN算法中Eps和Minpts兩個參數(shù)是根據(jù)經(jīng)驗設(shè)置的,并根據(jù)聚類結(jié)果進行調(diào)整。這樣做顯然盲目性大,工作量也大,而且效果也不一定好。因此,文中提出了一種參數(shù)的判斷方法,該方法的主要思想是根據(jù)數(shù)據(jù)集本身的統(tǒng)計特性以及圖表的可視化結(jié)果由人工來選擇參數(shù)。
首先按式1計算數(shù)據(jù)對象間的距離,得到距離矩陣Distn×n。
Distn×n={dist(i,j),1≤i≤n,1≤j≤n}
(3)
其中,n是數(shù)據(jù)集D中的數(shù)據(jù)對象個數(shù),每個元素表示對象i到對象j的距離。
求出矩陣后,將行向量按升序排序。這樣,每行就是相應(yīng)數(shù)據(jù)點到其他所有點距離的一個排序。則矩陣Distn×i中第i列的數(shù)據(jù)的意義是距每個數(shù)據(jù)點最近的第i個距離值的集合。為觀察取不同i值(如1,2,…,7)時數(shù)值集合的統(tǒng)計特點,繪制圖形,其中圖2是距離值的概率密度分布曲線,圖3是對第i列數(shù)據(jù)進行升序排序后的曲線。數(shù)據(jù)采用的是隨機生成的含有150個數(shù)據(jù)點的二維數(shù)據(jù)集Dataset1。
圖2 距離值的概率密度分布曲線
圖3 距每個數(shù)據(jù)點最近的第i個距離值的升序曲線
圖2中,曲線均值越大的是對應(yīng)i值越大的曲線??梢钥吹?,無論i取多少,曲線的分布都大概成泊松分布。曲線右側(cè),距離比較大的地方(圖中接近0.4)密度已變得非常小,這些比例很小卻和其他點相比距離明顯偏大很多的點,噪聲的可能性較大。因此,可以考慮以此來確定Eps參數(shù)。
圖3中,曲線由下至上依次是i值增大對應(yīng)的曲線。曲線的趨勢大致相同,前期和中間都比較平緩,末端陡峭。可以發(fā)現(xiàn),當(dāng)i大于4以后,曲線的陡峭點都大概集中在一個區(qū)域,即圖中圓形標(biāo)注內(nèi)。在Martin Ester等的研究[13]中,對此問題也有描述。若取陡峭點對應(yīng)的距離作為鄰域閾值,可以估計,當(dāng)i大于4以后,對噪聲的劃分情況是近似一樣的,也就是聚類和噪聲檢測結(jié)果趨于穩(wěn)定。
所以,取i等于4時,曲線的陡峭點對應(yīng)的距離值作為DBSCAN算法中的Eps參數(shù),即圖3中圓圈標(biāo)注的縱坐標(biāo),大概在0.3~0.4之間,與圖2的分析一致。
前面Eps的取值是取距每個數(shù)據(jù)點最近的第4個距離值集合升序排序后曲線的陡峭點對應(yīng)的距離值,即假定Minpts為4。但由于第一步需人工參與判斷,很可能出現(xiàn)誤差,而且固定的Minpts值設(shè)定不能保證對任意的數(shù)據(jù)集檢測都有比較好的效果。為了能夠更匹配已經(jīng)確定的Eps值,可根據(jù)人們實際中對噪聲判斷的標(biāo)準(zhǔn),再重新確定Minpts值。該思想融合了Alex Rodriguez等[14]提出的新型聚類算法的思想,即對于一般數(shù)據(jù)集,簇中心被局部密度較高的鄰居點所包圍,而高局部密度的點之間距離比較大。首先,根據(jù)2.1中確定Eps的方法得到Eps的值,然后計算每個數(shù)據(jù)點i的局部密度值ρi,即數(shù)據(jù)點鄰域半徑(Eps)內(nèi)包含的鄰居點數(shù),再利用式4計算每個數(shù)據(jù)點i距更高密度點的距離δi,對于具有最高密度的點,δi的取值為其到數(shù)據(jù)集中最遠(yuǎn)點的距離。
(4)
數(shù)據(jù)集仍采用隨機生成的含有150個數(shù)據(jù)點的二維數(shù)據(jù)集Dataset1,對每個數(shù)據(jù)點計算上述兩個值,并以點圖(如圖4)的形式表現(xiàn),圖中的點就是數(shù)據(jù)集的每個對象。
圖4 Dataset1中每個點δi與ρi的函數(shù)關(guān)系
為了進一步說明該圖的意義,又采用隨機生成的含有51個數(shù)據(jù)點的二維數(shù)據(jù)集Dataset2,計算得到每個點δi與ρi的函數(shù)關(guān)系,如圖5所示。
在圖5中,右上角的點δi比較大并且ρi也比較高,應(yīng)該是一個簇的中心,而圖中左邊的點ρi非常小、δi又相對比較大的點更多是噪聲。根據(jù)δi與ρi的函數(shù)關(guān)系點圖,在聚類前,就可以得到數(shù)據(jù)聚類后的一個大概情況。對于數(shù)據(jù)集Dataset2,由圖5可知數(shù)據(jù)集大概集中在一個區(qū)域,并且有少量噪聲點,其中,數(shù)據(jù)對象點1(圖中箭頭標(biāo)注),其ρ為0,并且δ非常大,可以肯定是一個噪聲點;數(shù)據(jù)對象點2和3雖然ρ也比較小,但δ相對不是很大,所以只是有可能是噪聲點,因為DBSCAN聚類的簇是密度相連接的點集。若選取Minpts為7(ρ=7),可以預(yù)測聚類檢測結(jié)果,橫軸坐標(biāo)為7右側(cè)的點肯定是核心點,不會是噪聲,而左邊那些比較稀疏的點則有可能存在要尋找的噪聲點。在圖4中,可以判斷數(shù)據(jù)集大概集中在兩個區(qū)域,也有可能存在噪聲。若選取Minpts為2(ρ=2),橫坐標(biāo)為2左側(cè)的三個點有可能是要檢測的異常噪聲點;若選取Minpts為5,橫坐標(biāo)為5左側(cè)的六個點都有可能是要檢測的異常噪聲點。
圖5 Dataset2中每個點δi與ρi的函數(shù)關(guān)系
因此,利用δi與ρi的函數(shù)關(guān)系點圖,Minpts值的設(shè)置就轉(zhuǎn)換成了ρ閾值的選取問題,可選取圖中左邊稀疏點和密集點分界處的橫坐標(biāo)(ρ值)。在實際應(yīng)用中,若對噪聲的要求不是很嚴(yán)格,即偏差度不是很大就可以認(rèn)為是噪聲的話,可選取比較大的ρ閾值(Min-pts值);否則,可選取比較小的ρ閾值(Minpts值)。
下面在美國加州大學(xué)信息與計算機科學(xué)系的Iris(鳶尾花)數(shù)據(jù)集上,應(yīng)用DBSCAN聚類算法對數(shù)據(jù)進行異常檢測分析,檢驗所提出的參數(shù)配置方法的有效性。
首先對數(shù)據(jù)集進行改造,添加了兩個異常點,即補充了第151個數(shù)據(jù)點(第152行),該數(shù)據(jù)點因花瓣的長度(12)錄入有誤,造成異常;修改第70個數(shù)據(jù)點(第71行),使其class屬性值由原數(shù)據(jù)集中的Iris-versicolor改為Iris-virginica。處理后的Iris(鳶尾花)數(shù)據(jù)集的部分?jǐn)?shù)據(jù)如表1所示,數(shù)據(jù)集有4個數(shù)值型屬性,1個字符型屬性。
DBSCAN算法通過計算各個數(shù)據(jù)點的歐氏距離來聚類,要求參與計算的是數(shù)值型的屬性。但是,在實際中,通常會有字符型屬性,若將其舍棄,必然會喪失數(shù)據(jù)信息的完整性。文中將這類屬性分為兩類。一類是序數(shù)類型屬性,比如軍銜(少尉,中尉,上尉……)。這類屬性的特點是不同屬性之間有聯(lián)系,而且是等距離的。所以,可將其替換為數(shù)值1,2,3……。另一類是標(biāo)稱分類屬性的,比如國別(中國,美國,俄羅斯……)。若數(shù)據(jù)中有多個此類型的屬性,通常只選取一個有代表性的參與運算。文中是在數(shù)據(jù)處理中按標(biāo)稱屬性產(chǎn)生概念分層的方法。在聚類前,自動按標(biāo)稱屬性分區(qū)聚類,不同的分區(qū)選取不同的參數(shù)設(shè)定。這樣的處理雖然增加了工作量,但是不僅保證了信息的完整性,而且解決了數(shù)據(jù)密度不均勻卻只有一個全局參數(shù)設(shè)定的缺陷。
表1 待檢測的Iris數(shù)據(jù)集的部分?jǐn)?shù)據(jù)
對Iris(鳶尾花)數(shù)據(jù)集的檢測按class屬性值Iris-setosa,Iris-versicolor,Iris-virginica進行分區(qū),即分為3個區(qū),對每個分區(qū)分別進行算法的參數(shù)設(shè)置。采用前述的參數(shù)配置方法,通過可視化的判定,設(shè)置Eps分別取值1.5、0.9、1,Minpts分別取值12、2、2,從程序輸出檢測結(jié)果可以看到,除了檢測出之前添加的兩個異常點外,還檢測出兩個異常點,分別是第42個數(shù)據(jù)點和第61個數(shù)據(jù)點。在原數(shù)據(jù)集中找到這兩個點并進行人工檢查,可以發(fā)現(xiàn)第42個數(shù)據(jù)點的sepal width屬性值和其他Iris-setosa類鳶尾花相比是最小的,而且偏差比較大,而第61個數(shù)據(jù)點的四個數(shù)值屬性值和其他Iris-versicolor類鳶尾花相比都是比較小的,這也就解釋了這兩個點被認(rèn)為是離群噪聲點的原因。因此,從數(shù)據(jù)集的檢測結(jié)果來看,該方法的參數(shù)設(shè)置是比較準(zhǔn)確的,異常檢測的結(jié)果也是非常有效的。
為了進一步說明參數(shù)設(shè)置的準(zhǔn)確性,將參數(shù)Eps統(tǒng)一取值為1,Minpts統(tǒng)一取值為4,得到的異常檢測結(jié)果輸出了7個異常點,其中一些異常點并不符合對異常點的判斷標(biāo)準(zhǔn)。這說明DBSCAN算法對參數(shù)是敏感的,當(dāng)參數(shù)設(shè)置不合適時,其檢測結(jié)果也將不準(zhǔn)確,也驗證了文中算法是有效的。
對數(shù)據(jù)異常檢測問題進行了研究,將基于密度的DBSCAN聚類算法用于數(shù)據(jù)的異常檢測,并針對該算法在應(yīng)用過程中對參數(shù)設(shè)置敏感的問題,提出了一種配置算法鄰域閾值(Eps)和點數(shù)閾值(Minpts)的方法。該方法可根據(jù)數(shù)據(jù)集本身的統(tǒng)計特性以及圖表的可視化展示,為算法確定合適的參數(shù)。編程實現(xiàn)了DBSCAN聚類算法及輔助參數(shù)確定的計算,并利用MATLAB工具進行可視化展現(xiàn)。并在Iris數(shù)據(jù)集上進行檢測,通過對比測試,驗證了用該方法進行DBSCAN聚類算法參數(shù)的設(shè)置是可行的,彌補了DBSCAN聚類算法參數(shù)設(shè)置單靠經(jīng)驗的傳統(tǒng)做法,使得檢測結(jié)果的準(zhǔn)確性和可伸縮性更好。
目前,該DBSCAN聚類算法參數(shù)配置方法需要人工參與判定,仍存在一定的人為因素,同時參數(shù)判定的過程還比較麻煩耗時,這些都有待進一步的改進提高。