国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種自動(dòng)聚類(lèi)的離群點(diǎn)識(shí)別方法研究

2023-06-25 15:07:14黃強(qiáng)葉青聶斌朱彥陳郭永坤
現(xiàn)代信息科技 2023年7期
關(guān)鍵詞:數(shù)據(jù)挖掘

黃強(qiáng) 葉青 聶斌 朱彥陳 郭永坤

摘? 要:針對(duì)傳統(tǒng)離群點(diǎn)識(shí)別方法對(duì)數(shù)據(jù)的分布形狀和密度有特定要求,需設(shè)定參數(shù)的問(wèn)題,提出了一種自動(dòng)聚類(lèi)的離群點(diǎn)識(shí)別方法。該方法通過(guò)引入相互K近鄰數(shù)來(lái)表示數(shù)據(jù)對(duì)象的離群度,對(duì)數(shù)據(jù)的分布形狀、分布密度無(wú)要求,可以輸出全局離群點(diǎn)、局部離群點(diǎn)和離群簇;通過(guò)k次迭代來(lái)實(shí)現(xiàn)自動(dòng)聚類(lèi),無(wú)需人為設(shè)定參數(shù)。通過(guò)合成數(shù)據(jù)以及UCI數(shù)據(jù)實(shí)驗(yàn),驗(yàn)證了該方法的有效性、普適性。

關(guān)鍵詞:局部離群點(diǎn);離群點(diǎn)識(shí)別;離群簇;自動(dòng)聚類(lèi);數(shù)據(jù)挖掘

中圖分類(lèi)號(hào):TP301? ? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)07-0006-05

Abstract: Aiming at the problem that traditional outlier recognition methods have specific requirements for the distribution shape and distribution density of data and need to set parameters, an automatic clustering outlier recognition method is proposed. This method represents the outlier degree of data objects by introducing the mutual K-nearest neighbor number, with no requiring for the distribution shape and distribution density of the data, and can output global outliers, local outliers, and outlier cluster; Automatic clustering is achieved through k iterations, no need to manually set parameters. The effectiveness and universality of this method are verified through synthetic data and UCI data experiments.

Keywords: local outlier; outlier recognition; outlier cluster; automatic clustering; data mining

0? 引? 言

隨著信息技術(shù)和數(shù)據(jù)密集型科學(xué)的發(fā)展,離群點(diǎn)識(shí)別在很多領(lǐng)域得到研究和應(yīng)用,比如醫(yī)療領(lǐng)域、污水站點(diǎn)監(jiān)測(cè)、圖像異常檢測(cè)、網(wǎng)絡(luò)入侵檢測(cè)等[1-4]。

離群點(diǎn)是指與數(shù)據(jù)集中其他數(shù)據(jù)對(duì)象顯著偏離,像是產(chǎn)生于不同機(jī)制的數(shù)據(jù)對(duì)象[5]。離群點(diǎn)的類(lèi)型有全局離群點(diǎn)、局部離群點(diǎn)和集體離群點(diǎn),離群點(diǎn)識(shí)別方法可以大致分為基于統(tǒng)計(jì)的、基于距離的、基于密度的、基于聚類(lèi)的四大類(lèi)[6]。

基于統(tǒng)計(jì)的方法[7]假設(shè)數(shù)據(jù)服從某一分布,將不符合該分布特征的數(shù)據(jù)視為離群點(diǎn)。此類(lèi)方法常用于數(shù)據(jù)分布已知的數(shù)據(jù)集[8],但實(shí)際中的數(shù)據(jù)分布難以預(yù)知,也并非由單一分布組成?;诰嚯x的離群點(diǎn)定義最早是由Knorr和Ng[9]提出的,由于算法思想簡(jiǎn)單易懂、識(shí)別效果較好被廣泛地研究和應(yīng)用?;诰嚯x的方法中的參數(shù)是基于全局的參數(shù),沒(méi)有考慮到數(shù)據(jù)對(duì)象局部情況的不同,導(dǎo)致不能識(shí)別出局部離群點(diǎn);且識(shí)別效果對(duì)參數(shù)敏感,不同的參數(shù)會(huì)有不同的識(shí)別效果。基于密度的方法[10-12]使用密度描述數(shù)據(jù)對(duì)象鄰域的疏密,能很好地識(shí)別出局部離群點(diǎn),缺點(diǎn)是識(shí)別效果對(duì)算法參數(shù)敏感。

以上方法考慮了只存在單個(gè)離群點(diǎn)的情況,不適用于存在離群簇(集體離群點(diǎn))的數(shù)據(jù)?;诰垲?lèi)的方法[13-16]可以識(shí)別出數(shù)據(jù)中的離群簇,該類(lèi)方法的思想是對(duì)數(shù)據(jù)進(jìn)行聚類(lèi),不屬于任何類(lèi)別的數(shù)據(jù)對(duì)象以及小類(lèi)別內(nèi)的所有數(shù)據(jù)對(duì)象被劃分為離群數(shù)據(jù)。如何區(qū)分大類(lèi)和小類(lèi)是一個(gè)問(wèn)題,此外部分基于聚類(lèi)的識(shí)別方法對(duì)參數(shù)敏感。

基于此,本文提出了一種自動(dòng)聚類(lèi)的離群點(diǎn)識(shí)別方法(Outlier Recognition Method Using Automatic Clustering, ORMUAC),該方法通過(guò)聚類(lèi)自動(dòng)的輸出離群點(diǎn)和離群簇,對(duì)數(shù)據(jù)對(duì)象的分布形狀和密度無(wú)要求,無(wú)需人為設(shè)定參數(shù)。ORMUAC使用相互K近鄰數(shù)衡量數(shù)據(jù)對(duì)象的離群度,數(shù)據(jù)對(duì)象的相互K近鄰數(shù)越少就越可能是離群點(diǎn)。相互K近鄰是一個(gè)非全局的參數(shù),因此也可用于識(shí)別局部離群點(diǎn)。

1? 自動(dòng)聚類(lèi)的離群點(diǎn)識(shí)別方法

傳統(tǒng)離群點(diǎn)識(shí)別方法大都缺乏普適性,有些方法對(duì)數(shù)據(jù)的分布形狀或者密度分布有特定要求,無(wú)法識(shí)別出離群簇或者局部離群點(diǎn);有些方法需要人為設(shè)定參數(shù),增加了算法的使用難度?;诖耍疚奶岢隽司哂衅者m性的ORMUAC方法,該方法對(duì)數(shù)據(jù)的分布形狀和密度無(wú)要求,無(wú)需人為設(shè)定參數(shù)。在詳細(xì)介紹該算法前先闡述一些相關(guān)理論概念。

1.1? 相關(guān)概念

K近鄰:數(shù)據(jù)集d中,距離數(shù)據(jù)對(duì)象o最近的k個(gè)數(shù)據(jù)對(duì)象組成的集合稱(chēng)為數(shù)據(jù)對(duì)象o的K近鄰,表示為:

Nk={ p|d(o, p)≤dk(o),p≠o}? ? ? ? ? ? ? ? ?(1)

其中,d(o, p)表示數(shù)據(jù)對(duì)象o和p之間的距離,dk(o)表示距離數(shù)據(jù)對(duì)象o第k近鄰的數(shù)據(jù)對(duì)象與數(shù)據(jù)對(duì)象o之間的距離。

相互K近鄰:當(dāng)數(shù)據(jù)對(duì)象p屬于數(shù)據(jù)對(duì)象o的K近鄰,同時(shí)數(shù)據(jù)對(duì)象o屬于數(shù)據(jù)對(duì)象p的K近鄰時(shí),數(shù)據(jù)對(duì)象p和數(shù)據(jù)對(duì)象o是相互K近鄰。表示為:

MN(o)={ p| p∈Nk (o),o∈Nk( p)}? ? ? ? ? ? ? ? (2)

近鄰鏈接點(diǎn):如果數(shù)據(jù)對(duì)象o的相互K近鄰個(gè)數(shù)不為零,那么數(shù)據(jù)對(duì)象o就稱(chēng)作近鄰鏈接點(diǎn)。

基于相互K近鄰的離群點(diǎn):如果數(shù)據(jù)對(duì)象o的相互K近鄰的個(gè)數(shù)為零,那么數(shù)據(jù)對(duì)象o被稱(chēng)為基于相互K近鄰的離群點(diǎn)。

α離群簇:在數(shù)據(jù)完成聚類(lèi)后,如果類(lèi)內(nèi)數(shù)據(jù)對(duì)象的個(gè)數(shù)小于閾值α,則組成該類(lèi)的全部數(shù)據(jù)對(duì)象被稱(chēng)為α離群簇。

文獻(xiàn)[17]中提到一個(gè)六度分離理論,該理論闡述為:任何兩個(gè)陌生人之間只要通過(guò)6個(gè)人就可以相互認(rèn)識(shí)。在Facebook的一篇報(bào)告[18]中這個(gè)數(shù)字變成了4.74(數(shù)據(jù)范圍為全球),當(dāng)把范圍縮小到一個(gè)國(guó)家時(shí),人們之間的間隔度只有3度。這表明個(gè)體間存在一個(gè)間隔度值,當(dāng)人能直接或間接認(rèn)識(shí)到的人數(shù)小于這個(gè)值就無(wú)法認(rèn)識(shí)更多的人,從而被隔離成為小眾。類(lèi)比聚類(lèi),當(dāng)某一數(shù)據(jù)對(duì)象的相互K近鄰個(gè)數(shù)小于閾值α?xí)r,這些數(shù)據(jù)對(duì)象就不能被劃到大類(lèi),變成離群簇。閾值α不是固定的,不同的數(shù)據(jù)環(huán)境有著不同的α值。

α值的確定:當(dāng)自動(dòng)聚類(lèi)完成后,輸出的K值就是判別某一類(lèi)是否為α離群簇的閾值α,如果類(lèi)的數(shù)據(jù)對(duì)象個(gè)數(shù)小于α,將該類(lèi)輸出為α離群簇。

當(dāng)數(shù)據(jù)聚類(lèi)的類(lèi)別不再發(fā)生變化時(shí),所有的數(shù)據(jù)對(duì)象都被正確歸類(lèi),數(shù)據(jù)聚類(lèi)達(dá)到穩(wěn)定狀態(tài);這時(shí)對(duì)應(yīng)的k值就是該數(shù)據(jù)集的間隔度α。

1.2? 算法原理與步驟

ORMUAC是通過(guò)近鄰鏈接點(diǎn)將相似的數(shù)據(jù)歸為一類(lèi),在所有數(shù)據(jù)被歸類(lèi)之后,單獨(dú)成一類(lèi)的數(shù)據(jù)對(duì)象被輸出為離群點(diǎn),類(lèi)內(nèi)數(shù)據(jù)個(gè)數(shù)小于閾值α的小類(lèi)則被輸出為α離群簇。ORMUAC算法流程分為兩部分,第一部分是自動(dòng)聚類(lèi)和輸出離群點(diǎn),第二部分是輸出為α離群簇。

第一部分:從數(shù)據(jù)集D中隨機(jī)選擇一個(gè)數(shù)據(jù)對(duì)象o,判斷該數(shù)據(jù)對(duì)象是否為近鄰鏈接點(diǎn)。若不是,標(biāo)記為離群點(diǎn);否則,將數(shù)據(jù)對(duì)象o及其相互K近鄰標(biāo)記為一類(lèi)。接著遍歷數(shù)據(jù)對(duì)象o的相互K近鄰,如果數(shù)據(jù)對(duì)象o的相互K近鄰也為近鄰鏈接點(diǎn),繼續(xù)遞歸訪(fǎng)問(wèn)該近鄰鏈接點(diǎn)的相互K近

鄰;循環(huán)這一步驟,直到遍歷完所有近鄰鏈接點(diǎn)及其相互K近鄰,完成一次歸類(lèi)。以同樣的方式繼續(xù)訪(fǎng)問(wèn)數(shù)據(jù)集D中的下個(gè)未被訪(fǎng)問(wèn)的數(shù)據(jù)對(duì)象,直至遍歷完數(shù)據(jù)集D中所有數(shù)據(jù)。

該如何給出合適相互K近鄰值。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)小樣本數(shù)據(jù)集的k值一般低于25,本文采用迭代的方式找到合適的k值。k值從2到25迭代(實(shí)驗(yàn)結(jié)果表明實(shí)際迭代次數(shù)平均約為12次,遠(yuǎn)低于25次),當(dāng)相鄰兩次的聚類(lèi)輸出類(lèi)別數(shù)相等時(shí)停止迭代,此時(shí)k值為最佳K近鄰值。迭代時(shí)會(huì)頻繁地計(jì)算數(shù)據(jù)對(duì)象的相互K近鄰,為減少開(kāi)銷(xiāo)采用KD樹(shù)來(lái)存儲(chǔ)相互K近鄰。聚類(lèi)前先掃描一遍數(shù)據(jù)集,建立25—近鄰KD樹(shù),后續(xù)迭代時(shí)直接查找KD樹(shù)即可找出數(shù)據(jù)對(duì)象的任意K近鄰。自動(dòng)聚類(lèi)的步驟見(jiàn)算法1。

算法1:Auto-Clustering(D)

輸入:數(shù)據(jù)集D

輸出:聚類(lèi)結(jié)果C=(C1,C2,…,Cn),k

1)初始化:I0=0,k=2,n=0。

2)掃描數(shù)據(jù)集D,將每個(gè)數(shù)據(jù)的25-近鄰數(shù)存儲(chǔ)到KD樹(shù)。

3)從數(shù)據(jù)集D中選取一個(gè)未被訪(fǎng)問(wèn)的數(shù)據(jù)對(duì)象O。

4)通過(guò)查找KD樹(shù),判斷O是否為近鄰鏈接點(diǎn);若是,n=n+1,Cn=Cn∪MN(O)∪O,visited(O)=true,否則,輸出為離群點(diǎn)。

5)如果?P∈Cn并且visited(P)≠true,Cn=Cn∪MN(P),visited(P)=true,直到遍歷完Cn中所有未被訪(fǎng)問(wèn)數(shù)據(jù)。

6)如果數(shù)據(jù)集D還有未被訪(fǎng)問(wèn)的數(shù)據(jù),跳到步驟3)。

7)當(dāng)數(shù)據(jù)集D中數(shù)據(jù)全部遍歷完畢,將類(lèi)別個(gè)數(shù)n賦值給Ik。

8)如果Ik≠I(mǎi)k-1,k=k+1,將數(shù)據(jù)集D中數(shù)據(jù)的visited值設(shè)為false,跳到步驟3),否則,結(jié)束程序。

9)End。

第二部分:聚類(lèi)完成之后,數(shù)據(jù)都被全部歸類(lèi),數(shù)據(jù)對(duì)象的間隔度α隨之確定,根據(jù)最終聚類(lèi)結(jié)果確定并輸出α離群簇。ORMUAC具體步驟見(jiàn)算法2。

算法2:ORMUAC(D)

輸入:數(shù)據(jù)集D

輸出:離群點(diǎn),離群簇

1)執(zhí)行Auto-Clustering(D),輸出聚類(lèi)結(jié)果C=C=(C1,

C2,…,Cn)、近鄰值k、離群點(diǎn)。

2)令α=k,如果|Ci|≤α,(i=1,2,…,n),將Ci輸出為離群簇。

3)End。

ORMUAC識(shí)別過(guò)程如圖1所示,相互K近鄰的k從2開(kāi)始迭代聚類(lèi),k=2時(shí)聚類(lèi)輸出類(lèi)別數(shù)為8,k=3時(shí)輸出類(lèi)別數(shù)為5,與k為4時(shí)的輸出類(lèi)別數(shù)一致;此時(shí)聚類(lèi)數(shù)目不再隨k增加而變化,即聚類(lèi)達(dá)到穩(wěn)定狀態(tài)。這意味著相互K近鄰k=3時(shí)的聚類(lèi)結(jié)果為最佳輸出,將此時(shí)k值(k=3)賦予α,由于A(yíng)類(lèi)數(shù)據(jù)樣本數(shù)小于α,簇A被輸出為α離群簇,點(diǎn)p單獨(dú)成一類(lèi)被輸出為離群點(diǎn)。

1.3? 算法復(fù)雜度分析

Auto-clustering算法通過(guò)KD樹(shù)來(lái)尋找數(shù)據(jù)對(duì)象的K近鄰,時(shí)間復(fù)雜度為O(N logN),遍歷數(shù)據(jù)集的時(shí)間復(fù)雜度為O(N),Auto-clustering的時(shí)間復(fù)雜度為O(N logN)+O(N);ORMUAC在尋找最佳k值時(shí)需要迭代Auto-clustering算法k次,因此ORMUAC的時(shí)間復(fù)雜度為O(N logN)。

KD樹(shù)的空間復(fù)雜度為O(N),用于存儲(chǔ)類(lèi)標(biāo)記的數(shù)組長(zhǎng)度為N,存儲(chǔ)相互K近鄰所占的空間長(zhǎng)度小于KN,所以O(shè)RMUAC算法的空間復(fù)雜度為O(N)。

2? 實(shí)驗(yàn)與分析

實(shí)驗(yàn)部分將根據(jù)合成數(shù)據(jù)、真實(shí)數(shù)據(jù)的實(shí)驗(yàn)結(jié)果來(lái)評(píng)估ORMUAC算法的性能,同時(shí)將K-means[13]和DBSCAN[14]兩種經(jīng)典算法作為對(duì)照算法。采用召回率(R)、精確率(P)以及精確率和召回率的調(diào)和均值(F)作為衡量指標(biāo)。評(píng)價(jià)指標(biāo)R、P以及F的值域?yàn)閇0,1],數(shù)值越大實(shí)驗(yàn)效果越好。

2.1? K值與樣本量關(guān)系實(shí)驗(yàn)

根據(jù)UCI數(shù)據(jù)的k值實(shí)驗(yàn)結(jié)果,圖2繪制了相互K近鄰值與數(shù)據(jù)集樣本量的關(guān)系圖。從圖中可以看出二者關(guān)系是非線(xiàn)性的,相互近鄰數(shù)k值隨著數(shù)據(jù)樣本量波動(dòng)增加,k在樣本量為6 000時(shí)達(dá)到最大值24,隨后再減少。

雖然ORMUAC采用迭代方式來(lái)給出最佳k值,但迭代次數(shù)k較?。粚?shí)驗(yàn)結(jié)果表明當(dāng)樣本量較小時(shí),實(shí)際迭代次數(shù)平均約為12次,遠(yuǎn)低于25次,不會(huì)造成算法時(shí)間復(fù)雜度的突增。另外,實(shí)際操作時(shí)k不用從2開(kāi)始迭代,可根據(jù)樣本量設(shè)置合適初始k值以減少迭代次數(shù)。

2.2? 合成數(shù)據(jù)實(shí)驗(yàn)

為驗(yàn)證ORMUAC可行性和有效性,采用合成數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn)。3個(gè)數(shù)據(jù)集均為二維數(shù)據(jù)集,D1有4個(gè)類(lèi)別,共118個(gè)數(shù)據(jù),包含9個(gè)離群數(shù)據(jù);D2只有一個(gè)類(lèi)別,共有108個(gè)數(shù)據(jù),其中含有8個(gè)離群數(shù)據(jù);D3共有3個(gè)類(lèi)別,共有357個(gè)數(shù)據(jù),其中包含10個(gè)離群點(diǎn),數(shù)據(jù)信息如表1所示。

為模擬真實(shí)數(shù)據(jù)情況和保證實(shí)驗(yàn)的科學(xué)性,三種合成數(shù)據(jù)集的密度分布有均勻和不均勻的,形狀分布有球狀和非球狀的,數(shù)據(jù)類(lèi)別有單類(lèi)別和多類(lèi)別的;各自都包含局部離群點(diǎn)、全局離群點(diǎn)以及離群簇。數(shù)據(jù)分布情況如圖3所示,空心點(diǎn)為離群數(shù)據(jù),實(shí)心點(diǎn)為正常數(shù)據(jù)。

實(shí)驗(yàn)過(guò)程中,K-means需要給定類(lèi)別個(gè)數(shù)k、距離閾值d兩個(gè)參數(shù),DBSCAN算法中需要給定距離閾值d和最少數(shù)據(jù)個(gè)數(shù)P兩個(gè)參數(shù)。實(shí)驗(yàn)中設(shè)定的參數(shù)值均為使得兩種對(duì)比算法識(shí)別效果達(dá)到最佳時(shí)的參數(shù)值。

表2、表3和表4記錄了三種算法的合成數(shù)據(jù)實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果,從合成數(shù)據(jù)實(shí)驗(yàn)結(jié)果可以知道:

1)D1數(shù)據(jù)集實(shí)驗(yàn)中,DBSCAN識(shí)別效果較好,F(xiàn)值為0.941略低于ORMUAC;D1數(shù)據(jù)集中多數(shù)離群數(shù)據(jù)分布在中心位置導(dǎo)致K-means的識(shí)別結(jié)果最差,雖然p值為1,但F值卻低至0.5;ORMUAC表現(xiàn)最好,各項(xiàng)指標(biāo)均為最高。

2)在單類(lèi)別、多密度和包含環(huán)內(nèi)離群點(diǎn)的D2數(shù)據(jù)集實(shí)驗(yàn)中,因環(huán)形數(shù)據(jù)和分布中間數(shù)據(jù)的密度不同,導(dǎo)致DBSCAN的F值稍有降低為0.941。K-means根據(jù)數(shù)據(jù)對(duì)象距離質(zhì)心的遠(yuǎn)近來(lái)判斷數(shù)據(jù)是否為離群點(diǎn),因而其在環(huán)形分布的D2中效果很不理想,F(xiàn)值僅為0.667;ORMUAC表現(xiàn)依舊最好。

3)對(duì)于分布非球狀、密度不均勻的D3數(shù)據(jù)集,DBSCAN的識(shí)別效果不佳,調(diào)和均值F僅為0.886;K-means雖然p值很高但調(diào)和均值僅為0.181,召回率R值低至0.1,意味其遺漏了大部分的離群點(diǎn)。RORMUAC則依然識(shí)別出了數(shù)據(jù)集中全部離群數(shù)據(jù)。

合成數(shù)據(jù)實(shí)驗(yàn)表明:相較于對(duì)比算法ORMUAC能有效應(yīng)用于分布多樣、密度不均的數(shù)據(jù)集,具有更好的普適性。

2.3? 真實(shí)數(shù)據(jù)實(shí)驗(yàn)

為進(jìn)一步驗(yàn)證ORMUAC的有效性,選取來(lái)自UCI數(shù)據(jù)庫(kù)[19]的三組真實(shí)數(shù)據(jù)集,Iris、banknote authentication和Breast Cancer Wisconsin數(shù)據(jù)集的wdbc數(shù)據(jù)進(jìn)行進(jìn)一步對(duì)比實(shí)驗(yàn),數(shù)據(jù)信息詳如表5所示。

為更好地完成實(shí)驗(yàn),參照文獻(xiàn)[20,21]對(duì)數(shù)據(jù)集做了以下處理:Iris有三個(gè)類(lèi)別,每類(lèi)50個(gè)數(shù)據(jù)樣本;將其中一類(lèi)全部50個(gè)數(shù)據(jù)對(duì)象作為正常點(diǎn),從剩下兩類(lèi)中各取5個(gè)數(shù)據(jù)對(duì)象作為離群點(diǎn),構(gòu)成第一組實(shí)驗(yàn)數(shù)據(jù)(Iris)。banknote authentication有兩個(gè)類(lèi)別,各自包含762和610個(gè)樣本;大類(lèi)作為正常類(lèi)別,再?gòu)男☆?lèi)中隨機(jī)取20個(gè)數(shù)據(jù)對(duì)象作為離群點(diǎn),組成第二組實(shí)驗(yàn)數(shù)據(jù)(Banknote)。wdbc有B和M兩個(gè)類(lèi)別,各自包含357和212個(gè)數(shù)據(jù)樣本;將B類(lèi)當(dāng)作正常類(lèi)別,再?gòu)腗類(lèi)中隨機(jī)取10個(gè)數(shù)據(jù)對(duì)象作為離群點(diǎn),以此作為第三組實(shí)驗(yàn)數(shù)據(jù)(wdbc)。

實(shí)驗(yàn)結(jié)果如表6、7、8和圖4所示,實(shí)驗(yàn)分析具體為:

1)Iris數(shù)據(jù)集實(shí)驗(yàn)中,三種算法識(shí)別效果都還不錯(cuò),ORMUAC和DBSCAN表現(xiàn)一致,二者綜合指標(biāo)F值均為0.953,K-means表現(xiàn)其次,綜合指標(biāo)F值為0.909。

2)ORMUAC在Banknote數(shù)據(jù)實(shí)驗(yàn)表現(xiàn)要優(yōu)于另外兩種算法,其中P和R兩者指標(biāo)值都要高于另外兩種算法,并且F值相對(duì)最高為0.869。

3)高維數(shù)據(jù)wdbc對(duì)比實(shí)驗(yàn)中,K-means和DBSCAN的識(shí)別效果一致,指標(biāo)P、R、F值分別為0.700、0.636和0.667,ORMUAC的表現(xiàn)依舊最好,P值、R值和F值為0.800、0.667、0.761均高于兩種對(duì)比算法。

真實(shí)數(shù)據(jù)實(shí)驗(yàn)證明:相較對(duì)比算法ORMUAC識(shí)別準(zhǔn)確率高有更好的識(shí)別效果,能夠更有效地應(yīng)用于真實(shí)數(shù)據(jù)集。

為驗(yàn)證ORMUAC的普適性和有效性,采用合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集做了驗(yàn)證實(shí)驗(yàn)。合成數(shù)據(jù)實(shí)驗(yàn)中,ORMUAC能夠很好地適應(yīng)分布形狀不規(guī)則、密度分布不均勻的數(shù)據(jù),驗(yàn)證了ORMUAC的普適性。真實(shí)數(shù)據(jù)實(shí)驗(yàn)中ORMUAC的表現(xiàn)最佳,P、R和F值均為三種算法之中最高,進(jìn)一步證明了ORMUAC的普適性和有效性。

圖4? 真實(shí)數(shù)據(jù)實(shí)驗(yàn)結(jié)果

3? 結(jié)? 論

本文提出了一種自動(dòng)聚類(lèi)的離群點(diǎn)識(shí)別方法,該方法可自動(dòng)識(shí)別出數(shù)據(jù)集中的全局離群點(diǎn)、局部離群點(diǎn)以及離群簇,且對(duì)數(shù)據(jù)的分布形狀、密度無(wú)要求,有著較強(qiáng)的普適性。理論分析與對(duì)比實(shí)驗(yàn)證明了新方法能更有效應(yīng)用于分布復(fù)雜且離群類(lèi)型多樣的數(shù)據(jù)集。

接下來(lái)的研究可從優(yōu)化新算法在高維、大數(shù)據(jù)集中的效率方面著手。

參考文獻(xiàn):

[1] BRZEZI?SKA A N,HORY? C. Outliers in Covid 19 data based on Rule representation-the analysis of LOF algorithm [J].Procedia Computer Science,2021,192:3010-3019.

[2] 呂承侃,沈飛,張正濤,等.圖像異常檢測(cè)研究現(xiàn)狀綜述 [J].自動(dòng)化學(xué)報(bào),2022,48(6):1402-1428.

[3] MOHAMMADPOUR L,LING T C,LIEW C S,et al. A Survey of CNN-Based Network Intrusion Detection [J].Applied Sciences,2022,12(16):8162-8162.

[4] 黃彥斌,駱德漢,蔡高琰.基于電力數(shù)據(jù)分析的污水站點(diǎn)監(jiān)測(cè)方法研究 [J].現(xiàn)代信息科技,2021,5(21):121-125.

[5] HAWKINS D. Identification of outliers [M].London:Chapman and Hall,1980.

[6] 周玉,朱文豪,房倩,等.基于聚類(lèi)的離群點(diǎn)檢測(cè)方法研究綜述 [J].計(jì)算機(jī)工程與應(yīng)用,2021,57(12):37-45.

[7] 黃旺華,王欽若.基于距離統(tǒng)計(jì)的有序紋理點(diǎn)云離群點(diǎn)檢測(cè) [J].計(jì)算技術(shù)與自動(dòng)化,2019,38(1):139-144.

[8] 梅林,張鳳荔,高強(qiáng).離群點(diǎn)檢測(cè)技術(shù)綜述 [J].計(jì)算機(jī)應(yīng)用研究,2020,37(12):3521-3527.

[9] KNORR E M,NG R T. Algorithms for Mining Distance-Based Outliers in Large Datasets [C]//Proceedings of the 24rd International Conference on Very Large Data Bases.San Francisco:Morgan Kaufmann Publishers Inc,1998:392-403.

[10] BREUNIG M M,KRIEGEL H P,NG R T,et al. LOF:Identifying Density-Based Local Outliers [EB/OL].[2022-10-28].https://www.docin.com/p-291134797.html.

[11] HA J,SEOK S,LEE J S. Robust outlier detection using the instability factor [J].Knowledge-Based Systems,2014,63:15-23.

[12] SHAO M L,QI D Y,XUE H L. Big data outlier detection model based on improved density peak algorithm [J].Journal of Intelligent & Fuzzy Systems,2021,40(4):6185-6194.

[13] 楊俊闖,趙超.K-Means聚類(lèi)算法研究綜述 [J].計(jì)算機(jī)工程與應(yīng)用,2019,55(23):7-14+63.

[14] ESTER M,KRIEGEL H P,SANDER J,et al. A density-based algorithm for discovering clusters in large spatial data bases with noise [C]//Proceedings of the 2nd International Conference on Knowledge Discovering in Databases and Data Mining (KDD-96).Massachusetts:AAAI Press,1996,226-232.

[15] GAN G J,NG M K P. K-means clustering with outlier removal [J].Pattern Recognition Letters,2017,90:8-14.

[16] HUANG J L,ZHU Q S,YANG L J,et al. A Novel Outlier Cluster Detection Algorithm without Top-n Parameter [J].Knowledge-Based Systems,2017,121:32-40.

[17] KERBY M,KERBY M. Six degrees of separation [J].AOPA pilot,2012,55(2),68-68.

[18] BACKSTROM L,BOLDI P,ROSA M,et al. Four Degrees of Separation [EB/OL].[2022-10-28].http://snap.stanford.edu/class/cs224w-readings/backstrom12four.pdf.

[19] DUA D,GRAFF C. UCI Machine Learning Repository [EB/OL].[2022-10-28].http://archive.ics.uci.edu/ml.

[20] HAWKIN S,HE H X,WILLIAMS G J,et al.Outlier Detection Using Replicator Neural NetworKs [C]//2000:Data Warehousing and Knowledge Discovery.France:Springer,2002:4-6.

[21] ZHU Q S,F(xiàn)AN X G,F(xiàn)ENG J. Outlier detection based on K_Neighborhood MST [C]//2014 IEEE 15th International Conferenceon Information Reuse and Integration.Redwood City:IEEE,2014,718-724.

作者簡(jiǎn)介:黃強(qiáng)(1993—),男,漢族,江西上饒人,助教,碩士,主要研究方向:數(shù)據(jù)挖掘、中醫(yī)信息學(xué)研究。

猜你喜歡
數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)在打擊倒賣(mài)OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
數(shù)據(jù)挖掘技術(shù)綜述與應(yīng)用
河南科技(2014年19期)2014-02-27 14:15:26
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開(kāi)發(fā)實(shí)踐
高級(jí)數(shù)據(jù)挖掘與應(yīng)用國(guó)際學(xué)術(shù)會(huì)議
洛南县| 盖州市| 鄂托克前旗| 资中县| 合山市| 微博| 洛宁县| 天气| 江源县| 万源市| 和政县| 康保县| 西丰县| 武乡县| 忻州市| 朔州市| 托克托县| 桂阳县| 古丈县| 肥西县| 淮南市| 肇东市| 渭南市| 郯城县| 青龙| 社旗县| 塘沽区| 道孚县| 肇源县| 甘孜| 田阳县| 杭锦旗| 云浮市| 右玉县| 建瓯市| 太谷县| 云和县| 明溪县| 石狮市| 杭州市| 邵武市|