離群點(diǎn)檢測(cè)算法的評(píng)價(jià)指標(biāo)

2020-09-29 06:56陳雷霆羅子娟曾慧茹

計(jì)算機(jī)應(yīng)用 2020年9期

寧進(jìn)，陳雷霆，3，羅子娟，周川*，曾慧茹

（1.電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院，成都 611731；2.數(shù)字媒體技術(shù)四川省重點(diǎn)實(shí)驗(yàn)室（電子科技大學(xué)），成都 611731；3.電子科技大學(xué)廣東電子信息工程研究院，廣東東莞 523808；4.中國(guó)電子科技集團(tuán)公司第二十八研究所信息系統(tǒng)工程重點(diǎn)實(shí)驗(yàn)室，南京 210007）

0 引言

離群點(diǎn)，也可稱(chēng)為異常點(diǎn)，是數(shù)據(jù)集中與大多數(shù)點(diǎn)不一致，或是由不同機(jī)制產(chǎn)生的數(shù)據(jù)［1］。例如在海上安防系統(tǒng)［2］中，入侵船只被看作是異常點(diǎn)，需要攔截。雷達(dá)數(shù)據(jù)處理中［3］，噪聲被看作是離群點(diǎn)，需要過(guò)濾以防止干擾建模。

近年來(lái)，離群點(diǎn)檢測(cè)算法依然是數(shù)據(jù)挖掘的熱點(diǎn)方向。各種基于統(tǒng)計(jì)、基于鄰近性、基于分類(lèi)、基于聚類(lèi)、基于集成的方法等［4-5］層出不窮，以取得更好的離群點(diǎn)檢測(cè)效果。離群點(diǎn)檢測(cè)算法的輸出通常為離群得分，得分越高，越可能是離群點(diǎn)。基于統(tǒng)計(jì)的方法對(duì)正常數(shù)據(jù)建模，用與正常模式的偏離程度來(lái)表示離群得分?；卩徑缘姆椒ㄓ门c鄰居差異程度來(lái)表示離群得分?；诜诸?lèi)的方法用與分界線的偏離程度來(lái)衡量離群得分。基于聚類(lèi)的方法視離群點(diǎn)為聚類(lèi)的副產(chǎn)物，用與正常簇的偏離程度來(lái)衡量離群得分?；诩傻姆椒ㄍㄟ^(guò)集成多個(gè)結(jié)果得到最終的離群得分。

由于離群點(diǎn)本身的少量、多變，以及難以預(yù)知、難以建模的特點(diǎn)，離群點(diǎn)檢測(cè)算法常采用無(wú)監(jiān)督方法。再加上缺少離群點(diǎn)的標(biāo)簽，使得離群點(diǎn)檢測(cè)的評(píng)價(jià)變得困難。離群點(diǎn)檢測(cè)一般使用外部度量來(lái)進(jìn)行評(píng)價(jià)，這種度量需要已有的真實(shí)標(biāo)簽來(lái)進(jìn)行?，F(xiàn)有的離群點(diǎn)檢測(cè)算法評(píng)價(jià)指標(biāo)主要分為三類(lèi)，如圖1。第一種是閾值法，在離群得分的基礎(chǔ)上，利用所設(shè)置的閾值來(lái)劃分預(yù)測(cè)的離群點(diǎn)集。將預(yù)測(cè)的離群點(diǎn)集與真實(shí)的離群點(diǎn)標(biāo)簽作對(duì)比，用檢測(cè)率、精確度等統(tǒng)計(jì)值來(lái)評(píng)價(jià)算法效果。第二種是曲線法，將閾值法的全參數(shù)下的指標(biāo)繪制連續(xù)的曲線，曲線越“凸”，表示算法效果越好。第三種是整合法，用曲線下的面積來(lái)衡量算法效果，值越大，表示算法的效果越好。

圖1 離群點(diǎn)檢測(cè)算法評(píng)價(jià)指標(biāo)Fig.1 Evaluation metrics of outlier detection algorithm

近年來(lái)，一些改進(jìn)的方法也被提出來(lái)了。例如Zhang等［6］提出了一種帶標(biāo)準(zhǔn)化的精確度的均值，以包含離群度排位信息；但是，這種方法在沒(méi)有調(diào)整的時(shí)候會(huì)產(chǎn)生錯(cuò)誤［7］。Klement 等［8］針對(duì)受試者工作特征（Receiver Operating Characteristic，ROC）曲線丟失離群得分信息的問(wèn)題，提出了一種平滑的ROC 曲線，通過(guò)對(duì)ROC 曲線加入平滑分量以保留離群得分信息，對(duì)評(píng)價(jià)算法的差異更具有一致性。此外，Marques 等［9］提出了一種不需要真實(shí)標(biāo)簽的內(nèi)部評(píng)價(jià)方式，這種方式基于離群得分的相對(duì)評(píng)價(jià)，但是計(jì)算復(fù)雜度太高。

盡管已有很多適合的評(píng)價(jià)指標(biāo)，但很多離群點(diǎn)檢測(cè)文獻(xiàn)仍然存在評(píng)價(jià)方法選擇不當(dāng)、使用不當(dāng)?shù)膯?wèn)題，使得所得出的結(jié)論站不住腳。例如，如果錯(cuò)將正常點(diǎn)標(biāo)記1，異常點(diǎn)標(biāo)記0，得出的評(píng)價(jià)指標(biāo)虛高。再例如，使用閾值法時(shí)，閾值設(shè)置不合理，得出的指標(biāo)結(jié)果偏差也大。此外，離群點(diǎn)檢測(cè)算法的評(píng)價(jià)要求常常分為兩類(lèi)：一類(lèi)要求高真正率，例如在疾病檢測(cè)中，要求檢測(cè)到所有患病者，即使存在將正常人歸為患病類(lèi)；二類(lèi)要求低假正率。例如在垃圾郵件檢測(cè)中，要求不能把有用郵件誤歸為垃圾郵件，即使漏檢部分真正的垃圾郵件。總之，由于離群點(diǎn)檢測(cè)算法的特殊性，目前，仍然缺乏針對(duì)離群點(diǎn)檢測(cè)問(wèn)題的專(zhuān)門(mén)的系統(tǒng)評(píng)價(jià)方法研究。

本文首先對(duì)離群點(diǎn)檢測(cè)算法的已有評(píng)價(jià)指標(biāo)做了一個(gè)詳細(xì)的整理，為研究者評(píng)價(jià)所提出的算法提供評(píng)價(jià)指標(biāo)的說(shuō)明和參考；然后針對(duì)已有指標(biāo)不能區(qū)分一類(lèi)和二類(lèi)要求的問(wèn)題，提出了一類(lèi)高真正率評(píng)價(jià)指標(biāo)（High True positive rate-Area Under Curve，HT_AUC）和二類(lèi)低假正率評(píng)價(jià)指標(biāo)（Low False positive rate-Area Under Curve，LF_AUC），通過(guò)計(jì)算證明和在真實(shí)數(shù)據(jù)集上與已有方法的對(duì)比實(shí)驗(yàn)，說(shuō)明了本方法的適用性。

1 常用的離群點(diǎn)檢測(cè)算法評(píng)價(jià)指標(biāo)

設(shè)N個(gè)點(diǎn)的離散數(shù)據(jù)集D中，O表示真實(shí)的離群點(diǎn)集（令集合大小|O|=n），NO表示正常點(diǎn)集（令集合大小|NO|=m）。離群點(diǎn)檢測(cè)算法大多返回離群得分（Outlier Score，OS）［1］，可以是距離、密度、概率等。離群得分越高，越可能是離群點(diǎn)。OS(p)表示點(diǎn)p的離群得分。rank(p)表示點(diǎn)p的離群得分在OS 中的排位，離群得分越高，rank值越小，位次越高。離群點(diǎn)的標(biāo)簽應(yīng)是正類(lèi)（這里用“1”表示）；正常點(diǎn)的標(biāo)簽應(yīng)是負(fù)類(lèi)（這里用“0”表示）。

1.1 閾值法

步驟1 設(shè)定閾值。

另一種是TOPr（1 ≤r≤N，評(píng)價(jià)的時(shí)候只要真實(shí)的標(biāo)簽可用，那么r就可以設(shè)為n），表示將離群得分排在前r的點(diǎn)判為離群點(diǎn)。

步驟2 計(jì)算評(píng)價(jià)指標(biāo)對(duì)。

離群點(diǎn)檢測(cè)算法所采用的評(píng)價(jià)指標(biāo)對(duì)主要有3 組，分別是精確度（Precision）和召回率（Recall）［11-13］，真正率（True Positive Rate，TPR）和假正率（False Positive Rate，F(xiàn)PR）［14-15］，檢測(cè)率（Detection Rate，DR）和排位力（Rank power，Rp）［16-17］。計(jì)算方法如表1。其中：TP表示將離群點(diǎn)標(biāo)記為離群點(diǎn)的量；FP表示將正常點(diǎn)標(biāo)記為離群點(diǎn)的量；FN表示將離群點(diǎn)標(biāo)記為正常點(diǎn)的量；TN表示將離群點(diǎn)標(biāo)記為離群點(diǎn)的量。

表1 閾值法的評(píng)價(jià)指標(biāo)計(jì)算方法Tab.1 Evaluation metrics calculation method of threshold method

Recall=TPR=DR，也稱(chēng)為檢測(cè)準(zhǔn)確率，表示預(yù)測(cè)出的真實(shí)離群點(diǎn)數(shù)量占所有的真實(shí)離群點(diǎn)數(shù)量的比，值越高，表示算法效果越好。但這個(gè)單一的指標(biāo)存在著漏洞，即越大，檢測(cè)準(zhǔn)確率越高。當(dāng)算法預(yù)測(cè)所有數(shù)據(jù)為離群點(diǎn)，即時(shí)，檢測(cè)準(zhǔn)確率為1。所以，只有這一個(gè)指標(biāo)還不足以說(shuō)明算法的效果。Precision表示預(yù)測(cè)出的真實(shí)離群點(diǎn)數(shù)量占預(yù)測(cè)的離群點(diǎn)數(shù)量的比，值越高，表示算法效果越好。FPR表示預(yù)測(cè)錯(cuò)誤的離群點(diǎn)（真實(shí)的正常點(diǎn)預(yù)測(cè)為離群點(diǎn)）占正常點(diǎn)數(shù)量的比，值越低，表示算法效果越好。Rp反映了預(yù)測(cè)的真實(shí)離群點(diǎn)在rank中的排位情況，值越高，表示算法的效果越好。所有的離群點(diǎn)排位在rank前列時(shí)，Rp=1。Precision、FPR和Rp作為檢測(cè)準(zhǔn)確率的補(bǔ)充增強(qiáng)，可以彌補(bǔ)檢測(cè)準(zhǔn)確率的漏洞；此外Rp還利用了rank信息，對(duì)算法要求更高。

閾值法簡(jiǎn)單有效，可以直接評(píng)價(jià)離群點(diǎn)檢測(cè)算法實(shí)驗(yàn)結(jié)果的優(yōu)劣。但是有如下3個(gè)缺陷：

1）參數(shù)依賴(lài)。例如，α值太高（或者r太?。?，漏標(biāo)多，評(píng)價(jià)值會(huì)偏低；α值太低（或者r太大），錯(cuò)標(biāo)多，評(píng)價(jià)值會(huì)偏高。

2）參數(shù)設(shè)置困難。大部分論文在使用這種方法評(píng)價(jià)算法時(shí)，會(huì)設(shè)置r=|O|，這需要提前知道數(shù)據(jù)集中有多少真實(shí)的離群點(diǎn)。然而在實(shí)際應(yīng)用中，很難提前獲取真實(shí)離群點(diǎn)的量。

3）丟失了rank 和score 信息。不能表示算法結(jié)果的整體好壞。此外，即使是Rp利用了部分rank 信息，仍然區(qū)分不了如下情況。例如表2：取r=4 的時(shí)候，檢測(cè)準(zhǔn)確率DR1=DR2=0.5，Rp1=Rp2=0.6，這種情況下，算法1 和算法2 的評(píng)價(jià)結(jié)果相同，無(wú)法區(qū)分好壞。

表2 Rank Power的例子Tab.2 Examples of Rank Power

4）對(duì)于Precision 和Recall，在參數(shù)相同的情況下，一些好的算法常常要么高Precision 低Recall，要么低Precision 高Recall。

1.2 曲線法

為了擺脫參數(shù)依賴(lài)，整合rank信息，以更精確地評(píng)價(jià)各個(gè)算法的優(yōu)劣。通過(guò)從1 到N變化參數(shù)r，得到對(duì)應(yīng)的N組Precision 和Recall。依次連接每對(duì)（Recall（r），Precision（r））點(diǎn)繪制Precision-Recall（PR）曲線［1，18］（如圖2（a））。同樣，通過(guò)從1 到N變化參數(shù)r，依次得到對(duì)應(yīng)的TPR（r）和FPR（r），F(xiàn)PR 作橫坐標(biāo)，TPR 作縱坐標(biāo)，繪制ROC 曲線［19-21］（如圖2（b））。由于ROC 曲線比PR 曲線更直觀，且具有單調(diào)性，所以一般情況下，多使用ROC 曲線。ROC 曲線越“凸”，表示算法的效果越好。smROC［8］在ROC曲線的基礎(chǔ)上增加了離群得分信息，使得修改的ROC曲線更加平滑（如圖2（c））。

圖2 PR curve、ROC curve和smROC curve的示例Fig.2 Examples of PR curve，ROC curve and smROC curve

ROC 曲線應(yīng)用在離群點(diǎn)檢測(cè)算法的結(jié)果評(píng)價(jià)上，具有直觀、簡(jiǎn)便、精確的優(yōu)點(diǎn)，且不受離群點(diǎn)檢測(cè)數(shù)據(jù)集類(lèi)別的有偏性的影響，在一定程度上是很成功的，具有廣泛的應(yīng)用；但仍然有如下缺陷：

1）不夠清楚。很多時(shí)候，一個(gè)算法不會(huì)完全地比另一個(gè)算法“凸”，例如圖2（b），或者更加錯(cuò)綜復(fù)雜，算法的優(yōu)劣需要進(jìn)一步分情況討論。

2）不能擴(kuò)展。大部分離群點(diǎn)檢測(cè)算法都有除閾值以外的其他參數(shù)依賴(lài)，例如，基于鄰近性的算法依賴(lài)參數(shù)k（鄰域的大?。?，基于一類(lèi)支持向量機(jī)算法依賴(lài)核函數(shù)的選擇，用ROC 曲線只能展示特定參數(shù)下算法的差異。

1.3 整合法

為了驗(yàn)證算法與非閾值參數(shù)的關(guān)系，通常需要整合曲線，直接用一個(gè)數(shù)值來(lái)體現(xiàn)算法綜合能力。使得該數(shù)值既有閾值法的簡(jiǎn)單直觀性，并保留曲線法的精確性。已經(jīng)知道，曲線法評(píng)價(jià)好的算法比壞的算法更“凸”，于是可以用一種曲線的整合形式，即曲線下的面積（Area Under Curve，AUC）來(lái)評(píng)價(jià)算法。數(shù)值越高，表示算法效果越好。

PR_AUC［22-23］是PR 曲線下的面積，可以由離群點(diǎn)的平均精確度計(jì)算。

證明在PR 曲線中，隨著r的增加，當(dāng)?shù)趓個(gè)數(shù)據(jù)點(diǎn)真實(shí)標(biāo)簽為1 時(shí)，Precision 變?yōu)镻recision（r），Recall 增加1/n，對(duì)應(yīng)變化面積為。當(dāng)?shù)趓個(gè)數(shù)據(jù)點(diǎn)真實(shí)標(biāo)簽為0 時(shí)，Recall 不變，Precision 減少，曲線垂直下降，變化面積為0，所以PR_AUC可以計(jì)算如下：

ROC_AUC［24-25］是ROC 曲線下的面積，也可由數(shù)據(jù)集中離群點(diǎn)-正常點(diǎn)對(duì)的均值來(lái)計(jì)算。

證明離散情況下，在ROC 曲線中隨著r增加，當(dāng)?shù)趓個(gè)數(shù)據(jù)點(diǎn)真實(shí)標(biāo)簽為1 時(shí)，TPR 增加1/n，F(xiàn)PR 不變，對(duì)應(yīng)ROC 曲線垂直上升，變化面積為0。當(dāng)?shù)趓個(gè)數(shù)據(jù)點(diǎn)真實(shí)標(biāo)簽為0時(shí)，TPR 不變，F(xiàn)PR 增加1/m，對(duì)應(yīng)變化面積為T(mén)PR(rank(i))，所以ROC_AUC可以計(jì)算如下：

用曲線法評(píng)價(jià)離群點(diǎn)檢測(cè)算法效果時(shí)，不受數(shù)據(jù)集中離群點(diǎn)比例的影響。但整合為ROC_AUC 后，只要求曲線像左上角“凸”，很難保證算法同時(shí)有高真正率和低假正率，丟失了曲線的細(xì)節(jié)信息，不能同時(shí)滿足一類(lèi)和二類(lèi)要求。例如表3中，算法1 的ROC_AUC1==0.8，算法2 的=0.8。算法1 和算法2 的ROC_AUC值相同，但實(shí)際差別很大。算法1 在r=4 時(shí)，就能檢測(cè)出所有離群點(diǎn)，而算法2 在r=6 的時(shí)候才能檢測(cè)出所有離群點(diǎn)；算法r=2時(shí)，能檢測(cè)出2個(gè)離群點(diǎn)，且未將正常點(diǎn)誤判為離群點(diǎn)，而算法1無(wú)論r等于多少，都存在將正常點(diǎn)誤判為離群點(diǎn)。

在實(shí)際應(yīng)用中，對(duì)于算法1 和算法2 有著不同的適用場(chǎng)景。算法1 適合要求高檢測(cè)準(zhǔn)確率的場(chǎng)景，即要求所有離群點(diǎn)的rank 靠前，例如疾病檢測(cè)；算法2 適合要求低錯(cuò)誤率的場(chǎng)景，即要求所有正常點(diǎn)的rank靠后，例如垃圾郵件檢測(cè)。

代價(jià)敏感（Meta Cost）方法［1］通過(guò)引入代價(jià)因子，作為T(mén)PR和FPR的權(quán)衡。代價(jià)因子c（Y，n）表示將正常點(diǎn)預(yù)測(cè)為離群點(diǎn)的代價(jià)，c(N，y)表示將離群點(diǎn)預(yù)測(cè)為正常點(diǎn)的代價(jià)。通過(guò)修改I函數(shù)，每項(xiàng)不等式右乘，為不同類(lèi)型的錯(cuò)誤分類(lèi)設(shè)置不同的代價(jià)。當(dāng)設(shè)置c(Y，n) ＞c(N，y)時(shí)，表示正常點(diǎn)預(yù)測(cè)為離群點(diǎn)的代價(jià)更高，最終的meta_AUC 比ROC_AUC 更小；當(dāng)設(shè)置c(Y，n) ＜c(N，y)時(shí)，表示離群點(diǎn)預(yù)測(cè)為正常點(diǎn)的代價(jià)更高，最終的meta_AUC 比ROC_AUC 更大。這種方法通過(guò)設(shè)置兩個(gè)代價(jià)因子來(lái)權(quán)衡參數(shù)依賴(lài)，需要依靠經(jīng)驗(yàn)設(shè)置。代價(jià)因子的可解釋性較弱，不便于使用。

表3 ROC_AUC的例子Tab.3 Examples of ROC_AUC

綜上述，閾值法適合在應(yīng)用決策時(shí)使用，曲線法適合算法效果的精確展示，整合法適合在參數(shù)控制時(shí)使用。已有的離群點(diǎn)檢測(cè)評(píng)價(jià)方式常常采用以上指標(biāo)的綜合方案［8］，以便優(yōu)勢(shì)互補(bǔ)，充分驗(yàn)證算法的效果。

2 方法

2.1 高真正率和低假正率指標(biāo)

定義1一類(lèi)高真正率要求：要求TPR 接近1，對(duì)應(yīng)ROC曲線向頂部“凸”。

定義2二類(lèi)低假正率要求：要求FPR 接近0，對(duì)應(yīng)ROC曲線向左部“凸”。

例如在疾病檢測(cè)中，將患?。?biāo)簽為“1”）錯(cuò)標(biāo)記為正常（“0”），會(huì)導(dǎo)致該患者得不到治療。如果是傳染病，漏檢還會(huì)發(fā)生進(jìn)一步傳染，產(chǎn)生嚴(yán)重的后果。因此，疾病檢測(cè)系統(tǒng)要求一類(lèi)高真正率，檢測(cè)到所有患病者，即使存在將正常人歸為患病類(lèi)，可以進(jìn)一步檢測(cè)排除“疑似類(lèi)”。在垃圾郵件檢測(cè)中，將重要郵件（標(biāo)簽為“0”）誤判為垃圾郵件（標(biāo)簽為“1”），會(huì)給收件人帶來(lái)難以估量的影響。因此垃圾郵件檢測(cè)系統(tǒng)要求二類(lèi)要求低假正率，要求不能把重要郵件誤判為垃圾郵件，即使漏檢部分真正的垃圾郵件。

為了同時(shí)解決已有整合法的信息丟失和參數(shù)依賴(lài)的問(wèn)題，適應(yīng)一類(lèi)高真正率和二類(lèi)低假正率要求，本文提出了HT_AUC和LF_AUC。

其中：α∈[0，1]是控制變量，表示求算法的ROC曲線在FPR＞α?xí)r具有高TPR，H表示NO中rank 值在后的點(diǎn)的集合。式（1）中第一個(gè)加項(xiàng)表示ROC 曲線后1-α部分曲線的面積，第二個(gè)加項(xiàng)表示忽略ROC曲線前α部分曲線的面積，適應(yīng)一類(lèi)要求。

其中：α∈[0，1]是控制變量，表示求算法的ROC曲線在TPR＜α?xí)r具有低FPR，L表示O中rank 值在前α*n的點(diǎn)的集合。式（2）中第一個(gè)加項(xiàng)表示ROC曲線下面α部分曲線的面積，第二個(gè)加項(xiàng)表示忽略ROC 曲線后1-α部分曲線的面積，適應(yīng)二類(lèi)要求。

例如，表3中算法1和算法2，取α=0.2，可以計(jì)算出：

HT_AUC1＞HT_AUC2，說(shuō)明算法1 更能適應(yīng)一類(lèi)要求，LF_AUC2＞LF_AUC1，說(shuō)明算法2更能適應(yīng)二類(lèi)要求。

2.2 證明

本方法通過(guò)調(diào)整參數(shù)α控制一類(lèi)高真正率或者二類(lèi)低假正率要求的程度。對(duì)于HT_AUC，表示在容忍FPR=α的情況下整合TPR 越高越好，α越小越接近ROC_AUC；對(duì)于LF_AUC，表示在滿足TPR=α的情況下整合FPR 越低越好，α越大越接近ROC_AUC。相較于Meta Cost 中的代價(jià)因子，本文方法的參數(shù)可解釋性更強(qiáng)，更容易設(shè)置，參數(shù)依賴(lài)性更低。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)準(zhǔn)備

數(shù)據(jù)集取自UCI 的30 個(gè)真實(shí)數(shù)據(jù)集［26］，表4 展示了這些真實(shí)數(shù)據(jù)集的特征。將數(shù)量稀少的類(lèi)或者特選類(lèi)中的數(shù)據(jù)點(diǎn)作為離群點(diǎn)，剩余的數(shù)據(jù)點(diǎn)作為正常點(diǎn)。

1）一類(lèi)和二類(lèi)要求。為了驗(yàn)證本文評(píng)價(jià)方法的有效性，本文首先細(xì)化一類(lèi)要求：要求在FPR=40%時(shí)，離群點(diǎn)檢測(cè)算法的TPR越高，算法效果越好。這種要求表示在同等容錯(cuò)下，檢測(cè)準(zhǔn)確率越高的算法越能滿足高真正率要求。然后細(xì)化二類(lèi)要求：要求在TPR=80%時(shí)，離群點(diǎn)檢測(cè)算法的FPR越低，算法效果越好。這種要求表示在同等檢測(cè)率下，檢測(cè)錯(cuò)誤率越低的算法越能滿足低假正率要求。實(shí)驗(yàn)平臺(tái)為3.4 GHz CPU，8 GB RAM，Windows10 系統(tǒng)，PyCharm 社區(qū)版，采用Python編程。

2）離群點(diǎn)檢測(cè)方法。使用下列4 種經(jīng)典的離群點(diǎn)檢測(cè)算法［18，27］作為評(píng)價(jià)指標(biāo)的對(duì)比算法：局部異常因子（Local Outlier Factor，LOF）、K最近鄰（KNearest Neighbor，KNN）、孤立森林（Isolation Forest，IF）、不穩(wěn)定因子（INStability factor，INS）。這4 種不同類(lèi)型的算法在每個(gè)數(shù)據(jù)集上的檢測(cè)結(jié)果有不同程度的差異，本實(shí)驗(yàn)的目的即比較出更能區(qū)分這些算法在不同要求下效果優(yōu)劣的評(píng)價(jià)指標(biāo)。

3）對(duì)比方法。將本文提出的HT_AUC 和LF_AUC 方法與已有的PR_AUC，ROC_AUC 以及meta_AUC（代價(jià)比分別設(shè)為1.25 和0.8）作對(duì)比。一類(lèi)要求的評(píng)價(jià)方法對(duì)比策略：以每個(gè)算法在FPR=40%時(shí)的TPR 值作為基準(zhǔn)指標(biāo)，按從大到小對(duì)算法排序，再對(duì)比HT_AUC 與其他3 個(gè)方法的評(píng)價(jià)排序，與基準(zhǔn)指標(biāo)越接近（排序的歐式距離越小）的評(píng)價(jià)方法越好；同理，二類(lèi)要求的評(píng)價(jià)方法對(duì)比策略：以每個(gè)算法在TPR=80%時(shí)的FPR 值作為基準(zhǔn)指標(biāo)，按從小到大對(duì)算法排序，再對(duì)比HT_AUC 與其他3 個(gè)算法的評(píng)價(jià)排序，與基準(zhǔn)指標(biāo)越接近（排序的歐式距離越小）的評(píng)價(jià)方法越好。

表4 真實(shí)數(shù)據(jù)集的描述Tab.4 Description of real-world datasets

3.2 結(jié)果及分析

圖3記錄了HT_AUC與對(duì)比方法在30個(gè)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。可以看出，meta_AUC 在大部分?jǐn)?shù)據(jù)集上具有最高的差異度，也就是與基準(zhǔn)指標(biāo)的差異最大，這是由于代價(jià)因子的影響。PR_AUC 和ROC_AUC 的方法大部分時(shí)候與基準(zhǔn)指標(biāo)差異不大，能基本滿足一類(lèi)高真正率要求。HT_AUC 在大部分情況下結(jié)果和ROC_AUC 一致，部分?jǐn)?shù)據(jù)集上能展示出更好的效果。因此，可以得出結(jié)論，HT_AUC 比其他指標(biāo)更能滿足一類(lèi)高真正率要求。

圖4 記錄了LF_AUC 與對(duì)比方法在30 個(gè)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。同樣的，meta_AUC 在大部分?jǐn)?shù)據(jù)集上與基準(zhǔn)指標(biāo)的差異較大。PR_AUC 和ROC_AUC 的方法大部分時(shí)候與基準(zhǔn)指標(biāo)差異不大，能基本滿足二類(lèi)低假正率要求。LF_AUC在大部分情況下結(jié)果和ROC_AUC 一致，其余數(shù)據(jù)集上能展示出更好的效果。因此，也可以得出結(jié)論，LF_AUC 比其他指標(biāo)更能滿足二類(lèi)低真正率要求。

圖3 HT_AUC與傳統(tǒng)評(píng)價(jià)方法的結(jié)果對(duì)比Fig.3 Result comparison of the proposed HT_AUC and traditional methods

圖4 LF_AUC與傳統(tǒng)評(píng)價(jià)方法的結(jié)果對(duì)比Fig.4 Result comparison of the proposed LF_AUC and traditional methods

整體來(lái)看，所提出HT_AUC 和LF_AUC 指標(biāo)相較于其他方法，與基準(zhǔn)指標(biāo)的差異最小，更能滿足一類(lèi)高真正率要求和二類(lèi)低真正率要求。該方法可作為具有特別要求系統(tǒng)的評(píng)價(jià)指標(biāo)，例如要求一類(lèi)高真正率的疾病檢測(cè)可使用HT_AUC 指標(biāo)，要求二類(lèi)低假正率的垃圾郵件檢測(cè)可使用LF_AUC指標(biāo)。

4 結(jié)語(yǔ)

本文對(duì)離群點(diǎn)檢測(cè)領(lǐng)域內(nèi)常見(jiàn)的評(píng)價(jià)方法作了歸納整理，并提出了滿足一類(lèi)高真正率要求的HT_AUC 指標(biāo)和滿足二類(lèi)低假正率要求的LF_AUC 指標(biāo)。已有離群點(diǎn)檢測(cè)評(píng)價(jià)方式建議采用兩類(lèi)以上的評(píng)價(jià)指標(biāo)，以便優(yōu)勢(shì)互補(bǔ)，充分驗(yàn)證算法的效果。其中，閾值法適合工業(yè)選擇時(shí)使用，曲線法適合算法效果的精確展示，整合法適合在參數(shù)控制時(shí)使用。實(shí)驗(yàn)結(jié)果表明，如果應(yīng)用對(duì)算法的真正率和假正率有特殊要求，采用所提出的HT_AUC 和LF_AUC 指標(biāo)，能更好地評(píng)價(jià)所使用的算法。本文所涉及的數(shù)據(jù)對(duì)象主要是離群數(shù)據(jù)集，未來(lái)將繼續(xù)對(duì)序列離群點(diǎn)檢測(cè)算法的評(píng)價(jià)方法進(jìn)行研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡