陶新民,郝思媛,張冬雪,徐 鵬
(哈爾濱工程大學(xué)信息與通信工程學(xué)院,黑龍江 哈爾濱 150001)
分類問題是數(shù)據(jù)挖掘領(lǐng)域中重要的研究內(nèi)容之一。傳統(tǒng)的分類方法對平衡數(shù)據(jù)集分類取得了良好的效果。但實際的數(shù)據(jù)集往往不平衡,即數(shù)據(jù)集中某類的樣本數(shù)遠遠大于其他類的樣本數(shù)目。對于基于總體分類精度為學(xué)習(xí)目標的傳統(tǒng)分類器而言,這種不均衡勢必會導(dǎo)致分類器過多關(guān)注多數(shù)類樣本,從而使少數(shù)類樣本分類性能下降。而在實際應(yīng)用中,人們更關(guān)心的恰恰是數(shù)據(jù)集中的少數(shù)類,并且錯分這些少數(shù)類的代價也通常大于多數(shù)類,例如,把有入侵行為判為正常行為,將有可能造成重大網(wǎng)絡(luò)安全事故;把癌癥病人誤診為正常,將會延誤最佳治療時機,對病人造成生命威脅;將故障誤判為正常,導(dǎo)致故障漏檢,有可能引發(fā)重大安全事故。因此,在實際應(yīng)用中,人們更需要提高少數(shù)類樣本的分類精度。
對不均衡樣本機器學(xué)習(xí)的研究已成為目前最熱門的課題之一[1-2],近年來,一些重要的學(xué)術(shù)會議都對不均衡樣本分類進行了討論與分析。例如:由美國人工智能協(xié)會主辦的關(guān)于不均衡樣本學(xué)習(xí)的研討會(AAAI'00)[3],不均衡樣本集機器學(xué)習(xí)的國際會議研討會(ICML'03)[4],計算機機械專家組主辦的知識發(fā)現(xiàn)和樣本挖掘探索協(xié)會(ACMSIGKDD'04)[5]等。這些對不均衡樣本學(xué)習(xí)問題的關(guān)注和研討活動促進了該研究領(lǐng)域的快速發(fā)展,使得與該領(lǐng)域的有關(guān)論文呈明顯增長趨勢。由于研究該領(lǐng)域的重要性且該領(lǐng)域發(fā)展的迅速性,有必要將該領(lǐng)域近年來的研究成果進行整理和總結(jié),并對該領(lǐng)域今后的發(fā)展提出設(shè)想和展望。
數(shù)據(jù)不均衡表現(xiàn)在兩個方面。
一方面為類間不均衡,即某類樣本數(shù)量明顯少于其他類樣本數(shù)量。由于傳統(tǒng)分類器都是以總體分類精度為學(xué)習(xí)目標,因此在這種情況下,為了獲得更大的分類精度,訓(xùn)練算法勢必會導(dǎo)致分類器過多關(guān)注多數(shù)類樣本,從而使少數(shù)類樣本分類性能下降。例如對于一個99∶1的不均衡數(shù)據(jù)分類問題而言,分類器在把少數(shù)類樣本完全誤判為多數(shù)類情況下,所獲的總體分類精度仍然很高,即為99%,而此時少數(shù)類樣本的錯分率卻是100%。
另一方面在多數(shù)類與少數(shù)類出現(xiàn)類間不均衡的同時,在每一類樣本中間也可能存在另一種不平衡的形式,即類內(nèi)不均衡[6-11]。大量研究表明,樣本間不均衡的程度不是阻礙分類學(xué)習(xí)的唯一因素,類內(nèi)的不均衡也是導(dǎo)致分類性能惡化的重要因素,如圖1,2所示。其中三角和空心橢圓分別代表少數(shù)類和多數(shù)類。圖1和圖2中的分布都存在類間不均衡,不過圖1中,類間沒有重疊的樣本,且每一類都只有一個聚類。但是,在圖2中不僅有多個子集,同時還有重疊的樣本。類內(nèi)不均衡問題實質(zhì)上與數(shù)據(jù)集內(nèi)存在分離項密切相關(guān)。研究表明,小的分離項的存在會導(dǎo)致分類器性能嚴重下降。簡單說,分類器試圖通過描述占主要地位的聚類來建立學(xué)習(xí)規(guī)則,必然會導(dǎo)致該規(guī)則缺乏對次子集的描述[12-14]。由于分類器既要學(xué)習(xí)少數(shù)類又要學(xué)習(xí)多數(shù)類,少數(shù)類次子集的出現(xiàn)可能會導(dǎo)致多數(shù)類產(chǎn)生小的分離項,從而增加了分類器的學(xué)習(xí)難度。此外,由于缺乏少數(shù)類樣本,分類器無法有效分辨出少數(shù)類樣本噪聲和少數(shù)類樣本子集。例如,在圖2中,設(shè)想對于集B中的2個少數(shù)類噪聲樣本,分類器可能產(chǎn)生相應(yīng)的小分離項,然而分類器很難將由噪聲產(chǎn)生的非法分離項與合法子集C區(qū)分開來,這些都是導(dǎo)致傳統(tǒng)分類器學(xué)習(xí)性能下降的主要原因。
近年來,很多學(xué)者針對不均衡數(shù)據(jù)分類問題提出了多種改進算法。改進方向主要歸納為以下兩類:一是從數(shù)據(jù)集的角度,另一個是從算法角度。
圖1 類間不均衡數(shù)據(jù)集Fig.1 Unbalanced between classes
圖2 既有類間,又有類內(nèi)不均衡的高復(fù)雜度的數(shù)據(jù)集Fig.2 Highly complicated dataset with unbalanced of classes and the class
數(shù)據(jù)層面的處理方法是通過一些機制改善不均衡數(shù)據(jù)集,以期獲得一個均衡的數(shù)據(jù)分布。它是處理不均衡數(shù)據(jù)分類問題的重要途徑之一,因為與不均衡的數(shù)據(jù)集相比,一個均衡的數(shù)據(jù)集更有利于提高全局的分類性能[15-16]。
2.1.1 過抽樣策略
隨機過抽樣是處理不均衡數(shù)據(jù)最基本的方法。該算法首先復(fù)制隨機選擇的少數(shù)類樣本,并將生成的樣本集合添加到少數(shù)類中,得到新的少數(shù)類集合。雖然它只是簡單地將復(fù)制后的數(shù)據(jù)添加到原始數(shù)據(jù)集中,且某些樣本的多個實例都是“并列的”,但是也有可能使分類器學(xué)習(xí)出現(xiàn)過擬合現(xiàn)象[17]。特別是,過抽樣算法會導(dǎo)致分類器對于同一個樣本的多個復(fù)本產(chǎn)生多條規(guī)則,從而使這些規(guī)則過于具體化。為了有效解決隨機過抽樣算法的過擬合問題,Chawla N V等提出了一種基于人工合成少數(shù)類過抽樣技術(shù)(synthetic minority over-sampling technique,SMOTE)。SMOTE算法的基本思想是:首先尋找每一個少數(shù)類樣本的k個同類最近鄰樣本(其中k通常是大于1的奇數(shù)),然后隨機選擇k個最近鄰中的一個,并在這2個樣本之間隨機進行線性插值,構(gòu)造出新的人工少數(shù)類樣本。該方法可以有效地解決由于決策區(qū)間較小導(dǎo)致的分類過擬合問題,而且可使分類器的學(xué)習(xí)能力得到顯著提高。但是,SMOTE算法對每個原少數(shù)類樣本產(chǎn)生相同數(shù)量的合成數(shù)據(jù)樣本,而沒有考慮其鄰近樣本的分布特點,使得類間發(fā)生重復(fù)的可能性加大[18]。另外,SMOTE算法的樣本生成機制也同樣存在一定的盲目性。為了克服上述不足,近些年一些學(xué)者相繼提出了許多針對SMOTE的改進算法,例如文獻[19]提出的利用求最近鄰樣本均值點進而生成人工樣本的D-SMOTE算法;文獻[20]利用周圍空間結(jié)構(gòu)信息的鄰居計算公式提出的N-SMOTE過抽樣算法;文獻[21]提出的基于交叉算子的過抽樣算法以及文獻[22]提出的基于核SMOTE的過抽樣方法。此外,還有一些自適應(yīng)過抽樣方法相繼被提出,具有代表性的算法包括Borderline-SMOTE算法[23]和自適應(yīng)合成抽樣算法 (adaptive synthetic sampling,ADASYN)[24]。SMOTE算法和這些自適應(yīng)抽樣算法最大的差別在于:SMOTE算法為每一個少數(shù)類樣本生成合成樣本,而Borderline-SMOTE算法只為那些“靠近”邊界的少數(shù)類樣本生成合成樣本,而ADASYN算法的主要思想是使用密度分布作為自動確定合成樣本數(shù)目的標準,且通過自適應(yīng)地改變不同少數(shù)類樣本的權(quán)重,為每個樣本產(chǎn)生相應(yīng)數(shù)目的合成樣本。
另外,為了解決SMOTE技術(shù)引起的噪聲樣本問題,一些數(shù)據(jù)清潔技術(shù)也已被廣泛采用,最具代表性的是SMOTE與Tomek算法相結(jié)合的SMOTE+Tomek算法[25],該算法首先利用SMOTE算法生成合成樣本,然后利用Tomek算法對來自2個不同類的Tomek連接樣本對進行清理,這樣就很好地克服了SMOTE帶來的噪聲問題。
除了采用SMOTE合成人工樣本外,一些學(xué)者還提出利用概率密度生成第二類人工數(shù)據(jù)的方法。該方法是利用合適的概率分布來生成異性樣本,然后通過將不均衡數(shù)據(jù)問題轉(zhuǎn)換為均衡兩類問題,實現(xiàn)不均衡數(shù)據(jù)的分類。如文獻[26]提出的均勻分布,以及文獻[27]提出的基于高斯分布產(chǎn)生第二類數(shù)據(jù)的方法。然而,在眾多的復(fù)雜實際問題中,異性樣本有很多種,分布十分復(fù)雜,不可能通過單一的概率模型對其進行描述。為此,文獻[28]提出一種基于陰性免疫的過抽樣算法,該算法利用陰性免疫算法對多數(shù)類樣本學(xué)習(xí),生成覆蓋少數(shù)類樣本空間的人工少數(shù)類樣本,從而實現(xiàn)訓(xùn)練樣本數(shù)據(jù)的均衡。由于該算法只利用多數(shù)類樣本先驗知識,不需要少數(shù)類樣本信息,因此避免了通過學(xué)習(xí)少數(shù)類樣本生成的人工樣本缺乏空間代表性的不足。由于在不均衡數(shù)據(jù)應(yīng)用中,多數(shù)類樣本數(shù)據(jù)很容易得到,因此該算法具有廣闊的應(yīng)用前景。
2.1.2 欠抽樣策略
與過抽樣技術(shù)將數(shù)據(jù)添加到原始數(shù)據(jù)集的機制不同,欠抽樣技術(shù)是將數(shù)據(jù)從原始數(shù)據(jù)集中移除。最基本的欠抽樣技術(shù)是隨機欠抽樣,即隨機地減少多數(shù)類樣本來縮小多數(shù)類樣本的規(guī)模,達到與少數(shù)類樣本數(shù)量相同的目的。但是該方法在將多數(shù)類樣本刪除的同時有可能會丟失具有代表性的多數(shù)類樣本信息。為克服這一不足,文獻[29]提出2個Informed的智能欠抽樣算法:EasyEnsemble和 BalanceCascade算法。其中EasyEnsemble算法的實施方法很簡單:通過從多數(shù)類中獨立隨機抽取若干子集,且將每個子集與少數(shù)類數(shù)據(jù)聯(lián)合起來訓(xùn)練生成多個基分類器,最終將這些基分類器組合形成一個集成學(xué)習(xí)系統(tǒng)。BalanceCascade算法則使用前面已形成的集成分類器來為下一次訓(xùn)練選擇多數(shù)類樣本,然后再進行欠抽樣。與此同時,P.Chan 等[30]提出了一種最近鄰規(guī)則欠抽樣方法(edited nearest neighbor,ENN),基本思想是刪除其最近的3個近鄰樣本中的2個或者2個以上類別不同的樣本。但是大多數(shù)的多數(shù)類樣本附近的樣本都是多數(shù)類的,所以該方法所能刪除的多數(shù)類樣本十分有限。鑒于此,Laur Ikkala J等[31]在ENN的基礎(chǔ)上提出了鄰域清理規(guī)則欠抽樣方法(neighborhood cleaning rule,NCL),核心思想是針對訓(xùn)練樣本集中的每個樣本找出其3個最近鄰樣本,若該樣本是多數(shù)類樣本且其3個最近鄰中有2個以上是少數(shù)類樣本,則刪除它;反之,當該樣本是少數(shù)類,并且其3個最近鄰中有2個以上是多數(shù)類樣本,則去除近鄰中的多數(shù)類樣本。但是該方法中未能考慮到在少數(shù)類樣本中存在的噪聲樣本,而且第2種方法刪除的多數(shù)類樣本大多屬于邊界樣本,對后續(xù)分類器的分類會產(chǎn)生很大的不良影響。鑒于此,文獻[32]使用K-近鄰(K-nearest neighbor algorithm,KNN)分類器來進行欠抽樣,并給出4種不同的KNN欠抽樣方法,即:NearMiss-1,NearMiss-2,NearMiss-3以及“最遠距離”方法。其中,NearMiss-1方法選擇到最近的3個少數(shù)類樣本平均距離最小的那些多數(shù)類樣本;而NearMiss-2方法選擇到最遠的3個少數(shù)類樣本平均距離最小的那些多數(shù)類樣本;NearMiss-3為每個少數(shù)類樣本選擇給定數(shù)目的最近多數(shù)類樣本,目的是保證每個少數(shù)類樣本都被一些多數(shù)類樣本包圍;“最遠距離”方法則選擇到最近的3個少數(shù)類樣本平均距離最大的那些多數(shù)類樣本。除上述方法外,還存在其他類型的智能欠抽樣方法,如Kubat等[33]提出的單邊選擇方法(one-sided selection,OSS),該方法是將多數(shù)類樣本分為“噪音樣本”、“邊界樣本”和“安全樣本”,然后將邊界樣本和噪音樣本從多數(shù)類中刪除,盡可能保留那些具有一定信息量又有一定空間代表性的樣本?;谏鲜鏊枷耄墨I[34-35]提出利用聚類方法來獲得具有空間代表性的樣本。算法首先對多數(shù)類樣本進行聚類,聚類個數(shù)設(shè)置與少數(shù)類樣本數(shù)目相同,然后提取出每個聚類的中心作為多數(shù)類樣本,如此操作就可以使選擇出來的多數(shù)類樣本具有一定的空間代表性,典型的聚類方法有譜聚類和核聚類方法。
由上述分析可知,過抽樣算法采用的是重復(fù)少數(shù)類樣本或生成人工樣本的方式實現(xiàn)樣本均衡,這樣會增加訓(xùn)練時間,且容易產(chǎn)生過擬合現(xiàn)象。而欠抽樣算法采用的是刪除多數(shù)類樣本的方式實現(xiàn)樣本均衡,容易導(dǎo)致丟失重要的樣本信息。因此,為了彌補欠抽樣和過抽樣的缺點,文獻[36]提出基于隨機欠抽樣和SMOTE相結(jié)合的不均衡SVM分類算法以及文獻[37]提出逐級優(yōu)化遞減(optimization of decreasing reduction,ODR)欠抽樣算法和BSMOTE算法相結(jié)合的不均衡SVM分類算法。該方法的核心是:首先利用ODR對多數(shù)類樣本進行欠抽樣,去除樣本中大量重疊的冗余和噪聲樣本,使得在減少數(shù)據(jù)的同時保留更多的有用信息;而對少數(shù)類樣本的過抽樣則是對邊界樣本進行的,如此操作能更有利于后續(xù)SVM算法分類界面的生成,最終實現(xiàn)提高不均衡數(shù)據(jù)SVM算法分類性能的目的。
2.2.1 改變概率密度
由于目標(正常)樣本已知,可以通過采用合適的統(tǒng)計分布來實現(xiàn)目標樣本的概率密度估計,在識別階段,依據(jù)得到的概率密度,若其他樣本的概率密度值低于某個預(yù)先設(shè)定的閾值,則認定為異性樣本。如文獻[38]采用高斯分布進行目標樣本密度估計。該方法的最大問題是對所選的統(tǒng)計模型十分敏感,需要人們事先了解目標樣本的分布,這在很多現(xiàn)實應(yīng)用中難以實現(xiàn)。另一種方法是采用無參數(shù)概率密度方法,如文獻[39-40]提出的基于核空間密度估計不均衡數(shù)據(jù)分類方法,該算法由于將密度估計從傳統(tǒng)數(shù)據(jù)空間轉(zhuǎn)換為高維核空間中進行,有可能導(dǎo)致算法出現(xiàn)維度災(zāi)難問題且計算復(fù)雜度也大大提高。因此,這種方法在實際應(yīng)用中還是存在很大限制。
2.2.2 單類學(xué)習(xí)分類
基于單類學(xué)習(xí)的分類算法是將傳統(tǒng)不均衡數(shù)據(jù)基于區(qū)別的分類方法改為基于識別的方法進行學(xué)習(xí)。其主要思想是只利用感興趣的目標類樣本進行學(xué)習(xí)和訓(xùn)練,即只對多數(shù)類樣本進行訓(xùn)練,其目標是從測試樣本中識別出多數(shù)類樣本,而不是對少數(shù)類和多數(shù)類進行區(qū)分。對于新的樣本,通過比較該樣本與目標類的相似程度來識別該樣本是否歸屬于目標類。如文獻[41-42]采用支持向量機數(shù)據(jù)描述方法實現(xiàn)目標數(shù)據(jù)的非線性邊界描述。
2.2.3 集成算法(ensemble learning)
從20世紀90年代開始,對集成學(xué)習(xí)理論和算法的研究成為了機器學(xué)習(xí)的一個熱點。早在1997年,國際機器學(xué)習(xí)界的權(quán)威 T.G.Dietterich就將集成學(xué)習(xí)列為機器學(xué)習(xí)4大研究方向之首,典型的集成方法有:Bagging[43]、隨機森林[44]和 Boosting。
1)Boosting。
AdaBoost算法是Boosting中最具代表性的算法,基本思想是:集中在上次分類器判決出錯的樣本。開始時,每一個樣本給定固定的權(quán)重,一般采用均勻分布,每次循環(huán)后,產(chǎn)生一個新的分類器,然后重新對訓(xùn)練樣本進行加權(quán),使下一個訓(xùn)練分類器集中在上次最近的分類器判別出錯的訓(xùn)練樣本上,即出錯的樣本施加更大的權(quán)重,易分樣本減少權(quán)重,最后利用加權(quán)投票集成方法實現(xiàn)決策分類[45]。由于在不均衡數(shù)據(jù)分類應(yīng)用中容易將少數(shù)類樣本錯分,因此集成算法就會過多地關(guān)注少數(shù)類樣本,從而產(chǎn)生有利于少數(shù)類分類的基分類器,最終通過集成實現(xiàn)提高分類器對少數(shù)類的分類性能。
2)抽樣和集成算法的融合。
抽樣策略與集成學(xué)習(xí)算法相融合的思想已在不均衡數(shù)據(jù)分類領(lǐng)域中廣泛應(yīng)用。例如,文獻[46]提出的DataBoost-IM算法,它是將文獻[47]提出的數(shù)據(jù)生成技術(shù)與AdaBoost.M1結(jié)合,根據(jù)類間難以學(xué)習(xí)樣本的比例生成合成樣本;另一種算法是文獻[48]提出的SMOTEBoost算法,它是基于SMOTE抽樣技術(shù)和Adaboost.M2算法相融合的思想。該算法是在每次boosting迭代中引入了合成抽樣技術(shù)。這樣,每個連續(xù)的分類器就更加注重少數(shù)類,由于每個基分類器都建立在不同的數(shù)據(jù)樣本上,最終投票集成后的分類器就會使得少數(shù)類擁有更寬廣、更明確的決策域。
雖然合成抽樣方法可有效解決不均衡數(shù)據(jù)的學(xué)習(xí)問題,但是由于數(shù)據(jù)生成方法都相對復(fù)雜,且計算量很大。為此,針對隨機過抽樣技術(shù)中導(dǎo)致的數(shù)據(jù)重疊問題,Mease et al.在文獻[49]中提出了能克服這一缺點的簡單有效的過抽樣技術(shù),它不再使用計算方法生成新的數(shù)據(jù),而是通過從隨機過抽樣獲得重復(fù)數(shù)據(jù)且給新產(chǎn)生的重疊數(shù)據(jù)引入騷動(抖動)方法來打破這種重疊關(guān)系,這樣就會使算法的運算效率大大提升,這就是著名的抖動過/欠抽樣算法(over/under-sampling and jittering of the data,JOUSBoost)。該算法在每次boosting迭代中都向少數(shù)類樣本引入獨立的、同分布的噪聲。這一思想較合成抽樣方法來說相對簡單,且能夠結(jié)合Boost集成算法的優(yōu)點來提高不均衡分類器的性能。類似的方法還有很多,例如文獻[50]提出基于核函數(shù)的Adaboost分類算法,分別引入了3種核函數(shù)(多項式核函數(shù)、徑向核函數(shù)、Sigmoid核函數(shù))同Adaboost算法集成。文獻[51]提出一種基于核的模糊多球分類算法及其集成算法。該算法在訓(xùn)練時,為每一個模式建造多個最小超球體覆蓋所有的訓(xùn)練樣本,在識別階段利用隸屬度函數(shù)對測試樣本進行歸類,最后將這些基分類器進行集成。為了提高樣本的代表性以及分類器的泛化性能,文獻[52]提出了基于核聚類欠抽樣集成不均衡SVM分類算法,該算法首先在核空間中對多數(shù)類樣本集進行聚類,然后隨機選擇出具有代表意義的聚類信息點,在減少多數(shù)類樣本的同時,將SVM算法的分類界面向多數(shù)類樣本方向偏移,并利用集成手段對基于核聚類的欠抽樣SVM算法進行集成,最終實現(xiàn)提高不均衡數(shù)據(jù)SVM算法泛化性能的目的。
2.2.4 代價敏感學(xué)習(xí)
抽樣技術(shù)是通過改變數(shù)據(jù)分布中類樣本代表比例的方式實現(xiàn)數(shù)據(jù)均衡,而代價敏感學(xué)習(xí)方法則是通過考慮與錯分樣本相關(guān)代價的方式來處理不均衡分類。以往研究表明,代價敏感學(xué)習(xí)與不均衡數(shù)據(jù)學(xué)習(xí)有很大的聯(lián)系,因此代價敏感方法的理論基礎(chǔ)和算法很自然地被用到不均衡學(xué)習(xí)問題中,而不再需要通過抽樣技術(shù)來建立均衡的數(shù)據(jù)分布。代價敏感學(xué)習(xí)使用的是特定的錯分樣本代價矩陣來處理不均衡學(xué)習(xí)問題,此外,很多實驗表明,在一些應(yīng)用領(lǐng)域,包括某種具體的不均衡學(xué)習(xí)領(lǐng)域,代價敏感學(xué)習(xí)都優(yōu)于抽樣方法。
代價敏感學(xué)習(xí)方法的基礎(chǔ)理論是代價矩陣。代價矩陣可以看作是將一類樣本錯分為另一類樣本懲罰項的數(shù)字表示。代價敏感學(xué)習(xí)算法有很多,一般說來可分成三類。第一類是將錯分代價直接應(yīng)用到數(shù)據(jù)集上作為數(shù)據(jù)空間的權(quán)重形式,利用錯分代價選擇最佳的訓(xùn)練分布,該技術(shù)稱作代價敏感數(shù)據(jù)空間權(quán)重方法;第二類是將最小化代價技術(shù)應(yīng)用到集成方法結(jié)合方案中,將標準的學(xué)習(xí)算法與集成方法相融合形成代價敏感集成分類器。這兩類方法都有堅實的理論基礎(chǔ),代價敏感數(shù)據(jù)空間權(quán)重方法是基于轉(zhuǎn)化定理的,而代價敏感集成分類器則是基于元代價框架的基礎(chǔ)上。最后一類是將代價敏感函數(shù)或特征直接應(yīng)用到分類實例中,使代價敏感框架直接融入到這些分類器中。典型算法有文獻[53]提出的通過改變訓(xùn)練集類別分布的代價敏感性學(xué)習(xí)算法;文獻[54]提出的通過改變正類和反類占總樣本數(shù)比例的較優(yōu)代價敏感分類器算法;文獻[55]提出的代價敏感的支持向量機算法,該算法首先利用邊界人工少數(shù)類過抽樣技術(shù)(BSMOTE)實現(xiàn)訓(xùn)練樣本的均衡,然后利用K近鄰構(gòu)造代價值,并利用每個樣本的代價函數(shù)來消除噪聲樣本對SVM算法分類精度的影響。需要說明的是,在現(xiàn)實中,代價敏感學(xué)習(xí)方法通常難以確定代價敏感值的大小。因此,如何確定代價矩陣是阻礙該方法成功應(yīng)用的關(guān)鍵。
2.2.5 核方法
隨著SVM理論的快速發(fā)展以及成功應(yīng)用,核方法越來越引起了人們的關(guān)注。線性SVM能夠成功推廣到非線性空間,就是得益于核矩陣能代替復(fù)雜內(nèi)積計算的優(yōu)勢。針對不均衡數(shù)據(jù)分類問題,很多學(xué)者試圖從核函數(shù)角度出發(fā)進行了研究,其中包括Wu和Chang[56]提出的一種通過修改SVM核矩陣的方法。該方法通過將核函數(shù)矩陣進行保角變換,實現(xiàn)擴大稀有類特征向量處的邊界,增加正負類樣本的分離度,減少大類支持向量數(shù)目的目的。文獻[57]提出改進的基于核密度估計的數(shù)據(jù)分類算法。該方法通過引入空間信息和相應(yīng)平滑參數(shù),改善了原方法對不平衡問題的適應(yīng)力。文獻[58]提出利用特征選擇方法來處理不均衡數(shù)據(jù),使用多個樸實貝葉斯函數(shù)以及正規(guī)化邏輯回歸作為分類器,實驗結(jié)果表明,根據(jù)不均衡數(shù)據(jù)的成分將少數(shù)類特征和多數(shù)類特征結(jié)合,可以有效提高算法的分類性能。
以上方法都是針對單核情況進行分析的,然而采用單核進行映射的方式對所有樣本進行處理并不合理。近年來,出現(xiàn)了大量關(guān)于核組合方法的研究,即多核學(xué)習(xí)方法。處理不均衡數(shù)據(jù)的典型多核算法是多尺度核的學(xué)習(xí),直觀思路就是進行多尺度核的序列學(xué)習(xí)[59]。多尺度核序列合成方法相當簡單,它首先用大尺度核擬合對應(yīng)決策函數(shù)平滑區(qū)域的樣本,然后用小尺度核擬合決策函數(shù)變化相對劇烈區(qū)域的樣本,后面的步驟利用前面步驟的結(jié)果,進行逐級優(yōu)化,最終得到更優(yōu)的分類結(jié)果。
傳統(tǒng)的性能評估都是從分類器的整體分類情況來考慮,即考慮所有樣本的分類準確率。但是在不均衡數(shù)據(jù)分類中,少數(shù)類樣本更容易錯分,同時少數(shù)類樣本數(shù)目所占比例不大,所以總體分類性能的指標變化也不大。例如一個二分類的問題:A樣本數(shù)目是99個,B樣本數(shù)目是1個,按照傳統(tǒng)性能評估指標(即總體的分類正確率)評估分類器的性能,分類器可以將所有樣本都識別為A類,而總體的性能指標仍為99%。但是這就導(dǎo)致B類樣本的錯分概率為100%。在大多現(xiàn)實應(yīng)用中,少數(shù)類樣本識別率往往更為重要,因此,針對傳統(tǒng)的性能指標存在的缺陷,很多學(xué)者在研究不均衡數(shù)據(jù)集分類時通常不使用總體分類性能指標,而使用以下幾個性能指標。
定義在不均衡數(shù)據(jù)集中少數(shù)類樣本為P;多數(shù)類樣本為N;FP是指將多數(shù)類樣本錯分成少數(shù)類的數(shù)目;FN是指將少數(shù)類樣本錯分成多數(shù)類的數(shù)目;TP和TN分別表示少數(shù)類和多數(shù)類樣本被正確分類的數(shù)目,具體如表1說明。
表1 二分類數(shù)據(jù)集的混合矩陣Tab.1 Mixing matrix of binary data sets
由此可以得到以下公式。少數(shù)類樣本正確率為
從(4)式可知,性能指標G綜合考慮了少數(shù)類和多數(shù)類兩類樣本的分類性能,G的值是隨著少數(shù)類和多數(shù)類樣本正確率在[0,1]單調(diào)遞增的,因此要使G的值大,必須滿足少數(shù)類和多數(shù)類樣本正確率的值同時都大。如果分類器分類偏向于其中一類就會影響另一類的分類正確率,導(dǎo)致G值會變小。性能指標F也是一種常用的不均衡數(shù)據(jù)分類問題的評價準則。從(5)式中可知,性能指標F既考慮少數(shù)類樣本的查全率又考慮查準率,其中任何一個值都能影響F值的大小。如果查全率和查準率的值都比較小,則F的值也會很小;若查全率較大而查準率較小,或者查全率較小而查準率較大,則F的值也都是很小;只有在查全率和查準率的值都比較大的前提下,F(xiàn)值才會很大。因此,可見該性能指標主要是在查全率和查準率均衡的情況下才可能將其最大化。它能綜合地體現(xiàn)出分類器對多數(shù)類和少數(shù)類的分類效果,但側(cè)重于體現(xiàn)少數(shù)類樣本的分類效果。曲線下面積(area under the ROC curve,AUC)是另一個有效的不均衡數(shù)據(jù)分類性能評價手段,對于一個給定的兩分類問題,ROC曲線是利用多個(FPR,TPR)對描述性能的方法,其中FPR代表假陽性率,TPR代表真陽性率,AUC是這個曲線形成的面積,如圖3中著色部分。它評測的是FPR所有可能值對應(yīng)的分類方法的性能,因此被證明是一個非常有效的不均衡分類性能評測標準。
選用國際機器學(xué)習(xí)標準數(shù)據(jù)庫UCI中的6個不同的數(shù)據(jù)集對算法進行實驗,數(shù)據(jù)特征信息如表2所示,類別表示選擇出來作為少數(shù)類和多數(shù)類樣本的代表類別,例如,B∶A表示違約客戶與不違約客戶的個數(shù)比;R∶N表示復(fù)發(fā)病人和未復(fù)發(fā)病人個數(shù)比;NUC∶CYT表示細胞核與細胞質(zhì)樣本個數(shù)比。這里選擇傳統(tǒng)SVM分類算法作為分類器。
圖3 ROC曲線示例Fig.3 ROC curve example
表2 實驗數(shù)據(jù)集描述Tab.2 Description of experimental datasets
實驗中,選取了幾種具有代表性的學(xué)習(xí)方法進行比較,分別是:傳統(tǒng)的SVM算法、基于隨機欠抽樣的SVM算法(RU)、基于SMOTE過抽樣的SVM算法、基于BSMOTE過抽樣的SVM算法、基于代價敏感的SVM算法(SVM-WEIGHT)和自適應(yīng)人工樣本過抽樣SVM算法(AdaSyn)。對每一個數(shù)據(jù)集,采用10次交叉驗證的方法進行實驗,對每次交叉實驗運行10次,以防止隨機影響,最后計算這些實驗的F,G性能評測指標的統(tǒng)計平均值。為了考察不均衡數(shù)據(jù)下,算法的分類性能,實驗中選擇1∶10的比例進行隨機選擇。其中,分類器SVM參數(shù)設(shè)置為:核函數(shù)為高斯函數(shù),核寬度數(shù)為10,懲罰因子設(shè)置為C=10,SMOTE,BSMOTE算法中最近鄰算法參數(shù)選擇為6,其他欠抽樣算法保留著與少數(shù)類樣本數(shù)目相同的多數(shù)類樣本。代價敏感SVM算法的少數(shù)類的代價與多數(shù)類的代價比值設(shè)置為CMI/CMA=10。從表3的實驗結(jié)果可以看出,針對不均衡數(shù)據(jù)集分類而言,SVM算法的Specificity性能指標多為1,Sensitivity性能指標基本為0,而其他不均衡數(shù)據(jù)分類算法在二者指標上都有明顯的提高。由于G性能既考慮了多數(shù)類的樣本分類性能,也考慮了少數(shù)類樣本的分類性能,因此,基于代價敏感的SVM算法(SVM-WEIGHT)和自適應(yīng)人工樣本過抽樣SVM算法(AdaSyn)在整體性能上最優(yōu)。觀察另一個F性能評測指標,可以看到SVM-Weight算法在該性能指標上表現(xiàn)較好。而同樣是欠抽樣算法的隨機欠抽樣算法RU,由于對多數(shù)類抽樣的盲目性使得該算法對不均衡數(shù)據(jù)分類性能的改善不如其他算法顯著。
表3 10∶1不均衡數(shù)據(jù)下,數(shù)據(jù)集F,G的性能比較Tab.3 Performance comparison of F,G in unbalanced datasets
續(xù)表3
對不均衡數(shù)據(jù)分類問題,近些年,學(xué)者提出了很多解決方案,并且取得了一定的研究成果。本文首先從數(shù)據(jù)角度和算法角度對經(jīng)典的解決方案進行歸納。同時,通過仿真實驗比較了多種改進的不均衡分類算法在不同數(shù)據(jù)集上的分類性能。實驗表明,這些改進的算法在不均衡數(shù)據(jù)分類性能上都得到不同程度的改善。結(jié)合當前不均衡數(shù)據(jù)分類的研究現(xiàn)狀,該領(lǐng)域未來的發(fā)展還需解決的部分問題如下。
1)數(shù)據(jù)碎片問題。一些算法將原始的數(shù)據(jù)空間分為越來越小的一系列子空間,導(dǎo)致了數(shù)據(jù)碎片問題。這樣就只能在各個獨立的空間內(nèi)歸納數(shù)據(jù),那么每個小的子空間中所含有的少數(shù)類信息就更少了,使得一些跨類空間的數(shù)據(jù)無法被挖掘,這是影響少數(shù)類樣本學(xué)習(xí)的關(guān)鍵。
2)歸納偏置問題。特定樣本的歸納需要一個適當?shù)钠?,這是學(xué)習(xí)的先決條件。歸納偏置對算法的性能起著關(guān)鍵性作用。許多算法為了避免過度擬合或是獲得較好的算法性能,使用歸納偏置可能會對少數(shù)類的學(xué)習(xí)產(chǎn)生不利的影響。同時歸納推理系統(tǒng)常常將不確定的樣本劃分為多數(shù)類樣本。因此,如何改善這一缺陷是未來學(xué)者關(guān)注的方向。
3)噪聲問題。噪聲會嚴重影響分類器的性能,對于不均衡數(shù)據(jù)分類問題,少數(shù)類樣本很少,所以很難正確區(qū)分噪聲和少數(shù)類樣本。因此,如何抑制噪聲也是目前亟待解決的關(guān)鍵問題。
[1]KUBAT M,HOLTE R C,MATW IN S.Machine learning for the detection of oil spills in satellite radar images[J].Machine Learning,1998,30(223):195-215.
[2]LIU Y H,CHEN Y T.Face recognition using total margin-based adaptive fuzzy support vector machines[J].IEEE Transactions on Neural Networks,2007:178-192.
[3]JAPKOWICZ N.Learning from Imbalanced Data Sets[C]//Proc.Am Assoc for Artificial Intelligence(AAAI)Workshop.[s.l.]:[s.n.],2000.
[4]CHAWLA N V,JAPKOWICZ N,KOLCZ A.Workshop Learning from Imbalanced Data Sets II[C]//Proc.Int'l Conf Machine Learning.Washington DC:AAAI Press,2003.
[5]CHAWLA N V,JAPKOWICZ N,KOLCZ A.Editorial:Special Issue on Learning from Imbalanced Data Sets[J].ACM SIGKDD Explorations Newsletter,2004,6(1):1-6.
[6]SUN Y,KAMEL M S,WANG Y.Boosting for Learning Multiple Classeswith Imbalanced ClassDistribution[C]//Proc.Int'l Conf Data Mining.[s.l.]:[s.n.],2006:592-602.
[7]ABE N,ZADROZNY B,LANGFORD J.An Iterative Method for Multi-Class Cost-Sensitive Learning[C]//IEEE.Proc ACMSIGKDD Int'l Conf Knowledge Discovery and Data Mining.Washington:IEEE Press,2004:3-11.
[8]CHEN K,LU B L,KWOK J.Efficient Classification of Multi-Label and Imbalanced Data Using Min-Max Modular Classifiers[C]//Proc.World Congress on Computation Intelligence-Int'l Joint Conf USA:Neural Networks,2006:1770-1775.
[9]ZHOU Z H,LIU X Y.On Multi-Class Cost-Sensitive Learning[C]//Proc.Nat'l Conf Artificial Intelligence.[s.l.]:[s.n.],2006:567-572.
[10]LIU X Y,ZHOU Z H.Training Cost-Sensitive Neural Networks with Methods Addressing the Class Imbalance Problem[J].IEEE Trans Knowledge and Data Eng,2006,18(1):63-77.
[11]TAN C,GILBERT D,DEVILLE Y.Multi-Class Protein Fold Classification Using a New Ensemble Machine Learning Approach[J].Genome Informatics,2003,14:206-217.
[12]HOLTE R C,ACKER L,PORTER B W.Concept Learning and the Problem of Small Disjuncts[C]//Proc.Int'l J Conf Artificial Intelligence.San Mateo,CA:Morgan Kaufman Publishers,1989:813-818.
[13]JO T,JAPKOWICZ N.Class Imbalances versus Small Disjuncts[J].ACM SIGKDD Explorations Newsletter,2004,6(1):40-49.
[14]RAUDYS S J,JAIN A K.Small Sample Size Effects in StatisticalPattern Recognition: Recommendationsfor Practitioners[J].IEEE Trans Pattern Analysis and Machine Intelligence,1991,13(3):252-264.
[15]WEISS G M,PROVOST F.The Effect of Class Distribution on Classifier Learning:An Empirical Study[C]//Technical Report MLTR-43,Dept of Computer Science.New Jersey:Rutgers University Press,2001.
[16]ESTABROOKS A,JO T,JAPKOWICZ N.A Multiple Resampling Method for Learning from Imbalanced Data Sets[J].Computational Intelligence,2004,20:18-36.
[17]MIERSWA I.Controlling overfitting with multi-objective support vector machine[J].ACM GECCO'07,2007:1830-1837.
[18]WANG B X,JAPKOWICZ N.Imbalanced Data Set Learning with Synthetic Samples[C]//Proc.IRIS Machine Learning Workshop.[s.l.]:[s.n.],2004.
[19]CALLEJA Jorge de la,F(xiàn)UENTES Olac.A distance-based over-sampling method for learning from imbalanced data sets[C]//IEEE.Proceedings of the Twentieth International Florida Artificial Intelligence Research Society Conference.Florida:IEEE Press,2007:634-635.
[20]GARCíA V,SáNCHEZ J S.On the use of surrounding neighbors for synthetic over-sampling of the minority class[C]//IEEE.Proceedings of the 8th conference on Simulation, modeling and optimization. Cantabria: IEEE Press,2008:389-394.
[21]曾志強,吳群,廖備水.一種基于核SMOTE的非平衡數(shù)據(jù)集分類方法[J].電子學(xué)報,2009,37(11):2489-2495.ZENG Zhiqiang,WU Qun,LIAO Beishui.A Classification Method For Imbalance Data Set Based on kernel SMOTE[J].ACTA Electronica Sinica,2009,37(11):2489-2495.
[22]李鵬,王曉龍,劉遠超.一種基于混合策略的失衡數(shù)據(jù)集分類方法[J].電子學(xué)報,2007,35(11):2161-2165.LI Peng,WANG Xiaolong,LIU Yuanchao.A Classification Method for Imbalance Data Set Based on Hybrid Strategy[J].ACTA Electronica Sinica,2007,35(11):2161-2165.
[23]HAN H,WANG W Y,MAO B H.Borderline-SMOTE:A New Over-Sampling Method in Imbalanced Data Sets Learning[J].Lecture Notes In Computer Science,2005,3644(1):878-887.
[24]HE H,BAI Y,GARCIA E A.Adaptive Synthetic Sampling Approach for Imbalanced Learning[C]//IEEE.Proc Int'l J Conf Neural Networks.USA:IEEE Press,2008:1322-1328.
[25]BATISTA G,PRATI R C,MONARD M C.A Study of the Behavior of Several Methods for Balancing Machine Learning Training Data[J].ACM SIGKDD Explorations Newsletter,2004,6(1):20-29.
[26]VEERAMACHANENI S,NAGY G.Style context with second-order statistics[J].IEEE Trans Pattern Anal Mach Intell,2005,27(1):14-22.
[27]ABE N,ZADROZNY B.Outlier detection by active learning[C]//Proceedings of the 12th ACM SIGKDD International Conf on Knowledge Discovery and Data Mining.NY,ACM Press,2006:767-772.
[28]陶新民,徐晶,童稚靖.不均衡數(shù)據(jù)下基于陰性免疫的過抽樣算法[J].控制與決策,2010,25(6):867-873.TAO Minmin,XU Jin,TONG Zhijing.Over-sampling Algorithm Based On Negative Immune In Imbalanced Data Sets Learning[J].Control and Decision,2010,25(6):867-873.
[29]LIU X Y,WU J,ZHOU Z H.Exploratory Under Sampling for Class Imbalance Learning[C]//IEEE.Proc Int'l Conf Data Mining.[s.l.]:IEEE Press,2006:965-969.
[30]CLIFTON P,DAMMINDA A,VINCENT L.Minority Report in Fraud Detection:Classification of Skewed Data[J].ACM SIGKDD Explorations Newsletter,2004,6(1):50-59.
[31]LAURIKKALA J.Improving identification of difficult small classes by balancing class distribution[C]//Proc.of the 8th Conference on AI in Medicine in Europe:Artificial Intelligence Medicine.London,UK:Springer-Verlag,2001:63-66.
[32]ZHANG J,MANI I.Approach to Unbalanced Data Distributions:A Case Study Involving Information Extraction[C]//Proc.Int'1 Conf Machine Learning From Imbalanced Data Sets.Washington DC:AAAI Press,2003.
[33]KUBAT M,MATWIN S.Addressing the Curse of Imbalanced Training Sets:One-Sided Selection[C]//Proc.Int'l Conf Machine Learning.San Francisco:Morgan Kaufmann,1997:179-186.
[34]YUAN J,LI J,ZHANG B.Learning concepts from large scale imbalanced data sets using support cluster machines[J].ACM Multimedia Conference(MM),2006:441-450.
[35]BATISTA G,PRATI R C,MONARD M C.A Study of the Behavior of Several Methods for Balancing Machine Learning Training Data[J].ACM SIGKDD Explorations Newsletter,2004,6(1):20-29.
[36]朱明,陶新民.基于隨機下采樣和SMOTE的不均衡SVM 分類算法[J].信息技術(shù),2012:39-42.ZHU Ming,TAO Xinmin.The SVM Classifier For Unbalanced Data Based on Combination of RU-Undersample And SMOTE[J].Information Technology,2012:39-42.
[37]陶新民,童智靖,劉玉.基于ODR和BSMOTE結(jié)合的不均衡數(shù)據(jù)SVM分類算法[J].控制與決策,2011,26(10):1535-1541.TAO Xinmin,TONG Zhijing,LIU Yu.SVM Classifier For Unbalanced Data Based On Combination Of ODR And BSMOTE[J].Control and Decision,2011,26(10):1535-1541.
[38]GUNETTI D,PICARDI C.Keystroke Analysis of Free tetext[J].ACM Transaction on Information and System Security,2005,8(3):312-347.
[39]ROTH V.Kernel Fisher Discriminants For Outlier Detection[J].Neural Computing,2006,18(4):942-960.
[40]HONG X,CHEN S,HARRIS C J.A Kernel-Based Two-Class Classifier For Imbalanced Datasets[J].IEEE Transactions on Neural Networks,2007,18(1):28-41.
[41]陳斌,馮愛民.基于單簇類聚類的數(shù)據(jù)描述[J].計算機學(xué)報,2007,30(8):1325-1332.CHEN Bin,F(xiàn)ENG Aimin.One-Clustering Based Data Description[J].Chinese Journal of Computers,2007,30(8):1325-1332.
[42]WANG D F,YEUNG D S.Structured one-class classification[J].IEEE Trans on Systems and Cybernetics,2006,36(6):1283-1295.
[43]BREIMAN L.Bagging Predictions[J].Machine Learning,1996,24(2):123-140.
[44]BREIMAN L.Random forests[J].Journal Machine Learning,2001,45(1):5-32.
[45]張曉龍,任芳.支持向量機與AdaBoost的結(jié)合算法研究[J].計算機應(yīng)用研究,2009,26(1):77-79.ZHANG Xiaolong,REN Fang.Study On Combinability of SVM And Adaboost Algorithm[J].Application Research of Computers,2009,26(1):77-79.
[46]GUO H,VIKTOR H L.Learning from Imbalanced Data Sets with Boosting and Data Generation:The DataBoost IM Approach[J].ACM SIGKDD Explorations Newsletter,2004,6(1):30-39.
[47]GUO H,VIKTOR H L.Boosting with Data Generation:Improving the Classification of Hard to Learn Examples[C]//IEEE.Proc Int'l Conf.Innovations Applied Artificial Intelligence.USA:IEEE Press,2004:1082-1091.
[48]CHAWLA N V,LAZAREVIC A,HALL L O,et al.SMOTEBoost:Improving Prediction of the Minority Class in Boosting[C]//Proc.Seventh European Conf.Principles and Practice of Knowledge Discovery in Databases.Cavtat-Dubrovnik,Croatia:[s.n.],2003:107-119.
[49]MEASE D,WYNER A J,BUJA A.Boosted Classification Trees and Class Probability/Quantile Estimation[J].Machine Learning Research,2007,8:409-439.
[50]李想,李濤.基于核函數(shù)的Adaboost分類算法研究[J].電腦知識與技術(shù),2011,7(28):6970-6979.LI Xiang,LI Tao.Classification Algorithm of Kernelbased In Adaboost[J].Computer Knowledge and Technology,2011,7(28):6970-6979.
[51]顧磊,吳慧中,肖亮.一種基于核的模糊多球分類算法及其集成[J].計算機工程與應(yīng)用,2007,43(27):10-12.GU Lei,WU Huizhong,XIAO Liang.Kernel-based Fuzzy Multiple Spheres Classification Algorithm And Its Ensemble[J].Computer Engineering and Applications,2007,43(27):10-12.
[52]陶新民,劉福榮,杜寶祥.不均衡數(shù)據(jù)SVM分類算法及其應(yīng)用[M].哈爾濱:黑龍江科技技術(shù)出版社,2011:223-257.TAO Xinmin,LIU Furong,DU Baoxiang.Unbalanced Data SVM Classification Algorithm And Application[M].Harbin:Heilongjiang Science and Technology Press,2011:223-257.
[53]ZHOU Z H,LIU X Y.The Influence of Class Imbalance on Cost-Sensitive Learning:An Empirical Study[C]//IEEE.In Proceedings of the sixth IEEE International Conference on Data Mining(ICDM'06).Hong Kong,China:IEEE Press,2006:970-974.
[54]WU J,BRUBAKER S C,MULLIN M D,et al.Fast asymmetric learning for cascade face detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(3):369-382.
[55]陶新民,劉福榮,童智靖,等.不均衡數(shù)據(jù)下基于SVM的故障檢測新算法[J].振動與沖擊,2010,29(12):8-12.TAO Xinmin,LIU Furong,TONG Zhijing,et al.A New Algorithm Of Fault Detection Based On SVM In Unbalanced Data[J].Journal of Vibration and Shock,2010,29(12):8-12.
[56]WU G,KBA Chang E Y.kernel boundary alignment considering imbalanced data distribution[J].IEEE Trans on Knowledge and Data Engineering,2005,17(6):786-795.
[57]李俊林,符紅光.改進的基于核密度估計的數(shù)據(jù)分類算法[J].控制與決策,2010,25(4):507-513.LI Junlin,F(xiàn)U Hongguang.Improved KDE-based Data Classification Algorithm[J].Control and Decision,2010,25(4):507-513.
[58]ZHENG Z,WU X,SRIHARI R.Feature selection for text categorization on imbalanced data[J].SIGKDD Explorations,2004,6(1):80-89.
[59]KINGSBURY N,TAY D B H,PALANISWAMI M.Multi-scale kernel methods for classification[C]//IEEE.Proceedings of the IEEE Workshop on Machine Learning for Signal Processing.Washington D.C:USA:IEEE Press,2005,43-48.