季晨雨
摘要
不平衡數(shù)據(jù)分類是指數(shù)據(jù)集中某一類的樣本數(shù)量遠小于其他類的樣本數(shù)量。由于傳統(tǒng)分類算法在設(shè)計時,通常假定用于訓練的數(shù)據(jù)集各類樣本數(shù)大致相等,所以利用傳統(tǒng)的分類方法對數(shù)據(jù)集進行分類時,會出現(xiàn)少數(shù)類的分類準確率較低的問題因此,如何解決不平衡數(shù)據(jù)分類問題是數(shù)據(jù)挖掘研究領(lǐng)域的一個熱點和難點。本文對不平衡數(shù)據(jù)分類問題進行了研究,從數(shù)據(jù)層面、算法層面、評價指標三個層面分別對目前存在的各種解決不平衡數(shù)據(jù)分類問題的方法進行介紹及比較,最后指出了不平衡數(shù)據(jù)分類在未來研究中的值得關(guān)注的一些研究方向。
【關(guān)鍵詞】分類 不平衡數(shù)據(jù) 采樣 集成學習
1 引言
不平衡數(shù)據(jù)分類問題,是指數(shù)據(jù)集中某類樣本的數(shù)目遠遠少于其他類的樣本數(shù)目,即樣本分布不平衡。由于傳統(tǒng)分類算法在設(shè)計時,通常假定用于訓練的數(shù)據(jù)集各類樣本數(shù)大致相等,所以利用傳統(tǒng)的分類方法對數(shù)據(jù)集進行分類時,會出現(xiàn)少數(shù)類的分類準確率較低的情況。然而,在現(xiàn)實生活中,我們往往關(guān)注的是少數(shù)類樣本是否能被正確分類。例如在信用卡欺詐識別中,屬于欺詐行為的交易樣本的數(shù)量要遠遠小于正常交易的樣本數(shù)量,屬于不平衡分類問題,且關(guān)注的重點是欺詐行為的交易樣本能否被正確識別。
在實際應(yīng)用中,還有許多分類問題,屬于不平衡分類問題,比如網(wǎng)絡(luò)入侵檢測,醫(yī)療疾病診斷、客戶流失預(yù)測、廣告點擊預(yù)測、衛(wèi)星圖像油井噴發(fā)檢測等等。
2 不平衡數(shù)據(jù)分類問題解決辦法
不平衡數(shù)據(jù)的分類器性能較差的原因主要包括絕對樣本缺失、相對樣本缺失,評價指標選取不當,噪聲數(shù)據(jù)影響,不恰當?shù)臍w納偏置以及分而治之的分類算法帶來的數(shù)據(jù)碎片問題。
解決不平衡數(shù)據(jù)分類問題,可以從數(shù)據(jù)、算法、評價指標三個層面著手。
2.1 從數(shù)據(jù)的角度
通過改變原始數(shù)據(jù)集的樣本分布,采用過采樣方法或欠采樣方法,即對少數(shù)類樣本數(shù)目進行增加或?qū)Χ鄶?shù)類樣本數(shù)目進行減少,使不平衡數(shù)據(jù)集的正負類樣本數(shù)達到平衡。欠采樣包括隨機欠采樣,即隨機選擇部分多數(shù)類樣本作為訓練集中的多數(shù)類樣本,但隨機選擇多數(shù)類樣本會使整個數(shù)據(jù)集多數(shù)類的信息不完整,可能丟失一些很重要的多數(shù)類樣本,比如一些恰好處于決策邊界的樣本,對決策邊界的確定有很大影響。因此又提出了根據(jù)少數(shù)類樣本相鄰的多數(shù)類樣本來訓練決策邊界。隨機過采樣作為最簡單的過采樣方法,生成的樣本和原數(shù)據(jù)集的相似程度過大,可能會出現(xiàn)比較嚴重的過擬合問題,為了避免這一問題,提出了樣本生成技術(shù)SMOTE。但是由于SMOTE在生成新樣本時沒有參考多數(shù)類樣本,因此可能會出現(xiàn)新生成的樣本與原有的多數(shù)類樣本發(fā)生重疊的現(xiàn)象。Borderline-SMOTE方法通過區(qū)分邊界樣本、安全樣本和噪聲樣本,僅對邊界少數(shù)類樣本進行過采樣,有利于識別多數(shù)類和少數(shù)類的決策邊界。
2.2 在算法上
修改己有的分類器,使之適應(yīng)不平衡數(shù)據(jù)的特征。主要包括代價敏感分類器,集成學習等方法。代價敏感分類器區(qū)分少數(shù)類樣本和多數(shù)類樣本誤分代價,對少數(shù)類樣本誤分將付出更大代價。集成學習是在訓練集上訓練多個分類模型,預(yù)測時根據(jù)每個分類器的分類結(jié)果進行投票,得到最終的預(yù)測結(jié)果。常用的組合方法,包括Bagging,Boosting以及隨機森林等。
SMOTEBoost算法是一種通過將SMOTE與Boosting技術(shù)融合來處理類不平衡問題的方法,相比于傳統(tǒng)的Boosting算法通過改變每一個樣本的權(quán)重調(diào)整訓練集樣本的分布策略,SMOTEBoosting算法利用SMOTE過采樣來增加新的少數(shù)類樣本來改變樣本的分布。
J.V.Hulse等人對EasyEnsemble、Partition和RUSBoost二種方法進行了對比和驗證,實驗證明這二種算法與RUS算法相比,在不平衡數(shù)據(jù)集分類問題上表現(xiàn)更好。P.Yao針對傳統(tǒng)的分類方法沒有區(qū)別對待多數(shù)類樣本與少數(shù)類樣本的不足之處,提出了對C4.5支持向量化模型進行加權(quán)的算法。X.Y.Liu等人基于欠抽樣法的不足,提出了兩種欠抽樣法的改進算法EasyEnsemble和BalancdCascadeoEasyEnsemble算法多次利用隨機欠抽樣生成多個訓練子集來構(gòu)建分類子模型,再將構(gòu)建的分類子模型組成最終的分類模型;BalancedCascade算法依靠分類器反復(fù)預(yù)測訓練集,將預(yù)測正確的多數(shù)類樣本去除生成新的訓練集,再通過新訓練集訓練新分類器,經(jīng)過多次重復(fù)訓練形成最終分類器。潘俊等人通過減少過擬合及控制少數(shù)類的F-measure值來改進Boosting算法,提出了一種改進算法RIFBoost。
2.3 從評價指標上
分類模型的評價指標包括:
(1)正確率(Precision),TP/(TP+FP),給出的是預(yù)測為正類的樣本中實際為正樣本的比例。
(2)召回率(Recall),又稱查全率,TP/(TP+FN),給出的是預(yù)測為正類的真實正樣本占所有真實正樣本的比例。
(3)準確率(accuracy),(TP+TN)/(P+N),即模型預(yù)測正確的樣本占所有樣本的比例
傳統(tǒng)的分類模型通常使用模型的準確率進行評估。分類模型的準確率反映了分類模型對數(shù)據(jù)集整體的分類性能。但只使用準確率來衡量對不平衡數(shù)據(jù)集的分類效果,并不能反映對少數(shù)類的分類性能。利用少數(shù)類的召回率(查全率)可以反映正確判別的少數(shù)類占所有少數(shù)類的比例。F1分數(shù)同時考慮了分類模型的準確率和召回率,是處理不平衡數(shù)據(jù)分類問題時的有效評價指標。
F1分數(shù)可以看作是模型準確率和召回率的一種加權(quán)平均,F(xiàn)1分數(shù)的分布在0-1之間。
還可以采用ROC曲線下的面積AUC作為評價指標。因為ROC曲線有一個很好的性能,當測試集中的正負樣本的分布變化時,ROC曲線能夠保持不變,因此適合作為不平衡數(shù)據(jù)集分類時的評價指標。
ROC曲線是一系列threshold下的(FPR,TPR)數(shù)值點的連線。
其中,
AUC被定義為ROC曲線下的面積,使用AUC值作為評價標準是因為很多時候ROC曲線并不能清晰的說明哪個分類器的效果更好,而作為一個數(shù)值,對應(yīng)AUC更大的分類器效果更好
3 總結(jié)
本文對不平衡數(shù)據(jù)分類問題進行了研究,從數(shù)據(jù)層面、算法層面、評價指標二個層面分別對目前存在的各種解決不平衡數(shù)據(jù)分類問題的方法進行介紹及比較。對于不平衡數(shù)據(jù)集分類問題,以后的研究可以從以下幾個方面進行:
(1)當前的研究大多著眼于采樣方法、決策樹、支持向量機算法以及Boosting等集成方法,很少從其他傳統(tǒng)分類算法的原理入手研究傳統(tǒng)分類算法如何處理不平衡數(shù)據(jù)分類問題,因此如何利用決策樹,支持向量機之外的傳統(tǒng)分類算法解決不平衡數(shù)據(jù)分類問題有待研究;
(2)不平衡數(shù)據(jù)分類問題的研究大多是針一對類間樣本數(shù)目不平衡的問題而很少關(guān)注類內(nèi)樣本數(shù)目不平衡問題,因此可以圍繞類內(nèi)樣本的不平衡問題進行研究。
參考文獻
[1]李元菊.數(shù)據(jù)不平衡分類研究綜述[J].現(xiàn)代計算機,2016(04):30-33.
[2]陳湘濤,高亞靜.不平衡數(shù)據(jù)分類研究綜述[J].邵陽學院學報(自然科學版),2017,14(02):1-11.
[3]溫雪巖,陳家男,景維鵬等.面向不平衡數(shù)據(jù)集分類模型的優(yōu)化研究[J].計算機工程,2018,44(04).
[4]易未,毛力,孫俊,改進Smote算法在不平衡數(shù)據(jù)集上的分類研究[J].計算機與現(xiàn)代化,2018(03).
[5]徐麗麗.面向不平衡數(shù)據(jù)集的分類算法研究[D].遼寧師范大學,2016.
[6]葉楓,丁鋒.不平衡數(shù)據(jù)分類研究及其應(yīng)用[J].計算機應(yīng)用與軟件,2018(01):132-136.