不平衡數(shù)據(jù)分類問題解決辦法

2018-02-26 07:53季晨雨

電子技術(shù)與軟件工程 2018年15期

關(guān)鍵詞：采樣分類

季晨雨

摘要

不平衡數(shù)據(jù)分類是指數(shù)據(jù)集中某一類的樣本數(shù)量遠小于其他類的樣本數(shù)量。由于傳統(tǒng)分類算法在設(shè)計時，通常假定用于訓練的數(shù)據(jù)集各類樣本數(shù)大致相等，所以利用傳統(tǒng)的分類方法對數(shù)據(jù)集進行分類時，會出現(xiàn)少數(shù)類的分類準確率較低的問題因此，如何解決不平衡數(shù)據(jù)分類問題是數(shù)據(jù)挖掘研究領(lǐng)域的一個熱點和難點。本文對不平衡數(shù)據(jù)分類問題進行了研究，從數(shù)據(jù)層面、算法層面、評價指標三個層面分別對目前存在的各種解決不平衡數(shù)據(jù)分類問題的方法進行介紹及比較，最后指出了不平衡數(shù)據(jù)分類在未來研究中的值得關(guān)注的一些研究方向。

【關(guān)鍵詞】分類不平衡數(shù)據(jù) 采樣集成學習

1 引言

不平衡數(shù)據(jù)分類問題，是指數(shù)據(jù)集中某類樣本的數(shù)目遠遠少于其他類的樣本數(shù)目，即樣本分布不平衡。由于傳統(tǒng)分類算法在設(shè)計時，通常假定用于訓練的數(shù)據(jù)集各類樣本數(shù)大致相等，所以利用傳統(tǒng)的分類方法對數(shù)據(jù)集進行分類時，會出現(xiàn)少數(shù)類的分類準確率較低的情況。然而，在現(xiàn)實生活中，我們往往關(guān)注的是少數(shù)類樣本是否能被正確分類。例如在信用卡欺詐識別中，屬于欺詐行為的交易樣本的數(shù)量要遠遠小于正常交易的樣本數(shù)量，屬于不平衡分類問題，且關(guān)注的重點是欺詐行為的交易樣本能否被正確識別。

在實際應(yīng)用中，還有許多分類問題，屬于不平衡分類問題，比如網(wǎng)絡(luò)入侵檢測，醫(yī)療疾病診斷、客戶流失預(yù)測、廣告點擊預(yù)測、衛(wèi)星圖像油井噴發(fā)檢測等等。

2 不平衡數(shù)據(jù)分類問題解決辦法

不平衡數(shù)據(jù)的分類器性能較差的原因主要包括絕對樣本缺失、相對樣本缺失，評價指標選取不當，噪聲數(shù)據(jù)影響，不恰當?shù)臍w納偏置以及分而治之的分類算法帶來的數(shù)據(jù)碎片問題。

解決不平衡數(shù)據(jù)分類問題，可以從數(shù)據(jù)、算法、評價指標三個層面著手。

2.1 從數(shù)據(jù)的角度

通過改變原始數(shù)據(jù)集的樣本分布，采用過采樣方法或欠采樣方法，即對少數(shù)類樣本數(shù)目進行增加或?qū)Χ鄶?shù)類樣本數(shù)目進行減少，使不平衡數(shù)據(jù)集的正負類樣本數(shù)達到平衡。欠采樣包括隨機欠采樣，即隨機選擇部分多數(shù)類樣本作為訓練集中的多數(shù)類樣本，但隨機選擇多數(shù)類樣本會使整個數(shù)據(jù)集多數(shù)類的信息不完整，可能丟失一些很重要的多數(shù)類樣本，比如一些恰好處于決策邊界的樣本，對決策邊界的確定有很大影響。因此又提出了根據(jù)少數(shù)類樣本相鄰的多數(shù)類樣本來訓練決策邊界。隨機過采樣作為最簡單的過采樣方法，生成的樣本和原數(shù)據(jù)集的相似程度過大，可能會出現(xiàn)比較嚴重的過擬合問題，為了避免這一問題，提出了樣本生成技術(shù)SMOTE。但是由于SMOTE在生成新樣本時沒有參考多數(shù)類樣本，因此可能會出現(xiàn)新生成的樣本與原有的多數(shù)類樣本發(fā)生重疊的現(xiàn)象。Borderline-SMOTE方法通過區(qū)分邊界樣本、安全樣本和噪聲樣本，僅對邊界少數(shù)類樣本進行過采樣，有利于識別多數(shù)類和少數(shù)類的決策邊界。

2.2 在算法上

修改己有的分類器，使之適應(yīng)不平衡數(shù)據(jù)的特征。主要包括代價敏感分類器，集成學習等方法。代價敏感分類器區(qū)分少數(shù)類樣本和多數(shù)類樣本誤分代價，對少數(shù)類樣本誤分將付出更大代價。集成學習是在訓練集上訓練多個分類模型，預(yù)測時根據(jù)每個分類器的分類結(jié)果進行投票，得到最終的預(yù)測結(jié)果。常用的組合方法，包括Bagging，Boosting以及隨機森林等。

SMOTEBoost算法是一種通過將SMOTE與Boosting技術(shù)融合來處理類不平衡問題的方法，相比于傳統(tǒng)的Boosting算法通過改變每一個樣本的權(quán)重調(diào)整訓練集樣本的分布策略，SMOTEBoosting算法利用SMOTE過采樣來增加新的少數(shù)類樣本來改變樣本的分布。

J.V.Hulse等人對EasyEnsemble、Partition和RUSBoost二種方法進行了對比和驗證，實驗證明這二種算法與RUS算法相比，在不平衡數(shù)據(jù)集分類問題上表現(xiàn)更好。P.Yao針對傳統(tǒng)的分類方法沒有區(qū)別對待多數(shù)類樣本與少數(shù)類樣本的不足之處，提出了對C4.5支持向量化模型進行加權(quán)的算法。X.Y.Liu等人基于欠抽樣法的不足，提出了兩種欠抽樣法的改進算法EasyEnsemble和BalancdCascadeoEasyEnsemble算法多次利用隨機欠抽樣生成多個訓練子集來構(gòu)建分類子模型，再將構(gòu)建的分類子模型組成最終的分類模型;BalancedCascade算法依靠分類器反復(fù)預(yù)測訓練集，將預(yù)測正確的多數(shù)類樣本去除生成新的訓練集，再通過新訓練集訓練新分類器，經(jīng)過多次重復(fù)訓練形成最終分類器。潘俊等人通過減少過擬合及控制少數(shù)類的F-measure值來改進Boosting算法，提出了一種改進算法RIFBoost。

2.3 從評價指標上

分類模型的評價指標包括：

（1）正確率（Precision），TP/（TP+FP），給出的是預(yù)測為正類的樣本中實際為正樣本的比例。

（2）召回率（Recall），又稱查全率，TP/（TP+FN），給出的是預(yù)測為正類的真實正樣本占所有真實正樣本的比例。

（3）準確率（accuracy），（TP+TN）/（P+N），即模型預(yù)測正確的樣本占所有樣本的比例

傳統(tǒng)的分類模型通常使用模型的準確率進行評估。分類模型的準確率反映了分類模型對數(shù)據(jù)集整體的分類性能。但只使用準確率來衡量對不平衡數(shù)據(jù)集的分類效果，并不能反映對少數(shù)類的分類性能。利用少數(shù)類的召回率（查全率）可以反映正確判別的少數(shù)類占所有少數(shù)類的比例。F1分數(shù)同時考慮了分類模型的準確率和召回率，是處理不平衡數(shù)據(jù)分類問題時的有效評價指標。

F1分數(shù)可以看作是模型準確率和召回率的一種加權(quán)平均，F(xiàn)1分數(shù)的分布在0-1之間。

還可以采用ROC曲線下的面積AUC作為評價指標。因為ROC曲線有一個很好的性能，當測試集中的正負樣本的分布變化時，ROC曲線能夠保持不變，因此適合作為不平衡數(shù)據(jù)集分類時的評價指標。

ROC曲線是一系列threshold下的（FPR，TPR）數(shù)值點的連線。

其中，

AUC被定義為ROC曲線下的面積，使用AUC值作為評價標準是因為很多時候ROC曲線并不能清晰的說明哪個分類器的效果更好，而作為一個數(shù)值，對應(yīng)AUC更大的分類器效果更好

3 總結(jié)

本文對不平衡數(shù)據(jù)分類問題進行了研究，從數(shù)據(jù)層面、算法層面、評價指標二個層面分別對目前存在的各種解決不平衡數(shù)據(jù)分類問題的方法進行介紹及比較。對于不平衡數(shù)據(jù)集分類問題，以后的研究可以從以下幾個方面進行：

（1）當前的研究大多著眼于采樣方法、決策樹、支持向量機算法以及Boosting等集成方法，很少從其他傳統(tǒng)分類算法的原理入手研究傳統(tǒng)分類算法如何處理不平衡數(shù)據(jù)分類問題，因此如何利用決策樹，支持向量機之外的傳統(tǒng)分類算法解決不平衡數(shù)據(jù)分類問題有待研究;

（2）不平衡數(shù)據(jù)分類問題的研究大多是針一對類間樣本數(shù)目不平衡的問題而很少關(guān)注類內(nèi)樣本數(shù)目不平衡問題，因此可以圍繞類內(nèi)樣本的不平衡問題進行研究。

參考文獻

[1]李元菊.數(shù)據(jù)不平衡分類研究綜述[J].現(xiàn)代計算機，2016（04）：30-33.

[2]陳湘濤，高亞靜.不平衡數(shù)據(jù)分類研究綜述[J].邵陽學院學報（自然科學版），2017，14（02）：1-11.

[3]溫雪巖，陳家男，景維鵬等.面向不平衡數(shù)據(jù)集分類模型的優(yōu)化研究[J].計算機工程，2018，44（04）.

[4]易未，毛力，孫俊，改進Smote算法在不平衡數(shù)據(jù)集上的分類研究[J].計算機與現(xiàn)代化，2018（03）.

[5]徐麗麗.面向不平衡數(shù)據(jù)集的分類算法研究[D].遼寧師范大學，2016.

[6]葉楓，丁鋒.不平衡數(shù)據(jù)分類研究及其應(yīng)用[J].計算機應(yīng)用與軟件，2018（01）：132-136.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

不平衡數(shù)據(jù)分類問題解決辦法