国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

不平衡數(shù)據(jù)分類問題解決辦法

2018-02-26 07:53季晨雨
電子技術(shù)與軟件工程 2018年15期
關(guān)鍵詞:采樣分類

季晨雨

摘要

不平衡數(shù)據(jù)分類是指數(shù)據(jù)集中某一類的樣本數(shù)量遠小于其他類的樣本數(shù)量。由于傳統(tǒng)分類算法在設(shè)計時,通常假定用于訓練的數(shù)據(jù)集各類樣本數(shù)大致相等,所以利用傳統(tǒng)的分類方法對數(shù)據(jù)集進行分類時,會出現(xiàn)少數(shù)類的分類準確率較低的問題因此,如何解決不平衡數(shù)據(jù)分類問題是數(shù)據(jù)挖掘研究領(lǐng)域的一個熱點和難點。本文對不平衡數(shù)據(jù)分類問題進行了研究,從數(shù)據(jù)層面、算法層面、評價指標三個層面分別對目前存在的各種解決不平衡數(shù)據(jù)分類問題的方法進行介紹及比較,最后指出了不平衡數(shù)據(jù)分類在未來研究中的值得關(guān)注的一些研究方向。

【關(guān)鍵詞】分類 不平衡數(shù)據(jù) 采樣 集成學習

1 引言

不平衡數(shù)據(jù)分類問題,是指數(shù)據(jù)集中某類樣本的數(shù)目遠遠少于其他類的樣本數(shù)目,即樣本分布不平衡。由于傳統(tǒng)分類算法在設(shè)計時,通常假定用于訓練的數(shù)據(jù)集各類樣本數(shù)大致相等,所以利用傳統(tǒng)的分類方法對數(shù)據(jù)集進行分類時,會出現(xiàn)少數(shù)類的分類準確率較低的情況。然而,在現(xiàn)實生活中,我們往往關(guān)注的是少數(shù)類樣本是否能被正確分類。例如在信用卡欺詐識別中,屬于欺詐行為的交易樣本的數(shù)量要遠遠小于正常交易的樣本數(shù)量,屬于不平衡分類問題,且關(guān)注的重點是欺詐行為的交易樣本能否被正確識別。

在實際應(yīng)用中,還有許多分類問題,屬于不平衡分類問題,比如網(wǎng)絡(luò)入侵檢測,醫(yī)療疾病診斷、客戶流失預(yù)測、廣告點擊預(yù)測、衛(wèi)星圖像油井噴發(fā)檢測等等。

2 不平衡數(shù)據(jù)分類問題解決辦法

不平衡數(shù)據(jù)的分類器性能較差的原因主要包括絕對樣本缺失、相對樣本缺失,評價指標選取不當,噪聲數(shù)據(jù)影響,不恰當?shù)臍w納偏置以及分而治之的分類算法帶來的數(shù)據(jù)碎片問題。

解決不平衡數(shù)據(jù)分類問題,可以從數(shù)據(jù)、算法、評價指標三個層面著手。

2.1 從數(shù)據(jù)的角度

通過改變原始數(shù)據(jù)集的樣本分布,采用過采樣方法或欠采樣方法,即對少數(shù)類樣本數(shù)目進行增加或?qū)Χ鄶?shù)類樣本數(shù)目進行減少,使不平衡數(shù)據(jù)集的正負類樣本數(shù)達到平衡。欠采樣包括隨機欠采樣,即隨機選擇部分多數(shù)類樣本作為訓練集中的多數(shù)類樣本,但隨機選擇多數(shù)類樣本會使整個數(shù)據(jù)集多數(shù)類的信息不完整,可能丟失一些很重要的多數(shù)類樣本,比如一些恰好處于決策邊界的樣本,對決策邊界的確定有很大影響。因此又提出了根據(jù)少數(shù)類樣本相鄰的多數(shù)類樣本來訓練決策邊界。隨機過采樣作為最簡單的過采樣方法,生成的樣本和原數(shù)據(jù)集的相似程度過大,可能會出現(xiàn)比較嚴重的過擬合問題,為了避免這一問題,提出了樣本生成技術(shù)SMOTE。但是由于SMOTE在生成新樣本時沒有參考多數(shù)類樣本,因此可能會出現(xiàn)新生成的樣本與原有的多數(shù)類樣本發(fā)生重疊的現(xiàn)象。Borderline-SMOTE方法通過區(qū)分邊界樣本、安全樣本和噪聲樣本,僅對邊界少數(shù)類樣本進行過采樣,有利于識別多數(shù)類和少數(shù)類的決策邊界。

2.2 在算法上

修改己有的分類器,使之適應(yīng)不平衡數(shù)據(jù)的特征。主要包括代價敏感分類器,集成學習等方法。代價敏感分類器區(qū)分少數(shù)類樣本和多數(shù)類樣本誤分代價,對少數(shù)類樣本誤分將付出更大代價。集成學習是在訓練集上訓練多個分類模型,預(yù)測時根據(jù)每個分類器的分類結(jié)果進行投票,得到最終的預(yù)測結(jié)果。常用的組合方法,包括Bagging,Boosting以及隨機森林等。

SMOTEBoost算法是一種通過將SMOTE與Boosting技術(shù)融合來處理類不平衡問題的方法,相比于傳統(tǒng)的Boosting算法通過改變每一個樣本的權(quán)重調(diào)整訓練集樣本的分布策略,SMOTEBoosting算法利用SMOTE過采樣來增加新的少數(shù)類樣本來改變樣本的分布。

J.V.Hulse等人對EasyEnsemble、Partition和RUSBoost二種方法進行了對比和驗證,實驗證明這二種算法與RUS算法相比,在不平衡數(shù)據(jù)集分類問題上表現(xiàn)更好。P.Yao針對傳統(tǒng)的分類方法沒有區(qū)別對待多數(shù)類樣本與少數(shù)類樣本的不足之處,提出了對C4.5支持向量化模型進行加權(quán)的算法。X.Y.Liu等人基于欠抽樣法的不足,提出了兩種欠抽樣法的改進算法EasyEnsemble和BalancdCascadeoEasyEnsemble算法多次利用隨機欠抽樣生成多個訓練子集來構(gòu)建分類子模型,再將構(gòu)建的分類子模型組成最終的分類模型;BalancedCascade算法依靠分類器反復(fù)預(yù)測訓練集,將預(yù)測正確的多數(shù)類樣本去除生成新的訓練集,再通過新訓練集訓練新分類器,經(jīng)過多次重復(fù)訓練形成最終分類器。潘俊等人通過減少過擬合及控制少數(shù)類的F-measure值來改進Boosting算法,提出了一種改進算法RIFBoost。

2.3 從評價指標上

分類模型的評價指標包括:

(1)正確率(Precision),TP/(TP+FP),給出的是預(yù)測為正類的樣本中實際為正樣本的比例。

(2)召回率(Recall),又稱查全率,TP/(TP+FN),給出的是預(yù)測為正類的真實正樣本占所有真實正樣本的比例。

(3)準確率(accuracy),(TP+TN)/(P+N),即模型預(yù)測正確的樣本占所有樣本的比例

傳統(tǒng)的分類模型通常使用模型的準確率進行評估。分類模型的準確率反映了分類模型對數(shù)據(jù)集整體的分類性能。但只使用準確率來衡量對不平衡數(shù)據(jù)集的分類效果,并不能反映對少數(shù)類的分類性能。利用少數(shù)類的召回率(查全率)可以反映正確判別的少數(shù)類占所有少數(shù)類的比例。F1分數(shù)同時考慮了分類模型的準確率和召回率,是處理不平衡數(shù)據(jù)分類問題時的有效評價指標。

F1分數(shù)可以看作是模型準確率和召回率的一種加權(quán)平均,F(xiàn)1分數(shù)的分布在0-1之間。

還可以采用ROC曲線下的面積AUC作為評價指標。因為ROC曲線有一個很好的性能,當測試集中的正負樣本的分布變化時,ROC曲線能夠保持不變,因此適合作為不平衡數(shù)據(jù)集分類時的評價指標。

ROC曲線是一系列threshold下的(FPR,TPR)數(shù)值點的連線。

其中,

AUC被定義為ROC曲線下的面積,使用AUC值作為評價標準是因為很多時候ROC曲線并不能清晰的說明哪個分類器的效果更好,而作為一個數(shù)值,對應(yīng)AUC更大的分類器效果更好

3 總結(jié)

本文對不平衡數(shù)據(jù)分類問題進行了研究,從數(shù)據(jù)層面、算法層面、評價指標二個層面分別對目前存在的各種解決不平衡數(shù)據(jù)分類問題的方法進行介紹及比較。對于不平衡數(shù)據(jù)集分類問題,以后的研究可以從以下幾個方面進行:

(1)當前的研究大多著眼于采樣方法、決策樹、支持向量機算法以及Boosting等集成方法,很少從其他傳統(tǒng)分類算法的原理入手研究傳統(tǒng)分類算法如何處理不平衡數(shù)據(jù)分類問題,因此如何利用決策樹,支持向量機之外的傳統(tǒng)分類算法解決不平衡數(shù)據(jù)分類問題有待研究;

(2)不平衡數(shù)據(jù)分類問題的研究大多是針一對類間樣本數(shù)目不平衡的問題而很少關(guān)注類內(nèi)樣本數(shù)目不平衡問題,因此可以圍繞類內(nèi)樣本的不平衡問題進行研究。

參考文獻

[1]李元菊.數(shù)據(jù)不平衡分類研究綜述[J].現(xiàn)代計算機,2016(04):30-33.

[2]陳湘濤,高亞靜.不平衡數(shù)據(jù)分類研究綜述[J].邵陽學院學報(自然科學版),2017,14(02):1-11.

[3]溫雪巖,陳家男,景維鵬等.面向不平衡數(shù)據(jù)集分類模型的優(yōu)化研究[J].計算機工程,2018,44(04).

[4]易未,毛力,孫俊,改進Smote算法在不平衡數(shù)據(jù)集上的分類研究[J].計算機與現(xiàn)代化,2018(03).

[5]徐麗麗.面向不平衡數(shù)據(jù)集的分類算法研究[D].遼寧師范大學,2016.

[6]葉楓,丁鋒.不平衡數(shù)據(jù)分類研究及其應(yīng)用[J].計算機應(yīng)用與軟件,2018(01):132-136.

猜你喜歡
采樣分類
分類算一算
垃圾分類的困惑你有嗎
分類討論求坐標
數(shù)據(jù)分析中的分類討論
基層動物抗體監(jiān)測采樣注意事項
察隅县| 延津县| 高雄市| 建湖县| 同江市| 疏勒县| 济阳县| 务川| 微山县| 鄂温| 邛崃市| 苏尼特左旗| 正蓝旗| 临湘市| 钦州市| 得荣县| 沙坪坝区| 紫阳县| 东源县| 镇原县| 健康| 洛川县| 安化县| 荆州市| 莱芜市| 赞皇县| 云南省| 尤溪县| 定兴县| 洞口县| 金湖县| 甘泉县| 铁岭市| 海口市| 渭南市| 磴口县| 桐庐县| 石台县| 绥芬河市| 泰宁县| 夏津县|