基于R的過(guò)采樣方法在非平衡數(shù)據(jù)中的應(yīng)用

2012-09-19 03:44蘇加強(qiáng)丁柳云

常州工學(xué)院學(xué)報(bào) 2012年6期

蘇加強(qiáng) 丁柳云

(1.寧德職業(yè)技術(shù)學(xué)院計(jì)算機(jī)系，福建寧德 355000;2.寧德職業(yè)技術(shù)學(xué)院教務(wù)處，福建寧德 355000)

1 背景

R是一個(gè)有著統(tǒng)計(jì)分析功能及強(qiáng)大制圖功能的軟件系統(tǒng)，是由奧克蘭大學(xué)統(tǒng)計(jì)學(xué)系的Ross Ihaka和Robert Gentleman共同創(chuàng)立的。該軟件屬于GNU系統(tǒng)的一個(gè)自由、免費(fèi)、源代碼開放的軟件，用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖。R以包的形式內(nèi)建多種統(tǒng)計(jì)學(xué)及數(shù)字分析功能，透過(guò)安裝套件Packages增強(qiáng)。KDnuggets曾調(diào)查了實(shí)際項(xiàng)目使用了哪些數(shù)據(jù)挖掘軟件，底層語(yǔ)言使用頻率最高的依舊是 R語(yǔ)言、SQL、Java和Python。而從軟件工具角度上看，R、Excel和RapidMiner則名列三甲。

傳統(tǒng)的分類實(shí)驗(yàn)中，都假定學(xué)習(xí)的數(shù)據(jù)集為分布平衡的，即數(shù)據(jù)集中各類樣本的數(shù)目大體一致。但是在現(xiàn)實(shí)情況中平衡數(shù)據(jù)集幾乎是不存在的。在真實(shí)世界中，通常標(biāo)號(hào)不同的類所含有的樣本數(shù)目是不等的，甚至有著很大的差別，這樣的數(shù)據(jù)集為不平衡數(shù)據(jù)集。

在不平衡數(shù)據(jù)集的分類學(xué)習(xí)過(guò)程中，少數(shù)類樣本被誤分的幾率通常要高于多數(shù)類?，F(xiàn)實(shí)應(yīng)用中，少數(shù)類樣本通常比多數(shù)類樣本重要，故少數(shù)類被誤分所帶來(lái)的損失相對(duì)較大。因此，對(duì)不平衡數(shù)據(jù)分類的研究就致力于提高數(shù)據(jù)集中少數(shù)類的識(shí)別效率，以減少少數(shù)類被錯(cuò)分所帶來(lái)的損失。

2 數(shù)據(jù)挖掘任務(wù)和所用數(shù)據(jù)

一些公司售貨員要報(bào)告商品的交易情況，公司需檢測(cè)售貨員所提交的交易情況報(bào)表中的異常值，目的是檢查售貨員所提交的交易報(bào)表中的異?，F(xiàn)象，給出一種異常概率排序，該排序可以讓公司以優(yōu)化的方法應(yīng)用于檢查工作。售貨員出售公司產(chǎn)品，每月末，售貨員需向公司提交交易情況。售貨員可以根據(jù)營(yíng)銷策略和市場(chǎng)情況自由設(shè)定產(chǎn)品的交易價(jià)格。數(shù)據(jù)挖掘應(yīng)用的目的是幫助公司根據(jù)過(guò)去的檢測(cè)錯(cuò)誤和異常交易報(bào)表的經(jīng)驗(yàn)來(lái)核實(shí)報(bào)表的真實(shí)性，提供交易報(bào)表異常概率排序，此排序使公司將有限的檢查資源用于系統(tǒng)給出的可疑報(bào)表。

如，以某公司售貨員提交的交易報(bào)表為分析數(shù)據(jù)，數(shù)據(jù)總共401 146行，每行信息包括售貨員ID(ID)、產(chǎn)品 ID(Prod)、產(chǎn)品數(shù)量(Quant)和總價(jià)(Val)。這些數(shù)據(jù)已經(jīng)通過(guò)公司的一些分析，并把分析的結(jié)果顯示在最后一列(Insp)。Insp可能有以下情況:ok，即交易被檢查并認(rèn)為有效;fraud，即交易被發(fā)現(xiàn)是異常的;unkn，即交易未檢查。

R語(yǔ)言中提供一個(gè)包DMwR，里面有需要的數(shù)據(jù)。首先通過(guò)以下命令加載包和數(shù)據(jù)。

然后查看sales數(shù)據(jù)的前6行，如表1所示。

表1 實(shí)驗(yàn)所用數(shù)據(jù)結(jié)構(gòu)

數(shù)據(jù)集報(bào)表中正常和異常的比例非常不平衡，異常報(bào)表為少數(shù)，只有8.1%。在獲取預(yù)測(cè)模型的任務(wù)中，這種類型的問(wèn)題可以導(dǎo)致各種困難。首先，它們需要恰當(dāng)?shù)脑u(píng)定指標(biāo)，因?yàn)楸绢I(lǐng)域中標(biāo)準(zhǔn)誤差是明顯不足的。實(shí)際上，應(yīng)用可較易得到大約90%的精確度。類型不平衡的另一問(wèn)題是對(duì)缺少統(tǒng)計(jì)的支持而趨向忽略少數(shù)類的學(xué)習(xí)算法的性能有強(qiáng)烈的影響。應(yīng)用中，重點(diǎn)研究對(duì)象是不平衡數(shù)據(jù)集中的少數(shù)樣本時(shí)，就特別成問(wèn)題。

3 樸素貝葉斯和ORh方法

3.1 樸素貝葉斯

樸素貝葉斯(Naive Bayes)是基于貝葉斯定理的概率分類器，其嚴(yán)格限定預(yù)測(cè)器之間的獨(dú)立性。這些限定很少適用于真實(shí)世界的問(wèn)題，所以命名為樸素。

貝葉斯定理:

使用這一定理，樸素貝葉斯分類器用式(2)計(jì)算給定測(cè)試集用例每個(gè)類的概率:

c為一個(gè)類;X1，…，Xp為給定測(cè)試用例預(yù)測(cè)器的觀察值;P(c)的概率可以視為類c的先驗(yàn)期望;P(X1，…，Xp|c)是類c中給定測(cè)試用例的似然;分母是觀察證據(jù)的概率。用式(2)計(jì)算所有可能的類的值來(lái)判定測(cè)試用例的最可能的類，這一判定取決于式(2)的分子，因?yàn)榉帜冈谒械挠美惺浅Ａ?。利用條件概率和預(yù)測(cè)器間樸素的條件獨(dú)立的統(tǒng)計(jì)定義，把分?jǐn)?shù)的分子變?yōu)?

樸素貝葉斯使用相對(duì)頻率評(píng)價(jià)訓(xùn)練樣本的概率，使用這些評(píng)價(jià)，根據(jù)式(2)輸出每個(gè)測(cè)試用例的類概率。

R有幾種方法實(shí)現(xiàn)樸素貝葉斯方法，它們分別是:使用包e1071中的函數(shù)Naive Bayes();使用樸素貝葉斯來(lái)獲得報(bào)表測(cè)試集的排序值;使用給定訓(xùn)練樣本中檢查過(guò)的報(bào)表來(lái)建立一個(gè)樸素貝葉斯模型。

從Hold－out程序中調(diào)用函數(shù)，獲得樸素貝葉斯預(yù)測(cè)器的選擇評(píng)價(jià)統(tǒng)計(jì)。

最后，調(diào)用holdOut()函數(shù)來(lái)執(zhí)行此模型的實(shí)驗(yàn)。

3.2 ORh方法

基于聚類算法ORh方法，使用層次凝聚聚類算法來(lái)獲得給定數(shù)據(jù)的系統(tǒng)樹圖，系統(tǒng)樹圖是聚類方法融合過(guò)程的可視化表現(xiàn)形式。不同高度等級(jí)的消減樹產(chǎn)生數(shù)據(jù)的不同聚類，在最低等級(jí)有個(gè)解，給定的訓(xùn)練集數(shù)據(jù)中每個(gè)觀察值都是一個(gè)組，這是這個(gè)模型迭代算法的初始解。算法的下一步是決定前面第一步中哪兩組合并成一個(gè)簡(jiǎn)單聚類，這個(gè)融合過(guò)程被試圖把彼此間有相似性放到一起的準(zhǔn)則操縱，直到所有觀察值的最后兩組被合并成一個(gè)簡(jiǎn)單聚類迭代過(guò)程才停止，基本包stats中函數(shù)hclust()實(shí)現(xiàn)了這種類型的聚類方法。

樸素貝葉斯模型對(duì)10%檢查結(jié)果如表2所示。

表2 樸素貝葉斯模型對(duì)10%檢查結(jié)果

與未監(jiān)督式ORh方法獲取的最好的分?jǐn)?shù)相比，就查準(zhǔn)率和查全率而言結(jié)果不理想。圖1清晰地顯示，在本應(yīng)用中，樸素貝葉斯方法劣于ORh方法。

圖1 樸素貝葉斯和ORh性能對(duì)比圖

4SMOTE算法及應(yīng)用

用于幫助學(xué)習(xí)算法克服類型不平衡問(wèn)題的技術(shù)通?？蓺w為兩類:一類是傾向于用對(duì)少數(shù)類采樣敏感的特別的評(píng)定指標(biāo)評(píng)定學(xué)習(xí)過(guò)程;另一類是處理訓(xùn)練數(shù)據(jù)來(lái)改變類型分布的采樣方法。在使用監(jiān)督式分類方法的嘗試中，使用第二類方法。

有多種采樣方法可以改變一個(gè)數(shù)據(jù)集的類型不平衡。如，欠采樣方法(Under－sampling methods)，即選擇多數(shù)類的一小部分，并添加到少數(shù)類用例中，因此建立一個(gè)平衡類分布的數(shù)據(jù)集;過(guò)采樣(Over－sampling)，即用一些方法來(lái)重復(fù)少數(shù)類采樣。然而以上方法的許多變種已經(jīng)存在。由Chawla等人提出的SMOTE(Synthetic Minority O－ver－sampling Technique)算法是一種成功的采樣方法，該方法的主要思想是利用k近鄰和線性插值，在相距較近的兩少數(shù)類樣本間按照一定的規(guī)則人為地插入新的樣本，以達(dá)到使少數(shù)類樣本數(shù)目增加，數(shù)據(jù)集趨于平衡的目的?；舅枷胧怯脴永淖罱従尤藶榈禺a(chǎn)生少數(shù)類的新樣本，而且多數(shù)類樣例也是欠采樣的，產(chǎn)生一個(gè)平衡的數(shù)據(jù)集。

使用函數(shù)SMOTE()實(shí)現(xiàn)這種采樣方法，給定一個(gè)不平衡的采樣，此函數(shù)產(chǎn)生一個(gè)較平衡類分布的新的數(shù)據(jù)集。

用iris創(chuàng)建一個(gè)帶有兩個(gè)預(yù)測(cè)變量和一個(gè)未平衡類分布的目標(biāo)變量的人工數(shù)據(jù)集。調(diào)用函數(shù)SMOTE()時(shí)，變量perc.over賦值為600，即在屬于少數(shù)類的初始數(shù)據(jù)集的每個(gè)用例中創(chuàng)建6個(gè)采樣。這些新的用例通過(guò)用例和其最近領(lǐng)域之間的隨機(jī)插值創(chuàng)建。圖2為原始數(shù)據(jù)信和使用SMOTE后的數(shù)據(jù)集。

圖2 原始數(shù)據(jù)集和使用SMOTE后的數(shù)據(jù)集圖

在監(jiān)督式分類算法中，使用此方法的變形。首先用SMOTE方法獲取的訓(xùn)練集來(lái)應(yīng)用樸素貝葉斯分類器，然后用修改后的訓(xùn)練集應(yīng)用于navieBayes()函數(shù)來(lái)獲得異常值排序。

下面的語(yǔ)句獲得SMOTE版本的樸素貝葉斯Hold－out評(píng)價(jià)。

5 結(jié)果評(píng)價(jià)

此版本樸素貝葉斯模型對(duì)10%檢查的結(jié)果如表3所示。

表3 SMOTE方法的樸素貝葉斯模型檢查結(jié)果

此結(jié)果與正常樸素貝葉斯結(jié)果基本相同，結(jié)果稍好，但仍低于未監(jiān)督式方法的最好結(jié)果。盡管SMOTE方法對(duì)少數(shù)類過(guò)采樣，樸素貝葉斯依然不能正確地預(yù)測(cè)哪些是異常的報(bào)表。用圖形方式以全局的視角來(lái)查看此變種方法的性能，如圖3所示。

圖3 性能對(duì)比圖

SMOTE算法提出前，對(duì)非平衡數(shù)據(jù)的處理一般采用隨機(jī)采樣方法，SMOTE算法在相距較近的少數(shù)類之間人為地增加其虛擬樣本，在某種程度上規(guī)避了過(guò)學(xué)習(xí)的問(wèn)題，提高了數(shù)據(jù)集的分類性能。

［1］Chawla N.The Data Mining and Knowledge Discovery Handbook:Data Mining for Imbalanced Datasets［M］.Heidelberg:Springer，2005:853 －867.

［2］Seeger M.Technicalreport:Learning With Labeled and Unlabeled Data:Institute for Adaptive and Neural Computation［J］.U－niversity of Edinburgh，2002:5 －27.

［3］Sing T，Sander O，Beerenwinkel N.ROCR:Visualizing the Performance of Scoring Classiers.R Package Version 1.0 － 4［J］.Heidelberg:Springer，2012:2 － 10.

［4］Breunig M，Kriegel H，NG R.Management of Data:LOF:Identifying Density－based Local Outliers［M］.New York ACM，2000:93－104.

［5］Chambers J.Software for Data Analysis:Programming With R［M］.Heidelberg:Springer，2008:166 －221.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡