翟俊海 張明陽 王陳希 劉曉萌 王耀達(dá)
(1.河北省機(jī)器學(xué)習(xí)與計(jì)算智能重點(diǎn)實(shí)驗(yàn)室,保定,071002; 2.河北大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院,保定,071002; 3.河北大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,保定,071002)
隨著計(jì)算機(jī)網(wǎng)絡(luò)、數(shù)據(jù)存儲(chǔ)、云計(jì)算和社會(huì)計(jì)算等技術(shù)的快速發(fā)展,數(shù)據(jù)正以前所未有的速度在不斷地增長和積累,大數(shù)據(jù)處理已經(jīng)成為學(xué)術(shù)界和工業(yè)界密切關(guān)注的問題。大數(shù)據(jù)是指具有海量(Volume)、多模態(tài)(Variety)、變化速度快(Velocity)、蘊(yùn)含價(jià)值高(Value)和可靠性高(Veracity)“5V”特征的數(shù)據(jù)[1-3]。目前,針對大數(shù)據(jù)分類的研究主要集中在如何處理大數(shù)據(jù)量上。解決問題的主流思路包括兩種:(1)并行化或分布式方法;(2)基于采樣技術(shù)的方法。在第一種方法中,由于MapReduce編程模型的盛行,大數(shù)據(jù)分類的并行化或分布式方法基本上都是基于這種編程模型而提出的。例如,Bechini等利用MapReduce編程模型對著名的關(guān)聯(lián)規(guī)則挖掘算法FP-Growth進(jìn)行并行化,以實(shí)現(xiàn)從大數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則[4]。Zhang等將深度學(xué)習(xí)和MapReduce結(jié)合起來,提出了受限波爾茲曼機(jī)的分布式學(xué)習(xí)框架[5],可實(shí)現(xiàn)大數(shù)據(jù)環(huán)境中的深度學(xué)習(xí)。錢宇華等對大數(shù)據(jù)關(guān)聯(lián)關(guān)系度量研究進(jìn)行了全面的綜述[6],具有較高的參考價(jià)值。吳啟暉等對面向頻譜大數(shù)據(jù)處理的機(jī)器學(xué)習(xí)方法進(jìn)行了總結(jié),分析了它們各自的特點(diǎn)[7]。吉根林和趙斌綜述了時(shí)空軌跡大數(shù)據(jù)模式挖掘與知識發(fā)現(xiàn)領(lǐng)域的研究進(jìn)展[8]。亓峰等對未來大數(shù)據(jù)環(huán)境下的配用電通信網(wǎng)虛擬網(wǎng)絡(luò)架構(gòu)及應(yīng)用進(jìn)行了研究[9]。第二種方法利用采樣技術(shù)從大數(shù)據(jù)集中選擇一個(gè)子集代替原來的大數(shù)據(jù)集進(jìn)行分類。He等利用不確定性分布,提出了一種從大數(shù)據(jù)中并行隨機(jī)采樣的方法[10]。與同類算法相比,該方法不僅可以保持原數(shù)據(jù)超曲面的一致性,而且可以獲得非常好的加速比、伸縮比和承載比。針對大數(shù)據(jù)的Boosting集成學(xué)習(xí)問題,Dubout等提出了一種自適應(yīng)采樣方法[11]。該方法通過對基本分類器的統(tǒng)計(jì)邊界行為建模,能夠改進(jìn)大數(shù)據(jù)Boosting集成算法的性能。文獻(xiàn)[12]對采樣方法研究進(jìn)行了較全面的綜述,具有一定的參考價(jià)值。
在現(xiàn)實(shí)生活中,很多實(shí)際問題中要處理的大數(shù)據(jù)具有類別非平衡的特點(diǎn)。例如,網(wǎng)絡(luò)入侵檢測、信用卡欺詐檢測、惡劣天氣預(yù)報(bào)和醫(yī)療診斷等問題。非平衡大數(shù)據(jù)分類使傳統(tǒng)的分類算法面臨新的挑戰(zhàn),如何解決非平衡大數(shù)據(jù)分類問題已成為機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)。處理類別非平衡問題的常用方法大致可分為4類[13-15]:(a)數(shù)據(jù)級的方法,(b)算法級的方法,(c)代價(jià)敏感性方法,(d)集成方法。數(shù)據(jù)級的方法主要利用采樣技術(shù),包括對小類樣本的隨機(jī)上采樣、對大類樣本的隨機(jī)下采樣和基于數(shù)據(jù)生成的混合采樣等。Japkowicz等提出了基于隨機(jī)化的上采樣和下采樣方法[13],并從理論上證明了“在采樣之后的數(shù)據(jù)集合上學(xué)習(xí),算法能夠獲得與原數(shù)據(jù)集合上等效的學(xué)習(xí)性能”。Wang等針對近鄰分類器給出了基于特征空間相似性的合成上采樣方法SMOTE[16]。Batista等提出了基于壓縮近鄰規(guī)則和數(shù)據(jù)清洗技術(shù)的上采樣方法[17]。2006年Liu等提出了基于集成策略的獨(dú)立下采樣方法[18]。算法級的方法主要利用歸納偏置、懲罰約束和調(diào)整類邊界等機(jī)制對已有算法(如決策樹、支持向量機(jī)等)進(jìn)行改進(jìn)。代表性的工作包括Quinlan提出的通過調(diào)整決策樹葉結(jié)點(diǎn)的概率估計(jì)來選擇合適的歸納偏置[19];Lin等提出的對不同類別的樣例采用不同懲罰系數(shù)的支持向量機(jī)分類方法[20]等。代價(jià)敏感性方法主要利用樣例加權(quán)、貝葉斯風(fēng)險(xiǎn)理論等方法設(shè)計(jì)代價(jià)敏感性學(xué)習(xí)模型。代價(jià)敏感性學(xué)習(xí)的目的是最小化標(biāo)準(zhǔn)數(shù)據(jù)挖掘或機(jī)器學(xué)習(xí)算法在訓(xùn)練集合上面的錯(cuò)分代價(jià)。研究結(jié)果表明:通過采用基于代價(jià)敏感性方法構(gòu)建的神經(jīng)網(wǎng)絡(luò)[21]、支持向量機(jī)[22]和決策樹[23]分別可以改善這些傳統(tǒng)的數(shù)據(jù)挖掘和學(xué)習(xí)算法在非平衡數(shù)據(jù)集合上的學(xué)習(xí)性能。集成方法主要包括代價(jià)敏感性集成方法和基于數(shù)據(jù)預(yù)處理的集成方法。一般地,代價(jià)敏感性集成方法通過在AdaBoost算法的權(quán)更新公式中引入代價(jià)項(xiàng)完成,權(quán)更新規(guī)則的不同,得到了不同的代價(jià)敏感性集成方法。代表性的工作包括Fan等提出的AdaCost算法[24];Sun等提出的AdaCx(x=1,2,3)系列算法[25];Ting提出的CSBx(x=1,2)系列算法[26]等?;跀?shù)據(jù)預(yù)處理的集成方法大致又可分為3類:基于Boosting的方法、基于Bagging的方法和混合方法?;贐oosting的方法代表性的工作包括Chawla等提出的SMOTEBoost算法[27];Seiffert等提出的Rusboost算法[28]等?;贐agging的方法代表性的工作包括Wang 等提出的OverBagging算法和UnderOverBagging算法[29];Barandela等提出的UnderBagging算法[30]等。混合算法代表性的工作包括Liu等提出的EasyEnsemble算法和BalanceCascade算法[31]。
上面這些算法都是針對中小型類別非平衡數(shù)據(jù)集提出的分類方法,對于類別非平衡的大型數(shù)據(jù)集,上述算法的效率就會(huì)變得非常低,甚至不可行。針對這一問題,在兩類分類的框架下,本文提出了一種基于MapReduce和上采樣的兩類非平衡大數(shù)據(jù)集成分類方法,并在5個(gè)類別非平衡的大型數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明本文提出的算法是解決兩類非平衡大數(shù)據(jù)分類問題的一種有效方法。
本節(jié)介紹將要用到的基礎(chǔ)知識,包括MapReduce[32]和極限學(xué)習(xí)機(jī)(Extreme learning machine, ELM)[33]。ELM用作分類器對數(shù)據(jù)進(jìn)行分類。
MapRecuce[32]是針對大數(shù)據(jù)處理的一種并行編程框架,它的基本思想包括以下3個(gè)方面:
(1)MapRecuce采用分治策略自動(dòng)地將大數(shù)據(jù)集劃分為若干子集,并將這些子集部署到不同的云計(jì)算節(jié)點(diǎn)上,并行地對數(shù)據(jù)子集進(jìn)行處理;
(2)基于函數(shù)編程語言LISP的思想,MapRecuce提供了兩個(gè)簡單易行的并行編程方法:Map和Reduce,用它們實(shí)現(xiàn)基本的并行計(jì)算;
(3)許多系統(tǒng)級的處理細(xì)節(jié)MapRecuce能自動(dòng)完成,這些細(xì)節(jié)包括:
(a)計(jì)算任務(wù)的自動(dòng)劃分和自動(dòng)部署;
(b)自動(dòng)分布式存儲(chǔ)處理的數(shù)據(jù);
(c)處理數(shù)據(jù)和計(jì)算任務(wù)的同步;
(d)對中間處理結(jié)果數(shù)據(jù)的自動(dòng)聚集和重新劃分;
(e)云計(jì)算節(jié)點(diǎn)之間的通訊;
(f)云計(jì)算節(jié)點(diǎn)之間的負(fù)載均衡和性能優(yōu)化;
(g)云計(jì)算節(jié)點(diǎn)的失效檢查和恢復(fù)。
MapRecuce處理數(shù)據(jù)的流程如圖1所示。
圖1 MapRecuce處理數(shù)據(jù)的流程示意圖Fig.1 Flow chart of data processing by MapRecuce
圖2 單隱含層前饋神經(jīng)網(wǎng)絡(luò)Fig.2 Single-hidden layer feedforward neural network
ELM[33]是黃廣斌等提出的一種訓(xùn)練單隱含層前饋神經(jīng)網(wǎng)絡(luò)(如圖2 所示)的簡單而有效的算法。ELM隨機(jī)生成輸入層的權(quán)值和隱含層結(jié)點(diǎn)的偏置,用分析的方法確定輸出層的權(quán)值。與其他的單隱含層前饋神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法相比,ELM 的優(yōu)點(diǎn)是不需要迭代調(diào)整權(quán)參數(shù),具有非??斓膶W(xué)習(xí)速度和非常好的泛化能力。而且,黃廣斌等證明了ELM具有一致逼近能力[34]。
給定訓(xùn)練集D={(xi,yi)|xi∈Rd,yi∈Rk},1≤i≤n,具有m個(gè)隱含層結(jié)點(diǎn)的單隱含層前饋神經(jīng)網(wǎng)絡(luò)可表示為
(1)
式中:g(·)是激活函數(shù);wj=(wj1,wj2,…,wjd)T是輸入層結(jié)點(diǎn)到隱含層第j個(gè)結(jié)點(diǎn)的權(quán)向量;bj是隱含層第j個(gè)結(jié)點(diǎn)的偏置, 在ELM中wj和bj是隨機(jī)生成的;βj=(βj1,βj2,…,βjm)T是隱含層第j個(gè)結(jié)點(diǎn)到輸出層結(jié)點(diǎn)的權(quán)向量,βj可通過給定的訓(xùn)練集用最小二乘擬合來估計(jì),βj應(yīng)滿足
(2)
式(2)可以寫成如下的矩陣形式
Hβ=Y
(3)
其中
式中:H是單隱含層前饋神經(jīng)網(wǎng)絡(luò)的隱含層輸出矩陣,它的第j列是隱含層第j個(gè)結(jié)點(diǎn)相對于輸入x1,x2,…,xn的輸出,它的第i行是隱含層相對于輸入xi的輸出。如果單隱含層前饋神經(jīng)網(wǎng)絡(luò)的隱含層結(jié)點(diǎn)個(gè)數(shù)等于樣例的個(gè)數(shù),那么矩陣H是可逆方陣。此時(shí), 用單隱含層前饋神經(jīng)網(wǎng)絡(luò)能零誤差逼近訓(xùn)練樣例。但一般情況下,單隱含層前饋神經(jīng)網(wǎng)絡(luò)的隱含層結(jié)點(diǎn)個(gè)數(shù)遠(yuǎn)小于訓(xùn)練樣例的個(gè)數(shù)。此時(shí),H不是一個(gè)方陣, 線性系統(tǒng)式(3)也沒有精確解, 但可以通過求解下列優(yōu)化問題的最小范數(shù)最小二乘解來代替式(3)的精確解,即
(4)
上式最小范數(shù)最小二乘解可通過下式求得,即
其中H+是矩陣H的Moore-Penrose廣義逆矩陣。
極限學(xué)習(xí)機(jī)算法描述如下:
算法1: 極限學(xué)習(xí)機(jī)算法
1.輸入: 訓(xùn)練集D={(xi,yi)|xi∈Rd,yi∈Rk,1≤i≤n};激活函數(shù)g;隱含層節(jié)點(diǎn)數(shù)m。
3.for (j=1;i≤m;j=j+1) do
4.隨機(jī)給定輸入權(quán)值ωj和偏置bj;
5.end
6.計(jì)算隱含層輸出矩陣H;
7.計(jì)算矩陣H的廣義逆矩陣H+;
圖3 在正類樣例與其負(fù)類最近鄰的連線上上采樣若干正類樣例Fig.3 Sampling of some points on the line between positive instance and its negative nearest neighbor
圖4 BECIMU算法的流程圖Fig.4 Flow diagram of BECIMU algorithm
算法2的第3~7步實(shí)現(xiàn)正類樣例的上采樣。其中,第4步用MapReduce尋找正類樣例的異類最近鄰,整個(gè)算法的計(jì)算時(shí)間復(fù)雜度主要體現(xiàn)在這一步。假定云平臺中有m個(gè)計(jì)算節(jié)點(diǎn),顯然這一步的計(jì)算復(fù)雜度為O(n)/m。第5步在正類樣例與其異類最近鄰的連線上上采樣,采樣點(diǎn)的位置取決于參數(shù)λ,λ取不同的值可得到不同的采樣點(diǎn)。λ的值越小,上采樣點(diǎn)越靠近正類樣例點(diǎn)。算法的其他步驟易于理解,不再贅述。
在算法2中,MapReduce的Map函數(shù)和Reduce函數(shù)的設(shè)計(jì)如算法3和算法4所示。在算法3和算法4中,〈k1,v1〉分別是〈起始偏移量,訓(xùn)練樣本〉;〈k2,v2〉分別是〈vector〈歐式距離,訓(xùn)練樣本類標(biāo)志〉, NullWritable〉;〈k3,v3〉分別是〈測試樣本,測試樣本的類標(biāo)志〉。
算法2: BECIMU算法
1.輸入:兩類非平衡大數(shù)據(jù)集D=S+∪S-, |S+|=n+, |S-|=n-,n+?n-;測試樣例x。
2.輸出:x的類標(biāo)
3.for (i=1;i≤n+;i=i+1) do
7. end
9.for (i=1;i≤p;i=i+1) do
11. 在Di上,用極限學(xué)習(xí)機(jī)算法訓(xùn)練一個(gè)分類器Li;
12. end
13. 用多數(shù)投票法集成p個(gè)訓(xùn)練好的分類器Li;
14. 用集成系統(tǒng)預(yù)測測試樣例x的類標(biāo);
15. 輸出x的類標(biāo)。
算法3:Map函數(shù)
1.輸出:〈k1,v1〉。
2.輸出: 〈k2,v2〉
3.//遍歷所有負(fù)類樣例xi,取出其類標(biāo)志label;
4.for(i=1;i≤n;i=i+1) do
5. label-FindLabel (xi);
6. //遍歷正類樣例x,計(jì)算其與負(fù)類樣例之間的歐式距離,并將結(jié)果存入Context;
7. for (?x∈testfile) do
8. Distance-EuclideanDistance(x-xi);
9. Context.write(vector〈Distance,label〉, NullWritable);
10. end
11.end
12.輸出〈k2,v2〉。
算法4: Reduce函數(shù)
1.輸出: 〈k2,v2〉
2.輸出: 〈k3,v3〉
3. // 將vector(Distance, label)添加到Arraylist中;
4. ArrayList(Vector〈Distance, label〉);
5. //對Arraylist中所有元素執(zhí)行排序操作;
6. Sort(ArrayList)
7. //將最近鄰添加到result中;
8. New ArrayList result;
9. result.add(ArrayList.get(1));
10. //應(yīng)用最近鄰算法,結(jié)果存入Context中;
11. Context.write(x,NN(result));
12. 輸出〈k3,v3〉
為了驗(yàn)證提出的算法的有效性,在5個(gè)非平衡大數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),分別與SMOTE-Vote,SMOTE-Boost和SMOTE-Bagging 3種算法[35]進(jìn)行了比較。實(shí)驗(yàn)所用的云計(jì)算平臺及各個(gè)節(jié)點(diǎn)的配置分別列表1和表2中。
表1 實(shí)驗(yàn)所用云計(jì)算平臺的配置
表2 云計(jì)算平臺節(jié)點(diǎn)的配置
實(shí)驗(yàn)所用的5個(gè)非平衡大數(shù)據(jù)集分別記為A,B,C,D和E。數(shù)據(jù)集A是由UCI數(shù)據(jù)集Skin_segment變換而來,包含3 679個(gè)正例和114 039個(gè)負(fù)例;數(shù)據(jù)集B由UCI數(shù)據(jù)集MiniBooNE變換而來,包含4 800個(gè)正例和196 555個(gè)負(fù)例;數(shù)據(jù)集C由UCI數(shù)據(jù)集Cod_rna變換而來,包含7 742個(gè)正例和328 168個(gè)負(fù)例;數(shù)據(jù)集D是一個(gè)人工數(shù)據(jù)集,包含150個(gè)正例和321 191個(gè)負(fù)例。數(shù)據(jù)集E是一個(gè)2類二維服從高斯分布的人工數(shù)據(jù)集,包含400萬個(gè)樣例。其中,正類樣例所占比例為1%。兩類服從的高斯分布為
p(x|ωi)~N(μi,Σi)i=1,2
(5)
其中參數(shù)如表3所示。
表3 兩個(gè)高斯分布的均值向量和協(xié)方差矩陣
圖5 混淆矩陣Fig.5 Confusion matrix
對于兩類非平衡分類問題,設(shè)T和F分別表示實(shí)際的正類類標(biāo)和負(fù)類類標(biāo),Y和N分別表示預(yù)測的正類類標(biāo)和負(fù)類類標(biāo),混淆矩陣的定義如圖5所示。常用的評價(jià)兩類非平衡分類算法性能的指標(biāo)有精度(Precision)、召回率(Recall)、幾何均值(G-mean)和F-度量(F-measure),它們的定義如下。
(5)
(6)
(7)
(8)
其中β是一個(gè)參數(shù)。因?yàn)镚-mean從真陽性率和假陰性率兩方面度量了兩類非平衡分類算法的性能,所以本文用它作為評價(jià)指標(biāo)。與SMOTE-Vote,SMOTE-Boost和SMOTE-Bagging 三種算法比較的實(shí)驗(yàn)結(jié)果如表4所示。
表4 本文算法與3種算法比較的實(shí)驗(yàn)結(jié)果
在MapReduce框架下,對提出的算法還進(jìn)行了加速比的比較,即對于相同的數(shù)據(jù)集在計(jì)算節(jié)點(diǎn)不同時(shí)速度差異,實(shí)驗(yàn)結(jié)果如表5所示。
表5 加速比的實(shí)驗(yàn)結(jié)果
從表4的實(shí)驗(yàn)結(jié)果可以看出,本文算法的G-mean值均高于其他3種算法。其原因是SMOTE算法僅在同類近鄰的連線上采樣一個(gè)樣例點(diǎn);而本文算法在正類樣例與其異類最近鄰的連線上采樣多個(gè)樣例點(diǎn),可以擴(kuò)大正類樣例的學(xué)習(xí)域。從表5的實(shí)驗(yàn)結(jié)果可以看出,本文算法的加速比也很明顯。因此,從這兩方面看,本文提出的算法是比較有效的。
針對兩類非平衡大數(shù)據(jù)分類問題,提出了一種基于MapReduce和上采樣的集成分類算法。該算法利用MapReduce的并行計(jì)算機(jī)制,尋找每一個(gè)正類樣例的負(fù)類最近鄰,并在每一個(gè)正類樣例與其異類最近鄰的連線上采樣若干個(gè)正類樣例點(diǎn),采樣點(diǎn)的個(gè)數(shù)由用戶控制,具有較強(qiáng)的自適應(yīng)性。另外,本文提出的算法并行計(jì)算每一個(gè)正類樣例到每一個(gè)負(fù)類樣例的距離,極大地降低了計(jì)算時(shí)間復(fù)雜度。在5個(gè)數(shù)據(jù)集上與SMOTE-Vote,SMOTE-Boost和SMOTE-Bagging 三種同類方法進(jìn)行了實(shí)驗(yàn)對比,實(shí)驗(yàn)結(jié)果證明本文提出的方法優(yōu)于這3種方法。本文提出的算法具有如下兩個(gè)特點(diǎn):(1)算法在正類樣例與其異類最近鄰的連線上采樣多個(gè)樣例點(diǎn),這樣可以擴(kuò)大正類樣例的學(xué)習(xí)域;(2)算法具有較好的加速比和較高的分類精度。未來進(jìn)一步的工作包括:(1)在更多、更大的數(shù)據(jù)集上實(shí)驗(yàn),并對實(shí)驗(yàn)結(jié)果進(jìn)行統(tǒng)計(jì)分析;(2)將本文提出的算法擴(kuò)展到多類非平衡問題。
參考文獻(xiàn):
[1] Emani C K, Cullot N, Nicolle C. Understandable big data: A survey[J]. Computer Science Review, 2015,17:70-81.
[2] Zhou Z H, Chawla N V, Jin Y C, et al. Big data opportunities and challenges: Discussions from data analytics perspectives[J]. IEEE Computational Intelligence Magazine, 2014,9(4):62-74.
[3] 孟小峰, 慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169.
Meng Xiaofeng, Ci Xiang. Big data management: Concepts, techniques and challenges [J]. Journal of Computer Research and Development, 2013,50(1):146-169.
[4] Bechini A, Marcelloni F, Segatori A. A MapReduce solution for associative classification of big data [J]. Information Sciences, 2016,332(1):33-55.
[5] Zhang K, Chen X W. Large-scale deep belief nets with MapReduce[J]. IEEE Access, 2014,2(2):395-403.
[6] 錢宇華, 成紅紅, 梁新彥,等.大數(shù)據(jù)關(guān)聯(lián)關(guān)系度量研究綜述[J].數(shù)據(jù)采集與處理,2015,30(6):1147-1159.
Qian Yuhua, Cheng Honghong, Liang Xinyan, et al. Review for variable association measures in big data[J]. Journal of Data Acquisition and Processing, 2015,30(6):1147-1159.
[7] 吳啟暉, 邱俊飛, 丁國如.面向頻譜大數(shù)據(jù)處理的機(jī)器學(xué)習(xí)方法[J].數(shù)據(jù)采集與處理,2015,30(4):703-713.
Wu Qihui, Qiu Junfei, Ding Guoru. Machine learning methods for big spectrum data processing[J]. Journal of Data Acquisition and Processing, 2015,30(4):703-713.
[8] 吉根林, 趙斌. 時(shí)空軌跡大數(shù)據(jù)模式挖掘研究進(jìn)展[J]. 數(shù)據(jù)采集與處理, 2015,30(1):47-58.
Ji Genlin, Zhao Bin. Research progress in pattern mining for big spatiotemporal trajectories[J]. Journal of Data Acquisition and Processing, 2015, 30(1):47-58.
[9] 亓峰, 唐曉璇, 邢寧哲, 等.未來大數(shù)據(jù)環(huán)境下的配用電通信網(wǎng)虛擬網(wǎng)絡(luò)架構(gòu)及應(yīng)用[J].數(shù)據(jù)采集與處理,2015, 30(3):511-518.
Qi Feng, Tang Xiaoxuan, Xing Ningzhe, et al. Virtual network architecture and application for smart distribution grid in future large data environment[J]. Journal of Data Acquisition and Processing, 2015, 30(3):511-518.
[10] He Q, Wang H, Zhuang F Z, et al. Parallel sampling from big data with uncertainty distribution[J]. Fuzzy Sets & Systems, 2015,258:117-133.
[11] Dubout C, Fleuret F. Adaptive sampling for large scale boosting [J]. Journal of Machine Learning Research, 2014, 15(2):1431-1453.
[12] 宋壽鵬, 邵勇華, 堵瑩. 采樣方法研究綜述[J]. 數(shù)據(jù)采集與處理, 2016, 31(3):452-463.
Song Shoupeng, Shao Yonghua, Du Ying. Survey of sampling methods[J]. Journal of Data Acquisition and Processing, 2016,31(3):452-463.
[13] Japkowicz N, Stephen S. The class imbalance problem: A systematic study[J]. Intelligent Data Analysis, 2002,6(5):429- 449, 2002.
[14] He H B, Garcia E A. Learning from imbalanced data[J]. IEEE Transactions on Knowledge and Data Engineering, 2009,21(9):1263-1284.
[15] Sun Y M, Wong A K C, Kamel M S. Classification of imbalanced data: A review [J]. International Journal of Pattern Recognition and Artificial Intelligence, 2009,23(4):687-719.
[16] Wang B X, Japkowicz N. Imbalanced data set learning with synthetic samples [C]∥IRIS Machine Learning Workshop. Ottawa, Canada: [s.n.], 2004:153-162.
[17] Batista G, Prati R, Monard M. A study of the behavior of several methods for balancing machine learning training data[J]. ACM SIGKDD Explorations Newsletter, 2004,6(1):20-29.
[18] Liu X Y, Wu J, Zhou Z H. Exploratory under sampling for class imbalance learning[C]∥Proceedings of the 2006 International Conference on Data Mining. Las Vegas, Nevada, USA: [s.n.], 2006:965-969.
[19] Quinlan J R. Improved estimates for the accuracy of small disjuncts [J]. Machine Learning, 1991, 6:93-98.
[20] Lin Y, Lee Y, Wahba G. Support vector machines for classification in nonstandard situations [J]. Machine Learning, 2002, 46:191-202.
[21] Zhou Z H, Liu X Y. Training cost-sensitive neural networks with methods addressing the class imbalance problem[J]. IEEE Transactions on Knowledge and Data Engineering, 2006,18(1):63-77.
[22] Batuwita R, Palade V. FSVM-CIL: Fuzzy support vector machines for class imbalance learning[J]. IEEE Transactions on Fuzzy Systems, 2010,18(3):558-571.
[23] Ting K M. An instance-weighting method to induce cost-sensitive trees[J]. IEEE Transactions on Knowledge and Data Engineering, 2002,14(3):659-665.
[24] Fan W, Stolfo S J, Zhang J, et al. Adacost: Misclassification cost-sensitive boosting[C]∥the 6th Int Conf Mach Learning. San Francisco, CA:[s.n.], 1999: 97-105.
[25] Sun Y, Kamel M S, Wong A AK, et al. Cost-sensitive boosting for classification of imbalanced data [J]. Pattern Recognition, 2007,40(12):3358-3378.
[26] Ting K M. A comparative study of cost-sensitive boosting algorithms[C]∥Proc 17th Int Conf Mach Learning. Stanford, CA: [s.n.], 2000:983-990.
[27] Chawla N V, Lazarevic A, Hall L O, et al. SMOTEBoost: Improving prediction of the minority class in boosting[C]∥Proceedings of the 2003 European Conference on Principles and Practice of Knowledge Discovery in Databases. Cavtat Dubrovnik, Croatia: [s.n.], 2003:107-119.
[28] Seiffert C, Khoshgoftaar T, Hulse J V, et al. Rusboost: A hybrid approach to alleviating class imbalance [J]. IEEE Transactions on Systems, Man and Cybernetics, Part A: Systems and Humans, 2010,40(1):185-197.
[29] Wang S, Yao X. Diversity analysis on imbalanced data sets by using ensemble models[C]∥IEEE Symp Comput Intell Data Mining. Nashville, Tennessee: IEEE, 2009:324-331.
[30] Barandela R, Valdovinos R M, Sanchez J S. New applications of ensembles of classifiers[J]. Pattern Analysis & Applications, 2003,6:245-256.
[31] Liu X Y, Wu J, Zhou Z H. Exploratory undersampling for classimbalance learning[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 2009,39(2):539-550.
[32] Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters[J]. Communications of the ACM, 2008,51(1):107-113.
[33] Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: Theory and applications[J]. Neurocomputing, 2006, 70(1-3):489-501.
[34] Huang G B, Chen L, Siew C K. Universal approximation using incremental constructive feedforward networks with random hidden nodes[J]. IEEE Transactions on Neural Networks, 2006,17(4):879-892.
[35] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: Synthetic minority over-sampling technique [J]. Journal Artificial Intelligence Research, 2002, 16:321-357.