基于MapReduce和上采樣的兩類非平衡大數(shù)據(jù)集成分類

2018-06-28 09:26翟俊海張明陽王陳希劉曉萌王耀達(dá)

數(shù)據(jù)采集與處理 2018年3期

關(guān)鍵詞：樣例結(jié)點(diǎn)神經(jīng)網(wǎng)絡(luò)

翟俊海張明陽王陳希劉曉萌王耀達(dá)

(1.河北省機(jī)器學(xué)習(xí)與計(jì)算智能重點(diǎn)實(shí)驗(yàn)室，保定，071002; 2.河北大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院，保定，071002; 3.河北大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，保定，071002)

引言

隨著計(jì)算機(jī)網(wǎng)絡(luò)、數(shù)據(jù)存儲(chǔ)、云計(jì)算和社會(huì)計(jì)算等技術(shù)的快速發(fā)展，數(shù)據(jù)正以前所未有的速度在不斷地增長和積累，大數(shù)據(jù)處理已經(jīng)成為學(xué)術(shù)界和工業(yè)界密切關(guān)注的問題。大數(shù)據(jù)是指具有海量(Volume)、多模態(tài)(Variety)、變化速度快(Velocity)、蘊(yùn)含價(jià)值高(Value)和可靠性高(Veracity)“5V”特征的數(shù)據(jù)[1-3]。目前，針對大數(shù)據(jù)分類的研究主要集中在如何處理大數(shù)據(jù)量上。解決問題的主流思路包括兩種：(1)并行化或分布式方法；(2)基于采樣技術(shù)的方法。在第一種方法中，由于MapReduce編程模型的盛行，大數(shù)據(jù)分類的并行化或分布式方法基本上都是基于這種編程模型而提出的。例如，Bechini等利用MapReduce編程模型對著名的關(guān)聯(lián)規(guī)則挖掘算法FP-Growth進(jìn)行并行化，以實(shí)現(xiàn)從大數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則[4]。Zhang等將深度學(xué)習(xí)和MapReduce結(jié)合起來，提出了受限波爾茲曼機(jī)的分布式學(xué)習(xí)框架[5]，可實(shí)現(xiàn)大數(shù)據(jù)環(huán)境中的深度學(xué)習(xí)。錢宇華等對大數(shù)據(jù)關(guān)聯(lián)關(guān)系度量研究進(jìn)行了全面的綜述[6]，具有較高的參考價(jià)值。吳啟暉等對面向頻譜大數(shù)據(jù)處理的機(jī)器學(xué)習(xí)方法進(jìn)行了總結(jié)，分析了它們各自的特點(diǎn)[7]。吉根林和趙斌綜述了時(shí)空軌跡大數(shù)據(jù)模式挖掘與知識發(fā)現(xiàn)領(lǐng)域的研究進(jìn)展[8]。亓峰等對未來大數(shù)據(jù)環(huán)境下的配用電通信網(wǎng)虛擬網(wǎng)絡(luò)架構(gòu)及應(yīng)用進(jìn)行了研究[9]。第二種方法利用采樣技術(shù)從大數(shù)據(jù)集中選擇一個(gè)子集代替原來的大數(shù)據(jù)集進(jìn)行分類。He等利用不確定性分布，提出了一種從大數(shù)據(jù)中并行隨機(jī)采樣的方法[10]。與同類算法相比，該方法不僅可以保持原數(shù)據(jù)超曲面的一致性，而且可以獲得非常好的加速比、伸縮比和承載比。針對大數(shù)據(jù)的Boosting集成學(xué)習(xí)問題，Dubout等提出了一種自適應(yīng)采樣方法[11]。該方法通過對基本分類器的統(tǒng)計(jì)邊界行為建模，能夠改進(jìn)大數(shù)據(jù)Boosting集成算法的性能。文獻(xiàn)[12]對采樣方法研究進(jìn)行了較全面的綜述，具有一定的參考價(jià)值。

在現(xiàn)實(shí)生活中，很多實(shí)際問題中要處理的大數(shù)據(jù)具有類別非平衡的特點(diǎn)。例如，網(wǎng)絡(luò)入侵檢測、信用卡欺詐檢測、惡劣天氣預(yù)報(bào)和醫(yī)療診斷等問題。非平衡大數(shù)據(jù)分類使傳統(tǒng)的分類算法面臨新的挑戰(zhàn)，如何解決非平衡大數(shù)據(jù)分類問題已成為機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)。處理類別非平衡問題的常用方法大致可分為4類[13-15]：(a)數(shù)據(jù)級的方法，(b)算法級的方法，(c)代價(jià)敏感性方法，(d)集成方法。數(shù)據(jù)級的方法主要利用采樣技術(shù)，包括對小類樣本的隨機(jī)上采樣、對大類樣本的隨機(jī)下采樣和基于數(shù)據(jù)生成的混合采樣等。Japkowicz等提出了基于隨機(jī)化的上采樣和下采樣方法[13]，并從理論上證明了“在采樣之后的數(shù)據(jù)集合上學(xué)習(xí)，算法能夠獲得與原數(shù)據(jù)集合上等效的學(xué)習(xí)性能”。Wang等針對近鄰分類器給出了基于特征空間相似性的合成上采樣方法SMOTE[16]。Batista等提出了基于壓縮近鄰規(guī)則和數(shù)據(jù)清洗技術(shù)的上采樣方法[17]。2006年Liu等提出了基于集成策略的獨(dú)立下采樣方法[18]。算法級的方法主要利用歸納偏置、懲罰約束和調(diào)整類邊界等機(jī)制對已有算法(如決策樹、支持向量機(jī)等)進(jìn)行改進(jìn)。代表性的工作包括Quinlan提出的通過調(diào)整決策樹葉結(jié)點(diǎn)的概率估計(jì)來選擇合適的歸納偏置[19]；Lin等提出的對不同類別的樣例采用不同懲罰系數(shù)的支持向量機(jī)分類方法[20]等。代價(jià)敏感性方法主要利用樣例加權(quán)、貝葉斯風(fēng)險(xiǎn)理論等方法設(shè)計(jì)代價(jià)敏感性學(xué)習(xí)模型。代價(jià)敏感性學(xué)習(xí)的目的是最小化標(biāo)準(zhǔn)數(shù)據(jù)挖掘或機(jī)器學(xué)習(xí)算法在訓(xùn)練集合上面的錯(cuò)分代價(jià)。研究結(jié)果表明：通過采用基于代價(jià)敏感性方法構(gòu)建的神經(jīng)網(wǎng)絡(luò)[21]、支持向量機(jī)[22]和決策樹[23]分別可以改善這些傳統(tǒng)的數(shù)據(jù)挖掘和學(xué)習(xí)算法在非平衡數(shù)據(jù)集合上的學(xué)習(xí)性能。集成方法主要包括代價(jià)敏感性集成方法和基于數(shù)據(jù)預(yù)處理的集成方法。一般地，代價(jià)敏感性集成方法通過在AdaBoost算法的權(quán)更新公式中引入代價(jià)項(xiàng)完成，權(quán)更新規(guī)則的不同，得到了不同的代價(jià)敏感性集成方法。代表性的工作包括Fan等提出的AdaCost算法[24]；Sun等提出的AdaCx(x=1,2,3)系列算法[25]；Ting提出的CSBx(x=1,2)系列算法[26]等?；跀?shù)據(jù)預(yù)處理的集成方法大致又可分為3類：基于Boosting的方法、基于Bagging的方法和混合方法?；贐oosting的方法代表性的工作包括Chawla等提出的SMOTEBoost算法[27]；Seiffert等提出的Rusboost算法[28]等?；贐agging的方法代表性的工作包括Wang 等提出的OverBagging算法和UnderOverBagging算法[29]；Barandela等提出的UnderBagging算法[30]等。混合算法代表性的工作包括Liu等提出的EasyEnsemble算法和BalanceCascade算法[31]。

上面這些算法都是針對中小型類別非平衡數(shù)據(jù)集提出的分類方法，對于類別非平衡的大型數(shù)據(jù)集，上述算法的效率就會(huì)變得非常低，甚至不可行。針對這一問題，在兩類分類的框架下，本文提出了一種基于MapReduce和上采樣的兩類非平衡大數(shù)據(jù)集成分類方法，并在5個(gè)類別非平衡的大型數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果證明本文提出的算法是解決兩類非平衡大數(shù)據(jù)分類問題的一種有效方法。

1 基礎(chǔ)知識

本節(jié)介紹將要用到的基礎(chǔ)知識，包括MapReduce[32]和極限學(xué)習(xí)機(jī)(Extreme learning machine, ELM)[33]。ELM用作分類器對數(shù)據(jù)進(jìn)行分類。

1.1 MapRecuce

MapRecuce[32]是針對大數(shù)據(jù)處理的一種并行編程框架，它的基本思想包括以下3個(gè)方面：

(1)MapRecuce采用分治策略自動(dòng)地將大數(shù)據(jù)集劃分為若干子集，并將這些子集部署到不同的云計(jì)算節(jié)點(diǎn)上，并行地對數(shù)據(jù)子集進(jìn)行處理；

(2)基于函數(shù)編程語言LISP的思想，MapRecuce提供了兩個(gè)簡單易行的并行編程方法：Map和Reduce，用它們實(shí)現(xiàn)基本的并行計(jì)算；

(3)許多系統(tǒng)級的處理細(xì)節(jié)MapRecuce能自動(dòng)完成，這些細(xì)節(jié)包括：

(a)計(jì)算任務(wù)的自動(dòng)劃分和自動(dòng)部署；

(b)自動(dòng)分布式存儲(chǔ)處理的數(shù)據(jù)；

(c)處理數(shù)據(jù)和計(jì)算任務(wù)的同步；

(d)對中間處理結(jié)果數(shù)據(jù)的自動(dòng)聚集和重新劃分；

(e)云計(jì)算節(jié)點(diǎn)之間的通訊；

(f)云計(jì)算節(jié)點(diǎn)之間的負(fù)載均衡和性能優(yōu)化；

(g)云計(jì)算節(jié)點(diǎn)的失效檢查和恢復(fù)。

MapRecuce處理數(shù)據(jù)的流程如圖1所示。

圖1 MapRecuce處理數(shù)據(jù)的流程示意圖Fig.1 Flow chart of data processing by MapRecuce

圖2 單隱含層前饋神經(jīng)網(wǎng)絡(luò)Fig.2 Single-hidden layer feedforward neural network

1.2 極限學(xué)習(xí)機(jī)

ELM[33]是黃廣斌等提出的一種訓(xùn)練單隱含層前饋神經(jīng)網(wǎng)絡(luò)(如圖2 所示)的簡單而有效的算法。ELM隨機(jī)生成輸入層的權(quán)值和隱含層結(jié)點(diǎn)的偏置，用分析的方法確定輸出層的權(quán)值。與其他的單隱含層前饋神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法相比，ELM 的優(yōu)點(diǎn)是不需要迭代調(diào)整權(quán)參數(shù)，具有非?？斓膶W(xué)習(xí)速度和非常好的泛化能力。而且，黃廣斌等證明了ELM具有一致逼近能力[34]。

給定訓(xùn)練集D={(xi,yi)|xi∈Rd,yi∈Rk}，1≤i≤n，具有m個(gè)隱含層結(jié)點(diǎn)的單隱含層前饋神經(jīng)網(wǎng)絡(luò)可表示為

(1)

式中：g(·)是激活函數(shù)；wj=(wj1,wj2,…,wjd)T是輸入層結(jié)點(diǎn)到隱含層第j個(gè)結(jié)點(diǎn)的權(quán)向量；bj是隱含層第j個(gè)結(jié)點(diǎn)的偏置, 在ELM中wj和bj是隨機(jī)生成的；βj=(βj1,βj2,…，βjm)T是隱含層第j個(gè)結(jié)點(diǎn)到輸出層結(jié)點(diǎn)的權(quán)向量，βj可通過給定的訓(xùn)練集用最小二乘擬合來估計(jì)，βj應(yīng)滿足

(2)

式(2)可以寫成如下的矩陣形式

Hβ=Y

(3)

其中

式中：H是單隱含層前饋神經(jīng)網(wǎng)絡(luò)的隱含層輸出矩陣，它的第j列是隱含層第j個(gè)結(jié)點(diǎn)相對于輸入x1,x2,…,xn的輸出，它的第i行是隱含層相對于輸入xi的輸出。如果單隱含層前饋神經(jīng)網(wǎng)絡(luò)的隱含層結(jié)點(diǎn)個(gè)數(shù)等于樣例的個(gè)數(shù)，那么矩陣H是可逆方陣。此時(shí), 用單隱含層前饋神經(jīng)網(wǎng)絡(luò)能零誤差逼近訓(xùn)練樣例。但一般情況下，單隱含層前饋神經(jīng)網(wǎng)絡(luò)的隱含層結(jié)點(diǎn)個(gè)數(shù)遠(yuǎn)小于訓(xùn)練樣例的個(gè)數(shù)。此時(shí)，H不是一個(gè)方陣, 線性系統(tǒng)式(3)也沒有精確解, 但可以通過求解下列優(yōu)化問題的最小范數(shù)最小二乘解來代替式(3)的精確解，即

(4)

上式最小范數(shù)最小二乘解可通過下式求得，即

其中H+是矩陣H的Moore-Penrose廣義逆矩陣。

極限學(xué)習(xí)機(jī)算法描述如下：

算法1: 極限學(xué)習(xí)機(jī)算法

1.輸入: 訓(xùn)練集D={(xi,yi)|xi∈Rd,yi∈Rk,1≤i≤n};激活函數(shù)g;隱含層節(jié)點(diǎn)數(shù)m。

3.for (j=1;i≤m;j=j+1) do

4.隨機(jī)給定輸入權(quán)值ωj和偏置bj；

5.end

6.計(jì)算隱含層輸出矩陣H;

7.計(jì)算矩陣H的廣義逆矩陣H+；

2 基于MapReduce和上采樣的兩類非平衡大數(shù)據(jù)集成分類

圖3 在正類樣例與其負(fù)類最近鄰的連線上上采樣若干正類樣例Fig.3 Sampling of some points on the line between positive instance and its negative nearest neighbor

圖4 BECIMU算法的流程圖Fig.4 Flow diagram of BECIMU algorithm

算法2的第3～7步實(shí)現(xiàn)正類樣例的上采樣。其中，第4步用MapReduce尋找正類樣例的異類最近鄰，整個(gè)算法的計(jì)算時(shí)間復(fù)雜度主要體現(xiàn)在這一步。假定云平臺中有m個(gè)計(jì)算節(jié)點(diǎn)，顯然這一步的計(jì)算復(fù)雜度為O(n)/m。第5步在正類樣例與其異類最近鄰的連線上上采樣，采樣點(diǎn)的位置取決于參數(shù)λ，λ取不同的值可得到不同的采樣點(diǎn)。λ的值越小，上采樣點(diǎn)越靠近正類樣例點(diǎn)。算法的其他步驟易于理解，不再贅述。

在算法2中，MapReduce的Map函數(shù)和Reduce函數(shù)的設(shè)計(jì)如算法3和算法4所示。在算法3和算法4中，〈k1，v1〉分別是〈起始偏移量，訓(xùn)練樣本〉；〈k2,v2〉分別是〈vector〈歐式距離，訓(xùn)練樣本類標(biāo)志〉, NullWritable〉；〈k3,v3〉分別是〈測試樣本，測試樣本的類標(biāo)志〉。

算法2: BECIMU算法

1.輸入：兩類非平衡大數(shù)據(jù)集D=S+∪S-, |S+|=n+, |S-|=n-,n+?n-；測試樣例x。

2.輸出：x的類標(biāo)

3.for (i=1;i≤n+;i=i+1) do

7. end

9.for (i=1;i≤p;i=i+1) do

11. 在Di上，用極限學(xué)習(xí)機(jī)算法訓(xùn)練一個(gè)分類器Li；

12. end

13. 用多數(shù)投票法集成p個(gè)訓(xùn)練好的分類器Li；

14. 用集成系統(tǒng)預(yù)測測試樣例x的類標(biāo)；

15. 輸出x的類標(biāo)。

算法3：Map函數(shù)

1.輸出：〈k1,v1〉。

2.輸出: 〈k2,v2〉

3.//遍歷所有負(fù)類樣例xi，取出其類標(biāo)志label;

4.for(i=1;i≤n;i=i+1) do

5. label-FindLabel (xi);

6. //遍歷正類樣例x，計(jì)算其與負(fù)類樣例之間的歐式距離，并將結(jié)果存入Context；

7. for (?x∈testfile) do

8. Distance-EuclideanDistance(x-xi);

9. Context.write(vector〈Distance,label〉, NullWritable);

10. end

11.end

12.輸出〈k2,v2〉。

算法4: Reduce函數(shù)

1.輸出: 〈k2,v2〉

2.輸出: 〈k3,v3〉

3. // 將vector(Distance, label)添加到Arraylist中；

4. ArrayList(Vector〈Distance, label〉)；

5. //對Arraylist中所有元素執(zhí)行排序操作；

6. Sort(ArrayList)

7. //將最近鄰添加到result中；

8. New ArrayList result;

9. result.add(ArrayList.get(1));

10. //應(yīng)用最近鄰算法，結(jié)果存入Context中；

11. Context.write(x,NN(result));

12. 輸出〈k3,v3〉

3 實(shí)驗(yàn)結(jié)果

為了驗(yàn)證提出的算法的有效性，在5個(gè)非平衡大數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，分別與SMOTE-Vote，SMOTE-Boost和SMOTE-Bagging 3種算法[35]進(jìn)行了比較。實(shí)驗(yàn)所用的云計(jì)算平臺及各個(gè)節(jié)點(diǎn)的配置分別列表1和表2中。

表1 實(shí)驗(yàn)所用云計(jì)算平臺的配置

表2 云計(jì)算平臺節(jié)點(diǎn)的配置

實(shí)驗(yàn)所用的5個(gè)非平衡大數(shù)據(jù)集分別記為A，B，C，D和E。數(shù)據(jù)集A是由UCI數(shù)據(jù)集Skin_segment變換而來，包含3 679個(gè)正例和114 039個(gè)負(fù)例；數(shù)據(jù)集B由UCI數(shù)據(jù)集MiniBooNE變換而來，包含4 800個(gè)正例和196 555個(gè)負(fù)例；數(shù)據(jù)集C由UCI數(shù)據(jù)集Cod_rna變換而來，包含7 742個(gè)正例和328 168個(gè)負(fù)例；數(shù)據(jù)集D是一個(gè)人工數(shù)據(jù)集，包含150個(gè)正例和321 191個(gè)負(fù)例。數(shù)據(jù)集E是一個(gè)2類二維服從高斯分布的人工數(shù)據(jù)集，包含400萬個(gè)樣例。其中，正類樣例所占比例為1%。兩類服從的高斯分布為

p(x|ωi)～N(μi,Σi)i=1,2

(5)

其中參數(shù)如表3所示。

表3 兩個(gè)高斯分布的均值向量和協(xié)方差矩陣

圖5 混淆矩陣Fig.5 Confusion matrix

對于兩類非平衡分類問題，設(shè)T和F分別表示實(shí)際的正類類標(biāo)和負(fù)類類標(biāo)，Y和N分別表示預(yù)測的正類類標(biāo)和負(fù)類類標(biāo)，混淆矩陣的定義如圖5所示。常用的評價(jià)兩類非平衡分類算法性能的指標(biāo)有精度(Precision)、召回率(Recall)、幾何均值(G-mean)和F-度量(F-measure)，它們的定義如下。

(5)

(6)

(7)

(8)

其中β是一個(gè)參數(shù)。因?yàn)镚-mean從真陽性率和假陰性率兩方面度量了兩類非平衡分類算法的性能，所以本文用它作為評價(jià)指標(biāo)。與SMOTE-Vote，SMOTE-Boost和SMOTE-Bagging 三種算法比較的實(shí)驗(yàn)結(jié)果如表4所示。

表4 本文算法與3種算法比較的實(shí)驗(yàn)結(jié)果

在MapReduce框架下，對提出的算法還進(jìn)行了加速比的比較，即對于相同的數(shù)據(jù)集在計(jì)算節(jié)點(diǎn)不同時(shí)速度差異，實(shí)驗(yàn)結(jié)果如表5所示。

表5 加速比的實(shí)驗(yàn)結(jié)果

從表4的實(shí)驗(yàn)結(jié)果可以看出，本文算法的G-mean值均高于其他3種算法。其原因是SMOTE算法僅在同類近鄰的連線上采樣一個(gè)樣例點(diǎn)；而本文算法在正類樣例與其異類最近鄰的連線上采樣多個(gè)樣例點(diǎn)，可以擴(kuò)大正類樣例的學(xué)習(xí)域。從表5的實(shí)驗(yàn)結(jié)果可以看出，本文算法的加速比也很明顯。因此，從這兩方面看，本文提出的算法是比較有效的。

4 結(jié)束語

針對兩類非平衡大數(shù)據(jù)分類問題，提出了一種基于MapReduce和上采樣的集成分類算法。該算法利用MapReduce的并行計(jì)算機(jī)制，尋找每一個(gè)正類樣例的負(fù)類最近鄰，并在每一個(gè)正類樣例與其異類最近鄰的連線上采樣若干個(gè)正類樣例點(diǎn)，采樣點(diǎn)的個(gè)數(shù)由用戶控制，具有較強(qiáng)的自適應(yīng)性。另外，本文提出的算法并行計(jì)算每一個(gè)正類樣例到每一個(gè)負(fù)類樣例的距離，極大地降低了計(jì)算時(shí)間復(fù)雜度。在5個(gè)數(shù)據(jù)集上與SMOTE-Vote，SMOTE-Boost和SMOTE-Bagging 三種同類方法進(jìn)行了實(shí)驗(yàn)對比，實(shí)驗(yàn)結(jié)果證明本文提出的方法優(yōu)于這3種方法。本文提出的算法具有如下兩個(gè)特點(diǎn)：(1)算法在正類樣例與其異類最近鄰的連線上采樣多個(gè)樣例點(diǎn)，這樣可以擴(kuò)大正類樣例的學(xué)習(xí)域；(2)算法具有較好的加速比和較高的分類精度。未來進(jìn)一步的工作包括：(1)在更多、更大的數(shù)據(jù)集上實(shí)驗(yàn)，并對實(shí)驗(yàn)結(jié)果進(jìn)行統(tǒng)計(jì)分析；(2)將本文提出的算法擴(kuò)展到多類非平衡問題。

參考文獻(xiàn):

[1] Emani C K, Cullot N, Nicolle C. Understandable big data: A survey[J]. Computer Science Review, 2015,17:70-81.

[2] Zhou Z H, Chawla N V, Jin Y C, et al. Big data opportunities and challenges: Discussions from data analytics perspectives[J]. IEEE Computational Intelligence Magazine, 2014,9(4):62-74.

[3] 孟小峰, 慈祥.大數(shù)據(jù)管理：概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169.

Meng Xiaofeng, Ci Xiang. Big data management: Concepts, techniques and challenges [J]. Journal of Computer Research and Development, 2013,50(1):146-169.

[4] Bechini A, Marcelloni F, Segatori A. A MapReduce solution for associative classification of big data [J]. Information Sciences, 2016,332(1):33-55.

[5] Zhang K, Chen X W. Large-scale deep belief nets with MapReduce[J]. IEEE Access, 2014,2(2):395-403.

[6] 錢宇華, 成紅紅, 梁新彥,等.大數(shù)據(jù)關(guān)聯(lián)關(guān)系度量研究綜述[J].數(shù)據(jù)采集與處理,2015,30(6):1147-1159.

Qian Yuhua, Cheng Honghong, Liang Xinyan, et al. Review for variable association measures in big data[J]. Journal of Data Acquisition and Processing, 2015,30(6):1147-1159.

[7] 吳啟暉, 邱俊飛, 丁國如.面向頻譜大數(shù)據(jù)處理的機(jī)器學(xué)習(xí)方法[J].數(shù)據(jù)采集與處理,2015,30(4):703-713.

Wu Qihui, Qiu Junfei, Ding Guoru. Machine learning methods for big spectrum data processing[J]. Journal of Data Acquisition and Processing, 2015,30(4):703-713.

[8] 吉根林, 趙斌. 時(shí)空軌跡大數(shù)據(jù)模式挖掘研究進(jìn)展[J]. 數(shù)據(jù)采集與處理, 2015,30(1):47-58.

Ji Genlin, Zhao Bin. Research progress in pattern mining for big spatiotemporal trajectories[J]. Journal of Data Acquisition and Processing, 2015, 30(1):47-58.

[9] 亓峰, 唐曉璇, 邢寧哲, 等.未來大數(shù)據(jù)環(huán)境下的配用電通信網(wǎng)虛擬網(wǎng)絡(luò)架構(gòu)及應(yīng)用[J].數(shù)據(jù)采集與處理,2015, 30(3):511-518.

Qi Feng, Tang Xiaoxuan, Xing Ningzhe, et al. Virtual network architecture and application for smart distribution grid in future large data environment[J]. Journal of Data Acquisition and Processing, 2015, 30(3):511-518.

[10] He Q, Wang H, Zhuang F Z, et al. Parallel sampling from big data with uncertainty distribution[J]. Fuzzy Sets & Systems, 2015,258:117-133.

[11] Dubout C, Fleuret F. Adaptive sampling for large scale boosting [J]. Journal of Machine Learning Research, 2014, 15(2):1431-1453.

[12] 宋壽鵬, 邵勇華, 堵瑩. 采樣方法研究綜述[J]. 數(shù)據(jù)采集與處理, 2016, 31(3):452-463.

Song Shoupeng, Shao Yonghua, Du Ying. Survey of sampling methods[J]. Journal of Data Acquisition and Processing, 2016,31(3):452-463.

[13] Japkowicz N, Stephen S. The class imbalance problem: A systematic study[J]. Intelligent Data Analysis, 2002,6(5):429- 449, 2002.

[14] He H B, Garcia E A. Learning from imbalanced data[J]. IEEE Transactions on Knowledge and Data Engineering, 2009,21(9):1263-1284.

[15] Sun Y M, Wong A K C, Kamel M S. Classification of imbalanced data: A review [J]. International Journal of Pattern Recognition and Artificial Intelligence, 2009,23(4):687-719.

[16] Wang B X, Japkowicz N. Imbalanced data set learning with synthetic samples [C]∥IRIS Machine Learning Workshop. Ottawa, Canada: [s.n.], 2004：153-162.

[17] Batista G, Prati R, Monard M. A study of the behavior of several methods for balancing machine learning training data[J]. ACM SIGKDD Explorations Newsletter, 2004,6(1):20-29.

[18] Liu X Y, Wu J, Zhou Z H. Exploratory under sampling for class imbalance learning[C]∥Proceedings of the 2006 International Conference on Data Mining. Las Vegas, Nevada, USA: [s.n.], 2006:965-969.

[19] Quinlan J R. Improved estimates for the accuracy of small disjuncts [J]. Machine Learning, 1991, 6:93-98.

[20] Lin Y, Lee Y, Wahba G. Support vector machines for classification in nonstandard situations [J]. Machine Learning, 2002, 46:191-202.

[21] Zhou Z H, Liu X Y. Training cost-sensitive neural networks with methods addressing the class imbalance problem[J]. IEEE Transactions on Knowledge and Data Engineering, 2006,18(1):63-77.

[22] Batuwita R, Palade V. FSVM-CIL: Fuzzy support vector machines for class imbalance learning[J]. IEEE Transactions on Fuzzy Systems, 2010,18(3):558-571.

[23] Ting K M. An instance-weighting method to induce cost-sensitive trees[J]. IEEE Transactions on Knowledge and Data Engineering, 2002,14(3):659-665.

[24] Fan W, Stolfo S J, Zhang J, et al. Adacost: Misclassification cost-sensitive boosting[C]∥the 6th Int Conf Mach Learning. San Francisco, CA:[s.n.], 1999: 97-105.

[25] Sun Y, Kamel M S, Wong A AK, et al. Cost-sensitive boosting for classification of imbalanced data [J]. Pattern Recognition, 2007,40(12):3358-3378.

[26] Ting K M. A comparative study of cost-sensitive boosting algorithms[C]∥Proc 17th Int Conf Mach Learning. Stanford, CA: [s.n.], 2000:983-990.

[27] Chawla N V, Lazarevic A, Hall L O, et al. SMOTEBoost: Improving prediction of the minority class in boosting[C]∥Proceedings of the 2003 European Conference on Principles and Practice of Knowledge Discovery in Databases. Cavtat Dubrovnik, Croatia: [s.n.], 2003:107-119.

[28] Seiffert C, Khoshgoftaar T, Hulse J V, et al. Rusboost: A hybrid approach to alleviating class imbalance [J]. IEEE Transactions on Systems, Man and Cybernetics, Part A: Systems and Humans, 2010,40(1):185-197.

[29] Wang S, Yao X. Diversity analysis on imbalanced data sets by using ensemble models[C]∥IEEE Symp Comput Intell Data Mining. Nashville, Tennessee: IEEE, 2009:324-331.

[30] Barandela R, Valdovinos R M, Sanchez J S. New applications of ensembles of classifiers[J]. Pattern Analysis & Applications, 2003,6:245-256.

[31] Liu X Y, Wu J, Zhou Z H. Exploratory undersampling for classimbalance learning[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 2009,39(2):539-550.

[32] Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters[J]. Communications of the ACM, 2008,51(1):107-113.

[33] Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: Theory and applications[J]. Neurocomputing, 2006, 70(1-3):489-501.

[34] Huang G B, Chen L, Siew C K. Universal approximation using incremental constructive feedforward networks with random hidden nodes[J]. IEEE Transactions on Neural Networks, 2006,17(4):879-892.

[35] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: Synthetic minority over-sampling technique [J]. Journal Artificial Intelligence Research, 2002, 16:321-357.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡