楊思狄,王亞玲
(內(nèi)蒙古大學(xué)滿洲里學(xué)院,內(nèi)蒙古 呼倫貝爾 021400)
機(jī)器學(xué)習(xí)技術(shù)發(fā)展迅速,不均衡數(shù)據(jù)集分類問題已成為機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn),不均衡數(shù)據(jù)集分類問題可完善機(jī)器學(xué)習(xí)體系,具有重要的應(yīng)用價(jià)值[1]。不均衡數(shù)據(jù)集指數(shù)據(jù)集內(nèi)部分類樣本明顯高于其它類樣本,樣本較多的類以及樣本較少的類分別為多數(shù)類與少數(shù)類。
文本分類、信息檢索在眾多實(shí)際應(yīng)用領(lǐng)域中均存在大量不均衡數(shù)據(jù)集情況。目前,通常采用數(shù)據(jù)層方法以及算法層方法解決不均衡數(shù)據(jù)集分類問題[2],算法層方法是通過調(diào)節(jié)概率密度、成本函數(shù)等方式提升少數(shù)類樣本分類效果;數(shù)據(jù)層方法又稱為重抽樣方法,主要方式是操作訓(xùn)練集,利用完成操作的樣本訓(xùn)練分類器,提升少數(shù)類樣本分類效果[3]。重抽樣方法主要包括過抽樣以及欠抽樣兩部分,欠抽樣僅可降低訓(xùn)練集的非平衡度,容易出現(xiàn)忽略多數(shù)類內(nèi)有用信息的情況;過抽樣可利用已有少數(shù)類信息以及復(fù)制少數(shù)類樣本生成人工樣本[4,5],提升少數(shù)類樣本規(guī)模,令少數(shù)類樣本具有較高的分類效果。除此之外,宋玲玲等人研究改進(jìn)的XGBoost在不平衡數(shù)據(jù)處理中的應(yīng)用[6];段化娟等人研究一種面向不平衡分類的改進(jìn)多決策樹算法[7],采用傳統(tǒng)方法進(jìn)行過抽樣容易導(dǎo)致過學(xué)習(xí)情況,識(shí)別多數(shù)類樣本識(shí)別率較高,對(duì)少數(shù)類識(shí)別率較低,對(duì)于少數(shù)類樣本的分類精度并不理想。因此,需要采用高效方法優(yōu)化傳統(tǒng)過抽樣算法,提升過抽樣算法的分類精度。
為提升不均衡數(shù)據(jù)集少數(shù)類樣本的分類性能,構(gòu)建面向不均衡數(shù)據(jù)集的過抽樣數(shù)學(xué)模型,利用ISMOTE過抽樣算法處理訓(xùn)練集,并將完成處理的訓(xùn)練集輸入優(yōu)化后的混合核ε-SVM分類器中,實(shí)現(xiàn)不均衡數(shù)據(jù)集少數(shù)類的精準(zhǔn)分類。
過抽樣容易出現(xiàn)過擬合情況,少數(shù)類過抽樣算法(Synthetic Minority Over-sampling TEchnique,SMOTE)是目前常應(yīng)用于不均衡數(shù)據(jù)集的過抽樣算法,通過加入“人造”樣本于相距較近的少數(shù)類中,提升少數(shù)類樣本,令數(shù)據(jù)集中數(shù)據(jù)具有較高的分布均衡性[8]。線性插值所獲取的少數(shù)類樣本僅在少數(shù)類與少數(shù)類線段間分布,形成少數(shù)類樣本的分布范圍有所限制。數(shù)據(jù)分布不均衡條件下的少數(shù)類過抽樣算法(ISMOTE)可推廣生成少數(shù)類樣本范圍至n維球體,該算法可降低不均衡數(shù)據(jù)集內(nèi)眾多數(shù)據(jù)的不均衡程度,提升不均衡數(shù)據(jù)集內(nèi)少數(shù)類樣本的分類精準(zhǔn)度。
用Xj與X′分別表示少數(shù)類樣本以及Xj的k個(gè)少數(shù)類近鄰中的隨機(jī)樣本,利用SMOTE算法形成“人造”少數(shù)類樣本Xnew公式如下
Xnew=Xj+random(0,1)·(X′-Xj)
(1)
式中,Xnew表示分布于X′與Xj間的人造樣本,該人造樣本的分布范圍可擴(kuò)大至n維球體。人造樣本分布范圍越廣表示樣本分布越均勻,此時(shí)樣本與實(shí)際數(shù)據(jù)更為接近,算法可行。
ISMOTE算法的中心為少數(shù)類樣本,將少數(shù)類樣本至最近鄰少數(shù)類樣本的歐式距離作為n維球體半徑,利用所形成虛擬的少數(shù)類樣本改善不平衡數(shù)據(jù)集內(nèi)數(shù)據(jù)不均勻分布情況。
用N表示樣本屬性數(shù)量,樣本Xj的數(shù)量為N的屬性值,用xj1,xj2,…,xjN表示,此時(shí)X′=(x′1,x′2,…,x′N),Xnew=(xnew1,xnew2,…,xnewN)。
ISMOTE算法的虛擬樣本Xnewi通過X′與Xj形成。令所形成虛擬樣本Xnewi分布于n維球體內(nèi),該球體半徑為|Xj-X′|,需符合公式如下
(2)
xnewi=xji+random(0,1)·(bi-ai)1≤i≤N
(3)
(4)
少數(shù)類樣本的最近鄰可能為多數(shù)類樣本以及少數(shù)類樣本,最近鄰為少數(shù)類樣本時(shí),依據(jù)最近鄰思想可知,所形成虛擬樣本屬于少數(shù)類的概率較高[9],限制少數(shù)類樣本最近鄰可提升所形成虛擬少數(shù)類樣本的質(zhì)量。
2.2.1 ε-SVM
支持向量機(jī)包括非線性可分、線性可分以及核函數(shù)映射三種情況。用S=(xi,yi)表示訓(xùn)練樣本,i=1,2,…,l。xi與yi分別表示支持向量機(jī)的輸入特征與類別標(biāo)簽,l表示訓(xùn)練樣本數(shù)量。
非線性劃分的分類利用二分類目標(biāo)核函數(shù)支持向量機(jī)實(shí)現(xiàn),在支持向量機(jī)分類器中加入不敏感損失函數(shù)ε,即ε-SVM算法,其公式如下
T(y,f(x,a))=T(|y-f(x,a)|ε)
(5)
設(shè)給定待分類數(shù)據(jù)集為S={(x1,y1),(x2,y2),…,(xl,yl)},則估計(jì)回歸函數(shù)的線性函數(shù)集合公式如下
f(xi)=μ·φ(xi)+b
(6)
式中,μ與b分別表示回歸系數(shù)與閾值;φ(xi)表示輸入空間至特征空間的映射函數(shù)。
2.2.2 混合核函數(shù)
通過組合單個(gè)核函數(shù)建立新的核函數(shù)即為混合核函數(shù),建立混合核函數(shù)時(shí)需充分考慮全局核函數(shù)以及局部核函數(shù)特性,充分發(fā)揮全局核函數(shù)以及局部核函數(shù)特性的優(yōu)勢(shì)。RBF核函數(shù)以及Polynomial核函數(shù)分別具有較強(qiáng)的局部性以及全局性質(zhì)[10],組合以上兩種核函數(shù),令所獲取混合核函數(shù)具有較強(qiáng)的推廣性能與學(xué)習(xí)能力,混合核函數(shù)組合過程如下:
Polynomial核函數(shù)公式如下
(7)
RBF核函數(shù)公式如下
(8)
根據(jù)式(7)和式(8)可得混合核函數(shù)公式如下
k(x,x′)=δkPoly(x,x′)+(1-δ)kRBF(x,x′)
(9)
式中,δ表示混合核函數(shù)中單個(gè)核函數(shù)所占比例,0<δ<1。
Mercer函數(shù)約束條件公式如下
(10)
將k(x,x′)代入式(10)中,當(dāng)計(jì)算結(jié)果滿足Mercer核函數(shù)約束條件時(shí),表示所構(gòu)造混合核函數(shù)成立。
將所構(gòu)建混合核函數(shù)應(yīng)用于ε-SVM中,獲取具有較強(qiáng)泛化能力與學(xué)習(xí)能力的混合核ε-SVM分類器。
2.2.3 構(gòu)建數(shù)學(xué)模型
利用ISMOTE算法生成新樣本的方式可均衡化處理不均衡數(shù)據(jù)集,通過新增樣本擴(kuò)充樣本集合時(shí),原樣本分布的外圍輪廓特征無法改變,分類問題對(duì)分類邊界的影響程度較小。
面向不均衡數(shù)據(jù)集的混合核ε-SVM優(yōu)化的過抽樣數(shù)學(xué)模型結(jié)構(gòu)圖如圖1所示。
圖1 過抽樣數(shù)學(xué)模型
采用混合核ε-SVM分類器訓(xùn)練樣本時(shí),所建立的超平面過于偏向少數(shù)類,將影響不均衡數(shù)據(jù)集分類效果[11]。混合核ε-SVM分類器訓(xùn)練樣本過程中,添加正懲罰系數(shù)C+與負(fù)懲罰系數(shù)C-,并利用熵值法優(yōu)化混合核ε-SVM分類器,提升不均衡數(shù)據(jù)集過抽樣的均衡性。
通過賦予不同懲罰系數(shù)于多數(shù)類樣本以及少數(shù)類樣本中,實(shí)現(xiàn)誤差代價(jià)的良好調(diào)節(jié),獲取理想分類效果。
加入懲罰函數(shù)后混合核ε-SVM的約束化問題公式如下:
(11)
采用熵值法確定ε-SVM分類器的正負(fù)懲罰系數(shù),該方法充分考慮少數(shù)類樣本以及多數(shù)類樣本的離散程度,通過離散程度確定懲罰系數(shù),是較為有效的賦值方法,該方法可有效避免主觀人為因素干擾[12],令所獲取懲罰系數(shù)具有更高價(jià)值。
(12)
包含m個(gè)子類的多數(shù)類負(fù)類樣本S-的熵值公式如下
(13)
可得正類樣本S+的差異性系數(shù)公式如下
(14)
可得負(fù)類樣本S-的差異性系數(shù)公式如下:
(15)
設(shè)C+=C,可得公式如下:
(16)
通過以上優(yōu)化過程有效提升過抽樣算法面向不均衡數(shù)據(jù)集的分類性能,令完成優(yōu)化的混合核ε-SVM分類器與ISMOTE算法良好結(jié)合,實(shí)現(xiàn)最終過抽樣數(shù)學(xué)模型的良好分類。
為驗(yàn)證所構(gòu)建面向不均衡數(shù)據(jù)集的過抽樣數(shù)學(xué)模型對(duì)于不均衡數(shù)據(jù)集內(nèi)樣本的分類性能,選取UCI數(shù)據(jù)集進(jìn)行模型測(cè)試,測(cè)試數(shù)據(jù)集具體描述如表1所示。
表1 測(cè)試數(shù)據(jù)集描述
選取XGBoost模型(參考文獻(xiàn)[6])以及多決策樹模型(參考文獻(xiàn)[7])作為對(duì)比模型,將本文模型與另兩種模型對(duì)比,驗(yàn)證本文所構(gòu)建數(shù)學(xué)模型的分類性能。
所構(gòu)建數(shù)學(xué)模型的主要目的是提升不均衡數(shù)據(jù)集內(nèi)少數(shù)類樣本的分類性能。為驗(yàn)證所構(gòu)建數(shù)學(xué)模型的分類性能,將多數(shù)類以及少數(shù)類樣本分別稱為負(fù)類以及正類,建立多數(shù)類與少數(shù)類兩類數(shù)據(jù)集的混合矩陣如表2所示。
表2 分類問題混合矩陣
不均衡數(shù)據(jù)集樣本分類結(jié)果的查全率與查準(zhǔn)率公式如下:
Re call=TP/(TP+FN)
(17)
Pr ecision=TP/(TP+FP)
(18)
統(tǒng)計(jì)采用三種模型對(duì)于不同數(shù)據(jù)集分類的查全率以及查準(zhǔn)率,統(tǒng)計(jì)結(jié)果如圖2以及圖3所示。
圖2 查全率對(duì)比結(jié)果
圖3 查準(zhǔn)率對(duì)比結(jié)果
從圖2與圖3中的實(shí)驗(yàn)結(jié)果可以看出,本文模型對(duì)于不同數(shù)據(jù)集均具有較高的查全率以及查準(zhǔn)率。本文模型分類不同數(shù)據(jù)集的查全率以及查準(zhǔn)率均高于96%,說明本文模型可有效提升不均衡數(shù)據(jù)集內(nèi)少數(shù)類樣本的分類性能,分類性能較高。
少數(shù)類樣本的F-Value值是評(píng)價(jià)不均衡數(shù)據(jù)集分類性能的重要評(píng)價(jià)準(zhǔn)則,該評(píng)價(jià)指標(biāo)是查全率Recall與查準(zhǔn)率Precision的重要組合,設(shè)置系數(shù)β值為1。不均衡數(shù)據(jù)集所分類少數(shù)類樣本的查準(zhǔn)率以及查全率均較高時(shí),所獲取少數(shù)類樣本的F-Value值較高。將少數(shù)類樣本的F-Value值應(yīng)用于不均衡數(shù)據(jù)集內(nèi)少數(shù)類分類性能評(píng)價(jià)中,具有較高應(yīng)用價(jià)值,其公式如下:
(19)
設(shè)置面向不均衡數(shù)據(jù)集情況下每次迭代過程中“過抽樣種子”的擴(kuò)充倍數(shù)作為橫坐標(biāo),即原始數(shù)據(jù)集內(nèi)少數(shù)類樣本的擴(kuò)充倍數(shù)。采用三種模型分類數(shù)據(jù)集在不同擴(kuò)充倍數(shù)情況下少數(shù)類的F-Value值如圖4所示。
圖4 F-Value值對(duì)比結(jié)果
圖4實(shí)驗(yàn)結(jié)果可以看出,不同擴(kuò)充倍數(shù)下本文模型的F-Value值明顯高于另兩種模型。本文模型在不同擴(kuò)充倍數(shù)情況下對(duì)于少數(shù)類樣本分類的F-Value值均高于0.8;另兩種模型在不同擴(kuò)充倍數(shù)下對(duì)于少數(shù)類樣本分類的F-Value值均低于0.8,有效驗(yàn)證本文模型具有較好的少數(shù)類分類性能。
利用幾何均值G-mean作為評(píng)價(jià)不均衡數(shù)據(jù)集分類的重要評(píng)價(jià)指標(biāo),其公式如下
(20)
幾何均值G-mean是多數(shù)類與少數(shù)類精確度乘積的平方根,可知幾何均值G-mean與不均衡樣本集內(nèi)多數(shù)類與少數(shù)類樣本分類精度存在直接關(guān)聯(lián),多數(shù)類樣本與少數(shù)類樣本分類精度同樣較高時(shí),所獲取不均衡數(shù)據(jù)集的幾何均值G-mean結(jié)果較高。統(tǒng)計(jì)不同模型在不同擴(kuò)充倍數(shù)情況下的幾何均值G-mean,對(duì)比結(jié)果如圖5所示。
圖5 幾何均值G-mean對(duì)比
圖5實(shí)驗(yàn)結(jié)果再次驗(yàn)證所構(gòu)建模型對(duì)于少數(shù)類樣本具有較高的分類有效性。本文模型在分類少數(shù)類樣本下,面對(duì)過抽樣情況,擴(kuò)充倍數(shù)有所提升時(shí),仍具有較高的少數(shù)類樣本分類性能。本文模型可有效提升整體不均衡數(shù)據(jù)集的分類性能,不僅可提升不均衡數(shù)據(jù)集少數(shù)類樣本的分類性能,對(duì)于整體樣本的分類性能同樣具有較高的分類性能。
不均衡數(shù)據(jù)集少數(shù)類樣本的分類問題是機(jī)器學(xué)習(xí)領(lǐng)域的重要研究方向。構(gòu)建面向不均衡數(shù)據(jù)集的過抽樣數(shù)學(xué)模型,有效提升少數(shù)類樣本分類性能。通過實(shí)驗(yàn)驗(yàn)證,采用該模型可有效分類不均衡數(shù)據(jù)集中少數(shù)類樣本信息,均衡訓(xùn)練樣本間數(shù)據(jù)。不均衡數(shù)據(jù)集實(shí)際應(yīng)用中,較容易收集多數(shù)類樣本,將該模型應(yīng)用于不均衡數(shù)據(jù)集少數(shù)類樣本分類中具有較強(qiáng)的應(yīng)用價(jià)值。