基于類重疊度欠采樣的不平衡模糊多類支持向量機(jī)*

2018-09-10 11:14:46吳園園申立勇

中國(guó)科學(xué)院大學(xué)學(xué)報(bào) 2018年4期

吳園園，申立勇

(中國(guó)科學(xué)院大學(xué)數(shù)學(xué)科學(xué)學(xué)院，北京 100049) (2017年5月2日收稿； 2017年6月2日收修改稿)

支持向量機(jī)作為一個(gè)經(jīng)典的分類方法，在20世紀(jì)90年代中期由Cortes和Vapnik[1]在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上提出。支持向量機(jī)具有很強(qiáng)的泛化能力，能較好地解決局部極小、過(guò)學(xué)習(xí)和維數(shù)災(zāi)難等傳統(tǒng)機(jī)器學(xué)習(xí)方法中存在的問(wèn)題[2]。盡管在很多方面，支持向量機(jī)都具有其他學(xué)習(xí)方法不可比擬的優(yōu)勢(shì)，但是它也存在局限性，例如抗躁性差[3]、對(duì)不平衡數(shù)據(jù)分類敏感[4]等。傳統(tǒng)支持向量機(jī)等同地對(duì)待所有訓(xùn)練樣本點(diǎn)，并賦予它們相同的權(quán)值，但是真實(shí)數(shù)據(jù)中經(jīng)常含有噪點(diǎn)，不同的訓(xùn)練樣本點(diǎn)對(duì)分類面的作用也是不同的，如若不將重要訓(xùn)練樣本與噪點(diǎn)區(qū)分開(kāi)來(lái)，則最終得到的分類面也往往不是真正的最優(yōu)分類面，出現(xiàn)“過(guò)學(xué)習(xí)”現(xiàn)象。針對(duì)這種情況，研究者提出模糊支持向量機(jī)(FSVM)[5-7]，根據(jù)不同訓(xùn)練樣本對(duì)分類面的作用，賦予其不同的模糊隸屬度(即權(quán)值)，分配給重要樣本更大的隸屬度值，分配給噪點(diǎn)很小的隸屬度值，以減少它們對(duì)分類結(jié)果的影響，增加算法的抗噪能力。

雖然模糊支持向量機(jī)降低了噪點(diǎn)對(duì)分類結(jié)果的影響，很好地提高了分類器的性能，但其對(duì)于不平衡數(shù)據(jù)分類問(wèn)題依然敏感。當(dāng)數(shù)據(jù)不平衡時(shí)，支持向量機(jī)的分類效果不佳，容易將絕大多數(shù)的少數(shù)類分類為多數(shù)類，導(dǎo)致少數(shù)類的分類精度很低。然而，在許多實(shí)際應(yīng)用中，相比于多數(shù)類，少數(shù)類提供的信息往往更加重要，比如在醫(yī)療檢測(cè)，如果將一個(gè)病人檢測(cè)為健康人，從而耽誤了病人的就醫(yī)時(shí)間，則會(huì)導(dǎo)致非常嚴(yán)重的后果。因此，少數(shù)類的分類精度低是很不理想的結(jié)果。為解決這一問(wèn)題，國(guó)內(nèi)外學(xué)者進(jìn)行了大量研究。其中，欠采樣[8]就是一種解決不平衡數(shù)據(jù)分類問(wèn)題的有效方法。然而，常用的隨機(jī)欠采樣方法由于其自身的隨機(jī)性和盲目性，容易造成重要樣本信息的丟失，影響分類效果，且分類穩(wěn)定性較差。

針對(duì)支持向量機(jī)在不平衡數(shù)據(jù)集上分類效果不理想和算法容易受訓(xùn)練數(shù)據(jù)集中的噪聲影響等問(wèn)題，本文提出一種基于類重疊度欠采樣的不平衡模糊多類支持向量機(jī)。首先通過(guò)LOF局部離群點(diǎn)因子[9]和箱線圖[10]的方法刪除訓(xùn)練數(shù)據(jù)集中的噪聲樣本，然后設(shè)置合適的采樣數(shù)目，根據(jù)改進(jìn)的類重疊度對(duì)去除噪聲樣本后的數(shù)據(jù)集欠采樣，抽取對(duì)分類起關(guān)鍵作用的支持向量，最大限度地維持原有的數(shù)據(jù)分布信息，并且降低數(shù)據(jù)集的不平衡比例，最后將代表每個(gè)樣本點(diǎn)重要程度的類重疊度作為隸屬度值，構(gòu)造模糊多類支持向量機(jī)。實(shí)驗(yàn)結(jié)果表明，該算法能夠在保證良好的分類精度的同時(shí)，縮減運(yùn)行時(shí)間，且其克服了隨機(jī)欠采樣方法容易丟失重要樣本信息和分類結(jié)果不穩(wěn)定的缺點(diǎn)。

1 基于重采樣的不平衡數(shù)據(jù)學(xué)習(xí)方法

目前，針對(duì)不平衡數(shù)據(jù)分類的方法可以分為數(shù)據(jù)、算法兩個(gè)層面。算法層面主要是對(duì)已有算法進(jìn)行改進(jìn)，提升算法對(duì)少數(shù)類的準(zhǔn)確識(shí)別率，如集成學(xué)習(xí)方法、代價(jià)敏感算法等。數(shù)據(jù)層面主要是通過(guò)重采樣技術(shù)，重新構(gòu)造訓(xùn)練數(shù)據(jù)集，從而降低數(shù)據(jù)集的不平衡度。

重采樣技術(shù)主要分為過(guò)采樣技術(shù)和欠采樣技術(shù)。過(guò)采樣技術(shù)通過(guò)一定的方法增加少數(shù)類的樣本數(shù)目，其中比較常用的是隨機(jī)過(guò)采樣方法和SMOTE方法[11]。由于新添許多樣本，過(guò)采樣技術(shù)容易造成數(shù)據(jù)冗余和分類器過(guò)擬合的現(xiàn)象。欠采樣技術(shù)采用某種規(guī)則舍棄部分多數(shù)類樣本，使得多數(shù)類樣本數(shù)目趨近于少數(shù)類樣本數(shù)目。最常用的方法是隨機(jī)欠采樣[12]及其改進(jìn)的欠采樣方法，如Kubat和Matwin[13]的單邊選擇方法，謝紀(jì)剛和裘正定[14]提出的加權(quán)Fisher線性判別方法。欠樣技術(shù)由于刪除了部分多數(shù)類樣本，可能導(dǎo)致分類時(shí)數(shù)據(jù)信息的缺失，從而對(duì)分類結(jié)果造成一定的影響。

數(shù)據(jù)重采樣技術(shù)的關(guān)鍵在于采用什么樣的采樣方法，能夠最大限度地保留原數(shù)據(jù)集的分布信息，得到具有代表性、對(duì)分類起關(guān)鍵作用的樣本集。本文提出一種基于類重疊度的欠采樣技術(shù)，抽取對(duì)分類起決定性作用的支持向量，較好地維持了原有的數(shù)據(jù)分布，在保證良好的分類精度的基礎(chǔ)上，減小算法的運(yùn)行時(shí)間。

2 基于LOF去噪和類重疊度欠采樣的非平衡數(shù)據(jù)預(yù)處理算法

2.1 算法思想

在支持向量機(jī)的分類中，并不是所有的樣本都起著相同的作用，支持向量機(jī)算法的最終分類精度是由樣本集中的支持向量決定的。支持向量在整個(gè)訓(xùn)練樣本集中所占的比例非常小，在支持向量機(jī)的訓(xùn)練過(guò)程中，花費(fèi)大量的時(shí)間去訓(xùn)練非支持向量的樣本，將大大增加算法的運(yùn)行成本。鑒于支持向量機(jī)最終是由支持向量決定的，在數(shù)據(jù)預(yù)處理的過(guò)程中，從訓(xùn)練樣本集中抽取出支持向量，刪除非支持向量的樣本，對(duì)最終的算法模型并不會(huì)造成影響，如此可以從樣本集中刪除大量的無(wú)用樣本，只余重要樣本，提高算法運(yùn)行效率的同時(shí)，降低訓(xùn)練數(shù)據(jù)集的不平衡比例。

由于支持向量機(jī)模型的以上特點(diǎn)，且支持向量分布在分類決策面附近，即各類的類重疊區(qū)域，類重疊度越高的訓(xùn)練樣本，成為支持向量的可能性越大，本節(jié)通過(guò)對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行預(yù)處理，采用LOF和箱線圖的方法首先去除數(shù)據(jù)集中的噪聲樣本，然后基于類重疊度的思想，選擇性地對(duì)訓(xùn)練樣本集進(jìn)行欠采樣，保留對(duì)分類起決定性作用的支持向量，刪除對(duì)分類沒(méi)有作用的非支持向量的樣本。具體為：計(jì)算每個(gè)訓(xùn)練樣本的類重疊度，并將訓(xùn)練樣本集根據(jù)類重疊度從大到小的順序排列，設(shè)置抽取的樣本數(shù)，抽取類重疊度大的部分樣本集作為新的訓(xùn)練樣本集。較之于原數(shù)據(jù)集，新的訓(xùn)練數(shù)據(jù)集在數(shù)據(jù)規(guī)模上大大減小，且數(shù)據(jù)集的不平衡比例也有所降低。

2.2 基于LOF和箱線圖的去噪方法

支持向量機(jī)在訓(xùn)練過(guò)程中平等地對(duì)待所有訓(xùn)練樣本，算法很容易受到噪聲樣本的干擾，使得分類結(jié)果產(chǎn)生偏差。在不平衡數(shù)據(jù)分類中，雖然在數(shù)據(jù)預(yù)處理的過(guò)程中，對(duì)數(shù)據(jù)集欠采樣能夠抑制不平衡數(shù)據(jù)對(duì)分類的影響，但支持向量機(jī)仍然會(huì)受到噪聲樣本的干擾。所以，在對(duì)不平衡數(shù)據(jù)集欠采樣處理前，首先應(yīng)該去除數(shù)據(jù)集中的噪聲樣本。本節(jié)采用LOF局部離群點(diǎn)因子[9]和箱線圖[10]去除噪聲樣本。

LOF局部離群點(diǎn)因子表示數(shù)據(jù)對(duì)象的離群程度，數(shù)據(jù)對(duì)象的LOF局部離群點(diǎn)因子越大，則該數(shù)據(jù)對(duì)象的離群程度越高，越有可能是噪聲樣本。基于此思想，可以計(jì)算出每個(gè)訓(xùn)練樣本點(diǎn)的局部離群點(diǎn)因子LOF，然后采用箱線圖的方法，剔除訓(xùn)練數(shù)據(jù)集中LOF過(guò)大的一些樣本。

箱線圖方法中，超過(guò)內(nèi)欄的值被認(rèn)為是潛在的異常值，代表相對(duì)稀有的樣本點(diǎn)。為了去除數(shù)據(jù)集中的噪聲樣本，結(jié)合局部離群點(diǎn)因子LOF的特性，通過(guò)對(duì)訓(xùn)練數(shù)據(jù)集的局部離群點(diǎn)因子作箱線圖，剔除離群點(diǎn)因子超過(guò)箱線圖的上內(nèi)欄的部分樣本集，這些樣本的離群點(diǎn)因子過(guò)大，是噪聲樣本的可能性很大。

綜上，本節(jié)提出一種基于LOF和箱線圖的去噪算法，算法如表1所示。

表1 基于LOF和箱線圖的去噪算法

2.3 基于LOF去噪和類重疊度欠采樣的非平衡數(shù)據(jù)預(yù)處理算法

欠采樣方法容易刪除重要的數(shù)據(jù)樣本，造成分類結(jié)果的偏差，而對(duì)于支持向量機(jī)而言，其最終的分類精度是由訓(xùn)練數(shù)據(jù)集中的支持向量決定的，所以如何抽取訓(xùn)練數(shù)據(jù)集中的支持向量是基于支持向量機(jī)的欠采樣方法的關(guān)鍵。支持向量分布在分類決策面附近，即各類的類重疊區(qū)域，類重疊度越高的訓(xùn)練樣本，成為支持向量的可能性越大，它的重要程度也越高?；诖耍疚母鶕?jù)各訓(xùn)練樣本點(diǎn)的類重疊度，選擇性地對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行欠采樣，保留對(duì)分類起決定性作用的支持向量，刪除對(duì)分類沒(méi)有作用的訓(xùn)練樣本。

文獻(xiàn)[15]定義類(Cp,Cq)在數(shù)據(jù)點(diǎn)xi處的重疊度：

(1)

圖1 類重疊度圖Fig.1 Class overlap

基于上述觀察，本文改進(jìn)類重疊度公式為

(2)

對(duì)于多分類的情況，定義每個(gè)訓(xùn)練樣本點(diǎn)的類重疊度為該點(diǎn)所屬類分別與其他各類在該點(diǎn)的類重疊度的均值。假設(shè)訓(xùn)練樣本有k個(gè)類，分別是C1,C2,…,Ck，樣本點(diǎn)xi屬于其中一個(gè)類Cp，定義xi的k類重疊度為xi的所屬類Cp分別與其他各類在xi處的二類重疊度的均值，即

(3)

然而，式(3)仍存在一定局限性，如圖2所示，A點(diǎn)屬于類Cp，用紅色的三角形表示，B點(diǎn)屬于類Cq，用綠色的三角形表示，它們都處于兩類的重疊區(qū)域中，且它們與兩類的類中心距離分別相等。如果按照式(3)計(jì)算，類Cp和類Cq在A點(diǎn)和B點(diǎn)的類重疊度相等。但是由圖2可以看出：A點(diǎn)的10個(gè)最近鄰點(diǎn)中有5個(gè)屬于自己類，另5個(gè)屬于類Cq；B點(diǎn)的10個(gè)最近鄰點(diǎn)中卻有7個(gè)都是屬于自己類，只有3個(gè)屬于類Cp，容易得到類Cp和類Cq在A點(diǎn)的類重疊度應(yīng)比B點(diǎn)更大。由此，啟發(fā)我們可以用訓(xùn)練樣本點(diǎn)的K個(gè)近鄰樣本中異類樣本所占的比例來(lái)反映該點(diǎn)的類重疊度。所以，對(duì)于k類分類，進(jìn)一步改進(jìn)類重疊度公式為

(4)

式中：K表示K個(gè)近鄰樣本點(diǎn)；Ki表示第i個(gè)樣本點(diǎn)的K個(gè)近鄰樣本中異類樣本數(shù)。

圖2 不同點(diǎn)的類重疊度Fig.2 Class overlap for different points

綜上，本節(jié)基于LOF去噪和類重疊度欠采樣的非平衡數(shù)據(jù)預(yù)處理的算法，具體描述如表2所示。

表2 基于LOF去噪和類重疊度欠采樣的非平衡數(shù)據(jù)預(yù)處理算法

3 基于類重疊度欠采樣的不平衡模糊多類支持向量機(jī)

傳統(tǒng)的支持向量機(jī)等同地對(duì)待所有的訓(xùn)練樣本點(diǎn)，對(duì)所有錯(cuò)分的訓(xùn)練樣本點(diǎn)分配相同的權(quán)重。然而，在實(shí)際應(yīng)用中，數(shù)據(jù)集中的不同樣本點(diǎn)對(duì)分類產(chǎn)生的作用是不同的，因此一個(gè)合理的做法是根據(jù)各訓(xùn)練樣本點(diǎn)的重要性，為每個(gè)訓(xùn)練樣本點(diǎn)分配不同的權(quán)值。第2節(jié)提出的基于LOF去噪和類重疊度欠采樣的預(yù)處理算法，可以有效地刪除噪聲樣本和冗余樣本，保留支持向量，數(shù)據(jù)集的不平衡比例也明顯降低。預(yù)處理過(guò)后的數(shù)據(jù)集中每個(gè)樣本點(diǎn)的類重疊度代表著該樣本點(diǎn)的重要程度，以相應(yīng)的類重疊度作為隸屬度值，構(gòu)造模糊多類支持向量機(jī)。

對(duì)于k類分類，給定一個(gè)帶有類別標(biāo)記以及模糊隸屬度的訓(xùn)練樣本集S={(xi,yi,ui),i=1,2,…,N}。式中：xi∈Rn是訓(xùn)練樣本集；yi∈{1,2,…,k}是對(duì)應(yīng)的類別標(biāo)記；ui=μk(xi)為第i個(gè)樣本的改進(jìn)后的類重疊度，見(jiàn)公式(4)。則基于LOF去噪和類重疊度欠采樣的不平衡模糊多類支持向量機(jī)模型如下(以Crammer-Singers直接多分類算法[16]為基礎(chǔ)模型)

(5)

subject to

εi≥0,(i=1,…,N)

wi∈Rn+1,(i=1,…,k).

式中：λ>0是一個(gè)調(diào)節(jié)因子，類似于標(biāo)準(zhǔn)支持向量機(jī)中的參數(shù)C；ε=[ε1,ε2,…,εN]表示松弛變量。

由式(5)可以看出，每個(gè)樣本點(diǎn)xi的錯(cuò)分代價(jià)為uiεi，模糊隸屬度ui越小，則損失參數(shù)εi對(duì)目標(biāo)函數(shù)值的影響越小，所對(duì)應(yīng)的樣本點(diǎn)xi越不重要。

綜上，基于LOF去噪和類重疊度欠采樣的不平衡模糊多類支持向量機(jī)的具體算法描述，如表3所示。

表3 基于LOF去噪和類重疊度欠采樣的不平衡模糊多類支持向量機(jī)算法

4 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證本文方法的有效性和普適性，本節(jié)實(shí)驗(yàn)由模擬數(shù)據(jù)實(shí)驗(yàn)和實(shí)際數(shù)據(jù)實(shí)驗(yàn)兩部分組成。實(shí)驗(yàn)在2.4 GHz/8 GB的PC主機(jī)上利用Matlab R2015軟件實(shí)現(xiàn)，所有數(shù)值實(shí)驗(yàn)以Crammer-Singers直接多分類支持向量機(jī)作為基礎(chǔ)模型。

4.1 模擬數(shù)據(jù)實(shí)驗(yàn)

為了驗(yàn)證基于LOF去噪和類重疊度欠采樣的不平衡數(shù)據(jù)預(yù)處理算法的有效性，本節(jié)將在一個(gè)不平衡的模擬數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，并根據(jù)模擬實(shí)驗(yàn)結(jié)果，分析上述預(yù)處理算法的有效性。

隨機(jī)生成3類正態(tài)分布的數(shù)據(jù)集，其中類1為均值為[2,2]，方差為[0.2,0;0,0.3]的樣本集，共50個(gè)樣本點(diǎn)；類2為均值為[3.5,2]，方差為[0.3,0;0,0.4]的樣本集，共100個(gè)樣本點(diǎn)；類3為均值為[2.8,3.8]，方差為[0.4,0;0,0.5]的樣本集，共200個(gè)樣本點(diǎn)。為了驗(yàn)證提出的預(yù)處理算法的去噪能力以及更符合實(shí)際應(yīng)用情況，在[0,5]×[0,6]范圍內(nèi)隨機(jī)產(chǎn)生50個(gè)噪聲樣本。加上噪聲樣本，總的模擬數(shù)據(jù)集共400個(gè)樣本。設(shè)置預(yù)抽取的樣本數(shù)為200。

對(duì)以上含噪聲的模擬數(shù)據(jù)，進(jìn)行基于LOF去噪和類重疊度欠采樣的不平衡數(shù)據(jù)預(yù)處理，結(jié)果如圖3所示。為方便區(qū)別，在下面所有圖中，類1中的樣本由“*”表示，類2中的樣本由“+”表示，類3中的樣本由“o”表示，噪聲樣本由“Δ”表示。

圖3為上述非平衡數(shù)據(jù)預(yù)處理算法在加噪后的3類正態(tài)分布的數(shù)據(jù)集上的分段處理效果圖。圖3(a)顯示原有的正態(tài)分布的數(shù)據(jù)集，共350個(gè)樣本點(diǎn)。圖3(b)是在原有數(shù)據(jù)集中增加50個(gè)噪聲樣本后的數(shù)據(jù)集分布，可以看出，增加噪聲樣本后的數(shù)據(jù)集的分布比較復(fù)雜，如果直接以這樣的數(shù)據(jù)集進(jìn)行分類，將嚴(yán)重影響分類結(jié)果。圖3(c)是經(jīng)過(guò)LOF和箱線圖去除噪聲樣本后的數(shù)據(jù)集，剔除42個(gè)噪聲樣本，剩余358個(gè)樣本點(diǎn)，由圖可以看出，經(jīng)過(guò)去噪后的數(shù)據(jù)集，噪聲樣本明顯減少，數(shù)據(jù)集分布較為明晰。圖3(d)是在去噪后的數(shù)據(jù)集中基于類重疊度由大到小的順序抽取的200個(gè)數(shù)據(jù)集，即預(yù)處理過(guò)后的數(shù)據(jù)集，由圖可以看出，樣本數(shù)量明顯減少，但是縮減過(guò)后的數(shù)據(jù)集依然較好地保留了原有的數(shù)據(jù)分布，尤其在分類決策面附近對(duì)分類起著關(guān)鍵作用的支持向量得到了比較好的保留，且數(shù)據(jù)集的不平衡比例經(jīng)過(guò)欠采樣后也明顯地降低，由1∶2∶4降低至1∶2.30∶2.76，剔除了多數(shù)類中的大量冗余樣本。

圖3 非平衡數(shù)據(jù)預(yù)處理算法的模擬實(shí)驗(yàn)結(jié)果Fig.3 Simulation results of imbalanced data preprocessing algorithm

4.2 實(shí)際數(shù)據(jù)實(shí)驗(yàn)

1)評(píng)價(jià)準(zhǔn)則

對(duì)于不平衡數(shù)據(jù)分類問(wèn)題，常用的評(píng)價(jià)指標(biāo)有AvgAcc，G-mean[17]等。假設(shè)k類分類，Acci表示第i類的分類精度，則AvgAcc是各類分類精度的算術(shù)平均值，G-mean是各類分類精度的幾何平均值，計(jì)算方法如下：

2)實(shí)驗(yàn)數(shù)據(jù)

本次實(shí)驗(yàn)選用UCI數(shù)據(jù)庫(kù)中4個(gè)UCI數(shù)據(jù)集，數(shù)據(jù)集具體參數(shù)見(jiàn)表4，其中不平衡率為各類別的樣本數(shù)量與最小類的樣本數(shù)量的不平衡比例。

實(shí)驗(yàn)中，除User數(shù)據(jù)集自帶訓(xùn)練集和測(cè)試集，其他每個(gè)數(shù)據(jù)采用5折交叉檢驗(yàn)，并取5次結(jié)果的均值作為最終結(jié)果。由于Ecoli和Glass數(shù)據(jù)集中某些類的樣本數(shù)量較少，并不適用于5折交叉檢驗(yàn)，所以實(shí)驗(yàn)將Ecoli中原樣本數(shù)量分別為

表4 UCI數(shù)據(jù)集及相關(guān)屬性

2,2,5,20的4類合并為一類，將Glass中原樣本數(shù)量分別為9,13,17的3類合并為一類。

3)實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)結(jié)果如表5、表6所示，表5顯示算法中每個(gè)數(shù)據(jù)集的實(shí)際樣本數(shù)和算法預(yù)抽取的樣本數(shù)，表6列出各方法在不平衡數(shù)據(jù)集上分類精度和運(yùn)行時(shí)間的比較結(jié)果。其中，CMSVMsuiji表示隨機(jī)欠采樣的支持向量機(jī)。

表5 實(shí)驗(yàn)中各數(shù)據(jù)集抽取樣本數(shù)

表5顯示，抽取的樣本集只占原數(shù)據(jù)集的一小部分。由表6的實(shí)驗(yàn)結(jié)果可以看出，就運(yùn)行時(shí)間而言，由于訓(xùn)練樣本數(shù)的減少，本文算法和隨機(jī)欠采樣支持向量機(jī)在運(yùn)行時(shí)間上要小于其他算法。此外，因?yàn)楸疚乃惴ㄐ枰?jì)算每個(gè)樣本點(diǎn)的LOF局部離群點(diǎn)因子和類重疊度，所以在運(yùn)行時(shí)間上會(huì)略高于隨機(jī)欠采樣的支持向量機(jī)。比如在Balance數(shù)據(jù)集上，本文方法運(yùn)行時(shí)間是105 s，隨機(jī)欠采樣的支持向量機(jī)的運(yùn)行時(shí)間是42 s,但其他方法的最少運(yùn)行時(shí)間是112 s，本文方法的運(yùn)行時(shí)間要高于隨機(jī)欠采樣的支持向量機(jī)的運(yùn)行時(shí)間，但要低于其他方法的運(yùn)行時(shí)間。就分類精度而言，除在Glass數(shù)據(jù)集上，本文算法的精度以微小的差距低于一些算法，其他數(shù)據(jù)集上，本文算法的分類精度均要優(yōu)于其他算法。如在Balance數(shù)據(jù)集中，就AvgAcc評(píng)價(jià)準(zhǔn)則，本文方法的分類精度為0.87，其他方法的最高分類精度為0.85，本文方法要高于其他方法，就G-mean評(píng)價(jià)準(zhǔn)則，本文方法的分類精度為0.85，其他方法的最高分類精度為0.72，本文方法要高于其他方法。就實(shí)驗(yàn)結(jié)果的穩(wěn)定性而言，同樣是抽取相同數(shù)目的訓(xùn)練樣本，本文算法是根據(jù)訓(xùn)練數(shù)據(jù)集的類重疊度由大至小抽取樣本集，實(shí)驗(yàn)結(jié)果是固定的，然而對(duì)于隨機(jī)欠采樣的支持向量機(jī)，由于每次隨機(jī)采樣的訓(xùn)練樣本集可能不同，實(shí)驗(yàn)結(jié)果也不穩(wěn)定。綜上，對(duì)于相同的數(shù)據(jù)集，本文提出的算法在運(yùn)行時(shí)間上僅次于隨機(jī)欠采樣支持向量機(jī)；在分類精度上要高于其他算法；而且本文算法還克服了隨機(jī)欠采樣的支持向量機(jī)的實(shí)驗(yàn)結(jié)果不穩(wěn)定的缺點(diǎn)。

表6 實(shí)驗(yàn)結(jié)果

5 結(jié)論

針對(duì)支持向量機(jī)在不平衡數(shù)據(jù)集上分類效果并不理想且對(duì)噪聲數(shù)據(jù)敏感的問(wèn)題，本文提出基于類重疊度欠采樣的不平衡模糊多類支持向量機(jī)算法，首先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理，采用LOF局部離群點(diǎn)因子和箱線圖結(jié)合的方法刪除訓(xùn)練數(shù)據(jù)集中的噪聲樣本，然后設(shè)置合適的采樣數(shù)目，根據(jù)類重疊度抽取對(duì)分類起關(guān)鍵作用的支持向量。預(yù)處理過(guò)后的數(shù)據(jù)集最大限度地維持了原有的數(shù)據(jù)分布信息，并且降低了原數(shù)據(jù)集的不平衡比例。算法最后將代表每個(gè)樣本點(diǎn)的重要程度的類重疊度作為隸屬度值，構(gòu)造模糊多類支持向量機(jī)。由于算法是基于類重疊度對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行欠采樣，支持向量等重要樣本被較好地保留下來(lái)，且只要設(shè)定固定的抽樣數(shù)目，則實(shí)驗(yàn)結(jié)果便是固定的，所以該算法克服了隨機(jī)欠采樣方法容易丟失重要樣本信息和實(shí)驗(yàn)結(jié)果不穩(wěn)定的缺點(diǎn)。實(shí)驗(yàn)結(jié)果表明，該算法在能夠很好地提升支持向量機(jī)在不平衡且含噪聲的數(shù)據(jù)集上的分類精度的同時(shí)，縮減算法的運(yùn)行時(shí)間。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡