国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于類重疊度欠采樣的不平衡模糊多類支持向量機(jī)*

2018-09-10 11:14:46吳園園申立勇
關(guān)鍵詞:訓(xùn)練樣本預(yù)處理向量

吳園園,申立勇

(中國(guó)科學(xué)院大學(xué)數(shù)學(xué)科學(xué)學(xué)院, 北京 100049) (2017年5月2日收稿; 2017年6月2日收修改稿)

支持向量機(jī)作為一個(gè)經(jīng)典的分類方法,在20世紀(jì)90年代中期由Cortes和Vapnik[1]在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上提出。支持向量機(jī)具有很強(qiáng)的泛化能力,能較好地解決局部極小、過(guò)學(xué)習(xí)和維數(shù)災(zāi)難等傳統(tǒng)機(jī)器學(xué)習(xí)方法中存在的問(wèn)題[2]。盡管在很多方面,支持向量機(jī)都具有其他學(xué)習(xí)方法不可比擬的優(yōu)勢(shì),但是它也存在局限性,例如抗躁性差[3]、對(duì)不平衡數(shù)據(jù)分類敏感[4]等。傳統(tǒng)支持向量機(jī)等同地對(duì)待所有訓(xùn)練樣本點(diǎn),并賦予它們相同的權(quán)值,但是真實(shí)數(shù)據(jù)中經(jīng)常含有噪點(diǎn),不同的訓(xùn)練樣本點(diǎn)對(duì)分類面的作用也是不同的,如若不將重要訓(xùn)練樣本與噪點(diǎn)區(qū)分開(kāi)來(lái),則最終得到的分類面也往往不是真正的最優(yōu)分類面,出現(xiàn)“過(guò)學(xué)習(xí)”現(xiàn)象。針對(duì)這種情況,研究者提出模糊支持向量機(jī)(FSVM)[5-7],根據(jù)不同訓(xùn)練樣本對(duì)分類面的作用,賦予其不同的模糊隸屬度(即權(quán)值),分配給重要樣本更大的隸屬度值,分配給噪點(diǎn)很小的隸屬度值,以減少它們對(duì)分類結(jié)果的影響,增加算法的抗噪能力。

雖然模糊支持向量機(jī)降低了噪點(diǎn)對(duì)分類結(jié)果的影響,很好地提高了分類器的性能,但其對(duì)于不平衡數(shù)據(jù)分類問(wèn)題依然敏感。當(dāng)數(shù)據(jù)不平衡時(shí),支持向量機(jī)的分類效果不佳,容易將絕大多數(shù)的少數(shù)類分類為多數(shù)類,導(dǎo)致少數(shù)類的分類精度很低。然而,在許多實(shí)際應(yīng)用中,相比于多數(shù)類,少數(shù)類提供的信息往往更加重要,比如在醫(yī)療檢測(cè),如果將一個(gè)病人檢測(cè)為健康人,從而耽誤了病人的就醫(yī)時(shí)間,則會(huì)導(dǎo)致非常嚴(yán)重的后果。因此,少數(shù)類的分類精度低是很不理想的結(jié)果。為解決這一問(wèn)題,國(guó)內(nèi)外學(xué)者進(jìn)行了大量研究。其中,欠采樣[8]就是一種解決不平衡數(shù)據(jù)分類問(wèn)題的有效方法。然而,常用的隨機(jī)欠采樣方法由于其自身的隨機(jī)性和盲目性,容易造成重要樣本信息的丟失,影響分類效果,且分類穩(wěn)定性較差。

針對(duì)支持向量機(jī)在不平衡數(shù)據(jù)集上分類效果不理想和算法容易受訓(xùn)練數(shù)據(jù)集中的噪聲影響等問(wèn)題,本文提出一種基于類重疊度欠采樣的不平衡模糊多類支持向量機(jī)。首先通過(guò)LOF局部離群點(diǎn)因子[9]和箱線圖[10]的方法刪除訓(xùn)練數(shù)據(jù)集中的噪聲樣本,然后設(shè)置合適的采樣數(shù)目,根據(jù)改進(jìn)的類重疊度對(duì)去除噪聲樣本后的數(shù)據(jù)集欠采樣,抽取對(duì)分類起關(guān)鍵作用的支持向量,最大限度地維持原有的數(shù)據(jù)分布信息,并且降低數(shù)據(jù)集的不平衡比例,最后將代表每個(gè)樣本點(diǎn)重要程度的類重疊度作為隸屬度值,構(gòu)造模糊多類支持向量機(jī)。實(shí)驗(yàn)結(jié)果表明,該算法能夠在保證良好的分類精度的同時(shí),縮減運(yùn)行時(shí)間,且其克服了隨機(jī)欠采樣方法容易丟失重要樣本信息和分類結(jié)果不穩(wěn)定的缺點(diǎn)。

1 基于重采樣的不平衡數(shù)據(jù)學(xué)習(xí)方法

目前,針對(duì)不平衡數(shù)據(jù)分類的方法可以分為數(shù)據(jù)、算法兩個(gè)層面。算法層面主要是對(duì)已有算法進(jìn)行改進(jìn),提升算法對(duì)少數(shù)類的準(zhǔn)確識(shí)別率,如集成學(xué)習(xí)方法、代價(jià)敏感算法等。數(shù)據(jù)層面主要是通過(guò)重采樣技術(shù),重新構(gòu)造訓(xùn)練數(shù)據(jù)集,從而降低數(shù)據(jù)集的不平衡度。

重采樣技術(shù)主要分為過(guò)采樣技術(shù)和欠采樣技術(shù)。過(guò)采樣技術(shù)通過(guò)一定的方法增加少數(shù)類的樣本數(shù)目,其中比較常用的是隨機(jī)過(guò)采樣方法和SMOTE方法[11]。由于新添許多樣本,過(guò)采樣技術(shù)容易造成數(shù)據(jù)冗余和分類器過(guò)擬合的現(xiàn)象。欠采樣技術(shù)采用某種規(guī)則舍棄部分多數(shù)類樣本,使得多數(shù)類樣本數(shù)目趨近于少數(shù)類樣本數(shù)目。最常用的方法是隨機(jī)欠采樣[12]及其改進(jìn)的欠采樣方法,如Kubat和Matwin[13]的單邊選擇方法,謝紀(jì)剛和裘正定[14]提出的加權(quán)Fisher線性判別方法。欠樣技術(shù)由于刪除了部分多數(shù)類樣本,可能導(dǎo)致分類時(shí)數(shù)據(jù)信息的缺失,從而對(duì)分類結(jié)果造成一定的影響。

數(shù)據(jù)重采樣技術(shù)的關(guān)鍵在于采用什么樣的采樣方法,能夠最大限度地保留原數(shù)據(jù)集的分布信息,得到具有代表性、對(duì)分類起關(guān)鍵作用的樣本集。本文提出一種基于類重疊度的欠采樣技術(shù),抽取對(duì)分類起決定性作用的支持向量,較好地維持了原有的數(shù)據(jù)分布,在保證良好的分類精度的基礎(chǔ)上,減小算法的運(yùn)行時(shí)間。

2 基于LOF去噪和類重疊度欠采樣的非平衡數(shù)據(jù)預(yù)處理算法

2.1 算法思想

在支持向量機(jī)的分類中,并不是所有的樣本都起著相同的作用,支持向量機(jī)算法的最終分類精度是由樣本集中的支持向量決定的。支持向量在整個(gè)訓(xùn)練樣本集中所占的比例非常小,在支持向量機(jī)的訓(xùn)練過(guò)程中,花費(fèi)大量的時(shí)間去訓(xùn)練非支持向量的樣本,將大大增加算法的運(yùn)行成本。鑒于支持向量機(jī)最終是由支持向量決定的,在數(shù)據(jù)預(yù)處理的過(guò)程中,從訓(xùn)練樣本集中抽取出支持向量,刪除非支持向量的樣本,對(duì)最終的算法模型并不會(huì)造成影響,如此可以從樣本集中刪除大量的無(wú)用樣本,只余重要樣本,提高算法運(yùn)行效率的同時(shí),降低訓(xùn)練數(shù)據(jù)集的不平衡比例。

由于支持向量機(jī)模型的以上特點(diǎn),且支持向量分布在分類決策面附近,即各類的類重疊區(qū)域,類重疊度越高的訓(xùn)練樣本,成為支持向量的可能性越大,本節(jié)通過(guò)對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行預(yù)處理,采用LOF和箱線圖的方法首先去除數(shù)據(jù)集中的噪聲樣本,然后基于類重疊度的思想,選擇性地對(duì)訓(xùn)練樣本集進(jìn)行欠采樣,保留對(duì)分類起決定性作用的支持向量,刪除對(duì)分類沒(méi)有作用的非支持向量的樣本。具體為:計(jì)算每個(gè)訓(xùn)練樣本的類重疊度,并將訓(xùn)練樣本集根據(jù)類重疊度從大到小的順序排列,設(shè)置抽取的樣本數(shù),抽取類重疊度大的部分樣本集作為新的訓(xùn)練樣本集。較之于原數(shù)據(jù)集,新的訓(xùn)練數(shù)據(jù)集在數(shù)據(jù)規(guī)模上大大減小,且數(shù)據(jù)集的不平衡比例也有所降低。

2.2 基于LOF和箱線圖的去噪方法

支持向量機(jī)在訓(xùn)練過(guò)程中平等地對(duì)待所有訓(xùn)練樣本,算法很容易受到噪聲樣本的干擾,使得分類結(jié)果產(chǎn)生偏差。在不平衡數(shù)據(jù)分類中,雖然在數(shù)據(jù)預(yù)處理的過(guò)程中,對(duì)數(shù)據(jù)集欠采樣能夠抑制不平衡數(shù)據(jù)對(duì)分類的影響,但支持向量機(jī)仍然會(huì)受到噪聲樣本的干擾。所以,在對(duì)不平衡數(shù)據(jù)集欠采樣處理前,首先應(yīng)該去除數(shù)據(jù)集中的噪聲樣本。本節(jié)采用LOF局部離群點(diǎn)因子[9]和箱線圖[10]去除噪聲樣本。

LOF局部離群點(diǎn)因子表示數(shù)據(jù)對(duì)象的離群程度,數(shù)據(jù)對(duì)象的LOF局部離群點(diǎn)因子越大,則該數(shù)據(jù)對(duì)象的離群程度越高,越有可能是噪聲樣本。基于此思想,可以計(jì)算出每個(gè)訓(xùn)練樣本點(diǎn)的局部離群點(diǎn)因子LOF,然后采用箱線圖的方法,剔除訓(xùn)練數(shù)據(jù)集中LOF過(guò)大的一些樣本。

箱線圖方法中,超過(guò)內(nèi)欄的值被認(rèn)為是潛在的異常值,代表相對(duì)稀有的樣本點(diǎn)。為了去除數(shù)據(jù)集中的噪聲樣本,結(jié)合局部離群點(diǎn)因子LOF的特性,通過(guò)對(duì)訓(xùn)練數(shù)據(jù)集的局部離群點(diǎn)因子作箱線圖,剔除離群點(diǎn)因子超過(guò)箱線圖的上內(nèi)欄的部分樣本集,這些樣本的離群點(diǎn)因子過(guò)大,是噪聲樣本的可能性很大。

綜上,本節(jié)提出一種基于LOF和箱線圖的去噪算法,算法如表1所示。

表1 基于LOF和箱線圖的去噪算法

2.3 基于LOF去噪和類重疊度欠采樣的非平衡數(shù)據(jù)預(yù)處理算法

欠采樣方法容易刪除重要的數(shù)據(jù)樣本,造成分類結(jié)果的偏差,而對(duì)于支持向量機(jī)而言,其最終的分類精度是由訓(xùn)練數(shù)據(jù)集中的支持向量決定的,所以如何抽取訓(xùn)練數(shù)據(jù)集中的支持向量是基于支持向量機(jī)的欠采樣方法的關(guān)鍵。支持向量分布在分類決策面附近,即各類的類重疊區(qū)域,類重疊度越高的訓(xùn)練樣本,成為支持向量的可能性越大,它的重要程度也越高?;诖耍疚母鶕?jù)各訓(xùn)練樣本點(diǎn)的類重疊度,選擇性地對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行欠采樣,保留對(duì)分類起決定性作用的支持向量,刪除對(duì)分類沒(méi)有作用的訓(xùn)練樣本。

文獻(xiàn)[15]定義類(Cp,Cq)在數(shù)據(jù)點(diǎn)xi處的重疊度:

(1)

圖1 類重疊度圖Fig.1 Class overlap

基于上述觀察,本文改進(jìn)類重疊度公式為

(2)

對(duì)于多分類的情況,定義每個(gè)訓(xùn)練樣本點(diǎn)的類重疊度為該點(diǎn)所屬類分別與其他各類在該點(diǎn)的類重疊度的均值。假設(shè)訓(xùn)練樣本有k個(gè)類,分別是C1,C2,…,Ck,樣本點(diǎn)xi屬于其中一個(gè)類Cp,定義xi的k類重疊度為xi的所屬類Cp分別與其他各類在xi處的二類重疊度的均值,即

(3)

然而,式(3)仍存在一定局限性,如圖2所示,A點(diǎn)屬于類Cp,用紅色的三角形表示,B點(diǎn)屬于類Cq,用綠色的三角形表示,它們都處于兩類的重疊區(qū)域中,且它們與兩類的類中心距離分別相等。如果按照式(3)計(jì)算,類Cp和類Cq在A點(diǎn)和B點(diǎn)的類重疊度相等。但是由圖2可以看出:A點(diǎn)的10個(gè)最近鄰點(diǎn)中有5個(gè)屬于自己類,另5個(gè)屬于類Cq;B點(diǎn)的10個(gè)最近鄰點(diǎn)中卻有7個(gè)都是屬于自己類,只有3個(gè)屬于類Cp,容易得到類Cp和類Cq在A點(diǎn)的類重疊度應(yīng)比B點(diǎn)更大。由此,啟發(fā)我們可以用訓(xùn)練樣本點(diǎn)的K個(gè)近鄰樣本中異類樣本所占的比例來(lái)反映該點(diǎn)的類重疊度。所以,對(duì)于k類分類,進(jìn)一步改進(jìn)類重疊度公式為

(4)

式中:K表示K個(gè)近鄰樣本點(diǎn);Ki表示第i個(gè)樣本點(diǎn)的K個(gè)近鄰樣本中異類樣本數(shù)。

圖2 不同點(diǎn)的類重疊度Fig.2 Class overlap for different points

綜上,本節(jié)基于LOF去噪和類重疊度欠采樣的非平衡數(shù)據(jù)預(yù)處理的算法,具體描述如表2所示。

表2 基于LOF去噪和類重疊度欠采樣的非平衡 數(shù)據(jù)預(yù)處理算法

3 基于類重疊度欠采樣的不平衡模糊多類支持向量機(jī)

傳統(tǒng)的支持向量機(jī)等同地對(duì)待所有的訓(xùn)練樣本點(diǎn),對(duì)所有錯(cuò)分的訓(xùn)練樣本點(diǎn)分配相同的權(quán)重。然而,在實(shí)際應(yīng)用中,數(shù)據(jù)集中的不同樣本點(diǎn)對(duì)分類產(chǎn)生的作用是不同的,因此一個(gè)合理的做法是根據(jù)各訓(xùn)練樣本點(diǎn)的重要性,為每個(gè)訓(xùn)練樣本點(diǎn)分配不同的權(quán)值。第2節(jié)提出的基于LOF去噪和類重疊度欠采樣的預(yù)處理算法,可以有效地刪除噪聲樣本和冗余樣本,保留支持向量,數(shù)據(jù)集的不平衡比例也明顯降低。預(yù)處理過(guò)后的數(shù)據(jù)集中每個(gè)樣本點(diǎn)的類重疊度代表著該樣本點(diǎn)的重要程度,以相應(yīng)的類重疊度作為隸屬度值,構(gòu)造模糊多類支持向量機(jī)。

對(duì)于k類分類,給定一個(gè)帶有類別標(biāo)記以及模糊隸屬度的訓(xùn)練樣本集S={(xi,yi,ui),i=1,2,…,N}。式中:xi∈Rn是訓(xùn)練樣本集;yi∈{1,2,…,k}是對(duì)應(yīng)的類別標(biāo)記;ui=μk(xi)為第i個(gè)樣本的改進(jìn)后的類重疊度,見(jiàn)公式(4)。則基于LOF去噪和類重疊度欠采樣的不平衡模糊多類支持向量機(jī)模型如下(以Crammer-Singers直接多分類算法[16]為基礎(chǔ)模型)

(5)

subject to

εi≥0,(i=1,…,N)

wi∈Rn+1,(i=1,…,k).

式中:λ>0是一個(gè)調(diào)節(jié)因子,類似于標(biāo)準(zhǔn)支持向量機(jī)中的參數(shù)C;ε=[ε1,ε2,…,εN]表示松弛變量。

由式(5)可以看出,每個(gè)樣本點(diǎn)xi的錯(cuò)分代價(jià)為uiεi,模糊隸屬度ui越小,則損失參數(shù)εi對(duì)目標(biāo)函數(shù)值的影響越小,所對(duì)應(yīng)的樣本點(diǎn)xi越不重要。

綜上,基于LOF去噪和類重疊度欠采樣的不平衡模糊多類支持向量機(jī)的具體算法描述,如表3所示。

表3 基于LOF去噪和類重疊度欠采樣的 不平衡模糊多類支持向量機(jī)算法

4 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證本文方法的有效性和普適性,本節(jié)實(shí)驗(yàn)由模擬數(shù)據(jù)實(shí)驗(yàn)和實(shí)際數(shù)據(jù)實(shí)驗(yàn)兩部分組成。實(shí)驗(yàn)在2.4 GHz/8 GB的PC主機(jī)上利用Matlab R2015軟件實(shí)現(xiàn),所有數(shù)值實(shí)驗(yàn)以Crammer-Singers直接多分類支持向量機(jī)作為基礎(chǔ)模型。

4.1 模擬數(shù)據(jù)實(shí)驗(yàn)

為了驗(yàn)證基于LOF去噪和類重疊度欠采樣的不平衡數(shù)據(jù)預(yù)處理算法的有效性,本節(jié)將在一個(gè)不平衡的模擬數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并根據(jù)模擬實(shí)驗(yàn)結(jié)果,分析上述預(yù)處理算法的有效性。

隨機(jī)生成3類正態(tài)分布的數(shù)據(jù)集,其中類1為均值為[2,2],方差為[0.2,0;0,0.3]的樣本集,共50個(gè)樣本點(diǎn);類2為均值為[3.5,2],方差為[0.3,0;0,0.4]的樣本集,共100個(gè)樣本點(diǎn);類3為均值為[2.8,3.8],方差為[0.4,0;0,0.5]的樣本集,共200個(gè)樣本點(diǎn)。為了驗(yàn)證提出的預(yù)處理算法的去噪能力以及更符合實(shí)際應(yīng)用情況,在[0,5]×[0,6]范圍內(nèi)隨機(jī)產(chǎn)生50個(gè)噪聲樣本。加上噪聲樣本,總的模擬數(shù)據(jù)集共400個(gè)樣本。設(shè)置預(yù)抽取的樣本數(shù)為200。

對(duì)以上含噪聲的模擬數(shù)據(jù),進(jìn)行基于LOF去噪和類重疊度欠采樣的不平衡數(shù)據(jù)預(yù)處理,結(jié)果如圖3所示。為方便區(qū)別,在下面所有圖中,類1中的樣本由“*”表示,類2中的樣本由“+”表示,類3中的樣本由“o”表示,噪聲樣本由“Δ”表示。

圖3為上述非平衡數(shù)據(jù)預(yù)處理算法在加噪后的3類正態(tài)分布的數(shù)據(jù)集上的分段處理效果圖。圖3(a)顯示原有的正態(tài)分布的數(shù)據(jù)集,共350個(gè)樣本點(diǎn)。圖3(b)是在原有數(shù)據(jù)集中增加50個(gè)噪聲樣本后的數(shù)據(jù)集分布,可以看出,增加噪聲樣本后的數(shù)據(jù)集的分布比較復(fù)雜,如果直接以這樣的數(shù)據(jù)集進(jìn)行分類,將嚴(yán)重影響分類結(jié)果。圖3(c)是經(jīng)過(guò)LOF和箱線圖去除噪聲樣本后的數(shù)據(jù)集,剔除42個(gè)噪聲樣本,剩余358個(gè)樣本點(diǎn),由圖可以看出,經(jīng)過(guò)去噪后的數(shù)據(jù)集,噪聲樣本明顯減少,數(shù)據(jù)集分布較為明晰。圖3(d)是在去噪后的數(shù)據(jù)集中基于類重疊度由大到小的順序抽取的200個(gè)數(shù)據(jù)集,即預(yù)處理過(guò)后的數(shù)據(jù)集,由圖可以看出,樣本數(shù)量明顯減少,但是縮減過(guò)后的數(shù)據(jù)集依然較好地保留了原有的數(shù)據(jù)分布,尤其在分類決策面附近對(duì)分類起著關(guān)鍵作用的支持向量得到了比較好的保留,且數(shù)據(jù)集的不平衡比例經(jīng)過(guò)欠采樣后也明顯地降低,由1∶2∶4降低至1∶2.30∶2.76,剔除了多數(shù)類中的大量冗余樣本。

圖3 非平衡數(shù)據(jù)預(yù)處理算法的模擬實(shí)驗(yàn)結(jié)果Fig.3 Simulation results of imbalanced data preprocessing algorithm

4.2 實(shí)際數(shù)據(jù)實(shí)驗(yàn)

1)評(píng)價(jià)準(zhǔn)則

對(duì)于不平衡數(shù)據(jù)分類問(wèn)題,常用的評(píng)價(jià)指標(biāo)有AvgAcc,G-mean[17]等。假設(shè)k類分類,Acci表示第i類的分類精度,則AvgAcc是各類分類精度的算術(shù)平均值,G-mean是各類分類精度的幾何平均值,計(jì)算方法如下:

2)實(shí)驗(yàn)數(shù)據(jù)

本次實(shí)驗(yàn)選用UCI數(shù)據(jù)庫(kù)中4個(gè)UCI數(shù)據(jù)集,數(shù)據(jù)集具體參數(shù)見(jiàn)表4,其中不平衡率為各類別的樣本數(shù)量與最小類的樣本數(shù)量的不平衡比例。

實(shí)驗(yàn)中,除User數(shù)據(jù)集自帶訓(xùn)練集和測(cè)試集,其他每個(gè)數(shù)據(jù)采用5折交叉檢驗(yàn),并取5次結(jié)果的均值作為最終結(jié)果。由于Ecoli和Glass數(shù)據(jù)集中某些類的樣本數(shù)量較少,并不適用于5折交叉檢驗(yàn),所以實(shí)驗(yàn)將Ecoli中原樣本數(shù)量分別為

表4 UCI數(shù)據(jù)集及相關(guān)屬性

2,2,5,20的4類合并為一類,將Glass中原樣本數(shù)量分別為9,13,17的3類合并為一類。

3)實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)結(jié)果如表5、表6所示,表5顯示算法中每個(gè)數(shù)據(jù)集的實(shí)際樣本數(shù)和算法預(yù)抽取的樣本數(shù),表6列出各方法在不平衡數(shù)據(jù)集上分類精度和運(yùn)行時(shí)間的比較結(jié)果。其中,CMSVMsuiji表示隨機(jī)欠采樣的支持向量機(jī)。

表5 實(shí)驗(yàn)中各數(shù)據(jù)集抽取樣本數(shù)

表5顯示,抽取的樣本集只占原數(shù)據(jù)集的一小部分。由表6的實(shí)驗(yàn)結(jié)果可以看出,就運(yùn)行時(shí)間而言,由于訓(xùn)練樣本數(shù)的減少,本文算法和隨機(jī)欠采樣支持向量機(jī)在運(yùn)行時(shí)間上要小于其他算法。此外,因?yàn)楸疚乃惴ㄐ枰?jì)算每個(gè)樣本點(diǎn)的LOF局部離群點(diǎn)因子和類重疊度,所以在運(yùn)行時(shí)間上會(huì)略高于隨機(jī)欠采樣的支持向量機(jī)。比如在Balance數(shù)據(jù)集上,本文方法運(yùn)行時(shí)間是105 s,隨機(jī)欠采樣的支持向量機(jī)的運(yùn)行時(shí)間是42 s,但其他方法的最少運(yùn)行時(shí)間是112 s,本文方法的運(yùn)行時(shí)間要高于隨機(jī)欠采樣的支持向量機(jī)的運(yùn)行時(shí)間,但要低于其他方法的運(yùn)行時(shí)間。就分類精度而言,除在Glass數(shù)據(jù)集上,本文算法的精度以微小的差距低于一些算法,其他數(shù)據(jù)集上,本文算法的分類精度均要優(yōu)于其他算法。如在Balance數(shù)據(jù)集中,就AvgAcc評(píng)價(jià)準(zhǔn)則,本文方法的分類精度為0.87,其他方法的最高分類精度為0.85,本文方法要高于其他方法,就G-mean評(píng)價(jià)準(zhǔn)則,本文方法的分類精度為0.85,其他方法的最高分類精度為0.72,本文方法要高于其他方法。就實(shí)驗(yàn)結(jié)果的穩(wěn)定性而言,同樣是抽取相同數(shù)目的訓(xùn)練樣本,本文算法是根據(jù)訓(xùn)練數(shù)據(jù)集的類重疊度由大至小抽取樣本集,實(shí)驗(yàn)結(jié)果是固定的,然而對(duì)于隨機(jī)欠采樣的支持向量機(jī),由于每次隨機(jī)采樣的訓(xùn)練樣本集可能不同,實(shí)驗(yàn)結(jié)果也不穩(wěn)定。綜上,對(duì)于相同的數(shù)據(jù)集,本文提出的算法在運(yùn)行時(shí)間上僅次于隨機(jī)欠采樣支持向量機(jī);在分類精度上要高于其他算法;而且本文算法還克服了隨機(jī)欠采樣的支持向量機(jī)的實(shí)驗(yàn)結(jié)果不穩(wěn)定的缺點(diǎn)。

表6 實(shí)驗(yàn)結(jié)果

5 結(jié)論

針對(duì)支持向量機(jī)在不平衡數(shù)據(jù)集上分類效果并不理想且對(duì)噪聲數(shù)據(jù)敏感的問(wèn)題,本文提出基于類重疊度欠采樣的不平衡模糊多類支持向量機(jī)算法,首先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,采用LOF局部離群點(diǎn)因子和箱線圖結(jié)合的方法刪除訓(xùn)練數(shù)據(jù)集中的噪聲樣本,然后設(shè)置合適的采樣數(shù)目,根據(jù)類重疊度抽取對(duì)分類起關(guān)鍵作用的支持向量。預(yù)處理過(guò)后的數(shù)據(jù)集最大限度地維持了原有的數(shù)據(jù)分布信息,并且降低了原數(shù)據(jù)集的不平衡比例。算法最后將代表每個(gè)樣本點(diǎn)的重要程度的類重疊度作為隸屬度值,構(gòu)造模糊多類支持向量機(jī)。由于算法是基于類重疊度對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行欠采樣,支持向量等重要樣本被較好地保留下來(lái),且只要設(shè)定固定的抽樣數(shù)目,則實(shí)驗(yàn)結(jié)果便是固定的,所以該算法克服了隨機(jī)欠采樣方法容易丟失重要樣本信息和實(shí)驗(yàn)結(jié)果不穩(wěn)定的缺點(diǎn)。實(shí)驗(yàn)結(jié)果表明,該算法在能夠很好地提升支持向量機(jī)在不平衡且含噪聲的數(shù)據(jù)集上的分類精度的同時(shí),縮減算法的運(yùn)行時(shí)間。

猜你喜歡
訓(xùn)練樣本預(yù)處理向量
向量的分解
聚焦“向量與三角”創(chuàng)新題
人工智能
基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
融合原始樣本和虛擬樣本的人臉識(shí)別算法
基于稀疏重構(gòu)的機(jī)載雷達(dá)訓(xùn)練樣本挑選方法
向量垂直在解析幾何中的應(yīng)用
淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
昌吉市| 克拉玛依市| 钦州市| 博白县| 南宁市| 西丰县| 广南县| 神农架林区| 上杭县| 新河县| 衡阳市| 夏河县| 福州市| 大名县| 莒南县| 平乐县| 维西| 临泉县| 宜都市| 高密市| 重庆市| 阿勒泰市| 平乡县| 叶城县| 平罗县| 昆明市| 公安县| 慈溪市| 维西| 开封市| 包头市| 临湘市| 民丰县| 枞阳县| 寿阳县| 车险| 育儿| 宾川县| 文山县| 资兴市| 揭阳市|