陳素根,劉玉菲
1.安慶師范大學(xué) 數(shù)理學(xué)院,安徽 安慶 246133
2.安徽省大別山區(qū)域復(fù)雜生態(tài)系統(tǒng)建模、仿真與控制重點(diǎn)實(shí)驗(yàn)室,安徽 安慶 246133
3.安徽省皖江流域種群生態(tài)模擬與控制國際聯(lián)合研究中心,安徽 安慶 246133
聚類分析是無監(jiān)督學(xué)習(xí)問題,它考慮無標(biāo)簽數(shù)據(jù)內(nèi)部自身結(jié)構(gòu),將數(shù)據(jù)聚成若干類,被廣泛應(yīng)用于社區(qū)檢測(cè)、圖像處理和基因分析等方面[1-2]。K-means 算法[3]是經(jīng)典的基于劃分思想的聚類算法,它通過迭代尋找k個(gè)聚類中心點(diǎn),使得總體誤差最小。受K-means算法的啟發(fā),通過迭代尋找k個(gè)聚類中心平面。2000年,Bradley 等人[4]提出了k平面聚類算法(K-plane clustering,KPC),開啟了基于平面聚類算法的新思路。然而,KPC通過二次函數(shù)度量類內(nèi)散度,要求數(shù)據(jù)點(diǎn)盡可能接近聚類中心平面,僅僅考慮了類內(nèi)的數(shù)據(jù)點(diǎn)對(duì)聚類效果影響,從而該算法聚類效果不佳。為了克服KPC存在的問題,Liu等人[5]提出了k近端平面聚類算法(K-proximal plane clustering,KPPC),KPPC同時(shí)考慮了類內(nèi)數(shù)據(jù)點(diǎn)和類間數(shù)據(jù)點(diǎn)的影響,每類數(shù)據(jù)點(diǎn)更加接近該類中心平面而其他類數(shù)據(jù)點(diǎn)盡可能遠(yuǎn)離。為了提升KPC 和KPPC 的性能,2015年,Wang 等人[6]提出了孿生支持向量機(jī)聚類算法(twin support vector clustering,TWSVC),該算法需要求解一系列二次規(guī)劃問題,計(jì)算相對(duì)復(fù)雜。同時(shí),TWSVC 基于Hinge 損失函數(shù)度量類間離散程度,由于Hinge 損失函數(shù)是無界函數(shù),導(dǎo)致TWSVC 算法對(duì)遠(yuǎn)離中心平面的數(shù)據(jù)點(diǎn)比較敏感。為了解決這個(gè)問題,2019 年,Wang 等人[7]利用有界的Ramp 損失函數(shù)代替Hinge 損失函數(shù),提出了基于Ramp 損失的孿生支持向量機(jī)聚類算法(Ramp-based twin support vector clustering,RampTWSVC),該算法通過交替迭代求解非凸優(yōu)化問題,對(duì)遠(yuǎn)離聚類中心平面的數(shù)據(jù)點(diǎn)相對(duì)魯棒。然而,Ramp 損失函數(shù)是一種對(duì)稱的函數(shù),對(duì)聚類中心平面兩邊的數(shù)據(jù)點(diǎn)采用相同的懲罰,沒有考慮數(shù)據(jù)分布的問題[8]。近年來,支持向量機(jī)損失函數(shù)方面的研究被廣泛關(guān)注[9-11],且非對(duì)稱損失函數(shù)的孿生支持向量機(jī)聚類算法逐漸成為新的研究熱點(diǎn)[12-13]。
綜上分析,受RampTWSVC 和非對(duì)稱損失函數(shù)的啟發(fā),本文首先構(gòu)造了一個(gè)非對(duì)稱Ramp 損失函數(shù),并在此基礎(chǔ)上提出了改進(jìn)的Ramp損失孿生支持向量機(jī)聚類算法,簡(jiǎn)稱IRampTWSVC。該算法有以下優(yōu)點(diǎn):(1)非對(duì)稱Ramp損失函數(shù)繼承了Ramp損失函數(shù)的有界性特點(diǎn),可以有效降低遠(yuǎn)離聚類中心平面數(shù)據(jù)點(diǎn)對(duì)聚類中心平面的影響。同時(shí),它又具有非對(duì)稱損失函數(shù)的優(yōu)點(diǎn),對(duì)不同位置的數(shù)據(jù)點(diǎn)采用不同的懲罰,使得該算法更加魯棒。(2)參數(shù)t可以靈活調(diào)節(jié)非對(duì)稱的Ramp損失函數(shù)的表達(dá)式,以適應(yīng)不同的數(shù)據(jù)分布,使得IRampTWSVC 具有更好的泛化性能。特別地,當(dāng)參數(shù)t等于1 時(shí),IRampTWSVC 退化為RampTWSVC。(3)多個(gè)UCI數(shù)據(jù)集和人工數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明本文所提IRampTWSVC算法的有效性。
對(duì)于聚類問題,本文考慮m個(gè)n維數(shù)據(jù)點(diǎn){x1,x2,…,xm},用一個(gè)矩陣表示為X=(x1,x2,…,xm)∈Rn×m,第i簇?cái)?shù)據(jù)點(diǎn)構(gòu)成一個(gè)矩陣Xi,其余簇的數(shù)據(jù)點(diǎn)構(gòu)成一個(gè)矩陣。設(shè)這m個(gè)數(shù)據(jù)點(diǎn)屬于k簇,對(duì)應(yīng)的標(biāo)簽為y∈{1,2,…,k}。
對(duì)于含有k簇的聚類問題,TWSVC 尋找k個(gè)聚類中心平面,設(shè)第i簇中心平面為:
它要求第i簇?cái)?shù)據(jù)點(diǎn)盡可能聚集在這一簇中心平面周圍,其余簇?cái)?shù)據(jù)點(diǎn)盡可能遠(yuǎn)離這一簇中心平面。線性TWSVC優(yōu)化問題[6]如下:
其中,c表示懲罰參數(shù),ξi是松弛向量,e表示分量全為1的適當(dāng)維數(shù)向量。
經(jīng)過一系列推導(dǎo),優(yōu)化問題(2)轉(zhuǎn)化為如下對(duì)偶問題:
受TWSVC 啟發(fā),Wang 等人[7]利用有界的Ramp損失函數(shù)代替Hinge 損失函數(shù),提出了基于Ramp 損失的孿生支持向量機(jī)聚類算法(RampTWSVC)。Ramp損失函數(shù)定義如下:
其中,Δ∈[0,1)和s∈(-1,0]是用于控制損失函數(shù)形式的兩個(gè)常量,|ρ|=x+bi|表示偏差,(ρ)表示類內(nèi)損失函數(shù),(ρ)表示類間損失函數(shù)。
對(duì)第i簇中心平面,線性RampTWSVC的優(yōu)化問題為:
其中,f(xj;wi,bi)=+bi。
簡(jiǎn)單起見,記ui=(wi,bi)T,將每個(gè)數(shù)據(jù)點(diǎn)維數(shù)增加一維且取值為1。于是,第i簇?cái)?shù)據(jù)點(diǎn)記為Zi=[Xi,e],其余簇的數(shù)據(jù)點(diǎn)記為=[,e]。經(jīng)過一系列代數(shù)運(yùn)算,式(5)可轉(zhuǎn)化為:
顯然,式(6)是一個(gè)非凸優(yōu)化問題,引入輔助向量p1∈{-1,0,1}mi和p2∈{-1,0,1}m-mi,其中mi表示第i簇?cái)?shù)據(jù)點(diǎn)個(gè)數(shù),優(yōu)化問題式(6)等價(jià)于下面的混合整數(shù)規(guī)劃問題:
其中,p1(j)和p2(j)分別表示p1和p2的第j個(gè)元素。
給定初始向量,通過式(7)的約束條件計(jì)算(t=1,2,…)固定時(shí),式(7)轉(zhuǎn)化為一個(gè)無約束凸優(yōu)化問題,可以通過序列最小優(yōu)化(sequential minimal optimization,SMO)等算法求解。當(dāng)解出之后,再通過式(7)更新和,這樣不斷交替迭代下去,直到式(7)的目標(biāo)函數(shù)值不下降,終止迭代并得到最優(yōu)解。對(duì)任意數(shù)據(jù)點(diǎn)x,按照以下規(guī)則進(jìn)行聚類:
利用核技巧可將線性RampTWSVC模型推廣到非線性RampTWSVC模型,詳細(xì)內(nèi)容可見參考文獻(xiàn)[7]。
由Ramp損失函數(shù)的定義知道,它是一種對(duì)稱的損失函數(shù),對(duì)聚類中心平面兩側(cè)的數(shù)據(jù)點(diǎn)采用相同懲罰,沒有考慮數(shù)據(jù)的分布。因此,本文對(duì)Ramp 損失函數(shù)進(jìn)行改進(jìn),構(gòu)造一種非對(duì)稱的Ramp 損失函數(shù),對(duì)不同位置的數(shù)據(jù)點(diǎn)采用不同的懲罰,具體定義如下:
其中,Δ∈[0,1),s∈(-1,0]和t∈[0,1]是用于控制損失函數(shù)形式的3個(gè)常量,(ρ)表示類內(nèi)損失函數(shù),表示類間損失函數(shù),|ρ|=+bi|表示偏差。
顯然,由式(9)可知,非對(duì)稱Ramp損失函數(shù)也是有界函數(shù),保留了Ramp 損失函數(shù)有界的特性,繼承了Ramp損失函數(shù)的優(yōu)勢(shì),可以有效降低遠(yuǎn)離聚類中心平面的數(shù)據(jù)點(diǎn)對(duì)聚類中心平面的影響,從而對(duì)噪聲或異常點(diǎn)具有較好的魯棒性。特別地,當(dāng)t=1 時(shí),非對(duì)稱Ramp 損失函數(shù)退化為Ramp 損失函數(shù)。同時(shí),當(dāng)參數(shù)t在[0,1)之間取值時(shí),式(9)所定義的損失函數(shù)為非對(duì)稱的,它對(duì)聚類中心平面兩邊的數(shù)據(jù)點(diǎn)采用不同的懲罰,有利于刻畫數(shù)據(jù)的分布特征,使模型具有更好的泛化性能。
總之,式(9)所定義的非對(duì)稱Ramp 損失函數(shù)是基于數(shù)據(jù)分布的,從類內(nèi)損失和類間損失兩個(gè)角度考慮給予數(shù)據(jù)點(diǎn)不同的懲罰。對(duì)于類內(nèi)損失函數(shù),損失函數(shù)值隨數(shù)據(jù)點(diǎn)到第i簇聚類中心平面的距離線性增長(zhǎng),距離聚類中心平面越遠(yuǎn),損失函數(shù)值越大,定義為ρ(xj)的一次函數(shù)。但是,當(dāng)數(shù)據(jù)點(diǎn)到第i簇聚類中心平面的距離小于1-Δ或大于2-Δ-s時(shí),損失函數(shù)值分別賦予常數(shù)。對(duì)于類間損失函數(shù),距離第i簇聚類中心平面越遠(yuǎn),損失函數(shù)值越小,也定義為ρ(xj)的一次函數(shù),當(dāng)數(shù)據(jù)點(diǎn)到第i簇聚類中心平面的距離小于-s或大于1+Δ時(shí),損失函數(shù)值分別賦予常數(shù)。同時(shí),對(duì)于類內(nèi)損失函數(shù)和類間損失函數(shù)有一個(gè)原則,也就是類內(nèi)數(shù)據(jù)點(diǎn)的損失值不會(huì)大于類間數(shù)據(jù)點(diǎn)的損失值,且都保持有界性特征。
圖1分別給出了當(dāng)Δ=0.3,s=-0.2,t=0,0.2 和0.4 的非對(duì)稱Ramp 損失函數(shù)的示意圖,其中圖1(a)為類內(nèi)損失函數(shù),圖1(b)為類間損失函數(shù)。從圖1可以看出,參數(shù)t對(duì)損失函數(shù)有較大的調(diào)節(jié)作用,使得損失函數(shù)表達(dá)式更加豐富,以適應(yīng)不同的數(shù)據(jù)分布。參數(shù)t控制著損失函數(shù)值變化的快慢和損失函數(shù)值的上下界,保證類內(nèi)損失函數(shù)值不超過類間損失函數(shù)值。
圖1 非對(duì)稱Ramp損失函數(shù)的示意圖Fig.1 Illustration of asymmetric Ramp loss function
基于非對(duì)稱Ramp 損失函數(shù),本文提出改進(jìn)的RampTWSVC,記為IRampTWSVC。類似于Ramp-TWSVC,對(duì)于第i簇聚類中心平面,線性IRampTWSVC的優(yōu)化問題為:
在目標(biāo)函數(shù)式(10)中:第一項(xiàng)表示正則項(xiàng),控制模型的復(fù)雜性;第二項(xiàng)表示類內(nèi)損失,最小化這一項(xiàng)使得第i簇中的數(shù)據(jù)點(diǎn)到第i簇聚類中心平面的距離|ρi(xj)|盡可能小,從而這些數(shù)據(jù)點(diǎn)盡可能聚集在該類的聚類中心平面周圍;第三項(xiàng)表示類間損失,最小化這一項(xiàng)使得其余簇的數(shù)據(jù)點(diǎn)到第i簇聚類中心平面的距離|ρi(xj)|盡可能大,從而這些數(shù)據(jù)點(diǎn)盡可能遠(yuǎn)離第i簇聚類中心平面。根據(jù)非對(duì)稱的Ramp損失函數(shù)的定義式(9)可知,類內(nèi)損失函數(shù)和類間損失函數(shù)都是有界的分段函數(shù),它們根據(jù)數(shù)據(jù)點(diǎn)的位置給予不同的懲罰,使得遠(yuǎn)離聚類中心平面的數(shù)據(jù)點(diǎn)不會(huì)對(duì)聚類中心平面產(chǎn)生更大的影響,從而增強(qiáng)了模型的魯棒性。
簡(jiǎn)單起見,記ui=(wi,bi)T,將每個(gè)數(shù)據(jù)點(diǎn)維數(shù)增加一維且取值為1。于是,第i簇?cái)?shù)據(jù)點(diǎn)記為Zi=[Xi,e],其余簇的數(shù)據(jù)點(diǎn)記為=[,e]。類似于RampTWSVC的推導(dǎo)過程,經(jīng)過一系列代數(shù)運(yùn)算,式(10)可轉(zhuǎn)化為:
其中,p1(j)和p2(j)分別對(duì)應(yīng)的是p1和p2的第j個(gè)元素。
給定初始向量u(0)i,通過式(11)的約束條件計(jì)算(t=1,2,…)固定時(shí),式(11)轉(zhuǎn)化為一個(gè)無約束凸優(yōu)化問題,將其轉(zhuǎn)化為對(duì)偶問題:
Xi表示第i簇?cái)?shù)據(jù)點(diǎn),表示不屬于第i簇的數(shù)據(jù)點(diǎn)。
顯然,式(12)為有約束的二次規(guī)劃問題,可以通過SMO算法求解出。當(dāng)解出之后,再通過式(11)更新和,這樣不斷交替迭代下去,直到式(11)的目標(biāo)函數(shù)值不下降,終止迭代并得到最優(yōu)解。對(duì)任意數(shù)據(jù)點(diǎn)x,再按照以下規(guī)則聚類:
綜上所述,給出線性IRampTWSVC 算法步驟如下:
算法1線性IRampTWSVC
實(shí)際上,算法1 是一個(gè)交替迭代優(yōu)化算法,其求解過程與RampTWSVC類似,終止于有限步迭代,獲得模型的局部最優(yōu)解,相關(guān)理論證明可參考文獻(xiàn)[7]。
對(duì)于非線性情形,首先選擇合適的核函數(shù)K將數(shù)據(jù)映射到高維特征空間中,然后利用核技巧推廣到非線性IRampTWSVC 模型。與線性情況類似,非線性IRampTWSVC優(yōu)化問題如下:
其中,ρi(K(xj,X))=K(xj,X)Twi+bi且cw,cb>0 是參數(shù)。
類似地,記ui=(wi,bi)T,將每個(gè)數(shù)據(jù)點(diǎn)增加一維且取值為1。第i簇的數(shù)據(jù)點(diǎn)記為Ki=[K(Xi,X),e],其余簇的數(shù)據(jù)點(diǎn)記為=[K(,X),e]。非線性IRamp-TWSVC模型的求解過程與線性IRampTWSVC 模型的算法步驟非常相似,唯一不同的是先選擇合適的核函數(shù)K將數(shù)據(jù)映射到高維空間,此處不再贅述。
為了驗(yàn)證本文所提IRampTWSVC 算法的性能,選取8 個(gè)UCI 數(shù)據(jù)集Iris、Haberman、Zoo、Wine、Glass、Blood、Seeds 和Lenses(https://archive.ics.uci.edu/ml/datasets.php)以及5 個(gè)人工數(shù)據(jù)集Flame、Compound、Simplex、Spherical_4_3 和Spherical_5_2(https://github.com/deric/clustering-benchmark/tree/master/src/main/resources/datasets/artificial)進(jìn)行實(shí)驗(yàn)。具體實(shí)驗(yàn)環(huán)境:MATLAB R2019b,硬件配置為Windows 11操作系統(tǒng),16 GB內(nèi)存,2.10 GHz主頻CPU的計(jì)算機(jī)。選取KPC[4]、KPPC[5]、TWSVC[6]和RampTWSVC[7]作為實(shí)驗(yàn)對(duì)比算法,與IRampTWSVC 進(jìn)行實(shí)驗(yàn)比較。實(shí)驗(yàn)中均采用網(wǎng)格尋優(yōu)的方法為各算法選擇最優(yōu)參數(shù),KPC、KPPC、TWSVC和RampTWSVC中的參數(shù)c、cw、cb范圍為{2i|i=-5,-4,…,5},IRampTWSVC中的參數(shù)t的范圍設(shè)置為{0,0.1,0.2,…,1}。對(duì)于非線性情形,選擇高斯核函數(shù)K(x,y)=e-||x-y||2/2μ2,核參數(shù)μ的范圍為{2i|i=-5,-3,-1,…,5}。根據(jù)經(jīng)驗(yàn),Ramp-TWSVC 和IRampTWSVC 中的參數(shù)Δ和s分別設(shè)置為Δ=0.3 和s=-0.2,所有算法均采用近鄰圖(nearest neighbor graph,NNG)[14]初始化聚類中心平面法向量和。
為了對(duì)算法性能進(jìn)行評(píng)價(jià),使用準(zhǔn)確率(Accuracy)來衡量聚類性能。給定聚類標(biāo)簽yi∈{1,2,…,k},i=1,2,…,m,其中m為數(shù)據(jù)點(diǎn)個(gè)數(shù),k為簇?cái)?shù),計(jì)算相應(yīng)的相似矩陣M∈Rm×m如下:
根據(jù)式(15),先利用數(shù)據(jù)集的真實(shí)聚類標(biāo)簽計(jì)算得到相似矩陣Mt,再利用預(yù)測(cè)聚類標(biāo)簽計(jì)算得到相似矩陣Mp。聚類算法的準(zhǔn)確率定義為蘭德統(tǒng)計(jì)量(Rand statistic):
其中,n00是Mp和Mt中0的個(gè)數(shù),n11是Mp和Mt中1的個(gè)數(shù)。
為了驗(yàn)證算法對(duì)噪聲的魯棒性,分別在無噪聲數(shù)據(jù)集和有噪聲的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。對(duì)于每個(gè)數(shù)據(jù)集,分別加入均值為0、標(biāo)準(zhǔn)差σ為0.05 和0.10 的兩種高斯噪聲生成帶有噪聲的數(shù)據(jù)集,σ為0表示無噪聲數(shù)據(jù)集。對(duì)于線性IRampTWSVC 算法,它在大多數(shù)數(shù)據(jù)集上均取得了較好的聚類準(zhǔn)確率。以Spherical_5_2數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果為例,在無噪聲情形下,線 性KPC、KPPC、TWSVC、RampTWSVC 和IRampTWSVC的聚類準(zhǔn)確率分別為80.20%、74.50%、85.07%、83.48%和85.58%;在標(biāo)準(zhǔn)差σ為0.05 的噪聲情形下,聚類準(zhǔn)確率分別為78.69%、74.15%、69.09%、81.99%和85.17%;在標(biāo)準(zhǔn)差σ為0.10 的噪聲情形下,聚類準(zhǔn)確率分別為77.59%、72.54%、75.77%、83.76%和86.44%??傮w而言,線性IRampTWSVC算法在無噪聲、標(biāo)準(zhǔn)差σ為0.05 和標(biāo)準(zhǔn)差σ為0.10 的噪聲情形下,在13 個(gè)實(shí)驗(yàn)數(shù)據(jù)集上分別取得了12個(gè)、11個(gè)和10個(gè)最好的聚類準(zhǔn)確率。另外,圖2分別給出了Spherical_5_2 數(shù)據(jù)集的無噪聲、標(biāo)準(zhǔn)差σ為0.05 和標(biāo)準(zhǔn)差σ為0.10 的有噪聲數(shù)據(jù)集的真實(shí)簇類圖,圖3和圖4分別給出了線性RampTWSVC和線性IRampTWSVC在這三種情形下的聚類效果圖。圖2~圖4的效果圖進(jìn)一步驗(yàn)證了線性IRampTWSVC算法的性能,對(duì)噪聲具有較好的魯棒性。
圖2 Spherical_5_2數(shù)據(jù)集的真實(shí)簇類圖Fig.2 Actual clusters in dataset Spherical_5_2
圖3 線性RampTWSVC在數(shù)據(jù)集Spherical_5_2上聚類效果圖Fig.3 Formation of clusters by linear RampTWSVC on dataset Spherical_5_2
圖4 線性IRampTWSVC在數(shù)據(jù)集Spherical_5_2上聚類效果圖Fig.4 Formation of clusters by linear IRampTWSVC on dataset Spherical_5_2
表1 給出了非線性算法在所有數(shù)據(jù)集上的聚類準(zhǔn)確率及次序,表中粗體數(shù)字表示最好的聚類準(zhǔn)確率。從表1 的實(shí)驗(yàn)結(jié)果不難發(fā)現(xiàn),非線性IRampTWSVC算法在大多數(shù)數(shù)據(jù)集上取得了較好的聚類性能。對(duì)于Haberman 數(shù)據(jù)集,無噪聲情形下,非線性IRamp-TWSVC 的聚類準(zhǔn)確率為72.57%,比KPC、KPPC、TWSVC 和RampTWSVC 分別高11.31 個(gè)百分點(diǎn)、11.62個(gè)百分點(diǎn)、11.93個(gè)百分點(diǎn)和6.51個(gè)百分點(diǎn);在標(biāo)準(zhǔn)差σ為0.05 的噪聲情形下,非線性IRampTWSVC的聚類準(zhǔn)確率為67.58%,比KPC、KPPC、TWSVC 和RampTWSVC 分別高6.01 個(gè)百分點(diǎn)、5.37 個(gè)百分點(diǎn)、7.24 個(gè)百分點(diǎn)和2.62 個(gè)百分點(diǎn);在標(biāo)準(zhǔn)差σ為0.10的噪聲情形下,非線性IRampTWSVC 的聚類準(zhǔn)確率為62.87%,比KPC、KPPC、TWSVC 和RampTWSVC分別高1.92 個(gè)百分點(diǎn)、1.92 個(gè)百分點(diǎn)、1.30 個(gè)百分點(diǎn)和0.98個(gè)百分點(diǎn)。這進(jìn)一步說明了IRampTWSVC具有較好的魯棒性。根據(jù)表1中的聚類準(zhǔn)確率的次序,計(jì)算非線性KPC、KPPC、TWSVC、RampTWSVC 和IRampTWSVC 的平均次序分別為3.76、4.12、3.59、2.19 和1.35,可以發(fā)現(xiàn)非線性IRampTWSVC 算法取得了最高的平均次序。為了說明各算法之間性能的差異,本文分別采用Friedman test 和Nemenyi test 方法檢驗(yàn)IRampTWSVC算法與現(xiàn)有算法是否具有顯著性差異。根據(jù)Friedman test的定義[15]可得:
表1 非線性算法在所有數(shù)據(jù)集上的聚類準(zhǔn)確率及次序Table 1 Clustering accuracy and rank of nonlinear algorithms on all datasets
其中,Ri是第i種算法在N個(gè)數(shù)據(jù)集上的平均排序,k表示算法的數(shù)量。于是,根據(jù)表1 知N=39,k=5,由式(17)和式(18)計(jì)算得≈87.651 7 和FF≈48.732 2。F分布的自由度為(k-1,(k-1)(N-1))=(4,152),根據(jù)F分布臨界值統(tǒng)計(jì)表知,當(dāng)α=0.05 時(shí)F(4,152)=2.431。因?yàn)镕F=48.732 2>2.431,說明非線性IRamp-TWSVC算法優(yōu)于其他算法。根據(jù)Nemenyi test的定義[15],可得:
當(dāng)α=0.05 時(shí),qα=2.728,根據(jù)式(19)計(jì)算可得到相應(yīng)的CD值為0.976 8。非線性IRampTWSVC與KPC、KPPC 和TWSVC 之間的平均次序差分別是3.76-1.35=2.41,4.12-1.35=2.77 和3.59-1.35=2.24,它們都大于CD值,這表明非線性IRampTWSVC 的性能明顯優(yōu)于非線性KPC、KPPC和TWSVC;與非線性RampTWSVC 之間的平均次序差是2.19-1.35=0.84,它小于CD值,這表明非線性IRampTWSVC的性能雖然比非線性RampTWSVC 好,但它們之間的差異不夠顯著。
非對(duì)稱Ramp損失函數(shù)與Ramp損失函數(shù)的區(qū)別就在于引入了參數(shù)t,使Ramp 損失函數(shù)轉(zhuǎn)變?yōu)榉菍?duì)稱的形式,對(duì)位于聚類中心平面兩側(cè)的數(shù)據(jù)點(diǎn)采用不同的損失進(jìn)行計(jì)算,使得遠(yuǎn)離聚類中心平面的數(shù)據(jù)點(diǎn)對(duì)聚類中心平面的影響降低,并且通過調(diào)節(jié)參數(shù)t可以使模型具有更好的魯棒性。為了進(jìn)一步分析IRampTWSVC 中所有參數(shù)對(duì)算法性能的影響(如圖5~圖7 所示),以Wine 和Spherical_4_3 數(shù)據(jù)集為例,首先討論參數(shù)t對(duì)線性IRampTWSVC 聚類性能的影響,固定參數(shù)cw和cb,參數(shù)t取值范圍為{0,0.1,0.2,…,1.0}。圖5 給出了參數(shù)t對(duì)線性IRamp-TWSVC 算法聚類準(zhǔn)確率的影響,圖5(a)為Wine 數(shù)據(jù)集上的結(jié)果,圖5(b)為Spherical_4_3 數(shù)據(jù)集上的結(jié)果。從圖5(a)中可看出,當(dāng)參數(shù)t取0.9時(shí),聚類準(zhǔn)確率最高;從圖5(b)中可看出,當(dāng)參數(shù)t取0.6 時(shí),聚類準(zhǔn)確率最高。這表明了參數(shù)t對(duì)線性IRamp-TWSVC算法聚類準(zhǔn)確率有較大的影響,充分體現(xiàn)了非對(duì)稱損失函數(shù)的優(yōu)越性。類似地,再討論參數(shù)cw、cb對(duì)線性IRampTWSVC 算法聚類準(zhǔn)確率的影響,此時(shí)固定參數(shù)t,參數(shù)cw和cb取值范圍為{-5,-4,-3,…,5}。圖6 給出了參數(shù)cw和cb對(duì)線性IRampTWSVC 算法聚類準(zhǔn)確率的影響,圖6(a)為Wine數(shù)據(jù)集上的結(jié)果,圖6(b)為Spherical_4_3 數(shù)據(jù)集上的結(jié)果。實(shí)際上,參數(shù)t、cw和cb對(duì)非線性IRampTWSVC算法聚類準(zhǔn)確率也有較大的影響,這里就不贅述了。最后,討論核參數(shù)μ對(duì)非線性IRamp-TWSVC 算法聚類準(zhǔn)確率的影響,此時(shí)固定參數(shù)cw、cb和t,核參數(shù)μ取值范圍為{-5,-4,-3,…,5}。圖7 給出了核參數(shù)μ對(duì)非線性IRampTWSVC聚類準(zhǔn)確率的影響。根據(jù)圖5、圖6和圖7 的結(jié)果,可以發(fā)現(xiàn)各參數(shù)對(duì)IRampTWSVC 聚類準(zhǔn)確率都有較大的影響。本文采用了網(wǎng)格尋優(yōu)的方法選擇最優(yōu)參數(shù),效率相對(duì)低下。因此,如何有效地選擇最優(yōu)參數(shù)是值得進(jìn)一步研究的問題。
圖5 參數(shù)t 對(duì)線性IRampTWSVC算法聚類準(zhǔn)確率的影響Fig.5 Influence of parameter t on clustering accuracy of linear IRampTWSVC
圖6 參數(shù)cw、cb 對(duì)線性IRampTWSVC算法聚類準(zhǔn)確率的影響Fig.6 Influence of parameter cw,cb on clustering accuracy of linear IRampTWSVC
圖7 參數(shù)μ 對(duì)非線性IRampTWSVC算法聚類準(zhǔn)確率的影響Fig.7 Influence of parameter μ on clustering accuracy of nonlinear IRampTWSVC
本文構(gòu)造了一種非對(duì)稱Ramp損失函數(shù),并在此基礎(chǔ)上提出了一種改進(jìn)的Ramp 損失孿生支持向量機(jī)聚類(IRampTWSVC)。在多個(gè)UCI數(shù)據(jù)集和人工數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了本文算法的有效性。非對(duì)稱Ramp損失函數(shù)不僅繼承了Ramp損失函數(shù)的優(yōu)點(diǎn),而且參數(shù)t的引入使模型更加靈活,增強(qiáng)了IRampTWSVC 算法對(duì)噪聲的魯棒性。然而,本文算法依然存在一些不足:(1)該算法有多個(gè)參數(shù),構(gòu)建有效的最優(yōu)參數(shù)選擇策略有待研究;(2)該算法通過交替迭代求解,每一個(gè)子問題都是一個(gè)二次規(guī)劃問題,本文雖然利用了SMO求解算法,但是當(dāng)數(shù)據(jù)集規(guī)模較大時(shí)模型求解依然較慢,如何構(gòu)建模型的快速求解算法也值得進(jìn)一步研究。