李順勇 許曉麗
摘要:多視圖數(shù)據(jù)集普遍分布在低維子空間上.為了解決多視圖子空間聚類(lèi)時(shí)各視圖信息量不同的問(wèn)題,提出了一種新的基于信息熵加權(quán)的多視圖子空間聚類(lèi)算法(IEMLRR).首先在低秩表示的約束下獲得每個(gè)視圖的子空間表示,在獲取公共子空間表示時(shí),使用信息熵加權(quán)來(lái)保證不同視圖所攜帶的信息差異,最后用譜聚類(lèi)算法進(jìn)行聚類(lèi).采用增廣拉格朗日乘子法對(duì)IEMLRR算法進(jìn)行優(yōu)化,并在五個(gè)數(shù)據(jù)集上驗(yàn)證了算法的有效性.
關(guān)鍵詞:信息熵加權(quán); 多視圖學(xué)習(xí); 低秩表示; 子空間聚類(lèi)
中圖分類(lèi)號(hào):TP391文獻(xiàn)標(biāo)志碼: A
Multi-view subspace clustering algorithm based on
information entropy weighting
LI Shun-yong, XU Xiao-li(School of Mathematics Sciences, Shanxi University, Taiyuan 030006, China)
Abstract:Multi-view datasets are generally distributed across low-dimensional subspace.In order to solve the problem that the amount of information of each view is different when multi-view subspace is clustered,a new multi-view subspace clustering algorithm based on information entropy weighting (IEMLRR) is proposed.First,the subspace representation of each view is obtained under the constraints of the low-rank representation,and when the public subspace representation is obtained,the information entropy weight is used to ensure the information difference carried by different views,and finally the spectral clustering algorithm is used for clustering.The IEMLRR algorithm was optimized by augmented Lagrange multiplier method,and the effectiveness of the algorithm is verified on five datasets.
Key words:information entropy weighting; multi-view learning; low-rank representation; subspace clustering
0引言
在如今的大數(shù)據(jù)時(shí)代,數(shù)據(jù)信息的多樣化使得單視圖數(shù)據(jù)已經(jīng)無(wú)法滿(mǎn)足人們的需要.針對(duì)同一個(gè)事物,多視圖數(shù)據(jù)[1]是通過(guò)提取不同角度的不同特征來(lái)獲取的.子空間聚類(lèi)[2]是恢復(fù)數(shù)據(jù)子空間結(jié)構(gòu)的常用方法,假設(shè)高維數(shù)據(jù)是從低維子空間中近似提取的,子空間聚類(lèi)就是找到這樣的子空間,使數(shù)據(jù)集可以正確分類(lèi).多視圖子空間聚類(lèi)在此基礎(chǔ)上對(duì)不同的視圖進(jìn)行低維子空間表示,并在獲得的最終子空間上進(jìn)行聚類(lèi)[3].多樣性誘導(dǎo)多視角子空間聚類(lèi)[4](DiMSC)在自表示子空間聚類(lèi)框架下,利用希爾伯特-施密特獨(dú)立準(zhǔn)則(HSIC)探索互補(bǔ)信息.低秩張量約束多視圖子空間聚類(lèi)(LT-MSC) [5]探討了這些子空間表示之間的高階相關(guān)性.文獻(xiàn)[6]中的方法將不同的視圖統(tǒng)一為一個(gè)共同的指標(biāo)矩陣,而不是一個(gè)共同的子空間表示,這些方法在每個(gè)視圖中重建數(shù)據(jù)點(diǎn).為了更深刻地探索多視圖數(shù)據(jù)的隱藏結(jié)構(gòu),一系列尋找共享潛在子空間的多視圖聚類(lèi)方法相繼被提出.文獻(xiàn)[7]提出了潛在的多視圖子空間聚類(lèi)算法(LMSC),利用不同的投影矩陣,映射出一個(gè)共同的表示矩陣,然后再進(jìn)行子空間聚類(lèi).2020年,Zhang等[8]提出了基于潛在表示和每個(gè)視圖之間的線(xiàn)性相關(guān)性的線(xiàn)性L(fǎng)MSC(lLMSC)和基于處理一般關(guān)系的神經(jīng)網(wǎng)絡(luò)的廣義LMSC(gLMSC).
稀疏表示(SSC)[9]和低秩表示[10](LRR)揭示了用于子空間聚類(lèi)的高維數(shù)據(jù)的底層結(jié)構(gòu).SSC通過(guò)解決l1范數(shù)最小化問(wèn)題,使用數(shù)據(jù)點(diǎn)的最稀疏表示,顯示了其捕獲高維數(shù)據(jù)局部結(jié)構(gòu)的能力.LRR對(duì)數(shù)據(jù)點(diǎn)施加低秩約束來(lái)尋找子空間結(jié)構(gòu),通過(guò)核范數(shù)最小化的凸優(yōu)化問(wèn)題來(lái)解決,最終獲得高維數(shù)據(jù)的全局結(jié)構(gòu).在2020年,文獻(xiàn)[11]提出的多個(gè)分區(qū)對(duì)齊的聚類(lèi)算法采用了在聚類(lèi)結(jié)果階段進(jìn)行融合,但是融合的方式比較粗糙,容易導(dǎo)致大量信息損失.2020年,張培等[12]提出了一種單步劃分融合多視圖子空間聚類(lèi)算法,之后,文獻(xiàn)[13]在獲得不同視圖的低維子空間表示后,通過(guò)融合得到一個(gè)共享的低維子空間表示,最后進(jìn)行譜聚類(lèi).
針對(duì)多視圖子空間聚類(lèi)時(shí)各視圖信息量不同的問(wèn)題,本文提出了一種新的基于信息熵加權(quán)的多視圖子空間聚類(lèi)算法(Multi-view subspace clustering algorithm based on information entropy weighting,IEMLRR算法).首先使用低秩表示對(duì)每個(gè)視圖的子空間學(xué)習(xí)進(jìn)行約束,然后用一個(gè)公共表示來(lái)保證一致性,在確定公共表示時(shí),通過(guò)信息熵確定每個(gè)視圖的權(quán)重.本文還提出了一個(gè)有效的算法來(lái)解決IEMLRR算法的優(yōu)化問(wèn)題.最后,在五個(gè)數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn),驗(yàn)證了該算法的有效性.
1相關(guān)工作
1.1子空間聚類(lèi)算法
1.2譜聚類(lèi)
1.3多視圖子空間聚類(lèi)
1.4信息熵(簡(jiǎn)稱(chēng)熵)
2本文模型
本節(jié)介紹提出的基于信息熵加權(quán)的多視圖子空間聚類(lèi)算法(IEMLRR算法),并對(duì)此算法進(jìn)行優(yōu)化.
2.1IEMLRR算法
2.2優(yōu)化過(guò)程
2.2.1優(yōu)化w(v)
2.2.2固定w(v),獨(dú)立優(yōu)化單個(gè)視圖中的變量
3實(shí)驗(yàn)與分析
3.1數(shù)據(jù)集介紹
3.2評(píng)價(jià)指標(biāo)
3.3對(duì)比方法介紹
為了驗(yàn)證本文提出算法的有效性,將IEMLRR算法分別與自身三個(gè)變體算法和DiMSC、LMSC、MLRRSC與FMR四個(gè)多視圖聚類(lèi)算法進(jìn)行比較.
IEMLRR算法的三個(gè)變體算法分別為:
(1)LRRbest:?jiǎn)我晥D下的LRR[9]:在每個(gè)視圖特征上運(yùn)行LRR,來(lái)獲得低秩子空間表示,在這些表示上運(yùn)行譜聚類(lèi),選擇最好結(jié)果;
(2)MLRR:在低秩表示約束下的多視圖子空間聚類(lèi)算法,在單個(gè)視圖分別運(yùn)行低秩子空間表示,然后將獲得的子空間表示組合在一起;
(3)WMLRR:在MLRR基礎(chǔ)上,獲得一個(gè)公共的子空間表示,用自適應(yīng)權(quán)重[23]對(duì)視角進(jìn)行加權(quán).
進(jìn)行比對(duì)的四個(gè)多視圖子空間聚類(lèi)算法:
(1)DiMSC[4]:在獲取子空間表示的過(guò)程中,加入希爾伯特-史密斯獨(dú)立性準(zhǔn)則下的多樣性項(xiàng),探索了多視圖表示的互補(bǔ)性;
(2)LMSC[7]:在多個(gè)視圖均來(lái)自同一個(gè)潛在的表示的假設(shè)下,通過(guò)合理的潛在表示和子空間重構(gòu)進(jìn)行約束,最后用潛在表示進(jìn)行聚類(lèi),獲得聚類(lèi)結(jié)果;
(3)MLRRSC[20]:基于低秩和稀疏子空間的聚類(lèi)算法,要求子空間表示矩陣同時(shí)為低秩和稀疏矩陣;
(4)FMR[21]:在希爾伯特-史密斯獨(dú)立性準(zhǔn)則理論支持下,構(gòu)造互補(bǔ)信息的潛在表示項(xiàng),再通過(guò)數(shù)據(jù)重建得到子空間表示.
3.4實(shí)驗(yàn)結(jié)果分析
3.4.1消融性實(shí)驗(yàn)結(jié)果分析
在實(shí)驗(yàn)過(guò)程中,首先對(duì)每組數(shù)據(jù)進(jìn)行歸一化處理,并針對(duì)不同算法進(jìn)行參數(shù)調(diào)優(yōu),最終選取最優(yōu)結(jié)果,每組實(shí)驗(yàn)進(jìn)行30次,獲得聚類(lèi)結(jié)果的平均值和標(biāo)準(zhǔn)差,具體實(shí)驗(yàn)結(jié)果如表4所示.
分析表4可知,與未加權(quán)的MLRR算法和自適應(yīng)加權(quán)算法WMLRR相比,在五個(gè)數(shù)據(jù)集上的各個(gè)評(píng)價(jià)指標(biāo)值均有顯著提升,表明本文提出的IEMLRR算法具有更優(yōu)的聚類(lèi)效果,也說(shuō)明利用不同視角的信息來(lái)進(jìn)行加權(quán)是可取的.
為了更加直觀地體現(xiàn)基于信息熵加權(quán)下每個(gè)視圖權(quán)重的差異,以MSRCV1數(shù)據(jù)集為例,對(duì)MSRCV1數(shù)據(jù)集在IEMLRR算法下最終獲得的最優(yōu)權(quán)重值與單視圖條件下五個(gè)視圖的ACC和NMI進(jìn)行展示,具體如圖1所示.由圖1可以看出,MSRCV1數(shù)據(jù)集在視圖2上聚類(lèi)結(jié)果最好,且視圖2的權(quán)重值最大,表明IEMLRR算法所求各權(quán)重與聚類(lèi)結(jié)果一致.
圖1MSRCV1數(shù)據(jù)集各視圖的權(quán)重及聚類(lèi)效果3.4.2與其他算法對(duì)比實(shí)驗(yàn)結(jié)果分析
對(duì)比IEMLRR算法與其余幾種算法,結(jié)果如表5所示.表5顯示了不同算法的聚類(lèi)性能結(jié)果.與多視圖子空間聚類(lèi)算法DiMSC,基于潛在表示的算法LMSC、FMR,基于低秩稀疏聚類(lèi)算法MLRSSC相比,IEMLRR算法在大部分?jǐn)?shù)據(jù)集上都優(yōu)于其他算法,比如在UCI-digit數(shù)據(jù)集上,本文算法比MLRSSC在ACC和NMI方面分別提高了2.63%和0.95%左右;對(duì)于每個(gè)數(shù)據(jù)集,IEMLRR算法在NMI和ARI上優(yōu)勢(shì)顯著,具體而言,IEMLRR產(chǎn)生的NMI與數(shù)據(jù)集Caltech101-7、BBCsports、MSRCV1、UCI-digit上的其他算法相比,分別至少提高1.36%、3.60%、5.46%、0.95%.
3.5參數(shù)設(shè)置與收斂性分析
3.5.1參數(shù)設(shè)置
實(shí)驗(yàn)過(guò)程中,超參數(shù)λ從集合{1e-2,5e-2,0.1,1,5,10,1e2,5e2,1 000}中選擇.參數(shù)θ在{0.001,0.01,0.1,1,10,100,1 000}中進(jìn)行選擇.懲罰參數(shù)μ從{101,102,103,104}中進(jìn)行選擇,ρ設(shè)置為1.1,maxμ為106,最大迭代次數(shù)設(shè)置為100.
3.5.2收斂性分析
為了實(shí)證IEMLRR算法的收斂性,畫(huà)出本文所提算法在五個(gè)數(shù)據(jù)集上的收斂曲線(xiàn)如圖2所示.在圖2中,三條曲線(xiàn)分別表示三個(gè)收斂條件所計(jì)算出的誤差.可以看出,在迭代次數(shù)大約到50次時(shí),本文提出的IEMLRR算法在五個(gè)數(shù)據(jù)集上均收斂,這表明算法的目標(biāo)值隨著迭代次數(shù)的增加顯著降低,同時(shí)也驗(yàn)證了該算法良好的收斂性.
4結(jié)論
本文提出了一種基于信息熵加權(quán)的多視圖子空間聚類(lèi)算法(IEMLRR算法),該算法的主要特點(diǎn)是在對(duì)子空間進(jìn)行低秩約束的基礎(chǔ)上,學(xué)習(xí)所有視圖的子空間表示,再獲取公共的子空間表示,在這過(guò)程中,引入信息熵來(lái)區(qū)分不同視圖的信息,從而獲得不同視圖對(duì)公共子空間表示的貢獻(xiàn)程度.在五個(gè)多視圖數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該算法的性能優(yōu)先于其他現(xiàn)有的多視圖子空間聚類(lèi)算法.
參考文獻(xiàn)
[1] Zhao J,Xie X,Xu X,et al.Multi-view learning overview:Recent progress and new challenges[J].Information Fusion,2017,38(2):43-54.
[2] Zhan K,Zhang C,Guan J,et al.Graph learning for multi-view clustering[J]. IEEE Transactions on Cybernetics,2017,48(10): 2 887-2 895.
[3] 李順勇,顧嘉成.一種增強(qiáng)的K-prototypes混合數(shù)據(jù)聚類(lèi)算法[J].陜西科技大學(xué)學(xué)報(bào),2021,39(2):183-188.
[4] Cao X C,Zhang C Q,F(xiàn)u H Z,et al.Diversity-induced multi-view subspace clustering[C]//IEEE Conference on Computer Vision and Pattern Recognition.Boston:IEEE,2015:586-594.
[5] Zhang C,F(xiàn)u H,Liu S,et al.Low-rank tensor constrained multi-view subspace clustering[C]//IEEE International Conference on Computer Vision.Santiago:IEEE,2015:1 582-1 590.
[6] Gao H,Nie F,Li X,et al.Multi-view subspace clustering[C]// International Conference on Computer Vision.Santiago:IEEE,2016:4 238-4 246.
[7] Zhang C Q,Hu Q H,F(xiàn)u H Z,et al.Latent multi-view subspace clustering[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition.Honolulu:IEEE,2017:4 279-4 287.
[8] Zhang C Q,F(xiàn)u H Z,Hu Q H,et al.Generalized latent multi-view subspace clustering[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(1):86-99.
[9] Ehsan E,Rene V.Sparse subspace clustering:Algorithm,theory,and applications[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(11):2 765-2 781.
[10] Liu G,Lin Z,Yan S,et al.Robust recovery of subspace structures by low-rank representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):171-184.
[11] Zhao K,Guo Z P,Huang S D,et al.Multiple partitions aligned clustering[C]//Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence.Macao:IJCAI,2019:2 701 -2 707.
[12] 張培,祝恩,蔡志平.單步劃分融合多視圖子空間聚類(lèi)算法[J].計(jì)算機(jī)科學(xué)與探索,2021,15(12):2 413-2 420.
[13] 黃宗超,王思為,祝恩,等.基于子空間融合的多視圖聚類(lèi)算法[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2021,53(1):68-73.
[14] Li R H,Zhang C Q,F(xiàn)u H Z,et al.Reciprocal multi-layer subspace learning for multi-view clustering[C]//International Conference on Computer Vision.Seoul:IEEE,2019:8 171-8 179.
[15] Hu H,Lin Z C,F(xiàn)eng J,et al.Smooth representation clustering[C]//IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:3 834-3 841.
[16] 陳迪,劉驚雷.基于乘法更新規(guī)則的k-means與譜聚類(lèi)的聯(lián)合學(xué)習(xí)[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,57(2):177-188.
[17] 代勁,胡艷.混合粒度多視圖新聞數(shù)據(jù)聚類(lèi)方法[J].小型微型計(jì)算機(jī)系統(tǒng),2021,42(4):719-724.
[18] 曹容瑋,祝繼華,郝問(wèn)裕,等.雙加權(quán)多視角子空間聚類(lèi)算法[J].軟件學(xué)報(bào),2022,33(2):585-597.
[19] 劉金花,王洋,錢(qián)宇華.基于譜結(jié)構(gòu)融合的多視圖聚類(lèi)[J].計(jì)算機(jī)研究與發(fā)展,2022,59(4):922-935.
[20] Brbic M,Kopriva I.Multi-view low-rank sparse subspace clustering[J].Pattern Recognition the Journal of the Pattern Recognition Society,2018,73(8):247-258.
[21] Li R,Zhang C,Hu Q,et al.Flexible multi-view representation learning for subspace clustering[C]//Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence.Macao:IJCAI,2019:2 916-2 922.
【責(zé)任編輯:陳佳】