国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多角度語義標(biāo)簽引導(dǎo)的自監(jiān)督多視圖聚類

2024-12-31 00:00:00柳源安俊秀楊林旺
計(jì)算機(jī)應(yīng)用研究 2024年11期

摘 要:多視圖聚類旨在從多個(gè)角度挖掘?qū)ο蟮奶卣餍畔?,以獲得精準(zhǔn)的聚類結(jié)果。然而,現(xiàn)有研究往往無法妥善處理視圖融合時(shí)產(chǎn)生的信息沖突,并且對(duì)多視圖之間的互補(bǔ)信息利用不夠充分。為解決這些問題,提出了一種由多角度語義標(biāo)簽引導(dǎo)的自監(jiān)督多視圖聚類模型。該模型首先將各視圖的潛在表示映射到獨(dú)立的低維特征空間,在一個(gè)空間中專注于優(yōu)化視圖間的一致性,以維護(hù)特征空間的局部結(jié)構(gòu)和樣本間的相對(duì)關(guān)系;同時(shí),在另一空間中直接從視圖層面提取聚類信息,以捕獲更豐富多樣的語義特征;最后,利用多個(gè)角度語義特征生成的偽標(biāo)簽,引導(dǎo)對(duì)象層面的聚類分配,實(shí)現(xiàn)兩種表示的協(xié)同優(yōu)化。大量實(shí)驗(yàn)結(jié)果表明,該方法能夠全面挖掘多視圖數(shù)據(jù)中的公共信息與互補(bǔ)信息,并展現(xiàn)出良好的聚類性能。此外,相較于其他方法,該方法在視圖數(shù)量較多的場(chǎng)景更具優(yōu)勢(shì)。

關(guān)鍵詞:多視圖聚類;無監(jiān)督學(xué)習(xí);對(duì)比學(xué)習(xí);深度聚類

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)11-022-3357-07

doi:10.19734/j.issn.1001-3695.2024.04.0082

Multi-view clustering with self-supervised learning guided by multi-angle semantic labels

Liu Yuan1,2, An Junxiu1,2?, Yang Linwang1,2

(1.School of Software Engineering, Chengdu University of Information Technology, Chengdu 610000, China; 2.Key Laboratory of Manufactu-ring Industry Chain Collaboration amp; Information Technology Support, Sichuan Province, Chengdu 610000, China)

Abstract:Multi-view clustering aims to explore the feature information of objects from multiple perspectives to obtain accurate clustering results. However, existing research often fails to handle the information conflicts that arise during view fusion and does not fully utilize the complementary information between multiple views. To address these issues, this paper proposed a self-supervised multi-view clustering model guided by multi-angle semantic labels. The model first mapped the latent representations of each view to independent low-dimensional feature spaces, focusing on optimizing the consistency between views in one space to maintain the local structure of the feature space and the relative relationships between samples. At the same time, in another space, clustering information was directly extracted from the view level to capture richer and more diverse semantic features. Finally, pseudo-labels generated from multi-angle semantic features guided the clustering assignment at the object level, achieving collaborative optimization of the two representations. Extensive experimental results demonstrate that this approach can comprehensively explore both common and complementary information in multi-view data and exhibit good clustering performance. Moreover, compared to other methods, this approach has advantages in scenarios with a larger number of views.

Key words:multi-view clustering; unsupervised learning; contrastive learning; deep clustering

0 引言

隨著數(shù)據(jù)采集技術(shù)的多樣化,描述某一對(duì)象的數(shù)據(jù)往往源自不同的數(shù)據(jù)源、領(lǐng)域或視角,從而形成了多視圖數(shù)據(jù)。多視圖數(shù)據(jù)中,每個(gè)視圖都為數(shù)據(jù)對(duì)象提供了一個(gè)獨(dú)特的觀察視角,并可能包含不同的特征類型。多視圖聚類一直都是研究的熱點(diǎn),近些年提出了很多基于經(jīng)典機(jī)器學(xué)習(xí)的多視圖聚類算法[1~3,但這些算法往往只聚焦于數(shù)據(jù)的局部信息,這在很大程度上制約了聚類的效果?;谏疃葘W(xué)習(xí)的多視圖聚類算法4~8通過深度神經(jīng)網(wǎng)絡(luò)將原始數(shù)據(jù)映射到潛在空間,以得到多視圖數(shù)據(jù)的嵌入表示,從而有效地克服了這一問題。

現(xiàn)有的深度多視圖聚類算法主要?jiǎng)澐譃閷?duì)象層聚類方法和視圖層聚類方法兩大類。

a)對(duì)象層聚類方法。如圖1(a)所示,這類方法的關(guān)鍵在于融合同一對(duì)象的多個(gè)視圖特征,從而構(gòu)建出對(duì)象層面的綜合特征,并在此基礎(chǔ)上進(jìn)行聚類操作[9。不過,由于不同視圖的數(shù)據(jù)間存在顯著差異,若直接進(jìn)行融合,可能會(huì)引發(fā)視圖間私有信息的沖突,同時(shí)帶入更多的噪聲信息。這些沖突信息和噪聲在深度神經(jīng)網(wǎng)絡(luò)的傳遞中可能會(huì)被逐步放大,對(duì)聚類算法的性能造成不利影響。另外,該方法在對(duì)象層面進(jìn)行聚類,這在一定程度上犧牲了各視圖的獨(dú)立性,進(jìn)而可能導(dǎo)致視圖間的互補(bǔ)信息流失,無法充分發(fā)掘多視圖數(shù)據(jù)的深層價(jià)值。b)視圖層聚類方法。如圖1(b)所示,這類方法直接在各個(gè)視圖層面對(duì)特征進(jìn)行聚類,然后通過投票或其他確定機(jī)制來判斷對(duì)象的類別。雖然這樣做可以保持各視圖特征的獨(dú)立性,并避免融合時(shí)可能產(chǎn)生的噪聲,但忽略了多視圖之間的一致性信息。所得到的聚類通常只能反映部分視圖的聚類情況,難以完整地揭示對(duì)象的整體特征。正因如此,近年來這類方法在研究中的應(yīng)用逐漸減少。

此外,本文還觀察到,隨著視圖數(shù)量的不斷增加,許多現(xiàn)有模型的性能并未得到預(yù)期的提升,反而呈現(xiàn)出性能下滑的趨勢(shì)。這是因?yàn)橐晥D數(shù)量的增多雖然提供了更豐富的信息,但同時(shí)也伴隨著噪聲的積累和信息沖突的加劇。這些負(fù)面因素相互交織,共同對(duì)模型的聚類效果產(chǎn)生了不利影響。這種現(xiàn)象的根本原因與上文中的討論是一致的,為了更深入地剖析這一現(xiàn)象,本文將在后續(xù)的實(shí)驗(yàn)章節(jié)中進(jìn)行詳盡的分析和探討。

綜上所述,當(dāng)前存在以下亟待解決的問題:a)優(yōu)化視圖融合策略:如何設(shè)計(jì)一種高效的視圖融合方法,以在整合異構(gòu)視圖信息的同時(shí),避免視圖間私有信息的沖突和噪聲的引入;b)平衡視圖一致性與互補(bǔ)性:在維護(hù)對(duì)象層面視圖一致性的基礎(chǔ)上,如何有效利用視圖層面的多視圖互補(bǔ)信息,充分發(fā)揮多視圖數(shù)據(jù)集的優(yōu)勢(shì),實(shí)現(xiàn)更優(yōu)質(zhì)的聚類效果。

針對(duì)上述問題,本文提出了一種由多角度語義信息引導(dǎo)的自監(jiān)督多視圖聚類模型(self-supervised multi-view clustering guided by multi-angle semantic labels,MASL-MVC)。具體來說,針對(duì)第一個(gè)問題,MASL-MVC采用多視圖一致性學(xué)習(xí)策略,通過優(yōu)化視圖一致性對(duì)比學(xué)習(xí)目標(biāo),使模型學(xué)習(xí)到同一對(duì)象不同視圖間的一致性信息,以緩解視圖之間的結(jié)構(gòu)差異,從而避免了直接進(jìn)行視圖融合所引入的信息沖突和噪聲問題。同時(shí),該方法還確保了不同視圖的數(shù)據(jù)在統(tǒng)一分布空間中具有相似的分布特征,以保持特征空間的局部結(jié)構(gòu),同時(shí)維護(hù)樣本間的相對(duì)距離和相似性關(guān)系。對(duì)于第二個(gè)問題,MASL-MVC在獲取聚類信息時(shí),并不依賴于對(duì)象層的融合視圖,而是直接在視圖層的特征上優(yōu)化聚類目標(biāo),從而得到更加細(xì)化的聚類結(jié)構(gòu)。隨后,將聚類標(biāo)簽信息(即視圖的語義特征)從不同角度的視圖層特征轉(zhuǎn)移到對(duì)象層的特征上,使其具備表達(dá)聚類分配的能力。這一過程中,對(duì)象層特征在視圖層語義標(biāo)簽的引導(dǎo)下獲得了表達(dá)聚類分配的能力,同時(shí)視圖層不同角度的語義特征也逐漸趨于一致,從而實(shí)現(xiàn)了視圖一致性與互補(bǔ)性的有效平衡。

值得注意的是,MASL-MVC不同于以往的對(duì)象層聚類方法和視圖層聚類方法,該方法同時(shí)考慮了視圖層面的聚類目標(biāo)優(yōu)化與對(duì)象層面的多視圖一致性目標(biāo)優(yōu)化。為了確保兩者的相對(duì)獨(dú)立性,MASL-MVC將這兩個(gè)過程分配到不同的特征空間中進(jìn)行處理。圖1(c)用一個(gè)簡(jiǎn)單的例子說明MASL-MVC的特點(diǎn)。此外MASL-MVC突破了傳統(tǒng)多視圖深度聚類的兩階段工作模式——即先通過自監(jiān)督學(xué)習(xí)獲取特征表示,再應(yīng)用傳統(tǒng)聚類方法進(jìn)行簇分配。MASL-MVC采用端到端的優(yōu)化模式,不同模塊在優(yōu)化過程中相互協(xié)調(diào)、共同演進(jìn)。

1 相關(guān)工作

多視圖聚類通過利用多個(gè)視角或多個(gè)特征集合的數(shù)據(jù)來提高聚類的準(zhǔn)確性和穩(wěn)定性。傳統(tǒng)的多視圖聚類方法大致可以分為基于非負(fù)矩陣分解的方法[1、基于譜聚類的方法2和基于子空間聚類的方法3三類。近些年來,深度學(xué)習(xí)在多視圖聚類中得到廣泛的應(yīng)用10~13,深度神經(jīng)網(wǎng)絡(luò)利用通過多個(gè)非線性變換的網(wǎng)絡(luò)層來學(xué)習(xí)和提取數(shù)據(jù)的特征表示,性能很大程度上優(yōu)于傳統(tǒng)多視圖聚類方法?;谏疃缺硎緦W(xué)習(xí)的方法是當(dāng)前的主流:文獻(xiàn)[14]提出的SplitAE,利用視圖將輸入數(shù)據(jù)分成多個(gè)子集,并為每個(gè)子集訓(xùn)練一個(gè)獨(dú)立的自動(dòng)編碼器,以實(shí)現(xiàn)特征分離和表示學(xué)習(xí);文獻(xiàn)[15]提出了DCCA,通過在神經(jīng)網(wǎng)絡(luò)的中間層引入一個(gè)正交約束來促進(jìn)相關(guān)性的學(xué)習(xí),目前許多深度聚類方法[16,17都采用了類似的思想。

對(duì)比學(xué)習(xí)是一種無監(jiān)督學(xué)習(xí)方法,旨在通過學(xué)習(xí)數(shù)據(jù)中的相似性和差異性來提取有用的特征表示,學(xué)習(xí)到更具判別性的特征表示。對(duì)比學(xué)習(xí)成為近期無監(jiān)督學(xué)習(xí)研究的熱點(diǎn),在不同任務(wù)中取得了優(yōu)異的表現(xiàn)[18。對(duì)比學(xué)習(xí)最直接的策略是通過數(shù)據(jù)增強(qiáng)來構(gòu)建樣本19。具體來說,正樣本對(duì)由同一對(duì)象的兩個(gè)增廣視圖構(gòu)成,其余則構(gòu)成負(fù)樣本對(duì)。其中較為經(jīng)典的方法有SimCLR[20和MoCo[21等。

近些年來,對(duì)比學(xué)習(xí)在多視圖學(xué)習(xí)領(lǐng)域得到了很多應(yīng)用。一般情況下,對(duì)比學(xué)習(xí)通常用來對(duì)異構(gòu)視圖進(jìn)行對(duì)齊,以得到更好的融合表示[22。文獻(xiàn)[5]較早地將對(duì)比學(xué)習(xí)模塊運(yùn)用于多視圖對(duì)比對(duì)齊,提出CoMVC。后來又將用于特定視圖的自編碼器引入模型,提出了AECoDDC[8。文獻(xiàn)[23]提出Emo-CLIM通過學(xué)習(xí)圖像和音樂音頻之間情感對(duì)齊,來解決從圖像和音樂之間跨模態(tài)檢索任務(wù)。文獻(xiàn)[24]提出了一種基于多視角的時(shí)序多模態(tài)情感分類模型,用于提取特定時(shí)間段,多視角下的關(guān)鍵情感信息。

本文模型采用的多視圖對(duì)比學(xué)習(xí)方法和現(xiàn)有方法存在很大的不同?,F(xiàn)有方法更多將對(duì)比學(xué)習(xí)方法用于視圖對(duì)齊,而本文方法在學(xué)習(xí)多視圖一致性的同時(shí)還將對(duì)比學(xué)習(xí)用于多視圖聚類,以達(dá)到更好的聚類效果,這種方法已經(jīng)在單視圖深度聚類任務(wù)中已經(jīng)被證明是有效的[25,26

2 方法

現(xiàn)有一個(gè)包含N個(gè)數(shù)據(jù)對(duì)象,V個(gè)視圖的多視圖批次數(shù)據(jù)集{xv}Vv=1,其中對(duì)于每一個(gè)視圖xv={xv1,xv2,…,xvn}。這里的xvi表示從視圖v觀察到的樣本對(duì)象xi。最終目標(biāo)是將所有樣本對(duì)象分配到K個(gè)簇中。MASL-MVC模型的整體框架如圖2所示,主要由多視圖一致性對(duì)比學(xué)習(xí)模塊、多視圖對(duì)比聚類模塊,以及視圖融合與語義遷移模塊三大部分組成。模型首先通過編碼器將每個(gè)xvi轉(zhuǎn)換為潛在表示zvi=fvE(xvi),其中fvE表示第v個(gè)視圖的編碼器網(wǎng)絡(luò)。每個(gè)潛在特征zvi經(jīng)過不同的全連接網(wǎng)絡(luò)映射到低維空間和語義空間,分別得到特征tvi和svi。在相應(yīng)的特征空間中,本文分別優(yōu)化對(duì)象級(jí)別的多視圖一致性目標(biāo)和視圖級(jí)別的聚類目標(biāo)。最后,通過融合低維空間特征tvi得到對(duì)象層的融合特征ui,并從多個(gè)視角的語義特征svi中提取聚類信息,從而得出最終的聚類分配。

2.1 多視圖一致性對(duì)比損失

本文方法引入多視圖一致性對(duì)比損失的動(dòng)機(jī)有兩點(diǎn):a)為了學(xué)習(xí)對(duì)象跨多個(gè)視圖的共性;b)為了對(duì)齊多視圖特征表示,以減少不同視圖之間存在的結(jié)構(gòu)差異,有利于后續(xù)的特征融合。

對(duì)比學(xué)習(xí)的目標(biāo)是最大化正例間的相似程度,同時(shí)最小化負(fù)例間的相似程度。在多視圖學(xué)習(xí)中,每個(gè)對(duì)象的不同視圖可以認(rèn)為是對(duì)該對(duì)象從不同角度進(jìn)行的描述,因此本方法將同一對(duì)象的不同視圖設(shè)置為正對(duì),將所有不同對(duì)象的視圖設(shè)置為負(fù)對(duì)。其目的是在低維空間中拉近同一對(duì)象的不同視圖,以得到一致的對(duì)象特征表述。在這里使用較為簡(jiǎn)單的余弦相似度來度量空間中任意兩個(gè)特征a與b之間的相似程度:

sim(a,b)=aTb‖a‖‖b‖(1)

為了學(xué)習(xí)特征的緊湊表示并提取具有區(qū)分性的特征,這里使用一個(gè)全連接投影網(wǎng)絡(luò)gT將視圖潛在特征投射到一個(gè)更低維度的特征空間中,得到低維特征tvi=gT(zvi)。在文獻(xiàn)[20]的基礎(chǔ)上,將NT-Xent損失擴(kuò)展到多視圖。因此,低維的特征空間中任意兩視圖tu和tv的對(duì)比損失定義為

其中:τ1為溫度超參數(shù)。對(duì)于所有視圖,累積的多視圖一致性損失表示為

其中:k(u≠v)是判別函數(shù),當(dāng)u≠v成立時(shí)其值為1,否則為0。

2.2 多視圖對(duì)比聚類損失

多視圖對(duì)比聚類損失用于獲得樣本的聚類分配,使同一類中的數(shù)據(jù)點(diǎn)彼此靠近,而不同類中的數(shù)據(jù)點(diǎn)彼此遠(yuǎn)離。值得注意的是,這個(gè)過程不是在對(duì)象層面上進(jìn)行的,而是在視圖層面上進(jìn)行的,其目標(biāo)是形成簇分配,以最大程度地利用視圖的互補(bǔ)信息進(jìn)行聚類。這里使用一個(gè)全連接網(wǎng)絡(luò)gS和softmax函數(shù)將潛在變量zvi投影到K維的語義特征空間中,得到視圖的語義特征svi=softmax (gS(zvi))。在語義特征空間中,將某個(gè)對(duì)象的語義特征svi作為該對(duì)象特定視圖的聚類分配。

多視圖一致性目標(biāo)對(duì)應(yīng)于批次樣本視圖矩陣的行,而多視圖聚類目標(biāo)則對(duì)應(yīng)于批次樣本視圖矩陣的列。形式上,設(shè)sv∈?N×K是任意視圖一個(gè)小批次數(shù)據(jù)經(jīng)過gS和softmax變換后的輸出矩陣,那么矩陣元素svi,k就可以表示在第v個(gè)視圖中,第i個(gè)樣本被分配給第k個(gè)簇的概率。為了方便表示多視圖對(duì)比聚類損失將vi記作sv的列向量。

使用式(2)計(jì)算viuj之間的余弦相似度,將語義空間中任意兩視圖之間的多視圖對(duì)比聚類損失定義為

其中:τ2為溫度超參數(shù)。多視圖對(duì)比聚類損失表示為

其中:pvk=1N∑Ni=1Svi,k,而k(u≠v)是判別函數(shù),當(dāng)u≠v成立時(shí)其值為1,否則為0。式(5)中,第一項(xiàng)表示多視圖聚類,第二項(xiàng)為聚類分配的熵,考慮了每個(gè)實(shí)例被分配到不同聚類的概率分布,使算法傾向于生成更具多樣性和區(qū)分度的聚類結(jié)果。

2.3 多角度語義標(biāo)簽信息轉(zhuǎn)移

為了得到多視圖共同表示,還需要第i個(gè)對(duì)象的不同視圖的低維特征tvi進(jìn)行融合,以得到該樣本對(duì)象在低維特征空間中不同視圖的融合特征ui=1V∑Vv=1tvi,隨后將融合特征通過一個(gè)全連接網(wǎng)絡(luò)gC和一個(gè)softmax激活函數(shù),得到融合特征的聚類分配ci=softmax(gC(ui))。

模型學(xué)習(xí)到的聚類信息目前只存在于語義特征svi中,而ci尚不具備表達(dá)聚類分配的能力。這里將語義特征svi看做包含高可信度語義信息的偽標(biāo)簽,接下來將不同視圖偽標(biāo)簽上的語義信息轉(zhuǎn)移到融合特征上,使模型學(xué)習(xí)到表達(dá)多視圖聚類信息的能力。這里通過最小化多個(gè)角度語義特征svi和與融合視圖特征ci之間的交叉熵?fù)p失的累計(jì)值來實(shí)現(xiàn)此目標(biāo):

其中:svi表示不同視圖的語義特征,而ci表示融合視圖的聚類分配。優(yōu)化目標(biāo)損失?tra的過程可以認(rèn)為是以ci作為偽標(biāo)簽,svi作為目標(biāo)的弱監(jiān)督學(xué)習(xí)。但值得注意的是,這個(gè)過程是雙向進(jìn)行的,在語義信息從語義特征轉(zhuǎn)移到融合視圖上時(shí),多個(gè)視圖的語義特征在這個(gè)過程中也逐漸趨向于多視圖的共同表示。從本質(zhì)上講,損失?tra促使了不同特征空間中的信息交互。

2.4 優(yōu)化

總目標(biāo)損失函數(shù)由多視圖一致性損失、多視圖對(duì)比聚類損失、語義信息轉(zhuǎn)移損失三部分構(gòu)成。

訓(xùn)練之前,首先使用自編碼器[27進(jìn)行預(yù)訓(xùn)練,獲得編碼器的初始權(quán)重,隨后將解碼器部分丟棄,進(jìn)行正式訓(xùn)練。使用常用的反向傳播算法對(duì)模型進(jìn)行優(yōu)化,算法1給出了完整的優(yōu)化過程。

3 實(shí)驗(yàn)設(shè)置

3.1 數(shù)據(jù)集

本文選擇五個(gè)多視圖數(shù)據(jù)集對(duì)模型進(jìn)行評(píng)估,表1對(duì)這些數(shù)據(jù)集進(jìn)行了簡(jiǎn)要描述。MNIST [28是一個(gè)大型手寫數(shù)字?jǐn)?shù)據(jù),廣泛用于訓(xùn)練各種圖像處理系統(tǒng),根據(jù)文獻(xiàn)[9],本文構(gòu)建具有2個(gè)視圖的MNIST-2V,每個(gè)對(duì)象的不同視圖代表不同人的書寫風(fēng)格。BDGP[29是一個(gè)包含2 500份屬于5個(gè)不同發(fā)育階段的果蠅胚胎圖像和相關(guān)解剖注釋文本的數(shù)據(jù)集。CCV[30包含6 773個(gè)互聯(lián)網(wǎng)視頻數(shù)據(jù)樣本,這些視頻被標(biāo)記為20個(gè)不同類型,從三種不同的角度來構(gòu)建三視圖數(shù)據(jù)集。Caltech[31是一個(gè)RGB圖像數(shù)據(jù)集,為了進(jìn)一步驗(yàn)證本文模型性能隨視圖數(shù)量變化的特點(diǎn),在實(shí)驗(yàn)中以Caltech為基礎(chǔ)構(gòu)造四個(gè)子數(shù)據(jù)集,它們分別是Caltech-2、Caltech-3、Caltech-4和Caltech-5,每個(gè)版本都在前一個(gè)基礎(chǔ)上添加了一種新的視圖。MSRC[32是一個(gè)圖像數(shù)據(jù)集,由屬于七個(gè)類的210個(gè)對(duì)象組成。同樣的,在實(shí)驗(yàn)中以MSRC為基礎(chǔ)構(gòu)造了MSRC-2V、MSRC-3V、MSRC-4V和MSRC-5V,每個(gè)版本都在前一個(gè)基礎(chǔ)上添加了一種新的視圖。

3.2 對(duì)比方法與評(píng)價(jià)指標(biāo)

將本文模型與經(jīng)典方法以及近些年提出的一些先進(jìn)的聚類方法進(jìn)行比較,其中包括K-means、EAMC[4、SiMVC[5、Co-MVC[5、Multi-VAE[9、IMVC-CBG[6、WM-NMF[7、AECoDDC[8。在使用K-means算法時(shí),直接對(duì)多視圖數(shù)據(jù)進(jìn)行拼接,然后進(jìn)行聚類。

為了評(píng)估本文模型的性能,選擇聚類準(zhǔn)確度(ACC)和歸一化互信息(NMI)兩種常見的聚類算法評(píng)估指標(biāo)來評(píng)估這些算法的性能,它們的值越高代表聚類結(jié)果越好。

3.3 實(shí)現(xiàn)細(xì)節(jié)

本文模型使用PyTorch平臺(tái)實(shí)現(xiàn),使用Adam算法對(duì)模型進(jìn)行優(yōu)化。所有的實(shí)驗(yàn)均在一臺(tái)配有Intel Core i7-8700 3.20 GHz CPU、GeForce RTX 3060 GPU 和32 GB RAM 的計(jì)算機(jī)上進(jìn)行。學(xué)習(xí)率設(shè)置為0.000 1,超參數(shù)τ1和τ2分別設(shè)置為0.5和1.0。在本文模型中使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,使用全連接網(wǎng)絡(luò)提取其他類型數(shù)據(jù)特征。

4 結(jié)果與分析

4.1 對(duì)比實(shí)驗(yàn)

對(duì)本文模型與其他最新的多視圖聚類模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果記錄在表2中。其中加粗表示最好的結(jié)果??梢钥闯?,本文模型幾乎在所有數(shù)據(jù)集中都達(dá)到了最好的效果。

在MNIST-2V數(shù)據(jù)集中,本文模型在ACC指標(biāo)上取得最優(yōu)結(jié)果,在NMI指標(biāo)上取得次優(yōu)結(jié)果。與傳統(tǒng)聚類方法相比,幾乎所有的深度聚類算法都取得了更好的結(jié)果。這主要?dú)w因于深度學(xué)習(xí)模型具有強(qiáng)大的特征提取能力。在具有挑戰(zhàn)性的CCV數(shù)據(jù)集中,本文模型在ACC和NMI指標(biāo)上分別比次優(yōu)值高出10.87%和11.36%。這主要?dú)w因于本文模型使用的對(duì)比學(xué)習(xí)方法能夠更好地學(xué)習(xí)到跨視圖特征,并充分利用多視圖一致性信息。同時(shí),在BDGP數(shù)據(jù)集中,本文模型的ACC和NMI指標(biāo)比同樣使用對(duì)比學(xué)習(xí)方法的AECoDDC分別高出19.63%和25.56%。這是由于AECoDDC僅僅從視圖對(duì)齊的角度進(jìn)行對(duì)比學(xué)習(xí),而本文模型將對(duì)比學(xué)習(xí)的方法用于多視圖一致性和多視圖聚類學(xué)習(xí)中,從而能夠獲得更好的聚類效果。以上這些結(jié)論在其他數(shù)據(jù)集中都有所體現(xiàn)。

更值得注意的是,在具有較多視圖數(shù)量的Caltec-5V數(shù)據(jù)集中,本文模型的ACC和NMI指標(biāo)分別比次優(yōu)值高出19.89%和11.35%。這充分表明相對(duì)于其他模型,本文模型能夠更好地從多個(gè)數(shù)據(jù)集中挖掘有價(jià)值的信息。

為了進(jìn)一步驗(yàn)證本文模型性能隨視圖數(shù)量變化的特點(diǎn),在Caltech和MSRC數(shù)據(jù)集的基礎(chǔ)上構(gòu)建了多個(gè)具有不同視圖數(shù)量的子數(shù)據(jù)集,并與其他四種具有代表性的模型進(jìn)行對(duì)比,結(jié)果如圖3所示。本文模型聚類性能隨著視圖數(shù)量的增加而上升,在Caltech-5V上的ACC指標(biāo)相比于在Caltech-2V上的ACC指標(biāo)提升了39.71%,在MSRC-5V上的ACC指標(biāo)相比于在MSRC-2V上的ACC指標(biāo)提升了31.07%。足以證明,本文模型能夠更好地利用多個(gè)視圖的一致信息和各互補(bǔ)信息,充分發(fā)揮多視圖學(xué)習(xí)的優(yōu)勢(shì)。同時(shí),本文模型避免僅將融合視圖的聚類目標(biāo)作為最終聚類目標(biāo),從而降低了隨著視圖數(shù)量增多私有噪聲信息對(duì)視圖融合所帶來的不利影響。相比之下,EMAC的聚類性能會(huì)隨著視圖數(shù)量的增長(zhǎng)而下降,WM-NMF和AECoDDC對(duì)于視圖數(shù)量的變化并不穩(wěn)定,而Multi-VAE利用解糾纏表示學(xué)習(xí)[9雖然在一定程度上避免了多視圖糾纏所造成的干擾,但沒有充分利用視圖互補(bǔ)信息提升聚類性能。

4.2 聚類過程分析

在MNIST-2V數(shù)據(jù)集上的實(shí)驗(yàn)展示MASI-MVC的特征學(xué)習(xí)與特征轉(zhuǎn)移過程,如圖4所示。初始階段,視圖語義特征僅能表示較差的私有視圖的語義信息,并且低維特征空間中的融合特征也無法表達(dá)聚類分配。隨著訓(xùn)練的進(jìn)行,語義特征學(xué)習(xí)到更多聚類信息,融合特征也學(xué)習(xí)到更多視圖一致性表示。通過將語義特征作為融合視圖的優(yōu)化目標(biāo),將語義特征中包含的聚類信息轉(zhuǎn)移到融合特征上,提高了融合特征的聚類性能。需要注意的是,在這個(gè)過程中語義特征也逐漸趨向于多視圖共同表示,兩者通過不斷的交互達(dá)到最終的平衡狀態(tài)。

使用t-SNE [33技術(shù)對(duì)上面的過程進(jìn)行可視化分析,結(jié)果如圖5所示。從訓(xùn)練過程來看(圖5中每行從左到右),初始分配是混亂的。但隨著訓(xùn)練的進(jìn)行,同類型對(duì)象逐漸聚集,不同對(duì)象逐漸分離,這與多視圖對(duì)比聚類損失的目的是一致的。從不同層次特征的角度來看。視圖語義特征(圖5前兩行)更傾向于表達(dá)聚類的簇結(jié)構(gòu),而低維特征空間中的融合特征(圖5第三行)擁有更好的跨視圖的樣本一致表示。

4.3 消融研究

4.3.1 損失項(xiàng)的作用

在損失項(xiàng)消融實(shí)驗(yàn)中設(shè)計(jì)了四種損失項(xiàng)組合,以驗(yàn)證式(7)中各損失項(xiàng)的有效性,表3給出了這四種組合分別在MNIST-2V和MSRC-5V數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。其中組合3中的損失項(xiàng)使模型具備了最基本的聚類能力,組合4構(gòu)成MASI-MVC完整的損失函數(shù)。

損失項(xiàng)clu的目的在于獲得視圖級(jí)別的聚類分配結(jié)果,這是多視圖聚類的基本目標(biāo)。將clu從組合4中刪除,得到組合1。通過對(duì)比組合1和5的實(shí)驗(yàn)結(jié)果,可見組合1基本不具備聚類能力,這證明了多視圖對(duì)比聚類損失的有效性。損失項(xiàng)tra的目標(biāo)在于將多個(gè)視圖的語義信息轉(zhuǎn)移到中間特征的共同表示中,如果沒有tra將無法獲得最終共同表示的聚類分配。組合2僅包括clu,而組合3除了clu之外還包括tra。從實(shí)驗(yàn)結(jié)果來看,組合3的性能優(yōu)于組合2,這證明了tra的有效性。在組合3的基礎(chǔ)上,添加損失項(xiàng)vie得到組合4。從實(shí)驗(yàn)結(jié)果來看,組合4的聚類性能優(yōu)于組合3,證明了對(duì)象級(jí)一致性目標(biāo)的積極作用。

4.3.2 方案的有效性

為了證明現(xiàn)有方案所存在的問題,以及本文模型在多視圖聚類問題中的有效性,本部分實(shí)驗(yàn)在原方案的基礎(chǔ)上設(shè)計(jì)了MASL-MVC-α、MASL-MVC-β和MASL-MVC-γ三種變體與MASL-MVC進(jìn)行對(duì)比。其中MASL-MVC-α不加入兩個(gè)對(duì)比損失,在多視圖融合特征上直接采用唯一的聚類目標(biāo),這也是多視圖聚類中最常用的方案。具體的做法是將tra損失和gS網(wǎng)絡(luò)替換為深度散度損失(DDC)[34與其推薦的網(wǎng)絡(luò)結(jié)構(gòu)在共同表示上進(jìn)行聚類。其目的在于驗(yàn)證直接進(jìn)行特征融合并在融合特征上優(yōu)化單一的聚類目標(biāo)所存在的問題。與之相反,MASL-MVC-β和使用無融合的方案,其不再對(duì)低維特征tvi行融合,而是直接對(duì)多視圖的語義特征svi行求和,以獲得最終聚類分配。其主要目的是為了驗(yàn)證良好的視圖特征融合對(duì)于多視圖聚類的必要性。此外,為驗(yàn)證映射網(wǎng)絡(luò)gT積極作用,設(shè)計(jì)了MASL-MVC-γ。該方案不使用映射網(wǎng)絡(luò)去除gT,并直接在潛在空間中學(xué)習(xí)多視圖一致性。

對(duì)比結(jié)果如表4所示,原方案的各項(xiàng)聚類結(jié)果τ1均優(yōu)于其他變體形式。對(duì)于MASL-MVC-α來說,視圖融合將私有視圖的噪聲引入共同視圖,會(huì)使噪聲所帶來的負(fù)面影響在網(wǎng)絡(luò)中被逐步放大。對(duì)于MASL-MVC-β來說,由于不對(duì)特征進(jìn)行融合,雖然在一定程度上避免了私有視圖的噪聲問題,但是缺少多視圖的共同特征所帶來的更全面、穩(wěn)定和一致的表示,因此其聚類效果相對(duì)于原方案較差。MASL-MVC-γ則證明了映射網(wǎng)絡(luò)的重要性,這與其他研究一致28,35。

4.3.3 批次大小的影響

一般認(rèn)為,在對(duì)比學(xué)習(xí)中,更大的批次提供更多的負(fù)例,以促進(jìn)模型的收斂,從而獲得更好的特征表示[20。然而這個(gè)結(jié)論并不完全適用于基于對(duì)比學(xué)習(xí)的多視圖深度聚類任務(wù)。表5反映了通過在不同數(shù)據(jù)集上的實(shí)驗(yàn)得到聚類性能與批次大小的關(guān)系,聚類性能并不隨著批次大小的增加而增加,甚至出現(xiàn)了小幅度的下降??赡苡幸韵聝煞矫嬖颍篴)用于評(píng)價(jià)對(duì)比學(xué)習(xí)的數(shù)據(jù)集包含大量分類,需要批次數(shù)據(jù)中盡可能覆蓋所有類別的樣本,以達(dá)到廣泛對(duì)比的目的。但是與之不同,無論在現(xiàn)實(shí)世界還是在現(xiàn)有研究中,多視圖聚類任務(wù)所涉及到的數(shù)據(jù)集中類的數(shù)量通常較少。因此在批次數(shù)量遠(yuǎn)大于類別數(shù)量的情況下,聚類性能對(duì)于批次數(shù)量變化并不是很敏感。b)本文模型除了基于對(duì)比學(xué)習(xí)損失之外,也包括其他模塊。對(duì)于其他模塊而言,簡(jiǎn)單地提升批次大小未必能夠帶來更好的效果。

4.4 參數(shù)敏感性分析和收斂分析

式(2)(4)中的τ2是對(duì)比學(xué)習(xí)中涉及到的溫度超參數(shù),采用網(wǎng)格搜索策略來測(cè)試這兩個(gè)超參數(shù)的對(duì)模型產(chǎn)生的影響。圖6展示了MNIST-2V數(shù)據(jù)集上τ1與τ2不同的組合對(duì)模型性能的影響情況??梢钥闯觯疚哪P褪堞?sub>1與τ2的影響很小,τ1取值在0.4~0.6,τ2取值接近1時(shí)模型聚類效果達(dá)到最佳。在MNIST-2V上進(jìn)行的收斂分析實(shí)驗(yàn)結(jié)果如圖7所示。損失值在訓(xùn)練初期快速下降,隨后趨于穩(wěn)定,同時(shí)聚類效果能夠在訓(xùn)練初期快速達(dá)到最優(yōu)水平。這說明本文模型具有很好的收斂性。

4.5 模型應(yīng)用研究

本節(jié)實(shí)驗(yàn)旨在驗(yàn)證MASL-MVC在處理實(shí)際聚類問題中的可用性。實(shí)驗(yàn)以新聞主題聚類為例,使用了1 100條新聞數(shù)據(jù),數(shù)據(jù)來源于互聯(lián)網(wǎng)2024年4月1日到2024年5月5日的8個(gè)主題的熱點(diǎn)新聞,如表6所示。每條新聞都有一個(gè)主題標(biāo)簽作為真實(shí)類別,用于實(shí)驗(yàn)結(jié)果評(píng)估。在進(jìn)行聚類之前,對(duì)新聞標(biāo)題和正文進(jìn)行了預(yù)處理和特征提取。預(yù)處理包括關(guān)鍵詞的提取和去除停用詞,并使用TF-IDF進(jìn)行向量化得到特征作為模型輸入。

聚類分析結(jié)果如表7所示。每個(gè)簇表示一個(gè)聚類,其中包括主題、簇內(nèi)樣本數(shù)和正確樣本數(shù)。對(duì)于每個(gè)簇,通過找到其中占主導(dǎo)地位的真實(shí)類別作為該簇的主題。在1 100個(gè)樣本中,其中762個(gè)樣本被正確聚類,聚類準(zhǔn)確度達(dá)到0.69。這表明該模型在處理實(shí)際問題的過程中具有一定的可用性,并能夠從數(shù)據(jù)中發(fā)現(xiàn)潛在的模式和相似性。然而,對(duì)于一些簇(如簇序號(hào)7和8),正確樣本數(shù)較低,可能需要進(jìn)一步針對(duì)實(shí)際問題進(jìn)行優(yōu)化,以提高聚類準(zhǔn)確性。

5 結(jié)束語

本文提出了由多角度語義信息引導(dǎo)的自監(jiān)督多視圖聚類。大量實(shí)驗(yàn)表明,本文模型在多視圖聚類性能方面達(dá)到了最先進(jìn)的水平。相比于其他模型, 本文模型有效避免視圖融合過程中噪聲的影響,同時(shí)也充分地利用多視圖數(shù)據(jù)集的信息,特別適合用于具有較多視圖的聚類任務(wù)。該模型作為一種多視圖特征學(xué)習(xí)模型能夠適用于各種下游任務(wù),在多視角醫(yī)學(xué)影像識(shí)別、多模態(tài)社交網(wǎng)絡(luò)分析、生物信息學(xué)等領(lǐng)域存在很大的潛力。然而,本文模型目前不具備對(duì)視圖重要性進(jìn)行排序的能力。下一步將嘗試在模型中引入自動(dòng)權(quán)重模塊,以學(xué)習(xí)到不同視圖的重要性。此外,模型對(duì)于不完整多視圖的學(xué)習(xí)能力也值得進(jìn)一步研究。

參考文獻(xiàn):

[1]Zhao Handong, Ding Zhengming, Fu Yun. Multi-view clustering via deep matrix factorization [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2017: 2921-2927.

[2]Kumar A, Rai P, Daume H. Co-regularized multi-view spectral clustering [C]// Proc of the 24th International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc.,2011: 1413-1421.

[3]Li Ruihuang, Zhang Changqing, Fu Huazhu, et al. Reciprocal multi-layer subspace learning for multi-view clustering [C]// Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2019: 8172-8180.

[4]Zhou Runwu, Shen Yidong. End-to-end adversarial-attention network for multi-modal clustering [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 14619-14628.

[5]Trosten D J, Lokse S, Jenssen R, et al. Reconsidering representation alignment for multi-view clustering [C]// Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 1255-1265.

[6]Wang Siwei, Liu Xinwang, Liu Li, et al. Highly-efficient incomplete large-scale multi-view clustering with consensus bipartite graph [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 9776-9785.

[7]Liu Shuoshuo, Lin Lin. Adaptive weighted multi-view clustering [C]// Proc of Conference on Health, Inference, and Learning. 2023: 19-36.

[8]Trosten D J, L?kse S, Jenssen R, et al. On the effects of self-supervision and contrastive alignment in deep multi-view clustering [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 23976-23985.

[9]Xu Jie, Ren Yazhou, Tang Huayi, et al. Multi-VAE: learning disentangled view-common and view-peculiar visual representations for multi-view clustering [C]// Proc of IEEE/CVF International Confe-rence on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 9234-9243.

[10]趙偉豪, 林浩申, 曹傳杰, 等. 基于相似圖投影學(xué)習(xí)的多視圖聚類 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(1): 102-107, 115. (Zhao Weihao, Lin Haoshen, Cao Chuanjie, et al. Multi-view clustering based on similarity graph projection learning [J]. Application Research of Computers, 2024, 41(1): 102-107, 115.)

[11]趙振廷, 趙旭俊. 多樣性約束和高階信息挖掘的多視圖聚類 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(8):2309-2314. (Zhao Zhen-ting, Zhao Xujun. Multi-view clustering with diversity constraints and high-order information mining [J]. Application Research of Computers, 2024, 41(8):2309-2314.)

[12]朱玄燁, 孔兵, 陳紅梅, 等. 困難樣本采樣聯(lián)合對(duì)比增強(qiáng)的深度圖聚類 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(6):1769-1777. (Zhu Xuanye, Kong Bing, Chen Hongmei, et al. Deep graph clustering with hard sample sampling joint contrastive augmentation [J]. Application Research of Computers, 2024, 41(6):1769-1777.)

[13]宋菲. 基于聚類結(jié)構(gòu)和局部相似性的多視圖隱空間聚類 [J]. 計(jì)算機(jī)應(yīng)用研究, 2023,40(9):2650-2656. (Song Fei. Multi-view latent subspace clustering with cluster structure and local similarity [J]. Application Research of Computers, 2023, 40(9): 2650-2656.)

[14]Wang Weiran, Arora R, Livescu K, et al. On deep multi-view representation learning [C]//Proc of the 32nd International Conference on Machine Learning. 2015: 1083-1092.

[15]Andrew G, Arora R, Bilmes J, et al. Deep canonical correlation analysis [C]//Proc of the 30th International Conference on Machine Learning. 2013: 1247-1255.

[16]Cai Xiaosha, Huang Dong, Zhang Guangyu, et al. Seeking commonness and inconsistencies: a jointly smoothed approach to multi-view subspace clustering [J]. Information Fusion, 2023, 91: 364-375.

[17]Wang Qianqian, Tao Zhiqiang, Gao Quanxue, et al. Multi-view subspace clustering via structured multi-pathway network [J]. IEEE Trans on Neural Networks and Learning Systems, 2024, 35 (5): 7244-7250.

[18]Moummad I, Serizel R, Farrugia N. Pretraining representations for bioacoustic few-shot detection using supervised contrastive learning [C]//Proc of Conference on Detection and Classification of Acoustic Scenes and Events. 2023: hal-04383609.

[19]Dosovitskiy A, Fischer P, Springenberg J T, et al. Discriminative unsupervised feature learning with exemplar convolutional neural networks [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2016, 38(9): 1734-1747.

[20]Chen Ting, Kornblith S, Norouzi M et al. A simple framework for contrastive learning of visual representations [C]//Proc of International Conference on Machine Learning. 2020: 1597-1607.

[21]He Kaiming, Fan Haoqi, Wu Yuxin, et al. Momentum contrast for unsupervised visual representation learning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 9729-9738.

[22]Guo Xifeng, Gao Long, Liu Xinwang, et al. Improved deep embedded clustering with local structure preservation [C]// Proc of the 26th International Joint Conference on Artificial Intelligence. 2017: 1753-1759.

[23]Stewart S, Avramidis K, Feng Tiantian, et al. Emotion-aligned con-trastive learning between images and music [C]// Proc of Internatio-nal Conference on Acoustics, Speech and Signal Processing. Pisca-taway, NJ: IEEE Press, 2024: 8135-8139.

[24]陶全檜, 安俊秀, 戴宇睿, 等. 基于多視角學(xué)習(xí)的時(shí)序多模態(tài)情感分類研究 [J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40(1): 102-106. (Tao Quanhui, An Junxiu, Dai Yurui, et al. Temporal multimodal sentiment classification based on multi-view learning [J]. Application Research of Computers, 2023, 40(1): 102-106.)

[25]Li Yunfan, Hu Peng, Liu Zitao, et al. Contrastive clustering [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2021: 8547-8555.

[26]Deng Xiaozhi, Huang Dong, Chen Dinghua, et al. Strongly augmented contrastive clustering [J]. Pattern Recognition, 2023, 139: 109470.

[27]Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks [J]. Science, 2006, 313(5786): 504-507.

[28]LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[29]Cai Xiao, Wang Hua, Huang Heng, et al. Joint stage recognition and anatomical annotation of drosophila gene expression patterns [J]. Bioinformatics, 2012, 28(12): i16-i24.

[30]Jiang Yugang, Ye Guangnan, Chang S F, et al. Consumer video understanding: a benchmark database and an evaluation of human and machine performance [C]// Proc of the 1st ACM International Conference on Multimedia Retrieval. New York: ACM Press, 2011: 1-8.

[31]Li Feifei, Fergus R, Perona P. Learning generative visual models from few training examples: an incremental Bayesian approach tested on 101 object categories [C]//Proc of Conference on Computer Vision and Pattern Recognition Workshop. Piscataway, NJ: IEEE Press, 2004: 178-178.

[32]Winn J, Jojic N. Locus: learning object classes with unsupervised segmentation [C]// Proc of the 10th IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2005: 756-763.

[33]Van Der Maaten L, Hinton G. Visualizing data using t-SNE [J]. Journal of Machine Learning Research, 2008, 9(11): 2579-2605.

[34]Kampffmeyer M, L?kse S, Bianchi F M, et al. Deep divergence-based approach to clustering [J]. Neural Networks, 2019, 113: 91-101.

[35]Wu Zhirong, Xiong Yuanjun, Yu S X, et al. Unsupervised feature learning via non-parametric instance discrimination [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 3733-3742.

宜春市| 读书| 台中县| 淮北市| 务川| 贵州省| 清水河县| 丹寨县| 鄯善县| 阿鲁科尔沁旗| 榕江县| 宝清县| 平度市| 卫辉市| 桐庐县| 海林市| 海城市| 怀安县| 连云港市| 黄浦区| 兴安盟| 元江| 日照市| 沿河| 通榆县| 丹凤县| 洞头县| 中江县| 化隆| 潜江市| 台东市| 郎溪县| 通城县| 正宁县| 乐清市| 新化县| 科尔| 托克逊县| 南宫市| 普格县| 沈丘县|