国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多樣性約束和高階信息挖掘的多視圖聚類

2024-08-15 00:00趙振廷趙旭俊

摘 要:在現(xiàn)有的多視圖聚類研究中,大多數(shù)方法沒有考慮多視圖的多樣性,也沒有關(guān)注數(shù)據(jù)的高階鄰域信息,導(dǎo)致聚類結(jié)果不夠準(zhǔn)確,難以挖掘數(shù)據(jù)集的底層信息。為了解決這些問題,提出了基于多樣性約束和高階信息挖掘的多視圖聚類算法(MVCDCHO)。首先設(shè)計(jì)了視圖間多樣性測量的方法,利用多樣性的約束保留數(shù)據(jù)的交集特征,同時(shí)去除多視圖的差異特征;然后提出了一種挖掘視圖高階信息的方法,要求多視圖的交集特征接近混合相似圖,以挖掘數(shù)據(jù)間相關(guān)性所沒有關(guān)注到的高階信息;最后將多視圖的交集特征融合成共識(shí)圖,通過譜聚類來獲取聚類目標(biāo)圖;另外,設(shè)計(jì)了一種交替迭代的方法來迭代學(xué)習(xí)優(yōu)化目標(biāo)函數(shù)。實(shí)驗(yàn)結(jié)果表明,MVCDCHO在歸一化互信息(NMI)、調(diào)整后的蘭德指數(shù)(ARI)、聚類精度(ACC)多個(gè)聚類評價(jià)指標(biāo)上表現(xiàn)出優(yōu)異的性能。理論分析和實(shí)驗(yàn)研究驗(yàn)證了MVCDCHO中多視圖多樣性和高階信息的關(guān)鍵作用,證明了MVCDCHO的優(yōu)越性。

關(guān)鍵詞:多視圖聚類; 多樣性; 一致性; 高階信息

中圖分類號(hào):TP399 文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2024)08-009-2309-06

doi:10.19734/j.issn.1001-3695.2023.12.0615

Multi-view clustering with diversity constraints and high-order information mining

Zhao Zhenting, Zhao Xujun

(School of Computer Science & Technology, Taiyuan University of Science & Technology, Taiyuan 030024, China)

Abstract:In the current research on multi-view clustering, the majority of methods have not adequately considered the diversity of multiple views nor focused on the high-order neighborhood information of the data, which leds to clustering results that lack accuracy and struggle to uncover the underlying information in datasets. To address these issues, this paper proposed a multi-view clustering method based on diversity constraints and high-order information mining(MVCDCHO). Firstly, it designed a method for measuring diversity between views, utilizing diversity constraints to preserve the intersection features of the data while eliminating differing features across multiple views. Subsequently, it introduced a method for mining high-order information in views, requiring the intersection features of multiple views to approximate a mixed similarity graph, thereby extracting high-order information in data correlations that has been overlooked. Finally, it fused the intersection features of multiple views into a consensus graph and employ spectral clustering to obtain the clustering target graph. Additionally, it designed an alternating iterative method, iteratively learning to optimize the objective function. The experimental results show that MVCDCHO has excellent performance on the normalized mutual information(NMI), the adjusted Rand index(ARI), and the clustering accuracy(ACC). Theoretical analysis and experimental study underscore the crucial role of multi-view diversity and high-order information in the MVCDCHO algorithm, providing evidence for its superiority.

Key words:multi-view clustering; diversity; consistency; high-order information

0 引言

近些年來,隨著人們獲取和處理信息的方式日益多樣化,已經(jīng)可以從現(xiàn)實(shí)世界的各個(gè)應(yīng)用領(lǐng)域中獲取大量的數(shù)據(jù)。這些數(shù)據(jù)是多視圖數(shù)據(jù),通常包含來自多種模態(tài)或多個(gè)視角的異構(gòu)特征。隨著多視圖數(shù)據(jù)的不斷涌現(xiàn),單一視圖的分析方法在處理多模態(tài)數(shù)據(jù)時(shí)顯得力不從心,多視圖聚類就成為了應(yīng)對復(fù)雜多模態(tài)數(shù)據(jù)分析的重要工具。例如,在生物醫(yī)學(xué)研究中,一種藥物,自己的化學(xué)結(jié)構(gòu)和在與不同細(xì)胞中的化學(xué)反應(yīng)可以被看作不同的視圖;一種蛋白質(zhì),自己的序列和在不同細(xì)胞中的基因表達(dá)值可以被看作不同的特征[1]。利用多視圖聚類有助于發(fā)現(xiàn)新的藥物結(jié)構(gòu)、預(yù)測藥物在不同細(xì)胞中的活性,優(yōu)化藥物設(shè)計(jì),以及提高疾病分類和診斷的準(zhǔn)確性。在金融領(lǐng)域,面臨著從多個(gè)角度收集的數(shù)據(jù),如客戶的交易歷史、行為模式和信用評分等。這些信息可以被看作是不同的視圖,反映了客戶在金融系統(tǒng)中的多個(gè)方面。通過采用多視圖聚類算法,可以更好地理解客戶群體的行為模式,并檢測異常交易模式或潛在的欺詐行為。這種綜合多視圖的方法有助于提高金融風(fēng)險(xiǎn)管理的效果,為金融機(jī)構(gòu)提供更精確的風(fēng)險(xiǎn)評估和預(yù)測工具。多視圖聚類旨在整合來自不同視圖或數(shù)據(jù)源的信息,以更全面和準(zhǔn)確地揭示數(shù)據(jù)之間的關(guān)系,為數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)提供更強(qiáng)大的工具。與傳統(tǒng)的單視圖聚類方法相比,多視圖聚類能夠更好地處理異構(gòu)特征,充分利用多模態(tài)數(shù)據(jù)的信息,從而提高聚類結(jié)果的質(zhì)量和可解釋性。多視圖聚類在許多領(lǐng)域都有著廣泛的應(yīng)用,包括圖像分析、生物醫(yī)學(xué)研究、金融風(fēng)險(xiǎn)評估、文本挖掘、社交網(wǎng)絡(luò)分析等。

盡管現(xiàn)有算法已經(jīng)從各方面提高了聚類的性能,但大多數(shù)方法仍有一定的局限性。首先,現(xiàn)有很多方法嚴(yán)重依賴視圖之間的一致性信息,忽視了多視圖的多樣性信息,這導(dǎo)致了它們?nèi)菀资艿降唾|(zhì)量或帶有噪聲的數(shù)據(jù)集的干擾,從而影響了聚類結(jié)果的質(zhì)量。其次,主要關(guān)注樣本之間的直接關(guān)系,即樣本間的相似性。但是,樣本不僅與它的鄰居相似,而且還與其鄰居的鄰居相似。所以,直接關(guān)系中的信息并不完全,導(dǎo)致了未能準(zhǔn)確地提取隱藏在高階鄰近中有價(jià)值的信息。最后,現(xiàn)有聚類方法通常使用分多個(gè)階段進(jìn)行的策略,這導(dǎo)致了協(xié)同處理不同階段之間的挑戰(zhàn),限制了聚類性能的提升。

針對上述問題,本文提出了一種基于多樣性約束和高階信息挖掘的多視圖聚類(multi-view clustering with diversity constraints and high-order information mining,MVCDCHO),將多視圖的多樣性學(xué)習(xí)、高階信息的挖掘、一致性學(xué)習(xí)以及譜聚類集成到一個(gè)框架中進(jìn)行聯(lián)合優(yōu)化學(xué)習(xí),有效減少了信息的丟失,避免了多步策略帶來的次優(yōu)結(jié)果。首先,本文設(shè)計(jì)了數(shù)據(jù)間多樣性測量的方法,將多個(gè)視圖的數(shù)據(jù)分離成交集特征和差異特征,通過對多樣性的約束保留數(shù)據(jù)的交集特征,同時(shí)去除差異特征;其次,提出了一種挖掘視圖高階信息的方法,通過要求多視圖的交集特征接近混合相似圖,準(zhǔn)確地提取數(shù)據(jù)間相關(guān)性所沒有關(guān)注到的高階信息;最后,在將交集特征進(jìn)行圖融合后,對共識(shí)圖進(jìn)行譜聚類操作實(shí)現(xiàn)多視圖聚類;此外,設(shè)計(jì)了一種有效的交替迭代方法,用于優(yōu)化聚類的目標(biāo)函數(shù)。

1 相關(guān)工作

1.1 多視圖聚類

近年來,多視圖聚類受到學(xué)術(shù)界以及工業(yè)界的廣泛關(guān)注,從不同的角度開發(fā)了很多的多視圖聚類算法。

協(xié)同訓(xùn)練的思想是將多個(gè)獨(dú)立的模型組合在一起,并讓它們相互學(xué)習(xí)和提供反饋,以改進(jìn)每個(gè)模型的性能。Zhou等人[2]提出了一種半監(jiān)督回歸算法,采用協(xié)同訓(xùn)練風(fēng)格。該算法利用兩個(gè)回歸量去相互標(biāo)記未標(biāo)記數(shù)據(jù),通過均方誤差減少量估計(jì)置信度,以有效地利用未標(biāo)記數(shù)據(jù)來改進(jìn)回歸估計(jì)。Zhang等人[3]提出一種新的協(xié)同訓(xùn)練算法,通過數(shù)據(jù)編輯技術(shù)估計(jì)分類器對未標(biāo)記示例的預(yù)測置信度,并在不同視圖之間傳遞高置信度的預(yù)測標(biāo)簽。然而,當(dāng)不同視圖之間的相關(guān)性較低時(shí),協(xié)同訓(xùn)練可能面臨一些限制。首先,不同視圖提供的信息可能差異較大,使得協(xié)同訓(xùn)練難以有效整合多視圖信息,因?yàn)槟P屯ǔMㄟ^共享信息來提高性能,但當(dāng)不同視圖之間缺乏明顯關(guān)聯(lián)時(shí),模型之間的協(xié)同學(xué)習(xí)可能受到限制;其次,協(xié)同訓(xùn)練通常依賴于共享參數(shù)或交替訓(xùn)練的方式,以最大程度地利用各個(gè)視圖的信息,在不同視圖相關(guān)性較低的情況下,這可能導(dǎo)致優(yōu)化問題的復(fù)雜性增加,使得模型難以收斂或陷入局部最優(yōu)。因此,協(xié)同訓(xùn)練可能無法有效利用多視圖信息,導(dǎo)致性能下降。在設(shè)計(jì)協(xié)同訓(xùn)練方法時(shí)需要認(rèn)識(shí)到這些局限性,并尋求解決方案以提高在復(fù)雜多視圖數(shù)據(jù)下的性能。

多視圖的圖聚類是一種利用多個(gè)不同視角或特征表示的數(shù)據(jù)進(jìn)行聚類分析的方法。通過綜合多個(gè)視圖的信息,以獲得更準(zhǔn)確和全面的聚類結(jié)果。AWP方法[4]對單視點(diǎn)光譜聚類的光譜旋轉(zhuǎn)技術(shù)進(jìn)行多視點(diǎn)擴(kuò)展,提出了自適應(yīng)加權(quán)方法以克服權(quán)重平均在多視圖任務(wù)中的局限。Tang等人[1]提出了一種統(tǒng)一的一步多視點(diǎn)光譜聚類方法,通過整合光譜嵌入和K-means到一個(gè)統(tǒng)一的框架中,直接從統(tǒng)一圖中獲取離散聚類標(biāo)簽,避免了信息丟失。劉金花等人[5]在譜嵌入階段實(shí)施多視圖信息的融合,以減少噪聲和數(shù)據(jù)差異的影響,并在聯(lián)合優(yōu)化學(xué)習(xí)中整合了圖學(xué)習(xí)和譜聚類,有效提高了模型的性能。GMC[6]的學(xué)習(xí)方法是能夠相互學(xué)習(xí)每個(gè)視圖的圖矩陣和統(tǒng)一圖矩陣的一體化框架,自動(dòng)加權(quán)每個(gè)數(shù)據(jù)圖矩陣并自然地劃分?jǐn)?shù)據(jù)點(diǎn)為所需數(shù)量的聚類。Chen等人[7]提出的基于低秩張量的接近學(xué)習(xí)方法,通過將多個(gè)低秩概率親和矩陣疊加在一個(gè)低秩約束張量中,綜合考慮多個(gè)視圖間的全面性和高階相關(guān)性,并將特定視圖表示的自適應(yīng)置信度與共識(shí)指標(biāo)圖結(jié)合起來。

多視圖子空間是用于處理多視圖數(shù)據(jù)的一種數(shù)據(jù)表示和分析方法,通過結(jié)合不同視圖的子空間來獲得更全面、更準(zhǔn)確的數(shù)據(jù)描述和分析結(jié)果。Lin等人[8]通過對不同特征賦予權(quán)重,并在特定于視圖的自表示特征空間中捕獲數(shù)據(jù)的局部信息,以提高視圖聚類的性能。該方法采用了聚類分配正則化來保持多視圖的一致性,并通過增廣拉格朗日乘子的交替迭代算法進(jìn)行優(yōu)化。DiMSC[9]擴(kuò)展了現(xiàn)有的子空間聚類方法,以適用于多視圖數(shù)據(jù)。它不僅考慮了數(shù)據(jù)的子空間結(jié)構(gòu),還考慮了不同視圖之間的互補(bǔ)性。CSMSC方法[10]將一致性和特異性結(jié)合起來用于子空間表示學(xué)習(xí),部署了一個(gè)通用的一致表示和一組特定的表示來制定多視圖設(shè)置中的自表達(dá)屬性。趙興旺等人[11]提出一種基于二部圖的聯(lián)合譜嵌入多視圖聚類算法,通過考慮多視圖數(shù)據(jù)的鄰域關(guān)系和重要性,以及引入聚類指示矩陣的方式,實(shí)現(xiàn)了更準(zhǔn)確和魯棒的聚類。

1.2 高階信息

高階的鄰域關(guān)系已經(jīng)被開發(fā)出了很多方法。L-MSC[12]利用多個(gè)視圖的互補(bǔ)信息,同時(shí)尋找底層潛在表示,考慮具有低秩約束的展開張量來捕獲高階相關(guān)性。Wang等人[13]探索多視圖數(shù)據(jù)中的高階統(tǒng)計(jì)量來增強(qiáng)多視圖聚類,將高階相似性和高階相關(guān)性整合到自適應(yīng)學(xué)習(xí)模型中,更加全面地挖掘內(nèi)在的聚類結(jié)構(gòu)。李理等人[14]通過將高維多視圖數(shù)據(jù)投影到低維嵌入空間,學(xué)習(xí)到干凈字典以消除冗余信息和噪聲對聚類性能的影響。將低秩投影融入基于張量學(xué)習(xí)的多視圖子空間聚類框架,充分挖掘多視圖數(shù)據(jù)的高階信息。SCMV-3DT[15]基于三階張量空間的t積來處理多視圖聚類問題,通過考慮多個(gè)視圖之間的高階統(tǒng)計(jì)信息,增強(qiáng)了對多視圖數(shù)據(jù)的潛在子空間結(jié)構(gòu)的恢復(fù),從而提高了聚類性能。

上述方法中仍然存在一些缺點(diǎn):a)這些方法中大多數(shù)只是處理多視圖的一致性信息,忽視了多視圖的多樣性信息;b)大多數(shù)方法只是考慮數(shù)據(jù)的一階相似度信息,沒有考慮多數(shù)據(jù)的高階相似度信息。這些方法由于在數(shù)據(jù)處理中對這些信息的忽視,可能會(huì)影響聚類的效果。相反,MVCDCHO模型可以利用多視圖的多樣性信息以及挖掘多視圖的高階信息。

2 相關(guān)理論基礎(chǔ)

本章回顧了多視圖的多樣性以及高階信息探索的知識(shí)。主要使用的符號(hào)如表1所示。

2.1 視圖間的多樣性測量

為了測量多視圖的多樣性,將初始圖S(v)分解為交集特征A(v)和差異特征E(v),表示為

S(v)=A(v)+E(v)(1)

其中:A(v),E(v)∈Euclid Math TwoRApn×n≥0。這里的關(guān)鍵是找到矩陣A(v)、E(v)。這種差異特征可以被視為一個(gè)更普遍的概念,它不僅可能是由噪聲引起,還可能是由各個(gè)視圖特定的不同類型特征引發(fā)的。在相似圖上,噪聲通常被認(rèn)為是稀疏的,但差異特征不是稀疏的。因此,在相似圖上處處可能出現(xiàn)差異。這樣,圖內(nèi)的稀疏性不再是檢測多樣性的合理考慮因素,并且差異特征應(yīng)該是彼此有差異的,因?yàn)闆]有差異就等于是交集特征而不是差異特征了。文獻(xiàn)[16]假設(shè)差異部分在視圖之間稀疏,將多視圖的差異特征E(v)乘積,如果視圖之間的多樣性稀疏,則差異特征的乘積之和應(yīng)較小,文獻(xiàn)[16]中有

η∑Vv,u=1v≠usum((E(v))☉(E(u)))(2)

其中:η是一個(gè)權(quán)衡參數(shù)。式(2)明確地衡量了不同觀點(diǎn)之間的多樣性。同時(shí),因?yàn)檫€希望每個(gè)視圖內(nèi)的差異特征較小,設(shè)θ也表示一個(gè)權(quán)衡參數(shù),可以表述為

θ∑Vv=1sum((E(v))☉(E(v)))(3)

2.2 高階信息探索

在這里進(jìn)一步探索特征空間中的相似信息。相似度是數(shù)據(jù)點(diǎn)之間的基本關(guān)系,利用高階關(guān)系學(xué)習(xí)有價(jià)值的信息。文獻(xiàn)[17]定義n階圖是Wnv=Wn-1v×W1v,Wnv是相似圖。為了挖掘高階鄰域關(guān)系的信息,將混合相似圖定義為

fv(W)=W1v+W2v+…+Wnv(4)

其中:一階鄰近關(guān)系是節(jié)點(diǎn)間最直觀的關(guān)系,而無窮級相互作用關(guān)系是移動(dòng)無窮步后的穩(wěn)定關(guān)系。假設(shè)一階和無窮階相似圖包含了大部分信息,則定義n→∞時(shí)代價(jià)最小的混合相似圖為

fv(W)=W1v+Wnv(5)

為了結(jié)合多視圖的高階信息,要求A(v)接近混合相似圖,用數(shù)學(xué)公式表示為

minγv,A(1)…A(V)∑Vv=1γv‖A(v)-fv(W)‖2F(6)

3 多樣性約束和高階信息挖掘的多視圖聚類

為了解決大多數(shù)多視圖聚類的方法沒有考慮到多視圖的多樣性以及沒有充分考慮到高階鄰域信息的問題,提出了MVCDCHO的多視圖聚類方法,并展示了方法的優(yōu)化求解過程。

3.1 多樣性約束和高階信息挖掘的多視圖聚類

為了提高多視圖聚類的性能,提出了一個(gè)將多視圖的一致性學(xué)習(xí)、多樣性學(xué)習(xí)以及挖掘多視圖的高階信息聯(lián)合學(xué)習(xí)的框架。圖1給出了MVCDCHO模型的框架圖,主要分為多樣性約束和高階信息挖掘兩部分。在進(jìn)行數(shù)據(jù)處理后,通過圖融合得到共識(shí)圖U,對共識(shí)圖U進(jìn)行譜聚類操作得到F指標(biāo)矩陣,獲得聚類結(jié)果。在目標(biāo)函數(shù)中,利用多樣性約束以及挖掘到的高階信息之后的交集特征來構(gòu)建目標(biāo)圖,而非依賴最初的相似圖,從而提高適應(yīng)真實(shí)世界數(shù)據(jù)集的性能。利用E(v)=S(v)-A(v)和sum((E(v))☉(E(u)))=Tr(E(v)(E(u))T),將式(3)(6)合并得到目標(biāo)函數(shù):

minγv,A(1)…A(V),U,F(xiàn)∑Vv,u=1wvuγvγuTr((S(v)-A(v))(S(u)-A(u))T)+

∑Vv=1γv‖A(v)-fv(W)‖2F+∑Vv=1γv‖A(v)-U‖2F+α‖U‖2F+μTr(FTLUF)

s.t. LTγ=1,γ≥0,S(v)≥A(v)≥0

uTL=1,U≥0,F(xiàn)TF=I,rank(LU)=n-c(7)

其中:第一項(xiàng)是測量視圖間的多樣性,使視圖中的多樣性稀疏,目的是統(tǒng)一視圖中的多樣性;第二項(xiàng)是探索視圖中的高階信息,挖掘視圖間的高階信息,利用高階關(guān)系學(xué)習(xí)有價(jià)值的信息;第三、四項(xiàng)是圖融合,它是通過將各個(gè)視圖的交集特征A(v)線性組合,最終獲得共識(shí)圖U;第五項(xiàng)是用譜聚類求解共識(shí)圖,引入U(xiǎn)的拉普拉斯矩陣LU,通過譜聚類實(shí)現(xiàn)圖聚類,將得到的k個(gè)連通分量組成最終的特征矩陣F,使用K-means聚類來對數(shù)據(jù)進(jìn)行最終的聚類,這里的α、μ是權(quán)衡參數(shù)。

3.2 優(yōu)化過程

為了求解式(7),采用交替迭代最小化優(yōu)化方案。分別固定U,A(1),…,A(V),F(xiàn)求解γv,固定γv,A(1),…,A(V),F(xiàn)求解U,固定U,γv,F(xiàn)求解A(1),…,A(V),固定γv,A(1),…,A(V),U求解F,將優(yōu)化分成四個(gè)部分,每次優(yōu)化一個(gè)問題,通過迭代這個(gè)過程不斷優(yōu)化,直至目標(biāo)函數(shù)收斂即完成優(yōu)化方案。在優(yōu)化方案中,對于γv,A(1),…,A(V),因?yàn)椴缓们蠼?,將其轉(zhuǎn)換成求解二次規(guī)劃問題,為了獲得二次規(guī)劃中的P、q,將目標(biāo)函數(shù)式(7)轉(zhuǎn)換成不同的形式,如式(9)(10)所示。

f(γv,A(1),…,A(V),U,F(xiàn))=

∑Vv,u=1wvuγvγu∑i,j((S(v)ij-A(v)ij)(S(u)ij-A(u)ij)T)+∑Vv=1γv∑i,j(A(v)ij-Uij)2+∑Vv=1γv∑i,j(A(v)-fv(W))2+

α∑i,jU2ij+μTr(FTLUF)=(8)

∑i,j∑Vv,u=1wvuTr((S(v)-A(v))(S(u)-A(u))T)γvγu+

∑Vv=1(‖A(v)-fv(W)‖2F+‖A(v)-U‖2F)γv+C1=(9)

∑i,j∑Vv=1(2γv(A(v)ij)2+∑Vu=1wvuγvγuA(v)ijA(u)ij)-

2∑Vv=1γv(fv(W)+Uij+∑Vu=1γuwvuS(v)ij)A(v)ij+C2(10)

1)固定U,A(1),…,A(V),F(xiàn)求解γv

定義γ=(γ1,γ2,…,γv),將目標(biāo)函數(shù)表示為二次規(guī)劃問題

minγ12γTPγ+qTγ s.t. γ>0,l·γ=1(11)

根據(jù)式(9)可以知道,這里的P∈Euclid Math TwoRApV×V并且由公式中的二次項(xiàng)以及一次項(xiàng)可得

q=∑Vv=1(‖A(v)-fv(W)‖2F+‖A(v)-U‖2F)(12)

P=∑Vv,u=1wvuTr((S(v)-A(v))(S(u)-A(u))T)(13)

2)固定γv,A(1),…,A(V),F(xiàn)求解U

當(dāng)固定γv,A(1),…,A(V),F(xiàn)時(shí),式(7)可以簡化成

∑Vv=1γv‖A(v)-U‖2F+α‖U‖2F(14)

對其進(jìn)行求導(dǎo),令導(dǎo)數(shù)等于零,則有

U=∑Vv=1γvA(v)α+1(15)

3)固定U,γv,F(xiàn)求解A(1),…,A(V)

對于一對固定的(i,j),設(shè)x=[A(1)ij,…,A(v)ij]T是A的對應(yīng)列,所以通過式(10)可以看出,公式是關(guān)于x的二次函數(shù),所以可以將目標(biāo)函數(shù)表示為一個(gè)有上界和下界的二次規(guī)劃問題:

minγ12xTPx+qTx s.t. 0≤x≤u(16)

其中:u=[S(1)ij,…,S(v)ij]T,要對每一個(gè)(i,j)求解二次規(guī)劃,容易知道這些QP問題中的下界為0,上界為S。由式(10)中的二次項(xiàng)以及一次項(xiàng)可知

P=∑Vv=1(2γv+∑Vu=1wvuγvγu)(17)

q=-2∑Vv=1γv(fv(W)+Uij+∑Vu=1γuwvuS(v)ij)(18)

4)固定γv,A(1),…,A(V),U求解F

當(dāng)固定γv,A(1),…,A(V),U,式(7)可以簡化成minF μTr(FTLUF)(19)

最優(yōu)解F可由LU的c個(gè)最小特征值對應(yīng)的c個(gè)特征向量得到。在迭代優(yōu)化的方案中,變量γv,A(1),…,A(V),U和F可以以相互作用的方式迭代更新,直到收斂。

優(yōu)化過程的每次迭代都會(huì)減小目標(biāo)函數(shù)式(7)的目標(biāo)函數(shù)值。在這里根據(jù)文獻(xiàn)[17],確定定義下界是10-5。在實(shí)驗(yàn)過程中,監(jiān)測目標(biāo)函數(shù)的變化情況,觀察到在算法不斷迭代中,所有的目標(biāo)函數(shù)值都是不斷下降并趨近于10-5時(shí),算法收斂,因此定義下界是10-5?;诙鄻有约s束和高階信息探索的多視圖聚類算法(MVCDCHO)的詳細(xì)步驟如算法1所示。

算法1 MVCDCHO

輸入:算法最大迭代次數(shù)N;數(shù)據(jù)點(diǎn)X1,…,XV ;參數(shù)θ,η,α,μ。

輸出:聚類的結(jié)果,聚類指標(biāo)ACC,NMI,ARI。

a)初始化相似圖S并且設(shè)每個(gè)視圖的權(quán)重γv=1V

b)通過式(4)求出混合高階相似圖fv(W)

c)while 目標(biāo)函數(shù)值>10-5 do

通過式(12)(13)更新γv,式(9)對目標(biāo)函數(shù)進(jìn)行計(jì)算推導(dǎo),用求解二次規(guī)劃的方法更新γv

通過式(15)更新U,將目標(biāo)函數(shù)化簡成式(14),通過求導(dǎo)更新U

通過式(17)(18)更新A1,…,AV,式(10)對目標(biāo)函數(shù)進(jìn)行計(jì)算推導(dǎo),用求解二次規(guī)劃的方法更新A1,…,AV

通過式(19)對共識(shí)圖U進(jìn)行譜聚類操作,先獲得特征矩陣F,再對特征矩陣F中的k個(gè)連通分量使用K-means聚類處理

end while

d)獲得聚類指標(biāo)ACC,NMI,ARI,U上的聚類結(jié)果

4 實(shí)驗(yàn)分析

4.1 實(shí)驗(yàn)設(shè)置

為了評估提出的基于多樣性約束和高階信息挖掘的多視圖聚類(MVCDCHO)方法的效果,實(shí)驗(yàn)中采用了如下的幾個(gè)基準(zhǔn)的多視圖數(shù)據(jù)集進(jìn)行對比分析。

a)Yale。該數(shù)據(jù)集是一個(gè)廣泛用于計(jì)算機(jī)視覺和模式識(shí)別研究的人臉圖像數(shù)據(jù)集。這個(gè)數(shù)據(jù)集以耶魯大學(xué)的名字命名,包含來自15個(gè)不同人的165張人臉圖像。每個(gè)人都提供了11個(gè)不同的表情或姿勢,以及各種光照條件下的圖像。

b)ORL。該數(shù)據(jù)集是一個(gè)用于人臉識(shí)別研究的常用數(shù)據(jù)集。它由意大利Pentland實(shí)驗(yàn)室的研究人員創(chuàng)建,包含了40個(gè)不同人的400張灰度人臉圖像。每個(gè)人提供了10張不同姿勢和表情的圖像,這些圖像在相機(jī)中以不同的光照條件捕獲。

c)BBCSport。該數(shù)據(jù)集包含來自BBCSport網(wǎng)站的體育新聞文章,總共包含大約544條新聞文章樣本。這些樣本被分為五個(gè)不同的體育主題類別,通常包括足球、網(wǎng)球、籃球、田徑和汽車賽車等。

d)UCI。該數(shù)據(jù)集是一個(gè)用于機(jī)器學(xué)習(xí)和模式識(shí)別研究的手寫數(shù)字識(shí)別數(shù)據(jù)集。該數(shù)據(jù)集包含了手寫數(shù)字0~9的圖像樣本。每個(gè)數(shù)字類別都有200個(gè)不同的樣本,共有2 000個(gè)樣本。

用于對比的11種方法分別是AASC[18]、GMC[6]、AWP[5]、RMSC[19]、CSMSC[10]、L-MSC[12]、DiMSC[9]、WMSC[20]、SCMV-3DT[15]、SGMF-GS[21]和SGMF-KO[21] 。通過歸一化互信息(NMI)、調(diào)整后的蘭德指數(shù)(ARI)、聚類精度(ACC)三個(gè)廣泛使用的指標(biāo)來衡量聚類性能。

4.2 參數(shù)敏感性分析

本文方法有四個(gè)自由參數(shù)需要調(diào)優(yōu),分別是θ、η、α、μ。設(shè)置這些參數(shù)在相同的范圍{10-4,10-3,10-2,…,104}。在圖2、3中展示了這些參數(shù)在不同數(shù)據(jù)集上的聚類性能。

從圖2可以看出,參數(shù)θ、η在一定的范圍內(nèi)是穩(wěn)定的,表明該參數(shù)沒有那么敏感。由于參數(shù)θ、η在取值為103、10時(shí)各數(shù)據(jù)集的聚類都能取得較好結(jié)果,最終固定參數(shù)θ=103,η=10。從圖3(a)分析可知,當(dāng)參數(shù)α的值過小時(shí),它帶來的影響并不明顯,然而若取值α過大,則會(huì)引起強(qiáng)烈的約束,導(dǎo)致聚類性能的下降,也表明α對調(diào)節(jié)目標(biāo)函數(shù)還是很重要的。從圖3(b)可以發(fā)現(xiàn),參數(shù)η會(huì)影響譜聚類的性能,可以看出隨著參數(shù)的增大,準(zhǔn)確率跟著上升,直到峰值隨著參數(shù)的繼續(xù)增大準(zhǔn)確率會(huì)逐漸下降。這兩者都在這個(gè)范圍內(nèi)顯示出峰值,說明模型對參數(shù)α、μ是魯棒的。因此,為了提高模型參數(shù)調(diào)整的效率,在比較實(shí)驗(yàn)中選擇參數(shù)α=10,μ=102。

4.3 實(shí)驗(yàn)對比與分析

將MVCDCHO與11種聚類算法進(jìn)行了對比實(shí)驗(yàn),表2~5以及圖4分別報(bào)告了在不同數(shù)據(jù)集下,用不同方法得到的ACC、NMI、ARI的詳細(xì)聚類結(jié)果。在每個(gè)表的不同數(shù)據(jù)集中,采用粗體強(qiáng)調(diào)了各個(gè)度量方面的最佳性能。從這幾個(gè)表中可以觀察到:

a)MVCDCHO幾乎在所有的數(shù)據(jù)集上都取得了最佳的聚類性能結(jié)果,證明了該方法在所有數(shù)據(jù)集上的魯棒性。例如,在Yale數(shù)據(jù)集上,其在ACC和NMI方面比次優(yōu)方法大約提高了0.8和0.9百分點(diǎn)。

b)MVCDCHO通過將多視圖的交集特征融合后再進(jìn)行聯(lián)合聚類優(yōu)化,不但去除了多視圖中的噪點(diǎn)與損失,而且挖掘了多視圖中的高階信息,還通過譜聚類直接獲得聚類結(jié)果,防止分步策略帶來的次優(yōu)結(jié)果。不同于RMSC通過標(biāo)準(zhǔn)馬爾可夫鏈進(jìn)行譜聚類,不同于DiMSC挖掘互補(bǔ)信息來增強(qiáng)多視圖聚類,也不同于L-MSC、SCMV-3DT通過使用張量來挖掘高階信息,MVCDCHO引入混合相似圖,讓交集特征接近混合相似圖來挖掘高階信息,通過使用拉普拉斯矩陣求解特征向量實(shí)現(xiàn)多視圖聚類。從實(shí)驗(yàn)結(jié)果可以看出,MVCDCHO可以更合理地挖掘多視圖數(shù)據(jù)中隱藏的高階信息,使聚類效果更加準(zhǔn)確和可靠。

c)MVCDCHO優(yōu)于AASC、RMSC以及對每個(gè)視圖進(jìn)行自適應(yīng)加權(quán)的GMC、AWP、WMSC,這可以解釋為對比方法沒有考慮多視圖間的不一致性。然而,MVCDCHO充分考慮了多視圖間的不一致性,從而獲得了更好的聚類結(jié)果。

d)對于DiMSC、CSMSC,與MVCDCHO相似,都是選擇融合的方法來尋求一致的類簇結(jié)構(gòu),CSMSC將一致性和特異性結(jié)合起來用于子空間表示學(xué)習(xí),DiMSC探索多視圖表示的互補(bǔ)性,與MVCDCHO不同的是,用不同的方法去除噪聲以及挖掘高階信息,不同的操作必然會(huì)對最終結(jié)果造成影響。從實(shí)驗(yàn)結(jié)果可以看出,MVCDCHO優(yōu)于DiMSC、CSMSC,只有在BBCSport數(shù)據(jù)集下,ARI指標(biāo)略低于CSMSC,因?yàn)镸VCDCHO主要針對的是聚類的準(zhǔn)確性,而且ARI的差距不大,可以忽略。

e)與L-MSC、SGMF-GS、SGMF-KO等相比,它們的性能不如MVCDCHO,可能是忽略了多視圖數(shù)據(jù)的高階相似度信息。而MVCDCHO挖掘了多視圖數(shù)據(jù)之間更深層次的信息,獲得多視圖數(shù)據(jù)的高階相似度信息,所以在聚類性能的提升上取得了突破。

f)圖4進(jìn)一步分析了本文方法在直觀上優(yōu)越的潛在原因,展示了不同方法在UCI數(shù)據(jù)集上的可視化,從圖中可以看出,每個(gè)方法都使數(shù)據(jù)得到了很好的恢復(fù)。MVCDCHO的聚類結(jié)果優(yōu)于其他算法,尤其是GMC、DiMSC,其中GMC忽略了多視圖的多樣性,DiMSC沒有考慮隱藏在多視圖的高階信息。相比SCMV-3DT,MVCDCHO有更好的數(shù)據(jù)結(jié)構(gòu),即塊對角結(jié)構(gòu),驗(yàn)證了MVCDCHO的有效性和魯棒性。

4.4 收斂性分析

對四個(gè)數(shù)據(jù)集上的收斂性進(jìn)行實(shí)驗(yàn)研究,圖5展示了MVCDCHO在四個(gè)不同數(shù)據(jù)集上的收斂曲線,從圖中可以看出,目標(biāo)函數(shù)值的曲線是收斂的,隨著迭代次數(shù)的增加,目標(biāo)函數(shù)值逐漸下降后保持穩(wěn)定,并且都可以在20次迭代中收斂,證明了MVCDCHO收斂穩(wěn)定。

4.5 權(quán)重分析

在MVCDCHO達(dá)到收斂后,確定了多視圖聚類中的每個(gè)視圖的權(quán)重,圖6展示了MVCDCHO在不同數(shù)據(jù)集中不同視圖的權(quán)重配比。從圖中可以看出,該算法在權(quán)重分配時(shí)并未使用極化或零權(quán)重的策略,而是基于每個(gè)視圖在算法中的重要性進(jìn)行自適應(yīng)分配。實(shí)驗(yàn)結(jié)果顯示了MVCDCHO在處理多視圖數(shù)據(jù)時(shí)的有效性,通過迭代學(xué)習(xí)調(diào)整權(quán)重配比,提高了聚類性能。

5 結(jié)束語

本文主要提出了一種基于多樣性約束和高階信息挖掘的多視圖聚類算法(MVCDCHO),該算法同時(shí)利用了多視圖的一致性部分、多樣性部分以及高階信息探索。具體地說,該算法利用多視圖的多樣性去除視圖間的噪聲,然后通過要求交集特征等于混合相似圖探索高階信息,在將多視圖的交集特征融合成共識(shí)圖后,用譜聚類實(shí)現(xiàn)圖聚類,先獲得特征矩陣F,再對特征矩陣F中的k個(gè)連通分量使用K-means進(jìn)行聚類處理。采用交替迭代優(yōu)化方案,分別優(yōu)化多視圖的權(quán)重、多視圖的交集特征和多視圖的共識(shí)圖,每個(gè)子任務(wù)可以通過協(xié)同優(yōu)化其他子任務(wù)的結(jié)果來達(dá)到更好的性能。理論分析和實(shí)驗(yàn)結(jié)果均強(qiáng)調(diào)了多視圖多樣性和高階信息的關(guān)鍵作用。

參考文獻(xiàn):

[1]Tang Chang, Liu Xinwang, Zhu Xinzhong, et al. CGD: multi-view clustering via cross-view graph diffusion[C]//Proc of AAAI Confe-rence on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 5924-5931.

[2]Zhou Zhihua, Li Ming. Semisupervised regression with cotraining-style algorithms[J]. IEEE Trans on Knowledge and Data Engineering, 2007,19(11): 1479-1493.

[3]Zhang Mingling, Zhou Zhihua. CoTrade: confident co-training with data editing[J]. IEEE Trans on Systems, Man, and Cyberne-tics, Part B, 2011, 41(6): 1612-1626.

[4]Nie Feiping, Lai Tian, Li Xuelong. Multiview clustering via adaptively weighted procrustes[C]//Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM Press, 2018: 2022-2030.

[5]劉金花, 汪洋, 錢宇華. 基于譜結(jié)構(gòu)融合的多視圖聚類[J]. 計(jì)算機(jī)研究與發(fā)展, 2022, 59(4): 922-935. (Liu Jinhua, Wang Yang, Qian Yuhua. Multi-view clustering based on spectral structure fusion[J]. Journal of Computer Research and Development, 2022, 59(4): 922-935.)

[6]Wang Hao, Yang Yan, Liu Bin. GMC: graph-based multi-view clustering[J]. IEEE Trans on Knowledge and Data Engineering, 2019, 32(6): 1116-1129.

[7]Chen Mansheng, Wang Changdong, Lai Jianhuang. Low-rank tensor based proximity learning for multi-view clustering[J]. IEEE Trans on Knowledge and Data Engineering, 2022,35(5): 5076-5090.

[8]Lin Shixun, Zhong Guo, Shu Ting. Simultaneously learning feature-wise weights and local structures for multi-view subspace clustering[J]. Knowledge-Based Systems, 2020, 205: 106280.

[9]Cao Xiaochun, Zhang Changqing, Fu Huazhu, et al. Diversity-induced multi-view subspace clustering[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2015: 586-594.

[10]Luo Shirui, Zhang Changqing, Zhang Wei, et al. Consistent and specific multi-view subspace clustering[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 3730-3737.

[11]趙興旺, 王淑君, 劉曉琳, 等. 基于二部圖的聯(lián)合譜嵌入多視圖聚類算法[J/OL]. 軟件學(xué)報(bào). (2023-11-16). https://kns.cnki.net/kcms/detail/11.2560.TP.20231115.1508.009.html. (Zhao Xingwang, Wang Shujun, Liu Xiaolin, et al. Joint spectral embedding multi-view clustering algorithm based on bipartite graphs[J/OL]. Journal of Software. (2023-11-16). https://kns.cnki.net/kcms/detail/11.2560.TP.20231115.1508.009.html.)

[12]Zhang Changqing, Fu Huazhu, Hu Qinghua, et al. Generalized latent multi-view subspace clustering[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2018, 42(1): 86-99.

[13]Wang Haiyan, Chen Jiazhou, Zhang Bin, et al. Accurate multi-view clustering by exploiting within-view high-order affinities through tensor self-representation[C]//Proc of IEEE International Conference on Bioinformatics and Biomedicine. Piscataway, NJ: IEEE Press, 2022: 595-600.

[14]李理, 李敬豪, 張小乾. 基于張量學(xué)習(xí)的潛在多視圖子空間聚類[J]. 西南科技大學(xué)學(xué)報(bào), 2022, 37(3): 52-59. (Li Li, Li Jinghao, Zhang Xiaoqian. Tensor learning-based for latent multi-view subspace clustering[J]. Journal of Southwest University of Science and Technology, 2022, 37(3): 52-59.)

[15]Yin Ming, Gao Junbin, Xie Shengli, et al. Multiview subspace clustering via tensorial t-product representation[J]. IEEE Trans on Neural Networks and Learning Systems, 2019, 30(3): 851-864.

[16]Liang Youwei, Huang Dong, Wang C D, et al. Multi-view graph learning by joint modeling of consistency and inconsistency[J]. IEEE Trans on Neural Networks and Learning Systems, 2024, 35(2): 2848-2862.

[17]Pan Erlin, Zhao Kang. High-order multi-view clustering for generic data[J]. Information Fusion, 2023, 100: 101947.

[18]Huang H C, Chuang Y Y, Chen C S. Affinity aggregation for spectral clustering[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2012: 773-780.

[19]Xia Rongkai, Pan Yan, Du Lei, et al. Robust multi-view spectral clustering via low rank and sparse decomposition[C]//Proc of the 28th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2014: 2149-2155.

[20]Zong Linlin, Zhang Xianchao, Liu Xinyue, et al. Weighted multi-view spectral clustering based on spectral perturbation[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 4621-4629.

[21]He Yanfang, Yusof U K. Self-weighted graph-based framework for multi-view clustering[J]. IEEE Access, 2023, 11: 30197-30207.