国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于圖卷積神經(jīng)網(wǎng)絡(luò)的多視角聚類

2021-03-09 16:41:16李勇振廖湖聲
關(guān)鍵詞:一致性卷積聚類

李勇振,廖湖聲

1.北京工業(yè)大學(xué) 信息學(xué)部,北京100124

2.北京建筑大學(xué) 電氣與信息工程學(xué)院,北京100044

隨著信息技術(shù)的飛速發(fā)展以及互聯(lián)網(wǎng)應(yīng)用的日益豐富,可用數(shù)據(jù)規(guī)模越來(lái)越大,數(shù)據(jù)的表現(xiàn)形式也越來(lái)越多樣。例如,網(wǎng)頁(yè)可以由網(wǎng)頁(yè)中出現(xiàn)的圖片、文字以及超級(jí)鏈接進(jìn)行表達(dá),又比如文本可以由詞頻、詞向量等多種描述算子進(jìn)行刻畫(huà)。這種描述相同語(yǔ)義的不同特征表達(dá)稱之為多視角數(shù)據(jù)。一般來(lái)說(shuō),多視角數(shù)據(jù)描述相同的語(yǔ)義又相互補(bǔ)充,表現(xiàn)為互補(bǔ)與一致特性。多視角聚類通過(guò)挖掘上述特性獲得了相比于單視角聚類的有效性能提升,并在數(shù)據(jù)挖掘、模式識(shí)別、信息檢索等領(lǐng)域產(chǎn)生廣泛的應(yīng)用[1]。

近些年來(lái),研究者提出了大量的多視角聚類算法并取得了優(yōu)異的聚類性能。一般來(lái)說(shuō),典型多視角聚類算法包含親和矩陣/圖學(xué)習(xí)算法[2]、子空間學(xué)習(xí)算法[3]、協(xié)同訓(xùn)練算法[4]以及后融合算法[5]。例如,Chaudhuri等人[6]采用典型相關(guān)分析算法實(shí)現(xiàn)兩視角數(shù)據(jù)最大相關(guān)性挖掘。Kumar等人[7]基于譜分解技術(shù)提出學(xué)習(xí)不同視角相似或一致的子空間嵌入,進(jìn)而實(shí)現(xiàn)多視角嵌入學(xué)習(xí)。Zhao等人[8]引入層次學(xué)習(xí)思想,提出多視角深度矩陣分解,不同視角數(shù)據(jù)共享一致的深度子空間嵌入。Zhan等人[9]基于標(biāo)準(zhǔn)非負(fù)矩陣分解技術(shù)提出自適應(yīng)的多視角語(yǔ)義分解技術(shù)以學(xué)習(xí)不同視角一致的子空間表達(dá)。

在各種不同類別的多視角聚類算法中,研究者主要致力于互補(bǔ)與一致性的顯式或隱式挖掘與建模。典型采納的技術(shù)如正則化的共同表示建模、多視角統(tǒng)一表達(dá)與獨(dú)立表達(dá)建模等。例如,為了實(shí)現(xiàn)多視角數(shù)據(jù)中互補(bǔ)與一致性的顯式挖掘,Yin等人[10]借鑒自然語(yǔ)言建模相關(guān)思想,學(xué)習(xí)多視角數(shù)據(jù)一致與獨(dú)有的子空間嵌入,且上述嵌入之間通過(guò)張量操作進(jìn)行相關(guān)性建模,進(jìn)而實(shí)現(xiàn)互補(bǔ)與一致性的細(xì)致刻畫(huà)。Liang等人[11]通過(guò)引入不同視角構(gòu)建相似度矩陣的相似與不相似約束以映射多視角數(shù)據(jù)之間的一致與互補(bǔ)部分,進(jìn)而有效挖掘多視角數(shù)據(jù)的特性,實(shí)現(xiàn)聚類性能的提升。

總的來(lái)說(shuō),上述多視角聚類算法可以有效挖掘視角之間的相關(guān)特性,提升整體性能,但是互補(bǔ)與一致性的部分一般通過(guò)正則化、線性或者非線性映射等手段實(shí)現(xiàn),如Yin等人[10]將多視角表達(dá)通過(guò)線性映射到各個(gè)視角表達(dá),進(jìn)而在各個(gè)視角下建立其對(duì)應(yīng)表達(dá)的約束與優(yōu)化。這些方法難以有效區(qū)分互補(bǔ)與一致性部分,即不同視角表達(dá)之間哪一部分特征體現(xiàn)了一致特性,哪一部分體現(xiàn)出了互補(bǔ)特性?;诖?,互補(bǔ)與一致性并不能顯式區(qū)分與對(duì)應(yīng)挖掘,也就難以實(shí)現(xiàn)互補(bǔ)與一致性的有效挖掘。

針對(duì)上述問(wèn)題,本文提出了一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的多視角聚類方法,如圖1所示。通過(guò)構(gòu)建不同視角的鄰接圖,多視角數(shù)據(jù)共同子圖可以被提取并基于圖卷積神經(jīng)網(wǎng)絡(luò)建模以反映多視角之間的一致性部分?;谙嗤膱D卷積神經(jīng)網(wǎng)絡(luò)模型參數(shù),多視角表達(dá)通過(guò)串接不同視角完整鄰接圖的嵌入實(shí)現(xiàn)互補(bǔ)性的有效挖掘。最終通過(guò)增加上述多視角表達(dá)的相對(duì)熵約束,可以實(shí)現(xiàn)聚類友好的多視角嵌入學(xué)習(xí)。本文提出的方法在五個(gè)廣泛應(yīng)用的多視角基準(zhǔn)數(shù)據(jù)中取得了相比于主流方法更高的聚類性能。

圖1 基于圖卷積神經(jīng)網(wǎng)絡(luò)的多視角聚類框架圖

1 相關(guān)工作介紹

通過(guò)有效挖掘視角之間的互補(bǔ)與一致特性,多視角聚類表現(xiàn)出了相比于使用單一視角更強(qiáng)的聚類性能[12-16]。近些年來(lái),一系列的多視角聚類算法被提出并大致被劃分為以下四類較為主流的算法:親和矩陣/圖學(xué)習(xí)算法、子空間學(xué)習(xí)算法、協(xié)同訓(xùn)練算法以及后融合算法。

親和矩陣/圖學(xué)習(xí)算法通過(guò)學(xué)習(xí)多視角數(shù)據(jù)的統(tǒng)一相似性度量矩陣并引入譜聚類完成最終的聚類[2]。各種相似性度量技術(shù)以及正則化約束被提出以建模不同視角相似性度量矩陣的關(guān)系。近些年來(lái),啟發(fā)于基于稀疏、低秩等結(jié)構(gòu)約束的子空間分割算法取得的優(yōu)異性能[17],基于結(jié)構(gòu)約束的自表示學(xué)習(xí)技術(shù)被引入多視角聚類中的相似性度量矩陣構(gòu)建,并通過(guò)引入正則化約束有效實(shí)現(xiàn)了視角間互補(bǔ)與一致性的建模[2,18-20]并取得了優(yōu)異的多視角聚類性能。

子空間學(xué)習(xí)算法學(xué)習(xí)多視角數(shù)據(jù)統(tǒng)一的表達(dá)并引入傳統(tǒng)的單視角聚類算法完成最終的聚類。在學(xué)習(xí)上述統(tǒng)一表達(dá)時(shí),典型的技術(shù)包括典型相關(guān)分析[6]、譜分解[7]、矩陣分解[9]、生成模型[20]、深度神經(jīng)網(wǎng)絡(luò)[3,21-22]。相似于基于親和矩陣學(xué)習(xí)的算法,不同視角之間的表達(dá)通過(guò)正則化約束、線性或非線性映射等方式實(shí)現(xiàn)互補(bǔ)與一致性挖掘。例如,Kumar等人[7]通過(guò)兩兩視角關(guān)系對(duì)的正則項(xiàng)約束實(shí)現(xiàn)不同視角譜嵌入的一致性刻畫(huà)。Yin等人[10]假設(shè)存在隱含的多視角表達(dá)可以基于矩陣映射的方式生成視角獨(dú)立表達(dá)。

協(xié)同訓(xùn)練算法交替使用不同視角的信息協(xié)助其他視角的聚類。該框架為典型的半監(jiān)督學(xué)習(xí)算法框架,近些年來(lái)被推廣到無(wú)監(jiān)督多視角聚類任務(wù)中[23]。例如,Kumar等人[4]使用協(xié)同訓(xùn)練框架進(jìn)行不同視角拉普拉斯矩陣的協(xié)同構(gòu)造與聚類訓(xùn)練,該算法被進(jìn)一步擴(kuò)展以處理更大規(guī)模的數(shù)據(jù)[24]。后融合算法通過(guò)融合不同視角獨(dú)立的聚類結(jié)果實(shí)現(xiàn)整體多視角聚類[25-26]。為實(shí)現(xiàn)融合,一系列對(duì)齊技術(shù)被采納,代表性方法如基于概率圖模型[27]以及矩陣優(yōu)化[5]。

考慮到當(dāng)前的多視角聚類算法在互補(bǔ)與一致性的挖掘上多采用正則項(xiàng)、線性或者非線性映射等手段實(shí)現(xiàn),如何實(shí)現(xiàn)更有效的多視角相關(guān)信息挖掘仍然是多視角聚類的主要挑戰(zhàn),本文提出了一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的多視角聚類算法以建模上述信息。

2 模型與算法

基于圖卷積神經(jīng)網(wǎng)絡(luò)的多視角聚類算法主要包括三個(gè)部分。多視角一致性與互補(bǔ)性挖掘?qū)崿F(xiàn)各個(gè)視角嵌入表達(dá)學(xué)習(xí),并且通過(guò)一致性與互補(bǔ)性的顯式建模實(shí)現(xiàn)該嵌入表達(dá)學(xué)習(xí)的優(yōu)化。多視角表達(dá)與優(yōu)化目標(biāo)建立實(shí)現(xiàn)多視角表達(dá)的構(gòu)建,同時(shí)通過(guò)引入相對(duì)熵等優(yōu)化目標(biāo)函數(shù)實(shí)現(xiàn)多視角表達(dá)的約束以使其與聚類耦合。模型優(yōu)化實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)模型參數(shù)的學(xué)習(xí),進(jìn)而基于學(xué)習(xí)的模型參數(shù)完成最終的多視角聚類任務(wù)。

為實(shí)現(xiàn)多視角數(shù)據(jù)間互補(bǔ)與一致特性挖掘、聚類耦合的多視角表達(dá)學(xué)習(xí)以及整體模型優(yōu)化,算法的主要工作流程如下:給定多視角數(shù)據(jù)集,依據(jù)每個(gè)視角的特征構(gòu)建當(dāng)前視角的鄰接矩陣;提取多個(gè)視角鄰接矩陣對(duì)于同一樣本點(diǎn)的公共子集;基于該公共子集構(gòu)建各個(gè)視角的圖卷積神經(jīng)網(wǎng)絡(luò)表達(dá)并進(jìn)行一致性約束損失函數(shù)構(gòu)建;基于上述圖卷積神經(jīng)網(wǎng)絡(luò)參數(shù)構(gòu)建各個(gè)視角針對(duì)其完整鄰接矩陣的獨(dú)立圖卷積神經(jīng)網(wǎng)絡(luò)表達(dá)并通過(guò)排序損失函數(shù)進(jìn)行該表達(dá)約束;級(jí)聯(lián)各個(gè)視角獨(dú)立圖卷積神經(jīng)網(wǎng)絡(luò)表達(dá)獲得多視角表達(dá)并通過(guò)一般聚類算法獲得聚類中心以及所有樣本屬于各個(gè)類別的概率;基于該概率值構(gòu)造輔助變量并通過(guò)相對(duì)熵目標(biāo)函數(shù)實(shí)現(xiàn)上述概率值以及整體網(wǎng)絡(luò)的優(yōu)化;最終依據(jù)優(yōu)化獲得的概率值導(dǎo)出多視角數(shù)據(jù)聚類結(jié)果。

2.1 多視角一致性與互補(bǔ)性挖掘

假設(shè)具有c個(gè)類別的多視角數(shù)據(jù)表征為1,2,…,m;i=1,2,…,n},其中m代表視角數(shù)目,n代表樣本數(shù)為樣本i在視角v下的特征向量,維度為dv。為實(shí)現(xiàn)不同視角之間一致性與互補(bǔ)性的顯式度量,首先對(duì)不同視角進(jìn)行鄰接圖的構(gòu)建,即Sv,其中Svij代表鄰接圖矩陣中第i行第j列的元素值,為0或者1,表示在視角v下樣本i與j是否相似。Sv的構(gòu)建基于樣本Xv間的歐式距離,即對(duì)于每個(gè)樣本,選取其k近鄰作為相似樣本,其他樣本為不相似,Sv也稱為相似度圖(具體構(gòu)造細(xì)節(jié)見(jiàn)3.2節(jié))。

基于不同視角的Sv,v=1,2,…,m,視角間的一致性部分可以通過(guò)相似度圖的公共子集進(jìn)行刻畫(huà),即Svs。具體來(lái)講,對(duì)于每一個(gè)樣本點(diǎn),其在不同視角下相同的近鄰點(diǎn)作為構(gòu)建Svs的基礎(chǔ)。Svs在不同視角下一致,屬于不同視角下Sv的子圖。為利用該一致性信息,采用圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行不同視角下基于公共子圖的嵌入學(xué)習(xí)。圖卷積神經(jīng)網(wǎng)絡(luò)為近些年來(lái)提出的一種圖數(shù)據(jù)特征提取器,可以巧妙地實(shí)現(xiàn)圖數(shù)據(jù)中所有節(jié)點(diǎn)的嵌入學(xué)習(xí)。依據(jù)經(jīng)典的圖卷積神經(jīng)網(wǎng)絡(luò)建模方法[28],視角v下所有樣本的嵌入表達(dá)傳播公式為:

其中,Hvs(l+1)為視角v下所有樣本的第l+1層嵌入,σ為神經(jīng)網(wǎng)絡(luò)非線性激勵(lì)函數(shù),即sigmod函數(shù),Av=為單位矩陣,Dv為Av的度矩陣,其計(jì)算為為圖卷積神經(jīng)網(wǎng)絡(luò)第l層卷積核參數(shù)。通過(guò)設(shè)置Hvs(1)=Xv,即第一層嵌入為數(shù)據(jù)特征表達(dá),并迭代若干次的上述計(jì)算,可以得到各個(gè)視角的圖卷積神經(jīng)網(wǎng)絡(luò)嵌入Zvs=Hvs(L),L為圖卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)。依據(jù)經(jīng)典的圖卷積神經(jīng)網(wǎng)絡(luò)[28]進(jìn)行各個(gè)視角下參數(shù)設(shè)置:網(wǎng)絡(luò)為兩層,隱藏層節(jié)點(diǎn)數(shù)目參考值為128(在64、128、256中擇優(yōu)選擇),激活函數(shù)選擇為ReLU。

不同視角具有一致的Svs,則可對(duì)Zvs進(jìn)行一致性約束的損失函數(shù)構(gòu)建,即:

另一方面,基于上述圖卷積神經(jīng)網(wǎng)絡(luò)參數(shù)以及各視角完整的相似度圖Sv,則可以得到各個(gè)視角的圖卷積神經(jīng)網(wǎng)絡(luò)嵌入Zv,該嵌入可以實(shí)現(xiàn)不同視角完整特征表達(dá)。為進(jìn)一步實(shí)現(xiàn)不同視角相似性結(jié)構(gòu)對(duì)該嵌入表達(dá)的約束,引入基于排序的損失函數(shù),即:

2.2 多視角表達(dá)與相對(duì)熵約束

基于各個(gè)視角在完整相似度圖下的嵌入,為挖掘多視角數(shù)據(jù)之間的互補(bǔ)特性,多視角表達(dá)可以建模為不同視角下的嵌入的級(jí)聯(lián),即:

基于多視角一致性與互補(bǔ)性建模,zi提供了多視角的完整表達(dá)。zi的獲取直接依靠多視角數(shù)據(jù)本身,但是與最終的聚類任務(wù)可能存在一定的鴻溝,即多視角表達(dá)并非是最優(yōu)的適應(yīng)聚類任務(wù)的表達(dá)。為了緩解該問(wèn)題,提出引入相對(duì)熵的目標(biāo)函數(shù)以提升多視角表達(dá),進(jìn)而使其更適應(yīng)于聚類任務(wù)而完成最終的聚類。其基本思想為:通過(guò)該多視角表達(dá)進(jìn)行聚類置信度的求解并引入輔助目標(biāo)函數(shù)實(shí)現(xiàn)聚類高置信度的提升進(jìn)而學(xué)習(xí)得到適用于聚類的多視角表達(dá)。

首先基于上述多視角表達(dá)采用k均值聚類算法完成多視角數(shù)據(jù)聚類中心的獲取,即vj,j=1,2,…,c,其中c為聚類數(shù)目?;谠摼垲愔行?,樣本i屬于各個(gè)類別的概率qij可以表示為:

引入輔助變量pij以增強(qiáng)高置信概率值,即最終,相對(duì)熵目標(biāo)函數(shù)可以構(gòu)建為:

當(dāng)對(duì)L3進(jìn)行優(yōu)化時(shí),樣本聚類的高置信概率將被增強(qiáng),進(jìn)而反向傳播優(yōu)化多視角表達(dá)zi,最終完成整個(gè)網(wǎng)絡(luò)參數(shù)的優(yōu)化。

2.3 模型優(yōu)化

為獲得優(yōu)異的聚類性能,優(yōu)化目標(biāo)函數(shù)L3需要提供較為優(yōu)異的初始值,即多視角表達(dá)zi以及各視角圖卷積神經(jīng)網(wǎng)絡(luò)參數(shù)。為實(shí)現(xiàn)此目的,整個(gè)模型的優(yōu)化分為兩個(gè)部分,即初始值獲取與網(wǎng)絡(luò)微調(diào)。初始值獲取通過(guò)聯(lián)合優(yōu)化目標(biāo)函數(shù)L1+L2實(shí)現(xiàn),優(yōu)化方法采用標(biāo)準(zhǔn)的誤差反傳算法進(jìn)行實(shí)現(xiàn)。首先構(gòu)造相似三元組數(shù)據(jù)其中遍歷視角v下所有樣本,基于進(jìn)行采樣,采樣于的非相似樣本。L1可直接進(jìn)行求導(dǎo),L2在滿足時(shí)無(wú)梯度,反之直接計(jì)算其梯度。最終目標(biāo)函數(shù)收斂時(shí),則可獲取圖卷積神經(jīng)網(wǎng)絡(luò)的初始值以及多視角表達(dá)zi。

基于上述初始值,最終進(jìn)行目標(biāo)函數(shù)L3的優(yōu)化,具體來(lái)說(shuō),基于梯度算法同時(shí)優(yōu)化聚類中心vj,j=1,2,…,c以及多視角表達(dá)zi:

其中?L3/zi繼續(xù)反傳以實(shí)現(xiàn)所有視角圖卷積神經(jīng)網(wǎng)絡(luò)參數(shù)的優(yōu)化。

整體的優(yōu)化算法如算法1所述,基本的收斂條件為連續(xù)兩次迭代中少于1%的qij值發(fā)生變化。最終目標(biāo)函數(shù)收斂時(shí),可以直接基于qij每一行最大值的索引進(jìn)行樣本聚類中心獲取,即:t(i)即為樣本i的聚類中心。

算法1圖卷積神經(jīng)網(wǎng)絡(luò)的多視角聚類優(yōu)化算法

3 實(shí)驗(yàn)及分析

在5個(gè)廣泛使用的多視角基準(zhǔn)數(shù)據(jù)集上通過(guò)對(duì)比前沿的多視角聚類算法以驗(yàn)證所提出的多視角聚類算法性能。同時(shí),將通過(guò)可視化等技術(shù)以進(jìn)一步體現(xiàn)所提出算法的優(yōu)異性。

3.1 實(shí)驗(yàn)數(shù)據(jù)集

將采用公認(rèn)的多視角數(shù)據(jù)基準(zhǔn)集進(jìn)行算法性能的驗(yàn)證,數(shù)據(jù)基本介紹如下。

Notting-Hill數(shù)據(jù)集,人臉數(shù)據(jù)集,采集自電影Notting Hill。該數(shù)據(jù)集包含5個(gè)類別共計(jì)4 660張圖像,采用的3個(gè)視角特征為經(jīng)典的視角描述子Intensity、LBP以及Gabor特征。

Source數(shù)據(jù)集,新聞數(shù)據(jù)集,采集自BBC、Reuters以及Guardian 3個(gè)來(lái)源,該數(shù)據(jù)集包含5個(gè)類別共計(jì)169個(gè)樣本,每一種來(lái)源作為一個(gè)視角描述,特征采用經(jīng)典的詞頻特征。

Cora數(shù)據(jù)集,學(xué)術(shù)文章數(shù)據(jù)集,描述神經(jīng)網(wǎng)絡(luò)、理論等學(xué)術(shù)文章。該數(shù)據(jù)集包含7個(gè)類別共計(jì)2 708個(gè)樣本,采用鏈接特征以及詞頻兩種視角進(jìn)行實(shí)驗(yàn)。

BBC數(shù)據(jù)集,文本數(shù)據(jù)集,為合成數(shù)據(jù)集。該數(shù)據(jù)集包含5類樣本共計(jì)2 012個(gè)樣本,視角描述為兩個(gè)片段切分的詞頻特征。

CCV數(shù)據(jù)集,視頻數(shù)據(jù)集,采集自YouTube。該數(shù)據(jù)集包含20個(gè)類別共計(jì)9 317個(gè)視頻。時(shí)空關(guān)鍵點(diǎn)特征以及尺度不變特征轉(zhuǎn)化兩種描述子作為兩種視角進(jìn)行實(shí)驗(yàn)。

3.2 實(shí)驗(yàn)設(shè)置

對(duì)比當(dāng)前主流多視角聚類算法以進(jìn)行所提出算法性能的驗(yàn)證。

SingleB:所有單視角譜聚類的最優(yōu)結(jié)果,該算法為基準(zhǔn)算法。

CCA[6]:Chaudhuri等人采用CCA算法獲得多視角統(tǒng)一低維表達(dá)進(jìn)而采用k均值完成聚類。

Co-Reg-Pairwise、Co-Reg-Centroid[7]:Kumar等人提出兩種正則化方案以進(jìn)行視角子空間表達(dá)間互補(bǔ)與一致性建模。

MultiDMF[8]:Zhao等人提出深度矩陣分解算法以學(xué)習(xí)不同視角的層次化表達(dá)基矩陣以及視角無(wú)關(guān)統(tǒng)一表達(dá)矩陣。

MultiTE[10]:Yin等人學(xué)習(xí)多視角統(tǒng)一表達(dá)以及視角獨(dú)立表達(dá)并采用矩陣映射方式實(shí)現(xiàn)多視角互補(bǔ)與一致性挖掘。

MVCF[9]:Zhan等人學(xué)習(xí)多視角語(yǔ)義分解的統(tǒng)一表達(dá)以實(shí)現(xiàn)不同視角相關(guān)性的最大化利用。

SGF、DGF[11]:Liang等人顯式挖掘不同視角之間的一致與不一致特性進(jìn)而實(shí)現(xiàn)多視角關(guān)系建模。

GCNMC:本文提出的基于圖卷積神經(jīng)網(wǎng)絡(luò)且充分挖掘多視角互補(bǔ)與一致性的多視角聚類算法。

對(duì)于上述方法中的Co-Reg-Pairwise、Co-Reg-Centroid、MultiDMF、MVCF、SGF以及DGF,采用開(kāi)源的代碼并根據(jù)原作者的推薦超參數(shù)獲得聚類結(jié)果。對(duì)于CCA,采用LSCCA包進(jìn)行聚類結(jié)果的獲取。對(duì)于MultiTE,基于原文的算法步驟進(jìn)行復(fù)現(xiàn)并采用線性搜索獲得最優(yōu)性能的超參數(shù)。

對(duì)于本文方法,Sv的構(gòu)建基于樣本間的距離,具體過(guò)程如下:對(duì)于該視角下的任意樣本,計(jì)算其與該視角下所有其他樣本之間的歐式距離,并將該距離進(jìn)行由小到大排序,之后選擇前k樣本作為其近鄰,即鄰接矩陣中該樣本對(duì)應(yīng)的上述k個(gè)樣本之間相似度為1,其余為0。超參數(shù)k采用經(jīng)驗(yàn)值獲取(實(shí)驗(yàn)選用k=20)。具體地,在Ubuntu系統(tǒng)下基于python語(yǔ)言,上述距離計(jì)算采用sklearn工具包下的metrics.pairwise.euclidean_distances函數(shù)計(jì)算,排序采用numpy下的argsort函數(shù)實(shí)現(xiàn)。圖2給出了Notting-Hill數(shù)據(jù)集下各個(gè)視角的鄰接圖Sv以及公共鄰接圖Svs,可以看出不同視角具有一致以及獨(dú)立的鄰接關(guān)系,體現(xiàn)出多視角的互補(bǔ)與一致特性。

本文的度量準(zhǔn)則采用以上所有方法公認(rèn)的聚類準(zhǔn)確率ACC以及歸一化互信息NMI進(jìn)行評(píng)估[10]。其定義如下:

其中,y和o為多視角數(shù)據(jù)的真實(shí)類別與聚類預(yù)測(cè)類別。map()為基于Hungarian算法的置換函數(shù)以對(duì)齊上述類別標(biāo)簽。δ(,)為指示函數(shù),當(dāng)函數(shù)兩個(gè)變量相同時(shí)返回值1,否則返回值0。I(;)用于計(jì)算兩個(gè)變量的互信息,H()用于計(jì)算熵。對(duì)于ACC以及NMI兩個(gè)度量指標(biāo),其值越大,則代表聚類性能越好。

3.3 多視角聚類性能對(duì)比

所提出算法在各個(gè)數(shù)據(jù)集下與當(dāng)前主流多視角聚類算法的性能對(duì)比見(jiàn)表1和表2。通過(guò)對(duì)比,可以看出,整體上所提出的基于圖卷積神經(jīng)網(wǎng)絡(luò)的多視角聚類算法在準(zhǔn)確率與歸一化互信息下優(yōu)于其他所有算法。

圖2 Notting-Hill數(shù)據(jù)集不同視角鄰接圖與公共鄰接圖

表1 不同數(shù)據(jù)集上的聚類準(zhǔn)確率對(duì)比%

表2 不同數(shù)據(jù)集上的聚類歸一化互信息對(duì)比 %

相比CCA采用線性映射,本文采用圖卷積神經(jīng)網(wǎng)絡(luò)非線性方式進(jìn)行嵌入學(xué)習(xí),因此可以學(xué)習(xí)得到更好的多視角表達(dá),同時(shí)該表達(dá)經(jīng)過(guò)基于相對(duì)熵的目標(biāo)函數(shù)優(yōu)化可以使得其更適用于聚類任務(wù),因此所提出算法性能超越CCA。

相比于Co-Reg-Pairwise、Co-Reg-Centroid集中在多視角一致性挖掘上,本文所提出的算法可以有效挖掘多視角的互補(bǔ)與一致性,因此更好的多視角表達(dá)得以獲得以提升聚類性能。

相比于MultiDMF以及MVCF采用非負(fù)矩陣分解技術(shù)進(jìn)行低維度嵌入學(xué)習(xí),所提出的算法在學(xué)習(xí)嵌入的同時(shí)可以有效引入相對(duì)熵等優(yōu)化目標(biāo)以進(jìn)行嵌入的再學(xué)習(xí),實(shí)現(xiàn)多視角表達(dá)與聚類表達(dá)的統(tǒng)一。

相比于MultiTE、SGF與DGF通過(guò)學(xué)習(xí)映射或者相關(guān)正則項(xiàng)約束等方式實(shí)現(xiàn)多視角一致性與互補(bǔ)性挖掘,所提出的算法可以更為顯式刻畫(huà)視角間的一致與互補(bǔ)性。同時(shí)多視角表達(dá)的再次優(yōu)化可以進(jìn)一步提升模型的性能,因此所提出的算法優(yōu)于上述對(duì)比算法。

為進(jìn)一步說(shuō)明所學(xué)習(xí)得到的多視角表達(dá)優(yōu)于其他相關(guān)算法,采用經(jīng)典的t-SNE可視化方法對(duì)不同方法的嵌入進(jìn)行二維降維與可視化。具體來(lái)說(shuō)采用Python環(huán)境下sklearn工具包中的manifold.TSNE函數(shù)進(jìn)行降維(降至二維),并采用matplotlib工具包中的pyplot.plot進(jìn)行繪圖,實(shí)驗(yàn)結(jié)果如圖3所示(不同顏色代表不同的數(shù)據(jù)聚集)。其中T=50為所提出的方法在迭代50次(算法1中步驟4)時(shí)的結(jié)果。可以看出,相比于其他方法,所提出的算法使得樣本具有更易區(qū)分的效果,即聚集更明顯且易于劃分,對(duì)應(yīng)多視角表達(dá)則更加聚類友好。

3.4 收斂性分析

目標(biāo)函數(shù)L3采用基于梯度的優(yōu)化算法,可以保證算法的收斂。為進(jìn)一步驗(yàn)證該收斂情況以及多視角表達(dá)的優(yōu)化效果,本文可視化隨著迭代次數(shù)多視角表達(dá)的t-SNE情況,同時(shí),將隨著迭代次數(shù)增加的聚類性能進(jìn)行展示,如圖4所示。

圖3 Notting-Hill數(shù)據(jù)集下不同方法t-SNE對(duì)比

圖4 Notting-Hill數(shù)據(jù)集下隨著迭代增加t-SNE及聚類性能

在圖4中,給出了T=0、T=5、T=10以及T=50的結(jié)果。通過(guò)圖4可以看出隨著迭代次數(shù)的增加,數(shù)據(jù)點(diǎn)的聚集程度在增加,同時(shí)不同類別的分類邊界也變得更加容易獲得,可以說(shuō)明隨著迭代次數(shù)的增加,數(shù)據(jù)的可分性得以改善。反映在多視角聚類性能上,可以看出聚類準(zhǔn)確率與歸一化互信息隨著迭代的增加而增加,并逐漸收斂到最好性能并平穩(wěn)。

4 結(jié)論與未來(lái)工作

本文提出基于圖卷積神經(jīng)網(wǎng)絡(luò)的多視角聚類算法,借助于相似度圖構(gòu)建以及圖卷積神經(jīng)網(wǎng)絡(luò)模型,該算法可以顯式挖掘多視角的互補(bǔ)與一致特性,進(jìn)而學(xué)習(xí)多視角表達(dá)。同時(shí)該多視角表達(dá)通過(guò)基于相對(duì)熵的目標(biāo)函數(shù)進(jìn)行再優(yōu)化,使得其為聚類友好表達(dá)。在五個(gè)公開(kāi)數(shù)據(jù)集上,所提出的算法相比于主流的多視角聚類算法取得了最優(yōu)的性能。

在多視角互補(bǔ)與一致性建模中,本文通過(guò)不同視角鄰接圖交集的方式建模一致性并通過(guò)并集的方式建模互補(bǔ)性,該種方式不可避免受到噪聲尤其是圖構(gòu)建中引入噪聲的影響,未來(lái)的工作將在該工作基礎(chǔ)上探索更友好的多視角互補(bǔ)與一致性挖掘方法。

猜你喜歡
一致性卷積聚類
關(guān)注減污降碳協(xié)同的一致性和整體性
公民與法治(2022年5期)2022-07-29 00:47:28
注重教、學(xué)、評(píng)一致性 提高一輪復(fù)習(xí)效率
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
IOl-master 700和Pentacam測(cè)量Kappa角一致性分析
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
基于DBSACN聚類算法的XML文檔聚類
基于改進(jìn)的遺傳算法的模糊聚類算法
基于事件觸發(fā)的多智能體輸入飽和一致性控制
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
资源县| 常德市| 汪清县| 淮北市| 南昌市| 绩溪县| 冀州市| 滁州市| 大足县| 马龙县| 佛冈县| 滦南县| 武义县| 独山县| 五台县| 勃利县| 聂拉木县| 万山特区| 内江市| 南充市| 平塘县| 邵阳市| 淮南市| 漾濞| 郎溪县| 光山县| 海阳市| 三明市| 怀来县| 靖边县| 株洲市| 湾仔区| 安顺市| 石台县| 德格县| 乡宁县| 新乡县| 拉孜县| 调兵山市| 临沂市| 三明市|