陳 琪,郭 濤,鄒俊穎
(四川師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,四川 成都 610101)
圖表示學(xué)習(xí)通過(guò)學(xué)習(xí)節(jié)點(diǎn)特征和圖的拓?fù)浣Y(jié)構(gòu)中蘊(yùn)含的豐富信息,迭代聚合為新的低維稠密的實(shí)值向量化表示,使原始圖中相似的節(jié)點(diǎn)在圖表示向量空間中也相似。
定義圖G為:G=(V,E,X), 其中V=(v1,v2,…,vN) 為節(jié)點(diǎn)集合,N為節(jié)點(diǎn)數(shù)量,E為邊集合,X∈N×F為節(jié)點(diǎn)的特征矩陣,F(xiàn)為節(jié)點(diǎn)特征維度。
GCN為圖表示學(xué)習(xí)提供了一個(gè)有效的非線性網(wǎng)絡(luò)學(xué)習(xí)模型。將節(jié)點(diǎn)特征矩陣X和圖的鄰接矩陣A輸入GCN,最終得到低維稠密的實(shí)值向量化表示X(l+1), 如式(1)所示
(1)
孿生神經(jīng)網(wǎng)絡(luò)[19]是由兩個(gè)權(quán)重參數(shù)共享的子網(wǎng)絡(luò)建立的耦合結(jié)構(gòu),如圖1所示。自監(jiān)督對(duì)比學(xué)習(xí)將X1和X2作為樣本對(duì)輸入到子網(wǎng)絡(luò)中,映射為特征向量GW(X1) 和GW(X2), 拉近正樣本對(duì)的距離作為共性監(jiān)督信號(hào),拉大負(fù)樣本對(duì)的距離作為差異監(jiān)督信號(hào),如式(2)所示。其中,D為歐式距離,W為權(quán)重共享參數(shù)
(2)
圖1 孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
(3)
現(xiàn)有的圖表示學(xué)習(xí)采用自監(jiān)督對(duì)比學(xué)習(xí)方法,構(gòu)造正負(fù)樣本對(duì),以此來(lái)實(shí)現(xiàn)節(jié)點(diǎn)分類任務(wù)。但存在以下問(wèn)題:①在局部視圖和全局視圖上采用不同的圖數(shù)據(jù)增廣,使局部視圖和全局視圖存在一定差異,導(dǎo)致節(jié)點(diǎn)特征表示的判別能力弱。②需要額外生成負(fù)樣本,因此必須對(duì)負(fù)樣本特征進(jìn)行重新排列,加大了模型的空間復(fù)雜度。
本文在孿生神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上,提出了基于雙重視圖耦合的自監(jiān)督圖表示學(xué)習(xí)模型DVCGRL,如圖2所示,該模型由4部分組成:圖數(shù)據(jù)增廣、圖編碼器、映射、耦合網(wǎng)絡(luò)。首先,采用特征空間增廣和結(jié)構(gòu)空間擴(kuò)充相結(jié)合生成雙重視圖,組成正樣本對(duì),使雙重視圖在孿生網(wǎng)絡(luò)結(jié)構(gòu)中的特征相似;其次將雙重視圖固定維度,作為正樣本對(duì)輸入到圖編碼器中,對(duì)雙重視圖的節(jié)點(diǎn)屬性特征以及圖結(jié)構(gòu)信息進(jìn)行融合,提取雙重視圖中節(jié)點(diǎn)的低層次特征;然后通過(guò)映射,聚集與下游任務(wù)相關(guān)的高層次抽象語(yǔ)義特征,獲得映射后的特征向量;最后在耦合網(wǎng)絡(luò)中通過(guò)縮小雙重視圖間節(jié)點(diǎn)特征表示的距離,增強(qiáng)雙重視圖的特征耦合性;通過(guò)方差正則化均勻分布節(jié)點(diǎn)獨(dú)有特征,并利用協(xié)方差進(jìn)行維度縮放,將不同維度的特征去相關(guān),防止模型坍塌,最終達(dá)到減小空間復(fù)雜度,同時(shí)達(dá)到增強(qiáng)節(jié)點(diǎn)特征表示判別能力的效果。
(4)
圖3 圖數(shù)據(jù)增廣
(5)
(2)圖編碼器(graph encoder):圖編碼器通過(guò)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)提取局部低層次細(xì)粒度特征。其中圖編碼器由兩個(gè)圖卷積神經(jīng)網(wǎng)絡(luò)GCN和一個(gè)線性激活層ReLU線性組成。將雙重視圖G1和G2傳入圖編碼器中,對(duì)雙重視圖中節(jié)點(diǎn)的低層次細(xì)粒度特征進(jìn)行特征提取,完成節(jié)點(diǎn)特征表示與鄰居節(jié)點(diǎn)特征表示的融合,更新視圖中節(jié)點(diǎn)特征的表示,獲得雙重視圖的低層次特征表示Y1和Y2, 如式(6)所示。其中W1和W2分別為兩個(gè)圖卷積神經(jīng)網(wǎng)絡(luò)層的權(quán)重參數(shù)
(6)
(3)映射(projection):該映射通過(guò)多層感知器網(wǎng)絡(luò)得到雙重視圖的向量化表示Z。其中多層感知器網(wǎng)絡(luò)由兩個(gè)全連接層和一個(gè)線性激活層ReLU線性組成。由于經(jīng)過(guò)圖編碼器后的特征表示更具有通用性,與下游任務(wù)的節(jié)點(diǎn)分類無(wú)關(guān),因此需要將這些細(xì)粒度特征Y1和Y2經(jīng)過(guò)映射,使雙重視圖的特征向量化表示傾向于任務(wù)相關(guān)的高層次抽象語(yǔ)義特征向量化表示Z1和Z2, 如式(7)所示。其中ζ1和ζ2分別為兩個(gè)全連接層的權(quán)重參數(shù),b1和b2分別為兩個(gè)全連接層的偏執(zhí)
Z=ReLU(ζ1Y+b1)ζ2+b2
(7)
(4)耦合網(wǎng)絡(luò)(coupling networks):用于衡量雙重視圖間的耦合性能,由距離損失、防止模型坍塌損失、去相關(guān)性損失組成。
Ls(Z1,Z2)為距離損失,衡量雙重視圖的特征耦合距離,其距離越小,表明模型預(yù)測(cè)效果越佳,如式(8)所示。其中i為視圖中一個(gè)節(jié)點(diǎn)
(8)
LV(Z)為防止模型坍塌損失,衡量標(biāo)準(zhǔn)偏差與目標(biāo)值間的偏離程度,與目標(biāo)值的距離越近,表明節(jié)點(diǎn)的獨(dú)有特征得到了更加均勻的分布,可以更好防止模型坍塌,如式(9)所示
LV(Z)=(max(0,1-Std(Z)))2
(9)
(10)
再由均值計(jì)算得到視圖的標(biāo)準(zhǔn)偏差Std(Z), 如式(11)所示
(11)
最后設(shè)置標(biāo)準(zhǔn)偏差的目標(biāo)值為1,使用ReLU對(duì)其進(jìn)行正則化,防止結(jié)果陷入零解,使視圖中節(jié)點(diǎn)的獨(dú)有特征能夠均勻分布,因此對(duì)其標(biāo)準(zhǔn)偏差正則化的結(jié)果進(jìn)行平方,得到方差正則化的結(jié)果。
Lc(Z)為去相關(guān)性損失,衡量視圖中不同維度的特征去相關(guān)性所產(chǎn)生的損失,減小不同維度的特征相關(guān)性,防止模型中的維度坍塌。本文定義協(xié)方差矩陣為C(Z), 如式(12)所示。通過(guò)對(duì)非對(duì)角線系數(shù)進(jìn)行平方,使用超參數(shù)ν迫使協(xié)方差的非對(duì)角線系數(shù)接近于0,使雙重視圖間不同維度的特征表示向量中的每個(gè)元素之間增強(qiáng)獨(dú)立性,并且對(duì)其進(jìn)行一個(gè)維度縮放,將不同維度的特征之間去相關(guān),避免維度間的特征類似,以此防止模型的維度崩潰,最終得到去相關(guān)性損失Lc(Z), 如式(13)所示,其中C(Z)i,j為協(xié)方差矩陣C(Z) 中第i行第j列的值
(12)
(13)
DVCGRL模型的總損失函數(shù)為L(zhǎng)total, 如式(14)所示。其中λ、μ、ν分別為距離損失、防止模型坍塌損失、去相關(guān)性損失的超參數(shù)
Ltotal=λLs(Z1,Z2)+μ{LV(Z1)+LV(Z2)}+ν{Lc(Z1)+Lc(Z2)}
(14)
DVCGRL模型的整體算法流程如算法1所示。
算法1:DVCGRL模型訓(xùn)練
Input:有N個(gè)節(jié)點(diǎn)的原始圖G=(V,E,X),X為節(jié)點(diǎn)特征矩陣,A為鄰接矩陣,圖數(shù)據(jù)增廣的超參數(shù)pf、pe, 損失函數(shù)超參數(shù)λ、μ、ν, 最大訓(xùn)練步驟T。
Output:DVCGRL模型Ψ
(1)隨機(jī)初始化模型Ψ中所有網(wǎng)絡(luò)層的參數(shù);
(2) fortinTdo:
2.4 將雙重視圖傳入圖編碼器提取低層次特征,根據(jù)式(6)獲得節(jié)點(diǎn)的低層次特征表示,分別為:Y1和Y2;
2.5 將Y1和Y2傳入多層感知器網(wǎng)絡(luò)中,聚集與任務(wù)相關(guān)的高層次抽象語(yǔ)義特征,根據(jù)式(7)獲得雙重視圖的特征向量化表示,分別為:Z1和Z2。
2.6 根據(jù)式(8)計(jì)算雙重視圖的距離損失Ls(Z1,Z2);
2.7 根據(jù)式(9)計(jì)算雙重視圖的防止模型坍塌損失,分別為:LV(Z1)和LV(Z2);
2.8 根據(jù)式(12)、式(13)計(jì)算雙重視圖的去相關(guān)性損失,分別為:Lc(Z1)和Lc(Z2);
2.9 根據(jù)式(14)計(jì)算模型的總損失Ltotal;
(3)end for
(4)輸出DVCGRL模型Ψ,算法停止。
為了說(shuō)明DVCGRL模型的有效性,本文進(jìn)行了5種不同的實(shí)驗(yàn):①雙重視圖耦合有效性實(shí)驗(yàn);②節(jié)點(diǎn)分類對(duì)比實(shí)驗(yàn);③空間復(fù)雜度實(shí)驗(yàn);④圖數(shù)據(jù)增廣的超參數(shù)實(shí)驗(yàn);⑤模型收斂性實(shí)驗(yàn)。
3.1.1 數(shù)據(jù)集
實(shí)驗(yàn)在Cora、CiteSeer、PubMed、Amazon photo、Coauthor CS這5個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行。其中Cora、CiteSeer、PubMed為引文網(wǎng)絡(luò),節(jié)點(diǎn)為論文,邊為引文關(guān)系,標(biāo)簽為論文的類別。Amazon photo為亞馬遜共同購(gòu)買圖表的一部分,其中節(jié)點(diǎn)為商品,邊為兩種商品經(jīng)常一起購(gòu)買,節(jié)點(diǎn)特征是單詞包編碼的產(chǎn)品評(píng)論,而類標(biāo)簽是由產(chǎn)品類別給出的。Coauthor CS來(lái)自KDD杯2016挑戰(zhàn)賽中基于微軟學(xué)術(shù)圖的合著圖。有關(guān)數(shù)據(jù)集的詳細(xì)信息見(jiàn)表1。
3.1.2 參數(shù)設(shè)置
通過(guò)驗(yàn)證集設(shè)置學(xué)習(xí)速率為0.001,學(xué)習(xí)率衰減參數(shù)為0.01,線性求值權(quán)重衰減為0.0001,節(jié)點(diǎn)特征輸入和輸出的維度設(shè)置為512,使用Adam優(yōu)化器對(duì)模型進(jìn)行訓(xùn)練。其中屬性掩蔽的參數(shù)pf和邊擾亂的參數(shù)pe為0.2。距離損失的參數(shù)λ設(shè)置為10,防止模型坍塌損失的參數(shù)μ設(shè)置為10,去相關(guān)性損失的參數(shù)ν設(shè)置為0.01。Cora、CiteSeer、PubMed的訓(xùn)練為30個(gè)epochs,Amazon photo和Coauthor CS的訓(xùn)練為50個(gè)epochs,測(cè)試為400個(gè)epochs。
表1 節(jié)點(diǎn)分類數(shù)據(jù)集描述
本實(shí)驗(yàn)完成了DVCGRL模型在Cora、CiteSeer、PubMed、Amazon photo、Coauthor CS上對(duì)雙重視圖特征耦合有效性驗(yàn)證。本實(shí)驗(yàn)分別采用特征空間增廣中的屬性掩蔽(FM)、結(jié)構(gòu)空間擴(kuò)充中的邊擾亂(ED)作為對(duì)比,以此驗(yàn)證特征空間增廣和結(jié)構(gòu)空間擴(kuò)充相結(jié)合(FM+ED)對(duì)雙重視圖特征耦合的有效性。本實(shí)驗(yàn)對(duì)3種方式的節(jié)點(diǎn)分類性能進(jìn)行了直方圖繪制,實(shí)驗(yàn)結(jié)果如圖4所示。
從圖4可以觀察到,相比對(duì)視圖采用單一的屬性掩蔽或者邊擾亂的增廣,屬性掩蔽和邊擾亂的結(jié)合增廣在節(jié)點(diǎn)分類性能上始終保持最佳。僅對(duì)特征空間或結(jié)構(gòu)空間擴(kuò)充的增廣,圖編碼器中難以提取部分缺失信息的低層次特征,分類精度較低。雙重視圖對(duì)節(jié)點(diǎn)特征空間和結(jié)構(gòu)空間進(jìn)行相同增廣后,雙重視圖在圖表示向量空間更具有相似性。因此,雙重視圖的特征耦合效果較好,分類精度更高。這表明在雙重視圖中采用特征空間增廣和結(jié)構(gòu)空間擴(kuò)充,可以增強(qiáng)雙重視圖的特征耦合性,提高節(jié)點(diǎn)特征表示在分類時(shí)的判別能力。由此,雙重視圖耦合有效性得到驗(yàn)證。
圖4 雙重視圖耦合有效性實(shí)驗(yàn)結(jié)果
本實(shí)驗(yàn)完成了DVCGRL模型在數(shù)據(jù)集Cora、CiteSeer、PubMed、Amazon photo、Coauthor CS上的節(jié)點(diǎn)分類準(zhǔn)確率實(shí)驗(yàn),并且與當(dāng)前主流的有監(jiān)督和自監(jiān)督的圖表示學(xué)習(xí)模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果見(jiàn)表2。其中,分類精度的最大值進(jìn)行了加粗標(biāo)記。
表2 節(jié)點(diǎn)分類正確率(A為鄰接矩陣,Y為標(biāo)簽,X為節(jié)點(diǎn)特征矩陣)
從表2可以觀察到,DVCGRL模型在5個(gè)數(shù)據(jù)集上都展現(xiàn)了良好的性能,平均精度值均超過(guò)其它模型。其中與有監(jiān)督的主流模型相比,在5個(gè)數(shù)據(jù)集上,DVCGRL均超過(guò)了有監(jiān)督的圖表示學(xué)習(xí)模型;與自監(jiān)督模型相比,在Cora、PubMed、Amazon photo、Coauthor CS數(shù)據(jù)集上節(jié)點(diǎn)分類性能保持最佳,在最佳自監(jiān)督模型上,分別提高了1.3%、1.9%、4.9%、0.9%。在CiteSeer數(shù)據(jù)集上,雖然DVCGRL模型比MERIT模型低了0.4%,但均超過(guò)了當(dāng)前其它主流的圖表示學(xué)習(xí)模型的分類精度。在Amazon photo數(shù)據(jù)集上,與當(dāng)前有監(jiān)督的最佳模型GLNN[21]相比,DVCGRL的分類精度只提高了0.2%,但是緩解了人工標(biāo)記數(shù)據(jù)集的負(fù)擔(dān),且在數(shù)據(jù)集上更具有客觀性;與當(dāng)前自監(jiān)督的最佳模型MERIT相比,DVCGRL的分類精度超出了4.9%。在Amazon photo數(shù)據(jù)集上可以看出,該數(shù)據(jù)集的邊數(shù)是Cora數(shù)據(jù)集的21~22倍,是PubMed數(shù)據(jù)集的2~3倍,是Coauthor CS數(shù)據(jù)集的1~2倍,這意味著Ama-zon photo數(shù)據(jù)集的節(jié)點(diǎn)擁有更加豐富的拓?fù)浣Y(jié)構(gòu)信息,因此DVCGRL模型相比其它數(shù)據(jù)集精度提高較大。由此,這表明DVCGRL模型能夠通過(guò)雙重視圖特征耦合增強(qiáng)節(jié)點(diǎn)特征表示的判別能力。
空間復(fù)雜度定性地描述了一個(gè)算法運(yùn)行時(shí)所需要的存儲(chǔ)空間大小。本實(shí)驗(yàn)在32 GB的GPU上對(duì)當(dāng)前有監(jiān)督的GLNN模型、自監(jiān)督的MVGRL、GRACE、MERIT模型進(jìn)行了空間復(fù)雜度對(duì)比,實(shí)驗(yàn)結(jié)果見(jiàn)表3,其中占用存儲(chǔ)空間最小值使用了加粗標(biāo)記。
表3 空間存儲(chǔ)大小
從表3可以觀察到,DVCGRL模型在存儲(chǔ)空間上所占內(nèi)存最少。DVCGRL模型在存儲(chǔ)空間只有GLNN、MVGRL模型的1/2,GRACE、MERIT模型的1/4。由此,DVCGRL模型的空間復(fù)雜度降低得到驗(yàn)證。
本實(shí)驗(yàn)選取了 [0,0.2,0.4,0.6,0.8] 5個(gè)數(shù)作為屬性掩蔽pf和邊擾亂pe的值[22],并在Cora、CiteSeer、PubMed、Amazon photo、Coauthor CS數(shù)據(jù)集進(jìn)行超參數(shù)驗(yàn)證。實(shí)驗(yàn)中設(shè)置pf和pe(屬性掩蔽+邊擾亂)的參數(shù)值相同,圖5展示了圖數(shù)據(jù)增廣的不同超參數(shù)對(duì)節(jié)點(diǎn)分類任務(wù)準(zhǔn)確率的影響。從圖5可以觀察到,當(dāng)超參數(shù)的值為0.2時(shí),節(jié)點(diǎn)分類準(zhǔn)確率最高,當(dāng)超參數(shù)的值為0時(shí),節(jié)點(diǎn)分類準(zhǔn)確率最低,當(dāng)超參數(shù)超過(guò)0.2,逐漸變大時(shí),節(jié)點(diǎn)分類準(zhǔn)確率也在逐步降低。由此,當(dāng)超參數(shù)為0.2時(shí),DVCGRL模型分類性能達(dá)到最佳。
圖5 圖數(shù)據(jù)增廣下的超參數(shù)實(shí)驗(yàn)結(jié)果
本實(shí)驗(yàn)完成了DVCGRL模型與自監(jiān)督的模型GRACE、MERIT在5個(gè)數(shù)據(jù)集上的測(cè)試步長(zhǎng)與精度折線圖的繪制,實(shí)驗(yàn)結(jié)果如圖6所示。圖6(a)~圖6(e)分別代表在數(shù)據(jù)集Cora、CiteSeer、PubMed、Amazon photo、Coauthor CS上的收斂實(shí)驗(yàn)效果對(duì)比。
從圖6可以觀察到,GRACE、MERIT、DVCGRL模型在100次前,精度提升速度很快,100次以后,測(cè)試精度趨于平緩狀態(tài),且DVCGRL模型在5個(gè)數(shù)據(jù)集上均具有良好的收斂性。從圖6(b)中可以觀察到,DVCGRL模型在150次以前,處于優(yōu)勢(shì)狀態(tài),在150次以后,MERIT模型略優(yōu)于DVCGRL模型,原因是DVCGRL模型與MERIT模型的精度在CiteSeer數(shù)據(jù)集上相差0.4%,而DVCGRL模型與GRACE模型相比,收斂性保持較好。從圖6(c)中可以觀察到,GRACE模型在第0次時(shí),精度比MERIT、DVCGRL模型高,但在100次以后,DVCGRL模型的精度超過(guò)GRACE、MERIT模型,且DVCGRL的曲線波動(dòng)比GRACE模型更加平緩。從圖6(d)可以觀察到,DVCGRL模型在Amazon photo數(shù)據(jù)集精度提升最大,在第0次精度達(dá)到了90.6%,且超過(guò)了GRACE、MERIT模型的最終精度。由此,DVCGRL模型的收斂性得到驗(yàn)證。
圖6 模型收斂性實(shí)驗(yàn)結(jié)果
本文在沒(méi)有使用負(fù)樣本對(duì)的情況下,提出了基于雙重視圖耦合的自監(jiān)督圖表示學(xué)習(xí)模型DVCGRL,解決了現(xiàn)有圖表示學(xué)習(xí)在自監(jiān)督對(duì)比學(xué)習(xí)中視圖差異大以及依賴于負(fù)樣本,造成節(jié)點(diǎn)表示能力弱以及空間復(fù)雜度加大的問(wèn)題。DVCGRL模型采用特征空間增廣和結(jié)構(gòu)空間擴(kuò)充相結(jié)合生成雙重視圖,并作為正樣本對(duì)傳入兩層參數(shù)共享的圖卷積神經(jīng)網(wǎng)絡(luò)層,提取視圖中的節(jié)點(diǎn)低層次特征;在多層感知器網(wǎng)絡(luò)中,提取高層次的抽象語(yǔ)義特征,獲得映射后的特征向量;在耦合網(wǎng)絡(luò)中通過(guò)拉近雙重視圖的特征向量距離以增強(qiáng)特征耦合性,采用方差正則化和協(xié)方差以此防止模型坍塌;在減小模型空間復(fù)雜度的情況下,同時(shí)提高了DVCGRL模型的分類精度。此外,如何使模型保證一致性的情況下,在下游任務(wù)中實(shí)現(xiàn)跨任務(wù)學(xué)習(xí)是本文需要進(jìn)一步研究的問(wèn)題。