国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于復合關(guān)系圖卷積的屬性網(wǎng)絡嵌入方法

2020-08-25 06:57:20陳亦琦錢鐵云李萬理梁貽樂
計算機研究與發(fā)展 2020年8期

陳亦琦 錢鐵云 李萬理 梁貽樂

(武漢大學計算機學院 武漢 430072)(yiqic16@whu.edu.cn)

信息網(wǎng)絡,如社交網(wǎng)絡、蛋白質(zhì)網(wǎng)絡、用戶-物品評價網(wǎng)絡等在當今社會中無處不在.網(wǎng)絡嵌入的目標是學習網(wǎng)絡中每個節(jié)點的低維稠密向量.網(wǎng)絡嵌入作為網(wǎng)絡分析任務中的一個基本問題,已經(jīng)引起了研究者的廣泛關(guān)注[1-7].

現(xiàn)有的網(wǎng)絡嵌入方法大多側(cè)重于對圖結(jié)構(gòu)的建模,而沒有考慮節(jié)點屬性等邊信息.最近出現(xiàn)了面向?qū)傩跃W(wǎng)絡嵌入(attributed network embedding, ANE)的方法[8-11],在網(wǎng)絡分析任務方面展示出比傳統(tǒng)方法更好的效果.然而,現(xiàn)有ANE方法只考慮基本的關(guān)系比如用戶的屬性,忽略了諸如“用戶的鄰居的鄰居”等復合關(guān)系.

我們在圖1中給出了屬性網(wǎng)絡中的基本關(guān)系和復合關(guān)系的一個例子.實線表示原始的基本關(guān)系,虛線表示這2個節(jié)點之間將有一個構(gòu)造的復合關(guān)系.

Fig. 1 An example of basic and composite relations in an attributed network圖1 屬性網(wǎng)絡中基本關(guān)系和復合關(guān)系樣例

在圖1所示的屬性網(wǎng)絡(用戶節(jié)點U及其屬性A)中,有2種類型的基本關(guān)系:

1) 用戶-用戶關(guān)系(2個用戶是朋友),

2) 用戶-屬性關(guān)系(用戶的愛好是籃球或游泳).

從上述基本關(guān)系出發(fā)可以構(gòu)造出同質(zhì)網(wǎng)絡的復合關(guān)系來獲取網(wǎng)絡的其他性質(zhì),我們稱之為復合關(guān)系,如:

1) 用戶-用戶-用戶(uu-uu)關(guān)系(2個用戶都有一個到共同朋友的鏈接),

2) 用戶-屬性-用戶(ua-au)關(guān)系(2個用戶有相同的愛好).

顯然,復合關(guān)系比基本關(guān)系傳達了更多的信息.直覺上,2個既有共同朋友又有共同愛好的用戶比那些有共同朋友但沒有共同愛好的用戶更有可能成為朋友.雖然現(xiàn)有網(wǎng)絡嵌入方法如LINE[5]和SDNE[6]利用二階近似對uu-uu關(guān)系進行編碼,卻沒有考慮屬性信息,從而忽略了ua-au關(guān)系.

為了解決上述問題,我們提出了一個新的框架來利用節(jié)點及其屬性之間的各種類型的關(guān)系.首先,在屬性網(wǎng)絡上構(gòu)建復合關(guān)系.然后,構(gòu)造一個復合關(guān)系的圖卷積網(wǎng)絡(composite relation graph convolution network, CRGCN)模型來編碼復合關(guān)系中的信息.與現(xiàn)有的ANE方法對比,本文模型由于編碼了復合關(guān)系而展示出比ANE方法更好的效果.

本文的主要貢獻包括3個方面:

1) 提出了一種無監(jiān)督屬性網(wǎng)絡嵌入框架,用于求解屬性網(wǎng)絡中的基本關(guān)系和復合關(guān)系;

2) 提出了一個復合關(guān)系圖卷積網(wǎng)絡來保留網(wǎng)絡中豐富的屬性信息;

3) 在真實數(shù)據(jù)集上進行了大量的實驗,結(jié)果證明我們的框架對各種網(wǎng)絡分析都非常有效.

1 相關(guān)工作

網(wǎng)絡表示學習方法已經(jīng)應用在多種分析任務上,包括鏈接預測[12]、節(jié)點分類[13]、社區(qū)發(fā)現(xiàn)[14]等.傳統(tǒng)的方法像局部線性嵌入(LLE)[15]、Laplacian EigenMap[16]都是基于降維技術(shù)的.近期,很多基于word2vec[17]的方法被提出,如DeepWalk[3],LINE[5],node2vec[18]等;也有偏重某類網(wǎng)絡分析任務或者結(jié)合新的神經(jīng)網(wǎng)絡架構(gòu)的網(wǎng)絡表示方法,如SNBC[19],HOPE[20],MNMF[21],Struc2vec[4],GraphGAN[22],ANE[23]和DynamicTriad[24]等.該類方法通常是從維護某種社會性質(zhì)出發(fā),通過神經(jīng)網(wǎng)絡的方式來擬合該性質(zhì),從而為每個節(jié)點學到一個更好的表示.比如:DeepWalk[3]是首個將word2vec[17]思想引入網(wǎng)絡表示中的方法,作者通過分別觀察在維基文本詞頻和在網(wǎng)絡節(jié)點中隨機游走后節(jié)點頻率的結(jié)果,發(fā)現(xiàn)二者都近似符合冪律分布,從而將詞與詞之間的上下文關(guān)系遷移到網(wǎng)絡中來,通過隨機游走“造句”來捕獲節(jié)點間的潛在關(guān)系.LINE[10]則是考慮了網(wǎng)絡中“一階相似性”和“二階相似性”的性質(zhì),從網(wǎng)絡中的鄰居關(guān)系和共有鄰居關(guān)系的角度進行了建模.Node2vec[18]則是通過對DeepWalk的隨機游走策略進行更細致的改進來學習到節(jié)點表示.HOPE[20]通過維護有向網(wǎng)絡中的非對稱傳遞性來學習到節(jié)點間的高階相似性.GraphGAN[22]則是通過基于對抗生成的思想來對邊生成的過程進行建模,從而對網(wǎng)絡進行表示.

相比傳統(tǒng)方法,上述網(wǎng)絡嵌入方法通過結(jié)合社會性質(zhì)和深度神經(jīng)網(wǎng)絡,取得了更好的性能.但是,該類方法致力于建模網(wǎng)絡的拓撲結(jié)構(gòu),而忽略了屬性信息,因此它們不適合用來建模屬性網(wǎng)絡.

屬性網(wǎng)絡表示方法(attributed network em-bedding, ANE)同時將網(wǎng)絡結(jié)構(gòu)信息和內(nèi)容信息納入考慮.ANE的方法可以歸類為(半)監(jiān)督和無監(jiān)督2類,其中(半)監(jiān)督類方法是指模型在訓練時需要類別信息來進行監(jiān)督指導的方法,無監(jiān)督類方法是不需要類別監(jiān)督信息指導的方法.經(jīng)典的(半)監(jiān)督方法包括TriDNR[8],Planetoid-T[25],SEANO[26]和LANE[27]等.例如:TriDNR通過結(jié)合skip-gram[17]的方法來結(jié)合結(jié)構(gòu)信息,節(jié)點內(nèi)容和節(jié)點類別.Planetoid-T[25]是一個結(jié)合節(jié)點內(nèi)容和鄰居信息的半監(jiān)督圖表示方法.SEANO[26]是一個探索了離群點性質(zhì)的半監(jiān)督屬性網(wǎng)絡表示方法.LANE[27]將屬性網(wǎng)絡和標簽類別信息映射到同一個嵌入空間來學習到網(wǎng)絡表示方法.然而,監(jiān)督式的方法需要類別信息的指導,當網(wǎng)絡中不含類別信息時,無法通過類別信息的反饋來學習表示,從而限制了其應用場景.無監(jiān)督式的方法能夠在無標簽的網(wǎng)絡使用,不受標簽信息限制,因而具有更廣泛的應用價值.比如GAE[28]使用了自編碼器的方式來捕捉拓撲結(jié)構(gòu)和內(nèi)容信息.VGAE[28]是一種基于變分圖自編碼器來結(jié)合結(jié)構(gòu)和內(nèi)容信息的方法.SNE[29]通過維護結(jié)構(gòu)相似度和屬性相似度來學到網(wǎng)絡表示.ARGA[9]是一種基于圖自編碼器的對抗圖表示框架,圖變分自編碼器ARGVA是它的變種.DANE[30]通過深度神經(jīng)網(wǎng)絡來捕獲拓撲結(jié)構(gòu)和節(jié)點屬性之間的相似性.ANRL[10]使用基于屬性感知的skip-gram方法構(gòu)造了一個鄰居增強的自編碼器,以此來建模節(jié)點屬性.其他在屬性網(wǎng)絡表示的研究方向包括:加速[31-32]或者探索其他信息的使用[27].盡管在無監(jiān)督ANE任務上已經(jīng)取得了令人矚目的進展,但節(jié)點和屬性之間的關(guān)系還沒有被完全探索.

2 基于復合關(guān)系圖卷積的屬性網(wǎng)絡嵌入方法

本節(jié)首先介紹屬性網(wǎng)絡中的復合關(guān)系,然后展示我們基于圖卷積網(wǎng)絡的模型.

2.1 屬性網(wǎng)絡及其關(guān)系

本節(jié)介紹屬性網(wǎng)絡及其關(guān)系.屬性網(wǎng)絡中的節(jié)點擁有其自身的屬性.例如對于一個引用網(wǎng)絡,每個節(jié)點對應一篇文章,每條邊對應2篇文章之間的引用,屬性對應文章的關(guān)鍵詞;對于一個社交網(wǎng)絡,每個節(jié)點對應一個用戶,每條邊對應一個關(guān)注關(guān)系,屬性對應用戶的個人信息.

屬性網(wǎng)絡的形式化定義為:G=(U,UU,A,UA),其中U={u1,u2,…,un}是用戶集合,n是用戶數(shù)量,UU是用戶-用戶關(guān)系矩陣,A={a1,a2,…,am}是用戶的屬性集合,m是屬性數(shù)量,UA是用戶-屬性關(guān)系矩陣.對于同質(zhì)網(wǎng)絡G,u∈U和a∈A是其基本對象,uu,ua分別是UU和UA關(guān)系矩陣的元素,代表用戶和屬性的基本關(guān)系.現(xiàn)有絕大部分ANE方法[9,28,33]都是建立在上述定義的同質(zhì)網(wǎng)絡G上.其中的關(guān)系展示在圖2(a).

Fig. 2 Relations in an attributed network圖2 屬性網(wǎng)絡中的關(guān)系

現(xiàn)有方法對于關(guān)系的利用上存在2方面不足:

1) 現(xiàn)有方法使用了uu關(guān)系來傳遞網(wǎng)絡中的信息,卻沒有考慮其他基本關(guān)系,如au(屬性-用戶關(guān)系的縮寫),如圖2(b)所示.基本關(guān)系au是從屬性視角獲得的關(guān)系,比如對于一篇“NLP”標簽(tag)的論文,可以看做在屬性節(jié)點“NLP”和論文之間存在一條虛擬邊,所有含有該屬性的論文可以被聚合起來,進行更深入的檢索.

2) 現(xiàn)有方法也忽略了更為復雜的關(guān)系:復合關(guān)系,如圖3中的線條所示.我們定義復合關(guān)系為組合了至少2種基本關(guān)系的關(guān)系,如uu和ua組合得到的復合關(guān)系uuua表示的是“用戶和用戶鄰居的屬性”的關(guān)系.復合關(guān)系保留了豐富的信息,如果上述關(guān)系可以被進一步挖掘,學到的表示也能保留更多的關(guān)系特性,從而改善社交網(wǎng)絡分析任務的性能.

Fig. 3 The architecture of CRGCN framework圖3 CRGCN框架結(jié)構(gòu)圖

基于上述觀察和分析,我們嘗試改進關(guān)系的利用形式.首先給屬性網(wǎng)絡G增加基本關(guān)系矩陣AU的定義,用來代表au的關(guān)系.接著拓展G來包含5種復合關(guān)系:(uuua;uaau;uuuu;auua;auuu),其中uuua表示uu和ua關(guān)系的組合.基礎(chǔ)的au關(guān)系和5種復合關(guān)系都展示在圖3的下半部分.為了更清楚地展示,我們將復合關(guān)系分類為:

用戶的復合關(guān)系:(uuua;uaau;uuuu)

屬性的復合關(guān)系:(auua;auuu)

新的關(guān)系包含了比(uu;ua)更多的信息,比如用戶的新關(guān)系可以顯式地表達出:用戶鄰居的鄰居(uuuu)、用戶共享的屬性(uaau)和用戶的鄰居的屬性(uuua)這3種關(guān)系;屬性的新關(guān)系可以顯式地表達出:共享用戶的屬性(auua)和屬性關(guān)聯(lián)到的用戶的鄰居(auuu)這2種關(guān)系.盡管我們可以建立像(uuuaau)關(guān)系的更復雜的組合,但高階的組合會增加計算復雜度,同時可能引入更多噪聲,因此我們只考慮上面列出的一階組合.

2.2 CRGCN框架:從復合關(guān)系中學習

本節(jié)我們將介紹復合關(guān)系圖卷積網(wǎng)絡(CRGCN)框架,用于從我們提出的復合關(guān)系中學習網(wǎng)絡嵌入.CRGCN的整體架構(gòu)如圖3所示.

圖卷積網(wǎng)絡技術(shù)是近年來提出的一種新的已被證明有效的計算方法[9,28,33].給定2.1節(jié)所定義的屬性網(wǎng)絡G=(U,UU,A,UA),為了刻畫圖中的結(jié)構(gòu)和屬性信息,圖卷積網(wǎng)絡函數(shù)fgcn的定義如下:

Z(l+1)=fgcn(Z(l),UU|W(l))=
σ(g(UU)W(l)Z(l)),

(1)

其中,Z(l)是卷積的輸入,W(l)是需要學習的卷積核參數(shù)矩陣,l是層數(shù),Z(l+1)是本層的輸出.g(UU)是原始結(jié)構(gòu)信息UU的轉(zhuǎn)換.函數(shù)g可以通過與單位矩陣I相乘保證UU的不變,如式(2)所示,或使用拉普拉斯正則化,如式(3)所示.

g(UU)=I(UU),

(2)

其中,D表示UU的對角度矩陣,σ是激活函數(shù),計算公式為

relu(x)=max(0,x)或者簡單的線性變換linear(x,W,b)=xW+b.

但是,一個基本的gcn函數(shù)只能處理像這樣的簡單關(guān)系(UU;UA),卷積的結(jié)構(gòu)信息僅限于UU.為了利用復合關(guān)系,我們將基本的GCN擴展為如下所述的復合關(guān)系CRGCN.其公式定義為

Z(Rs,Ri)=fcrgcn(Rs,Ri|W(Rs,Ri))=
σ(g(Rs)RiW(Rs,Ri)),

(4)

Rs和Ri是(UU,UA,AU)的2個關(guān)系矩陣,Z(Rs,Ri)是卷積的輸出,W(Rs,Ri)是需要學習的卷積核參數(shù),g是結(jié)構(gòu)信息Rs的轉(zhuǎn)換函數(shù),σ是激活函數(shù)或簡單的線性層.更直觀的解釋是,Rs可以看作GCN的結(jié)構(gòu)信息,類似于標準CNN的滑動窗口;Ri是我們需要卷積的輸入,相當于CNN輸入的圖片;W(Rs,Ri)則對應于CNN的卷積核,Z(Rs,Ri)是CNN的特征.

在2.1節(jié)中,我們構(gòu)造了屬性網(wǎng)絡的5種復合關(guān)系.以復合關(guān)系uuua為例,我們的CRGCN將使用用戶-用戶關(guān)系uu對用戶屬性關(guān)系進行卷積,ua得到用戶的潛在屬性表示.我們將充分利用5種組合,而不是像基本的GCN那樣只考慮uuua關(guān)系.例如我們可以嵌入更多類型的關(guān)系,比如用戶的潛在鄰居表示(uuuu)和屬性的潛在屬性表示(auua).

通過在多種復合關(guān)系上應用fcrgcn函數(shù),可以獲得屬性網(wǎng)絡不同視角的表示:3個用戶隱變量表示(Z(UU,UU),Z(UU,UA),Z(UA,AU))這2個屬性隱變量表示(Z(AU,UU),Z(AU,UA)).2種關(guān)系分別使用“arelations”和“urelations”表示在圖3中.

其中,fop是聚合函數(shù),可以采用均值/加權(quán)/拼接操作、線性變換、神經(jīng)網(wǎng)絡或注意力網(wǎng)絡等.這一步對應于基本GCN的第一層.同樣地,我們可以獲取屬性的淺層表示Za:

Za=fop(Z(AU,UU),Z(AU,UA)).

(6)

與基本的多層GCN操作相同,我們使用多層的復合關(guān)系CRGCN,其公式為

Z(UA,Za)=fcrgcn(UA,Za|Wuaza),

(7)

(13)

我們使用二進制交叉熵損失和pw來控制正樣本的權(quán)重.pw可以增強預測觀測值為1的鏈接,放松對觀測值為0鏈接的約束.它可以被用來測量值為0和1之間的概率,定義為

pw=(n×n-nz)/nz,

(15)

其中,n是用戶的數(shù)量,nz是UU中非0實例的個數(shù).

模型的算法描述的復雜度分析為:由于神經(jīng)網(wǎng)絡模型涉及的計算過程較復雜,并且計算工具本身存在優(yōu)化的差異,為了減少該類因素的影響,我們計算復雜度時以矩陣乘法的次數(shù)為基本單位,CRGCN模型復雜度計算為

T(n,m,d)=Θ(f1+f2+f3+f4)=
Θ(2dn2+(dn2+dmn)+2dmn)+
Θ((dn2+dmn)+2dmn+(dmn+d2m))+
Θ(dn2+d2n)+0=
Θ(5dn2+(7dm+d2)n+d2m),

(16)

3 實 驗

3.1 實驗設(shè)置

3.1.1 數(shù)據(jù)集

我們在3個公開數(shù)據(jù)集Cora,Citeseer,Pubmed上進行了2種經(jīng)典的分析任務:鏈接預測和節(jié)點聚類.數(shù)據(jù)集的統(tǒng)計信息如表1所示.上述數(shù)據(jù)集是同質(zhì)屬性網(wǎng)絡,把科學論文作為節(jié)點,引用關(guān)系作為邊,文檔里的詞作為屬性[34].

Table 1 Statistics for Homogeneous Datasets表1 同質(zhì)網(wǎng)絡數(shù)據(jù)集統(tǒng)計信息

3.1.2 基線方法和設(shè)置

對于鏈接預測和節(jié)點聚類實驗,我們將對比以下7種最新的基線方法:

1) DeepWalk[3].一個基于網(wǎng)絡結(jié)構(gòu)信息的網(wǎng)絡表示方法.作者在觀察到維基文本的詞頻分布與隨機游走的節(jié)點頻率存在相似性后,將word2vec的思想借鑒到網(wǎng)絡表示中來,考慮了網(wǎng)絡中的中心節(jié)點與上下文節(jié)點間的相關(guān)性,通過隨機游走的方式來造句,得到序列后進行訓練得到節(jié)點表示.

2) LINE[5].一個基于網(wǎng)絡結(jié)構(gòu)信息的網(wǎng)絡表示方法.考慮了網(wǎng)絡中節(jié)點間的一階相似性和二階相似性,通過邊采樣的方式來訓練模型,學到節(jié)點一、二階表示后拼接起來作為最終的特征向量,應用到相關(guān)的網(wǎng)絡分析任務中.

3) GAE[28].一個基于自編碼器框架的無監(jiān)督網(wǎng)絡表示方法,考慮了結(jié)構(gòu)信息和內(nèi)容信息.通過使用圖卷積網(wǎng)絡對圖中的節(jié)點特征進行卷積,從而學到節(jié)點的潛在特征,再應用到相關(guān)的網(wǎng)絡分析任務中.

4) VGAE[28].一個基于變分圖自編碼器的無監(jiān)督網(wǎng)絡嵌入方法,平衡了結(jié)構(gòu)和內(nèi)容信息.在推斷模塊中學習到正態(tài)分布的均值和方差參數(shù)來產(chǎn)生潛在表示,再在生成模塊中重構(gòu)出鄰接關(guān)系,最終應用到相關(guān)的網(wǎng)絡分析任務中.

5) ARGA[9].一個基于對抗約束的圖自編碼器的無監(jiān)督網(wǎng)絡表示算法,同時考慮了結(jié)構(gòu)和屬性信息.該模型在編碼圖信息得到節(jié)點表示后,通過一個判別器來判別一個樣本是從表示中產(chǎn)生的還是從一個先驗分布中產(chǎn)生的來進行約束,最終學到的表示應用到了鏈接預測和節(jié)點聚類任務中.

6) ARVGA[9].一個ARGA的變種,使用了變分圖自編碼器來學習嵌入.

7) ANRL[10].一個使用屬性感知的skip-gram來捕捉網(wǎng)絡結(jié)構(gòu)信息的屬性網(wǎng)絡表示方法.該模型對節(jié)點屬性編碼后,分別去重構(gòu)用戶屬性和預測圖的上下文信息,從而將2種信息結(jié)合起來.

我們沒有跟node2vec和SNE等網(wǎng)絡表示方法進行比較,因為在ARVGA和ANRL的實驗中,上述方法已經(jīng)被證明性能不如我們選擇的基線方法.本文的實驗均在Ubuntu16.04.5 LTS環(huán)境下進行,使用1.0.0版本的pytorch構(gòu)建網(wǎng)絡模型和運行框架,基線方法會按照源碼要求配置到對應的環(huán)境和軟件版本.

對于鏈接預測任務,我們跟ARVGA方法[9]一樣報告了AUC和AP指標.我們也使用了跟文獻[9]相同的數(shù)據(jù)劃分和測試方法:10%用于測試,5%用于校驗,剩下的用于訓練.對于所有的基線方法,我們使用其推薦設(shè)置,并學習得到32維度的節(jié)點表示來進行鏈接預測任務,最終報告重復5次實驗的平均結(jié)果.我們的方法設(shè)置學習率為0.005,最大迭代輪數(shù)200,優(yōu)化器選用adam[35].

對于節(jié)點聚類任務,我們報告了聚類的5個評價指標:accuracy(Acc),precision,F(xiàn)-score(F1),normalized mutual information(NMI)和adjusted rand index(ARI).

對于所有的基線方法,我們使用其推薦的設(shè)置,得到32維度的節(jié)點表示進行節(jié)點聚類任務.我們的方法使用了和鏈接預測中一樣的設(shè)置.由于節(jié)點聚類任務在每個方法的不同輪次上,結(jié)果波動很大,所以我們報告了每個方法最好輪次的得分作為最終結(jié)果,由于LINE方法做邊采樣沒有輪次,我們調(diào)整采樣邊數(shù),報告取[106;107;108;109;1010]條邊中效果最好的結(jié)果,對于DeepWalk則是調(diào)整每個點游走次數(shù),報告在1~10次中最好的結(jié)果.

3.2 鏈接預測及其實驗結(jié)果

鏈接預測的實驗結(jié)果展示在表2中,方法分為網(wǎng)絡表示方法(僅利用結(jié)構(gòu)信息)、屬性網(wǎng)絡表示方法和我們的方法三大塊,最好的結(jié)果用粗體表示.

Table 2 Results for Link Prediction表2 鏈接預測結(jié)果

對于僅考慮結(jié)構(gòu)信息的網(wǎng)絡表示方法LINE和DeepWalk,由于沒有對屬性信息進行利用,效果跟屬性網(wǎng)絡表示方法有一定的距離.

在屬性網(wǎng)絡表示方法中,CRGCN在Cora和Citeseer數(shù)據(jù)集上取得了最好的結(jié)果,相比其他基線方法有顯著性提升(成對t檢驗,滿足0.01顯著),在Pubmed上取得次好的效果.盡管GAE在Pubmed上取得了最好結(jié)果,這可能是因為Pubmed數(shù)據(jù)集上的鏈接情況跟屬性存在相對簡單的關(guān)聯(lián)性,GAE基于基礎(chǔ)的圖卷積建模,效果反而更好.但GAE性能并不穩(wěn)定,例如在Citeseer數(shù)據(jù)集上其效果下降嚴重.

在其他基線方法中,ARGA和GAE在Cora和Pubmed數(shù)據(jù)集上表現(xiàn)很好,原因可能是它們都是基于基礎(chǔ)gcn的方法,更偏向于建模結(jié)構(gòu)信息.但在有更多屬性信息的Citeseer的數(shù)據(jù)集上,ARGA和GAE就比不上能夠更好地利用屬性信息的ANRL方法.

綜上所述,我們的RGCN通過平衡多種關(guān)系,可以在不同類型的數(shù)據(jù)集上取得穩(wěn)定良好的性能.

3.3 節(jié)點聚類及其實驗結(jié)果

節(jié)點聚類的結(jié)果展示在表3~5中,方法分為:網(wǎng)絡表示方法(僅利用結(jié)構(gòu)信息)、屬性網(wǎng)絡表示方法、我們的方法三大塊,最好的結(jié)果用粗體表示.

Table 3 Clustering Results on Cora表3 Cora上的聚類結(jié)果

Table 4 Clustering Results on Citeseer表4 Citeseer上的聚類結(jié)果

Table 5 Clustering Results on Pubmed表5 Pubmed上的聚類結(jié)果

從表3~5可以看出,通過考慮節(jié)點和它們的屬性間的復合關(guān)系,我們的CRGCN依然取得了整體上最好的效果.

不同于鏈接預測任務,節(jié)點聚類任務更困難.原因在于無監(jiān)督表示學習的過程中無法學到任務相關(guān)的模式,這也是所有方法的結(jié)果都存在波動的原因.雖然增加屬性對于節(jié)點聚類任務能夠產(chǎn)生正面影響,但實際上由于無監(jiān)督建模本身的特點,想要平衡屬性引入的有效信息和噪聲是一個挑戰(zhàn).我們在實驗里也發(fā)現(xiàn)偏向于利用結(jié)構(gòu)信息的方法能夠在部分情況下取得相對較好的效果,比如ARGA和ARGVA,它們更強調(diào)利用結(jié)構(gòu)去卷積特征信息;而更偏向?qū)傩缘姆椒ㄈ鏏NRL,從節(jié)點的屬性信息出發(fā),重構(gòu)了屬性信息和預測鄰居上下文,會在另外一部分數(shù)據(jù)集上表現(xiàn)良好.

為了能學到節(jié)點聚類中表現(xiàn)好的節(jié)點表示,需要能平衡屬性和結(jié)構(gòu)信息的方法,如果一個模型能夠?qū)W到節(jié)點間多種類型的相關(guān)性,將會比主要偏向?qū)W習單一類型相關(guān)性的方法效果好,CRGCN方法同時建模來自屬性和結(jié)構(gòu)的復合關(guān)系,因此在實驗中表現(xiàn)出較好的性能.

3.4 參數(shù)分析

本節(jié)主要針對跟節(jié)點表示向量直接相關(guān)的維度參數(shù)進行分析,通過改變節(jié)點表示的維度,觀察其對于模型性能的影響.我們以Cora數(shù)據(jù)集為例,分別進行鏈接預測和節(jié)點聚類任務,結(jié)果如圖4,5所示:

Fig. 4 Performance of link prediction with different embedding dimensions on Cora圖4 Cora數(shù)據(jù)集上鏈接預測的維度變換實驗

Fig. 5 Performance of node clustering with different embedding dimensions on Cora圖5 Cora數(shù)據(jù)集上節(jié)點聚類的維度變換實驗

對于鏈接預測任務,觀察圖4可知,我們的模型在僅用4維的向量表示的時候就已經(jīng)有了初步的效果,之后隨著模型的維度增加,效果逐漸上升,在64維度左右時取得最好效果,最后趨于穩(wěn)定.由此可見,初期的維度增加對于節(jié)點的表示效果能夠有相對明顯的改善,但維度繼續(xù)增加時效果開始下降,該情況可以理解為在維護更多關(guān)系信息的同時也引入了相應的噪聲,從而使得泛化性能有所下降.

對于節(jié)點聚類任務,觀察圖5可知,表示向量在20維左右的時候有了初步效果,在30~40維度之間取得最好的效果,之后趨于穩(wěn)定.該任務的變化走勢跟鏈接預測任務接近,在維度增大的同時也確實會有一定的噪聲引入.

4 總 結(jié)

我們提出了一種新的用于屬性網(wǎng)絡嵌入的復合關(guān)系圖卷積網(wǎng)絡模型(CRGCN),考慮了用戶和屬性之間的關(guān)系,并分析了所有的一階組合獲得復合關(guān)系.接著,我們提出了一個復合關(guān)系圖卷積網(wǎng)絡來對基本關(guān)系和復合關(guān)系進行編碼,把這些新的潛在表示結(jié)合在一起得到最終的嵌入.在真實世界的網(wǎng)絡上進行廣泛的實驗,結(jié)果表明我們的模型優(yōu)于當前最好的基線方法.

长沙市| 鲁山县| 祁阳县| 固原市| 来凤县| 贵港市| 芦溪县| 安西县| 博客| 汾阳市| 海晏县| 凭祥市| 清河县| 浠水县| 堆龙德庆县| 新丰县| 多伦县| 平湖市| 洛阳市| 清远市| 惠州市| 东阿县| 资溪县| 鄱阳县| 清河县| 绥滨县| 承德县| 安岳县| 东方市| 双城市| 玛纳斯县| 夏津县| 景东| 彭州市| 芜湖市| 定南县| 英山县| 衡东县| 河南省| 江门市| 海阳市|