錢 峰 ,張 蕾 ,趙 姝 ,陳 潔
(1.銅陵學(xué)院數(shù)學(xué)與計算機學(xué)院,銅陵,244061;2.安徽大學(xué)計算機科學(xué)與技術(shù)學(xué)院,合肥,230601)
圖(網(wǎng)絡(luò))是一種常用的數(shù)據(jù)結(jié)構(gòu),可用來建模不同實體之間的關(guān)系,圖數(shù)據(jù)分析中,研究人員運用各種技術(shù)(如網(wǎng)絡(luò)表示學(xué)習(xí)和深度學(xué)習(xí))和手段(如社區(qū)發(fā)現(xiàn)、節(jié)點分類和鏈接預(yù)測)來挖掘圖中隱藏的信息.其中,網(wǎng)絡(luò)對齊(Network Alignment)是一項重要的數(shù)據(jù)挖掘技術(shù),能發(fā)現(xiàn)不同網(wǎng)絡(luò)中實體之間的等價關(guān)系和相似性[1],在社交網(wǎng)絡(luò)分析、生物信息學(xué)和知識圖譜構(gòu)建等領(lǐng)域得到了廣泛應(yīng)用.例如,在社交網(wǎng)絡(luò)分析中,可基于用戶對齊結(jié)果進行跨平臺的信息傳遞[2];在生物信息學(xué)中,對齊不同物種間的蛋白質(zhì)分子網(wǎng)絡(luò)可以實現(xiàn)蛋白質(zhì)功能注釋[3];在知識圖譜的構(gòu)建過程中,利用實體對齊可以完成知識補全[4].
網(wǎng)絡(luò)對齊任務(wù)中,可利用網(wǎng)絡(luò)的拓撲結(jié)構(gòu)或節(jié)點屬性信息來識別不同網(wǎng)絡(luò)中的相似節(jié)點[5],但由于網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性,傳統(tǒng)的網(wǎng)絡(luò)對齊方法無法滿足當下網(wǎng)絡(luò)對齊任務(wù)的需求.近年來,研究人員提出許多基于嵌入的網(wǎng)絡(luò)對齊方法,包括基于網(wǎng)絡(luò)嵌入的方法[6-8]和基于圖神經(jīng)網(wǎng)絡(luò)的方法[9-14],已有研究表明,基于嵌入方法的性能普遍優(yōu)于傳統(tǒng)方法.網(wǎng)絡(luò)嵌入(Network Embedding)是一種降維技術(shù),可以將網(wǎng)絡(luò)節(jié)點特征映射到低維向量空間,能更好地表示節(jié)點之間的關(guān)系[15].圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks,GNN)是一種深度學(xué)習(xí)模型,能捕捉節(jié)點和邊之間的復(fù)雜交互關(guān)系以及全局拓撲信息.這些技術(shù)被廣泛應(yīng)用于各種任務(wù),如節(jié)點分類、鏈接預(yù)測和圖分類[16].
圖1 展示了基于嵌入的網(wǎng)絡(luò)對齊過程,其中源網(wǎng)絡(luò)和目標網(wǎng)絡(luò)代表不同的網(wǎng)絡(luò).假設(shè)已知節(jié)點1 和節(jié)點a是等效節(jié)點,即它們指向現(xiàn)實中同一實體,稱(1,a)為錨節(jié)點對或錨鏈.網(wǎng)絡(luò)對齊任務(wù)的主要目標是發(fā)現(xiàn)源網(wǎng)絡(luò)和目標網(wǎng)絡(luò)中更多未知的錨節(jié)點對.基于嵌入的網(wǎng)絡(luò)對齊方法的基本思想是采用嵌入技術(shù)來學(xué)習(xí)不同網(wǎng)絡(luò)中節(jié)點的嵌入向量表示并將它們映射到同一向量空間中,之后通過計算向量之間的距離或相似度來構(gòu)建對齊矩陣,以發(fā)現(xiàn)不同網(wǎng)絡(luò)中節(jié)點之間的對應(yīng)關(guān)系.
圖1 基于嵌入的網(wǎng)絡(luò)對齊過程Fig.1 Example of embedding-based network alignment process
基于網(wǎng)絡(luò)嵌入的方法通常使用DeepWalk[17],LINE[18]等算法來學(xué)習(xí)源網(wǎng)絡(luò)和目標網(wǎng)絡(luò)的節(jié)點嵌入向量,然而,由于嵌入空間是獨立構(gòu)造的,無法直接利用這些向量表示來計算對齊矩陣.為了解決這個問題,常用的方法是對嵌入矩陣進行線性變換或使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)兩個嵌入空間的映射關(guān)系,但將不同的嵌入空間映射到同一向量空間通常需要大量監(jiān)督樣本,計算成本高,應(yīng)用過程中存在困難.這些困難主要源于兩方面:一是監(jiān)督樣本的獲取困難;二是不同網(wǎng)絡(luò)之間存在結(jié)構(gòu)和語義差異,早期的網(wǎng)絡(luò)嵌入技術(shù)難以捕獲節(jié)點深層的語義特征.結(jié)構(gòu)差異指兩個網(wǎng)絡(luò)的節(jié)點數(shù)量不同,語義差異指等效節(jié)點的鄰域結(jié)構(gòu)不同.
近年來,GNN 已被廣泛應(yīng)用于網(wǎng)絡(luò)對齊任務(wù).首先,GNN 具有強大的泛化能力,適用于不同拓撲結(jié)構(gòu)的網(wǎng)絡(luò);其次,GNN 能捕捉圖中節(jié)點之間的復(fù)雜關(guān)系,更好地理解正在對齊的網(wǎng)絡(luò)的底層結(jié)構(gòu);此外,GNN 中用來更新節(jié)點特征向量的權(quán)重參數(shù)可以共享,避免空間映射過程,大大降低了對齊問題的復(fù)雜性.這些優(yōu)勢使GNN 成為目前解決網(wǎng)絡(luò)對齊問題的強大工具.
雖然GNN 在網(wǎng)絡(luò)對齊方面有很大潛力,但仍然存在許多挑戰(zhàn).首先,過擬合是一個普遍存在的問題,導(dǎo)致GNN 的性能下降,這可能由多種因素引起,如模型復(fù)雜度、訓(xùn)練次數(shù)和參數(shù)量等.為了避免過擬合,可以簡化模型結(jié)構(gòu),但這樣會降低GNN 學(xué)習(xí)節(jié)點底層特征的能力,影響模型的泛化能力.魯棒性是另一個問題.GNN 依賴圖結(jié)構(gòu),圖中的微小變化可能導(dǎo)致模型輸出的顯著變化,然而,在網(wǎng)絡(luò)數(shù)據(jù)中,噪聲和結(jié)構(gòu)缺失不可避免,會影響模型輸出的節(jié)點表示的質(zhì)量.最后,可擴展性也是一個需要考慮的問題.GNN 計算成本高,難以擴展到大型網(wǎng)絡(luò).此外,在許多應(yīng)用中,圖中的所有嵌入必須定期重新計算.這些因素限制了GNN 在現(xiàn)實場景中的適用性.
為了解決上述問題,提出一種快速魯棒無監(jiān)督網(wǎng)絡(luò)對齊方法(Fast and Robust,F(xiàn)AROS),利用在粗圖上訓(xùn)練的GNN 模型來解決網(wǎng)絡(luò)對齊問題.使用粗圖可以更容易地訓(xùn)練GNN,并且內(nèi)存需求更低.另外,粗圖還可以提取網(wǎng)絡(luò)中的重要節(jié)點和邊,降低噪聲數(shù)據(jù)對GNN 訓(xùn)練的影響,有助于GNN 學(xué)習(xí)更具魯棒性的嵌入向量.FAROS算法包括幾個步驟:首先,構(gòu)造粗圖,即保留原始網(wǎng)絡(luò)主干結(jié)構(gòu)的簡化網(wǎng)絡(luò);然后,在粗圖上訓(xùn)練GNN;最后,利用訓(xùn)練后的GNN 預(yù)測兩個網(wǎng)絡(luò)中節(jié)點之間的對應(yīng)關(guān)系.本文的主要貢獻如下.
(1)提出一種利用粗圖訓(xùn)練的GNN 模型來解決網(wǎng)絡(luò)對齊問題的方法,通過在粗圖上訓(xùn)練GNN 模型來提高算法的運行效率和魯棒性.
(2)為了滿足網(wǎng)絡(luò)對齊任務(wù)的需求,采用多種策略來保證訓(xùn)練結(jié)果的可靠性,包括參數(shù)共享、多階嵌入和基于偽錨鏈的自監(jiān)督學(xué)習(xí).這些策略的結(jié)合確保了對齊結(jié)果的準確性.
(3)在四個真實數(shù)據(jù)集上的實驗結(jié)果表明,使用粗圖訓(xùn)練的GNN 所需的計算資源更少,能顯著提高算法的運行效率和魯棒性.此外,采用的訓(xùn)練方法也能保證算法的對齊精度.
1.1 圖粗化技術(shù)圖粗化(Graph Coarsening)是一種在保留原始圖的關(guān)鍵特征的情形下顯著減少圖規(guī)模的技術(shù).使用圖粗化算法可以生成一個更簡單的粗圖,它具有更少的節(jié)點和邊,所以對該圖的分析和處理會更容易.圖粗化的方法有很多種,包括基于匹配的方法、基于聚類的方法和基于譜的方法.
1.1.1 基于匹配的方法基于匹配的方法是一種有效的圖粗化方法,其主要思想是使用匹配規(guī)則來尋找相互匹配的節(jié)點,并通過互匹配的節(jié)點來構(gòu)造超級節(jié)點.這一操作可以重復(fù)進行,直到?jīng)]有節(jié)點能匹配或達到所需的粗化水平.通??梢愿鶕?jù)圖的固有特征制定相應(yīng)的匹配規(guī)則,例如節(jié)點的度或節(jié)點共鄰的數(shù)量.代表算法有重邊匹配(Heavy Edge Matching,HEM)算法[19]、結(jié)構(gòu)等價匹配(Structural Equivalence Matching,SEM)算法[20]和歸一化重邊匹配(Normalized Heavy Edge Matching,NHEM)算法[21].其中,HEM 算法采用貪心原則,依據(jù)邊的權(quán)重來匹配合并相鄰節(jié)點;SEM 算法將具有相同結(jié)構(gòu)的節(jié)點視為等價節(jié)點進行匹配;NHEM 算法在HEM 的基礎(chǔ)上進行改進,通過對每個節(jié)點的邊權(quán)重進行歸一化處理使所有邊權(quán)值的和為1,避免權(quán)重過大或過小而導(dǎo)致的匹配偏差.
1.1.2 基于聚類的方法基于聚類的方法采用圖聚類或社團檢測算法,按照特定標準(如距離或模塊度)將節(jié)點劃分為不同的簇,使同一簇內(nèi)節(jié)點的相似性盡可能大,同時,不同簇的節(jié)點差異性也盡可能大,然后遞歸地合并這些簇,直至達到所需的粗化水平.代表的圖聚類算法有K-means[22]和高斯混合模型(Gaussian Mixture Model,GMM)[23]等.K-means 是一種迭代求解的聚類分析算法,GMM 是一種基于概率模型的聚類方法,代表的社團檢測算法有魯汶(Louvain)算法[24]等.
1.1.3 基于譜的方法基于譜的圖粗化方法的目的是保留原始圖和粗圖之間的譜特性.圖中的譜通常指拉普拉斯(Laplacian)矩陣,用于在譜域上描述圖結(jié)構(gòu)和節(jié)點之間的關(guān)系.Loukas[25]提出一種基于受限譜逼近的多層次圖粗化算法,可以在保持原始圖結(jié)構(gòu)特征不變的情況下將其縮減為更小規(guī)模的圖.受限譜逼近是一種譜逼近方法,其主要思想是選擇一個低維子空間,使得在該子空間中,原始圖和粗圖之間的譜距離最小化.
1.2 基于嵌入的網(wǎng)絡(luò)對齊基于嵌入的網(wǎng)絡(luò)對齊是一種通過結(jié)合不同的嵌入技術(shù)解決網(wǎng)絡(luò)對齊問題的方法,可以分為兩類,即基于網(wǎng)絡(luò)嵌入的方法和基于圖神經(jīng)網(wǎng)絡(luò)的方法.
1.2.1 基于網(wǎng)絡(luò)嵌入的方法基于網(wǎng)絡(luò)嵌入的方法使用DeepWalk[17]或LINE[18]等網(wǎng)絡(luò)嵌入技術(shù)來學(xué)習(xí)不同網(wǎng)絡(luò)中的節(jié)點表示.Man et al[6]提出PALE(Predicting Anchor Links via Embedding)算法,利用觀測到的錨鏈為監(jiān)督信息,結(jié)合LINE來捕捉不同網(wǎng)絡(luò)之間的結(jié)構(gòu)規(guī)律和相似性,并使用學(xué)習(xí)的嵌入向量來預(yù)測錨鏈.其中,錨鏈被視為網(wǎng)絡(luò)中的關(guān)鍵節(jié)點,它們的位置和連接關(guān)系被用來指導(dǎo)嵌入向量的學(xué)習(xí),通過這種方式PALE算法能更好地捕捉網(wǎng)絡(luò)的結(jié)構(gòu)和特征,提高預(yù)測的準確性和可靠性.Heimann et al[7]提出REGAL(Representation Based Graph Alignment)算法,通過擴展低秩矩陣近似的Nystr?m 方法[26]和設(shè)置標準節(jié)點來加速表示學(xué)習(xí),并通過Kd-tree 方法[27]實現(xiàn)貪婪對齊.Nguyen et al[8]提出NAWAL(Network Alignment with Self-supervised Anchor Links)算法.首先,分別學(xué)習(xí)源網(wǎng)絡(luò)和目標網(wǎng)絡(luò)的節(jié)點向量表示;然后,使用生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[28]在無監(jiān)督樣本的情況下學(xué)習(xí)一個映射函數(shù)W,將兩個網(wǎng)絡(luò)的嵌入空間協(xié)調(diào)到一個公共空間中,在這個過程中,通過生成的偽錨鏈,利用Procrustes 的封閉解[29]進一步優(yōu)化嵌入;最后,采用貪婪啟發(fā)式的方法進行對齊.Zhu et al[30]提出CAPER(Coarsen,Align,Project,Refine)算法,首先將輸入網(wǎng)絡(luò)粗化為不同粒度的網(wǎng)絡(luò),接著在最粗的網(wǎng)絡(luò)上使用現(xiàn)有對齊算法(如REGAL)獲得最粗的對齊矩陣,最后,將對齊結(jié)果進行逐層映射,最終得到最細層次的對齊矩陣.此外,CAPER 在映射過程中,通過在不同粒度的對齊矩陣上使用CONE_Align[31]來改善對齊結(jié)果.CONE_Align 提供了一種基于近鄰一致性(Neighborhood Consistency)的優(yōu)化方法來提高現(xiàn)有網(wǎng)絡(luò)對齊算法的魯棒性.具體地,如果已對齊的節(jié)點對具有相似的特征,則它們的鄰居節(jié)點中很可能也存在相互對齊的節(jié)點.
1.2.2 基于圖神經(jīng)網(wǎng)絡(luò)的方法基于圖神經(jīng)網(wǎng)絡(luò)的方法是利用圖神經(jīng)網(wǎng)絡(luò)模型,例如圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[32]和圖同構(gòu)網(wǎng)絡(luò)(Graph Isomorphic Network,GIN)[33]來學(xué)習(xí)不同網(wǎng)絡(luò)中節(jié)點的表示,并通過學(xué)習(xí)到的特征向量推斷不同網(wǎng)絡(luò)中節(jié)點之間的相似性.Trung et al[9]提出GAlign 算法,利用GCN 學(xué)習(xí)節(jié)點的多階嵌入.為了提高模型性能,GAlign 設(shè)計了一種數(shù)據(jù)增強方法,主要通過對網(wǎng)絡(luò)節(jié)點的邊進行隨機添加或刪除操作來增加模型的魯棒性和泛化能力,為網(wǎng)絡(luò)對齊提供高質(zhì)量的節(jié)點嵌入表示.Qin et al[10]提出G-CREWE(Graph CompREssion with Embedding)算法,首先,利用GCN 提取節(jié)點特征,獲得原始網(wǎng)絡(luò)的對齊結(jié)果;然后使用提出 的 MERGE(Minimum DEgRee NeiGhbors ComprEssion)方法對網(wǎng)絡(luò)進行壓縮,并在粗圖上進行對齊;最后,將來自兩種粒度網(wǎng)絡(luò)的對齊結(jié)果合并,以實現(xiàn)高質(zhì)量的對齊性能.Gao et al[11]提出WAlign 算法,利用LGCN(Lightweight GCN)模型來捕獲網(wǎng)絡(luò)的局部和全局結(jié)構(gòu)信息,獲得高質(zhì)量的節(jié)點特征向量,然后通過Wasserstein 距離[34]鑒別器生成偽錨節(jié)點對,并在統(tǒng)一的優(yōu)化框架下,利用對抗訓(xùn)練的方法迭代更新嵌入和鑒別器參數(shù)來提高對齊準確率.Park et al[12]提出Grade-Align算法,首先使用GIN 生成嵌入向量并構(gòu)建嵌入相似度矩陣,然后通過迭代的方式,融合嵌入相似度矩陣和不斷更新的Tversky 相似度矩陣來生成偽錨節(jié)點集合,逐步提高算法的對齊準確性.Tversky 相似度[35]是一種基于集合的相似度計算方法,用于評估兩個集合之間的相似程度.構(gòu)造Tversky 相似度矩陣的方法如下:首先,構(gòu)建兩個新圖;接著,依據(jù)偽錨節(jié)點集合,將來自另一方的節(jié)點和相應(yīng)的邊加入到各自的圖中;最后,計算不同圖中兩個節(jié)點鄰域集合之間的Tversky 系數(shù),構(gòu)造Tversky 相似度矩陣.Lu et al[13]提出Bi_GANA(Bi-layer Graph Attention Neural Network for Network Alignment)算法,利用雙層圖注意力神經(jīng)網(wǎng)絡(luò)對多維用戶特征和社交網(wǎng)絡(luò)的局部和全局拓撲信息進行建模,通過不規(guī)則圖和多維用戶特征信息實現(xiàn)社交網(wǎng)絡(luò)用戶對齊問題.Huynh et al[14]提出NAME(Network Alignment with Multiple Embedding)算法,集成多種嵌入技術(shù)以創(chuàng)建更豐富、更準確的節(jié)點表示,并通過端到端的學(xué)習(xí)來實現(xiàn)高效對齊.
盡管GNN 在網(wǎng)絡(luò)對齊領(lǐng)域已取得了巨大的成功,但仍然存在一些缺陷.在處理大規(guī)模圖數(shù)據(jù)時,GNN 模型需要大量的計算和存儲,限制了模型的規(guī)模和性能.同時,噪聲數(shù)據(jù)會干擾GNN的學(xué)習(xí)過程,使模型無法準確地捕捉節(jié)點之間的關(guān)系和特征.為了解決這個問題,GNN 模型可以使用數(shù)據(jù)增強技術(shù)來增加訓(xùn)練數(shù)據(jù)的數(shù)量,但數(shù)據(jù)增強也會增加噪聲數(shù)據(jù)的數(shù)量,進一步干擾模型的訓(xùn)練.
針對這些問題,本文提出一種基于圖神經(jīng)網(wǎng)絡(luò)的無監(jiān)督網(wǎng)絡(luò)對齊方法.與上述方法不同,該方法使用粗圖訓(xùn)練GNN 模型來加快訓(xùn)練速度、減少內(nèi)存需求,并提高其應(yīng)對噪聲數(shù)據(jù)的能力.在粗圖上訓(xùn)練GNN,可以使GNN 在更小的數(shù)據(jù)集上訓(xùn)練,有效減少了模型參數(shù),提高了訓(xùn)練效率.此外,粗圖可以識別網(wǎng)絡(luò)中的重要節(jié)點和邊,為網(wǎng)絡(luò)對齊提供更準確的信息,緩解因噪聲數(shù)據(jù)給GNN 模型訓(xùn)練帶來的不穩(wěn)定性和誤差.
本文的研究對象為兩個屬性網(wǎng)絡(luò).通常,一個無向的屬性網(wǎng)絡(luò)可表示為G=(V,E,A,X).其中,集合V記錄節(jié)點的索引信息.集合E記錄邊的信息,E?{{u,v}?V|u≠v}.矩陣A∈RN×N為鄰接矩陣,N=|V|,描述節(jié)點之間的連接關(guān)系.若 (u,v)∈E,則A[u][v]=A[v][u]=1,反之,A[u][v]=A[v][u]=0.連接關(guān)系也可以用鏈接矩陣E∈R2×|E|表示,其中,第一個列表是所有邊上起始節(jié)點的索引,第二個列表是對應(yīng)邊上目標節(jié)點的索引.矩陣X∈RN×f是屬性矩陣,記錄每個節(jié)點的初始特征向量,f為向量的維度.
網(wǎng)絡(luò)對齊任務(wù)的目標是發(fā)現(xiàn)源網(wǎng)絡(luò)和目標網(wǎng)絡(luò)中的錨節(jié)點對.其中,錨節(jié)點對表示為:
輸入為源網(wǎng)絡(luò)Gs=(Vs,Es,As,Xs)和目標網(wǎng)絡(luò)Gt=(Vt,Et,At,Xt).
FAROS 算法的框架如圖2 所示,分訓(xùn)練和推理兩個階段.在訓(xùn)練階段,首先對兩個網(wǎng)絡(luò)進行粗化,然后在粗圖上訓(xùn)練GNN 模型參數(shù).在推理階段,將源網(wǎng)絡(luò)和目標網(wǎng)絡(luò)輸入訓(xùn)練好的GNN模型,通過前向傳播推斷原始網(wǎng)絡(luò)的節(jié)點向量表示并計算最終的相似矩陣.為了提高表示質(zhì)量,F(xiàn)AROS 引入基于偽錨節(jié)點對的自監(jiān)督學(xué)習(xí).具體地,通過首輪訓(xùn)練得到的多階節(jié)點嵌入計算來對齊矩陣并采集偽錨節(jié)點對集合,然后傳遞給GNN 模型用于下一輪的訓(xùn)練并獲取新的對齊矩陣.本節(jié)首先介紹粗圖的構(gòu)造方法,然后介紹采用的GNN 模型架構(gòu)和訓(xùn)練方法,最后給出FAROS 算法的描述.
圖2 FAROS 算法的框架圖Fig.2 The overall framework of FAROS
3.1 網(wǎng)絡(luò)粗化訓(xùn)練GNN 模型是一個昂貴的過程,尤其是在處理大型網(wǎng)絡(luò)時.為了減少訓(xùn)練開銷,本文采用粗圖訓(xùn)練GNN 模型,這樣做主要有兩個優(yōu)點:第一,有效減少需要優(yōu)化的參數(shù)的數(shù)量;第二,提取網(wǎng)絡(luò)中最重要的主干結(jié)構(gòu),從而將訓(xùn)練過程集中在網(wǎng)絡(luò)最重要的特征方面.因此,該方法不僅能提高模型的訓(xùn)練效率,還可以提高模型的魯棒性.
由于結(jié)構(gòu)噪聲對圖拉普拉斯矩陣的譜影響較小[36],因此本文采用基于譜的粗化方法來簡化網(wǎng)絡(luò)結(jié)構(gòu).具體地,采用Loukas[25]的基于鄰域的局部變化的圖粗化方法,利用受限譜逼近方法來縮減圖的大小,在不顯著改變圖的基本屬性的情況下,具有很強的譜和割保證.因此,該方法可以有效地簡化網(wǎng)絡(luò)結(jié)構(gòu),同時保留原始圖的關(guān)鍵譜(結(jié)構(gòu))特性.另外,該方法還提供參數(shù)r來控制輸出粗圖的規(guī)模,r=1-n/N,其中,N是原始圖的節(jié)點數(shù),n是粗圖的節(jié)點數(shù).算法的輸出為粗圖的鄰接矩陣和分配矩陣M∈RN×n,分配矩陣決定哪些鄰居可以聚在一起形成超節(jié)點.根據(jù)分配矩陣可獲得粗圖的屬性矩陣,計算如下:
算法1 描述了網(wǎng)絡(luò)結(jié)構(gòu)粗化的過程,通過搜索連通子圖并設(shè)置相應(yīng)的閾值來減少數(shù)據(jù)噪聲的影響,進一步過濾網(wǎng)絡(luò)中的噪聲數(shù)據(jù).其中,下標*表示源網(wǎng)絡(luò)和目標網(wǎng)絡(luò)的s或t.
算法1 的時間復(fù)雜度主要由處理子圖的循環(huán)和處理特征的循環(huán)決定.假設(shè)有l(wèi)個子圖,每個子圖的節(jié)點數(shù)為m,則處理子圖的循環(huán)的時間復(fù)雜度為O(lm2),處理特征的循環(huán)的時間復(fù)雜度為O(lm).因此,算法1 的時間復(fù)雜度為O(lm2).
3.2 模型訓(xùn)練網(wǎng)絡(luò)對齊中,通過GNN 學(xué)習(xí)節(jié)點的特征向量來構(gòu)建對齊矩陣.一個標準的GNN 模型[37]由k個圖卷積層組成,每個圖卷積層通過消息傳遞策略來捕獲網(wǎng)絡(luò)的結(jié)構(gòu)和屬性信息[38].從初始的特征開始,第k層的節(jié)點特征由第k-1 層的相鄰節(jié)點的特征聚合而成.具體地,設(shè)源網(wǎng)絡(luò)或目標網(wǎng)絡(luò)中的節(jié)點v在第k-1 層的特征向量為,那么,第k層的圖卷積可表示為:
其中,下標*表示源網(wǎng)絡(luò)和目標網(wǎng)絡(luò)的s或t,σ()是激活函數(shù),N(v)是節(jié)點v的鄰居節(jié)點集合,是第k層的需要學(xué)習(xí)的模型參數(shù).
為了確保源網(wǎng)絡(luò)和目標網(wǎng)絡(luò)中的節(jié)點特征表示在相同的向量空間中,采用了權(quán)重共享機制,即使用相同的參數(shù)來更新每個節(jié)點的特征向量.此外,還采用多階嵌入的方法[9],可以更好地利用網(wǎng)絡(luò)的局部和全局拓撲信息來增強模型的語義表示能力.
對齊矩陣S的計算如下:
盡管GNN 可以捕捉網(wǎng)絡(luò)之間的復(fù)雜關(guān)系,提高網(wǎng)絡(luò)對齊算法的效率和精度,但其性能優(yōu)勢通常需要結(jié)合特定的任務(wù)設(shè)計模型架構(gòu)并提供足夠的監(jiān)督樣本才能體現(xiàn).為了幫助GNN 更好地識別兩個網(wǎng)絡(luò)中的節(jié)點之間的對應(yīng)關(guān)系,利用自動生成的偽錨節(jié)點對集合,以迭代的方式訓(xùn)練GNN 模型,提高最終對齊的準確率.
具體地,在首輪訓(xùn)練過程結(jié)束后,根據(jù)式(3)得到對齊矩陣,從中采集不同網(wǎng)絡(luò)中節(jié)點之間的相似度,將結(jié)果以三元組(i,j,Sij)的形式保存到候選列表中并進行降序排序,其中,節(jié)點i是源網(wǎng)絡(luò)的節(jié)點,節(jié)點j是目標網(wǎng)絡(luò)的節(jié)點,Sij是其對應(yīng)的相似度.接著,依序選擇相似度最高的節(jié)點對加入偽錨節(jié)點對集合,并從候選列表中刪除已加入偽錨節(jié)點對集合的節(jié)點的所有數(shù)據(jù).最終,將得到的偽錨節(jié)點對集合傳遞給GNN 模型用于下一輪訓(xùn)練.
在每一輪訓(xùn)練中,GNN 模型都計算對齊矩陣并生成新的偽錨節(jié)點對集合,以幫助改善后續(xù)的表示學(xué)習(xí)過程.需要注意的是,本研究采用了一個漸進式采集策略,即逐步增加錨節(jié)點對的采集數(shù)量,能更好地控制訓(xùn)練的復(fù)雜性和效率.
模型訓(xùn)練的目標函數(shù)由兩部分組成,分別是:
式(4)的目標函數(shù)用于計算預(yù)測的鏈接矩陣與實際的鏈接矩陣之間的誤差.其中,用于聚合節(jié)點嵌入的矩陣不是固定的,目的是最小化相同卷積層節(jié)點嵌入的距離,同時最大化不同卷積層嵌入之間的距離,從而能更精確地捕獲一階和高階鄰域結(jié)構(gòu).
其中,P是偽錨節(jié)點對集合.
式(5)的目標函數(shù)是讓每層的偽錨節(jié)點對的嵌入在表示空間中趨于相似,因為真實的錨節(jié)點對應(yīng)有相似的嵌入.換言之,通過調(diào)整嵌入向量,使同一組錨節(jié)點在不同的層中的嵌入具有相似性,從而提升最終對齊結(jié)果的準確性和可靠性.
3.3 算法描述FAROS 的具體描述如下.
算法2 中,GNN 前向傳播的時間復(fù)雜度為O(|A*|),反向傳播的時間復(fù)雜度為O(|H*|2).設(shè)n是粗圖的節(jié)點數(shù),獲取偽錨節(jié)點的時間復(fù)雜度為O(n3+n2+nlgn)=O(n3).
首先介紹實驗采用的數(shù)據(jù)集、對比算法、評價指標和實驗參數(shù)設(shè)置,然后通過多組實驗來驗證FAROS 算法的性能.
4.1 數(shù)據(jù)集使用四個數(shù)據(jù)集進行實驗,每個數(shù)據(jù)集包含兩個來自真實網(wǎng)絡(luò)的節(jié)點、邊和節(jié)點屬性信息文件.
douban 數(shù)據(jù)集來自豆瓣網(wǎng),包括douban online/offline[39],其中節(jié)點代表用戶.douban online中,邊代表用戶之間是否互為好友,douban offline中,邊代表用戶是否參加了同一場線下活動.allmv/imdb 數(shù)據(jù)集來自Rotten Tomatoes 網(wǎng)站和Imdb 網(wǎng)站,其中節(jié)點代表電影,邊代表兩部電影至少有一位共同演員.flickr,myspace 和lastfm 數(shù)據(jù)集均來自社交網(wǎng)絡(luò)平臺,其中節(jié)點表示用戶,邊代表用戶之間的交互關(guān)系.
表1 列出了這些數(shù)據(jù)集的詳細統(tǒng)計信息.
表1 實驗使用的數(shù)據(jù)集的統(tǒng)計信息Table 1 Statistical information of the datasets used in experiments
4.2 對比算法選擇五種無監(jiān)督的網(wǎng)絡(luò)對齊算法作為對比算法.
REGAL[7]首先將源網(wǎng)絡(luò)和目標網(wǎng)絡(luò)組合起來,然后利用隱式矩陣分解方法(xNetMF)進行聯(lián)合嵌入,得到節(jié)點表示向量,最后使用貪婪匹配的方法對齊不同網(wǎng)絡(luò)間的節(jié)點.
GAlign[9]使用GCN 學(xué)習(xí)兩個網(wǎng)絡(luò)中每個節(jié)點的多階嵌入,然后根據(jù)不同卷積層輸出的節(jié)點表示向量的相似性計算多個對齊矩陣,最終通過融合多個對齊矩陣實現(xiàn)節(jié)點對齊.
NAWAL[8]首先利用Node2Vec[39]算法學(xué)習(xí)節(jié)點的特征表示,然后使用自監(jiān)督錨鏈接來實時更新節(jié)點的嵌入向量,并通過最大化錨鏈接之間的相似性來實現(xiàn)對齊.
WAlign[11]首先通過LGCN 模型來學(xué)習(xí)節(jié)點的嵌入向量,然后利用一種新穎的Wasserstein 距離鑒別器來識別用于更新節(jié)點嵌入的候選節(jié)點對,最后通過自監(jiān)督的對抗學(xué)習(xí)得到適合對齊任務(wù)的嵌入.
Grad-Align[12]使用GIN 學(xué)習(xí)節(jié)點的特征向量,然后融合嵌入向量相似性和節(jié)點結(jié)構(gòu)的Tversky 相似性.逐步發(fā)現(xiàn)強一致性的節(jié)點對,以便更好地捕獲跨網(wǎng)絡(luò)的節(jié)點的一致性.
4.3 評價指標和共同參數(shù)設(shè)置為了評估算法的性能,使用兩個度量指標來衡量網(wǎng)絡(luò)對齊結(jié)果的優(yōu)劣,分別是MAP(Mean Average Precision)[9]和Precision@K[9,11].具體地:
其中,P*是真實的錨節(jié)點對集合,ri是真實的錨目標節(jié)點的排名.
其中,()是從目標網(wǎng)絡(luò)節(jié)點集合Vt中選取的一個子集,即對于源網(wǎng)絡(luò)中的每個節(jié)點vs,找出目標網(wǎng)絡(luò)中與之對應(yīng)的靶節(jié)點,這些靶節(jié)點是在S(,·)中具有最高相似度得分的前K個節(jié)點.ΙA()是指示函數(shù)(Indicator Function),用于判斷節(jié)點對(,vt)是否屬于真實錨點對集合P*,如果屬于,其值為1,否則其值為0.
為了確保實驗的公正性,選擇文獻中的默認參數(shù)作為對比算法的參數(shù).在初始化共同參數(shù)時,F(xiàn)AROS 和對比算法的參數(shù)使用相同的數(shù)值.其中,嵌入維度d設(shè)為128,卷積層數(shù)k設(shè)為2,中間層維度與嵌入維度相同.使用tanh 激活函數(shù).使用學(xué)習(xí)率為0.005 的Adam 優(yōu)化器進行模型優(yōu)化,并將權(quán)重衰減率設(shè)為5×10-4.對于FAROS算法,網(wǎng)絡(luò)壓縮率r設(shè)為0.7.
實驗環(huán)境:Windows 10,16 G 內(nèi)存,Inte(lR)CPU i7-4790 @ 3.60 GHz.編程語言為Python,基于Pytorch 深度學(xué)習(xí)框架實現(xiàn)GNN 模型.
4.4 對比實驗通過實驗觀察FAROS 和對比方法在網(wǎng)絡(luò)對齊任務(wù)上的性能差異,表2 展示了不同方法在相同實驗條件下四個數(shù)據(jù)集上的MAP和運行時間,表中黑體字表示最優(yōu)結(jié)果,下畫線表示次優(yōu)結(jié)果.
表2 FAROS 和對比方法在四個數(shù)據(jù)集上的MAP 和運行時間的比較Table 2 MAP and running time of FAROS and baselines on the four datasets
由表可見,在四個數(shù)據(jù)集上的計算效率,REGAL 最優(yōu).在基于GNN 的對比方法中,GAlign表現(xiàn)最優(yōu).除了douban 數(shù)據(jù)集,Grad-Align 是最慢的方法,比其他方法多花費幾個數(shù)量級的時間.NAWAL 和WAlign 都采用基于偽錨鏈的對抗自監(jiān)督學(xué)習(xí)改善最終的節(jié)點嵌入,但二者的訓(xùn)練目標不同,前者將不同網(wǎng)絡(luò)的特征向量空間映射到同一個語義空間,后者使節(jié)點嵌入向量之間的Wasserstein 距離最小化,很明顯,引入對抗機制增加了算法的運行時間.Grad-Align 通過嵌入相似度和Tversky 相似度來生成強關(guān)聯(lián)的節(jié)點對,并采用圖增強策略迭代計算Tversky 相似度矩陣,以更精確地識別不同網(wǎng)絡(luò)間的節(jié)點對應(yīng)關(guān)系.然而,該策略不僅對內(nèi)存空間需求大,還極大地增加了算法的運行時間.FAROS 在計算效率上有明顯優(yōu)勢,雖然為了提高網(wǎng)絡(luò)對齊精度而采用了基于偽錨鏈的自監(jiān)督學(xué)習(xí),但使用粗圖的訓(xùn)練方式彌補了自監(jiān)督學(xué)習(xí)給算法效率帶來的影響.與GAlign 相比,在douban 數(shù)據(jù)集上,F(xiàn)AROS的運行時間減少71.58%;在allmv/imdb 數(shù)據(jù)集上,F(xiàn)AROS 的運行時間減少65.64%;在flickr/myspace 數(shù)據(jù)集上,F(xiàn)AROS 的運行時間減少80.69%;在flickr/lastfm 數(shù)據(jù)集上,F(xiàn)AROS 的運行時間減少80.71%.實驗結(jié)果表明,F(xiàn)AROS 的計算效率十分出色,而且,隨著網(wǎng)絡(luò)規(guī)模的增大,這種優(yōu)勢會越來越明顯.
對齊性能,不同方法在四個數(shù)據(jù)集上的MAP存在明顯差異.NAWAL 在所有方法中表現(xiàn)最差,幾乎是隨機對齊,這是由于采用DeepWalk 生成節(jié)點的嵌入向量,構(gòu)造的偽錨鏈不準確,使對齊結(jié)果不理想.基于GNN 的網(wǎng)絡(luò)對齊方法都表現(xiàn)良好.FAROS 除了在allmv/imdb 數(shù)據(jù)集上的MAP略低于Grad-Align 外,在其他數(shù)據(jù)集上都取得了最優(yōu)結(jié)果.實驗結(jié)果表明,在對齊性能方面,與對比方法相比,F(xiàn)AROS 具備一定的優(yōu)勢.
為了進一步驗證FAROS 在網(wǎng)絡(luò)對齊任務(wù)中的性能優(yōu)勢,在相同的實驗條件下,使用Precision@K來評估不同方法的性能差異,實驗結(jié)果如表3~6 所示,表中黑體字表示最優(yōu)結(jié)果,下畫線表示次優(yōu)結(jié)果.
表3 douban online/offline 數(shù)據(jù)集上FAROS 算法與對比算法的Precision@K 對比Table 3 Precision@K of FAROS and baselines on the douban online/offline dataset
表4 allmv/imdb 數(shù)據(jù)集上FAROS 算法與對比算法的Precision@K 對比Table 4 Precision@K of FAROS and baselines on the allmv/imdb dataset
表5 flickr/myspace 數(shù)據(jù)集上FAROS 算法與對比算法的Precision@K 對比Table 5 Precision@K of FAROS and baselines on the flickr/myspace dataset
表6 flickr/lastfm 數(shù)據(jù)集上FAROS 算法與對比算法的Precision@K 對比Table 6 Precision@K of FAROS and baselines on the flickr/lastfm dataset
由表3~6 可見,在實驗條件相同而K不同時,基于圖神經(jīng)網(wǎng)絡(luò)的GAlign,WAlign 和Grad-Align 算法性能穩(wěn)定,表現(xiàn)較好.其中,Grad-Align的對齊性能總體上優(yōu)于其他對比算法.除了allmv/imdb 數(shù)據(jù)集,F(xiàn)AROS 均表現(xiàn)出最優(yōu)的性能.以Precision@5 為例,Grad-Align 結(jié)果均為次優(yōu),與其相比,F(xiàn)AROS 的性能在douban 數(shù)據(jù)集上提升6.56%,在allmv/imdb數(shù)據(jù)集上下降9.11%.這是allmv/imdb 的聚類系數(shù)過高導(dǎo)致的.網(wǎng)絡(luò)的聚類系數(shù)較高時,節(jié)點之間的連接較緊密,網(wǎng)絡(luò)的局部結(jié)構(gòu)較復(fù)雜,粗化后的網(wǎng)絡(luò)可能會丟失一些重要的局部信息;網(wǎng)絡(luò)的聚類系數(shù)較低時,節(jié)點之間的連接較稀疏,網(wǎng)絡(luò)的局部結(jié)構(gòu)較簡單,粗化后的網(wǎng)絡(luò)可能會保留更多的局部信息.因此,在進行網(wǎng)絡(luò)粗化時需考慮網(wǎng)絡(luò)的聚類系數(shù)及其他網(wǎng)絡(luò)特征以獲得更好的粗化效果.以Precision@5 為例,與Grad-Align 相比,F(xiàn)AROS 的性能在flickr/myspace 數(shù)據(jù)集上提升133.92%,在flickr/lastfm數(shù)據(jù)集上提升23.26%.綜合來看,在不同規(guī)模的數(shù)據(jù)集中,F(xiàn)AROS 模型的運行時間和對齊精度都表現(xiàn)出優(yōu)越的性能.
4.5 性能分析使用粗圖訓(xùn)練GNN 可以有效減少需要優(yōu)化的參數(shù)量,提高訓(xùn)練效率,前提是不能使算法精度下降.為了驗證這一點,調(diào)整參數(shù)r,分別對四個數(shù)據(jù)集中的網(wǎng)絡(luò)實施不同程度的壓縮,觀察FAROS 算法的性能變化.實驗中保持其他參數(shù)不變,將參數(shù)r的數(shù)值由0 變?yōu)?.8,調(diào)整步長為0.2,選取Precision@K(簡稱P@K)作為評估指標,實驗結(jié)果如表7~10 所示,表中粗體字表示最優(yōu)結(jié)果,下畫線表示次優(yōu)結(jié)果.
表7 在douban online/offline 數(shù)據(jù)集上FAROS 算法在壓縮比不同時的P@K 對比Table 7 P@K of FAROS with different compression ratios on douban online/offline dataset
表8 allmv/imdb 數(shù)據(jù)集上FAROS 算法在壓縮比不同時的P@K 對比Table 8 P@K of FAROS with different compression ratios on allmv/imdb dataset
表9 flickr/myspace 數(shù)據(jù)集上FAROS 算法在壓縮比不同時的P@K 對比Table 9 P@K of FAROS with different compression ratios on the flickr/myspace dataset
表10 flickr/lastfm 數(shù)據(jù)集上FAROS 算法在壓縮比不同時的P@K 對比Table 10 P@K of FAROS with different compression ratios on the flickr/lastfm dataset.
由表7~10 可見,在其他參數(shù)相同時,隨著網(wǎng)絡(luò)規(guī)模的減小,GNN 的訓(xùn)練速度有顯著的提高.壓縮程度為0.8 時,P@K可能會有所下降,但下降的幅度不大,而且在不同數(shù)據(jù)集上的下降幅度也不同.比較FAROS 算法在未壓縮與壓縮的數(shù)據(jù)集上的運行時間和P@5,參數(shù)r=0.6 時,在壓縮后的網(wǎng)絡(luò)中,節(jié)點數(shù)量約為原始網(wǎng)絡(luò)的1/6.在douban,allmv/imdb,flickr/myspace 和flickr/lastfm 數(shù)據(jù)集上,F(xiàn)AROS 算法在未壓縮數(shù)據(jù)集上的運行時間分別是在壓縮數(shù)據(jù)集上的4,5,6,7 倍.同時,P@5 在douban 數(shù)據(jù)集上增加了0.34%,在allmv/imdb 數(shù)據(jù)集上增加了0.88%,在flickr/myspace 數(shù)據(jù)集上減少了14.12%,在flickr/lastfm 數(shù)據(jù)集上增加了21.61%.由于網(wǎng)絡(luò)壓縮率和準確性之間沒有確定的關(guān)系,因此FAROS 算法需要對兩者作出權(quán)衡.但是,當網(wǎng)絡(luò)規(guī)模被適度壓縮后,P@K可能會有所提升,這可能是因為GNN 模型具有較強的泛化能力,同時網(wǎng)絡(luò)的粗化過程有助于減少數(shù)據(jù)中的噪聲,使GNN 的訓(xùn)練過程更加集中在網(wǎng)絡(luò)的重要特征上.實驗結(jié)果表明,較大程度的網(wǎng)絡(luò)壓縮不會對算法的性能產(chǎn)生太大的影響,反而可能提高算法的準確性.因此,使用粗粒度的網(wǎng)絡(luò)訓(xùn)練GNN 可以在一定程度上減少需要優(yōu)化的模型參數(shù)量,同時又不會對算法精度造成太大影響.
對算法的魯棒性進行驗證,通過給網(wǎng)絡(luò)刪除或添加邊來模擬結(jié)構(gòu)噪聲.一般地,隨著噪聲的增加,算法的精度會下降.實驗中保持其他參數(shù)不變,將參數(shù)r設(shè)置為0.7,并在四個數(shù)據(jù)集上隨機刪除或添加固定比例的邊,比例分別為0.02,0.04,0.06,0.08,0.1,0.2.使用P@5 作為評估指標,實驗結(jié)果見圖3 和圖4.
圖3 在四個數(shù)據(jù)集上對FAROS 算法移除不同比例邊的P@5 的對比Fig.3 P@5 of FAROS with different ratios of edges removed on four datasets
圖4 在四個數(shù)據(jù)集上對FAROS 算法添加不同比例邊的P@5 的對比Fig.4 P@5 of FAROS with different ratios of edges added on four datasets
由圖可見,隨著噪聲幅度的增加,無論是刪除還是添加邊,P@5 均有微小波動,但沒有明顯變化.在douban 數(shù)據(jù)集上,當添加邊的比例增至0.2 時,P@5 略微下降,與添加0.02 的邊相比,下降率僅為2.1%,證明基于粗圖的訓(xùn)練策略可以在一定程度上消除噪聲數(shù)據(jù)對GNN 模型的影響并保持穩(wěn)定的對齊性能,也證明其具備較強的魯棒性.綜合來看,由于在粗圖上訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)需要的計算資源更少,其能達到與在精細圖上訓(xùn)練的圖神經(jīng)網(wǎng)絡(luò)相似的性能.
4.6 消融實驗探究不同的GNN 模型和網(wǎng)絡(luò)粗化策略對FAROS 性能的影響.首先使用三種常見的卷積圖神經(jīng)網(wǎng)絡(luò)模型,分別是GCN[32],GraphSAGE[40]和GIN[33]來替換本文中的GNN 模型.實驗結(jié)果如圖5 所示.
圖5 FAROS 使用不同GNN 模型的P@5 對比Fig.5 P@5 of FAROS with different GNN models
由圖可見,使用不同的圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練的嵌入向量進行網(wǎng)絡(luò)對齊時,F(xiàn)AROS 在不同數(shù)據(jù)集上的性能表現(xiàn)不同.盡管在總體上,F(xiàn)AROS 采用GNN 模型的網(wǎng)絡(luò)對齊任務(wù)的準確率優(yōu)于其他圖神經(jīng)網(wǎng)絡(luò)模型,表現(xiàn)穩(wěn)定,但這并不意味著該模型比其他模型更適合網(wǎng)絡(luò)對齊任務(wù).事實上,影響GNN 性能的因素很多,而且圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程不簡單,為了獲得最佳性能需要精心調(diào)整GNN的學(xué)習(xí)率、層數(shù)和每層神經(jīng)元的數(shù)量以及訓(xùn)練策略的選擇.因此,使用GNN 進行網(wǎng)絡(luò)對齊是一項具有挑戰(zhàn)性的任務(wù),需要仔細調(diào)整各種參數(shù).
采用三種其他粗化方法替代本文使用的粗化方法(variation_neighborhoods),分別是基于代數(shù)多重網(wǎng)格的粗化算法(algebraic_jacobi)[41],基于重邊匹配的粗化算法(heavy_edge)[42]和基于Kron簡化的粗化算法(kron)[43].實驗結(jié)果如圖6 所示.
圖6 FAROS 使用不同粗化方法的P@5 對比Fig.6 P@5 of FAROS with different coarsening methods
由圖可見,不同的粗化算法對算法的對齊結(jié)果的影響較小.總體上,本文采用的粗化策略十分有效,特別是在噪聲數(shù)據(jù)較多的flickr/myspace數(shù)據(jù)集上,其性能比次優(yōu)的algebraic_jacobi 方法高28.57%.這可能是因為本文使用的粗化策略能更好地處理噪聲數(shù)據(jù),還能更準確地捕捉節(jié)點之間的語義關(guān)系.
為了提高GNN 的運行效率并緩解噪聲數(shù)據(jù)對GNN 性能的影響,本文提出一種快速魯棒的無監(jiān)督網(wǎng)絡(luò)對齊方法FAROS,利用GNN 學(xué)習(xí)不同網(wǎng)絡(luò)間節(jié)點的相似性,并將其用于網(wǎng)絡(luò)對齊任務(wù).與其他基于GNN 的網(wǎng)絡(luò)對齊方法相比,F(xiàn)AROS 使用粗圖來訓(xùn)練GNN 模型參數(shù),提高了算法的效率和魯棒性.此外,F(xiàn)AROS 還采用多種策略來實現(xiàn)可靠的訓(xùn)練,以適應(yīng)網(wǎng)絡(luò)對齊任務(wù)的需求,有效保證了對齊結(jié)果的準確性.在基準數(shù)據(jù)集上進行了廣泛實驗,證明FAROS 的有效性、效率和魯棒性都具有優(yōu)越性.
總體上,F(xiàn)AROS 在保障對齊任務(wù)準確性的同時,還具有更高的時間和空間效率,使其能有效部署在一系列現(xiàn)實環(huán)境中.然而,由于粗圖中可用的訓(xùn)練數(shù)據(jù)量有限,GNN 超參數(shù)的選擇通常很困難,仍需進一步提高其在網(wǎng)絡(luò)對齊任務(wù)中的性能.未來可以探索更多的圖粗化算法和超參數(shù)調(diào)整策略,進一步提高GNN 在網(wǎng)絡(luò)對齊任務(wù)中的性能和魯棒性.