徑向基函數(shù)計算節(jié)點(diǎn)間距離,得到各類節(jié)點(diǎn)質(zhì)心后,根據(jù)距離分配與未標(biāo)記節(jié)點(diǎn)最近質(zhì)心的類別標(biāo)簽提高節(jié)點(diǎn)分類性能,同時定義未標(biāo)記節(jié)點(diǎn)和質(zhì)心之間的距離為模型輸出的不確定性,并使用梯度懲罰損失加強(qiáng)輸入變化的可檢測性,可以有效地檢測分布外節(jié)點(diǎn)樣本。在Cora、Citeseer 和Pubmed 這3 個公開網(wǎng)絡(luò)數(shù)據(jù)集上的結(jié)果表明:模型在分類任務(wù)的AUROC 指標(biāo)分別達(dá)到81.5%、76.2%和74.6%,在分布外樣本檢測任務(wù)中AUROC 指標(biāo)分別達(dá)到83.6%、72.8%和70.6%,證明了所提算法在提高節(jié)點(diǎn)分類性能的同時,可以有效檢測分布外的節(jié)點(diǎn)樣本,提高了節(jié)點(diǎn)分類的可信性。
關(guān)鍵詞: 圖神經(jīng)網(wǎng)絡(luò);節(jié)點(diǎn)分類;分布外檢測;不確定性估計;梯度懲罰
中圖分類號:TP183 文獻(xiàn)標(biāo)志碼:A 文章編號:1671-024X(0024)01-0082-07
Node classification method based on trusted graph neural network
LIU Yanbei1,2,MA Xiran3,WANG Wen1,2
(1. School of Life Sciences,Tiangong University,Tianjin 300387,China;2. Tianjin Key Laboratory of Optoelectronic De-
tection Technology and System,Tiangong University,Tianjin 300387,China;3. School of Electronics and Information
Engineering,Tiangong University,Tianjin 300387,China)
Abstract:In order to study the influence of uncertainty of node feature representation on node classification,a nodeclassification method based on trusted graph neural network was proposed. The algorithm used the radial basisfunction to calculate the distance between nodes,and after obtaining the centroid of various nodes,the classifi-cation label of the nearest centroid was allocated according to the distance to improve the classification performa-nce. Additionally, the distance between unlabeled nodes and centroids is defined as the uncertainty of the model憶soutput. A gradient penalty loss is employed to strengthen the detectability of input variations,loss to strengthenthe detectability of input changes,which can effectively detect the distributed outer node samples. The results inclassification task are 81.5%,76.2% and 74.6% in terms of AUROC on three public network datasets of Cora,Citeseer and Pubmed,respectively. And the results in the out-of-distribution sample detection task are 83.6%,72.8% and 70.6% in terms of AUROC on three public network datasets of Cora,Citeseer and Pubmed,respectively. It proves that the proposed algorithm can effectively detect the node samples outside the distributionand improve the credibility of node classification,while improving the node classification performance.
Key words:graph neural network; node classification; extra-distribution detection; uncertainty estimation; gradient penalty
圖在日常生活中廣泛存在,且作為一種靈活的數(shù)據(jù)形式可以表示不同特征對象之間復(fù)雜的連接關(guān)系,例如交通網(wǎng)絡(luò)、社交網(wǎng)絡(luò)、生物化學(xué)網(wǎng)絡(luò)等。由于圖可以包含較多的數(shù)據(jù)信息,例如節(jié)點(diǎn)的屬性信息和鏈接信息,導(dǎo)致圖數(shù)據(jù)相對復(fù)雜,因此對圖數(shù)據(jù)進(jìn)行分析具有一定的挑戰(zhàn)。近年來,圖神經(jīng)網(wǎng)絡(luò)(GNN)[1-2]在數(shù)據(jù)分析方面受到了極大的關(guān)注,逐漸成為學(xué)術(shù)界的一個熱點(diǎn)研究領(lǐng)域。圖數(shù)據(jù)的分析任務(wù)包括了節(jié)點(diǎn)分類[3-4]、圖分類[5-6]、鏈接預(yù)測[7]等。在圖節(jié)點(diǎn)分類任務(wù)中,輸入1個圖,模型根據(jù)學(xué)習(xí)輸入節(jié)點(diǎn)和類別標(biāo)簽的對應(yīng)關(guān)系,預(yù)測未知節(jié)點(diǎn)的類別標(biāo)簽。盡管圖神經(jīng)網(wǎng)絡(luò)在半監(jiān)督節(jié)點(diǎn)分類方面表現(xiàn)優(yōu)異,但圖神經(jīng)網(wǎng)絡(luò)分類器不僅需要得到準(zhǔn)確的預(yù)測值,更需要得到可信或者低不確定的預(yù)測值,其中可信性[8]是指模型能夠檢測出分布外樣本數(shù)據(jù)的能力。對于測試數(shù)據(jù)中沒有參與訓(xùn)練的樣本數(shù)據(jù)模型給出一個較高置信度的預(yù)測值,這意味著模型是不可信的,但現(xiàn)有模型往往對沒有參與訓(xùn)練的樣本數(shù)據(jù)給出較高的置信度,因此現(xiàn)有模型往往具有較大的不確定性[9]。
有效地估計不確定性在許多重要的應(yīng)用中仍然是一個懸而未決的問題,例如在強(qiáng)化學(xué)習(xí)領(lǐng)域[10]中探索不確定性,在主動學(xué)習(xí)中選擇數(shù)據(jù)點(diǎn)以獲得標(biāo)簽從而估計不確定性[11]。到目前為止,深度學(xué)習(xí)中估計不確定性的大多數(shù)方法±賴于深度集成(deep ensemble)[12]或蒙特卡羅采樣(Monte Carlo dropout)法[13]。Kendall 等[14]提出了一個貝葉斯深度學(xué)習(xí)框架應(yīng)用于回歸任務(wù)和分類任務(wù)的同時估計任意不確定性和認(rèn)知不確定性。Malinin 等[15]就訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分布之間的分布不匹配問題定義了分布不確定性。Gal 等[16]在貝葉斯神經(jīng)網(wǎng)絡(luò)中得到認(rèn)知不確定性時使用了Dropout 變分推理進(jìn)行近似推理,此思想和DropEdge 模型[17]的思想是類似的。但上述模型估計的不確定性在分布外樣本檢測任務(wù)上仍然存在缺陷。
本文提出了一種可信的圖神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)分類算法。該模型能夠估計單次前向傳播中的不確定性,所得出的不確定性既可以獲得未標(biāo)記節(jié)點(diǎn)與質(zhì)心間的距離度量,還能夠檢測出分布外的數(shù)據(jù),從而有效提高分類模型的可信性。具體地講,模型由圖神經(jīng)網(wǎng)絡(luò)模型、質(zhì)心模塊以及徑向基函數(shù)(RBF)[18]模塊組成,首先,輸入的圖數(shù)據(jù)經(jīng)過一個基礎(chǔ)編碼器進(jìn)行特征學(xué)習(xí),質(zhì)心由所得特征向量中有標(biāo)簽的節(jié)點(diǎn)樣本獲得。其次,特征向量中未標(biāo)記節(jié)點(diǎn)利用核函數(shù)獲得與質(zhì)心的距離度量從而判斷其所屬類別標(biāo)簽,其中具有核函數(shù)的模塊被稱為徑向基函數(shù)(RBF)模塊。特征向量和質(zhì)心之間利用RBF 模塊預(yù)測獲得的距離定義為不確定性。本文模型方法是利用未標(biāo)記節(jié)點(diǎn)與錯誤質(zhì)心的距離最大化,與正確質(zhì)心的距離最小化進(jìn)行訓(xùn)練的,以此來拉近和正確質(zhì)心之間的距離,將節(jié)點(diǎn)特征放在距離正確質(zhì)心較近的區(qū)域。然而,未訓(xùn)練節(jié)點(diǎn)數(shù)據(jù)的任何信息如果輸入到模型中,無論節(jié)點(diǎn)數(shù)據(jù)有無標(biāo)簽,都將導(dǎo)致特征崩塌現(xiàn)象(分布外數(shù)據(jù)會映射到分布內(nèi)的特征表示中) 的發(fā)生,也就是分布外的節(jié)點(diǎn)樣本進(jìn)入分布內(nèi)節(jié)點(diǎn)樣本的嵌入表示中。因此,為了避免特征崩塌的發(fā)生,本模型加入了梯度懲罰損失項(xiàng),這可以確保模型對輸入的特征向量變化足夠敏感并可靠地檢測出分布外的樣本數(shù)據(jù)。
本文的工作如下:
(1)本文研究了圖節(jié)點(diǎn)分類的可信性問題,提出了一種結(jié)合度量距離的徑向基函數(shù)和梯度懲罰損失的圖神經(jīng)網(wǎng)絡(luò)模型,模型通過度量距離獲得的不確定性以提高模型分類的可信性,該工作能夠提高分類準(zhǔn)確率,有效檢測分布外的圖節(jié)點(diǎn)數(shù)據(jù)。
(2)本文所提算法建立在RBF 模塊度量距離的思想上,采用一種新的損失函數(shù)來進(jìn)行訓(xùn)練,通過使用梯度懲罰來加強(qiáng)輸入變化的可檢測性,抑制輸入變化。
(3)為了驗(yàn)證模型的分類性能和分布外樣本檢測性能,使用3 個圖公開數(shù)據(jù)集完成2 類實(shí)驗(yàn)。另外,將所提出框架的性能與其他現(xiàn)有的框架進(jìn)行比較,驗(yàn)證本模型算法的性能指標(biāo)有所提高。
1 模型建立
本文研究了一個通過可信的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行圖數(shù)據(jù)分類的方法,模型框架如圖1 所示。模型主要由3 個部分組成,分別是圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)[1]基礎(chǔ)編碼器部分、質(zhì)心獲取模塊和RBF 模塊,其中的工作重點(diǎn)是后2 個模塊,也就是圖1 中紅色。虛線框所標(biāo)模塊。輸入的圖數(shù)據(jù)經(jīng)過GCN 得到節(jié)點(diǎn)的嵌入表示,其中有標(biāo)簽的特征向量經(jīng)過求平均值的計算獲得每類節(jié)點(diǎn)的質(zhì)心,RBF 模塊計算未標(biāo)記節(jié)點(diǎn)與質(zhì)心的距離度量,同時將所求距離定義為不確定性。最終區(qū)分所有無標(biāo)簽的節(jié)點(diǎn),賦予未標(biāo)記節(jié)點(diǎn)對應(yīng)的類別標(biāo)簽從而歸到所屬類別。
2 實(shí)驗(yàn)結(jié)果與分析
2.1 數(shù)據(jù)集
本文選擇了3 個引文網(wǎng)絡(luò)圖數(shù)據(jù)集驗(yàn)證所提模型在分類任務(wù)和分布外(OOD)樣本檢測任務(wù)上的有效性,分別為Cora、Citeseer 和Pubmed[22],表1 為節(jié)點(diǎn)分類任務(wù)數(shù)據(jù)集的相關(guān)信息設(shè)置情況,表2 為OOD檢測任務(wù)的數(shù)據(jù)集信息設(shè)置情況。
表1 中數(shù)據(jù)集都是引文網(wǎng)絡(luò)數(shù)據(jù)集,其中節(jié)點(diǎn)表示文獻(xiàn),邊是文獻(xiàn)之間的引用關(guān)系,這意味著當(dāng)A 文獻(xiàn)引用B 文獻(xiàn)時存在邊,反之亦然。為了簡單起見,數(shù)據(jù)集不區(qū)分邊連接的方向,將引文的連接視為無向邊,并構(gòu)造一個二進(jìn)制對稱鄰接矩陣,且訓(xùn)練集每個類有20 個節(jié)點(diǎn)標(biāo)有它所屬的類別,即每類20 個節(jié)點(diǎn)具有標(biāo)簽。
對于基于半監(jiān)督節(jié)點(diǎn)分類的OOD 檢測任務(wù),每個數(shù)據(jù)集隨機(jī)選取1~3 個類別作為OOD 類別,僅使用未被選取的剩余類別節(jié)點(diǎn)對模型進(jìn)行訓(xùn)練。在這種情況下,訓(xùn)練了一個用于半監(jiān)督節(jié)點(diǎn)分類任務(wù)的模型,其中只有部分類別節(jié)點(diǎn)沒有用于訓(xùn)練,即模型沒有訓(xùn)練OOD 類別,所以模型只輸出參與訓(xùn)練的類別的表示。例如,Cora 數(shù)據(jù)集中使用4 類和80 個節(jié)點(diǎn)訓(xùn)練模型,測試樣本中類別有7 類節(jié)點(diǎn)數(shù)量有1 000個,其中有3 類分布外(OOD)樣本,4 類分布內(nèi)(ID)樣本。OOD 占比率是所有測試節(jié)點(diǎn)中OOD 節(jié)點(diǎn)的所占比率。
2.2 基準(zhǔn)
本文對所提出的模型和幾個基線模型進(jìn)行對比和性能分析,基準(zhǔn)模型同樣可以獲得不確定性,所選對比模型如下:
(1)GCN[1]。它是一種半監(jiān)督圖卷積神經(jīng)網(wǎng)絡(luò)模型,能夠聚集來自鄰居節(jié)點(diǎn)的輸入信息以學(xué)習(xí)節(jié)點(diǎn)表示。過程大致是輸入的特征矩陣和鄰接矩陣通過兩層圖卷積,輸出特征向量通過softmax 分類器估計類別信息;
(2)Drop-GCN。它通過將Monte Carlo dropout[16,23]和GCN 模型相結(jié)合的方法獲得不確定性,Monte Carlodropout 是將神經(jīng)網(wǎng)絡(luò)中dropout 訓(xùn)練作為高斯過程中的近似貝葉斯推理。此理論是用dropout 網(wǎng)絡(luò)對不確定性進(jìn)行建模,從現(xiàn)有模型中提取信息,這樣有效緩解了深度學(xué)習(xí)中估計不確定性的問題。
(3)EDL-GCN。它通過將EDL 模型[24]和GCN 相結(jié)合的方法估計不確定性,EDL 模型使用主觀邏輯理論對不確定性建模,由于類別概率是通過狄利克雷分布求得的,因此將神經(jīng)網(wǎng)絡(luò)的預(yù)測作為主觀意見并通過確定性的神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型從數(shù)據(jù)中估計和獲得不確定性。
(4)DPN-GCN。它通過將DPN[25]模型和GCN 相結(jié)合的方法估計不確定性。DPN 模型是一種新的預(yù)測不確定性的建??蚣?,它主要針對分布不確定性建模。
2.3 實(shí)驗(yàn)設(shè)置
在實(shí)驗(yàn)部分,本文考慮了4 個基線算法。對于GCN、Drop-GCN、EDL-GCN、DPN-GCN 使用了與GCN[1]相同的超參數(shù)。實(shí)驗(yàn)采用兩層GCN 作為主要的圖編碼器,模型使用Glorot[26]進(jìn)行初始化,使用Adam 優(yōu)化器[27]以0.01 的學(xué)習(xí)率訓(xùn)練迭代200 次對模型進(jìn)行優(yōu)化,圖編碼器和預(yù)測器的潛在維度設(shè)置為16。Drop-GCN 設(shè)置蒙特卡羅采樣次數(shù)為100 次,丟失率設(shè)置為0.5。為了防止實(shí)驗(yàn)具有偶然性,實(shí)驗(yàn)時當(dāng)測試結(jié)束獲得相應(yīng)的結(jié)果指標(biāo),記錄下10 次測試結(jié)果取得平均數(shù)值作為最終模型精度。
2.4 分類實(shí)驗(yàn)
分類實(shí)驗(yàn)中使用到的評估指標(biāo)有準(zhǔn)確率ACC、AUROC 和AUPR[28]。AUROC 表示ROC 曲線下的面積,其中x 軸代表假陽性率(FPR),y 軸代表真陽性率(TPR),解釋為正例獲得比反例更高的檢測得分的概率[29]。此指標(biāo)=大模型分類效果=好,完美模型對應(yīng)的AUROC 指標(biāo)為100%。AUPR 曲線是表示精度值(Pre-cision)和召回率(Recall)的曲線圖,AUPR 表示Preci-sion-Recall 曲線下的面積,理想情況下,Precision 為1,Recall 為1。因此利用所描述的指標(biāo)評估所有模型的性能,具體結(jié)果如表3 所示。
表3 中3 個引文網(wǎng)絡(luò)數(shù)據(jù)集在分類實(shí)驗(yàn)各個指標(biāo)結(jié)果中,加粗的結(jié)果表示最佳的結(jié)果。從表3 可以看出,本文模型對比4 個基準(zhǔn)模型每個指標(biāo)都有不同程度的提高,一致高于基線方法。充分驗(yàn)證了本文所提模型對于預(yù)測未標(biāo)記節(jié)點(diǎn)的能力,模型能夠預(yù)測出未標(biāo)記節(jié)點(diǎn)的真實(shí)標(biāo)簽,RBF 模塊更有助于完成節(jié)點(diǎn)分類任務(wù)。表明本文模型可以從訓(xùn)練集中學(xué)習(xí)并區(qū)分節(jié)點(diǎn)特征,獲得節(jié)點(diǎn)類型。
2.5 OOD 檢測實(shí)驗(yàn)
OOD 檢測實(shí)驗(yàn)是利用不確定性估計來檢測輸入是否是分布外樣本數(shù)據(jù)。評估指標(biāo)有AUROC、AUPR[28]。
對于半監(jiān)督節(jié)點(diǎn)分類,隨機(jī)選擇1~3 個類別作為OOD類別,并根據(jù)剩余類別的節(jié)點(diǎn)對模型訓(xùn)練。3 個數(shù)據(jù)集不同模型的指標(biāo)結(jié)果如表4 所示。
從表4 可以看出,本文所提模型各項(xiàng)指標(biāo)結(jié)果優(yōu)于對比的大多數(shù)模型的指標(biāo)結(jié)果,證明了本模型對分布外樣本檢測的有效性,這些實(shí)驗(yàn)結(jié)果同時也驗(yàn)證了加入梯度懲罰損失對OOD 任務(wù)的有效性。
為了表明本文所提模型對分布外節(jié)點(diǎn)樣本數(shù)據(jù)檢測的可信性,使用Citeseer 數(shù)據(jù)集得到ROC 曲線,圖2 所示為本文模型和其他基線模型的ROC 曲線圖。所有方法使用Citeseer 數(shù)據(jù)集時均是以固定的3 類作為訓(xùn)練數(shù)據(jù)集也就是ID 數(shù)據(jù)集,另外其他的3 類作為OOD 數(shù)據(jù)集,主要使用ID 和OOD 進(jìn)行評估,判斷模型對OOD 節(jié)點(diǎn)的敏感程度。從圖2 可以明顯看出,使用ROC 曲線進(jìn)行對比時本文方法均優(yōu)于其他基線方法。
2.6 消融實(shí)驗(yàn)
考慮到加入了2 項(xiàng)不同于GCN 交叉熵?fù)p失的損失項(xiàng),需要驗(yàn)證所加損失項(xiàng)是否有助于提高本算法的性能。因此消融實(shí)驗(yàn)主要研究節(jié)點(diǎn)分類任務(wù)和分布外樣本檢測任務(wù)在不同數(shù)據(jù)集不同損失項(xiàng)的AUROC 指標(biāo)結(jié)果,如表5 和表6 所示。
從表5、表6 可以看出,損失項(xiàng)包括交叉熵?fù)p失(Lce)、不確定性損失(Lun)和梯度懲罰損失(Lgp),利用上述3 項(xiàng)損失分別設(shè)置了4 種情況:第1 種情況去掉不確定性損失和梯度懲罰損失即Lce;第2 種情況只去掉了梯度懲罰損失即Lce + Lun;第3 種情況只去掉不確定性損失即Lce + Lgp;第4 種情況保留了全部3 項(xiàng)損失即Lce + Lun + Lgp。
由表5 可知,分別在3 個數(shù)據(jù)庫Cora、Citeseer、Pubmed 數(shù)據(jù)集上進(jìn)行分類任務(wù)的損失項(xiàng)消融實(shí)驗(yàn),從表中能夠明顯地看出:
(1)損失設(shè)置中加入1 項(xiàng)或2 項(xiàng)損失的AUROC值均高于只使用交叉熵?fù)p失(Lce)時所得AUROC 值。
(2)損失設(shè)置的前3 種情況中去掉任意1 種或2種損失AUROC 指標(biāo)均有所下降,第4 種情況即3 項(xiàng)損失(Lce + Lun + Lgp)都保留時,AUROC 指標(biāo)實(shí)驗(yàn)結(jié)果是最優(yōu)的,證明2 項(xiàng)損失同時存在對整個模型性能具有一定的貢獻(xiàn)。
(3)表格數(shù)據(jù)進(jìn)行橫向?qū)Ρ?,在設(shè)置交叉熵?fù)p失基礎(chǔ)上加入不確定性損失(Lce + Lun)比加入梯度懲罰損失(Lce + Lgp)的AUROC 指標(biāo)更高,證明分類任務(wù)中不確定性損失(Lun)對模型的貢獻(xiàn)高于梯度懲罰損失(Lgp)的貢獻(xiàn)。
不確定性損失(Lun)本質(zhì)是通過學(xué)習(xí)未標(biāo)記節(jié)點(diǎn)樣本和有標(biāo)記樣本之間的區(qū)別,發(fā)現(xiàn)未標(biāo)記節(jié)點(diǎn)樣本的細(xì)節(jié)特征。它有助于準(zhǔn)確預(yù)測未標(biāo)記節(jié)點(diǎn)標(biāo)簽,利用迭代訓(xùn)練模型學(xué)習(xí)到更多細(xì)節(jié)部分從而優(yōu)化模型。因此不確定性損失(Lun)在分類未標(biāo)記節(jié)點(diǎn)樣本時的能力優(yōu)于梯度懲罰損失(Lgp)。
由表6 可知,分別在3 個數(shù)據(jù)庫Cora、Citeseer、Pubmed 數(shù)據(jù)集上進(jìn)行分布外樣本檢測任務(wù)的損失項(xiàng)消融實(shí)驗(yàn),從表中能夠明顯地看出:
(1)損失設(shè)置中加入1 項(xiàng)或2 項(xiàng)損失的AUROC值均高于只使用交叉熵?fù)p失(Lce)時所得AUROC 值。
(2)如果缺少2 項(xiàng)損失中的任何一項(xiàng),模型在3個不同數(shù)據(jù)集的性能會下降,3 項(xiàng)損失(Lce + Lun + Lgp)均存在時AUROC 指標(biāo)最高,實(shí)驗(yàn)結(jié)果是最優(yōu)的,這表明2 項(xiàng)損失對模型完成分布外樣本檢測任務(wù)時的性能具有一定的貢獻(xiàn)。
(3)對于分布外樣本檢測任務(wù),交叉熵?fù)p失和梯度懲罰損失(Lce + Lgp)的AUROC 值比交叉熵?fù)p失和不確定性損失(Lce + Lun)的AUROC 值更高,該實(shí)驗(yàn)結(jié)果能夠說明在分布外樣本檢測任務(wù)中梯度懲罰損失(Lgp)的貢獻(xiàn)更大。
梯度懲罰損失(Lgp)主要解決分布內(nèi)節(jié)點(diǎn)樣本的特征表示中出現(xiàn)了分布外節(jié)點(diǎn)樣本特征表示的現(xiàn)象,有效防止未參與訓(xùn)練的節(jié)點(diǎn)數(shù)據(jù)信息輸入到模型中,從而檢測出分布外樣本的節(jié)點(diǎn),提高OOD 檢測任務(wù)的性能指標(biāo)。因此梯度懲罰損失(Lgp)在檢測分布外樣本節(jié)點(diǎn)時的能力優(yōu)于不確定性損失(Lun)。
3 結(jié) 論
本文提出了一種可信的圖神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)分類模型。在嵌入過程中,模型使用求平均值的方法獲取每類節(jié)點(diǎn)質(zhì)心的信息,在RBF 徑向基函數(shù)的指導(dǎo)下捕獲節(jié)點(diǎn)間的距離,設(shè)計并引入了不確定性損失和梯度懲罰損失2 種損失函數(shù),不確定性損失采用噪聲對比估計算法發(fā)現(xiàn)未標(biāo)記節(jié)點(diǎn)的細(xì)節(jié)特征以優(yōu)化模型提高節(jié)點(diǎn)分類任務(wù)指標(biāo),同時采用梯度懲罰損失有效防止未參與訓(xùn)練的節(jié)點(diǎn)數(shù)據(jù)信息輸入到模型中以優(yōu)化算法提高分布外樣本檢測任務(wù)指標(biāo),并在Cora、Citeseer、Pubmed 這3 個真實(shí)引文網(wǎng)絡(luò)數(shù)據(jù)集上驗(yàn)證了所提出模型的有效性。結(jié)果表明:
(1)在節(jié)點(diǎn)分類任務(wù)中,本文模型在3 個數(shù)據(jù)集上的AUROC 值分別達(dá)到81.5%、76.2%和74.6%,優(yōu)于所有對比算法。
(2)在Citeseer 數(shù)據(jù)集的分布外樣本檢測任務(wù)中,本文模型的AUROC 得分比EDL-GCN、DPN-GCN和Drop-GCN 分別提高了1.054、1.048 和1.032 倍。
(3)本文算法在保留了從更深層次獲取節(jié)點(diǎn)和質(zhì)心間的距離信息后,所學(xué)習(xí)的節(jié)點(diǎn)樣本信息可以更好地完成后續(xù)各種分類或者檢測任務(wù)。
參考文獻(xiàn):
[1] KIPF T N,WELLING M. Semi-supervised classification withgraph convolutional networks [J]. 2016. DOI:10.48550/arX-iu.1609.02907.
[2] VELIC 姚 KOVIC ú P,CUCURULL G,CASANOVA A,et al. Graphattention networks [EB/OL]. 2017. DOI:10.48550/arXiu.1710.10903.
[3] XUB,SHENH,CAOQ,et al. Graph wavelet neural network[J].2019. DOI:10.48550/arXiu.1904.07785.
[4] XU B B,SHEN H W,CAO Q,et al. Graph convolutional net-works using heat kernel for semi-supervised learning [C]//Pro-ceedings of the Twenty-Eighth International Joint Conference onArtificial Intelligence. California: International Joint Confer-ences on Artificial Intelligence Organization,2019: 1928-1934.
[5] WU J,HE J R,XU J J. DEMO-net: Degree-specific graphneural networks for node and graph classification[C]//Proceed-ings of the 25th ACM SIGKDD International Conference onKnowledge Discovery amp; Data Mining. New York: ACM,2019:406-415.
[6] ZHANG M H,CUI Z C,NEUMANN M,et al. An end-to-enddeep learning architecture for graph classification[J]. Proceed-ings of the AAAI Conference on Artificial Intelligence,2018,32(1): 4438-4445.
[7] CEN K T,SHEN H W,GAO J H,et al. ANAE: Learning nodecontext representation for attributed network embedding [J] .2019. DOI:10.48550/arXiu.1906.08745.
[8] GENG Y,HAN Z B,ZHANG C Q,et al. Uncertainty-awaremulti-view representation learning[J]. Proceedings of the AAAIConference onArtificial Intelligence,2021,35(9): 7545-7553.
[9] AMERSFOORT J V,SMITH L,TEH Y W,et al. Uncertaintyestimation using a single deep deterministic neural network[C]//Proceedings of the International Conference on MachineLearning. [s.l.:s.n.],2020: 9690-9700.
[10] OSBAND I,BLUNDELL C,PRITZEL A,et al. Deep explor-ation via bootstrapped DQN[J]. 2016. DOI:10.48550/ arXiu.1602.04621.
[11] HOULSBY N,HUSZáR F,GHAHRAMANI Z,et al. Bayesianactive learning for classification and preference learning[J]. 2011.DOI:10.48550/arXiu.1112.5745.
[12] LAKSHMINARAYANAN B,PRITZEL A,BLUNDELL C. Si-mple and scalable predictive uncertainty estimation using deepensembles[J]. 2016. DOI:10.48550/arXiu.1612.01474.
[13] GAL Y,GHAHRAMANI Z. Dropout as a Bayesian approxima-tion: representing model uncertainty in deep learning[J]. 2015.DOI:10.48550/arXiu.1506.02142.
[14] KENDALL A,GAL Y. What uncertainties do we need in Baye-sian deep learning for computer vision? [C]//Proceedings of the31st International Conference on Neural Information Process-ing Systems. New York: ACM,2017: 5580-5590.
[15] MALININ A,GALES M. Predictive uncertainty estimation viaprior networks[C]//Proceedings of the 32nd International Con-ference on Neural Information Processing Systems. New York:ACM,2018: 7047-7058.
[16] GAL Y,GHAHRAMANI Z. Dropout as a Bayesian approxima-tion: Representing model uncertainty in deep learning[J]. 2015.DOI:10.48550/arXiu.1506.02142.
[17] RONG Y,HUANG W B,XU T Y,et al. DropEdge: Towardsdeep graph convolutional networks on node classification[EB/OL].2019. DOI:10.48550/arXiu.1907.10903.
[18] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-basedlearning applied to document recognition[J]. Proceedings of theIEEE,1998,86(11): 2278-2324.
[19] OORD A,LI Y,VINYALS O. Representation learning withcontrastive predictive coding[J]. DOI:10.48550/arXiu.1807.03748.
[20] GUTMANN M,HYV魧RINEN A. Noise -contrastive estima-tion: A new estimation principle for unnormalized statisticalmodels[C]//Proceedings of the Thirteenth International Confer-ence on Artificial Intelligence and Statistics. [S.L.:s.n.],2010:297-304.
[21] DRUCKER H,LE CUN Y. Improving generalization perfor-mance using double backpropagation[J]. IEEE Transactions onNeural Networks,1992,3(6): 991-997.
[22] SEN P,NAMATA G,BILGIC M,et al. Collective classifica-tion in network data[J]. AI Magazine,2008,29(3): 93-106.
[23] RYU S,KWON Y,KIM W Y. Uncertainty quantification ofmolecular property prediction with Bayesian neural networks[J].2019. DOI:10.48550/arXiu.1903.08375.
[24] SENSOY M,KAPLAN L,KANDEMIR M. Evidential deeplearning to quantify classification uncertainty [C]//Proceedingsof the 32nd International Conference on Neural InformationProcessing Systems. New York: ACM,2018: 3183-3193.
[25] MALININ A,GALES M. Predictive uncertainty estimation viaprior networks[J]. 2018. DOI:10.48550/arXiu.1802.10501.
[26] GLOROT X,BENGIO Y. Understanding the difficulty of train-ing deep feedforward neural networks [C]//Proceedings of theThirteenth International Conference on Artificial Intelligenceand Statistics. [S.L.:s.n.],2010: 249-256.
[27] KINGMA D P,BA J. Adam: a method for stochastic optimiza-tion[EB/OL]. 2014. DOI:10.48550/arXiu.1412.6980. https://arxiv.org/abs/1412. 6980.pdf
[28] HENDRYCKS D,GIMPEL K. A baseline for detecting mis-classified and out-of-distribution examples in neural networks[J]. 2016. DOI:10.48550/arXiu.1610.02136.
[29] FAWCETT T. An introduction to ROC analysis[J]. Pattern Re-cognition Letters,2006,27(8): 861-874.
本文引文格式:
劉彥北,馬夕然,王雯. 可信的圖神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)分類方法[J].天津工業(yè)大學(xué)學(xué)報,2024,43(1):82-88.
LIU Y B,MA X R,WANG W. Node classification methodbased on trusted graph neural network[J]. Journal of TiangongUniversity,2024,43(1):82-88(in Chinese).