国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)的學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)研究

2022-01-24 15:41:44任衛(wèi)強(qiáng)曹高輝
情報(bào)學(xué)報(bào) 2022年1期
關(guān)鍵詞:編碼器向量學(xué)術(shù)

丁 恒,任衛(wèi)強(qiáng),曹高輝

(華中師范大學(xué)信息管理學(xué)院,武漢 430079)

1 引言

科學(xué)研究是人類認(rèn)知世界的手段,對(duì)社會(huì)、科技、經(jīng)濟(jì)、文化的發(fā)展具有重大的影響。學(xué)術(shù)文獻(xiàn)是科學(xué)研究活動(dòng)的重要成果,也是科學(xué)工作者之間交流思想的主要工具。文獻(xiàn)計(jì)量學(xué)研究表明,學(xué)術(shù)文獻(xiàn)發(fā)表的數(shù)量以每年8%~9%的速度快速增長(zhǎng)[1],展現(xiàn)著科研活動(dòng)和學(xué)術(shù)交流的繁榮景象。然而,爆炸式增長(zhǎng)的文獻(xiàn)數(shù)量也為科研活動(dòng)帶來(lái)了負(fù)面影響,研究人員難以處理海量的學(xué)術(shù)文獻(xiàn),面臨著嚴(yán)重的信息過(guò)載問(wèn)題?;诖?,以計(jì)算機(jī)信息處理技術(shù)為核心,面向海量學(xué)術(shù)大數(shù)據(jù)的信息服務(wù)(如Web of Science、Google Scholar、Mendeley等),已成為研究人員不可或缺的科研工具。

如何從學(xué)術(shù)文獻(xiàn)中抽取重要的信息,將學(xué)術(shù)文獻(xiàn)表示成計(jì)算機(jī)算法更易處理的形式,是實(shí)現(xiàn)學(xué)術(shù)文獻(xiàn)的分類、組織、檢索和推薦的一個(gè)核心問(wèn)題。傳統(tǒng)方法主要是依靠專家經(jīng)驗(yàn)構(gòu)造人工特征對(duì)學(xué)術(shù)文獻(xiàn)進(jìn)行表示,例如,在學(xué)術(shù)信息檢索中以論文標(biāo)題和摘要文本構(gòu)建倒排索引,文獻(xiàn)分類和推薦系統(tǒng)中以詞袋模型、向量空間模型、主題模型構(gòu)建學(xué)術(shù)文獻(xiàn)表示向量[2-3]。

近年來(lái),基于深度學(xué)習(xí)的學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)受到了廣泛關(guān)注。例如,文獻(xiàn)[4-6]采用神經(jīng)語(yǔ)言模型從大規(guī)模學(xué)術(shù)文獻(xiàn)語(yǔ)料庫(kù)中自動(dòng)學(xué)習(xí)文獻(xiàn)的語(yǔ)義特征,將學(xué)術(shù)文獻(xiàn)表示成稠密向量,進(jìn)而實(shí)現(xiàn)分類、檢索和推薦,其主要缺點(diǎn)在于神經(jīng)語(yǔ)言模型僅考慮了學(xué)術(shù)文獻(xiàn)的文本語(yǔ)義信息,忽視了學(xué)術(shù)文獻(xiàn)之間的關(guān)系結(jié)構(gòu)信息。有鑒于此,文獻(xiàn)[7-9]提出用圖神經(jīng)網(wǎng)絡(luò)從文獻(xiàn)引文網(wǎng)絡(luò)中提取文獻(xiàn)間的關(guān)系結(jié)構(gòu)信息,并與文獻(xiàn)文本語(yǔ)義信息相融合,從而構(gòu)造學(xué)術(shù)文獻(xiàn)表示向量的思路。然而,現(xiàn)有研究大多采用有監(jiān)督圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文獻(xiàn)特征表示,其存在兩個(gè)缺點(diǎn):①有監(jiān)督圖神經(jīng)網(wǎng)絡(luò)需要針對(duì)具體的任務(wù)構(gòu)建大量的、高質(zhì)量的標(biāo)注數(shù)據(jù);②有監(jiān)督圖神經(jīng)網(wǎng)絡(luò)獲取的文獻(xiàn)特征表示與標(biāo)注數(shù)據(jù)集的任務(wù)高度耦合,難以直接遷移到其他任務(wù)上,導(dǎo)致特征表示的普適性較差。

相較于有監(jiān)督圖神經(jīng)網(wǎng)絡(luò),無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)可直接從無(wú)標(biāo)注文獻(xiàn)網(wǎng)絡(luò)數(shù)據(jù)中學(xué)習(xí)通用的文獻(xiàn)特征表示,進(jìn)而應(yīng)用于文獻(xiàn)分類、學(xué)術(shù)檢索、論文推薦等不同的下游任務(wù),被認(rèn)為是一種更具優(yōu)勢(shì)的學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)方法。然而,無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)在學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)上的效果尚不明確?;诖?,本文將無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)方法應(yīng)用于學(xué)術(shù)文獻(xiàn)的表示學(xué)習(xí),自動(dòng)從不同類型的學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)中學(xué)習(xí)論文的特征表示向量,并且進(jìn)一步探討特征向量在文獻(xiàn)分類、學(xué)術(shù)檢索、論文推薦等下游任務(wù)的應(yīng)用情況。本文旨在通過(guò)系統(tǒng)性的模擬實(shí)驗(yàn)回答以下三個(gè)研究問(wèn)題,為構(gòu)建基于預(yù)訓(xùn)練文獻(xiàn)表示向量的學(xué)術(shù)大數(shù)據(jù)應(yīng)用提供有效參考依據(jù)。

問(wèn)題1:在文獻(xiàn)分類和論文推薦兩個(gè)下游任務(wù)場(chǎng)景中,哪種無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)方法具有更好的效果?可能的內(nèi)在原因是什么?

問(wèn)題2:無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)特征表示維度變化對(duì)文獻(xiàn)分類和論文推薦任務(wù)的最終效果有何影響?

問(wèn)題3:哪種類型的學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)(引文網(wǎng)絡(luò)、共被引網(wǎng)絡(luò)和文獻(xiàn)耦合網(wǎng)絡(luò))更適合學(xué)習(xí)文獻(xiàn)的通用特征表示?

2 相關(guān)研究

2.1 表示學(xué)習(xí)研究

機(jī)器學(xué)習(xí)應(yīng)用的效果很大程度上取決于特征表達(dá),即如何構(gòu)建樣本數(shù)據(jù)的特征表示。傳統(tǒng)的機(jī)器學(xué)習(xí)時(shí)代,特征表達(dá)主要依靠人類的先驗(yàn)知識(shí),通過(guò)人工分析提取樣本的重要信息,將其組織為特征向量,即所謂的特征工程[10]。然而,特征工程嚴(yán)重依賴專家知識(shí)且耗時(shí)耗力,因此,自動(dòng)從原始數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)的有效表示(即表示學(xué)習(xí)研究)逐漸成為研究熱點(diǎn)[11]。近年來(lái),深度學(xué)習(xí)技術(shù)使得表示學(xué)習(xí)在圖像識(shí)別、語(yǔ)音和信號(hào)處理以及自然語(yǔ)言處理等領(lǐng)域取得了顯著成果。例如,計(jì)算機(jī)視覺(jué)領(lǐng)域,相較于人工視覺(jué)特征,利用卷積神經(jīng)網(wǎng)絡(luò)的自動(dòng)提取視覺(jué)特征大大地降低了圖像識(shí)別的錯(cuò)誤率[12];語(yǔ)音識(shí)別應(yīng)用中,在傳統(tǒng)聲學(xué)特征梅爾倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)的基礎(chǔ)上,通過(guò)神經(jīng)網(wǎng)絡(luò)增強(qiáng)特征表示能夠進(jìn)一步提升語(yǔ)音識(shí)別的最終效果[13];自然語(yǔ)言處理研究中,通過(guò)訓(xùn)練大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型獲得文本的向量表示,例如,基于詞上下文預(yù)測(cè)的Word2Vec[14]、基于上下文Word Embedding雙向動(dòng)態(tài)調(diào)整的ELMo[15]以及基于Transformer的雙向語(yǔ)言模型BERT(bidirectional encoder representation from transformers)[16-17]已成為當(dāng)前自然語(yǔ)言處理任務(wù)的標(biāo)準(zhǔn)基線。

如何針對(duì)不同的具體任務(wù)構(gòu)建合適的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),是基于深度學(xué)習(xí)的表示學(xué)習(xí)研究的一個(gè)重要問(wèn)題。從已有的實(shí)證研究來(lái)看,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)和基于注意力機(jī)制的Transformer神經(jīng)網(wǎng)絡(luò)已成為圖像、音頻和文本數(shù)據(jù)表示學(xué)習(xí)的關(guān)鍵組件。實(shí)證研究表明[11],通過(guò)深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征,表示學(xué)習(xí)能夠具有較強(qiáng)的數(shù)據(jù)表征能力,可以不依賴于某一特定任務(wù),學(xué)習(xí)到更通用的先驗(yàn)知識(shí)。因此,將表示學(xué)習(xí)引入學(xué)術(shù)數(shù)據(jù)處理和表征,對(duì)論文、作者、期刊、機(jī)構(gòu)、研究問(wèn)題、方法、技術(shù)、數(shù)據(jù)集等學(xué)術(shù)實(shí)體的識(shí)別、分類、組織、檢索和推薦具有較大的潛在價(jià)值。

2.2 圖嵌入研究

圖結(jié)構(gòu)廣泛存在于現(xiàn)實(shí)場(chǎng)景中,如社交網(wǎng)絡(luò)、通信網(wǎng)絡(luò)、分子結(jié)構(gòu)、引文網(wǎng)絡(luò)等,真實(shí)的圖數(shù)據(jù)具有高維度、難處理的特點(diǎn),如何將高維圖轉(zhuǎn)化為低維向量表示,即圖嵌入研究(graph embedding)一直是學(xué)術(shù)研究的熱點(diǎn)[18]。目前,圖嵌入領(lǐng)域主要有基于因子分解的、基于隨機(jī)游走的和基于深度學(xué)習(xí)的三大類方法。基于因子分解的圖嵌入有局部線性嵌入[19]、拉普拉斯特征映射[20]、圖因子分解機(jī)[21]等方法,該系列方法以線性代數(shù)為理論基礎(chǔ),依靠特征值分解、奇異值分解等矩陣分解技術(shù),將原始高維向量轉(zhuǎn)換為低維特征向量,且保留原始矩陣中的重要信息?;陔S機(jī)游走的圖嵌入有DeepWalk[22]和Node2Vec[23]等,該系列方法受自然語(yǔ)言處理研究中的詞向量(Word2Vec)研究啟發(fā),以圖中任一節(jié)點(diǎn)為起始點(diǎn),通過(guò)無(wú)偏或有偏隨機(jī)游走獲得節(jié)點(diǎn)序列,再使用Word2Vec算法學(xué)習(xí)節(jié)點(diǎn)的嵌入向量,嵌入向量能夠表征節(jié)點(diǎn)在圖中局部結(jié)構(gòu)信息。基于深度學(xué)習(xí)的圖嵌入有基于自編碼器和鄰接矩陣的SDNE(structural deep network embedding)[24]、基于卷積神經(jīng)網(wǎng)絡(luò)的圖卷積神經(jīng)網(wǎng)絡(luò)GCN(graph convolutional network)[25]以及基于編碼器-解碼器結(jié)構(gòu)的圖自編碼器GAE(graph auto-encoder)[26]等,該系列方法能夠利用深度神經(jīng)網(wǎng)絡(luò)模擬高維非線性函數(shù),從而獲得更精準(zhǔn)的節(jié)點(diǎn)嵌入向量,具有更強(qiáng)的圖數(shù)據(jù)表示能力。

在圖嵌入研究中,以圖自編碼器(GAE)為代表的無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)方法,不僅能夠編碼節(jié)點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu)信息,而且能夠利用節(jié)點(diǎn)的屬性信息,從多種角度學(xué)習(xí)到圖數(shù)據(jù)中蘊(yùn)含的先驗(yàn)知識(shí)。由于學(xué)術(shù)數(shù)據(jù)的先驗(yàn)知識(shí)不僅存在于學(xué)術(shù)文獻(xiàn)的文本語(yǔ)義信息中,還蘊(yùn)藏于學(xué)術(shù)文獻(xiàn)構(gòu)成的關(guān)系網(wǎng)絡(luò)里,且學(xué)術(shù)數(shù)據(jù)的表示可應(yīng)用的領(lǐng)域和任務(wù)較多,利用圖神經(jīng)網(wǎng)絡(luò)獲取學(xué)術(shù)數(shù)據(jù)的通用表示有利于促進(jìn)學(xué)術(shù)大數(shù)據(jù)的挖掘與應(yīng)用。

3 基于圖的學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)

3.1 文獻(xiàn)關(guān)系網(wǎng)絡(luò)

學(xué)術(shù)文獻(xiàn)往往并非孤立存在,而是通過(guò)相互聯(lián)系形成網(wǎng)絡(luò)結(jié)構(gòu),比如引文網(wǎng)絡(luò)、共被引網(wǎng)絡(luò)、文獻(xiàn)耦合網(wǎng)絡(luò)等。網(wǎng)絡(luò)在數(shù)據(jù)科學(xué)、計(jì)算機(jī)科學(xué)中又稱為圖,是一種常見(jiàn)的數(shù)據(jù)結(jié)構(gòu),一般用G=(V,E)表示。其中,V表示網(wǎng)絡(luò)中所有節(jié)點(diǎn)的集合;E表示網(wǎng)絡(luò)中所有邊的集合;vi∈V表示V中第i個(gè)節(jié)點(diǎn);eij=(vi,vj)∈E表示節(jié)點(diǎn)vi和vj之間的邊。對(duì)于學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)G而言,vi表示一篇學(xué)術(shù)論文,eij表示論文vi和論文vj之間的引用、共被引或文獻(xiàn)耦合關(guān)系。在數(shù)學(xué)上,網(wǎng)絡(luò)G的結(jié)構(gòu)信息可用n×n的鄰接矩陣A表示,矩陣A的第i行第j列元素記為Aij,Aij=1表示節(jié)點(diǎn)vi與節(jié)點(diǎn)vj之間存在一條邊;反之,則Aij=0。網(wǎng)絡(luò)G中所有節(jié)點(diǎn)的屬性信息用屬性矩陣X∈Rn×d表示,矩陣X中一行xv∈Rd表示節(jié)點(diǎn)v的屬性向量。因此,具有節(jié)點(diǎn)屬性的圖又可以表示為G=(X,A)。在學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)中,屬性矩陣X代表著所有論文的文本語(yǔ)義信息,而A則代表學(xué)術(shù)文獻(xiàn)之間構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)信息。

學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí),是指利用神經(jīng)網(wǎng)絡(luò)從大規(guī)模、高維度學(xué)術(shù)文獻(xiàn)數(shù)據(jù)中自動(dòng)地獲取文獻(xiàn)的低維向量表示,是表示學(xué)習(xí)研究在學(xué)術(shù)數(shù)據(jù)領(lǐng)域的具體應(yīng)用。目前,學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)主要有以下兩大類方法。

(1)基于文本數(shù)據(jù)的文獻(xiàn)表示學(xué)習(xí)。主要利用神經(jīng)語(yǔ)言模型,將篇幅較大、詞項(xiàng)較多的論文的文本信息編碼成低維稠密實(shí)數(shù)向量,解決傳統(tǒng)詞袋模型下論文表示向量詞項(xiàng)空間過(guò)大的問(wèn)題。

(2)基于圖數(shù)據(jù)的文獻(xiàn)表示學(xué)習(xí)。主要利用圖神經(jīng)網(wǎng)絡(luò)模型,從文獻(xiàn)關(guān)系網(wǎng)絡(luò)中提取有效信息,進(jìn)而將論文編碼成低維向量,其核心思想是論文之間的關(guān)系結(jié)構(gòu)一定程度上能夠表達(dá)論文本身的特征。

從數(shù)學(xué)形式上看,前者可記為f(X)→Z,只利用了論文的文本語(yǔ)義信息X;后者可記為f(X,A)→Z,不僅利用文本語(yǔ)義信息X,同時(shí)利用文獻(xiàn)網(wǎng)絡(luò)的結(jié)構(gòu)信息A。Z是神經(jīng)網(wǎng)絡(luò)f輸出的文獻(xiàn)特征表示矩陣,矩陣Z中任一行zv表示文獻(xiàn)v的特征表示向量,該向量可被應(yīng)用于文獻(xiàn)分類、學(xué)術(shù)檢索、論文推薦等下游任務(wù)中。模糊的學(xué)科邊界、高度交叉融合的學(xué)科體系,導(dǎo)致“一詞多義、一義多詞”的現(xiàn)象普遍存在于學(xué)術(shù)論文中,純粹基于文本語(yǔ)義信息的文獻(xiàn)表示學(xué)習(xí)方法具有先天的缺點(diǎn),因此,本文主要探討以圖神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),可綜合利用兩種信息的學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)方法。

3.2 無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)

目前,圖神經(jīng)網(wǎng)絡(luò)主要分為有監(jiān)督、半監(jiān)督和無(wú)監(jiān)督三大類型。其中,無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)不僅具備圖神經(jīng)網(wǎng)絡(luò)能夠同時(shí)編碼文獻(xiàn)文本語(yǔ)義信息和文獻(xiàn)關(guān)系結(jié)構(gòu)信息的能力,同時(shí)具有無(wú)需標(biāo)注數(shù)據(jù)的優(yōu)勢(shì),且網(wǎng)絡(luò)訓(xùn)練過(guò)程與下游任務(wù)解耦,所學(xué)習(xí)到的文獻(xiàn)表示具有較強(qiáng)的通用性。因此,本文聚焦于多種代表性無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)方法在學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)上的應(yīng)用效果,選擇的代表性無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)有圖自編碼器(GAE[26])、變分圖自編碼器(variational graph auto-encoders,VGAE)[27]、對(duì) 抗正則化變分圖自編碼器(adversarially regularized variational graph autoencoder,ARVGA)[27]和深度互信息圖神經(jīng)網(wǎng)絡(luò)(deep graph infomax,DGI)[28]。

無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)主要由編碼器、解碼器以及學(xué)習(xí)目標(biāo)三個(gè)部分構(gòu)成。

(1)編碼器。以文獻(xiàn)網(wǎng)絡(luò)的鄰接矩陣A和文獻(xiàn)文本語(yǔ)義信息矩陣X為輸入,通過(guò)編碼函數(shù)f獲得文獻(xiàn)特征表示矩陣Z,記為f(X,A)→Z。

(2)解碼器。在文獻(xiàn)特征表示矩陣Z的基礎(chǔ)上,通過(guò)解碼函數(shù)獲得重構(gòu)鄰接矩陣記為

(3)學(xué)習(xí)目標(biāo)。在文獻(xiàn)網(wǎng)絡(luò)的鄰接矩陣A、重構(gòu)鄰接矩陣A^、文獻(xiàn)特征表示矩陣Z等的基礎(chǔ)上,根據(jù)目標(biāo)函數(shù)評(píng)估、優(yōu)化文獻(xiàn)特征表示矩陣Z的表達(dá)能力。

表1 列舉了四種無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)各部分的差異。

表1 四種無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)差異分析表

在編碼器部分,四種無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)都采用了圖卷積神經(jīng)網(wǎng)絡(luò)GCN,圖卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算公式為

其中,GCN表示圖卷積神經(jīng)網(wǎng)絡(luò);D表示鄰接矩陣A對(duì)應(yīng)的度矩陣;ReLU為線性整流函數(shù);W0和W1為圖卷積神經(jīng)網(wǎng)絡(luò)待學(xué)習(xí)的參數(shù)。圖自編碼器通過(guò)1個(gè)圖卷積神經(jīng)網(wǎng)絡(luò)GCN輸出文獻(xiàn)特征表示矩陣Z。變分圖自編碼器則和對(duì)抗正則化變分圖自編碼器用GCNμ(X,A)和GCNσ(X,A)輸出文獻(xiàn)特征表示矩陣Z,且GCNμ(X,A)和GCNσ(X,A)是W0相同、W1不同的兩個(gè)圖卷積神經(jīng)網(wǎng)絡(luò),分別捕獲文獻(xiàn)特征表示的均值μ和文獻(xiàn)特征表示的方差σ,且不僅生成文獻(xiàn)特征表示矩陣Z,還通過(guò)標(biāo)準(zhǔn)正態(tài)分布N(z v|0,1)采樣獲得的先驗(yàn)表示矩陣深度互信息圖神經(jīng)網(wǎng)絡(luò)則用圖卷積神經(jīng)網(wǎng)絡(luò)編碼隨機(jī)擾動(dòng)矩陣從而輸出噪聲特征表示矩陣在解碼器部分,圖自編碼器、變分圖自編碼器和對(duì)抗正則化變分圖自編碼器都采用內(nèi)積運(yùn)算θ(ZZT)獲取重構(gòu)鄰接矩陣其中,ZT表示Z的轉(zhuǎn)置矩陣,θ表示Sigmoid函數(shù)。深度互信息圖神經(jīng)網(wǎng)絡(luò)則通過(guò)矩陣運(yùn)算θ(ZWs→T)和輸出重構(gòu)矩陣A′和其中,θ表示Sigmoid函數(shù),W是一個(gè)大小為d×d可學(xué)習(xí)的參數(shù)矩陣,s→表示文獻(xiàn)全局特征表示向量,具體計(jì)算公式為

其中,z v是文獻(xiàn)特征表示矩陣Z的其中一行,代表文獻(xiàn)v的特征表示向量,大小為1×d;表示向量的轉(zhuǎn)置。注意,與前三種神經(jīng)網(wǎng)絡(luò)不同,深度互信息圖神經(jīng)網(wǎng)絡(luò)解碼器輸出的重構(gòu)矩陣時(shí),不僅考慮了各個(gè)文獻(xiàn)的特征表示,而且考慮了整體特征表示s→的信息。

在學(xué)習(xí)目標(biāo)部分,四種圖神經(jīng)網(wǎng)絡(luò)采用了不同的損失函數(shù)作為網(wǎng)絡(luò)學(xué)習(xí)優(yōu)化目標(biāo)。涉及的損失函數(shù)有LCE交叉熵?fù)p失函數(shù)、KL相對(duì)熵?fù)p失函數(shù)和JS散度損失函數(shù)。交叉熵的計(jì)算公式為

其中,n表示文獻(xiàn)網(wǎng)絡(luò)中論文數(shù)量;Aij為原始鄰接矩陣A的第i行第j列;為重構(gòu)鄰接矩陣的第i行第j列;LCE(A^,A)實(shí)質(zhì)上衡量了矩陣A和矩陣的差異。

KL相對(duì)熵的計(jì)算公式為

min||·||和max||·||分別表示最小化和最大化目標(biāo)函數(shù),因此,四種無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)及含義分別為:

對(duì)抗正則化變分圖自編碼器中判別器D(Z)的計(jì)算公式為

其中,D是一個(gè)三層的多層感知機(jī),以文獻(xiàn)特征表示矩陣Z為輸入時(shí),判別器可輸出一個(gè)n×1的矩陣D(Z);W0、W1和W2為多層感知機(jī)中待學(xué)習(xí)的參數(shù)。同理,以先驗(yàn)表示矩陣為輸入時(shí),判別器也將輸出一個(gè)n×1的矩陣

3.3 特征學(xué)習(xí)算法與過(guò)程

學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)的根本目標(biāo)是獲得一個(gè)具有較強(qiáng)特征表達(dá)能力的文獻(xiàn)特征表示矩陣Z。在基于無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)的學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)框架下,文獻(xiàn)特征表示矩陣Z是由編碼器輸出而得,即f W(X,A)→Z,其中,f代表編碼器中的圖卷積神經(jīng)網(wǎng)絡(luò),W表示圖卷積神經(jīng)網(wǎng)絡(luò)中所有可學(xué)習(xí)的參數(shù)。算法1描述了學(xué)術(shù)文獻(xiàn)特征表示矩陣Z的學(xué)習(xí)過(guò)程,學(xué)習(xí)到的文獻(xiàn)表示向量zv可作為特征向量應(yīng)用于下游任務(wù);迭代次數(shù)T為250,特征維度d的取值范圍為[32,64,128,256,512]。

算法1:基于無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)的學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)算法

輸入:文獻(xiàn)關(guān)系網(wǎng)絡(luò)G=(X,A),訓(xùn)練的迭代次數(shù)T,特征維度大小d。

Step1.隨機(jī)初始化編碼器參數(shù)W;

Step2.編碼器進(jìn)行運(yùn)算,輸出文獻(xiàn)特征表示矩陣Z;

Step4.根據(jù)學(xué)習(xí)目標(biāo)計(jì)算損失函數(shù);

Step5.采用隨機(jī)梯度下降更新編碼器參數(shù)W;

Step6.反復(fù)執(zhí)行Step1~Step5T次;

Step7.輸出Z作為最終學(xué)習(xí)到的文獻(xiàn)特征表示矩陣,文獻(xiàn)v的表示向量為zv∈Rd。

4 實(shí)驗(yàn)構(gòu)建

4.1 任務(wù)場(chǎng)景設(shè)計(jì)

本文選擇文獻(xiàn)分類和論文推薦為下游任務(wù)場(chǎng)景,從而分析學(xué)習(xí)到的學(xué)術(shù)文獻(xiàn)特征表示的有效性。具體而言,在文獻(xiàn)分類任務(wù)中,實(shí)驗(yàn)執(zhí)行以下4個(gè)步驟:①文獻(xiàn)表示學(xué)習(xí),將文獻(xiàn)網(wǎng)絡(luò)G=(X,A)輸入無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)獲取文獻(xiàn)特征表示Z;②數(shù)據(jù)集切分,將文獻(xiàn)網(wǎng)絡(luò)G中的所有文獻(xiàn)切分為兩個(gè)訓(xùn)練集Z1:v={z1,…,zv}和測(cè)試集Zv:n={zv+1,…,zn},樣本比例分別為70%和30%;③分類模型訓(xùn)練,將訓(xùn)練集數(shù)據(jù)輸入邏輯回歸分類器訓(xùn)練分類模型;④評(píng)價(jià)指標(biāo)計(jì)算,將訓(xùn)練好的分類模型運(yùn)用到測(cè)試集上,獲取MarcoF1(宏平均F1值)和MicroF1(微平均F1值)兩個(gè)評(píng)價(jià)指標(biāo)。

在論文推薦任務(wù)中,實(shí)驗(yàn)執(zhí)行以下5個(gè)步驟:①文獻(xiàn)表示學(xué)習(xí),將學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)G=(X,A)輸入無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)獲取文獻(xiàn)特征表示Z;②測(cè)試文獻(xiàn)采樣,從文獻(xiàn)網(wǎng)絡(luò)G中隨機(jī)抽取30個(gè)文獻(xiàn),作為論文推薦任務(wù)的測(cè)試文獻(xiàn);③推薦列表獲取,依次從文獻(xiàn)特征表示矩陣Z中取出測(cè)試文獻(xiàn)對(duì)應(yīng)的特征向量z v,利用余弦相似度公式計(jì)算其與學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)G中所有其他文獻(xiàn)的相似性,并篩選相似性最大的前20篇文獻(xiàn)為候選推薦列表;④相關(guān)性標(biāo)注,兩位標(biāo)注專家查看測(cè)試文獻(xiàn)和推薦列表候選文獻(xiàn)標(biāo)題和摘要的內(nèi)容,判斷測(cè)試文獻(xiàn)與推薦列表中每個(gè)文獻(xiàn)之間的相關(guān)性大小并進(jìn)行打分,分值為1~5;⑤評(píng)價(jià)指標(biāo)計(jì)算,在相關(guān)性標(biāo)注的基礎(chǔ)上計(jì)算Hit@K和Ndcg@K指標(biāo),K的取值為[5,10]。

4.2 數(shù)據(jù)集處理

基于無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)的學(xué)術(shù)文獻(xiàn)表示學(xué)習(xí)算法,必須執(zhí)行在既包含文獻(xiàn)網(wǎng)絡(luò)關(guān)系又包含文獻(xiàn)文本語(yǔ)義特征的數(shù)據(jù)集上,因此,本文以三個(gè)大小不同的學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)數(shù)據(jù)集Cora、CiteSeer和DBLP(database systems and logic programming)為基礎(chǔ),針對(duì)文獻(xiàn)分類和論文推薦兩個(gè)任務(wù)進(jìn)行預(yù)處理,從而構(gòu)建了實(shí)驗(yàn)數(shù)據(jù)集。表2列舉了處理后數(shù)據(jù)集的具體信息。

表2 三個(gè)學(xué)術(shù)文獻(xiàn)數(shù)據(jù)集的具體信息

具體而言,Cora原始數(shù)據(jù)集共包含2708篇文獻(xiàn),每篇文獻(xiàn)的文本特征為1433維的one-hot向量,文獻(xiàn)引文網(wǎng)絡(luò)的邊數(shù)為5429。本文根據(jù)Cora原始引文網(wǎng)絡(luò)抽取出共被引關(guān)系5687條和文獻(xiàn)耦合關(guān)系39596條,從而構(gòu)建了Cora數(shù)據(jù)集的共被引網(wǎng)絡(luò)和文獻(xiàn)耦合網(wǎng)絡(luò),且從此網(wǎng)站①https://people.cs.umass.edu/~mccallum/data/獲取到Cora數(shù)據(jù)集中每篇文獻(xiàn)對(duì)應(yīng)的標(biāo)題和摘要。CiteSeer原始數(shù)據(jù)集共包含3327篇文獻(xiàn),每篇文獻(xiàn)的文本特征為3703維的one-hot向量,文獻(xiàn)引文網(wǎng)絡(luò)的邊數(shù)為4732,共被引網(wǎng)絡(luò)邊5959條、文獻(xiàn)耦合網(wǎng)絡(luò)邊16898條。本文從原始DBLP數(shù)據(jù)中隨機(jī)采樣出86592篇文獻(xiàn)及其對(duì)應(yīng)的引文關(guān)系968589條,共被引關(guān)系23561659條,文獻(xiàn)耦合關(guān)系10419860條,每篇文獻(xiàn)的文本語(yǔ)義特征向量通過(guò)Spacy中的Word2Vec模型獲?、趆ttps://spacy.io/,文獻(xiàn)的文本語(yǔ)義向量為文獻(xiàn)標(biāo)題中所有詞的詞向量的均值向量。。為了提升實(shí)驗(yàn)結(jié)論的可拓展性,本文對(duì)每個(gè)下游任務(wù)都采用兩個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),具體信息如表3所示。

表3 任務(wù)數(shù)據(jù)集選擇及其說(shuō)明

4.3 實(shí)驗(yàn)組設(shè)置③https://scholarbank.nus.edu.sg/handle/10635/146027

為了回答在第1節(jié)中提出的三個(gè)研究問(wèn)題,本文共設(shè)計(jì)了兩組實(shí)驗(yàn),相關(guān)設(shè)置如下。

實(shí)驗(yàn)組1:以三個(gè)數(shù)據(jù)集的文獻(xiàn)引文網(wǎng)絡(luò)為輸入鄰接矩陣,依次采用四種無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò),選擇不同大小的特征維度d,執(zhí)行文獻(xiàn)分類和論文推薦任務(wù)獲取評(píng)價(jià)指標(biāo),并以深度隨機(jī)游走(Deep-Walk)[22]、Doc2Vec[29]、Paper2Vec[30]的結(jié)果作為對(duì)比基線。該實(shí)驗(yàn)組在固定文獻(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)的條件下,通過(guò)改變無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和文獻(xiàn)特征表示維度大小獲取實(shí)驗(yàn)結(jié)果,以期回答問(wèn)題1和問(wèn)題2。

實(shí)驗(yàn)組2:以Cora數(shù)據(jù)集的引文網(wǎng)絡(luò)、共被引網(wǎng)絡(luò)、文獻(xiàn)耦合網(wǎng)絡(luò)為輸入鄰接矩陣,以固定的無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò),通過(guò)貪心算法選擇最優(yōu)特征維度d,執(zhí)行文獻(xiàn)分類和論文推薦任務(wù)獲取評(píng)價(jià)指標(biāo)。該實(shí)驗(yàn)組在固定任務(wù)和確定無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)模型的條件下,通過(guò)改變輸入網(wǎng)絡(luò)的結(jié)構(gòu)獲取實(shí)驗(yàn)結(jié)果,以期回答問(wèn)題3。

5 實(shí)驗(yàn)結(jié)果分析

5.1 學(xué)習(xí)方法比較分析

表4 顯示了三種基線方法和四種無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)在Cora和CiteSeer兩個(gè)數(shù)據(jù)集上執(zhí)行文獻(xiàn)分類實(shí)驗(yàn)的最優(yōu)結(jié)果。由研究結(jié)果可知,在文獻(xiàn)分類任務(wù)上,無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)全面優(yōu)于深度隨機(jī)游走,表明在文獻(xiàn)關(guān)系結(jié)構(gòu)信息之上,融合文獻(xiàn)文本語(yǔ)義信息能夠有效提升文獻(xiàn)特征表示能力。深度互信息圖神經(jīng)網(wǎng)絡(luò)在兩個(gè)數(shù)據(jù)集中均獲得了最高評(píng)價(jià)指標(biāo),在Cora數(shù)據(jù)集上,宏平均F1和微平均F1值分別為0.808和0.820;在CiteSeer數(shù)據(jù)集上,宏平均F1和微平均F1值分別為0.657和0.692。變分圖自編碼器僅次于深度互信息圖神經(jīng)網(wǎng)絡(luò),在兩個(gè)數(shù)據(jù)集的多項(xiàng)指標(biāo)上均獲得了較好的結(jié)果。圖自編碼器和對(duì)抗正則化變分圖自編碼器則表現(xiàn)相當(dāng),在不同數(shù)據(jù)集的不同指標(biāo)上互有勝負(fù)。

表4 三種基線方法和四種無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)在文獻(xiàn)分類任務(wù)上的最優(yōu)結(jié)果

表5 顯示了三種基線方法和四種無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)在Cora和DBLP兩個(gè)數(shù)據(jù)集上執(zhí)行論文推薦實(shí)驗(yàn)的最優(yōu)結(jié)果。在Cora數(shù)據(jù)集上,對(duì)抗正則化變分圖自編碼器表現(xiàn)最好,其Ndcg@5、Ndcg@10、Hit@5、Hit@10分別為0.596、0.646、0.571、0.660。在Hit@10指標(biāo)上,深度互信息圖神經(jīng)網(wǎng)絡(luò)的表現(xiàn)最優(yōu),而其他三個(gè)圖神經(jīng)網(wǎng)絡(luò)則表現(xiàn)相當(dāng)。在Ndcg@5和Ndcg@10指標(biāo)上,對(duì)抗正則化變分圖自編碼器遠(yuǎn)高于其他三個(gè)神經(jīng)網(wǎng)絡(luò),圖自編碼器則表現(xiàn)優(yōu)于變分圖自編碼器和深度互信息圖神經(jīng)網(wǎng)絡(luò)。在DBLP數(shù)據(jù)集上,對(duì)抗正則化變分圖自編碼器在Ndcg@5、Ndcg@10、Hit@5和Hit@10上都得分最高,其他三個(gè)神經(jīng)網(wǎng)絡(luò)表現(xiàn)則相差不大。盡管深度互信息圖神經(jīng)網(wǎng)絡(luò)和對(duì)抗正則化變分圖自編碼器的Hit@5指標(biāo)均為0.457,但是對(duì)抗正則化變分圖自編碼器的Ndcg@5得分為0.573,相比于深度互信息圖神經(jīng)網(wǎng)絡(luò)提高了6.5%,這說(shuō)明對(duì)抗正則化變分圖自編碼器能夠?qū)⑾嚓P(guān)性更高的文獻(xiàn)排在推薦列表頂部。

表5 三種基線方法和四種無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)在論文推薦任務(wù)上的最優(yōu)結(jié)果

上述實(shí)驗(yàn)結(jié)果表明,相較于其他圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征表示,深度互信息圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的文獻(xiàn)特征表示具有更強(qiáng)的文獻(xiàn)差異區(qū)分能力。這可能是由于深度互信息圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的目標(biāo)是最大化局部文獻(xiàn)特征表示和全局文獻(xiàn)特征表示的互信息,即學(xué)習(xí)到更能夠表示每一篇文獻(xiàn)獨(dú)特性的特征向量,因此,其特別適合于文獻(xiàn)分類這種下游任務(wù)。而其他三種圖神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)均希望使得重構(gòu)鄰接矩陣和原始鄰接矩陣的相接近,實(shí)質(zhì)上是讓文獻(xiàn)網(wǎng)絡(luò)中具有關(guān)聯(lián)關(guān)系的文獻(xiàn)具有更相近的特征表示向量。從這個(gè)角度來(lái)看,理論上圖自編碼器、變分圖自編碼器和對(duì)抗正則化變分圖自編碼器學(xué)習(xí)到的文獻(xiàn)特征表示更適合于論文推薦任務(wù)。然而,在Cora和DBLP兩個(gè)數(shù)據(jù)集上,深度互信息圖神經(jīng)網(wǎng)絡(luò)表現(xiàn)并非最差,與圖自編碼器和變分圖自編碼器表現(xiàn)相當(dāng)。本文認(rèn)為,這可能與Cora和DBLP兩個(gè)數(shù)據(jù)集包含的所有文獻(xiàn)皆屬于計(jì)算機(jī)領(lǐng)域有關(guān)。正是由于Cora和DBLP數(shù)據(jù)集中文獻(xiàn)都屬于同一領(lǐng)域,執(zhí)行論文推薦任務(wù)時(shí)深度互信息圖神經(jīng)網(wǎng)絡(luò)捕捉到的細(xì)節(jié)差異,有利于從主題領(lǐng)域相似的小文獻(xiàn)集合中找到更相關(guān)的推薦文獻(xiàn)。

5.2 特征維度影響分析

圖1 顯示了采用不同大小的特征維度d時(shí),四種無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)的文獻(xiàn)特征表示在文獻(xiàn)分類任務(wù)上的效果變化。由圖1可知,對(duì)于深度互信息圖神經(jīng)網(wǎng)絡(luò)而言,當(dāng)特征維度增大時(shí),文獻(xiàn)分類各指標(biāo)均呈現(xiàn)遞增的趨勢(shì)。而對(duì)另外三種無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),特征維度的增大反而使得文獻(xiàn)分類各指標(biāo)呈現(xiàn)波動(dòng)或降低的趨勢(shì)。理論上看,更大的特征維度能夠存儲(chǔ)更多的細(xì)節(jié)信息,從而使得學(xué)習(xí)到的文獻(xiàn)特征能夠刻畫(huà)文獻(xiàn)之間更細(xì)節(jié)的差異。正如第5.1節(jié)分析所述,深度互信息圖神經(jīng)網(wǎng)絡(luò)通過(guò)最大化局部文獻(xiàn)特征表示和全局文獻(xiàn)特征表示的互信息,使得每篇文獻(xiàn)自身獨(dú)特的信息能夠保留在學(xué)習(xí)到的文獻(xiàn)特征表示向量中,因此,文獻(xiàn)分類結(jié)果受益于更大的特征維度。然而,圖自編碼器、變分圖自編碼器和對(duì)抗正則化變分圖自編碼器的學(xué)習(xí)目標(biāo)并不能更有效地區(qū)分不同文獻(xiàn)之間的差異,只能讓文獻(xiàn)網(wǎng)絡(luò)中相連接的文獻(xiàn)具有更相似的表示向量,因此,分類任務(wù)上這三種圖神經(jīng)網(wǎng)絡(luò)不能受益于更大的特征維度。

圖1 特征維度變化對(duì)文獻(xiàn)分類任務(wù)的影響

圖2 顯示了采用不同特征維度大小d時(shí),四種無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)的文獻(xiàn)特征表示在論文推薦任務(wù)上的效果變化。在DBLP數(shù)據(jù)集上,深度互信息圖神經(jīng)網(wǎng)絡(luò)各指標(biāo)均呈現(xiàn)先增后減的趨勢(shì),且在d=128附近得到最大得分。圖自編碼器和變分圖自編碼器在各指標(biāo)上呈現(xiàn)增減波動(dòng),沒(méi)有穩(wěn)定提高或降低的趨勢(shì)。對(duì)抗正則化變分圖自編碼器各指標(biāo)最小值均出現(xiàn)在d=64或d=128時(shí)且形成上凹拋弧線。在Cora數(shù)據(jù)集上,除圖自編碼器外的三種無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)在d=32處已取得最優(yōu)指標(biāo)。深度互信息圖神經(jīng)網(wǎng)絡(luò)各指標(biāo)形成S形波動(dòng),其他三種圖神經(jīng)網(wǎng)絡(luò)指標(biāo)變化較平緩??偟膩?lái)說(shuō),特征維度的增大不能夠給論文推薦結(jié)果指標(biāo)帶來(lái)提升,本文認(rèn)為,這代表四種無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)都無(wú)益于論文推薦任務(wù)。

圖2 特征維度變化對(duì)論文推薦任務(wù)的影響

5.3 網(wǎng)絡(luò)類型影響分析

由于CiteSeer數(shù)據(jù)集只提供了文獻(xiàn)onehot文本特征,缺乏文獻(xiàn)的原始文本數(shù)據(jù),而DBLP數(shù)據(jù)集沒(méi)有提供文獻(xiàn)分類標(biāo)簽,故僅有Cora數(shù)據(jù)集可同時(shí)執(zhí)行文獻(xiàn)分類和論文推薦兩個(gè)任務(wù)。圖3中的每個(gè)子圖都顯示了同一個(gè)數(shù)據(jù)集下(Cora數(shù)據(jù)集),采用同一種無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)時(shí),以三種不同文獻(xiàn)網(wǎng)絡(luò)為輸入而獲得的6個(gè)任務(wù)指標(biāo)(包括文獻(xiàn)分類2個(gè)和論文推薦4個(gè))的數(shù)值得分。由圖3可知,無(wú)論是文獻(xiàn)分類還是論文推薦任務(wù)場(chǎng)景,在其他條件相同時(shí),相比于其他兩個(gè)文獻(xiàn)網(wǎng)絡(luò),引文網(wǎng)絡(luò)似乎更適合學(xué)習(xí)文獻(xiàn)的通用特征表示,并且文獻(xiàn)耦合網(wǎng)絡(luò)在絕大多數(shù)情況下比共被引網(wǎng)絡(luò)更好。

圖3 文獻(xiàn)網(wǎng)絡(luò)類型變化對(duì)文獻(xiàn)分類和論文推薦指標(biāo)的影響

為了進(jìn)一步解釋文獻(xiàn)網(wǎng)絡(luò)類型變化而導(dǎo)致文獻(xiàn)分類任務(wù)效果的差異,本文統(tǒng)計(jì)了三種文獻(xiàn)網(wǎng)絡(luò)中不同類型邊的數(shù)量,具體如表6所示。其中,同類文獻(xiàn)節(jié)點(diǎn)間邊的數(shù)量是指文獻(xiàn)網(wǎng)絡(luò)中邊兩側(cè)的文獻(xiàn)節(jié)點(diǎn)屬于同一類別文獻(xiàn)時(shí)邊的總數(shù),非同類文獻(xiàn)節(jié)點(diǎn)間邊的數(shù)量是指文獻(xiàn)網(wǎng)絡(luò)中邊兩側(cè)的文獻(xiàn)節(jié)點(diǎn)不屬于同類別文獻(xiàn)時(shí)邊的總數(shù)。由表6可知,Cora數(shù)據(jù)集引文網(wǎng)絡(luò)中一共有5429條邊,其中連接同類文獻(xiàn)節(jié)點(diǎn)的邊的數(shù)量占81.4%,非同類文獻(xiàn)節(jié)點(diǎn)的邊的數(shù)量占18.6%。從引文網(wǎng)絡(luò)構(gòu)造共被引網(wǎng)絡(luò)后,共被引網(wǎng)絡(luò)中同類文獻(xiàn)節(jié)點(diǎn)間邊的數(shù)量占比下降到73.6%,非同類文獻(xiàn)節(jié)點(diǎn)間邊的數(shù)量占比上升到26.4%。這表明從引文網(wǎng)絡(luò)構(gòu)建共被引網(wǎng)絡(luò)時(shí),網(wǎng)絡(luò)中不同類型文獻(xiàn)節(jié)點(diǎn)間的聯(lián)系(邊的數(shù)量)密度增大,本來(lái)不屬于同一類型的文獻(xiàn)節(jié)點(diǎn)被連接起來(lái),從而弱化了從網(wǎng)絡(luò)中學(xué)習(xí)到的文獻(xiàn)表示向量的類別區(qū)分能力。同理,在文獻(xiàn)耦合網(wǎng)絡(luò)中,同類文獻(xiàn)節(jié)點(diǎn)間邊的數(shù)量占75.8%,非同類文獻(xiàn)節(jié)點(diǎn)間邊的數(shù)量占24.2%,低于引文網(wǎng)絡(luò)但略高于共被引網(wǎng)絡(luò),因此,其在文獻(xiàn)分類任務(wù)上的效果排名第二(圖3)。

表6 Cora數(shù)據(jù)集三種文獻(xiàn)網(wǎng)絡(luò)中邊類型統(tǒng)計(jì)數(shù)據(jù)表

為了洞察文獻(xiàn)網(wǎng)絡(luò)類型導(dǎo)致論文推薦任務(wù)效果差異的原因,本文從Cora數(shù)據(jù)集中隨機(jī)選擇了3個(gè)文獻(xiàn)節(jié)點(diǎn),并人工統(tǒng)計(jì)了這些節(jié)點(diǎn)在不同類型文獻(xiàn)網(wǎng)絡(luò)中鄰居節(jié)點(diǎn)相關(guān)性得分的平均值,結(jié)果如表7所示。由表7可知,對(duì)于同一個(gè)文獻(xiàn)節(jié)點(diǎn),其在引文網(wǎng)絡(luò)中的鄰居節(jié)點(diǎn)的相關(guān)性得分平均值高于其他兩個(gè)文獻(xiàn)網(wǎng)絡(luò)。這表明相較于其他兩個(gè)文獻(xiàn)網(wǎng)絡(luò),引文網(wǎng)絡(luò)中由邊相連的節(jié)點(diǎn)之間可能具有更強(qiáng)的關(guān)聯(lián)性,更利于圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文獻(xiàn)間的相似性,從而有利于論文的推薦任務(wù)。

表7 鄰居節(jié)點(diǎn)相關(guān)性得分統(tǒng)計(jì)數(shù)據(jù)表

6 結(jié) 語(yǔ)

學(xué)術(shù)文獻(xiàn)的表示學(xué)習(xí)是優(yōu)化學(xué)術(shù)文獻(xiàn)搜索、學(xué)術(shù)文獻(xiàn)分類組織、學(xué)術(shù)文獻(xiàn)個(gè)性化推薦等學(xué)術(shù)大數(shù)據(jù)服務(wù)的基礎(chǔ)。本文將自編碼器、變分圖自編碼器、對(duì)抗正則化變分圖自編碼器和深度互信息圖神經(jīng)網(wǎng)絡(luò)這四種無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)方法引入學(xué)術(shù)文獻(xiàn)的表示學(xué)習(xí)研究,以文獻(xiàn)分類和論文推薦為下游任務(wù)進(jìn)行了相關(guān)實(shí)驗(yàn)。本文的主要貢獻(xiàn):①分析了四種無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)的差異,提出了以“編碼器-解碼器-學(xué)習(xí)目標(biāo)”為核心的、基于無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)的文獻(xiàn)表示學(xué)習(xí)框架(見(jiàn)表1),并梳理出四種圖神經(jīng)網(wǎng)絡(luò)的矩陣表達(dá)形式;②通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)深度互信息圖神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)更適合于文獻(xiàn)分類任務(wù),而對(duì)抗正則化變分圖自編碼器更適合于論文推薦任務(wù);③實(shí)驗(yàn)發(fā)現(xiàn)特征維度的增大能夠有效提升深度互信息圖神經(jīng)網(wǎng)絡(luò)的文獻(xiàn)類別差異表征能力,而四種無(wú)監(jiān)督圖神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)似乎都無(wú)益于論文推薦任務(wù);④Cora數(shù)據(jù)集上的實(shí)驗(yàn)表明,相較于共被引網(wǎng)絡(luò)和文獻(xiàn)耦合網(wǎng)絡(luò),引文網(wǎng)絡(luò)更適合于學(xué)習(xí)通用的文獻(xiàn)表示向量。

盡管本文選用了Cora、CiteSeer和DBLP等多個(gè)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),然而這些數(shù)據(jù)集都僅只是從真實(shí)學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)中抽樣的部分?jǐn)?shù)據(jù)。從理論上看,通過(guò)圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文獻(xiàn)的表示向量會(huì)受到文獻(xiàn)鄰居節(jié)點(diǎn)文獻(xiàn)的影響,因此,采樣部分文獻(xiàn)數(shù)據(jù)可能會(huì)學(xué)習(xí)到有偏的文獻(xiàn)表示,即文獻(xiàn)最終的表示向量由采樣到的鄰居節(jié)點(diǎn)決定,而不是真實(shí)學(xué)術(shù)網(wǎng)絡(luò)中所有鄰居節(jié)點(diǎn)決定。未來(lái)將分析不同的采樣策略如何影響文獻(xiàn)表示學(xué)習(xí)和相應(yīng)的下游任務(wù)指標(biāo),這是一個(gè)有趣且值得研究的問(wèn)題。

猜你喜歡
編碼器向量學(xué)術(shù)
向量的分解
聚焦“向量與三角”創(chuàng)新題
如何理解“Curator”:一個(gè)由翻譯引發(fā)的學(xué)術(shù)思考
對(duì)學(xué)術(shù)造假重拳出擊
商周刊(2019年2期)2019-02-20 01:14:22
基于FPGA的同步機(jī)軸角編碼器
基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
向量垂直在解析幾何中的應(yīng)用
JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
電子器件(2015年5期)2015-12-29 08:42:24
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
多總線式光電編碼器的設(shè)計(jì)與應(yīng)用
库尔勒市| 荆州市| 长乐市| 大邑县| 微山县| 托克逊县| 周口市| 霍城县| 洛宁县| 永丰县| 富源县| 佛教| 寿阳县| 平顶山市| 桂林市| 收藏| 新平| 曲周县| 娱乐| 嘉峪关市| 吉木萨尔县| 博湖县| 武定县| 商水县| 苏州市| 锦屏县| 郧西县| 深泽县| 阳新县| 河北区| 苍山县| 阿合奇县| 田林县| 元江| 鹿邑县| 册亨县| 桦川县| 如东县| 嫩江县| 霍州市| 房产|