劉非凡,張 爽,羅雙玲,夏昊翔
(1.大連理工大學(xué)系統(tǒng)工程研究所,大連 116024;2.大連理工大學(xué)大數(shù)據(jù)與智能決策研究中心,大連 116024;3.大連海事大學(xué)航運經(jīng)濟與管理學(xué)院,大連 116026)
結(jié)構(gòu)化的學(xué)科領(lǐng)域知識反映出科學(xué)的內(nèi)在邏輯與聯(lián)系。如何客觀準(zhǔn)確地度量出學(xué)科領(lǐng)域主題是情報工程研究人員試圖解決的基礎(chǔ)問題。清晰的學(xué)科領(lǐng)域知識結(jié)構(gòu)有助于研究者把握領(lǐng)域研究的發(fā)展態(tài)勢、支持科技管理活動以及完善科技政策的制定。自20世紀(jì)以來,科學(xué)界各個學(xué)科領(lǐng)域都取得了前所未有的蓬勃發(fā)展,新興研究領(lǐng)域?qū)映霾桓F。從數(shù)量上來看,科學(xué)文獻發(fā)表量自1900年起呈現(xiàn)出指數(shù)型增長的趨勢,文獻涉及的學(xué)科領(lǐng)域知識單元也呈現(xiàn)出線性增長的趨勢[1];從Web of Science科學(xué)文獻數(shù)據(jù)庫的統(tǒng)計結(jié)果來看,至2015年前后,日益增長的科學(xué)文獻所涌現(xiàn)出的新詞匯規(guī)模已達到了每年4萬個[2]。另外,大科學(xué)時代領(lǐng)域知識結(jié)構(gòu)呈現(xiàn)出三個重要特征:學(xué)科領(lǐng)域知識網(wǎng)絡(luò)規(guī)模持續(xù)擴展、維度高速膨脹以及結(jié)構(gòu)動態(tài)多變[3]。學(xué)科體系日益復(fù)雜、交叉學(xué)科領(lǐng)域不斷涌現(xiàn)為厘清領(lǐng)域知識結(jié)構(gòu)帶來了巨大挑戰(zhàn)[4]。
領(lǐng)域知識結(jié)構(gòu)探測的核心任務(wù)是準(zhǔn)確、全面地識別領(lǐng)域科學(xué)文獻中所涵蓋的知識單元實體,并挖掘出這些知識單元之間的關(guān)聯(lián)程度。信息技術(shù)的發(fā)展、網(wǎng)絡(luò)科學(xué)的興起以及大規(guī)模可獲取的科學(xué)文獻數(shù)據(jù)為科技情報人員解決該問題提供了重要的理論指導(dǎo)與研究基礎(chǔ)。首先,大規(guī)模可獲取的文獻數(shù)據(jù)使得更加全面、系統(tǒng)和完整地識別和探測學(xué)科領(lǐng)域的知識結(jié)構(gòu)成為可能。其次,網(wǎng)絡(luò)科學(xué)的興起,特別是引文網(wǎng)絡(luò)分析、社會網(wǎng)絡(luò)分析以及復(fù)雜網(wǎng)絡(luò)分析理論,豐富了領(lǐng)域知識結(jié)構(gòu)探測研究的內(nèi)涵。最后,計算機學(xué)科的發(fā)展,尤其是圍繞大數(shù)據(jù)與機器學(xué)習(xí)的相關(guān)軟硬件及人工智能算法研究,為領(lǐng)域知識實體識別與結(jié)構(gòu)分析提供了重要的技術(shù)支撐。
當(dāng)前,圍繞領(lǐng)域知識結(jié)構(gòu)的識別與探測問題,國內(nèi)外網(wǎng)絡(luò)科學(xué)、計算機科學(xué)、科學(xué)學(xué)以及情報學(xué)等各領(lǐng)域的學(xué)者都開展了諸多研究。網(wǎng)絡(luò)科學(xué)研究人員主要聚焦于普適視角下的網(wǎng)絡(luò)構(gòu)建方式、凝聚子群的識別,以及網(wǎng)絡(luò)社區(qū)的劃分[5]。計算機學(xué)科研究人員憑借機器學(xué)習(xí)、統(tǒng)計學(xué)習(xí)以及神經(jīng)網(wǎng)絡(luò)等新興研究領(lǐng)域的發(fā)展,開發(fā)了更先進的自然語言處理工具與主題抽取模型[6],對文檔內(nèi)容的挖掘與分析日趨深入??茖W(xué)學(xué)研究人員則重視從科研活動視角探討領(lǐng)域知識的交叉融合模式[7]。情報學(xué)研究人員則廣泛吸收和借鑒了不同學(xué)科的理論與方法工具,研究范圍涵蓋了科技文獻引證分析、期刊分群、文本內(nèi)容特征提取、主題詞共現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)探測以及文檔全文挖掘等主題[8-10]。近年來,也有學(xué)者利用深度學(xué)習(xí)等先進的文本語義分析手段測度學(xué)科知識結(jié)構(gòu)[11]。
人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域的快速發(fā)展加速了自然語言處理技術(shù)的更新迭代,并且為網(wǎng)絡(luò)科學(xué)的研究帶來了新的研究范式。在文本內(nèi)容分析領(lǐng)域,相較于傳統(tǒng)的主題發(fā)現(xiàn)方法,深度學(xué)習(xí)技術(shù)展現(xiàn)出了語義捕獲更準(zhǔn)確和結(jié)果更具解釋性的特點。在情報工程應(yīng)用上,傳統(tǒng)的文本內(nèi)容分析手段,如TF-IDF(Term Frequency-Inverse Document Frequency)[12]、共詞[13]、LDA(Latent Dirichlet Allocation)及其衍生方法[14-15],正在被新型研究手段所取代[11]。在網(wǎng)絡(luò)分析研究領(lǐng)域,已經(jīng)出現(xiàn)了利用流形學(xué)習(xí)方法對高維文本特征數(shù)據(jù)降維可視化的研究,如t-SNE(t-Distributed Stochastic Neighbor Embedding)算法[16]。另外,有學(xué)者利用淺層圖網(wǎng)絡(luò)表示學(xué)習(xí)方法來解決學(xué)者科研合作預(yù)測的問題[17]。
總體而言,領(lǐng)域知識結(jié)構(gòu)探測問題是一個典型的跨學(xué)科研究問題,不同學(xué)科的研究人員借助自身的學(xué)科優(yōu)勢對該問題開展了廣泛探索。領(lǐng)域知識結(jié)構(gòu)探測的基本思路可以歸納為兩個方面:一方面是文本內(nèi)容分析,利用自然語言處理方法直接抽取科技文獻的文本內(nèi)容,通過度量文本之間的相似性識別出領(lǐng)域知識結(jié)構(gòu);另一方面是引文網(wǎng)絡(luò)分析,通過領(lǐng)域文獻之間的直接引用、耦合引用或共被引關(guān)系構(gòu)建引文網(wǎng)絡(luò),利用文獻聚類算法挖掘出領(lǐng)域知識關(guān)聯(lián)。這兩種方法在目前的領(lǐng)域知識結(jié)構(gòu)探測中均取得了良好的效果。文本內(nèi)容分析方法(簡稱“內(nèi)容分析法”)的優(yōu)勢在于直接從文獻的文本內(nèi)容中抽取主題,或者利用文本特征表示方法轉(zhuǎn)化為低維主題向量,進而通過向量相似度度量出文本之間的差異度。內(nèi)容分析法的效果直接取決于文本的預(yù)處理過程是否完善以及主題模型的選擇與應(yīng)用是否適當(dāng)。引文網(wǎng)絡(luò)分析方法(簡稱“引文分析法”)的有效性源則自研究人員的引用動機,即假設(shè)研究人員總傾向于將與自己論文主題相近的文獻選入?yún)⒖嘉墨I列表中。
然而,這兩類方法都存在一定的局限。圖1以vi和vj兩個節(jié)點在兩類方法中的不同分類結(jié)果反映了引文分析法與內(nèi)容分析法的缺點。其中,vi是高被引文獻,vj是文本內(nèi)容缺失或者與主題1和主題2的內(nèi)容相似度均接近的文獻。在這兩種分析方法下,vi由于擁有極高的引用關(guān)系,會吸引來自不同子領(lǐng)域的引用關(guān)系,導(dǎo)致該文獻及其具有施引關(guān)系的其他相關(guān)文獻出現(xiàn)“內(nèi)容差異大,但被分到同類別”的情況。對于vj來說,文本內(nèi)容缺失或者與其他多個主題之間區(qū)分度過小都會導(dǎo)致其無法被準(zhǔn)確分類。而如果vi具有可區(qū)分的文本內(nèi)容,那么vi通過內(nèi)容關(guān)聯(lián)就可以獲得正確分類;vj則可以依據(jù)引用關(guān)聯(lián)得到更為恰當(dāng)?shù)姆诸惤Y(jié)果。也就是說,這兩種方法的有效融合有望解決上述單一方法存在的問題,即文本挖掘往往受制于“一詞多義”現(xiàn)象以及領(lǐng)域語料庫的缺乏;而引文分析則受限于高被引文獻對領(lǐng)域?qū)W科網(wǎng)絡(luò)結(jié)構(gòu)的影響,可能會造成將不同主題的文獻匯總到同一主題下的情況。
圖1 引文分析法與內(nèi)容分析法的局限示意圖
盡管也有學(xué)者將兩類研究方法試圖結(jié)合起來[18-20],但多局限于啟發(fā)式地混合兩者的相似度矩陣,未實現(xiàn)文獻的內(nèi)容特征以及引用關(guān)系特征的直接融合。同時,這些方法無法結(jié)合傳統(tǒng)的專家分類方法,在研究范圍、規(guī)模擴展性以及預(yù)測性等方面也存在先天缺陷。因此,本文擬引入近年來在機器學(xué)習(xí)領(lǐng)域中新涌現(xiàn)的深度圖表示學(xué)習(xí)方法,通過直接融合文獻的內(nèi)容特征以及引用網(wǎng)絡(luò)的結(jié)構(gòu)特征,以期獲得更準(zhǔn)確的領(lǐng)域知識結(jié)構(gòu)探測與識別結(jié)果。
鑒于目前研究方法的局限,為了準(zhǔn)確探測和識別領(lǐng)域知識結(jié)構(gòu)特征,本文提出了基于深度圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)表示方法的研究框架,具體研究流程如圖2所示。
圖2 基于深度圖神經(jīng)網(wǎng)絡(luò)模型的領(lǐng)域知識結(jié)構(gòu)探測研究框架
本文所提出的研究框架由數(shù)據(jù)預(yù)處理模塊、特征抽取模塊、圖網(wǎng)絡(luò)模型模塊以及領(lǐng)域知識結(jié)構(gòu)可視化模塊4部分組成。
(1)在數(shù)據(jù)預(yù)處理階段,搜集整理所要分析領(lǐng)域的文獻題錄信息及文獻之間的相互引用關(guān)系信息。本文以文獻的標(biāo)題以及摘要作為文獻的核心內(nèi)容表征信息,并對文本進行合并、轉(zhuǎn)換大小寫、去除符號標(biāo)點數(shù)字、剔除學(xué)術(shù)停用詞以及版權(quán)聲明等預(yù)處理。
(2)特征抽取階段可分為文檔表示學(xué)習(xí)和文獻引用網(wǎng)絡(luò)構(gòu)建兩個步驟。具體來說,運用文檔表示學(xué)習(xí)算法Doc2Vec獲得表征文本內(nèi)容特征信息的高維向量。根據(jù)領(lǐng)域內(nèi)文獻之間的施引關(guān)系,構(gòu)建直接引用網(wǎng)絡(luò),并篩選出最大的連通子圖,利用Lou‐vain社區(qū)劃分算法得到文獻節(jié)點的社區(qū)標(biāo)記。
(3)圖網(wǎng)絡(luò)模型學(xué)習(xí)階段是本文框架的主要創(chuàng)新點。深度圖神經(jīng)網(wǎng)絡(luò)模型具有既可以嵌入節(jié)點屬性特征,又可以學(xué)習(xí)節(jié)點結(jié)構(gòu)特征的優(yōu)勢。因此,在該階段將特征抽取模塊得到的文本向量特征以及直接引文網(wǎng)絡(luò)結(jié)構(gòu)信息作為深度圖神經(jīng)網(wǎng)絡(luò)的輸入。通過模型的學(xué)習(xí)訓(xùn)練,得到融合了文本內(nèi)容特征和網(wǎng)絡(luò)結(jié)構(gòu)特征的文獻節(jié)點表征向量。
(4)在最后的領(lǐng)域知識結(jié)構(gòu)可視化階段,運用流形學(xué)習(xí)算法UMAP(Uniform Manifold Approxima‐tion and Projection)對節(jié)點高維向量實施降維轉(zhuǎn)換,并實現(xiàn)可視化。
經(jīng)過上述4個階段,可測度并繪制出融合文獻內(nèi)容主題特征及引用關(guān)系的領(lǐng)域結(jié)構(gòu)知識圖譜。第2.2節(jié)和第2.3節(jié)將對本文研究框架中涉及的幾類深度學(xué)習(xí)表示算法和引文網(wǎng)絡(luò)社區(qū)劃分方法加以簡要介紹和說明。
2.2.1 文檔表示學(xué)習(xí)
文檔表示學(xué)習(xí)是指通過人工神經(jīng)網(wǎng)絡(luò)方法,對文本進行數(shù)值化處理的手段。相比于傳統(tǒng)的詞袋模型、TF-IDF以及LDA等方法,文檔表示學(xué)習(xí)由于考慮了詞與詞之間、短語與短語之間以及句子中語義語序等綜合信息,表現(xiàn)出了更加準(zhǔn)確且易解釋的文檔表示結(jié)果[21]。本文具體使用的文檔表示學(xué)習(xí)方法是Doc2Vec[22],該方法是Mikolov等[21]基于Word2Vec模型提出的一種神經(jīng)網(wǎng)絡(luò)語言模型。它可以將句子、段落或者文檔表示為一種低維的、實值的向量形式,且向量中的每一維度對應(yīng)特定的語義信息。Doc2Vec有兩種訓(xùn)練架構(gòu):PV-DM(Distributed Mem‐ory Model of Paragraph Vectors)和PV-DBOW(Dis‐tributed Bag of Words of Paragraph Vector)。對于大多數(shù)任務(wù),PV-DM表現(xiàn)較好,所以本文選擇PV-DM法進行訓(xùn)練。訓(xùn)練模型的構(gòu)建主要依賴基于Python語言的主題相似度測度包Gensim[23],該方法已被廣泛應(yīng)用于文本的特征提取、文本相似度度量以及文本主題聚類等領(lǐng)域。
2.2.2 圖網(wǎng)絡(luò)表示學(xué)習(xí)
圖網(wǎng)絡(luò)表示學(xué)習(xí)是近年來在人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域異軍突起的前沿領(lǐng)域。不同于以往機器學(xué)習(xí)領(lǐng)域研究對象主要集中在文本、圖像、音頻以及視頻等類型,圖網(wǎng)絡(luò)表示學(xué)習(xí)將研究對象從序列數(shù)據(jù)和二維化數(shù)據(jù)擴展到了網(wǎng)絡(luò)數(shù)據(jù)類型上。其研究任務(wù)旨在試圖將大規(guī)模高維度的動態(tài)網(wǎng)絡(luò)化數(shù)據(jù)編碼到低維向量空間中,并盡可能地保留原始數(shù)據(jù)中的重要特征。
本文所采用的淺層圖卷積神經(jīng)網(wǎng)絡(luò)模型是Node2Vec[24],四種深度圖卷積神經(jīng)網(wǎng)絡(luò)模型分別是GCN(Graph Convolutional Network)[25]、GAT(Graph Attention Network)[26]、GIN(Graph Isomorphism Network)[27]和GNNEXPLAINER(Graph Neural Net‐work Explainer)[28]。Node2Vec是由斯坦福大學(xué)Les‐kovec教授團隊提出并被廣泛應(yīng)用的淺層節(jié)點嵌入神經(jīng)網(wǎng)絡(luò)模型算法。該算法將文檔表示學(xué)習(xí)模型Word2Vec的基本思想遷移到網(wǎng)絡(luò)節(jié)點表示中,利用帶偏的隨機游走原理平衡了網(wǎng)絡(luò)中的同質(zhì)性以及結(jié)構(gòu)均衡性兩種特征,實現(xiàn)了網(wǎng)絡(luò)節(jié)點的低維度表征。同類型的淺層圖網(wǎng)絡(luò)神經(jīng)算法還有Deep‐Walk[29]、TADW(Text-Associated DeepWalk)[30]和LINE(Large-scale Information Network Embedding)[31]等。2017年 前 后,Kipf等[25]借 鑒CNN(Convolu‐tional Neural Network)模型,將卷積與池化等概念引入圖神經(jīng)網(wǎng)絡(luò)模型中,被稱作圖卷積神經(jīng)網(wǎng)絡(luò)模型(GCN)。相比于淺層圖神經(jīng)網(wǎng)絡(luò)模型,GCN在多項分類任務(wù)中表現(xiàn)出了更高的準(zhǔn)確度。同時,此類卷積模型在訓(xùn)練過程中實現(xiàn)了不同層級神經(jīng)元之間的參數(shù)共享與層數(shù)拓展。因此,GCN縮短了網(wǎng)絡(luò)表示學(xué)習(xí)模型的訓(xùn)練時間,提升了算法的效率。隨后,有學(xué)者將自然語言處理中已被驗證有效的注意力機制引入圖神經(jīng)網(wǎng)絡(luò)模型中,并稱之為圖注意力網(wǎng)絡(luò)模型(GAT)。此類處理序列數(shù)據(jù)的算法思想在表征網(wǎng)絡(luò)節(jié)點特征時同樣取得了良好的效果,并且GAT被認(rèn)為比GCN在基于半監(jiān)督學(xué)習(xí)的節(jié)點分類、邊預(yù)測等問題上性能更佳。2019年,盡管圖神經(jīng)網(wǎng)絡(luò)算法已經(jīng)在圖表征學(xué)習(xí)方面取得了突破性進展,但Xu等[27]認(rèn)為,先前的深度圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法并沒有深入考慮區(qū)分潛在的網(wǎng)絡(luò)同構(gòu)現(xiàn)象,因此,提出了圖同構(gòu)網(wǎng)絡(luò)模型(GIN)解決了該問題,并提出了分析GNN模型表征力的理論框架。GNNEXPLAINER的提出,則是試圖解決由于GNN同時融合了節(jié)點結(jié)構(gòu)和屬性特征信息,導(dǎo)致無法區(qū)分兩種節(jié)點特征信息在網(wǎng)絡(luò)中的實際影響力差異的問題。這幾項研究將節(jié)點嵌入研究從之前淺層的表示方法推向了更具表征能力的深度圖卷積神經(jīng)網(wǎng)絡(luò)方法。
本文選擇上述算法的理由:①Node2Vec作為代表性淺層網(wǎng)絡(luò)節(jié)點表示學(xué)習(xí)算法,在本文中用于與其他深度圖表示學(xué)習(xí)算法得到的結(jié)果加以比較對照分析;②GCN和GAT經(jīng)過近年來的發(fā)展已逐漸成為了該領(lǐng)域的兩大類典型算法,GIN算法的獨特之處在于能夠避免網(wǎng)絡(luò)中存在的同構(gòu)問題;③深度圖神經(jīng)網(wǎng)絡(luò)架構(gòu)的核心優(yōu)勢是模型通過融合節(jié)點的屬性特征以及結(jié)構(gòu)特征,能夠更好地反映出一個現(xiàn)實網(wǎng)絡(luò)特征的真實情況,并同時顯著提高模型的運算效率。
2.2.3 流形學(xué)習(xí)算法
傳統(tǒng)的網(wǎng)絡(luò)分析軟件,如NetDraw[32-33]或Gephi等[34],往往難以清晰地呈現(xiàn)出規(guī)模龐大的網(wǎng)絡(luò)結(jié)構(gòu)。流形學(xué)習(xí),又稱作非線性數(shù)據(jù)降維算法,其主要目的是將高維數(shù)據(jù)轉(zhuǎn)換到低維空間中,以便于發(fā)現(xiàn)和挖掘出高維數(shù)據(jù)的淺層語義信息,同時盡可能地在數(shù)據(jù)轉(zhuǎn)換過程中保留數(shù)據(jù)中蘊含的核心特征信息。因此,本文將流形學(xué)習(xí)算法UMAP應(yīng)用于高維網(wǎng)絡(luò)節(jié)點向量的降維可視化過程中[35],以契合本文關(guān)于領(lǐng)域知識結(jié)構(gòu)可視化的研究需求。該算法的優(yōu)點在于運算速度快、計算資源耗費低以及據(jù)稱能夠保留高維數(shù)據(jù)中的全局信息[36]。
本文在分析領(lǐng)域知識結(jié)構(gòu)時選擇了文獻之間的直接引用關(guān)系構(gòu)建網(wǎng)絡(luò)。相比于文獻耦合網(wǎng)絡(luò)和同被引網(wǎng)絡(luò),直接引用網(wǎng)絡(luò)的優(yōu)勢在于:這兩類網(wǎng)絡(luò)實質(zhì)上是從引文網(wǎng)絡(luò)映射衍生出來的網(wǎng)絡(luò)形式,不是文獻之間的一級信息關(guān)系的表征。通過共同施引關(guān)系構(gòu)建的網(wǎng)絡(luò)會很大程度上受到高被引文獻的影響,而通過同被引關(guān)系構(gòu)建的網(wǎng)絡(luò)則在文獻選擇方面具有一定的時滯性[37]。
現(xiàn)實世界中的網(wǎng)絡(luò)常常具有模塊化特征,即社區(qū)內(nèi)節(jié)點相互連接緊密,但社區(qū)間節(jié)點相互連接稀疏,領(lǐng)域知識結(jié)構(gòu)網(wǎng)絡(luò)也不例外。為了有效劃分出網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu),復(fù)雜網(wǎng)絡(luò)科學(xué)研究學(xué)者提出了基于模塊度計算的劃分算法[38]和基于生成模型推斷的SBM(Stochastic Block Model)算 法[39]。本 文 對 網(wǎng)絡(luò)的結(jié)構(gòu)劃分選擇了基于模塊度優(yōu)化的Louvain社區(qū)劃分算法。模塊度優(yōu)化是NP-Hard(Non-deter‐ministic Polynomial Hard)問題,因此,學(xué)者們?yōu)榻鉀Q該問題提出了許多啟發(fā)式算法,如層級集聚、極值優(yōu)化、模擬退火等算法。最終脫穎而出并廣為復(fù)雜網(wǎng)絡(luò)研究人員所應(yīng)用的是Louvain算法。通過多種社區(qū)劃分算法的比較分析,其被認(rèn)為是耗時最短、性能最好的算法之一[40-41],并且提出該算法的論文[38]也成為了網(wǎng)絡(luò)科學(xué)領(lǐng)域中的高被引文獻。需要注意的是,本文運用社區(qū)識別算法劃分出網(wǎng)絡(luò)的模塊化結(jié)構(gòu)有兩個目的:①作為與其他文檔表示學(xué)習(xí)算法結(jié)果,以及圖神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)表征結(jié)果進行比較的基準(zhǔn);②便于清晰地展示運用流形學(xué)習(xí)算法降維后得到的領(lǐng)域知識結(jié)構(gòu)可視化結(jié)果。
為了驗證本文所提出的研究框架在不同學(xué)科領(lǐng)域的普適性和有效性,分別選擇了基礎(chǔ)學(xué)科領(lǐng)域的代表“物理學(xué)”和新興研究領(lǐng)域“區(qū)塊鏈”。由于相對更為成熟的基礎(chǔ)學(xué)科與新涌現(xiàn)的研究領(lǐng)域知識單元的匯聚程度不同,本文選取了兩個處于不同發(fā)展階段的領(lǐng)域,通過對比或許可以揭示不同演化時期領(lǐng)域知識結(jié)構(gòu)的形態(tài)差異。
物理學(xué)學(xué)科:選取1985—2009年美國物理學(xué)會(American Physical Society,APS)期刊文獻,并剔除《現(xiàn)代物理評論》600余篇綜述性文章,最終獲得17.4萬篇論文,以及其相互之間產(chǎn)生的65.1萬條直接引用關(guān)系。已有研究表明[42],物理學(xué)科的各個子領(lǐng)域在這一時間階段保持了較為穩(wěn)定的發(fā)展,學(xué)科結(jié)構(gòu)總體上呈現(xiàn)出以“凝聚態(tài)”和“理論物理”子領(lǐng)域為核心的中央-邊緣結(jié)構(gòu)特征,處于相對邊緣位置的子領(lǐng)域包括“聲學(xué)”“光學(xué)”“核物理”“天文物理”以及“交叉物理領(lǐng)域”等。文獻題錄元數(shù)據(jù)和引用關(guān)系數(shù)據(jù)均從微軟MAG(Microsoft Academic Graph)學(xué)術(shù)數(shù)據(jù)中抽取獲得[43]。
“區(qū)塊鏈”領(lǐng)域:以Web of Science核心數(shù)據(jù)庫為數(shù)據(jù)源,設(shè)置檢索式TS=(“blockchain”or“block chain”or“block-chain”),檢索時間跨度為2008年至2020年6月5日。去除掉化學(xué)領(lǐng)域同樣使用blockchain作為關(guān)鍵詞的無關(guān)文獻、題錄信息缺失的文獻以及不在引文網(wǎng)絡(luò)最大連通子圖中的文獻后,共剩余3624篇論文及其之間的12549條直接引用關(guān)系。從高頻關(guān)鍵詞來看,該領(lǐng)域的研究熱點主要有“Smart Contract”(智能合約)、“Bitcoin”(比特幣)、“Internet of Things”(物聯(lián)網(wǎng))和“Distrib‐uted Ledger”(分布式賬本)等。
本文實驗環(huán)節(jié)主要涉及引文網(wǎng)絡(luò)社區(qū)劃分、文檔表示學(xué)習(xí)算法以及圖神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練。實驗環(huán)境:單機,8核,CPU@3.4 GHz,內(nèi)存36 GB;編程環(huán)境:PyTorch[44]。主要實驗參數(shù)的設(shè)置參照各類模型和算法的通用設(shè)置方法,具體參數(shù)如表1所示。
表1 實驗參數(shù)設(shè)置
為了探究深度圖神經(jīng)網(wǎng)絡(luò)模型在領(lǐng)域知識結(jié)構(gòu)探測方面的特點,本文開展了多組對照試驗。采用具體的樣本案例分析了模型學(xué)習(xí)結(jié)果,以體現(xiàn)出該方法融合文獻內(nèi)容特征以及文獻知識結(jié)構(gòu)特征的核心優(yōu)勢。
3.3.1 領(lǐng)域文獻內(nèi)容特征及引用網(wǎng)絡(luò)結(jié)構(gòu)特征抽取
本文按照圖2中的研究框架思路,首先以文獻引用關(guān)系構(gòu)建直接引文網(wǎng)絡(luò),采用Louvain算法劃分引文網(wǎng)絡(luò)社區(qū),并將引文關(guān)系及所得的文獻社區(qū)結(jié)果用于后續(xù)圖神經(jīng)網(wǎng)絡(luò)節(jié)點分類任務(wù)。然后,利用文檔表示學(xué)習(xí)算法Doc2Vec將預(yù)處理后的文獻標(biāo)題、摘要和關(guān)鍵詞數(shù)據(jù)轉(zhuǎn)化成為高維向量,以此表征領(lǐng)域文獻集的內(nèi)容特征。所獲文檔向量也將作為文獻的內(nèi)容屬性特征嵌入到深度圖神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練中。最后,利用網(wǎng)絡(luò)分析軟件Gephi和UMAP降維算法分別可視化引文網(wǎng)絡(luò)和高維領(lǐng)域文本特征。具體結(jié)果如圖3和圖4所示,其中,節(jié)點代表文獻,顏色表示所屬社區(qū)。
圖3 物理學(xué)科(a)和“區(qū)塊鏈”(b)領(lǐng)域直接引用網(wǎng)絡(luò)社區(qū)劃分結(jié)果(彩圖請見http://qbxb.istic.ac.cn/CN/volumn/home.shtml)
圖4 基于UMAP降維的物理學(xué)科(a)和“區(qū)塊鏈”(b)領(lǐng)域文本內(nèi)容可視化結(jié)果(彩圖請見http://qbxb.istic.ac.cn/CN/volumn/home.shtml)
由圖3可以看出,物理學(xué)科和“區(qū)塊鏈”領(lǐng)域的引用網(wǎng)絡(luò)均展示出了較為清晰的模塊化結(jié)構(gòu)。具體來說,物理學(xué)科直接引用網(wǎng)絡(luò)結(jié)構(gòu)的模塊度是0.81,最終劃分出了12個社區(qū);區(qū)塊鏈領(lǐng)域引文網(wǎng)絡(luò)模塊度是0.46,劃分出8個社區(qū)。需要注意的是,后續(xù)文檔表示學(xué)習(xí)模型以及神經(jīng)網(wǎng)絡(luò)模型的結(jié)果都將以引文網(wǎng)絡(luò)社區(qū)劃分的結(jié)果作為基準(zhǔn)。領(lǐng)域知識網(wǎng)絡(luò)結(jié)構(gòu)可視化階段的著色以及圖神經(jīng)網(wǎng)絡(luò)模型中的標(biāo)簽,都將以文獻節(jié)點的引文關(guān)系社區(qū)劃分結(jié)果作為參照。基于文檔表示學(xué)習(xí)和流形學(xué)習(xí)算法得到的領(lǐng)域文本內(nèi)容分析結(jié)果如圖4所示。
對比兩者可視化結(jié)果發(fā)現(xiàn),物理學(xué)科的引文社區(qū)呈現(xiàn)出更好的聚集特征,而“區(qū)塊鏈”領(lǐng)域的內(nèi)容分析結(jié)果與引文網(wǎng)絡(luò)社區(qū)結(jié)果更加不一致,表現(xiàn)為同類引文社區(qū)在內(nèi)容上聚集程度較低。按照引文網(wǎng)絡(luò)社區(qū)著色后能夠更加明顯地發(fā)現(xiàn),文檔表示學(xué)習(xí)的確可以對較為成熟的物理學(xué)科知識結(jié)構(gòu)進行良好的表征和度量。但對于新興“區(qū)塊鏈”領(lǐng)域來說,文檔表示學(xué)習(xí)與引文網(wǎng)絡(luò)結(jié)構(gòu)社區(qū)劃分方法得到的結(jié)果差異相對較大。其原因或在于,新興領(lǐng)域處于早期探索階段,與其他領(lǐng)域相融合的態(tài)勢初步顯露但尚未形成明晰的主題或子領(lǐng)域,不同研究內(nèi)容的論文被該領(lǐng)域?qū)W者選入?yún)⒖嘉墨I列表中,從而導(dǎo)致同一引文社區(qū)內(nèi)文獻的實際研究主題并不高度相似。
總而言之,上述結(jié)果顯示,一方面,這兩個領(lǐng)域知識結(jié)構(gòu)呈現(xiàn)出相近知識單元互相匯聚、相異知識單元彼此分離,但不同主題的知識單元之間的由跨主題知識單元橋接串聯(lián)的基本結(jié)構(gòu)特征。另一方面,從模塊化程度的差異也看到,相對更為成熟的基礎(chǔ)學(xué)科要比新涌現(xiàn)的研究領(lǐng)域其模塊化程度顯著更高,反映出不同學(xué)科領(lǐng)域的發(fā)展階段和科研活動的差異性。
3.3.2 多層感知機與淺層圖神經(jīng)網(wǎng)絡(luò)模型結(jié)果
為了對比僅嵌入文獻內(nèi)容特征、僅學(xué)習(xí)表征文獻引用網(wǎng)絡(luò)結(jié)構(gòu)特征以及融合兩者特征信息的神經(jīng)網(wǎng)絡(luò)模型結(jié)果,本文以嵌入了文獻文本主題特征的多層感知機(Multi-Layer Perceptron,MLP)和淺層圖神經(jīng)網(wǎng)絡(luò)模型Node2Vec開展了領(lǐng)域知識結(jié)構(gòu)探測實驗。需要注意的是,MLP的局限在于模型中神經(jīng)元無法通過訓(xùn)練迭代學(xué)習(xí)到文獻網(wǎng)絡(luò)的引用結(jié)構(gòu)信息;Node2Vec模型則無法嵌入文本的內(nèi)容特征信息。具體來說,將上一階段用文本學(xué)習(xí)算法獲得的文本特征嵌入MLP作為輸入層,500輪訓(xùn)練后,MLP測試準(zhǔn)確度趨于穩(wěn)定,不再顯著提升。以引文網(wǎng)絡(luò)的社區(qū)劃分結(jié)果作為基準(zhǔn),MLP的測試集精度維持在0.63(物理)附近,Node2Vec圖神經(jīng)網(wǎng)絡(luò)模型的測試集精度結(jié)果大約在0.84(物理)。兩類神經(jīng)網(wǎng)絡(luò)模型對領(lǐng)域知識結(jié)構(gòu)的探測可視化結(jié)果如圖5和圖6所示,其中,節(jié)點代表文獻,顏色表示所屬社區(qū)。
圖5 和圖6的實驗結(jié)果表明,嵌入了文本內(nèi)容主題特征的多層感知機和能夠?qū)W習(xí)表征引用關(guān)系特征的淺層圖神經(jīng)網(wǎng)絡(luò)模型均可以在一定程度上探測識別出文獻知識單元之間的匯聚特征。相較而言,淺層圖神經(jīng)網(wǎng)絡(luò)模型已經(jīng)比多層感知機模型取得了更好的表征效果。但是,這兩類模型共同的缺點是無法同時綜合文本內(nèi)容和引用結(jié)構(gòu)信息,因此,本文引入了深度圖神經(jīng)網(wǎng)絡(luò)模型,以更加精準(zhǔn)地探測出學(xué)科的領(lǐng)域知識結(jié)構(gòu)。
圖5 僅嵌入文獻主題特征的物理學(xué)(a)和“區(qū)塊鏈”(b)MLP模型結(jié)果(彩圖請見http://qbxb.istic.ac.cn/CN/volumn/home.shtml)
圖6 僅表征文獻引用網(wǎng)絡(luò)結(jié)構(gòu)特征的物理學(xué)(a)和“區(qū)塊鏈”(b)Node2Vec模型結(jié)果(彩圖請見http://qbxb.istic.ac.cn/CN/volumn/home.shtml)
3.3.3 深度圖神經(jīng)網(wǎng)絡(luò)模型結(jié)果
本文將運用三種代表性的新型深度圖神經(jīng)網(wǎng)絡(luò)模型對物理學(xué)和“區(qū)塊鏈”領(lǐng)域的知識結(jié)構(gòu)開展探測實驗,包括GCN(圖卷積神經(jīng)網(wǎng)絡(luò))模型、GAT(圖注意力神經(jīng)網(wǎng)絡(luò))模型以及GIN(圖同構(gòu)神經(jīng)網(wǎng)絡(luò))模型。主要實驗步驟如下:首先,準(zhǔn)備深度圖神經(jīng)網(wǎng)絡(luò)輸入層和訓(xùn)練過程所需的三類數(shù)據(jù),即預(yù)先訓(xùn)練完成的文獻內(nèi)容表征數(shù)據(jù)、文獻之間的引用關(guān)系數(shù)據(jù)以及作為預(yù)測標(biāo)簽的引文網(wǎng)絡(luò)社區(qū)數(shù)據(jù)。其次,搭建和設(shè)計神經(jīng)網(wǎng)絡(luò)。本文三組實驗均采用了1層輸入層、2層隱藏層、1層輸出層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在模型初始化過程中,設(shè)置每個節(jié)點的屬性維度及擬輸出的節(jié)點嵌入向量維度。實驗具體涉及的激活函數(shù)、優(yōu)化器和損失函數(shù)等參照了現(xiàn)有模型中的常規(guī)參數(shù)配置方式。最后,500輪次學(xué)習(xí)訓(xùn)練后,三種類型的GNN模型精度不再顯著提高,保持在了相對穩(wěn)定的水平,模型訓(xùn)練終止。仍然以引文網(wǎng)絡(luò)社區(qū)劃分結(jié)果作為節(jié)點標(biāo)簽空間來看,GCN、GAT以及GIN在精度上分別達到了0.869(物理)和0.819(區(qū)塊鏈)、0.848(物理)和0.728(區(qū)塊鏈)、0.885(物理)和0.780(區(qū)塊鏈)。將三種不同模型訓(xùn)練學(xué)習(xí)后得到的節(jié)點向量利用UMAP降維后,得到的領(lǐng)域知識結(jié)構(gòu)可視化結(jié)果如圖7所示。其中,節(jié)點代表文獻,顏色表示所屬社區(qū)。
圖7 融合文獻內(nèi)容特征和引用網(wǎng)絡(luò)結(jié)構(gòu)特征的物理學(xué)和“區(qū)塊鏈”深度神經(jīng)網(wǎng)絡(luò)模型結(jié)果(彩圖請見http://qbxb.istic.ac.cn/CN/volumn/home.shtml)
由圖7可以看出,與圖5和圖6中的實驗結(jié)果相比,融合了文獻內(nèi)容和網(wǎng)絡(luò)結(jié)構(gòu)特征的領(lǐng)域知識結(jié)構(gòu)分類結(jié)果更加清晰、噪音節(jié)點或隨機分布節(jié)點更少。相比于其他方法,其計算資源耗費更少,計算時長更短。以物理學(xué)數(shù)據(jù)集為例,在第3.2節(jié)所述的實驗環(huán)境下,同等規(guī)模采用Node2Vec模型實驗500次訓(xùn)練耗時48小時,而GCN模型訓(xùn)練耗時僅為52分 鐘,GAT訓(xùn) 練耗 時2小時23分 鐘,GIN訓(xùn) 練耗時2小時3分鐘,并且后三種GNN模型的節(jié)點可以同時融入文獻特征信息進行訓(xùn)練,表征學(xué)習(xí)能力更強。
但是,由于兩種類型的網(wǎng)絡(luò)規(guī)模過大,即便從宏觀層面上領(lǐng)域整體知識結(jié)構(gòu)已經(jīng)被清晰地可視化,但微觀視角下節(jié)點層面的分類結(jié)果,即同時融合內(nèi)容特征和結(jié)構(gòu)特征的特點尚未得到明確顯現(xiàn)。因此,有必要選取文獻樣例,以具體地展現(xiàn)深度圖神經(jīng)網(wǎng)絡(luò)模型的優(yōu)勢。本文選擇了“區(qū)塊鏈”領(lǐng)域具有代表性的兩篇文獻,考察了在深度圖神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)過程中,與這兩篇關(guān)系最緊密的相鄰節(jié)點子圖結(jié)構(gòu)。選擇這兩篇論文的依據(jù)是:第一篇文獻雖然在引文網(wǎng)絡(luò)社區(qū)中被劃分到了同一個類別,但在文檔表示學(xué)習(xí)實驗中,文本內(nèi)容向量與同網(wǎng)絡(luò)類別的其他文獻差異顯著;第二篇文獻雖然在文檔表示結(jié)果中向量距離相近,但在引文網(wǎng)絡(luò)中是跨社區(qū)節(jié)點。這兩篇文獻分別代表了前文提到的單一的文本內(nèi)容表征學(xué)習(xí)和引文網(wǎng)絡(luò)結(jié)構(gòu)探測領(lǐng)域知識結(jié)果潛在的問題和方法局限。借助GNNEXPLAINER模型,得以呈現(xiàn)出GNN模型具體學(xué)習(xí)到的相鄰節(jié)點屬性特征以及結(jié)構(gòu)特征。
圖8 和圖9展示了上述兩篇文獻在深度圖網(wǎng)絡(luò)模型學(xué)習(xí)過程中影響最大的節(jié)點的子圖,其中節(jié)點顏色區(qū)分引文社區(qū),邊顏色的透明程度反映鄰居節(jié)點對該節(jié)點的影響程度。與節(jié)點的原始引文網(wǎng)絡(luò)關(guān)系子圖所不同的是,圖8和圖9中的文獻關(guān)聯(lián)子圖是節(jié)點同時融合了內(nèi)容特征和引文關(guān)系特征的子圖。因此,對于特定的文獻來說,由于深度圖神經(jīng)網(wǎng)絡(luò)會同時考慮到相鄰文獻之間的內(nèi)容特征差異程度,盡管存在多條施引或者被引關(guān)系,但不一定所有的引用關(guān)系都在影響該文獻的知識單元分類結(jié)果。
圖8 同一引文社區(qū)中文本內(nèi)容差異顯著的文獻在GNN中的核心關(guān)聯(lián)節(jié)點(ID:1438)
圖9 文本內(nèi)容相近但所屬不同引文社區(qū)的文獻在GNN中的核心關(guān)聯(lián)節(jié)點(ID:1032)
從研究結(jié)果來看,本文所提出的領(lǐng)域知識結(jié)構(gòu)探測研究方法既考慮了文獻的內(nèi)容特征,又融合了文獻之間的引用關(guān)系特征,可以更加準(zhǔn)確地探測學(xué)科領(lǐng)域的知識結(jié)構(gòu),以應(yīng)對和解決當(dāng)前大數(shù)據(jù)時代背景下復(fù)雜網(wǎng)絡(luò)信息的規(guī)模性、高維性和動態(tài)性等問題。基于深度圖神經(jīng)網(wǎng)絡(luò)模型的探測手段要比傳統(tǒng)的領(lǐng)域知識結(jié)構(gòu)方法具備三個方面的優(yōu)勢:可預(yù)測性、規(guī)??蓴U展性以及更強的適應(yīng)性。
可預(yù)測性是指深度圖神經(jīng)網(wǎng)絡(luò)模型不需要所有節(jié)點的標(biāo)簽特征就可取得更好的節(jié)點分類結(jié)果。盡管在本研究中,所有節(jié)點的標(biāo)簽都是以引文網(wǎng)絡(luò)社區(qū)劃分的結(jié)果作為基準(zhǔn),但已有研究表明,圖神經(jīng)網(wǎng)絡(luò)實際上只需5%~20%的真實節(jié)點標(biāo)簽,通過學(xué)習(xí)就能夠使節(jié)點分類任務(wù)精度高達80%左右[45]。這為與領(lǐng)域知識探測相關(guān)的其他研究提供了更廣闊的探索空間。例如,在文獻分類問題上,可以與專家分析法相結(jié)合,通過專家標(biāo)注少量子領(lǐng)域文獻完成對整個更大領(lǐng)域的關(guān)聯(lián)文獻分類的任務(wù)。
規(guī)??蓴U展性是指在同等計算資源條件下,深度圖神經(jīng)網(wǎng)絡(luò)模型比傳統(tǒng)的基于引文網(wǎng)絡(luò)的領(lǐng)域知識探測算法以及淺層圖神經(jīng)網(wǎng)絡(luò)模型更適合處理大規(guī)模的領(lǐng)域知識網(wǎng)絡(luò);并且,模型學(xué)到的大規(guī)模高維節(jié)點特征可以通過流形學(xué)習(xí)算法降維轉(zhuǎn)化為低維向量,進而用于可視化處理分析,其聚類結(jié)果也更易理解且具備解釋性。
適應(yīng)性是指盡管領(lǐng)域知識結(jié)構(gòu)網(wǎng)絡(luò)往往是動態(tài)變化的,但深度圖神經(jīng)網(wǎng)絡(luò)模型無需因為少量節(jié)點和邊關(guān)系的調(diào)整變化就重復(fù)學(xué)習(xí)整個網(wǎng)絡(luò)。傳統(tǒng)的網(wǎng)絡(luò)聚類或者文本分析方法,由于其研究對象基本上只停留在靜態(tài)網(wǎng)絡(luò)結(jié)構(gòu)分析中,而無法適應(yīng)現(xiàn)實領(lǐng)域知識網(wǎng)絡(luò)中文獻內(nèi)容和引用關(guān)系動態(tài)變化的情況。深度圖網(wǎng)絡(luò)模型具有半監(jiān)督學(xué)習(xí)的特征,因此,有學(xué)者提出了時序圖神經(jīng)網(wǎng)絡(luò)模型[46],適用于預(yù)測變動的領(lǐng)域知識單元及其關(guān)聯(lián)關(guān)系特征。
總之,在識別領(lǐng)域知識結(jié)構(gòu)方面,借助深度圖神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)表示學(xué)習(xí)方法是更具前景、更順應(yīng)大數(shù)據(jù)及人工智能時代發(fā)展的研究范式和研究手段。
針對目前領(lǐng)域知識結(jié)構(gòu)探測方法中,文本內(nèi)容分析方法和引文網(wǎng)絡(luò)分析方法存在的局限性,本文提出了基于深度圖網(wǎng)絡(luò)學(xué)習(xí)方法的研究框架,融合了兩類主流方法的各自優(yōu)勢。為了驗證本文所提方法的有效性,分別選擇了代表基礎(chǔ)學(xué)科的物理學(xué)和代表新興學(xué)科的區(qū)塊鏈領(lǐng)域進行實證分析。實驗結(jié)果表明,深度圖網(wǎng)絡(luò)學(xué)習(xí)方法能夠更清晰地識別出領(lǐng)域知識結(jié)構(gòu)?;谏疃葓D神經(jīng)網(wǎng)絡(luò)算法的結(jié)構(gòu)探測思路或許是更適應(yīng)當(dāng)前大規(guī)模復(fù)雜網(wǎng)絡(luò)信息時代的新興研究范式。受個人機計算資源的限制,本文僅驗證了兩個學(xué)科領(lǐng)域,后續(xù)研究擬借助超算平臺,將該方法思路拓展到更大范圍的學(xué)科領(lǐng)域,例如,對整個自然學(xué)科的文獻進行學(xué)科領(lǐng)域識別及其可視化,以充分發(fā)揮出該研究思路的特點和優(yōu)勢。同時,后續(xù)考慮進一步拓展和豐富基于領(lǐng)域知識度量的科研活動模式與規(guī)律的探索和研究。由于本文結(jié)合多種深度學(xué)習(xí)模型方法,未來工作將通過多組消融實驗,如調(diào)整隱藏層層數(shù)、神經(jīng)元數(shù)量、文本特征向量維度、訓(xùn)練輪次等,以進一步提高模型的精度。