王佳敏,陸 偉,程齊凱,秦春秀
(1. 西安電子科技大學經(jīng)濟與管理學院,西安 710126;2. 武漢大學信息管理學院,武漢 430072;3. 武漢大學信息檢索與知識挖掘研究所,武漢 430072)
對領域知識及其關聯(lián)關系進行多維度分析,有助于發(fā)現(xiàn)和把握科學知識發(fā)展變化的特征和規(guī)律[1-2]。以往研究多根據(jù)學術文獻的不同粒度和不同關系構建多種類型知識網(wǎng)絡,如引文網(wǎng)絡、合著網(wǎng)絡、關鍵詞網(wǎng)絡等,在此基礎上從科學知識圖譜繪制[1]、話題演變[2]、網(wǎng)絡社區(qū)發(fā)現(xiàn)[3]、實體關聯(lián)[4]等角度對領域知識及其關系進行可視化呈現(xiàn)和分析。然而,隨著科學出版物數(shù)量的急劇增長,從科學文章中理解某一領域的知識結構和概念之間的關系仍然是一項非常具有挑戰(zhàn)性的任務[5]。其中一個重要的原因便是傳統(tǒng)知識網(wǎng)絡對領域知識的表示和揭示是粗粒度的,缺少相應的語義支撐[6]。在這種背景下,如何對領域知識進行細粒度、語義化的分析已經(jīng)成為情報學領域亟待解決的關鍵問題之一[7-8]。
隨著分析粒度的不斷細化,文章層面的引用關系逐漸擴展到實體引用或關鍵詞引用,并產(chǎn)生了各種細粒度的引用網(wǎng)絡,如生物實體引用網(wǎng)絡[9]、基因-引用-基因網(wǎng)絡[10]、詞匯耦合網(wǎng)絡[11]以及關鍵詞引用網(wǎng)絡[12]等,在領域知識多維分析中得到了較快的發(fā)展。然而,當前基于關鍵詞的引用網(wǎng)絡大多將網(wǎng)絡中的節(jié)點簡化為單一的符號化表達,認為其在整個學科領域內(nèi)的含義是固定的。實際上,關鍵詞在不同的文獻或文本語境中有其特定的角色,例如,關鍵詞“deep learning”(深度學習) 在文獻[13]中代表研究問題,而在文獻[14]中則代表研究方法。此外,當前關鍵詞引用網(wǎng)絡在節(jié)點間的關系上也比較單一,忽略了關鍵詞之間關聯(lián)關系的多樣化。例如,關鍵詞“LDA”分別被“HLDA”和“topic analysis”引用,如果不作區(qū)分,那么它們之間的關系是等同的,即都是基于引用的關系;實際上,“LDA”可能基于對比關系被“HLDA”引用,而基于使用關系被“topic analysis”引用。因此,識別科技論文關鍵詞的語義角色并對節(jié)點之間的關聯(lián)關系進行細粒度區(qū)分,對領域知識網(wǎng)絡的構建至關重要,將為相關分析和應用提供更精準的度量[15]。
詞匯功能,是指詞匯在學術文本中所承擔的語義角色[16],科技文獻中詞匯功能通常包括目標、關鍵方法、焦點、技術、研究主題、數(shù)據(jù)集或領域?qū)嶓w等[17-20]。引用功能體現(xiàn)了參考文獻在施引文獻中的作用,通常包含背景、使用、擴展和對比等類別[21-23]。詞匯功能和引用功能為關鍵詞引用網(wǎng)絡中節(jié)點及節(jié)點間關聯(lián)的語義識別提供了一條現(xiàn)實可行的途徑。因此,本研究將通過詞匯功能和引文功能來增強關鍵詞引用網(wǎng)絡的語義信息,生成一種語義功能敏感的細粒度關鍵詞引用網(wǎng)絡。在此基礎上,從引用功能敏感的子網(wǎng)分析、特定節(jié)點的多維關聯(lián)分析和細粒度領域知識演化分析三個方面進行領域知識多維分析,以發(fā)現(xiàn)和把握科學知識發(fā)展變化的特征和規(guī)律,為領域知識分析提供一種新的視角和方法。
本研究的創(chuàng)新點為:第一,通過詞匯功能增強了關鍵詞引用網(wǎng)絡中節(jié)點的語義信息,通過引用功能對關鍵詞間關聯(lián)關系進行了細粒度區(qū)分,在此基礎上構建了細粒度關鍵詞引用網(wǎng)絡,不僅豐富和擴展了知識網(wǎng)絡的理論和方法體系,也推動了學術文本語義功能與知識網(wǎng)絡的融合;第二,基于構建的細粒度關鍵詞引用網(wǎng)絡進行領域知識多維分析,改變了以往知識網(wǎng)絡在實際應用中存在的分析維度單一、粒度較粗、可解釋性較差等問題,為領域知識分析和應用提供了新的視角和路徑。
盡管許多研究試圖通過引文網(wǎng)絡的方法揭示領域知識發(fā)展變化情況,但大多基于學術文獻及文獻外部實體單元,如文章、作者、期刊等,無法深入到文本內(nèi)容特征層面。為了揭示施引文獻和被引文獻在內(nèi)容上的直接關聯(lián),部分學者對細粒度引用網(wǎng)絡進行了探索。
Ding 等[9]提出實體既可以是評價實體(如論文、作者、期刊),也可以是知識實體(如關鍵詞、主題、關鍵方法、領域?qū)嶓w),并將引文網(wǎng)絡從論文引用擴展到實體引用,構建了生物實體引用網(wǎng)絡。Song 等[10]基于實體計量模型構建了醫(yī)學學術文本中的基因-引用-基因(gene-citation-gene,GCG) 網(wǎng)絡,并證明其在檢測隱含的基因相互作用方面是有效的。黃文彬等[24]提出關鍵詞共引分析方法(key‐word co-citation analysis,KCA),若分別包含有關鍵詞A 和B 的兩篇文獻被另一篇文獻同時引用,則稱作關鍵詞A 和B 被共引,兩個關鍵詞被共引體現(xiàn)了這兩個詞在主題或內(nèi)容上有一定的關系。受此啟發(fā),Hsiao 等[11]構建了詞匯耦合(word bibliographic coupling,WBC)網(wǎng)絡,描述了LIS(library and in‐formation science) 各子領域的最新發(fā)展和研究趨勢。Cheng 等[12]提出關鍵詞-引用-關鍵詞網(wǎng)絡(key‐word-citation-keyword,KCK),以ACM (Associa‐tion for Computing Machinery)數(shù)據(jù)集為例進行了學科知識結構分析。程齊凱等[25]基于引用共詞網(wǎng)絡從學術文獻中發(fā)現(xiàn)領域基礎詞匯,為把握學科知識結構和發(fā)展脈絡提供了支持。
綜上,引用網(wǎng)絡的分析單元已逐漸從文章層面擴展到關鍵詞或?qū)嶓w層面,細粒度的引用網(wǎng)絡已被證明能有效地進行領域知識分析。本研究通過區(qū)分關鍵詞引用網(wǎng)絡中的節(jié)點和關聯(lián)關系的語義角色,進一步豐富關鍵詞引用網(wǎng)絡研究的方法體系,并通過細粒度引用網(wǎng)絡來進行領域知識的多維分析。
知識網(wǎng)絡能夠直觀地對領域知識及其關系進行可視化呈現(xiàn)和分析,揭示知識之間的關聯(lián)情況、主題結構、發(fā)展脈絡、演化態(tài)勢等。但傳統(tǒng)的知識網(wǎng)絡忽視了知識節(jié)點和知識關聯(lián)豐富的語義信息。因此,部分學者開始探索細粒度、語義化、多維度的領域知識分析方法。
劉臣等[26]將本體理論引入社會網(wǎng)絡分析,構建語義社會網(wǎng)絡,網(wǎng)絡的節(jié)點和邊都具有特定的語義,并在一個科研合作網(wǎng)絡實例上對重要節(jié)點和重要隱含關系進行了關聯(lián)分析。王忠義等[6]提出了一種細粒度語義共詞分析方法,借助關聯(lián)數(shù)據(jù)將文獻信息結構化、細粒度化、語義關聯(lián)化,采用RDF(resource description framework)三元組描述各實體及其之間的關系,以揭示關鍵詞之間的語義關系。張晗等[27]借助SemRep 對文本主題概念進行了規(guī)范化抽取,并識別了共現(xiàn)概念之間的細粒度語義關系,在此基礎上構建了醫(yī)學文獻語義共詞知識網(wǎng)。吳蕾等[8]將科技論文關鍵詞細分為研究對象、實驗品種、研究用途和技術方法4 類,并構建了4 層關鍵詞子網(wǎng)和多種關聯(lián)超邊組成的超網(wǎng)絡模型,有效發(fā)現(xiàn)了領域常用的知識以及技術空白點等。陳翔等[28]基于word2vec 得到關鍵詞的多重語義信息,結合時間段劃分構建了動態(tài)語義網(wǎng)絡進行主題演化路徑識別研究。周萌等[7]以武器裝備簡氏文本為數(shù)據(jù)源,確立武器裝備細粒度共現(xiàn)關系類型和相應的特征詞,構建具有多種類型邊的武器裝備細粒度共現(xiàn)網(wǎng)絡,全面、具體地揭示了該領域的整體、微觀知識結構和知識演化情況。章成志等[4]以NLP(natu‐ral language processing)領域為例,將論文中的知識實體細分為4 種類型,結合Apriori 算法和復雜網(wǎng)絡方法對實體間的關聯(lián)關系進行了挖掘,揭示了該領域知識實體的使用及應用情況。Ma 等[29]人工編碼了3422 篇文章中的研究主題和方法,以分析圖書情報學領域中研究主題和方法的演化和轉變。孫震等[30]提出了一種基于知識元遷移的ESI(Essential Science Indicators)研究前沿知識演進分析方法,通過對知識元遷移進行定量分析和遷移程度計算,從語義分析和知識計算的角度探索了研究前沿的演進機理。此外,還有部分學者從單獨某個知識元的視角,如研究問題[31]、研究方法[32]等出發(fā)對領域知識的使用和演變情況進行量化分析。
上述研究從不同角度對領域知識進行了多維度分析,豐富了領域知識研究的范疇,深化了知識網(wǎng)絡的應用途徑。但總體來看,該類研究依然將知識節(jié)點抽象為單一的符號化表達,鮮有發(fā)現(xiàn)從知識節(jié)點本身語義功能的細粒度和節(jié)點之間語義關聯(lián)類型的多樣性角度出發(fā)進行領域知識多維分析的研究。
本文以國際計算語言學協(xié)會(Association for Computational Linguistics,ACL)會議論文集為數(shù)據(jù)源,對原始文獻進行解析,抽取文獻關鍵詞、文獻間引用關系、引文上下文以及引用對象等信息,采用人工的方式進行詞匯功能識別和引用功能識別。在此基礎上,采用復雜網(wǎng)絡圖方法構建細粒度關鍵詞引用網(wǎng)絡,并從引用功能敏感的子網(wǎng)分析、特定節(jié)點的多維關聯(lián)分析和細粒度領域知識演化分析三個方面進行領域知識多維分析和可視化呈現(xiàn),整體研究方法框架如圖1 所示。
圖1 整體研究方法框架
本研究使用的數(shù)據(jù)來自ACL 會議論文集,該協(xié)會是計算語言學(computational linguistics,CL)和自然語言處理(NLP)領域重要的國際學術組織。之所以選擇ACL 會議論文集,一方面,是因為該數(shù)據(jù)集是目前相對較為完整且支持全文開放獲取的一個領域數(shù)據(jù)集,被諸多NLP 相關研究選作數(shù)據(jù)來源[33-34];另一方面,該數(shù)據(jù)集代表了國際NLP 領域最高水準,通過對該領域的知識進行多維分析,有助于研究人員更全面、深刻地了解該領域知識發(fā)展及其脈絡情況。
本研究收集了ACL 成立以來的41109 篇PDF 格式全文文獻,時間跨度為1979—2019 年,圖2 展示了各年份論文數(shù)量分布情況,論文數(shù)量整體呈現(xiàn)隨年份逐漸增長的趨勢。為了便于計算機處理,本研究采用GROBID 工具[35]將PDF 格式文獻轉換成XML 格式。該工具基于機器學習技術開發(fā),在PDF格式科技文獻的數(shù)據(jù)提取、解析和格式轉化方面能達到較好的效果,尤其在引文上下文的解析方面,F(xiàn)1 值達到75%,為本研究中引文關系識別和引文上下文抽取奠定了基礎。接著,通過自編Java 程序?qū)D換后的XML 格式文獻進行解析和抽取,將文獻的標題、摘要、句子和引文等相關字段通過本地MySQL 數(shù)據(jù)庫進行存儲。
圖2 ACL論文發(fā)表數(shù)量隨年份分布情況
本研究首先通過所有的參考文獻信息匹配出ACL 數(shù)據(jù)集內(nèi)部的被引文獻,共得到19241 篇文獻,接著將這些文獻在ACL 數(shù)據(jù)集中的引文上下文抽取出來,共得到引文上下文記錄231930 條。本研究的引文上下文為引文標記所在句及其前一句和后一句,若前后都是引文句,則只選擇引文標記當前句。通過調(diào)研現(xiàn)有文獻關于引用功能類別的劃分情況[21,36],結合NLP 領域的研究特性和ACL 數(shù)據(jù)集語料的特點,本研究將引用功能劃分為背景、使用、擴展和對比4 個類別,采用人工標注結合規(guī)則模板的方式對引文上下文進行功能標注,各類別的描述、示例和標注結果數(shù)量情況如表1 所示。為了檢驗標注結果的一致性,從原始引文上下文中隨機抽取1000 條文本,由另一位情報學研究生根據(jù)規(guī)則進行單獨標注,使用kappa 系數(shù)[37]對標注結果進行一致性檢驗,結果顯示kappa 系數(shù)為0.83,達到了較高的一致性。同時為了檢驗標注結果質(zhì)量,分別從各功能類別結果中隨機采樣100 條進行人工評價,整體準確率達到87%。
表1 引用功能數(shù)據(jù)標注結果
考慮到背景類的引文通常是對該研究背景的概述和相關研究的描述,與施引文獻的直接關聯(lián)程度相對較弱,因此本研究重點對使用、擴展和對比3個類別的引文句進行引用對象標注,共計57699 條引文句。通過調(diào)研現(xiàn)有文獻關于引用對象類別的劃分情況[38],結合NLP 領域的研究特性和ACL 引文集語料的特點[39],本研究將引用對象的標注體系劃分為4 個類別,分別是研究問題、研究方法、數(shù)據(jù)和其他。在人工標注的過程中,本研究發(fā)現(xiàn)大量引文句中并不存在明顯的引用對象,例如,“We compared our approach with approaches proposed by RE‐FLAB”,諸如“the method of REFLAB”“an exten‐sion of a previous approach REFLAB”等指示性描述對引用對象的研究意義不大,因此在標注過程中過濾這些不包含明顯引用對象的引文句。最終得到6333 條包含已標注引用對象的引文句,各類別引用對象的描述、示例和標注結果數(shù)量如表2 所示。與引用功能標注結果的評價策略類似,對引用對象進行一致性檢驗,結果顯示kappa 系數(shù)為0.75,整體準確率為79%,均達到了較好的水平。
表2 引用對象標注結果
考慮到引用對象類別中的研究問題和研究方法類對引文的代表性更強,語義信息更豐富,且施引文獻的關鍵詞也大都是問題和方法類詞匯,因此,本研究重點選擇研究問題和研究方法類引用對象進行分析。經(jīng)統(tǒng)計,標注為研究問題和研究方法的引文句共有3333 條(部分引文句中包含多個引用對象)。接著,通過引文關系匹配到與引用對象相對應的施引文獻,共得到不重復的施引文獻2265 篇。抽取出這些施引文獻的標題和摘要,采用人工的方式對文獻的研究問題和研究方法關鍵詞進行標注。例如,在標題為“A New Perceptron Algorithm for Sequence Labeling with Non-local Features”的文獻中,其研究問題和研究方法關鍵詞分別標注為Se‐quence Labeling 和Perceptron Algorithm。最后,分別對標注后的文章關鍵詞和引用對象進行大小寫轉換和同義詞合并等操作,確保其一致性。
本研究所提出的細粒度關鍵詞引用網(wǎng)絡,是將帶語義功能的關鍵詞和引用對象作為節(jié)點,文章間具有語義功能的引用關系作為邊,構成的一種知識網(wǎng)絡。以復雜網(wǎng)絡形式化表述為Gf={Vq,Vm,Eu,Ee,Ec},其中Vq為研究問題節(jié)點集合,Vm為研究方法節(jié)點集合,Eu為使用功能邊的集合,Ee為擴展功能邊的集合,Ec為對比功能邊的集合。每一條邊具有相應的權重w,代表兩個節(jié)點之間在某一功能類型下的引用頻次。圖3 展示了細粒度關鍵詞引用網(wǎng)絡的構建示例,該網(wǎng)絡是一種加權有向網(wǎng)絡,網(wǎng)絡中不包含詞匯自引關系。
圖3 細粒度關鍵詞引用網(wǎng)絡構建示例
根據(jù)上述細粒度關鍵詞引用網(wǎng)絡的定義,描述其具體的構建過程:
Step1. 初始化細粒度關鍵詞引用網(wǎng)絡Gf={Vq,Vm,Eu,Ee,Ec},Vq、Vm、Eu、Ee、Ec均為空,文獻集為P;
Step2.抽取每一篇文獻Pi的關鍵詞和引用對象,并識別其詞匯功能,為每一個功能詞匯賦予唯一編號并統(tǒng)計其頻次,得到節(jié)點集合Vq和Vm;
Step3.抽取文獻集P中所有文獻間的引用關系和引文上下文,根據(jù)引文上下文識別其引用功能;
Step4.分別對Eu、Ee、Ec中的每一條邊匹配施引文獻的關鍵詞及引用對象,構建異質(zhì)邊詞匯引用關系對;
Step5.為每一對引用關系對賦予唯一編號,統(tǒng)計所有的引用關系對頻次,得到邊集合Eu、Ee、Ec。
Step6.輸出細粒度關鍵詞引用網(wǎng)絡Gf。
對ACL 數(shù)據(jù)集進行預處理,按照細粒度關鍵詞引用網(wǎng)絡的構建方法,得到的Gf由1480 個研究問題節(jié)點、2797 個研究方法節(jié)點、3118 條使用功能邊、299 條擴展功能邊以及2605 條對比功能邊構成。接下來,本研究從引用功能敏感的子網(wǎng)分析、特定節(jié)點的多維關聯(lián)分析以及細粒度領域知識演化分析3 個方面對NLP 領域知識進行多維分析。
所謂引用功能敏感,就是指通過引用功能為細粒度關鍵詞引用網(wǎng)絡中的邊賦予語義信息,實現(xiàn)知識節(jié)點之間關聯(lián)關系的多樣化表示?;谶吂δ軇澐志W(wǎng)絡,能夠得到包含某一特定類型關系的子網(wǎng),對各個引用功能敏感的子網(wǎng)進行分析,可以幫助用戶有針對性地分析網(wǎng)絡中節(jié)點的關聯(lián)情況。
1)使用功能子網(wǎng)分析
在科技文獻寫作過程中,不可避免地要使用到已有的知識作為支撐,對使用功能敏感的關鍵詞引用網(wǎng)絡進行分析,有助于發(fā)現(xiàn)學科領域中知識使用的模式和特點。為此,本研究單獨將使用類邊抽取出來構建使用功能敏感的關鍵詞引用網(wǎng)絡,得到的網(wǎng)絡由2327 個節(jié)點和3118 條邊組成??紤]網(wǎng)絡的精簡性和可視化效果,按邊權重閾值為5 進行過濾,得到剪枝后的網(wǎng)絡包含34 個節(jié)點和35 條邊。通過Gephi 對其進行可視化,結果如圖4 所示。其中,網(wǎng)絡節(jié)點大小與其加權中心度成正比,節(jié)點標簽以0結尾的代表研究問題詞匯,節(jié)點標簽以1 結尾的代表研究方法詞匯,箭頭的方向由施引詞匯指向被引詞匯,表示施引文獻出于使用意圖引用了該引用對象。
從圖4 可以看出,該子網(wǎng)具有兩個明顯的社區(qū),一個是以GloVe (global vectors for word representa‐tion)方法為核心,多種研究問題和方法指向該節(jié)點,反映出GloVe 是NLP 領域中被廣泛且頻繁使用的一種研究方法;另一個是由統(tǒng)計機器翻譯問題、最小錯誤率訓練方法、BPE(byte pair encoding,字節(jié)對編碼) 算法、神經(jīng)機器翻譯問題、MIRA(margin infused relaxed algorithm) 算法等關鍵詞構成的知識群落,同樣體現(xiàn)了該領域?qū)C器翻譯相關知識的使用和關注情況。此外,網(wǎng)絡邊緣還分布著一些獨立的小網(wǎng)絡或關聯(lián)對,反映出領域知識之間的頻繁使用模式,如攻擊識別問題中經(jīng)常使用到fastText 分類器,這種頻繁使用模式為研究問題和方法的推薦提供了基礎。
圖4 使用功能子網(wǎng)
2)擴展功能子網(wǎng)分析
在已有領域知識基礎上的擴展和創(chuàng)新,也是科學研究中常見的范式,對擴展功能下關鍵詞引用網(wǎng)絡進行分析,有助于厘清科學知識的發(fā)展變遷規(guī)律。同理,可構建擴展功能敏感的關鍵詞引用網(wǎng)絡,按邊權重為1 對網(wǎng)絡進行剪枝,得到的精簡后的網(wǎng)絡包含53個節(jié)點和41條邊,可視化結果如圖5所示。
圖5 擴展功能子網(wǎng)
從圖5 可以看出,擴展功能子網(wǎng)以在線區(qū)分性訓練問題、貪心算法、機器翻譯模型、基于圖的方法等關鍵詞為核心,反映了施引文獻多在這些問題或方法上進行擴展。網(wǎng)絡整體連通性不強,社區(qū)較為分散,沒有形成明顯的知識聚集現(xiàn)象,但網(wǎng)絡中分布的眾多小網(wǎng)絡或連接對反映出該領域存在較多小范圍內(nèi)的知識擴展現(xiàn)象,例如,在詞語對齊研究中常對集束算法進行擴展,分布式語義模型和對話行為分類問題均在詞袋模型基礎上進行了擴展。
3)對比功能子網(wǎng)分析
在科學研究中,經(jīng)常需要將該研究的方法、結果或結論等部分與其他研究進行對比,以突出該研究的價值和特色,對對比功能下關鍵詞引用網(wǎng)絡進行分析有助于挖掘領域知識之間的對比模式和特點。同樣,對構建的網(wǎng)絡按照邊權重閾值為4 進行過濾,剪枝后的網(wǎng)絡包含57 個節(jié)點和43 條邊,可視化結果如圖6 所示。
圖6 對比功能子網(wǎng)
從圖6 可以看出,對比功能子網(wǎng)以實體鏈接模型、Bi-LSTM(bi-directional long-short term memory)模型、LSTM(long short-term memory)模型、共指消解問題、句子對齊方法、超圖模型等知識節(jié)點為核心,表明NLP 領域較為關注這些主題方面的對比情況。網(wǎng)絡中同樣分散著眾多小網(wǎng)絡或連接對,體現(xiàn)出NLP 領域中知識單元之間存在的多方面的對比關系,其中比較明顯的有Bi-LSTM、LSTM 和seq2seq這3 個常用深度神經(jīng)網(wǎng)絡模型之間的對比。
傳統(tǒng)關鍵詞網(wǎng)絡一般僅依賴引用或共現(xiàn)等單一化關系,相關的分析多集中在網(wǎng)絡中類簇的劃分。本研究通過對網(wǎng)絡中邊的語義功能進行細粒度標注,實現(xiàn)了按邊類型對網(wǎng)絡的劃分;對包含某一特定功能關系的子網(wǎng)的分析,有助于研究人員有針對性地了解特定關系類型下的領域知識結構;還可以進一步對各功能敏感的子網(wǎng)進行社區(qū)劃分,發(fā)現(xiàn)其中的知識聚集情況。
以特定節(jié)點為中心,獲取與其存在多維關聯(lián)的其他節(jié)點,可組成相應知識的多維關聯(lián)子網(wǎng)絡,由此可以快速方便地定位與某一個知識節(jié)點具有多種細粒度關聯(lián)的研究問題或方法,進而可以系統(tǒng)地揭示特定研究問題的發(fā)展情況或特定方法的應用情況。本研究以統(tǒng)計機器翻譯問題和卷積神經(jīng)網(wǎng)絡方法為例,分別從整體網(wǎng)絡中抽取與這兩個節(jié)點相關的所有節(jié)點,并保留邊權重不小于2 的路徑,組成的特定節(jié)點多維關聯(lián)子網(wǎng)絡分別如圖7 和圖8 所示。其中,邊的粗細與其權重成正比,邊標簽1、2、3分別代表使用、擴展和對比3 種引用功能。
圖7 統(tǒng)計機器翻譯的多維關聯(lián)子網(wǎng)絡
圖8 卷積神經(jīng)網(wǎng)絡的多維關聯(lián)子網(wǎng)絡
從圖7 可以系統(tǒng)地定位與統(tǒng)計機器翻譯問題具有使用、擴展和對比關系的研究問題和方法。例如,使用關系的有最小錯誤率訓練方法、KenLM 模型、詞匯化重排序模型等,擴展關系的有在線區(qū)分性訓練問題、動態(tài)規(guī)劃算法、skip-gram 模型等,對比關系的有語言模型、最小錯誤率訓練方法、L1正則化方法等。結合文獻可知,最小錯誤率訓練方法、KenLM 模型、詞匯化重排序模型均是統(tǒng)計機器翻譯問題研究中常用的算法和模型,統(tǒng)計機器翻譯常在在線區(qū)分性訓練、動態(tài)規(guī)劃算法、skip-gram 模型方面進行擴展以提升翻譯性能。此外,語言模型、最小錯誤率訓練方法、L1 正則化方法等也是不同統(tǒng)計機器翻譯研究常進行對比的內(nèi)容。
同樣,從圖8 可以發(fā)現(xiàn),與卷積神經(jīng)網(wǎng)絡具有使用關系的有GloVe 模型、神經(jīng)網(wǎng)絡模型、情感分析問題和自動問答問題等,對比關系的有循環(huán)神經(jīng)網(wǎng)絡問題/方法、神經(jīng)網(wǎng)絡模型、實體和關系抽取問題等。查閱相關文獻顯示,CNN(convolutional neural network)常使用GloVe 詞向量模型進行文本表示,CNN 是神經(jīng)網(wǎng)絡模型中重要的組成成分,情感分析和自動問答等問題的研究也常引入CNN 作為方法之一。RNN(recurrent neural network)等神經(jīng)網(wǎng)絡模型經(jīng)常將CNN 作為一個重要的對比對象,實體和關系抽取等研究中也常與CNN 模型進行對比。CNN 自提出發(fā)展至今,已經(jīng)成為NLP 領域中一個受到廣泛關注和應用的模型。
通過上述實例發(fā)現(xiàn),在NLP 領域中知識節(jié)點之間的關聯(lián)關系基本符合該領域常見的知識實體作用規(guī)律,特定節(jié)點的多維關聯(lián)分析能夠輔助科研人員有針對性地了解領域中某個關鍵問題或方法的實際情況。相比于傳統(tǒng)關鍵詞網(wǎng)絡,考慮詞匯功能和引用功能后,能夠精確揭示特定知識在領域中與其他知識的交互功能,該結果能夠提高實體推薦等研究的語義化水平。
傳統(tǒng)的知識演化分析多在宏觀層面揭示領域主題的發(fā)展變化情況,而細粒度領域知識演化關注的是領域中功能詞匯的發(fā)展脈絡,客觀把握領域知識發(fā)展的內(nèi)在規(guī)律,明確知識發(fā)展演化過程中的關鍵信息,為科研人員預測領域中特定研究問題或研究方法的發(fā)展演變態(tài)勢提供參考。
細粒度領域知識演化的基本思路是將時間維度引入問題-方法詞匯的關聯(lián)中,賦予每一個功能詞匯發(fā)揮作用的時間(施引詞和被引詞均為對應施引文獻的發(fā)表時間),在此基礎上通過對不同階段關鍵詞及其語義關聯(lián)的分析,揭示領域研究熱點和預測領域未來的發(fā)展趨勢。為此,我們通過原始文獻的發(fā)表年份和文獻間的引用關系為每一個功能詞匯標記時間信息,構建帶有時間屬性的細粒度關鍵詞引用網(wǎng)絡,接著選定某一個研究問題或方法,抽取與該節(jié)點相關聯(lián)的重要鏈路和節(jié)點信息,按照時間序列繪制細粒度領域知識演化圖。
語言模型(language model)是NLP 領域一種基礎且重要的算法,為了探尋該研究方法在領域中與其他方法和問題的交互演化情況,本研究以語言模型這一研究方法為例繪制其細粒度演化路徑圖。在二維坐標圖中,橫軸為年份,縱軸為在某個年份出現(xiàn)的關聯(lián)關鍵詞,以語言模型為起點,在網(wǎng)絡中遍歷與其相關聯(lián)的鏈路,通過關聯(lián)強度篩選重要鏈路及節(jié)點,并按照關鍵詞所處的年份在圖中繪制相應節(jié)點,其中橢圓形節(jié)點代表研究問題,矩形節(jié)點代表研究方法,邊的粗細代表關聯(lián)強度大小,邊標簽1、2、3 分別代表使用、擴展和對比關系,圖9 展示了語言模型引用路線隨時間變遷的演化路徑。
結合圖9,可以將語言模型的演化大體劃分為4個階段。在第一階段(1979—2007 年)和第二階段(2008—2011 年),這個時期的語言模型關注的是基于傳統(tǒng)方法,如貪心算法、最小錯誤率訓練方法來解決語言模型中涉及的詞格解析等相關問題。在第三階段(2012—2015 年),語言模型在使用基礎方法(如對數(shù)線性方法、自適應調(diào)諧算法)和擴展基礎方法(FFBS(forward filtering backward sampling)算法、貝葉斯模型)之外,開始關注機器學習算法在語言模型中的應用,這個階段的研究問題主要集中于語言模型本身和機器翻譯問題,并常常在這些問題中對不同的方法進行對比。在第四階段(2016—2019 年)可以明顯地看出,深度學習和神經(jīng)網(wǎng)絡已經(jīng)成為語言模型研究的熱點和趨勢,注意力機制、RNN、BPE、計算語義、表示學習等前沿方法被廣泛使用到語言模型中,以解決機器翻譯、閱讀理解、描述生成等研究問題。此外,我們可以發(fā)現(xiàn),BPE 算法在語言模型發(fā)展過程中扮演著關鍵角色,除了語言模型研究使用了該方法外,神經(jīng)機器翻譯和注意力機制也常使用該方法(在圖9 中進行了繪制),彼此間形成了緊密連接的團體。結合文獻可知,BPE 算法[40]在NLP 領域的應用始于2016年,用來解決機器翻譯任務中的出現(xiàn)的未登錄詞和罕見詞問題,并取得了較好的表現(xiàn),自BPE 在NLP領域中應用以來,常被運用在機器翻譯、語言模型等諸多自然語言處理算法中。整體上來看,語言模型的演化與NLP 領域技術的發(fā)展基本是同步的,經(jīng)歷了從傳統(tǒng)方法和研究問題到當前融合神經(jīng)網(wǎng)絡方法的演變過程,可以預測未來一段時期內(nèi)語言模型的研究依然會重點關注結合深度學習的相關應用和研究問題。
圖9 語言模型的細粒度演化路徑
為了更好地揭示細粒度領域知識演化的特征,本研究同樣以語言模型主題為例,構建了傳統(tǒng)基于共詞網(wǎng)絡方法的主題演化圖進行對比分析。具體來說,將關鍵詞或引用對象中包含language model 的施引文獻抽取出來,合并施引文獻關鍵詞和被引對象作為該施引文獻的關鍵詞,同樣將共詞網(wǎng)絡演化劃分為相應的4 個階段,根據(jù)每個階段中所包含的文獻集分別構建關鍵詞共現(xiàn)網(wǎng)絡,結果如圖10所示。
圖10 基于共詞網(wǎng)絡的語言模型主題演化
通過對細粒度關鍵詞引用網(wǎng)絡方法和共詞網(wǎng)絡方法下實驗結果的對比和分析,發(fā)現(xiàn)兩者在對領域主題的揭示、關鍵路徑發(fā)現(xiàn)等方面有所差異。在對主題的揭示方面,各階段兩者關注的話題有一部分重疊,但同時也有部分節(jié)點存在差異。其原因在于基于共現(xiàn)關系構建的關鍵詞關聯(lián)關系中會包含一部分不存在直接引用關聯(lián)的節(jié)點關系對,因此網(wǎng)絡中會出現(xiàn)較多相關性不是很高的節(jié)點,影響了對關注焦點的判斷。例如,在共詞網(wǎng)絡第四階段中,盡管也出現(xiàn)了神經(jīng)語言模型、BPE 算法等關鍵詞,但其并沒有成為該階段核心主題,影響了對主題發(fā)展趨勢的判斷。相反,引用關系反映了兩個關鍵詞之間的直接關聯(lián),能更加準確地揭示領域當前關注的焦點,結合關鍵詞語義功能和語義關聯(lián)也能提高主題的可解釋性。在關鍵路徑發(fā)現(xiàn)方面,傳統(tǒng)共詞網(wǎng)絡中節(jié)點之間都是基于共現(xiàn)關系,區(qū)別僅在于共現(xiàn)頻次的不同,很難直接對節(jié)點間交互的作用和功能做出解釋;而在引用關系中,明確了一個節(jié)點出于何種意圖與另一個節(jié)點發(fā)生關聯(lián),可以直觀發(fā)現(xiàn)不同的問題和方法在不同的階段發(fā)揮了什么作用,更加容易識別出主題演變過程中的重要鏈路信息,例如,BPE 算法的使用在語言模型的發(fā)展演化過程中扮演了關鍵角色。
以上對比結果表明,從關鍵詞之間的細粒度引用關系出發(fā),可以以一種直接的視角對領域主題隨時間變化的特征進行分析,揭示領域主題在不同時期的關注焦點和演化趨勢。研究主題本質(zhì)上就是具有不同語義功能的知識單元及其之間的語義關聯(lián)構成的知識集合,通過細粒度關鍵詞引用網(wǎng)絡能夠更深入地理解主題的演變機理及其內(nèi)部的知識關聯(lián)特征,為領域知識演化分析提供了一個新的視角。
面對日益增多的科學文獻,從文本語義功能角度對學術文本進行深度語義理解,并從細粒度、語義化角度構建關鍵詞之間的關聯(lián)網(wǎng)絡是一項迫切且有意義的研究工作。為此,本研究以ACL 數(shù)據(jù)集為例構建了細粒度關鍵詞引用網(wǎng)絡。接著,從引用功能敏感的子網(wǎng)分析、特定節(jié)點的多維關聯(lián)分析和細粒度領域知識演化分析三個方面進行了實證分析和可視化呈現(xiàn),一方面在實踐中驗證了本研究提出方法的合理性,另一方面挖掘到了領域知識分析中涌現(xiàn)的一些新的規(guī)律和特點,為科學知識網(wǎng)絡和領域知識多維分析的研究提供了創(chuàng)新性的視角。
本研究也存在一定的局限。首先,盡管本文初始數(shù)據(jù)集較大,但由于重點選擇了部分功能類型以及引用對象數(shù)據(jù)量較少,使構建出來的網(wǎng)絡較為稀疏。在接下來的研究中,將進一步擴大標注數(shù)據(jù)集,從而更加完整、準確地表示學科領域知識關聯(lián)情況。其次,本文僅從三個方面探索了細粒度關鍵詞引用網(wǎng)絡在領域知識多維分析中的應用,后續(xù)還可以進行網(wǎng)絡社區(qū)劃分等研究,以發(fā)現(xiàn)科學知識發(fā)展變化中更多的特征和規(guī)律。