羅卓然,陸 偉,蔡 樂,程齊凱
(1. 武漢大學(xué)信息管理學(xué)院,武漢 430072;2. 武漢大學(xué)信息檢索與知識挖掘研究所,武漢 430072)
從科學(xué)的發(fā)展來看,科學(xué)研究開始于問題發(fā)現(xiàn)[1],美國著名科學(xué)哲學(xué)家L?勞丹曾在其著作《進步及其問題——一種新的科學(xué)增長理論》中強調(diào),科學(xué)研究的目的是解決問題;問題和方法是科研工作的重要組成內(nèi)容,其中問題和方法的描述是科學(xué)話語的重要組成部分[2],它以特定的形式和程度表現(xiàn)在論文中,固化為論文中的某些詞匯或詞匯組合[3]。在創(chuàng)新學(xué)研究中,組合往往被看作創(chuàng)新產(chǎn)生的一個重要來源。創(chuàng)新理論的鼻祖約瑟夫·熊彼特(Joseph Alois Schumpeter) 在其著作《經(jīng)濟發(fā)展理論》中提出創(chuàng)新(innovation)是已有生產(chǎn)要素和生產(chǎn)條件的組合[4],該觀點后來得到了國際上許多有影響力學(xué)者的支持[5-6]。目前,學(xué)術(shù)界對于學(xué)術(shù)文本中的“創(chuàng)新”這一概念還未形成統(tǒng)一定義,常見的指代詞如新穎性、創(chuàng)新力、顛覆性、innovation、novelty、creativity、fresh ideas、disruptive innovation等從創(chuàng)新的內(nèi)容、時間、價值、影響等層面描述了創(chuàng)新的特征。學(xué)術(shù)研究成果的新穎性(novelty)能夠在某種程度上反映其創(chuàng)新性或前沿性[7],由于成果的價值一般需要較長的時間才能體現(xiàn)出來,在科研評價研究中常用新穎性描述研究成果的創(chuàng)新特質(zhì)。通過文獻調(diào)研與分析,本文發(fā)現(xiàn)學(xué)術(shù)論文的新穎性主要源于研究問題、研究方法、研究結(jié)論等元素的重組與結(jié)合,其中研究問題與研究方法的組合是形成創(chuàng)新的重要方式[2]。
在科學(xué)研究領(lǐng)域,研究人員發(fā)現(xiàn)影響最大的科學(xué)研究成果主要基于以往工作的組合,尤其那些非典型的組合[8-11],并提出新穎性的主要來源是已有元素的重組或既有元素與新概念的組合[12-13]。此外,組合新穎性的內(nèi)容和形式也不拘一格,國內(nèi)外學(xué)者從參考文獻組合[14]、參考文獻的期刊組合[8-9,15]、詞匯組合共現(xiàn)[12,16-17]等內(nèi)容的組合對科學(xué)創(chuàng)新進行了研究。上述研究從組合創(chuàng)新的視角研究了科研論文的創(chuàng)新范式,為學(xué)術(shù)論文新穎性度量和創(chuàng)新性評價提供了理論和方法基礎(chǔ)。然而,這種從期刊組合或參考文獻組合的角度度量新穎性的方法,在脫離論文內(nèi)容的情況下測度論文新穎性,對新穎性的解釋力度還有所欠缺。值得注意的是,部分研究從論文詞匯組合的角度開展了新穎性研究,這類研究的對象更接近創(chuàng)新本體的內(nèi)容層面,但是僅從詞匯組合頻率的角度計算新穎性[18-19],而缺少考慮詞匯之間的語義差異,這種情況下可能會忽略新穎性的重要特征。例如,對生物醫(yī)學(xué)詞匯之間的組合和生物醫(yī)學(xué)與計算機科學(xué)詞匯的組合而言,后者是一種跨學(xué)科詞匯的組合,這種組合能為新穎性來源和創(chuàng)新擴散的研究提供重要線索。挖掘組合詞匯的語義內(nèi)涵,可以揭示不同跨領(lǐng)域研究背后的知識交叉與融合情況[20],有助于從詞匯功能的角度揭示論文新穎性的語義內(nèi)涵[21]。
學(xué)術(shù)文本的詞匯功能是根據(jù)文本所在的語義環(huán)境對其承擔(dān)的語義角色和功能的認知和理解[22]。學(xué)術(shù)論文作為科研成果載體,其核心問題和核心方法解釋了論文待研究的問題和解決途徑[23],是體現(xiàn)論文新穎性和價值的重要功能元素。目前,國內(nèi)外關(guān)于學(xué)術(shù)論文中的研究問題或研究方法的研究,主要集中在領(lǐng)域研究主題識別[24]、研究方法庫構(gòu)建[25]、跨學(xué)科研究問題[26]與研究方法分析[27-28]等方面,而將問題與方法的組合應(yīng)用在論文新穎性測度上的研究相對較少。
為進一步探索面向文本內(nèi)容層面的新穎性度量方法,本文以組合新穎性理論為基礎(chǔ),以學(xué)術(shù)論文細粒度詞匯功能語義差異為切入點,利用深度學(xué)習(xí)預(yù)訓(xùn)練模型獲取蘊含語義信息的詞向量,提出面向CS(computer science)領(lǐng)域進一步預(yù)訓(xùn)練的詞匯新穎性計算方法,通過模型對比實驗證明本文的預(yù)訓(xùn)練模型表現(xiàn)效果更好。最后,將提出的語義新穎性計算方法與已有的共現(xiàn)率新穎性計算方法進行比較,結(jié)果表明,本文提出的方法能夠捕獲詞匯及詞匯組合之間更細粒度的新穎性差異。
術(shù)語抽取是海量文獻內(nèi)容分析研究的基礎(chǔ),其中不同術(shù)語的功能識別是分析術(shù)語語義功能的重要環(huán)節(jié)。伴隨著細粒度文本挖掘和實體抽取研究的深入,文本詞匯功能識別研究引起了越來越多的關(guān)注,學(xué)者們從內(nèi)容元素、概念類型、詞匯功能和知識元等角度開展了詞匯功能相關(guān)研究。Kondo 等[29]將標(biāo)題中的內(nèi)容元素分為head、method、goal 和other 四類,并通過構(gòu)建特定領(lǐng)域的方法/技術(shù)演化路徑構(gòu)建了技術(shù)趨勢圖生成系統(tǒng)。Gupta 等[30]將學(xué)術(shù)文獻的詞匯功能分為話題、技術(shù)和領(lǐng)域三類并實現(xiàn)其自動識別。Tsai 等[31]將收錄于ACL(Associa‐tion for Computational Linguistics) 數(shù)據(jù)庫中的科學(xué)文獻中的概念分為技術(shù)(technique)和應(yīng)用(appli‐cation)兩個功能類別,并提出了用于識別、歸納和聚類這兩類概念的算法,研究結(jié)果可為深入了解ACL 社區(qū)的研究進展、變化和趨勢提供有用的見解。Tuomaala 等[32]對LIS (library and information science)領(lǐng)域1965—2005 年發(fā)表的研究論文進行了內(nèi)容分析,分析了研究論文主題分布與采用的方法和策略,解釋了研究問題和研究方法之間的聯(lián)系。Heffernan 等[2]認為科學(xué)研究是問題提出和解決的過程,將科學(xué)文獻中的詞匯功能分為研究問題和解決方法,并訓(xùn)練分類模型對短語是否為問題或方法進行二值判斷。近年來,國內(nèi)學(xué)者也對學(xué)術(shù)文本術(shù)語及詞匯功能識別展開了一些探索和研究。趙洪等[33]構(gòu)建了面向理論術(shù)語的深度學(xué)習(xí)模型,研究了該模型中理論術(shù)語的特征構(gòu)造和標(biāo)注方法,并通過實驗對比驗證了該模型的有效性。王昊等[34]對情報學(xué)理論方法進行研究,利用深度學(xué)習(xí)模型開展了訓(xùn)練與測試,發(fā)現(xiàn)術(shù)語實體的長度、訓(xùn)練語料量、實體的類型和數(shù)量等因素也與識別結(jié)果直接相關(guān)。李賀等[35]構(gòu)建了學(xué)術(shù)論文的研究問題、理論、方法、結(jié)論4 個知識元本體,提出了基于知識元的學(xué)術(shù)論文創(chuàng)新性判斷方法。章成志等[36]將研究方法分為論文使用研究方法和論文引用研究方法,以《情報學(xué)報》10 年的論文全文為數(shù)據(jù)對象,利用神經(jīng)網(wǎng)絡(luò)模型抽取了研究方法實體并分析了其使用情況,發(fā)現(xiàn)情報學(xué)學(xué)科領(lǐng)域中使用頻次和引用頻次最高的均是與實驗相關(guān)的研究方法?;亓諿28]通過對文獻中研究方法內(nèi)容描述的分析,將學(xué)術(shù)論文中的方法知識元總結(jié)為方法定義知識元、方法關(guān)系知識元、方法特點知識元、方法流程知識元和方法功能知識元5種類型。程齊凱等[37]提出了一種基于深度學(xué)習(xí)和標(biāo)題生成策略的學(xué)術(shù)文本詞匯功能識別模型,基于seq2seq 模型和attention 機制的方式捕獲詞匯的多層語義信息,實現(xiàn)了學(xué)術(shù)文本中問題詞和方法詞的生成。陸偉等[38]構(gòu)造了一種基于規(guī)則標(biāo)題的數(shù)據(jù)標(biāo)注方法對數(shù)據(jù)進行標(biāo)注,并利用BERT(bidirectional encoder representation from transformers)預(yù)訓(xùn)練模型對輸入的文本進行向量化表征,利用LSTM(long short-term memory)對關(guān)鍵詞進行自動判別以實現(xiàn)論文關(guān)鍵詞的問題或方法的識別。
在學(xué)術(shù)論文新穎性度量與評價研究領(lǐng)域,不少學(xué)者試圖將基于人工甄別的傳統(tǒng)新穎性度量方式轉(zhuǎn)化為自動識別的新型評價方式。作為創(chuàng)新模式研究的重要范式之一,組合目的是對創(chuàng)新發(fā)展和創(chuàng)新擴散過程進行理論化與建模[39-40]。從組合內(nèi)容和方式來看,代表性研究為參考文獻的期刊組合。Uzzi等[8]率先提出了基于重組的論文創(chuàng)新性度量,他們分析了來自Web of Science 中1950—2000 年發(fā)表的近1790 萬篇文獻,發(fā)現(xiàn)論文新穎性與先前工作的非常規(guī)組合有較大相關(guān)性。Boyack 等[15]基于Uzzi 等[8]的方法,以Scopus 中收錄的期刊為數(shù)據(jù)對象,利用基于期望標(biāo)準(zhǔn)差的K50 指標(biāo)替代了Z-score 指標(biāo),結(jié)果顯示,該方法可以在文獻發(fā)表后的更早期得出同樣的結(jié)論。Wang 等[9]將科學(xué)研究視為一個組合過程,通過檢查已發(fā)表的論文是否首次對參考期刊進行組合來衡量科學(xué)的新穎性。除了參考文獻的期刊組合之外,有研究者直接利用參考文獻的組合來度量文獻的新穎性。Mukherjee 等[14]基于參考文獻的共被引網(wǎng)絡(luò)建立了“常規(guī)性-新穎性”的二維坐標(biāo)系,將論文劃分為4 個創(chuàng)新類型。Ponomarev 等[41]認為,開創(chuàng)性成果是基于對已有研究的回顧與總結(jié),提出了基于出版物引用動態(tài)檢測方法,并建立了論文創(chuàng)新性預(yù)測模型。Tahamtan 等[10]認為一篇論文中參考文獻的不尋常組合可以揭示其新穎性潛質(zhì),通過分析論文引文網(wǎng)絡(luò)中不同類型、不同主題的組合,歸納出了創(chuàng)新性論文常見的主題組合模式。此外,部分學(xué)者從與論文直接相關(guān)的詞匯角度度量了論文的新穎性。Azoulay 等[12]通過檢查論文中的MeSH 主題詞對,計算未出現(xiàn)在PubMed 上所有先前文獻中的詞對所占的比例,來衡量出版物的重組特征與新穎性,發(fā)現(xiàn)論文的重組程度與引文量之間存在負相關(guān)關(guān)系。Yan 等[40]定義了論文的新組合和新組件,提出了一種利用論文的關(guān)鍵字測度組合新穎性的方法。從問題詞和方法詞的角度,王艷艷等[18]利用人工的方法抽取科技文獻中的問題和方法,將問題、方法作為兩個維度構(gòu)建了新穎性評估方法模型。錢佳佳等[19]根據(jù)詞頻和詞組合的頻次,提出了一種基于問題-方法組合的科技論文新穎性度量方法。Luo 等[42]考慮了詞匯的年齡和語義差異,提出了從詞匯生命指數(shù)和語義相似度兩個角度計算論文新穎性的方法。綜上,相關(guān)研究從期刊組合、引文組合、主題詞組合等角度開展了組合新穎性研究,也有從問題詞和方法詞的不同功能角度探索了論文新穎性測度,為本文的研究提供了良好借鑒的同時也存在研究數(shù)據(jù)不足、方法受限等情況。在此現(xiàn)狀下,本文發(fā)現(xiàn)從語義層面度量論文新穎性仍有進一步探索的空間。
學(xué)術(shù)論文的研究問題與研究方法是表達學(xué)術(shù)文本新穎性的主要功能詞匯,這種具有特殊語義功能詞匯的組合為新穎性研究提供了新思路。因此,本文在前期學(xué)術(shù)文本詞匯功能研究的基礎(chǔ)上開展詞匯功能在論文新穎性度量上的研究。
在程齊凱等[37]、陸偉等[38]前期關(guān)于詞匯功能的研究基礎(chǔ)上,本文利用論文研究問題、研究方法及其組合來測度論文的新穎性。為此,需要在論文中預(yù)先提取表征研究問題與研究方法的詞匯。由于論文的研究問題或研究方法可能不只一個,本文僅抽取了每篇論文中主要的問題詞和方法詞,即將論文認為是某一問題與某一方法的組合。本文中的主要問題詞是指能夠代表論文核心研究問題的詞或詞組,主要方法詞是指用于表征論文為研究解決問題所采用的方法、模型、工具或途徑的詞或詞組。實際中存在部分論文涉及多個研究問題或方法的情況,對于本文研究的組合新穎性而言,測度主要問題和主要方法的組合已能夠達到本文的研究目的,而多問題與多方法的自動抽取研究是下一步待解決的問題。
本 文 將ACM (Association for Computing Ma‐chinery)Digital Library(下稱ACM 數(shù)據(jù)庫)作為數(shù)據(jù)來源,該數(shù)據(jù)庫收錄了計算機領(lǐng)域權(quán)威和前瞻性的出版物,提供了解計算機和信息技術(shù)領(lǐng)域資源的窗口。陸偉等[38]提出的問題方法識別模型整體準(zhǔn)確率、召回率和F1 值分別達到0.83、0.87 和0.85,優(yōu)于傳統(tǒng)模型的效果。本文利用該模型提取了ACM數(shù)據(jù)庫中1968—2018 年的200182 篇文獻的研究問題詞和研究方法詞,并比較了模型識別效果與人工判斷的差異,在隨機篩選的100 條數(shù)據(jù)中主要問題方法詞識別一致性為82%。然后,抽取了每篇論文的DOI 號、題目、摘要、關(guān)鍵詞、發(fā)表時間等題錄信息,統(tǒng)計截止到2021 年2 月論文在ACM 數(shù)據(jù)庫中顯示的被引量。數(shù)據(jù)清洗操作中刪除了字段為空的數(shù)據(jù)記錄,保留了200103 條包含題錄信息和被引量在內(nèi)的“問題-方法”記錄數(shù)據(jù),并將其保存在數(shù)據(jù)庫中,實驗數(shù)據(jù)隨時間的數(shù)量分布如圖1 所示。統(tǒng)計每組“問題-方法”對出現(xiàn)頻數(shù),再按照字母升序的方式為每一個問題詞和方法詞構(gòu)建索引。最后,在數(shù)據(jù)庫中對所有的記錄數(shù)據(jù)進行條件查詢,并為每條記錄的論文設(shè)置索引ID,從實驗數(shù)據(jù)中隨機抽取2018 年的200 條記錄作為分析數(shù)據(jù),剩余的199903 條數(shù)據(jù)作為歷史對照數(shù)據(jù)。
圖1 論文數(shù)量分布
為從語義層面計算問題詞與方法詞的新穎性差異,本文采用深度學(xué)習(xí)預(yù)訓(xùn)練模型,在大規(guī)??茖W(xué)文本數(shù)據(jù)集上訓(xùn)練問題方法詞和方法詞的詞向量模型。詞向量是一種將詞表示成向量的無監(jiān)督學(xué)習(xí)技術(shù),代表性的詞向量訓(xùn)練模型有word2vec[43]、GloVe[44]、BERT[45]等。2018 年,谷歌提出的BERT模型刷新了自然語言處理領(lǐng)域的11 個方向的最佳指標(biāo),是繼word2vec 之后深度學(xué)習(xí)方法在自然語言處理中的又一突破。BERT 模型利用Transformer[46]構(gòu)造多層雙向編碼,該模型訓(xùn)練的詞向量可用于文本相似度相關(guān)任務(wù)中。Su[47]于2020 年提出的Sim‐BERT 模型是經(jīng)過微調(diào)的BERT 模型,在文本相似度任務(wù)上效果提升顯著,可見BERT 模型在語義相似度判斷上仍具有較好的表現(xiàn)。此外,SciBERT 是Beltagy 等[48]提出的一種基于BERT 的預(yù)訓(xùn)練語言模型,該模型在BERT 的基礎(chǔ)上進一步在大型多領(lǐng)域的科學(xué)出版物語料庫上進行了無監(jiān)督預(yù)訓(xùn)練,提高了模型處理下游自然語言處理任務(wù)的性能,該模型能用于解決缺乏高質(zhì)量、大規(guī)模標(biāo)注科學(xué)數(shù)據(jù)的問題。
鑒于科學(xué)語料在詞匯功能與內(nèi)容含義層面具有高度的專業(yè)性和領(lǐng)域區(qū)分度,直接使用SciBERT 的問題在于對所有的輸入向量都傾向于編碼到一個較小的空間區(qū)域內(nèi),導(dǎo)致大多數(shù)的問題方法詞對都具有較高的相似度分數(shù),不利于語義新穎性差異化度量。為此,本文參考文本表示領(lǐng)域的常規(guī)做法[49-50],再次引入ACM 語料做進一步預(yù)訓(xùn)練,在獲取更好語言模型的同時得到更能表征問題詞和方法詞真實差異的向量表示。語言模型效果的常用評價指標(biāo)是困惑度(perplexity),在一個測試集上得到的困惑度越低,說明建模的效果越好[51]。本文選擇困惑度作為模型評價指標(biāo)。
為從語義層面度量學(xué)術(shù)論文中研究問題詞匯與研究方法詞匯的新穎性差異,本文基于BERT 模型將詞匯表示成詞向量的形式,將利用這些詞向量表示輔助計算“問題-方法”組合的新穎性。進一步地,本文提出一個面向CS 領(lǐng)域進一步預(yù)訓(xùn)練(fur‐ther pretrain)的詞匯新穎性計算方法,如圖2 所示。本文在SciBERT 的基礎(chǔ)上引入ACM 數(shù)據(jù)庫中200182 篇論文中的標(biāo)題及摘要信息,通過無監(jiān)督訓(xùn)練任務(wù)根據(jù)句子上下文來預(yù)測的概率分布,實現(xiàn)對SciBERT 的進一步預(yù)訓(xùn)練,通過對模型調(diào)參和訓(xùn)練,生成面向ACM 論文語料的詞向量表征模型SciBERT-further。
圖2 面向CS領(lǐng)域進一步預(yù)訓(xùn)練的詞匯新穎性計算方法
進一步預(yù)訓(xùn)練模型效果驗證。首先,對收集到的ACM 語料進行分句并統(tǒng)計句子信息,結(jié)果表明,25%的句子是短句,在15 詞以內(nèi),75%的句子在27詞以內(nèi),最大句長76 詞。為盡可能完全覆蓋語料中的句子,再訓(xùn)練時設(shè)置模型最大句長為72。在打亂句子順序后,按照9∶1 的方式劃分訓(xùn)練集和測試集。然后,針對本文相似的問題-方法在編碼后的表示空間中應(yīng)當(dāng)相近,不同的問題-方法應(yīng)相距較遠的需求,為獲取更好的詞匯級詞向量表示,對同一樣本利用打亂詞序、特征裁剪兩種方式進行數(shù)據(jù)增強,同時利用模型的第一層詞匯編碼和最后一層句子編碼實現(xiàn)信息融合。最后,在測試時選擇了模型困惑度作為評測指標(biāo),對于測試集,將其測試樣本全部融合計算,取平均值計算該指標(biāo)。訓(xùn)練集的模型損失和測試集的困惑度分別如圖3a 和圖3b所示。
圖3 進一步預(yù)訓(xùn)練中模型損失和困惑度變化圖
此外,本文在文本語義匹配任務(wù)(semantic tex‐tual similarity, STS) 的STS12、 STS13、 STS14、STS15、STS16 這5 個數(shù)據(jù)集上進行了實驗,并對比了Avg.GloVe、BERT、SciBERT 和SciBERT-further模型在無標(biāo)注的STS 數(shù)據(jù)上的訓(xùn)練效果,具體得分如表1 所示。結(jié)果顯示,在完全一致的設(shè)置下,本文提出的SciBERT-further 模型相對于Avg.GloVe 模型平均提升了3%,相對于BERT 提升了10.5%,相對于SciBERT 平均提升了17%,表明本文提出的SciBERT-further 模型能較好地表征詞匯真實特征,且比在類似任務(wù)上采用BERT 模型的表現(xiàn)更好[42]。
表1 SciBERT-further與其他方法在無監(jiān)督情況下的性能比較
問題詞和方法詞新穎性計算。提取學(xué)術(shù)論文“問題-方法”數(shù)據(jù)集中的問題詞和方法詞,在Sci‐BERT-further 模型中計算并獲取上述詞的詞向量。然后計算當(dāng)前問題詞和方法詞與已有詞匯空間中所有詞匯的余弦相似度,取最大值,計算詞匯的新穎性,問題詞和方法詞的新穎性計算方式分別為
其中,quesNov 表示問題詞新穎性,Vq表示當(dāng)前問題詞的詞向量,Vqi表示問題詞域的第i個問題詞的向量表示,計算Vq和Vqi的余弦相似度,用1 減去最大的向量余弦相似度,得到quesNov 的值,若Vq與Vqi越相似,則表示Vq的新穎性越??;methodNov表示方法詞新穎性,Vm表示當(dāng)前方法詞的詞向量表示,Vmi表示方法詞域中第i個方法詞的向量表示,用1 減去最大的向量余弦相似度,得到methodNov的值。
對于論文中的“問題-方法”組合,在學(xué)術(shù)論文“問題-方法”數(shù)據(jù)集中查找當(dāng)前問題詞或當(dāng)前方法詞是否存在。若存在,則表明是舊的研究問題或研究方法;若不存在,則表示當(dāng)前詞在已有的問題詞域或方法詞域中不存在,屬于新的研究問題或研究方法。組合新穎性計算的是相對新穎性,即當(dāng)前組合詞相對于組合對象的所有歷史組合詞的新穎性。這里對問題方法詞是否存在進行了精確查找,只要之前在數(shù)據(jù)集中未出現(xiàn)過即為新詞。語義相似度用在計算組合對象的新穎性上,即對舊的問題詞或方法詞,計算它的當(dāng)前組合詞與歷史組合詞序列之間的相似度。在錢佳佳等[19]對“問題-方法“組合劃分的基礎(chǔ)上,本文從詞匯組合方式上將“問題-方法”組合進一步分為5 種類型:“新問題+新方法”組合、“新問題+舊方法”組合、“舊問題+新方法”組合、“舊方法+舊問題”舊組合和“舊方法+舊問題”新組合。
對于“舊問題+新方法”和“新問題+舊方法”的組合而言,在已有的問題空間中分別提取與其組合過的詞,形成舊問題的方法序列和舊方法的問題序列。由于本文主要從詞匯功能組合的角度研究“問題-方法”組合,因此計算的是當(dāng)前組合詞與已有組合序列的相似度。因此,對于“舊問題+新方法”組合,“新方法”不是相對于全部方法詞域來說的,而是相對于舊問題的方法序列而言,即只要當(dāng)前方法詞沒有與當(dāng)前問題的方法詞序列組合過,對于當(dāng)前的組合來說該方法即為新方法。然后,計算當(dāng)前方法詞的組合新穎性,分別計算當(dāng)前方法詞與舊問題的組合序列中各個方法詞的相似度。最后,將當(dāng)前組合詞的新穎性得分賦值給“問題-方法”組合,得出最終組合新穎性?;谡Z義相似度的“問題-方法”組合新穎性計算流程如圖4 所示。
圖4 基于語義相似度的"問題-方法"組合新穎度計算流程
對于舊問題或舊方法的組合而言,本文將“舊問題”和“舊方法”稱作當(dāng)前詞,與其組合的對象稱作組合詞。對于“問題-方法”組合中的當(dāng)前詞t,要測度其組合的新穎性,則需要判斷其組合詞p的相對新穎性。例如,對于現(xiàn)有研究中已存在的舊問題t,首先枚舉與該問題組合過的所有方法,形成t的歷史組合序列P(p1,p2,…,pn)。利用SciBERTfurther 模型計算當(dāng)前組合詞p的向量表征Vp與P中各個歷史組合詞的詞向量的余弦相似度,計算方式為
其中,VPi表示序列P中的第i個元素的詞向量表征;combSimi表示Vp與VPi的余弦相似度。
“問題-方法”組合的相似度取當(dāng)前組合詞p與當(dāng)前詞t的歷史組合序列P中各個元素的最大相似度值,“問題-方法”組合的相似性越高,表示該組合的新穎性越低,將“問題-方法”的新穎性得分定義為combNov(t,p),計算方法為
本文將論文的新穎性Novelty(D)定義為問題詞新穎性、方法詞新穎性以及問題-方法組合新穎性三項的算數(shù)平均值,即
若一篇論文存在多個問題與方法,則逐個計算問題詞、方法詞以及所有的問題-方法組合的新穎性,對這些新穎性得分取算數(shù)平均值就得到論文新穎性。
采用訓(xùn)練得到的詞向量模型SciBERT-further 計算得到所選問題詞和方法詞的詞向量,并根據(jù)公式(1)~公式(4)計算詞和組合的新穎性。由于計算出的新穎性得分均較小,不能顯著體現(xiàn)不同組合之間的差異性,為便于數(shù)據(jù)可視化分析,本文對數(shù)值小于1的新穎性得分進行了分值歸一化處理,計算方式為
其中,noveltyNormal 表示歸一化后的新穎性得分,取值范圍為[0,1);noveltyScore 表示計算出的詞和組合的新穎性得分,noveltyScoremin表示測試集數(shù)據(jù)中新穎性得分的最小值,noveltyScoremax表示測試集數(shù)據(jù)中新穎性得分最大值;為避免分母為0,在分母中加上常數(shù)t,這里取t=0.001。
通過上文的模型訓(xùn)練與新穎性計算,得到了測試集中200 篇論文的“問題-方法”新穎性得分,其中“問題”詞、“方法”詞和“問題-方法”組合的新穎性得分取值范圍均為[0,1],具體分布如圖5 所示。圖中綠色的圓點表示“問題-方法”組合新穎性得分,圓點左邊藍色和右邊黃色的柱狀線分別表示論文研究問題和研究方法的新穎性得分。由統(tǒng)計數(shù)據(jù)和圖6 可知,2018 年發(fā)表的200 篇論文中,“舊問題+舊方法”的論文有1 篇,占所有測試論文的0.5%,說明對于ACM 數(shù)據(jù)庫中收錄的計算機領(lǐng)域的論文而言,同一個研究問題采用與已有研究完全相同的方法進行研究的論文占極少數(shù),而多數(shù)研究屬于“新問題+舊方法”或者“舊問題+新方法”的組合。此外,“新問題+新方法”的論文有95 篇,占所有測試論文的47.5%,由此可見,近半數(shù)的研究具有問題和方法兩個層面的創(chuàng)新。
圖5 基于語義相似度的“問題-方法”新穎性得分(彩圖請見https://qbxb.istic.ac.cn/CN/volumn/home.shtml)
圖6 “問題-方法”新穎性取值分布區(qū)間
此外,本文對三類新穎性得分進行了區(qū)間分布統(tǒng)計,按區(qū)間將新穎性取值分為5 個部分:區(qū)間1,新穎性得分為0;區(qū)間2,新穎性得分取值范圍(0,0.3];區(qū)間3,新穎性得分取值范圍(0.3,0.6];區(qū)間4,新穎性得分取值范圍(0.6,1);區(qū)間5,新穎性得分取值為1。本文將詞匯新穎性的閾值設(shè)置為同類型所有詞新穎性得分的中位數(shù),統(tǒng)計結(jié)果表明,本實驗中問題詞和方法詞新穎性閾值均為1。
由圖6 可見,測試集中的問題詞和方法詞的新穎性值的數(shù)量分布在5 個區(qū)間的呈現(xiàn)一致性,即位于區(qū)間1 的新穎性為0 的最少,而新穎性為1 的最多,說明在ACM 收錄的論文中無論是研究問題還是研究方法,與已有的主題完全重合的占比非常小,只占到所有分析數(shù)據(jù)的0.5%,而70.5%的問題詞和方法詞的新穎性為1,即在已有的主題詞空間中均未出現(xiàn)過。從“問題-方法”組合的角度看,組合新穎性值要整體小于單個問題詞或單個方法詞的新穎性值的分布,新穎性為1 的組合占所有測試數(shù)據(jù)的47.5%,組合新穎性值位于區(qū)間3 和區(qū)間4 的數(shù)據(jù)占所有數(shù)據(jù)的51.5%,表明“問題-方法”組合中有一半是具有中度新穎性的。整體而言,通過詞向量語義相似度計算的不同新穎性區(qū)間的數(shù)值差異明顯,問題詞和方法詞在不同新穎性區(qū)間的數(shù)量分布呈現(xiàn)相同的分布特征,亦表明不同功能的詞匯在語義相似度上具有一致性,說明本文提出的基于詞向量語義距離計算的“問題-方法”組合新穎性能夠測度不同詞匯之間的新穎性差異。
采用以上方式計算出論文的“問題-方法”組合新穎性的得分后,為進一步解釋該方法的度量效果,本文分別從高新穎性的高被引和高頻詞兩個角度對結(jié)果進行實例分析。
從高新穎性和高被引角度來看,本文結(jié)合論文的被引量指標(biāo),從高新穎性得分(問題、方法、組合新穎性得分均為1)的論文中,列舉了排名前五的論文,如表2 所示。由表2 可知,新穎的研究主題包括用戶和項目關(guān)系學(xué)習(xí)、Ad-Hoc 搜索、上下文感知計算系統(tǒng)、網(wǎng)絡(luò)型數(shù)據(jù)挖掘、個性化檢索等,與主題相對應(yīng)的新穎的研究方法包括潛在關(guān)系度量學(xué)習(xí)、語法軟匹配、將語境利用在遞歸推薦系統(tǒng)中、基于相似度的多功能圖嵌入和隨機點擊模型。由此可見,對計算機領(lǐng)域近些年的研究而言,若以論文的被引量代表論文的影響力,從問題和方法組合新穎性的角度來看,ACM 數(shù)據(jù)庫中收錄的新穎性和影響較強的論文研究主題與信息檢索、用戶信息行為、推薦系統(tǒng)密切相關(guān),問題的解決方法則采用深度學(xué)習(xí)、人機協(xié)同、圖網(wǎng)絡(luò)等衍生方法,與用戶行為、情境感知、決策匹配等情景的相關(guān)性更高。
表2 ACM數(shù)據(jù)庫2018年高新穎性論文示例
從詞頻角度來看,詞的出現(xiàn)次數(shù)能夠反映該話題的熱度和關(guān)注度。本文統(tǒng)計了測試集中問題詞和方法詞的頻次,并分別選取了2 個高頻問題詞和2個高頻方法詞,獲取與其相關(guān)的論文信息,如表3所示。高頻問題詞“人機交互(human-robot interac‐tion)”和“無線網(wǎng)絡(luò)(wireless network)”是計算機領(lǐng)域經(jīng)典的研究問題。示例論文Q1-1 和Q1-2 圍繞經(jīng)典研究問題“人機交互”開展了研究,Q1-1 討論了如何進一步探索不同的反饋方法,并研究它們對信任、控制分配和工作負載的影響,屬于采用新方法解決舊問題的研究。論文Q1-2 開發(fā)了一個基于任務(wù)對話和聊天機器人的人機交互多通道系統(tǒng),并證明了該系統(tǒng)中應(yīng)用強化學(xué)習(xí)是有益的,是舊問題+舊方法新組合類的研究。這兩篇論文研究了同樣的舊研究問題,Q1-2 采用了熱門的深度學(xué)習(xí)模型強化學(xué)習(xí)(reinforce learning),在發(fā)表后獲得了比Q1-1 更高的被引量,表明用舊方法+舊問題組合在新穎性上可能比新方法+舊問題弱一點,但是影響力不一定比新方法低,因為舊方法可能在某階段引起了大量的研究興趣,例如,Q1-2 中的“強化學(xué)習(xí)”一詞雖然在1998 年就已出現(xiàn),但隨著近些年智能計算和深度學(xué)習(xí)的發(fā)展,強化學(xué)習(xí)再度受到了較多的關(guān)注。示例論文Q2-1 和Q2-2 研究了計算機工程領(lǐng)域無線網(wǎng)絡(luò)(wireless network)的問題。Q2-1提出了一個處理器支持的超低延遲調(diào)度實現(xiàn)PULS(propellant utilization loading system),用于測試無限網(wǎng)絡(luò)下行調(diào)度協(xié)議的超低延遲需求。Q2-2 提出了無線網(wǎng)絡(luò)拓撲選擇和組件規(guī)模調(diào)整的設(shè)計空間探索方法,其新穎性類別為舊問題+舊方法的新組合,研究方法是舊方法且受到的關(guān)注較少,發(fā)表后獲得的被引量較低。
表3 高頻問題詞和方法詞組合論文示例
高頻方法詞社交媒體(social media)和機器學(xué)習(xí)(machine learning)是近年來人工智能方向的熱點詞,示例論文M1-1 和M1-2 研究了“社交媒體”作為研究方法時的應(yīng)用。M1-1 研究了人們?nèi)绾慰创缃幻襟w在其社區(qū)中支持預(yù)防犯罪的使用,屬于常規(guī)舊問題+舊方法的新組合,新穎性較低且發(fā)表后獲得的引文量較少。M1-2 研究了人們對社交媒體新聞的態(tài)度,研究結(jié)果突出了打擊假新聞傳播的困難,該研究是將舊的研究方法應(yīng)用在新的熱門研究問題“虛假新聞檢測”上的案例,問題的新穎性使論文獲得了較大的關(guān)注。示例論文M2-1 和M2-2是將機器學(xué)習(xí)作為研究方法的應(yīng)用案例。M2-1 開展了將機器學(xué)習(xí)技術(shù)應(yīng)用于預(yù)測醫(yī)院重癥監(jiān)護室病人死亡率的研究,是用舊方法解決新問題的案例。M2-2 圍繞機器學(xué)習(xí)在軟件工程中所面臨的挑戰(zhàn),以及機器學(xué)習(xí)如何從軟件工程方法中受益開展了研究,是舊問題與舊方法的新組合的案例。這兩篇論文是機器學(xué)習(xí)技術(shù)應(yīng)用于不同領(lǐng)域的案例,均獲得了10 次引用,表明機器學(xué)習(xí)技術(shù)具有較強的推廣應(yīng)用性。整體而言,無論是對于高頻問題詞還是方法詞而言,新穎性僅是從詞的新舊層面測量新穎性,而論文發(fā)表后的被引量不僅取決于研究問題或研究方法的新穎程度,還受到研究問題本身的適用性的影響。
由上述分析可知,論文研究問題或方法的新穎性與發(fā)表后一定時期內(nèi)能獲得的被引量有一定聯(lián)系,但計算組合新穎性得分與被引量之間的相關(guān)性發(fā)現(xiàn),其未達到顯著程度,將其可能的原因總結(jié)為兩點。其一,對于某些研究問題,方法的創(chuàng)新可能獲得更大的影響,這是由于有的經(jīng)典問題本身就帶著“光環(huán)效應(yīng)”,它可能是一個還未攻克的難題或瓶頸,也可能本就屬于熱點問題。其二,論文發(fā)表后的被引量或許可以反映一定的新穎性,但卻不能完全揭示新穎性或創(chuàng)新性的特征內(nèi)涵。一方面,對于經(jīng)典的理論或方法,新穎性的研究會面臨一些來自外部的阻力,包括來自現(xiàn)有科學(xué)范式的抵制[52];另一方面,由于受限于研究問題范圍的影響,也許在該問題上某方法的新穎性較高,但是這個問題還沒有受到相應(yīng)的關(guān)注,或許需要更長的時間才能發(fā)現(xiàn)其新穎性并將其納入后續(xù)的研究中。
本文提出的基于語義相似度的“問題-方法”組合新穎性計算方法是深度學(xué)習(xí)模型在詞匯新穎性度量上的應(yīng)用。為進一步比較本文提出的方法與已有方法的差異,利用錢佳佳等[19]提出的基于問題-方法組合共現(xiàn)率的科技論文新穎性計算公式,計算了200 條分析數(shù)據(jù)的共現(xiàn)率新穎性,將該方法計算的問題新穎性、方法新穎性、組合新穎性和論文新穎性的結(jié)果與本文提出的語義新穎性計算結(jié)果進行了比較,如圖7a~圖7d 所示。其中quesNov、meth‐odNov、combNov 和paperVov 分別表示問題詞、方法詞、組合和論文的語義新穎性計算結(jié)果,nov_Q、nov_M、nov_Q2M 和nov_D 分別表示問題詞、方法詞、組合和論文的詞頻共現(xiàn)率新穎性計算結(jié)果。圖7 中三角形表示本文語義新穎性計算結(jié)果,圓點表示共現(xiàn)率新穎性的計算結(jié)果。對于單個詞的新穎性,由圖7a 和圖7b 可知,共現(xiàn)率新穎性的計算結(jié)果呈現(xiàn)明顯的兩極分化,集中在新穎性為1 和新穎性小于0.6。相較而言,語義新穎性的分布更為均勻,表明基于詞匯語義方法捕捉到的新穎性更為精準(zhǔn),這一現(xiàn)象在圖7c 中得到了更為顯著的驗證。由圖7c 可知,共現(xiàn)率新穎性的計算結(jié)果幾乎全部集中在新穎性為1 的區(qū)域,表明用該方法計算的組合新穎得分幾乎全部是1,象征著問題-方法組合都是一樣的新穎性,然而實際情況中的組合并不都是新穎的,受限于基于詞頻共現(xiàn)率的新穎性計算的局限性,該方法不能區(qū)分更為細微的新穎性差異;而基于語義的新穎性計算方法彌補了該方法的這一局限,能夠捕獲細微的差異。例如,語義新穎性計算方法計算的augment reality 和augment reality game 之間的差異就比augment reality 和blockchain 之間的差異要小,前兩者在向量空間中更為接近,相似度更高且相對新穎性不如后兩者;而基于詞頻共現(xiàn)率的新穎性計算認為這兩組詞的相對新穎性是一樣的,這將會在較大程度上損失新穎性測度精度。共現(xiàn)率新穎性計算方法中的實驗將論文新穎性計算公式中的問題、方法和問題-方法對的權(quán)重分別設(shè)為0.25、0.25 和0.5,即給問題-方法組合更大的權(quán)重,該做法在組合新穎性的理論層面是有意義的,然而受限于基于詞頻共現(xiàn)的新穎性計算方法,論文新穎性結(jié)果的整體分布更為緊密(聚集在0.8 附近),導(dǎo)致新穎性結(jié)果的差異更小,如圖7d 所示??偟膩碚f,對比實驗的結(jié)果表明,基于語義相似度的問題-方法組合新穎性計算方法要優(yōu)于基于詞頻共現(xiàn)的新穎性計算方法,前者利用詞向量的空間語義捕捉優(yōu)勢能計算出更為精細的新穎性。
圖7 兩種新穎性計算方法對比
科學(xué)問題作為科學(xué)研究的邏輯起點,其解決方法是促進科學(xué)研究深入與發(fā)展的助推器??茖W(xué)研究問題和研究方法的識別對科技前沿追蹤和創(chuàng)新研究發(fā)現(xiàn)具有重要研究意義。近年來隨著內(nèi)容分析研究的流行,從學(xué)術(shù)文本內(nèi)容視角對學(xué)術(shù)論文進行細粒度挖掘,是圖書情報學(xué)領(lǐng)域的一個新視角,其中學(xué)術(shù)論文詞匯語義功能的識別能夠幫助學(xué)者快速了解學(xué)術(shù)論文的核心內(nèi)容,有助于厘清研究問題、研究方法的演化過程和發(fā)展模式,輔助于論文創(chuàng)新識別和新穎性度量研究。
本文以組合創(chuàng)新理論為基礎(chǔ),以具備詞匯語義功能的學(xué)術(shù)論文問題詞和方法詞為數(shù)據(jù),從問題與方法組合的語義層面研究了論文新穎性度量方法。與已有新穎性計算方法進行比較,發(fā)現(xiàn)本文提出的方法能捕獲問題詞、方法詞和問題-方法組合之間更為精細的新穎性差異。本文的不足之處是問題詞和方法詞的識別效果在某種程度上會影響論文新穎性計算結(jié)果。本文提出的計算方法更類似于計算機領(lǐng)域新穎性追蹤(novelty track)的方法,該方法是獨立于問題詞和方法詞本身的,但結(jié)果的解釋卻依賴于詞匯識別結(jié)果,更為準(zhǔn)確的詞匯識別結(jié)果將會使本文的研究結(jié)果更具有可解釋性和延伸價值,如用于新穎性和影響力之間的關(guān)系分析、創(chuàng)新擴散的規(guī)律分析等研究上。此外,問題新穎性、方法新穎性及組合新穎性與論文影響力之間的聯(lián)系也是值得進一步探索的方向。