曹樹(shù)金 曹茹燁
(中山大學(xué)信息管理學(xué)院,廣東 廣州 510006)
習(xí)近平總書(shū)記曾提到,“科技創(chuàng)新,就像撬動(dòng)地球的杠桿”[1]。黨的十八大以來(lái),我國(guó)大力實(shí)施創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略,努力實(shí)現(xiàn)高水平科技自立自強(qiáng)。為更好地支持創(chuàng)新,圖書(shū)館學(xué)情報(bào)學(xué)應(yīng)責(zé)無(wú)旁貸地將關(guān)于創(chuàng)新成果的記錄加工為認(rèn)識(shí)創(chuàng)新、引領(lǐng)創(chuàng)新的情報(bào)??萍颊撐淖鳛榛A(chǔ)研究類科技活動(dòng)的主要成果,是科技創(chuàng)新情報(bào)的源頭。目前,我國(guó)科技論文總體產(chǎn)出持續(xù)增長(zhǎng),據(jù)中國(guó)科學(xué)技術(shù)信息研究所發(fā)布的《2021年中國(guó)科技論文統(tǒng)計(jì)報(bào)告》顯示,我國(guó)在國(guó)際頂尖期刊中的論文數(shù)量升至世界第2位[2]。高質(zhì)量科技論文的大幅增加使得多樣化的創(chuàng)新觀點(diǎn)和創(chuàng)新性解決方案不斷被提出,同時(shí)也在不斷被替代和更新,體現(xiàn)了科技創(chuàng)新成果具有的價(jià)值時(shí)效性。如何從已有的成果中發(fā)現(xiàn)創(chuàng)新情報(bào),幫助科研人員準(zhǔn)確把握科技創(chuàng)新規(guī)律,從現(xiàn)有創(chuàng)新中汲取經(jīng)驗(yàn)進(jìn)而提高創(chuàng)新活動(dòng)效率,就需要通過(guò)對(duì)科技論文創(chuàng)新點(diǎn)的識(shí)別和創(chuàng)新知識(shí)的挖掘來(lái)實(shí)現(xiàn)。同時(shí),科技論文創(chuàng)新點(diǎn)的識(shí)別也有助于從內(nèi)容角度為科學(xué)評(píng)價(jià)科技成果的多元價(jià)值提供新的思路,更好地貫徹習(xí)近平總書(shū)記關(guān)于“堅(jiān)持正確的科技成果評(píng)價(jià)導(dǎo)向”思想[3],完善科技成果評(píng)價(jià)機(jī)制。反之,科技成果評(píng)價(jià)的結(jié)果也有利于創(chuàng)新情報(bào)的獲取與利用。
識(shí)別科技論文中的創(chuàng)新點(diǎn)需要先明確創(chuàng)新的含義。關(guān)于論文創(chuàng)新,有學(xué)者認(rèn)為是對(duì)已有知識(shí)成分進(jìn)行前所未有的重組[4],亦或在研究成果中提出一些新概念,比如Heinze T等指出的新現(xiàn)象、新方法、革命性新理論等[5]。根據(jù)Diego I M D等的觀點(diǎn),一篇論文的創(chuàng)新點(diǎn)是與先前知識(shí)相比的不同之處[6]??梢?jiàn),創(chuàng)新是一個(gè)相對(duì)的概念,現(xiàn)有研究的創(chuàng)新是相對(duì)于先前研究而言。然而,創(chuàng)新本身及其表述具有復(fù)雜性和多樣性,是隱藏在語(yǔ)義空間的知識(shí)單元。對(duì)創(chuàng)新點(diǎn)的挖掘首先需要從語(yǔ)義層面進(jìn)行知識(shí)揭示。目前,最為高效、智能的知識(shí)組織形式為知識(shí)圖譜,它能夠?qū)?shí)體、概念、實(shí)體間關(guān)系轉(zhuǎn)換為基于圖的語(yǔ)義網(wǎng)絡(luò),并以“實(shí)體—關(guān)系—實(shí)體”的三元組形式表達(dá)??萍颊撐牡难芯?jī)?nèi)容可以由若干個(gè)三元組進(jìn)行概括,隱藏在研究?jī)?nèi)容中的創(chuàng)新點(diǎn)必然會(huì)在三元組中有所體現(xiàn),表現(xiàn)為三元組中某一個(gè)或多個(gè)新的元素。
本文將利用知識(shí)圖譜挖掘和呈現(xiàn)特定領(lǐng)域現(xiàn)有科技論文中的知識(shí)元素,作為新發(fā)表論文創(chuàng)新點(diǎn)識(shí)別的比對(duì)庫(kù),發(fā)現(xiàn)論文中新出現(xiàn)的實(shí)體或關(guān)系,即創(chuàng)新點(diǎn)。由于科學(xué)技術(shù)是不斷進(jìn)步的,科技創(chuàng)新活動(dòng)是一個(gè)動(dòng)態(tài)過(guò)程,將從現(xiàn)階段研究成果中識(shí)別出的創(chuàng)新點(diǎn)補(bǔ)充入知識(shí)圖譜中,可以作為后續(xù)成果創(chuàng)新點(diǎn)抽取的參照,從而實(shí)現(xiàn)科技論文創(chuàng)新點(diǎn)的動(dòng)態(tài)識(shí)別。本文旨在從理論層面進(jìn)一步豐富科技論文知識(shí)抽取與創(chuàng)新識(shí)別的方法,為現(xiàn)有科技成果的創(chuàng)新性評(píng)價(jià)提供新思路;從實(shí)踐層面為研究人員提供創(chuàng)新情報(bào),促進(jìn)更多的科技創(chuàng)新。
科研論文創(chuàng)新點(diǎn)的識(shí)別包括句子級(jí)[7]和知識(shí)元級(jí)別[8]的抽取,多采用基于本體、基于規(guī)則或機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)。Cannon D C等開(kāi)發(fā)了TIN-X應(yīng)用程序,通過(guò)對(duì)生物醫(yī)學(xué)文獻(xiàn)的文本挖掘,提供基于本體的創(chuàng)新點(diǎn)識(shí)別[9]。溫有奎等構(gòu)建了科研成果創(chuàng)新點(diǎn)的本體模型,并利用特征詞模式匹配的方法對(duì)碎片化科研創(chuàng)新點(diǎn)進(jìn)行動(dòng)態(tài)挖掘[10]。也有學(xué)者以領(lǐng)域詞表和本體中的關(guān)系為基礎(chǔ)構(gòu)建識(shí)別規(guī)則,然后采用基于主題詞重疊度的冗余度計(jì)算方法過(guò)濾出創(chuàng)新點(diǎn)[7]。Ert?z L等將論文的創(chuàng)新檢測(cè)轉(zhuǎn)化為主題聚類問(wèn)題,認(rèn)為如果一個(gè)主題下僅涵蓋一篇論文,那么該論文的主題具有創(chuàng)新性,采用的方法是最近鄰聚類算法[11]。溫浩等提出了一種基于機(jī)器學(xué)習(xí)的認(rèn)知分析方法,通過(guò)詞匯語(yǔ)義分布一致性分析、謂語(yǔ)動(dòng)詞語(yǔ)義理解、語(yǔ)用功能分類等層面對(duì)學(xué)術(shù)文摘的創(chuàng)新點(diǎn)進(jìn)行了挖掘[12]。周海晨等利用BERT深度學(xué)習(xí)模型結(jié)合細(xì)粒度抽取規(guī)則實(shí)現(xiàn)對(duì)學(xué)術(shù)論文中創(chuàng)新貢獻(xiàn)短語(yǔ)的識(shí)別[13]。曹樹(shù)金等利用BERT深度學(xué)習(xí)模型結(jié)合依存句法分析,識(shí)別論文創(chuàng)新句并提煉出創(chuàng)新對(duì)象與創(chuàng)新維度[14]。Amplayo R K等以arXiv開(kāi)放獲取網(wǎng)站中一定時(shí)間范圍內(nèi)的科技論文作為數(shù)據(jù)集,構(gòu)建了基于作者、關(guān)鍵詞、主題詞等實(shí)體的引用圖譜,當(dāng)新的論文被添加時(shí)圖會(huì)發(fā)生變化,這些變化量體現(xiàn)了該論文的創(chuàng)新點(diǎn),將其輸入自動(dòng)編碼器神經(jīng)網(wǎng)絡(luò)中可以進(jìn)行創(chuàng)新檢測(cè)[15]。
知識(shí)圖譜是2012年由Google提出的概念,其本質(zhì)是一種語(yǔ)義網(wǎng)絡(luò),可分為通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜,前者面向全領(lǐng)域,常用于知識(shí)問(wèn)答與檢索、信息推薦等場(chǎng)景,比如DBpedia、Yago、Wikidata等。領(lǐng)域知識(shí)圖譜則將知識(shí)的覆蓋范圍和使用方式限定于特定領(lǐng)域[16]。近年來(lái),一些科研機(jī)構(gòu)和學(xué)者開(kāi)始探索學(xué)術(shù)領(lǐng)域知識(shí)圖譜的構(gòu)建與應(yīng)用。云南省高校數(shù)據(jù)科學(xué)與智能計(jì)算重點(diǎn)實(shí)驗(yàn)室構(gòu)建了“基于COVID-19論文集的學(xué)術(shù)知識(shí)圖譜”(OpenKG),上海交通大學(xué)構(gòu)建了知識(shí)圖譜AceKG,都涵蓋了豐富的學(xué)術(shù)屬性信息,實(shí)體類型涉及論文、作者、機(jī)構(gòu)、研究領(lǐng)域[17]。Zhao H X等基于Text CNN的主題信息抽取模型,自動(dòng)抽取科技文獻(xiàn)的主題、標(biāo)題、狀態(tài)、會(huì)議、組織機(jī)構(gòu)等信息,構(gòu)建技術(shù)領(lǐng)域知識(shí)圖譜[18]。Rossanez A等提出了一種基于規(guī)則的半自動(dòng)方法,從一組生物醫(yī)學(xué)論文的摘要中識(shí)別生物醫(yī)學(xué)命名實(shí)體和關(guān)系,生成知識(shí)圖譜,并將其鏈接到生物醫(yī)學(xué)領(lǐng)域的本體中[19]。Xu R等采用一種半監(jiān)督迭代學(xué)習(xí)方法,從生物醫(yī)學(xué)文獻(xiàn)中提取疾病與疾病風(fēng)險(xiǎn)的關(guān)系對(duì),生成知識(shí)庫(kù)用于輔助疾病病因發(fā)現(xiàn)[20]。鐘將等以人工智能、大數(shù)據(jù)等領(lǐng)域的最新科技論文為語(yǔ)料集,構(gòu)建了一個(gè)學(xué)術(shù)知識(shí)圖譜,并設(shè)計(jì)了基于輔助任務(wù)意圖信息增強(qiáng)神經(jīng)網(wǎng)絡(luò)方法的問(wèn)答系統(tǒng)[21]。此外,有學(xué)者針對(duì)圖書(shū)情報(bào)領(lǐng)域,分別構(gòu)建了面向?qū)W術(shù)論文創(chuàng)新內(nèi)容[22]和面向知識(shí)問(wèn)答系統(tǒng)[23]的知識(shí)圖譜。
知識(shí)抽取是知識(shí)圖譜構(gòu)建的前提和基礎(chǔ),包括實(shí)體識(shí)別和關(guān)系抽取。命名實(shí)體識(shí)別研究經(jīng)歷了從早期基于規(guī)則與字典的方法,到隱馬爾可夫模型(HMM)、條件隨機(jī)場(chǎng)(CRF)等傳統(tǒng)機(jī)器學(xué)習(xí)方法,再到深度學(xué)習(xí)方法的發(fā)展過(guò)程。近年來(lái),不少學(xué)者開(kāi)始探索深度學(xué)習(xí)模型的結(jié)合或變體,改進(jìn)模型效果。目前使用較為廣泛的有LSTM-CRF[24]、Bi-LSTM-CRF模型[25],還有適用于小規(guī)模語(yǔ)料集的遷移學(xué)習(xí)模型,比如一些學(xué)者提出的Trans-NER[26]、TrBiLSTM-CRF[27]以及基于遠(yuǎn)程監(jiān)督的深度遷移學(xué)習(xí)命名實(shí)體識(shí)別模型[28]。關(guān)系抽取即通常所說(shuō)的“三元組”抽取。在關(guān)系抽取的相關(guān)研究中,有學(xué)者采用語(yǔ)義角色標(biāo)注(SRL)[29]、依賴于句法模式的依存句法分析[30]等方法。隨著深度學(xué)習(xí)的發(fā)展,關(guān)系抽取的手段更加多樣化,并通常被作為分類問(wèn)題處理,即預(yù)先定義好關(guān)系類型的限定域關(guān)系抽取。比如Zhang D等采用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)[31]、Liu C Y等采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)[32]進(jìn)行實(shí)體關(guān)系的識(shí)別與抽取。潘理虎等提出了一種融合位置、詞性和句法依存等信息的分段卷積神經(jīng)網(wǎng)絡(luò),用于小樣本關(guān)系抽取[33]。除此以外,基于遠(yuǎn)程監(jiān)督的關(guān)系抽取以及實(shí)體關(guān)系的聯(lián)合抽取模型也在不斷被發(fā)掘。
以上研究為本文提供了重要的理論依據(jù)和方法參考。但在科研論文創(chuàng)新點(diǎn)識(shí)別的相關(guān)研究中,大都僅考慮了主題詞、短語(yǔ)等孤立的元素,未考慮到它們之間的語(yǔ)義關(guān)系,并且較少涉及創(chuàng)新點(diǎn)的動(dòng)態(tài)識(shí)別。另外,在現(xiàn)有的學(xué)術(shù)領(lǐng)域知識(shí)圖譜的構(gòu)建與應(yīng)用研究中,較少將其用于學(xué)術(shù)搜索和問(wèn)答以外的其他場(chǎng)景中,更未發(fā)現(xiàn)將知識(shí)圖譜作為科技論文創(chuàng)新點(diǎn)識(shí)別及科技成果評(píng)價(jià)的工具來(lái)使用。因此,本研究將以“人工智能+神經(jīng)病學(xué)”交叉領(lǐng)域的中文科技論文為例,從文獻(xiàn)摘要中抽取出代表論文研究問(wèn)題、方法、技術(shù)要點(diǎn)、結(jié)論等的實(shí)體及關(guān)系集合,構(gòu)建知識(shí)圖譜,并基于所構(gòu)建的知識(shí)圖譜動(dòng)態(tài)識(shí)別中文科技論文的創(chuàng)新點(diǎn)。
著名的英國(guó)情報(bào)學(xué)家布魯克斯于1974年提出了情報(bào)作用于知識(shí)結(jié)構(gòu)的方程K(S)+ΔI=K[S+ΔS][34]。其中,K(S)是個(gè)人原有的知識(shí)結(jié)構(gòu),ΔI是人們能夠理解并整合到自己原有知識(shí)結(jié)構(gòu)中的情報(bào),K[S+ΔS]則是新的知識(shí)結(jié)構(gòu)。此方程強(qiáng)調(diào)了ΔI的重要性,這一小部分的情報(bào)帶來(lái)的不僅是知識(shí)量的變化,還是整個(gè)知識(shí)結(jié)構(gòu)的改變。在此基礎(chǔ)上,1980年布魯克斯又發(fā)表了《情報(bào)學(xué)基礎(chǔ)》的系列論文,主張情報(bào)學(xué)的核心任務(wù)是探索與組織客觀知識(shí),并提出了“認(rèn)知地圖”的概念,被稱為“天才設(shè)想”?!罢J(rèn)知地圖”是對(duì)文獻(xiàn)中的邏輯內(nèi)容進(jìn)行分析,找到人們?cè)谥R(shí)創(chuàng)造過(guò)程中相互影響及聯(lián)系的節(jié)點(diǎn),通過(guò)類似地圖的形式直觀展示知識(shí)的有機(jī)結(jié)構(gòu)[35]。有學(xué)者認(rèn)為廣義的認(rèn)知地圖是基于認(rèn)知科學(xué)的人類對(duì)事物及其關(guān)系的關(guān)聯(lián)圖示,包括概念地圖、專家地圖、知識(shí)網(wǎng)絡(luò)、社會(huì)網(wǎng)絡(luò)、語(yǔ)義網(wǎng)絡(luò)等[36]。
知識(shí)圖譜作為一種揭示實(shí)體間關(guān)系的語(yǔ)義網(wǎng)絡(luò),是知識(shí)結(jié)構(gòu)的最新表示形式,也可以看作“認(rèn)知地圖”的高級(jí)形態(tài)。本文嘗試將布魯克斯的知識(shí)結(jié)構(gòu)方程擴(kuò)展到一個(gè)領(lǐng)域的知識(shí)結(jié)構(gòu)及其變化來(lái)表述創(chuàng)新。利用知識(shí)圖譜呈現(xiàn)特定領(lǐng)域已有研究成果中的知識(shí)結(jié)構(gòu)K(S),發(fā)現(xiàn)新增成果中的創(chuàng)新情報(bào)(體現(xiàn)為論文中的創(chuàng)新點(diǎn))即ΔI,然后將ΔI添加入K(S)中,形成該領(lǐng)域新的知識(shí)結(jié)構(gòu)。隨著科研創(chuàng)新成果的不斷產(chǎn)出,重復(fù)以上過(guò)程,不斷識(shí)別創(chuàng)新點(diǎn),不斷發(fā)現(xiàn)創(chuàng)新情報(bào),不斷更新領(lǐng)域知識(shí)結(jié)構(gòu),有益于領(lǐng)域的持續(xù)創(chuàng)新。
2.2.1 研究框架
本研究總體框架如圖1所示。主要分為兩個(gè)階段:一是構(gòu)建交叉學(xué)科領(lǐng)域知識(shí)圖譜;二是基于知識(shí)圖譜識(shí)別科技論文中的創(chuàng)新點(diǎn)并補(bǔ)充知識(shí)庫(kù)形成動(dòng)態(tài)識(shí)別機(jī)制。首先,知識(shí)圖譜的構(gòu)建方式有兩種:自頂向下和自底向上。自頂向下需要先定義本體,構(gòu)建模式層,然后將實(shí)體加入知識(shí)庫(kù),即構(gòu)建數(shù)據(jù)層;自底向上的方法則是先對(duì)數(shù)據(jù)進(jìn)行分析,抽取出實(shí)體和關(guān)系,進(jìn)行匯總后構(gòu)建上層的模式層。本研究將采用自底向上的方法,選取近年來(lái)熱門(mén)且筆者較為熟悉的研究領(lǐng)域,即“人工智能+神經(jīng)病學(xué)”中所有的中文科技論文摘要作為語(yǔ)料集。因?yàn)檎ǔ0钪匾母拍詈椭R(shí),而避免了其他部分理論基礎(chǔ)(背景、相關(guān)研究等理論基礎(chǔ))的干擾[37]。之后,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括文獻(xiàn)去重、數(shù)據(jù)清洗、句子切分等步驟。在數(shù)據(jù)收集階段預(yù)留出近期發(fā)表的科技論文作為待分析的對(duì)象,其余文獻(xiàn)納入語(yǔ)料集中。在知識(shí)圖譜構(gòu)建模塊,首先需要進(jìn)行知識(shí)抽取,擬采用實(shí)體與實(shí)體關(guān)系聯(lián)合抽取的方法,預(yù)先設(shè)定實(shí)體及關(guān)系類別,采用Bert4keras深度學(xué)習(xí)框架訓(xùn)練知識(shí)抽取模型,抽取出語(yǔ)料集中所有指定類型的三元組。然后進(jìn)行知識(shí)融合、知識(shí)存儲(chǔ)與可視化,構(gòu)建知識(shí)圖譜。最后,采用訓(xùn)練好的知識(shí)抽取模型抽取出待分析論文中的三元組,與知識(shí)圖譜中的實(shí)體及關(guān)系進(jìn)行對(duì)比,識(shí)別創(chuàng)新點(diǎn),并將其補(bǔ)充入知識(shí)圖譜中,如此循環(huán)往復(fù)形成動(dòng)態(tài)識(shí)別模式。
圖1 總體研究框架
2.2.2 知識(shí)抽取
1)定義Schema約束集合。知識(shí)圖譜的最小單元由兩個(gè)節(jié)點(diǎn)及它們之間的關(guān)系構(gòu)成,在NLP領(lǐng)域一般被稱為“SPO三元組”,可表示為(主語(yǔ),謂語(yǔ),賓語(yǔ)),即(Subject,Predicate,Object),SPO三元組正是知識(shí)抽取的對(duì)象。在進(jìn)行實(shí)體關(guān)系抽取任務(wù)之前先定義好需要什么樣的實(shí)體和實(shí)體關(guān)系,而用來(lái)描述實(shí)體類型、關(guān)系類型及它們之間搭配的一般模式被稱為“Schema”,如表1所示。
表1 Schema舉例
本文分析的對(duì)象是非結(jié)構(gòu)化的文本數(shù)據(jù),字段的含義、數(shù)量和內(nèi)容等都是不明確的。因此,在定義Schema約束集合時(shí),主要依據(jù)科技論文摘要的內(nèi)容進(jìn)行提煉。首先,將中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心開(kāi)發(fā)的科技文獻(xiàn)知識(shí)AI引擎(SciAIEngine)作為輔助工具。SciAIEngine提供了科技文獻(xiàn)分類、關(guān)鍵詞識(shí)別及命名實(shí)體識(shí)別等各項(xiàng)功能,可通過(guò)平臺(tái)的API接口進(jìn)行使用。本文借助SciAIEngine中的中文科研實(shí)體識(shí)別功能和中文醫(yī)學(xué)領(lǐng)域?qū)嶓w識(shí)別功能,參考兩個(gè)功能模塊實(shí)體識(shí)別的結(jié)果確定實(shí)體的類型,并從摘要內(nèi)容本身確定實(shí)體關(guān)系的類型。其次,對(duì)初步定義的實(shí)體及關(guān)系類型進(jìn)行篩選,篩選的標(biāo)準(zhǔn)是能夠反映論文研究問(wèn)題、方法、主要結(jié)論、關(guān)鍵技術(shù)等內(nèi)容的描述,確定最終的Schema框架。
2)基于Bert4keras的知識(shí)抽取。Bert4keras是一個(gè)開(kāi)源的基于Keras的文本預(yù)訓(xùn)練框架,可支持BERT、RoBERTa、ALBERT、NEZHA等多種預(yù)訓(xùn)練模型,相較于Google的BERT源碼更加簡(jiǎn)潔。在實(shí)際的三元組抽取任務(wù)中,句子結(jié)構(gòu)較為復(fù)雜,從一個(gè)句子中會(huì)抽出多個(gè)三元組。比如“針灸可以治療面癱和神經(jīng)痛”抽取的結(jié)果是1個(gè)S和多個(gè)(P,O),即(針灸,治療,面癱)和(針灸,治療,神經(jīng)痛);此外還可以有“多個(gè)S、1個(gè)(P,O)”,如“針灸和熱敷都可以用于治療面癱”,以及“1對(duì)(S,O)和多個(gè)P”,如“支氣管鏡可以診斷并治療氣道異物”等各種形式。針對(duì)此類復(fù)雜的信息抽取任務(wù),蘇劍林借鑒了Seq2seq概率圖的思想,先預(yù)測(cè)S,之后傳入S來(lái)抽取O、P,并采取了一種“半指針—半標(biāo)注”的策略,在關(guān)系分類時(shí)用Sigmoid激活函數(shù)代替Softmax[38]。在此基礎(chǔ)上,他提出了一種基于BERT的三元組抽取模型,并采用Bert4keras進(jìn)行實(shí)現(xiàn)[39]。本文將該深度學(xué)習(xí)框架用于交叉學(xué)科領(lǐng)域知識(shí)抽取任務(wù)中,具體的三元組抽取模型如圖2所示。整體思路為,首先將原始的句子序列轉(zhuǎn)換為id并傳入到Bert的編碼器中,獲得編碼序列后接兩個(gè)二分類的分類器用來(lái)預(yù)測(cè)主語(yǔ)S;然后基于傳入的S,從編碼序列中抽取出S首尾所對(duì)應(yīng)的編碼向量,并以其作為條件,針對(duì)編碼序列做一次條件Layer Norm;最后,用經(jīng)過(guò)Conditional Layer Normalization后的編碼序列預(yù)測(cè)S所對(duì)應(yīng)的O和P。圖2所示的例子中需要抽取出兩個(gè)三元組,分別是(腦膠質(zhì)瘤,術(shù)后并發(fā)癥,顱內(nèi)壓增高)、(開(kāi)顱手術(shù),治療,腦膠質(zhì)瘤)。在訓(xùn)練階段,采樣1個(gè)S(如腦膠質(zhì)瘤)并傳到下一步訓(xùn)練,抽取出對(duì)應(yīng)的O和P,再采樣下一個(gè)S,如此完成對(duì)句子中所有三元組的抽取。
圖2 基于Bert的三元組抽取模型結(jié)構(gòu)
2.2.3 知識(shí)融合與存儲(chǔ)
完成“SPO三元組”抽取以后,對(duì)缺失的以及重復(fù)的三元組進(jìn)行清洗。通過(guò)對(duì)照專業(yè)詞典,對(duì)一詞多義以及同一實(shí)體的不同表述(如帕金森病和PD)進(jìn)行整合,以消除矛盾和歧義,同時(shí)也可避免因作者對(duì)術(shù)語(yǔ)或概念的誤用而導(dǎo)致創(chuàng)新點(diǎn)識(shí)別錯(cuò)誤的問(wèn)題。最后,利用具有嵌入式、高性能等優(yōu)勢(shì)的Neo4j數(shù)據(jù)庫(kù)存儲(chǔ)三元組。Neo4j是一種基于JAVA語(yǔ)言開(kāi)發(fā)的面向網(wǎng)絡(luò)的NoSQL圖形數(shù)據(jù)庫(kù)。三元組中的實(shí)體在圖譜中被映射為節(jié)點(diǎn),實(shí)體關(guān)系則被映射為邊。Neo4j通過(guò)后端架構(gòu)對(duì)已連接數(shù)據(jù)的檢索、遍歷、增刪及修改等操作進(jìn)行了優(yōu)化。本文在存儲(chǔ)三元組時(shí),擬通過(guò)用于對(duì)接Neo4j的Python庫(kù)Py2neo實(shí)現(xiàn)。導(dǎo)入數(shù)據(jù)之后,對(duì)各個(gè)節(jié)點(diǎn)的顏色進(jìn)行調(diào)整,用于區(qū)分不同類型的實(shí)體,完成知識(shí)圖譜的構(gòu)建與可視化展示。
2.2.4 知識(shí)對(duì)比與補(bǔ)充
在完成知識(shí)圖譜的構(gòu)建以后,從近期發(fā)表的單篇科技論文中抽取特定關(guān)系類型的SPO三元組,并與知識(shí)圖譜中的實(shí)體及關(guān)系進(jìn)行對(duì)比。對(duì)比的方式通過(guò)Neo4j圖數(shù)據(jù)庫(kù)的查詢語(yǔ)言Cypher實(shí)現(xiàn)。Cypher適用于點(diǎn)對(duì)點(diǎn)模式(ad-hoc)的查詢,焦點(diǎn)在于如何從圖中找回。通過(guò)Cypher的查詢語(yǔ)句Match(),獲得與任一實(shí)體相關(guān)的所有實(shí)體及其關(guān)系類型,通過(guò)對(duì)比后去除知識(shí)圖譜中已有的三元組,即重復(fù)的知識(shí),進(jìn)而識(shí)別出該論文中的創(chuàng)新點(diǎn)。最后,利用Cypher的Create()語(yǔ)句將新的實(shí)體及關(guān)系補(bǔ)充入知識(shí)圖譜中,作為后續(xù)論文創(chuàng)新點(diǎn)識(shí)別的依據(jù),形成動(dòng)態(tài)識(shí)別模式。
本文的研究對(duì)象是“人工智能+神經(jīng)病學(xué)”交叉學(xué)科領(lǐng)域的中文科技論文。為了實(shí)現(xiàn)較高的查全率,選取了中國(guó)知網(wǎng)(CNKI)、百度學(xué)術(shù)兩個(gè)綜合性學(xué)術(shù)平臺(tái),以及萬(wàn)方醫(yī)學(xué)網(wǎng)、中國(guó)生物醫(yī)學(xué)文獻(xiàn)服務(wù)系統(tǒng)(SinoMed)兩個(gè)專業(yè)性學(xué)術(shù)平臺(tái)作為數(shù)據(jù)源。首先,依據(jù)中圖分類號(hào)限定檢索范圍,人工智能領(lǐng)域?yàn)門(mén)P18(人工智能理論)或TP242.6(智能機(jī)器人)以及它們的下位類目,神經(jīng)病學(xué)領(lǐng)域?yàn)镽749及其下位類,構(gòu)建檢索式((分類號(hào)%TP18) OR (分類號(hào)%TP242.6)) AND (分類號(hào)%R741)。檢索后發(fā)現(xiàn)返回結(jié)果漏檢率較高,因?yàn)槿斯ぶ悄苁怯?jì)算機(jī)科學(xué)的一個(gè)分支,且屬于新興領(lǐng)域,其分類號(hào)的賦予沒(méi)有很強(qiáng)的邊界。因此,本文同時(shí)采用主題詞檢索的方式作為補(bǔ)充,即(主題=人工智能 OR 智能機(jī)器人 OR AI OR 機(jī)器學(xué)習(xí)OR 深度學(xué)習(xí) OR 人工神經(jīng)網(wǎng)絡(luò) OR 卷積神經(jīng)網(wǎng)絡(luò) OR 循環(huán)神經(jīng)網(wǎng)絡(luò) OR 認(rèn)知計(jì)算 OR 強(qiáng)化學(xué)習(xí)OR 集成學(xué)習(xí) OR 監(jiān)督學(xué)習(xí)),并且文獻(xiàn)分類為神經(jīng)病學(xué)。上述兩種檢索方式均不限制論文發(fā)表的時(shí)間范圍,論文類型選擇期刊論文和學(xué)位論文,檢索日期為2022年1月20日。綜合兩種檢索方式的結(jié)果,將從4個(gè)學(xué)術(shù)平臺(tái)中得到的文獻(xiàn)題錄、摘要導(dǎo)出。之后,對(duì)數(shù)據(jù)進(jìn)行清洗,包括去除不同來(lái)源的重復(fù)文獻(xiàn)、會(huì)議通知、報(bào)道以及其他不相關(guān)的文獻(xiàn)(如由主題詞AI會(huì)檢索出包含“載脂蛋白AI”的論文),最終共獲得2 094篇科技論文。
對(duì)原始數(shù)據(jù)集進(jìn)行初步清洗后,去除綜述類的論文,并將2021年10月至檢索時(shí)發(fā)表的53篇論文作為待識(shí)別創(chuàng)新點(diǎn)的論文集,剩余的1 783篇作為構(gòu)建知識(shí)圖譜的語(yǔ)料集。最后,通過(guò)Python中的re模塊對(duì)每篇論文的摘要進(jìn)行分句,調(diào)用split()方法,以中英文的分號(hào)、問(wèn)號(hào)、感嘆號(hào)、句號(hào)等作為分隔符號(hào)對(duì)句子進(jìn)行切分,并對(duì)錯(cuò)誤切分的句子進(jìn)行人工處理,最終共獲得17 100余條句子。
3.2.1 確定實(shí)體及關(guān)系類型
限定域的信息抽取是預(yù)先定義好實(shí)體關(guān)系類別的抽取任務(wù)。本文在定義Schema約束集合時(shí),基于SciAIEngine的NER_MED_CN(醫(yī)學(xué)領(lǐng)域科技文獻(xiàn)命名實(shí)體識(shí)別)和NER_SCI_CN(中文科研實(shí)體識(shí)別)功能,識(shí)別出實(shí)體及實(shí)體類型,單篇論文識(shí)別的結(jié)果分別如圖3和圖4所示。由于單篇論文涉及的實(shí)體類型有限,因此采用SciAIEngine的API接口功能,隨機(jī)上傳了50篇論文的摘要,綜合參考兩個(gè)功能模塊的返回結(jié)果,關(guān)系類型的定義則根據(jù)句子描述進(jìn)行提煉。從理論上來(lái)講,每個(gè)句子中包含至少1個(gè)三元組,但科技論文摘要的句子結(jié)構(gòu)復(fù)雜,且包含諸多背景信息,如“就目前的醫(yī)療水平,未能明確該病的病因,無(wú)法徹底治愈帕金森病,只能在早期控制該病的發(fā)展”一句,從中無(wú)法獲取有用的三元組。因此,本文主要依據(jù)“反映論文研究問(wèn)題、方法、主要結(jié)論、關(guān)鍵技術(shù)”的標(biāo)準(zhǔn),總結(jié)出了19類需要抽取的三元組,包含10類實(shí)體、19類關(guān)系。此外,科技論文中細(xì)粒度的概念、實(shí)體及關(guān)系都是為了揭示特定研究問(wèn)題,孤立的三元組意義不大,比如方法A優(yōu)于方法B是在特定的研究問(wèn)題下得出的結(jié)論。為了解決這一問(wèn)題,本文補(bǔ)充了另一種三元組類型,即論文—包含—實(shí)體,將屬于同一篇論文的實(shí)體聯(lián)系起來(lái)。綜上,本文定義的Schema集合如表2所示。
圖3 NER_MED_CN識(shí)別結(jié)果
圖4 NER_SCI_CN識(shí)別結(jié)果
表2 Schema約束集合
表2(續(xù))
3.2.2 人工標(biāo)注
根據(jù)Schema約束集合,從論文摘要中選取包含預(yù)定義實(shí)體及關(guān)系類型的句子,共有3 635個(gè),表3列舉了待抽取的句子實(shí)例。因?yàn)閿?shù)據(jù)量較少,為了達(dá)到較好的模型訓(xùn)練結(jié)果,本文將選取較大比例的數(shù)據(jù)(2 635句)進(jìn)行人工標(biāo)注,剩余的1 000條句子用訓(xùn)練好的模型進(jìn)行三元組抽取。數(shù)據(jù)標(biāo)注工作由一名醫(yī)學(xué)信息學(xué)領(lǐng)域的博士完成,之后邀請(qǐng)專家核對(duì)。人工標(biāo)注的數(shù)據(jù)以json格式進(jìn)行存儲(chǔ),具體格式如表4所示。
表3 待抽取三元組的句子舉例
3.2.3 基于Bert4keras深度學(xué)習(xí)模型的知識(shí)抽取
本文采用百度LIC2020的關(guān)系抽取賽道中開(kāi)源的非官方Baseline進(jìn)行訓(xùn)練,并在Python3.6.3、Tensorflow 1.14平臺(tái)上完成,具體的實(shí)驗(yàn)環(huán)境配置如表5所示。訓(xùn)練時(shí),將標(biāo)注好的數(shù)據(jù)集以4∶1的比例劃分為訓(xùn)練集(train_data.json)和驗(yàn)證集(dev_data.json),在訓(xùn)練集上訓(xùn)練模型,在驗(yàn)證集上評(píng)估模型。實(shí)驗(yàn)參數(shù)的設(shè)計(jì)為:maxlen=256、epochs=20、batch_size=16、learning_rate=2e-5,加載大規(guī)模中文預(yù)訓(xùn)練模型—24層RoBERTa進(jìn)行訓(xùn)練。模型的好壞通過(guò)對(duì)驗(yàn)證集中預(yù)測(cè)結(jié)果與真實(shí)標(biāo)注的對(duì)比實(shí)現(xiàn),如圖5所示。“text”是待抽取三元組的句子,“spo_list”是人工標(biāo)注的結(jié)果,“spo_list_pred”是深度學(xué)習(xí)模型預(yù)測(cè)的結(jié)果,“new”是預(yù)測(cè)結(jié)果比標(biāo)注數(shù)據(jù)多出的三元組,“l(fā)ack”是未預(yù)測(cè)出的三元組。評(píng)價(jià)指標(biāo)采用準(zhǔn)確率(Precision)、召回率(Recall)和f1值,當(dāng)跑完20個(gè)Epoch之后,效果最佳的模型會(huì)被保存。除了24層RoBERTa模型以外,實(shí)驗(yàn)還加載了12層RoBERTa模型、BERT模型、ALBERT模型,對(duì)不同預(yù)訓(xùn)練模型進(jìn)行了總結(jié)對(duì)比,如表6所示。從中可以看出,最優(yōu)模型是24層RoBERTa。最后,利用最優(yōu)模型對(duì)未標(biāo)注的數(shù)據(jù)集進(jìn)行知識(shí)抽取,并進(jìn)行人工校對(duì),糾正預(yù)測(cè)錯(cuò)誤的數(shù)據(jù)并補(bǔ)充遺漏的三元組。
表4 數(shù)據(jù)標(biāo)注舉例
表5 實(shí)驗(yàn)環(huán)境配置
表6 知識(shí)抽取模型測(cè)試結(jié)果
圖5 驗(yàn)證集預(yù)測(cè)結(jié)果示例
3.2.4 知識(shí)融合與存儲(chǔ)
從所有數(shù)據(jù)集中共抽取出7 408個(gè)三元組,加上“論文—包含—實(shí)體”的關(guān)系后,最終共獲得22 224個(gè)三元組??萍颊撐闹型粚?shí)體有多種表述,如“腦卒中”又稱“中風(fēng)”,“卷積神經(jīng)網(wǎng)絡(luò)”的英文縮寫(xiě)“CNN”,“功能性步行分級(jí)(FAC)”的不同表述“功能性步行量表(FAC)”,因此需要進(jìn)行實(shí)體對(duì)齊。該過(guò)程是在參考專業(yè)詞庫(kù)的基礎(chǔ)上由醫(yī)工交叉領(lǐng)域的學(xué)生輔助完成。之后,將融合后的實(shí)體關(guān)系三元組存儲(chǔ)到Neo4j圖數(shù)據(jù)庫(kù)中,采用Py2neo創(chuàng)建節(jié)點(diǎn)和關(guān)系,并通過(guò)merge()函數(shù)進(jìn)行實(shí)體匹配,避免重復(fù)創(chuàng)建節(jié)點(diǎn)。在“論文—包含—實(shí)體”的三元組關(guān)系中,為每篇論文賦予序號(hào)標(biāo)簽。最終創(chuàng)建的知識(shí)圖譜局部示意圖如圖6所示,從圖中可以直觀地看出,“卷積神經(jīng)網(wǎng)絡(luò)(CNN)”與多個(gè)實(shí)體之間存在直接關(guān)系,被用于預(yù)測(cè)“癲癇發(fā)作”、提取“深層語(yǔ)音特征”、識(shí)別“高頻振蕩信號(hào)(HFOs)”、分類“顱內(nèi)出血亞類型”等;“腦出血”通過(guò)“顱腦CT圖像”診斷,并有研究采用“共享淺層參數(shù)多任務(wù)學(xué)習(xí)方法”對(duì)其進(jìn)行分類。圖7是“論文—包含—實(shí)體”的三元組關(guān)系局部示意圖,可以將同屬于一篇論文的實(shí)體聯(lián)系起來(lái),比如第26篇論文中包含了實(shí)體“急性腦卒中”“SVM”“血管內(nèi)取栓(EVT)治療后預(yù)后”“選擇算子(LASSO)回歸模型”“相關(guān)分析”“單因素分析”“血管內(nèi)取栓(EVT)”“最小絕對(duì)收縮算子(LASSO)算法”“彌散加權(quán)成像DWI的影像組學(xué)特征”9個(gè)實(shí)體,在整體的知識(shí)圖譜中,這些實(shí)體之間的關(guān)系也可以直觀地獲取,由此可以得出該論文的主要技術(shù)要點(diǎn)為采用支持向量機(jī)(SVM)預(yù)測(cè)腦卒中血管內(nèi)取栓(EVT)治療后預(yù)后。圖8是“方法模型—預(yù)測(cè)—疾病癥狀”的三元組關(guān)系局部示意圖。從中可以得出,針對(duì)同一種疾病癥狀,現(xiàn)有研究都采用了哪些方法模型對(duì)其進(jìn)行預(yù)測(cè);而針對(duì)同一種方法模型,目前都用于預(yù)測(cè)哪些疾病癥狀。
圖6 面向“人工智能+神經(jīng)病學(xué)”領(lǐng)域科技論文的知識(shí)圖譜(局部)
圖7 “論文—包含—實(shí)體”的三元組關(guān)系示意圖(局部)
3.2.5 創(chuàng)新點(diǎn)識(shí)別與知識(shí)補(bǔ)充
1)創(chuàng)新點(diǎn)識(shí)別。將近期發(fā)表的未納入知識(shí)圖譜中的53篇論文作為創(chuàng)新點(diǎn)識(shí)別的實(shí)驗(yàn)對(duì)象,針對(duì)每篇論文抽取預(yù)定義類型的三元組,然后與知識(shí)圖譜進(jìn)行對(duì)比。以2021年11月發(fā)表的論文“基于LSTM-SVM模型和SNP遺傳信息的帕金森疾病識(shí)別問(wèn)題研究”為例,從摘要中抽取的三元組包括“LSTM-SVM模型—檢測(cè)—帕金森疾病”“LSTM-SVM模型—采用—單核苷酸多態(tài)性(SNP)數(shù)據(jù)”“LSTM網(wǎng)絡(luò)—自動(dòng)提取—SNP關(guān)鍵特征”。利用Neo4j中的Match()函數(shù)構(gòu)造查詢語(yǔ)句match(n:‘疾病癥狀’{name:‘帕金森病(PD)’})<-[r:‘檢測(cè)’]-(p)return p,n,r,即利用關(guān)系和終點(diǎn)查詢起點(diǎn),結(jié)果如圖9所示。現(xiàn)有研究中用于檢測(cè)“帕金森病(PD)”的方法模型有DNN(深度神經(jīng)網(wǎng)絡(luò))、決策樹(shù)、深度卷積神經(jīng)網(wǎng)絡(luò)、基于時(shí)間的長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)、SVM、AdaBoost等,但未發(fā)現(xiàn)將LSTM和SVM聯(lián)合使用的模型。其次,利用查詢語(yǔ)句match(n)--(p:‘?dāng)?shù)據(jù)資料’{name:‘單核苷酸多態(tài)性(SNP)數(shù)據(jù)’}) return n 或者match(n)--(p:‘?dāng)?shù)據(jù)資料’{name:‘SNP數(shù)據(jù)’}) return n查詢所有和p有連線的節(jié)點(diǎn),未發(fā)現(xiàn)基于此類數(shù)據(jù)利用人工智能方法檢測(cè)帕金森病的相關(guān)中文論文。最后,通過(guò)match(n)<-[r:‘檢測(cè)’]-(p:‘方法模型’{name:‘長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)’}) return n語(yǔ)句,查詢是否已有研究采用LSTM模型提取SNP特征,結(jié)果是否定的。因此,上述3個(gè)三元組便反映了該論文的創(chuàng)新點(diǎn)。2021年12月發(fā)表的論文“鏡像療法聯(lián)合下肢康復(fù)機(jī)器人治療對(duì)腦卒中偏癱患者下肢運(yùn)動(dòng)和平衡功能的影響”摘要中涵蓋的三元組有:“鏡像療法聯(lián)合下肢康復(fù)機(jī)器人—輔助康復(fù)—腦卒中偏癱患者”“下肢康復(fù)機(jī)器人—改善—下肢步行能力”“下肢康復(fù)機(jī)器人—改善—平衡功能”,通過(guò)同樣的方法與知識(shí)圖譜中的三元組進(jìn)行匹配,發(fā)現(xiàn)這些實(shí)體及關(guān)系均已存在,因此該論文在預(yù)定義類型的知識(shí)框架中沒(méi)有相應(yīng)的創(chuàng)新點(diǎn)。
圖9 檢測(cè)關(guān)系中尾實(shí)體“帕金森病(PD)”對(duì)應(yīng)的頭實(shí)體查詢結(jié)果
在創(chuàng)新點(diǎn)識(shí)別的過(guò)程中,可以挖掘出更深層次的知識(shí)。如根據(jù)帕金森疾病的現(xiàn)有檢測(cè)方法與其他疾病節(jié)點(diǎn)之間的聯(lián)系,推測(cè)這些疾病與帕金森的共性,發(fā)現(xiàn)與這些疾病相連的其他方法模型、治療手段,以及各類方法模型之間的性能對(duì)比等。利用知識(shí)圖譜各節(jié)點(diǎn)之間錯(cuò)綜復(fù)雜的關(guān)系,幫助研究人員挖掘更多的隱性知識(shí),通過(guò)現(xiàn)有知識(shí)重組或引入新理論、新方法、新的研究對(duì)象等方式實(shí)現(xiàn)多維度的科技創(chuàng)新。對(duì)于識(shí)別出的創(chuàng)新點(diǎn),從單篇論文來(lái)看是概括和提煉出的創(chuàng)新情報(bào)元素。從整個(gè)研究領(lǐng)域而言,在時(shí)間維度上將不同論文之間的創(chuàng)新點(diǎn)關(guān)聯(lián)起來(lái)可反映領(lǐng)域創(chuàng)新演化的過(guò)程,形成一種創(chuàng)新情報(bào)鏈,揭示創(chuàng)新的發(fā)展規(guī)律,可以為科研人員提供知識(shí)結(jié)構(gòu)化、網(wǎng)絡(luò)化視角下的創(chuàng)新借鑒。此外,這些創(chuàng)新點(diǎn)也可以作為科技論文創(chuàng)新性評(píng)價(jià)的依據(jù)。
2)創(chuàng)新點(diǎn)識(shí)別效果評(píng)估。為評(píng)估上述方法在科技論文創(chuàng)新點(diǎn)識(shí)別中的效果,特邀請(qǐng)3名生物醫(yī)學(xué)工程領(lǐng)域的專家,利用自身經(jīng)驗(yàn)從53篇論文中提煉出創(chuàng)新點(diǎn),并與該方法識(shí)別出的結(jié)果進(jìn)行對(duì)比。經(jīng)過(guò)3輪征詢統(tǒng)一專家意見(jiàn),最后共提取出50個(gè)創(chuàng)新點(diǎn),分布在25篇論文中。通過(guò)本研究方法共抽取出196個(gè)三元組,識(shí)別出47個(gè)創(chuàng)新點(diǎn),分布在24篇論文中。如果以專家判斷為準(zhǔn),識(shí)別錯(cuò)誤(即非創(chuàng)新點(diǎn)識(shí)別為創(chuàng)新點(diǎn))的有1個(gè),遺漏的有4個(gè),識(shí)別的精確率為97.87%(46/47),召回率為92%(46/50)??偨Y(jié)原因,可能與三元組抽取的局限性有關(guān),比如句子“根據(jù)臨床背景歸納離散型變量類型并進(jìn)行編碼,統(tǒng)一連續(xù)性變量取值”中主謂賓不明確,無(wú)法抽出有用的三元組,進(jìn)而會(huì)對(duì)創(chuàng)新點(diǎn)識(shí)別產(chǎn)生影響。
3)知識(shí)補(bǔ)充。對(duì)新發(fā)表的論文識(shí)別出創(chuàng)新點(diǎn)以后,通過(guò)Neo4j中的Create()方法將新的實(shí)體及關(guān)系補(bǔ)充入知識(shí)圖譜中,比如create(p:‘方法模型’{name:‘LSTM-SVM模型’})-[:檢測(cè)]->(n:‘疾病癥狀’{name:‘帕金森病(PD)’})。對(duì)于特定學(xué)科領(lǐng)域,每發(fā)表一篇科技論文,在識(shí)別其創(chuàng)新點(diǎn)之后將其補(bǔ)充入知識(shí)圖譜,如此循環(huán)往復(fù)形成一種動(dòng)態(tài)識(shí)別的模式,實(shí)時(shí)監(jiān)測(cè)領(lǐng)域科技創(chuàng)新發(fā)展的動(dòng)態(tài)。情報(bào)機(jī)構(gòu)可以根據(jù)知識(shí)圖譜實(shí)時(shí)更新的結(jié)果為研究人員提供創(chuàng)新情報(bào)推送服務(wù),為研究人員對(duì)
已有創(chuàng)新的借鑒、對(duì)前沿技術(shù)的研判提供支撐,為科技政策制定者、高校、高新技術(shù)企業(yè)等各類創(chuàng)新主體提供決策支持。
本研究利用知識(shí)圖譜對(duì)“人工智能+神經(jīng)病學(xué)”領(lǐng)域科技論文中的知識(shí)進(jìn)行了細(xì)粒度地揭示、描述及關(guān)聯(lián),并實(shí)現(xiàn)了科技論文創(chuàng)新點(diǎn)的動(dòng)態(tài)識(shí)別。該方法的優(yōu)勢(shì)主要體現(xiàn)在以下幾個(gè)方面:
1)創(chuàng)新科技論文的知識(shí)組織方式。提供了一種從非結(jié)構(gòu)化數(shù)據(jù)中抽取、整合知識(shí)的技術(shù)方案,構(gòu)建了基于論文內(nèi)容而非外部特征(如題名、作者、單位等)的知識(shí)圖譜,對(duì)同一領(lǐng)域的研究成果進(jìn)行知識(shí)關(guān)聯(lián),能夠深層次、直觀地揭示現(xiàn)有研究問(wèn)題、研究方法、理論基礎(chǔ)、結(jié)論等創(chuàng)新要素。
2)發(fā)現(xiàn)創(chuàng)新情報(bào)、動(dòng)態(tài)監(jiān)測(cè)并推動(dòng)科技創(chuàng)新。面向特定領(lǐng)域研究成果的知識(shí)圖譜全面揭示了該領(lǐng)域的研究問(wèn)題、技術(shù)與方法等創(chuàng)新要素及其潛在關(guān)聯(lián),一方面有助于發(fā)掘創(chuàng)新情報(bào),分析現(xiàn)有研究從哪些角度進(jìn)行了創(chuàng)新,從而為后續(xù)創(chuàng)新提供借鑒;另一方面,通過(guò)與知識(shí)圖譜的對(duì)比可以判斷最新研究成果中是否出現(xiàn)了新的觀點(diǎn)、技術(shù)或方法,重復(fù)創(chuàng)新點(diǎn)的識(shí)別與填充,能夠動(dòng)態(tài)監(jiān)測(cè)該領(lǐng)域的科研創(chuàng)新。最重要的是,研究人員可以根據(jù)知識(shí)圖譜中實(shí)體及其相互聯(lián)系,發(fā)現(xiàn)創(chuàng)新的突破口。比如,現(xiàn)有研究中預(yù)測(cè)癲癇發(fā)作的AI方法有哪些,并根據(jù)“論文—包含—實(shí)體”的關(guān)系鎖定采用這些方法的文章,獲悉其分析對(duì)象是病歷數(shù)據(jù)、腦電數(shù)據(jù)亦或是磁共振影像數(shù)據(jù),從而獲得新的啟發(fā)。通過(guò)重用領(lǐng)域知識(shí),從知識(shí)重組、提出新方法或面向新的研究對(duì)象等方面找到科技創(chuàng)新的切入點(diǎn)。
3)助力科技論文創(chuàng)新性評(píng)價(jià)。一方面,在期刊審稿與選稿過(guò)程中,該方法能夠通過(guò)單篇論文與領(lǐng)域知識(shí)圖譜匹配的方式快速識(shí)別論文創(chuàng)新點(diǎn),一定程度上可以節(jié)省專家評(píng)審論文的時(shí)間與精力;另一方面,知識(shí)圖譜對(duì)特定研究領(lǐng)域全景式的知識(shí)揭示,可以彌補(bǔ)專家自身知識(shí)結(jié)構(gòu)中的模糊空間,有助于兼顧論文創(chuàng)新性評(píng)價(jià)的客觀性與科學(xué)性。
然而,本研究在實(shí)證部分也存在一些局限:首先,數(shù)據(jù)采集過(guò)程中,從4個(gè)學(xué)術(shù)平臺(tái)獲取數(shù)據(jù)集,同時(shí)也不斷調(diào)整和改善檢索方式,盡可能地提高查全率。但由于網(wǎng)絡(luò)學(xué)術(shù)資源的分散性、異源異構(gòu)性以及獲取權(quán)限的問(wèn)題,并不能覆蓋特定領(lǐng)域的全部中文科技論文。其次,知識(shí)抽取是在預(yù)設(shè)實(shí)體及關(guān)系類型前提下的限定域抽取,并不能反映論文中的所有知識(shí)點(diǎn)。針對(duì)上述問(wèn)題,待識(shí)別創(chuàng)新點(diǎn)的論文與知識(shí)圖譜構(gòu)建的論文集來(lái)源渠道、獲取方式一致,對(duì)比的三元組類型一致,因此研究結(jié)果是可靠的,但仍然需要不斷探索解決方案,比如嘗試開(kāi)放域的知識(shí)抽取方法,擴(kuò)大數(shù)據(jù)收集范圍等。
基于知識(shí)圖譜識(shí)別科技論文的創(chuàng)新點(diǎn),對(duì)于促進(jìn)科學(xué)研究的創(chuàng)新發(fā)展具有重要意義。研究主要得出以下結(jié)論:基于“半指針—半標(biāo)注”策略的Bert4keras深度學(xué)習(xí)模型能夠有效抽取科技論文中的細(xì)粒度知識(shí),準(zhǔn)確率較高;將知識(shí)圖譜應(yīng)用于科技論文創(chuàng)新點(diǎn)的動(dòng)態(tài)識(shí)別任務(wù)中具有一定的可行性,效果良好。
基于研究結(jié)論,提出以下建議:在現(xiàn)有的學(xué)術(shù)資源檢索系統(tǒng)中,參考該方法嵌入知識(shí)問(wèn)答和創(chuàng)新情報(bào)推送的功能模塊。一方面,針對(duì)特定研究領(lǐng)域,基于知識(shí)圖譜中潛在的知識(shí)關(guān)聯(lián),為科研人員提供關(guān)于具體研究問(wèn)題、研究方法、研究對(duì)象以及研究結(jié)論的自動(dòng)問(wèn)答服務(wù),把握該領(lǐng)域研究進(jìn)展;另一方面,監(jiān)測(cè)某一領(lǐng)域的科技創(chuàng)新情況,發(fā)現(xiàn)并向研究人員提供創(chuàng)新性科技論文、細(xì)粒度的創(chuàng)新點(diǎn)、獨(dú)特的創(chuàng)新視角等情報(bào),幫助他們從已有創(chuàng)新中啟發(fā)新的研究思路。同時(shí),這兩項(xiàng)功能也可以作為專家評(píng)審論文的借鑒。
本研究存在的不足主要體現(xiàn)在:僅采用交叉學(xué)科領(lǐng)域的中文科技論文摘要作為研究對(duì)象,數(shù)據(jù)覆蓋范圍有限,抽取的實(shí)體及關(guān)系類型有限,普適性不夠強(qiáng)。在后續(xù)的研究中,將進(jìn)一步擴(kuò)大研究范圍,拓展學(xué)科領(lǐng)域,結(jié)合論文摘要與總結(jié)探索更多樣的實(shí)體關(guān)系類型,使該方法具有更廣泛的適用性。