李雪山,劉鵬鵬,李子林,趙占芳
(1.中國鐵道科學(xué)研究院集團(tuán)有限公司 科學(xué)技術(shù)信息研究所,北京 100081; 2.河北醫(yī)科大學(xué)第一醫(yī)院智慧醫(yī)院建設(shè)部,河北 石家莊 050030; 3.河北地質(zhì)大學(xué) 信息工程學(xué)院,河北 石家莊 050031; 4.河北省光電信息與地球探測技術(shù)重點(diǎn)實(shí)驗(yàn)室,河北 石家莊 050030)
以鐵路行業(yè)科研信息資源賦能領(lǐng)域科技研發(fā)、技術(shù)攻關(guān)成為新時(shí)期的重要任務(wù)。緊密貼合國家數(shù)字轉(zhuǎn)型戰(zhàn)略背景,對海量鐵路科技文獻(xiàn)進(jìn)行關(guān)鍵詞自動抽取等知識組織和文本分析處理,將為后期鐵路科技信息資源的自動分類標(biāo)引、智能語義檢索、主題深度關(guān)聯(lián)、領(lǐng)域知識圖譜構(gòu)建夯實(shí)元數(shù)據(jù)基礎(chǔ),進(jìn)而為我國鐵路行業(yè)科技研發(fā)工作提供精準(zhǔn)、智能、優(yōu)質(zhì)的科技情報(bào)服務(wù)。
關(guān)鍵詞自動抽取技術(shù)是指從文本文檔中自動識別或標(biāo)注出具有主題性、重要性的詞或短語,是文本檢索、文摘生成等文本數(shù)據(jù)挖掘、自然語言處理任務(wù)的基礎(chǔ)性和必要性工作[1]。當(dāng)前關(guān)鍵詞自動抽取技術(shù)主要采用統(tǒng)計(jì)分析法、語言分析法、人工智能方法、混合方法[1]。其中,統(tǒng)計(jì)分析法是利用候選關(guān)鍵詞特征的統(tǒng)計(jì)信息實(shí)現(xiàn)關(guān)鍵詞的識別和提取。候選關(guān)鍵詞的特征包括長度[2-6]、位置[2-4,7-9]、詞頻[3-4,6-7,9]、外部知識庫引用[8,10-11]、詞間關(guān)系[12-14]等;語言分析法主要利用自然語言處理的相關(guān)技術(shù),例如:依存關(guān)系、詞性序列[15-16]、修飾手法[17]、特殊格式[16]等特征提高關(guān)鍵詞的抽取效果;人工智能方法主要是利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的方法進(jìn)行關(guān)鍵詞抽取,樸素貝葉斯[18-19]、決策樹[5-6]、支持向量機(jī)[20]、條件隨機(jī)場[16,21]、神經(jīng)網(wǎng)絡(luò)[21-22]等方法均被用于關(guān)鍵詞的自動識別和抽取;混合方法是集成了以上兩種或三種方法,用于在特定領(lǐng)域提升關(guān)鍵詞抽取的質(zhì)量。
統(tǒng)計(jì)分析法是目前應(yīng)用最為廣泛且質(zhì)量較好的關(guān)鍵詞自動抽取方法,TextRank[23]和TF-IDF(Term Frequency Inverse Document Frequency)[24]算法為此類方法中的典型算法。TextRank算法是一種基于圖模型的無監(jiān)督學(xué)習(xí)方法,以網(wǎng)絡(luò)圖的形式對文本進(jìn)行分析,根據(jù)詞匯共現(xiàn)關(guān)系對詞節(jié)點(diǎn)進(jìn)行連接構(gòu)造詞圖模型,以迭代方式計(jì)算每個(gè)詞圖節(jié)點(diǎn)的TextRank值來表示不同節(jié)點(diǎn)的重要程度,最后按值的大小進(jìn)行排序并選擇前N個(gè)詞作為抽取的關(guān)鍵詞。TextRank算法對文獻(xiàn)主題沒有限制要求,有很強(qiáng)的適應(yīng)和拓展能力,無須進(jìn)行數(shù)據(jù)訓(xùn)練,且收斂速度快,因此被廣泛應(yīng)用于關(guān)鍵詞抽取應(yīng)用中。
但是,TextRank算法僅通過詞匯共現(xiàn)等特征構(gòu)建詞圖模型,未考慮詞語之間的語義關(guān)系,忽略了上下文的語義信息,使得關(guān)鍵詞抽取效果受到制約。部分學(xué)者融合其他方法對TextRank算法進(jìn)行改進(jìn)和優(yōu)化,如,寧建飛等[25]融合Word2Vec與TextRank算法,將單個(gè)文檔內(nèi)部的結(jié)構(gòu)信息和語料整體的詞向量關(guān)系信息進(jìn)行融合以提升關(guān)鍵詞抽取效果。夏天[26]根據(jù)詞節(jié)點(diǎn)本身的各種位置信息進(jìn)行不等加權(quán),調(diào)整詞圖模型中節(jié)點(diǎn)間的影響力傳遞大小以改進(jìn)關(guān)鍵詞抽取效果。劉奇飛等[27]在融合Word2Vec和TextRank算法的基礎(chǔ)上,結(jié)合時(shí)政類新聞領(lǐng)域的文本特征,利用外部語料庫來改進(jìn)文本中詞節(jié)點(diǎn)的初始權(quán)重,改善領(lǐng)域關(guān)鍵詞的抽取效果。余本功等[28]提出多元特征加權(quán)的關(guān)鍵詞提取方法,通過Word2Vec模型來提取出詞語在文檔集中的語義關(guān)系特征與重要性特征,進(jìn)而以線性加權(quán)的方式計(jì)算出每個(gè)詞語的綜合影響力,用于改進(jìn)TextRank模型中的概率轉(zhuǎn)移矩陣。以上方法雖然均利用Word2Vec模型訓(xùn)練出的詞向量信息改進(jìn)TextRank模型,但傳統(tǒng)的Word2Vec模型在學(xué)習(xí)詞的向量化表示過程中,對上下文背景詞進(jìn)行同等加權(quán)。通過研究分析可知,在鐵路科技文獻(xiàn)文本中,不同上下文信息對中心詞的價(jià)值是不同的,因此,在鐵路科技文獻(xiàn)文本中,傳統(tǒng)的Word2Vec模型導(dǎo)致所得詞向量的精度受限。
鑒于以上研究,以關(guān)鍵詞抽取算法TextRank為基礎(chǔ),分兩階段對海量鐵路科技文獻(xiàn)進(jìn)行關(guān)鍵字抽取實(shí)驗(yàn)。第一階段通過在Word2Vec模型中引入注意力機(jī)制,達(dá)到改善鐵路科技文獻(xiàn)詞向量表示精度的目的,即訓(xùn)練出更適合鐵路科技文獻(xiàn)的詞向量表示。然后,通過詞間相似度優(yōu)化TextRank網(wǎng)絡(luò)圖中詞節(jié)點(diǎn)間的概率轉(zhuǎn)移關(guān)系,并通過迭代計(jì)算篩選出候選關(guān)鍵詞。在此基礎(chǔ)上,第二階段受到概率圖啟發(fā),基于候選關(guān)鍵詞詞間語義關(guān)系,構(gòu)建新的候選關(guān)鍵詞網(wǎng)絡(luò)圖,通過TextRank算法進(jìn)行二次迭代計(jì)算,得到最終的關(guān)鍵詞。此處以中國知網(wǎng)CNKI鐵路運(yùn)輸核心期刊文獻(xiàn)為語料進(jìn)行對比實(shí)驗(yàn),結(jié)果表明,所提方法在關(guān)鍵詞抽取效果上有明顯改善。
TextRank算法可以將文本以一種網(wǎng)絡(luò)圖的形式表現(xiàn)出來,通過迭代計(jì)算的方式得到網(wǎng)絡(luò)圖中每個(gè)節(jié)點(diǎn)的TextRank值,TextRank值用以表達(dá)不同詞節(jié)點(diǎn)的重要性大小。TextRank算法的詞圖模型為G(V,E),其中,V為詞語集合,E為邊集合,假設(shè)共有n個(gè)節(jié)點(diǎn),TextRank值的計(jì)算式為
i,j=1,2,…,n
( 1 )
式中:T(vi)、T(vj)分別為網(wǎng)絡(luò)圖節(jié)點(diǎn)vi、vj的TextRank值;d為阻尼系數(shù),通常取0.85;I(vi)為在網(wǎng)絡(luò)圖中指向節(jié)點(diǎn)vi的所有節(jié)點(diǎn)的集合;O(vj)為網(wǎng)絡(luò)圖中節(jié)點(diǎn)vj所指向的節(jié)點(diǎn)的集合;wij為vi到vj兩個(gè)節(jié)點(diǎn)之間的轉(zhuǎn)移概率,wij同義。
TextRank算法無須進(jìn)行模型訓(xùn)練,直接利用語料信息就可以得到網(wǎng)絡(luò)圖模型的候選關(guān)鍵詞節(jié)點(diǎn),方法簡單高效,因而得到廣泛應(yīng)用。但是,TextRank算法在網(wǎng)絡(luò)圖模型的構(gòu)建上有一定缺陷,未考慮詞圖節(jié)點(diǎn)之間的相關(guān)關(guān)系,僅簡單認(rèn)為節(jié)點(diǎn)間的影響力傳遞是均等的。
Bi-TextRank算法由兩階段組成,第一階段用融合注意力機(jī)制的Word2Vec模型訓(xùn)練所有鐵路科技文獻(xiàn),得到更為精確的詞向量表征,通過詞間語義關(guān)系優(yōu)化TextRank節(jié)點(diǎn)間的轉(zhuǎn)移概率,迭代計(jì)算初步篩選出M個(gè)候選關(guān)鍵詞;第二階段在候選關(guān)鍵詞基礎(chǔ)上,通過設(shè)置語義相似度閾值,基于詞間語義關(guān)系構(gòu)建新的網(wǎng)絡(luò)關(guān)系圖,篩選掉小于給定語義相似度閾值的節(jié)點(diǎn)之間的邊,優(yōu)化網(wǎng)絡(luò)圖模型,最后再次用TextRank算法對候選關(guān)鍵詞網(wǎng)絡(luò)進(jìn)行二次篩選,得到最終的關(guān)鍵詞。整體算法流程見圖1,其中,網(wǎng)絡(luò)圖中的A、B、C、D、E分別代表詞節(jié)點(diǎn),帶方向的實(shí)線和虛線表示詞節(jié)點(diǎn)間的轉(zhuǎn)移概率。
圖1 Bi-TextRank算法流程
近年來伴隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,注意力機(jī)制已被廣泛應(yīng)用于機(jī)器翻譯、自然語言處理等領(lǐng)域。通過引入注意力機(jī)制可以提升神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)效果,強(qiáng)化數(shù)據(jù)中重要的相關(guān)信息,忽略不重要的信息。將Word2Vec模型與TextRank算法結(jié)合是一種有效提升關(guān)鍵詞抽取效果的方案,并且注意力機(jī)制的引入不會對模型的計(jì)算與存儲帶來更大的開銷。
Word2Vec包含CBOW(Continuous Bag-of-Words)和Skip-Gram兩種訓(xùn)練模型。CBOW模型的基本任務(wù)是通過給定窗口內(nèi)的上下文詞去預(yù)測中心詞,Skip-Gram模型的任務(wù)與其正好相反,模型訓(xùn)練的同時(shí)可以得到詞匯的向量化表示。Word2Vec模型是通過上下文與中心詞的關(guān)系訓(xùn)練得到一個(gè)詞向量表示,在訓(xùn)練過程中,其對上下文詞進(jìn)行同等加權(quán)處理,通過研究分析可知,在鐵路科技文獻(xiàn)文本中,不同上下文信息對中心詞的意義不同。如,在“鐵路是供火車等交通工具行駛的軌道線路,以機(jī)車牽引列車車輛在兩條平行的鐵軌上行駛”中,對于中心詞“鐵路”,“火車”“交通”“工具”“行駛”“軌道”等不同上下文詞對其向量表示的影響程度是不同的,注意力機(jī)制可迅速定位到文本中的焦點(diǎn)信息,根據(jù)文本信息做出準(zhǔn)確判斷,從海量文本信息中過濾無效信息。因此,為提高鐵路科技文獻(xiàn)文本詞向量計(jì)算精度,利用注意力機(jī)制對Word2Vec的CBOW模型進(jìn)行了改進(jìn),見圖2,在CBOW模型的輸入層與隱含層之間,加入注意力機(jī)制實(shí)現(xiàn)對文本詞向量化表征的學(xué)習(xí)。
圖2 引入注意力機(jī)制改進(jìn)后的CBOW模型
CBOW模型分三層神經(jīng)網(wǎng)絡(luò)對文本進(jìn)行訓(xùn)練,模型的輸入層是某個(gè)中心詞上下文詞的one-hot向量,one-hot是對文本詞進(jìn)行向量化表示的一種方式,0或1表示其是否在文本中出現(xiàn),進(jìn)而將每個(gè)詞表示為一個(gè)多維向量,便于文本計(jì)算;模型的輸出是該中心詞的詞向量,隱含層主要通過訓(xùn)練輸入詞向量來預(yù)測中心詞的向量表示。CBOW模型的訓(xùn)練目標(biāo)是最大化對數(shù)似然函數(shù)L,L的計(jì)算式為
( 2 )
式中:w為語料C中任一詞語;D(w)為文本中除詞語w外的其他詞語集合。之后,以函數(shù)L為導(dǎo)向,計(jì)算語料中詞語w在文本中出現(xiàn)的概率,實(shí)現(xiàn)中心詞的預(yù)測;以預(yù)測中心詞與實(shí)測中心詞最大相似度為目標(biāo),反饋并修正輸入詞的詞向量,最終得到中心詞的向量表示。
經(jīng)過注意力機(jī)制處理后CBOW的輸入可表示為
( 3 )
( 4 )
( 5 )
式中:tanh為激活函數(shù);參數(shù)Wk、Uk由文本單詞共現(xiàn)性確定;Zk為注意力模型訓(xùn)練的參數(shù)。
( 6 )
式中:f(V′1,V′2,…,V′n-1)為CBOW中隱藏層函數(shù)。
首先利用融合注意力機(jī)制的Word2Vec模型訓(xùn)練語料集,通過注意力機(jī)制學(xué)習(xí)到上下文對中心詞信息價(jià)值的差異化權(quán)重,得到較為精確的詞向量化表示,在此基礎(chǔ)上進(jìn)行詞間相似度的計(jì)算
( 7 )
式中:Sij為網(wǎng)絡(luò)圖模型中節(jié)點(diǎn)vi與vj間的語義相似度值。
詞間相似度作為節(jié)點(diǎn)之間的轉(zhuǎn)移概率,得到相似度矩陣M為
( 8 )
式中:相似度矩陣M即為概率轉(zhuǎn)移矩陣。如果節(jié)點(diǎn)間的相似度越高,則代表詞間相關(guān)性越強(qiáng),影響力傳遞到相連的詞節(jié)點(diǎn)的概率也就越大。通過TextRank算法迭代計(jì)算,得到的權(quán)重值Ti的計(jì)算式為
Ti=(1-d)T0+d×M×Ti-1
( 9 )
式中:T0為各節(jié)點(diǎn)的初始權(quán)重;d為阻尼系數(shù),本文取值為0.85。
TextRank算法第一階段的具體流程如下:
Step1構(gòu)建語料詞典
為提高專業(yè)詞匯分詞效果,在Jieba分詞工具中引入鐵路領(lǐng)域外部詞庫作為自定義詞典。對每一篇文獻(xiàn)進(jìn)行分詞、停用詞過濾后,得到詞匯集合Vi,最終得到所有文獻(xiàn)的語料詞典D=(V1,V2,…,VN)。
Step2初始化TextRank網(wǎng)絡(luò)圖模型
根據(jù)詞匯共現(xiàn)關(guān)系構(gòu)建TextRank網(wǎng)絡(luò)圖模型,初始化所有節(jié)點(diǎn)的權(quán)值。
Step3優(yōu)化節(jié)點(diǎn)間轉(zhuǎn)移概率
利用融合注意力機(jī)制的Word2Vec模型對語料詞典D進(jìn)行文本訓(xùn)練得到詞匯的向量表征,通過計(jì)算詞間相似度得到詞匯間的關(guān)聯(lián)關(guān)系,優(yōu)化網(wǎng)絡(luò)圖模型中節(jié)點(diǎn)之間的轉(zhuǎn)移概率。
Step4計(jì)算TextRank值
根據(jù)網(wǎng)絡(luò)圖模型,迭代計(jì)算每一個(gè)節(jié)點(diǎn)的TextRank值。
Step5抽取候選關(guān)鍵詞
將網(wǎng)絡(luò)圖模型中每個(gè)節(jié)點(diǎn)的TextRank值按從大到小的順序排序,抽取前N個(gè)關(guān)鍵詞作為候選關(guān)鍵詞。
受概率圖啟發(fā),在候選關(guān)鍵詞基礎(chǔ)上基于詞間語義關(guān)系構(gòu)建新的詞間關(guān)系網(wǎng)絡(luò)圖,并通過TextRank算法進(jìn)行關(guān)鍵詞二次篩選。算法具體流程如下:
(1)利用第一階段算法進(jìn)行候選關(guān)鍵詞的初步篩選,生成前M(本次實(shí)驗(yàn)M=10)個(gè)關(guān)鍵詞集合。
(2)計(jì)算M個(gè)關(guān)鍵詞集合中每個(gè)當(dāng)前詞與剩余詞之間的語義相似度,作為兩點(diǎn)之間的權(quán)重。
(3)設(shè)置閾值,過濾掉權(quán)重低于閾值的詞關(guān)系,大于或等于閾值的候選關(guān)鍵詞兩兩之間連成一條邊。
(4)將節(jié)點(diǎn)之間的相似度更新到概率轉(zhuǎn)移矩陣中,再次利用TextRank方法進(jìn)行迭代計(jì)算,將計(jì)算的結(jié)果進(jìn)行排序,最后輸出TopN個(gè)詞作為最終的關(guān)鍵詞,完成關(guān)鍵詞的二次篩選。
閾值確定方面,在第二次構(gòu)建關(guān)鍵詞網(wǎng)絡(luò)圖的過程中,采用權(quán)重閾值過濾的方法確定詞與詞之間的邊,閾值的選擇通過大量實(shí)驗(yàn)獲得。隨機(jī)抽取500篇測試語料,當(dāng)語義相似度閾值設(shè)置為0.13時(shí),無論關(guān)鍵詞抽取個(gè)數(shù)為3、5或者7時(shí),整體平均值F達(dá)到最優(yōu)效果,且當(dāng)閾值超過0.18時(shí),因無法構(gòu)成新的網(wǎng)絡(luò)圖而輸出第一階段的候選關(guān)鍵詞抽取結(jié)果,F(xiàn)不再變化,因此,本次實(shí)驗(yàn)相似度閾值設(shè)置為0.13。圖3為關(guān)鍵詞抽取個(gè)數(shù)為3、5、7時(shí),關(guān)鍵詞抽取的F隨相似度閾值的變化曲線。
為驗(yàn)證改進(jìn)算法的性能,本實(shí)驗(yàn)將融合注意力機(jī)制的Word2Vec模型部署在騰訊云上,GPU為GeForceRTX2080Ti1,內(nèi)存256 GB,基于操作系統(tǒng)與Tensorflow框架實(shí)現(xiàn)。
圖3 關(guān)鍵詞抽取個(gè)數(shù)為3、5、7時(shí)F隨閾值的變化曲線
中國知網(wǎng)鐵路運(yùn)輸核心期刊文獻(xiàn)的元數(shù)據(jù)集(包括文獻(xiàn)的題目、摘要和關(guān)鍵詞等信息)是本實(shí)驗(yàn)的語料,用于模型訓(xùn)練的文獻(xiàn)數(shù)量共計(jì)31 547篇,測試數(shù)據(jù)集來源于隨機(jī)抽取的500篇文獻(xiàn),圖4列出了部分鐵路科技文獻(xiàn)語料。
在語料預(yù)處理階段,使用Jieba分詞工具時(shí),引用鐵路核心詞庫作為自定義詞典對文檔進(jìn)行分詞。將得到的文本作為融合注意力機(jī)制改進(jìn)后的Word2Vec模型的輸入數(shù)據(jù)。訓(xùn)練詞向量采用融合注意力機(jī)制的CBOW模型,其初始化的主要輸入?yún)?shù)包括:sentenceos,size=100,window=5;其中words為預(yù)處理后的訓(xùn)練語料,size為詞向量的維度,window為CBOW模型所設(shè)置的窗口大小。本次實(shí)驗(yàn)訓(xùn)練詞向量共計(jì)耗時(shí)6 h 21 min,最終得到約293 MB訓(xùn)練后的詞向量文件,圖5為截取的部分詞的向量表征。
圖4 部分實(shí)驗(yàn)語料
圖5 部分詞的向量表征
采用以下評價(jià)指標(biāo):精確率P、召回率R以及F。因F可以綜合反映出準(zhǔn)確率和召回率的整體效果,選取F作為實(shí)驗(yàn)的最終評價(jià)標(biāo)準(zhǔn)。各評價(jià)指標(biāo)的計(jì)算式為
(10)
(11)
(12)
式中:xi為應(yīng)用關(guān)鍵詞自動抽取算法抽取的第i篇文獻(xiàn)的關(guān)鍵詞集合;yi為針對第i篇文獻(xiàn)人工標(biāo)記的關(guān)鍵詞集合,測試數(shù)據(jù)集來源于隨機(jī)抽取的500篇文獻(xiàn)。因此,在本實(shí)驗(yàn)中N=500。
以提取3、5、7個(gè)關(guān)鍵詞為實(shí)驗(yàn)標(biāo)準(zhǔn),對自動抽取關(guān)鍵詞與人工標(biāo)注關(guān)鍵詞進(jìn)行對比。實(shí)驗(yàn)對比的方法包括:
(1) 傳統(tǒng)的TextRank算法。
(2) 文獻(xiàn)[25]提出的關(guān)鍵詞抽取算法。
(3) 文獻(xiàn)[26]提出的關(guān)鍵詞抽取算法。
(4) 本文提出的Bi-TextRank關(guān)鍵詞抽取算法。
4種算法的關(guān)鍵詞抽取結(jié)果如表1所示。從圖6至圖8可以看出,對鐵路科技文獻(xiàn)測試語料進(jìn)行關(guān)鍵詞抽取實(shí)驗(yàn),結(jié)果表明,提出的Bi-TextRank算法整體實(shí)驗(yàn)效果均優(yōu)于其他方法,且效果穩(wěn)定。在原始TextRank算法的基礎(chǔ)上,為了更詳細(xì)地驗(yàn)證加入不同方法對關(guān)鍵詞抽取效果性能的影響,對原始TextRank算法、融合Word2Vec的TextRank算法、引入注意力機(jī)制改進(jìn)Word2Vec進(jìn)而優(yōu)化TextRank的算法,以及Bi-TextRank算法進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。
圖6 平均準(zhǔn)確率對比
圖7 平均召回率對比
圖8 F對比
以關(guān)鍵詞抽取個(gè)數(shù)為7為例。由表2可以看出,TextRank作為基礎(chǔ)算法在鐵路科技文獻(xiàn)數(shù)據(jù)集上,其關(guān)鍵詞抽取的準(zhǔn)確率、召回率以及F分別為0.278、0.340、0.306。在TextRank基礎(chǔ)上,加入詞的語義信息,關(guān)鍵詞抽取性能有一定幅度的增加。在鐵路科技文獻(xiàn)中,上下文單詞對中心詞的價(jià)值不均等,原始Word2Vec模型訓(xùn)練鐵路文獻(xiàn)語料,導(dǎo)致詞向量精度受限,因此Word2Vec模型在聚合注意力機(jī)制后,能夠根據(jù)上下文信息權(quán)重有針對性的對中心詞的表征進(jìn)行調(diào)整,模型的準(zhǔn)確率、召回率以及F得到了較大增加。最后,在引入注意力機(jī)制改進(jìn)Word2Vec進(jìn)而優(yōu)化TextRank算法的基礎(chǔ)上,基于概率圖構(gòu)建網(wǎng)絡(luò)圖,分階段抽取關(guān)鍵詞,相比于基礎(chǔ)的TextRank算法,在鐵路科技文獻(xiàn)數(shù)據(jù)集的表現(xiàn)上,進(jìn)一步提升了關(guān)鍵詞抽取的效果,同時(shí)也充分證明了改進(jìn)模型的有效性。
通過對比4種基于TextRank模型的關(guān)鍵詞抽取算法,得出以下結(jié)論:傳統(tǒng)TextRank算法,因統(tǒng)計(jì)信息較為簡單使得關(guān)鍵詞抽取效果受到限制,在4種對比算法中,傳統(tǒng)TextRank算法綜合表現(xiàn)性能較差;文獻(xiàn)[25]提出的融合TextRank與Word2Vec的模型,通過改善詞間關(guān)系的表示來提升關(guān)鍵詞的抽取效果;文獻(xiàn)[26]提出的算法利用詞節(jié)點(diǎn)本身的各種位置信息調(diào)整詞節(jié)點(diǎn)間的影響力傳遞大小,在一定程度上提升了關(guān)鍵詞抽取效果。提出的Bi-TextRank算法,是在融合TextRank與Word2Vec模型的基礎(chǔ)上通過引入注意力機(jī)制改進(jìn)Word2Vec模型來改善詞向量的表示獲取更精確的詞間關(guān)系,同時(shí),在初次篩選出候選關(guān)鍵詞的基礎(chǔ)上,通過設(shè)置不同閾值來優(yōu)化網(wǎng)絡(luò)圖模型,再次利用TextRank對候選關(guān)鍵詞進(jìn)行二次篩選,該算法雖然增加了網(wǎng)絡(luò)圖構(gòu)建的一些時(shí)間,但相較傳統(tǒng)的TextRank算法整體有較大增加,且明顯優(yōu)于其他對比算法。
表1 關(guān)鍵詞抽取的4種算法的評價(jià)指標(biāo)對比
表2 不同方法組合對實(shí)驗(yàn)結(jié)果的影響
本文可得以下結(jié)論:
(1)基于鐵路科技文獻(xiàn),提出利用注意力機(jī)制學(xué)習(xí)不同語境中上下文對中心詞的信息價(jià)值權(quán)重,改善了傳統(tǒng)Word2Vec模型的詞間關(guān)系表示,獲得更為準(zhǔn)確的語義相似度信息用以優(yōu)化TextRank的網(wǎng)絡(luò)圖模型,提升了候選關(guān)鍵詞抽取的質(zhì)量。
(2)通過設(shè)置閾值構(gòu)建不同詞間關(guān)系網(wǎng)絡(luò)圖,探索其對關(guān)鍵詞抽取效果的影響,在候選關(guān)鍵詞的基礎(chǔ)上,進(jìn)一步提升了關(guān)鍵詞最終抽取的效果。
(3)對Bi-TextRank優(yōu)化算法和傳統(tǒng)TextRank算法等進(jìn)行實(shí)驗(yàn)對比,Bi-TextRank優(yōu)化算法在準(zhǔn)確率,召回率和F上均明顯優(yōu)于其他算法,可推廣應(yīng)用到鐵路科技文獻(xiàn)資源關(guān)鍵詞自動抽取工作中。
伴隨著我國鐵路行業(yè)數(shù)字轉(zhuǎn)型、科技創(chuàng)新步伐的不斷加快,高質(zhì)量鐵路科技情報(bào)與信息服務(wù)的需求愈發(fā)顯著。面對海量的鐵路科技信息資源,運(yùn)用基于Bi-TextRank優(yōu)化算法的關(guān)鍵詞自動抽取技術(shù)開展領(lǐng)域內(nèi)文獻(xiàn)資源的知識組織與加工工作,進(jìn)一步夯實(shí)鐵路科學(xué)研究、技術(shù)攻關(guān)的基礎(chǔ)信息資源建設(shè)。