余本功 張宏梅 曹雨蒙
知識組織與應(yīng)用
基于多元特征加權(quán)改進(jìn)的TextRank關(guān)鍵詞提取方法*
余本功 張宏梅 曹雨蒙
(合肥工業(yè)大學(xué)管理學(xué)院,合肥 230009)
現(xiàn)有的關(guān)鍵詞提取方法從文檔集或者單文檔方面考慮詞語的特征,很少考慮詞語在單文檔和文檔集中的綜合特征對關(guān)鍵詞提取效果產(chǎn)生的影響,因此,本文提出多元特征加權(quán)的關(guān)鍵詞提取方法。該方法通過Word2vec模型提取出詞語在文檔集中的語義關(guān)系特征與詞語在單文檔中的重要性特征,通過線性加權(quán)的方式計算出詞語的綜合影響力,用于改進(jìn)TextRank模型中的概率轉(zhuǎn)移矩陣,最后迭代計算選取排名靠前的詞語作為文檔的關(guān)鍵詞。實(shí)驗(yàn)結(jié)果表明,從單文檔和文檔集兩方面綜合考慮詞語的影響力,可以有效地改善關(guān)鍵詞的提取效果。
關(guān)鍵詞提??;TextRank ;Word2vec;多元特征加權(quán)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和移動互聯(lián)網(wǎng)的普及,以論壇、博客、頭條和知乎社區(qū)為主流的媒介平臺成為人們共享知識及發(fā)表言論的重要場所。這些平臺上存儲大量有用的非結(jié)構(gòu)化文本信息,如何從承載這些信息的文本中提取對用戶有用的信息成為了一個亟需解決的難題。自然語言處理技術(shù)為解決這一難題提供了強(qiáng)有力的技術(shù)支撐。
關(guān)鍵詞提取作為自然語言處理的核心技術(shù)之一,對自然語言處理技術(shù)的應(yīng)用有重要的作用。一方面,它為自然語言處理中的文本聚類分類、熱點(diǎn)識別、創(chuàng)新評價研究,以及知識圖譜和領(lǐng)域知識網(wǎng)絡(luò)的構(gòu)建打下了基礎(chǔ)[1-5];另一方面,關(guān)鍵詞提取技術(shù)可以提高用戶檢索信息的效率和準(zhǔn)確性[6],幫助用戶獲得有用信息。如在中國知網(wǎng)上搜索學(xué)術(shù)論文時,用戶一般會通過輸入的關(guān)鍵詞檢索論文,而網(wǎng)頁是通過與用戶輸入的關(guān)鍵詞進(jìn)行匹配,返回給用戶相似度最高的文章。因此,對關(guān)鍵詞提取進(jìn)行研究是十分必要的,特別是在文本信息應(yīng)用和信息檢索等方面具有極其重要的現(xiàn)實(shí)意義和應(yīng)用價值。
當(dāng)前,關(guān)鍵詞提取方法主要分為有監(jiān)督方法和無監(jiān)督方法。有監(jiān)督方法是將關(guān)鍵詞提取問題轉(zhuǎn)化為分類問題或標(biāo)注問題[7-8],借助分類算法來判斷候選詞是否為關(guān)鍵詞,由于語料集難以獲取,有監(jiān)督方法受到了制約,無監(jiān)督方法因不需訓(xùn)練語料而受到了學(xué)者的廣泛關(guān)注。因此,研究者們圍繞無監(jiān)督方法進(jìn)行了大量的研究工作,來改進(jìn)關(guān)鍵詞提取的效果。
隨著自然語言處理技術(shù)的發(fā)展,研究者在關(guān)鍵詞提取方法上不斷創(chuàng)新,使得關(guān)鍵詞提取方法更加成熟。關(guān)鍵詞提取無監(jiān)督方法主要包括3種,基于主題模型的關(guān)鍵詞提取方法[9]、基于統(tǒng)計特征的關(guān)鍵詞提取方法[10]和基于圖模型的關(guān)鍵詞提取方法[11-12]。在這3種方法中,基于主題模型的關(guān)鍵詞提取方法僅考慮了主題信息,丟失了關(guān)鍵詞本身的統(tǒng)計特征信息;基于統(tǒng)計特征的關(guān)鍵詞提取方法容易忽略詞語的語義信息;基于圖模型的關(guān)鍵詞提取方法沒有考慮統(tǒng)計特征對詞語節(jié)點(diǎn)權(quán)重的影響。因此,在對無監(jiān)督方法進(jìn)行研究的過程中,如何揚(yáng)長避短是研究者思考的重點(diǎn)。
基于主題模型的關(guān)鍵詞提取方法是通過主題模型中主題分布的性質(zhì)對關(guān)鍵詞進(jìn)行提取。LDA是主題模型中應(yīng)用最廣的模型[13],其核心思想是文檔由多個主題構(gòu)成,而主題是由詞語的概率分布表示,只要找到文檔的主題,然后選擇主題中概率最大的詞語,就可以將其作為文檔的關(guān)鍵詞。為進(jìn)一步提高關(guān)鍵詞提取效果,研究者在LDA模型上做了許多改進(jìn)工作。朱澤德等[14]將LDA模型與TFIDF相融合,提出一種基于文檔隱含主題的關(guān)鍵詞提取新算法TFITF;李湘東等[15]在抽取粗粒度特征時,將詞性、詞語位置等權(quán)重擴(kuò)展到LDA的生成模型中,增強(qiáng)了特征的表意性;邱明濤等[16]利用擴(kuò)展的LDA模型調(diào)整詞語的權(quán)值,彌補(bǔ)了LDA模型在話題解釋性上的不足;楊春艷等[17]引入引用內(nèi)容,建立Labeled-LDA模型,從語義層面分析了文檔中詞匯之間的關(guān)系,提高了主題提取的質(zhì)量與準(zhǔn)確率。
基于統(tǒng)計特征的關(guān)鍵詞提取方法主要是利用詞語在文檔中的詞權(quán)重、詞語位置,以及詞語的關(guān)聯(lián)信息衡量詞語是否能夠作為文章的關(guān)鍵詞。詞權(quán)重主要包括詞性、詞頻、詞長等,而詞語位置是指文檔中詞語的分布信息,如標(biāo)題、段首、段尾;詞語的關(guān)聯(lián)信息涵蓋互信息、均值、方差、TFIDF[18]等。在基于統(tǒng)計的關(guān)鍵詞提取方法中,有學(xué)者對這些統(tǒng)計特征進(jìn)行線性組合,通過計算得分來選取關(guān)鍵詞,如著名的YAKE方法[19]綜合影響詞語得分的詞頻、長度、位置、首字母狀態(tài)等信息對關(guān)鍵詞重要性進(jìn)行評分。但大多數(shù)學(xué)者是以TFIDF為核心,將常見的統(tǒng)計特征引入TFIDF中來改進(jìn)關(guān)鍵詞提取方法。羅燕等[20]通過齊普夫定律推導(dǎo)出同頻詞數(shù)統(tǒng)計規(guī)律,提出結(jié)合同頻詞數(shù)統(tǒng)計規(guī)律的TFIDF關(guān)鍵詞提取方法;余本功等[21]使用詞性和調(diào)節(jié)函數(shù)對TFIDF進(jìn)行優(yōu)化,并結(jié)合問答社區(qū)中多個用戶特征綜合計算詞語的權(quán)重,獲得更加精準(zhǔn)的關(guān)鍵詞;陳列蕾等[22]提出結(jié)合詞語位置分布特征與基于Scopus數(shù)據(jù)庫檢索的TFIDF從英文摘要中提取關(guān)鍵詞的方法。除此之外,為使TFIDF方法能夠適合不同長度的語料,F(xiàn)lorescu等[23]提出使用單詞的算數(shù)平均值來代替IDF的對數(shù)取值計算方式,其效果優(yōu)于傳統(tǒng)的TFIDF方法。
基于圖模型的關(guān)鍵詞提取方法以TextRank[12]模型為代表,是目前應(yīng)用最廣泛的方法。該方法受PageRank的啟發(fā),通過詞語間的共現(xiàn)關(guān)系建立網(wǎng)絡(luò)圖,然后進(jìn)行迭代排序,抽取前N個詞語作為關(guān)鍵詞。由于該模型具有很強(qiáng)的適應(yīng)性和擴(kuò)展能力,因此,研究者在此基礎(chǔ)上進(jìn)行了改進(jìn),主要分為兩個方面。一是在TextRank中引入統(tǒng)計特征屬性。李航等[24]使用神經(jīng)網(wǎng)絡(luò)對詞語平均信息熵、詞性、位置進(jìn)行加權(quán)計算,將得到的綜合權(quán)重融合到TextRank中,以改進(jìn)詞語節(jié)點(diǎn)的初始權(quán)重及概率轉(zhuǎn)移矩陣;Yan[25]將詞語的上下文信息、詞語位置、詞語中心等特征引入圖模型中,用于改進(jìn)節(jié)點(diǎn)的初始權(quán)重;Biswas等[26]提出用于提取Twitter的KECNW模型,著重強(qiáng)調(diào)了圖模型的集體節(jié)點(diǎn)權(quán)重取決于頻率、中心性、鄰居節(jié)點(diǎn)位置等參數(shù);張莉婧等[27]通過引入G1賦權(quán)法對TFIDF、詞語位置、詞語長度和詞性賦予不同權(quán)重并計算綜合權(quán)重,對TextRank中的重啟概率和概率轉(zhuǎn)移矩陣進(jìn)行改進(jìn);夏天[28]將覆蓋影響力、位置影響力和頻度影響力引入TextRank中,通過計算詞語間的影響力,從而實(shí)現(xiàn)對概率轉(zhuǎn)移矩陣的改進(jìn);劉竹辰等[29]在學(xué)者夏天的基礎(chǔ)上對詞語位置進(jìn)行修改,提高了關(guān)鍵詞提取的準(zhǔn)確率。二是模型間的相互融合。在模型相互融合方面,主要是利用LDA模型和Word2vec[30]對TextRank進(jìn)行改進(jìn)。在LDA與TextRank結(jié)合方面,一些學(xué)者選擇先對候選關(guān)鍵詞進(jìn)行聚類,然后將其作為圖中的節(jié)點(diǎn)進(jìn)行迭代計算,從而獲得關(guān)鍵詞,如TopicRank[31]模型與Multipartiterank[32]模型,后者是在前者的基礎(chǔ)上進(jìn)行改進(jìn),更加強(qiáng)調(diào)主題的多樣性;然而,通過主題模型獲得主題影響力或用詞語相似性來改進(jìn)TextRank中的概率轉(zhuǎn)移矩陣和節(jié)點(diǎn)初始值占據(jù)了該方面研究的主流地位[33-35]。在Word2vec與TextRank結(jié)合方面,夏天[36]利用Word2vec生成詞向量,對詞向量進(jìn)行聚類以獲取聚類影響力,并與位置影響力、覆蓋影響力進(jìn)行加權(quán),改進(jìn)詞語節(jié)點(diǎn)間的概率轉(zhuǎn)移矩陣,提高了關(guān)鍵詞提取的準(zhǔn)確率;寧建飛等[37]利用Word2vec將文檔集中的詞語生成詞向量,構(gòu)建詞語相似度矩陣,改進(jìn)TextRank中節(jié)點(diǎn)的初始權(quán)重以及概率轉(zhuǎn)移矩陣。
綜上所述,利用多特征融合或模型結(jié)合的無監(jiān)督方法在一定程度上提升了關(guān)鍵詞提取的效果。如在基于圖模型的關(guān)鍵詞提取方法中,將Word2vec計算出的詞語相似性引入圖模型中,取得了一定的效果,但尚未考慮到詞語在文檔內(nèi)的重要性特征。因此,本文在已有研究的基礎(chǔ)上將文檔內(nèi)詞語重要性與詞語在文檔集上的語義關(guān)系進(jìn)行線性加權(quán),將計算的詞語綜合影響力用于改進(jìn)TextRank中的概率轉(zhuǎn)移矩陣,通過強(qiáng)化詞語節(jié)點(diǎn)的權(quán)值,達(dá)到改善節(jié)點(diǎn)間影響力的相互傳遞目的,從而提高關(guān)鍵詞提取的效果。
在現(xiàn)有關(guān)鍵詞提取方法的基礎(chǔ)上,本文提出一種多元特征加權(quán)改進(jìn)的TextRank關(guān)鍵詞提取方法(Improved TextRank Keyword Extraction Method Based on Multivariate Features Weighted,MFW-ITKEM),基本流程如圖1所示。詞語語義關(guān)系特征會在一定程度上影響詞語節(jié)點(diǎn)間的關(guān)系;而文檔內(nèi)詞語的重要性有利于反映詞語是否為文檔的核心部分,其權(quán)值越大,說明該詞語越有可能是文檔的關(guān)鍵詞,文檔內(nèi)詞語的重要性體現(xiàn)在詞語節(jié)點(diǎn)出度特征、詞語節(jié)點(diǎn)位置特征以及詞語節(jié)點(diǎn)頻次特征3個方面。本文通過線性加權(quán)的方式將詞語語義關(guān)系、詞語節(jié)點(diǎn)出度、詞語節(jié)點(diǎn)位置和詞語節(jié)點(diǎn)頻次4個特征進(jìn)行綜合度量,計算詞語的綜合影響力,并將其用于改進(jìn)候選關(guān)鍵詞圖中的概率轉(zhuǎn)移矩陣,優(yōu)化圖中詞語節(jié)點(diǎn)的迭代計算過程,獲取文檔內(nèi)詞語節(jié)點(diǎn)的權(quán)值,實(shí)現(xiàn)關(guān)鍵詞的抽取。
根據(jù)TextRank原理,中文文檔的候選關(guān)鍵詞圖的構(gòu)建分為兩個環(huán)節(jié)。對文檔進(jìn)行分句、分詞,去停用詞,保留詞性為名詞、動詞、形容詞、副詞的詞語,獲得候選關(guān)鍵詞集合T=[w1,w2,…wm]。根據(jù)T中詞語的相鄰關(guān)系構(gòu)建候選關(guān)鍵詞圖G=(V,E),V是圖中的節(jié)點(diǎn)集合,由T中的候選關(guān)鍵詞組成,E是相鄰候選關(guān)鍵詞之間的邊集合。對于圖中任意的兩個相鄰的節(jié)點(diǎn),添加v→v和v→v兩條邊,將TextRank構(gòu)建為一個有向圖。節(jié)點(diǎn)v的TextRank值見公式(1)。
其中,(v)表示節(jié)點(diǎn)v的出度,d是阻尼系數(shù),默認(rèn)取值為0.85,V是節(jié)點(diǎn)集合數(shù)。通過公式(1)進(jìn)行迭代至收斂,即可獲得文檔中每個詞的權(quán)重。
多元特征用于計算節(jié)點(diǎn)的綜合影響力,即詞語在單文檔中的重要性以及詞語在文檔集中存在的語義關(guān)系,多元特征導(dǎo)向見圖2。詞語在單文檔中的重要性由詞語節(jié)點(diǎn)的出度特征、詞語節(jié)點(diǎn)的頻次特征、詞語節(jié)點(diǎn)在文檔內(nèi)的位置特征構(gòu)成;而詞語在文檔集中的語義關(guān)系是通過Word2vec將詞典表征為詞向量,計算向量間的相似度來獲得詞語在語義方面的關(guān)系。因此,提出詞語的綜合影響力計算公式(2)。
其中,θ和π是詞語在文檔內(nèi)及文檔集上特征的系數(shù),(im(v,v))為在文檔集中詞匯之間的相似度,θ和π在實(shí)驗(yàn)中取值都為0.5。
2.3.1 文檔內(nèi)詞語節(jié)點(diǎn)重要性的計算
在關(guān)鍵詞圖中,一個詞語節(jié)點(diǎn)對其鄰居節(jié)點(diǎn)的影響力是由該詞語節(jié)點(diǎn)的重要性決定的,本文在已有研究基礎(chǔ)上將詞語節(jié)點(diǎn)在單文檔中的特征分為詞語節(jié)點(diǎn)出度、詞語節(jié)點(diǎn)頻次以及詞語節(jié)點(diǎn)位置。令表示節(jié)點(diǎn)的重要性,、、表示3個要素所占的比例,通過公式(3)計算詞語節(jié)點(diǎn)的重要性。根據(jù)經(jīng)驗(yàn),參數(shù)設(shè)為α=0.34、β=0.33、γ=0.33。
(1)詞語節(jié)點(diǎn)出度特征。指詞語節(jié)點(diǎn)vi將其出度影響力均勻地分配給其他詞語節(jié)點(diǎn),旨在說明詞語節(jié)點(diǎn)vi與其相鄰詞語節(jié)點(diǎn)之間的關(guān)系。
(2)詞語節(jié)點(diǎn)頻次特征。指詞語在文本中出現(xiàn)的次數(shù),頻次越高的詞語其獲得的影響權(quán)重越大。
(3)詞語節(jié)點(diǎn)位置特征。指詞語在文本中所處的位置,一般詞語在標(biāo)題中的重要性高于其他位置。如果詞語在標(biāo)題中出現(xiàn),則取值為一個參數(shù),參數(shù)取值范圍?∈[20,30] ;如果在其他位置,則賦值為1。
2.3.2 文檔集詞語間的關(guān)系特征
(1)Word2vec模型。Word2vec是Google團(tuán)隊開源的將詞表征成向量的工具[30],主要包含跳字模型(skip-gram)和連續(xù)詞袋模型(Continuous Bag-Of-Words Model,CBOW),如圖3所示。CBOW模型和skip-gram模型都是由輸入層、投影層和輸出層組成,兩個模型不同之處在于CBOW模型是利用上下文來預(yù)測中心詞出現(xiàn)的概率,skip-gram模型是用中心詞預(yù)測上下文出現(xiàn)在中心詞附近的概率。與統(tǒng)計語言模型相比,Word2vec模型生成的詞向量不僅解決了維度災(zāi)難問題,而且通過相似性的計算強(qiáng)化了詞語之間的語義關(guān)系。因此,可以利用Word2vec訓(xùn)練得到的詞向量計算相似性,來獲得詞語之間的語義關(guān)系。
(2)文檔集中詞語節(jié)點(diǎn)語義特征的計算。為進(jìn)一步研究文檔集合中詞語節(jié)點(diǎn)存在的語義關(guān)系對單文檔中詞語節(jié)點(diǎn)的影響力,需要對文檔集合中詞語節(jié)點(diǎn)的語義關(guān)系進(jìn)行量化。本文利用Word2vec對文檔集中的詞語節(jié)點(diǎn)進(jìn)行詞向量表征,通過余弦公式計算詞向量的相似性,獲得詞語節(jié)點(diǎn)在文檔集中的語義關(guān)系特征。詞語節(jié)點(diǎn)在文檔集中語義關(guān)系的計算需要在構(gòu)建候選關(guān)鍵詞圖前完成,一般分為:①對給定的文檔集進(jìn)行分句、分詞,獲得詞匯集S1,S1由N個子詞匯集組成,每組子詞匯集對應(yīng)一篇文檔;②對詞匯集S1去停用詞,保留詞性為名詞、動詞、形容詞及副詞的詞語,進(jìn)行合并生成詞典D=[w1,w2,…wn],該詞典是關(guān)鍵詞圖中所有候選關(guān)鍵詞的全集;③利用訓(xùn)練好的Word2vec對詞典D進(jìn)行詞向量表達(dá),得到D的詞向量。
通過詞典中詞語的詞向量,利用余弦公式計算詞典D中詞語的相似度,獲得詞語在文檔集中所存在的語法關(guān)系,故詞典中詞語的相似度計算見公式(4)。
其中,c是目標(biāo)文檔句中的第個詞,u是源文檔句中第個詞,u與c均為詞向量。
假設(shè)詞典的大小為n,則可以得到一個n×n的詞語相似度矩陣,見公式(5)。
其中,(im(v,v))表示詞典的相似度矩陣,w表示詞典中詞語節(jié)點(diǎn)v與v的相似度。
傳統(tǒng)的詞圖中,詞語節(jié)點(diǎn)的權(quán)重依賴于相鄰詞語節(jié)點(diǎn)的貢獻(xiàn)度。為了對TextRank進(jìn)行改進(jìn),本文引入詞語綜合影響力對概率轉(zhuǎn)移矩陣進(jìn)行優(yōu)化,提高關(guān)鍵詞提取的準(zhǔn)確性。詞語節(jié)點(diǎn)的權(quán)重由兩個因素所決定:一是詞語節(jié)點(diǎn)本身的重要性,代表詞語在文檔內(nèi)部結(jié)構(gòu)中的作用,一般設(shè)定為1,在迭代過程中由相鄰詞語節(jié)點(diǎn)的分值進(jìn)行調(diào)整,記為(v);二是由詞語在單文檔中重要性和詞語在文檔集中語義關(guān)系所構(gòu)成的分值,表示詞語的綜合影響力。因此,定義新的節(jié)點(diǎn)重要性迭代計算公式(6)。
在迭代計算前,構(gòu)建詞語節(jié)點(diǎn)間的概率轉(zhuǎn)移矩陣,見公式(7)。
其中,w表示節(jié)點(diǎn)v的影響力轉(zhuǎn)移到其他節(jié)點(diǎn)的概率,每列概率之和為1。w的權(quán)重可以通過公式(8)計算得到。
在引入概率轉(zhuǎn)移矩陣之后,令B表示一次迭代的結(jié)果,則迭代公式可以轉(zhuǎn)化為公式(9)。
其中,為維數(shù)為的單位向量。通過公式(9)進(jìn)行迭代計算,當(dāng)兩次的計算結(jié)果差異小于0.001時,表明計算結(jié)果達(dá)到收斂狀態(tài)。最后對所有的詞語節(jié)點(diǎn)權(quán)重降序排列,將排名靠前的N個詞作為關(guān)鍵詞。
為了對提出的基于多元特征加權(quán)改進(jìn)的TextRank關(guān)鍵詞提取方法進(jìn)行驗(yàn)證,本文選取專利文本摘要進(jìn)行實(shí)證分析,并與其他學(xué)者提出的方法進(jìn)行對比,分析關(guān)鍵詞提取效果。專利文本是一種特殊的文本,它以精簡的方式存儲著最新的科學(xué)技術(shù),通過對專利文本進(jìn)行挖掘,能夠快速地捕捉到技術(shù)前沿,為企業(yè)提供一定的參考價值,激發(fā)企業(yè)的創(chuàng)新能力。本文選取制造行業(yè)的汽車專利文本,提取汽車技術(shù)前沿的關(guān)鍵詞,為人們快速了解最新技術(shù)提供便捷。
本文數(shù)據(jù)來自國內(nèi)文獻(xiàn)檢索平臺中國知網(wǎng),選擇高級檢索方式,以“申請人=安徽江淮汽車股份有限公司”為檢索條件,選擇公開日期為2016年4月20日—2017年2月15日共1?038條文本,剔除文本摘要篇幅小于150字的專利文本,共得到843條文本,對得到的843條專利文本進(jìn)行數(shù)據(jù)清洗。剔除申請?zhí)?、專利號、申請日、公開號等結(jié)構(gòu)化信息,保留專利文本的標(biāo)題和摘要文本,將每條專利摘要和標(biāo)題看作一個文檔存儲在xlsx文件中,為解決專利文本摘要中沒有標(biāo)準(zhǔn)的關(guān)鍵詞問題,筆者采用人工標(biāo)注的方式在每條專利摘要中標(biāo)注10個關(guān)鍵詞作為標(biāo)準(zhǔn)關(guān)鍵詞,與算法自動提取出的關(guān)鍵詞進(jìn)行對比分析。
本實(shí)驗(yàn)使用Python自帶的結(jié)巴分詞工具對數(shù)據(jù)進(jìn)行分詞,通過停用詞詞典將通用詞以及標(biāo)點(diǎn)符號過濾掉,進(jìn)行詞性標(biāo)注,在團(tuán)隊所構(gòu)建的2萬條汽車專用詞典的基礎(chǔ)上加入未收錄的汽車專用術(shù)語,共引入41?891個汽車術(shù)語,以此來提高分詞效果。
本文使用維基百科語料作為Word2vec訓(xùn)練集,完成詞向量的訓(xùn)練,利用訓(xùn)練好的參數(shù)對專利文本進(jìn)行詞向量的表達(dá)。
本文采用的數(shù)據(jù)語料是江淮專利文本摘要和標(biāo)題,為了對關(guān)鍵詞的提取效果進(jìn)行評估,本文選擇準(zhǔn)確率(P值)、召回率(R值)和F值3個指標(biāo)。
本文提出的多元特征的關(guān)鍵詞提取方法是將文檔外部信息與文檔內(nèi)部信息相結(jié)合,對專利文本摘要進(jìn)行關(guān)鍵詞提取研究,提取的關(guān)鍵詞取值范圍為[3-10]。本文設(shè)置了兩類對比實(shí)驗(yàn),第一類是特征組合實(shí)驗(yàn),通過對不同特征的融合,說明特征的疊加能夠有效提升關(guān)鍵詞的提取效果;第二類是不同關(guān)鍵詞算法之間的比較,旨在表明本文提出的算法優(yōu)于其他算法。在各性能對比圖表中僅顯示關(guān)鍵詞個數(shù)為3、5、7、10的準(zhǔn)確率、召回率以及F值。
3.2.1 特征組合
通過單個特征進(jìn)行分析,以TextRank模型為基準(zhǔn),分別加入表示詞語在文檔內(nèi)的重要性特征,即詞語節(jié)點(diǎn)出度特征(A)、詞語節(jié)點(diǎn)位置特征(B)、詞語節(jié)點(diǎn)頻次特征(C)和詞語在文檔集間的語義關(guān)系特征(D),依次對模型中的初始概率轉(zhuǎn)移矩陣進(jìn)行改進(jìn)。從圖4可以看出,在單個特征中,B的準(zhǔn)確率、召回率和F值均高于其他特征,而D是單個特征中提取效果最差的,原因在于僅考慮文檔集間的語義關(guān)系,忽略了單文檔的詞語節(jié)點(diǎn)出度、詞語在文本中的位置以及頻次產(chǎn)生的影響,所以對于提取單文檔關(guān)鍵詞來說,準(zhǔn)確率、召回率、F值均較差。
為更好地說明特征對實(shí)驗(yàn)結(jié)果的影響,本文在單個特征的基礎(chǔ)上將不同特征進(jìn)行組合,如圖5所示。
圖5的實(shí)驗(yàn)結(jié)果顯示,將詞語在文檔集上的語義特征與詞語在文檔內(nèi)的重要性相融合,其準(zhǔn)確率、召回率和F值均大于詞語位置特征與其他單個特征相組合的效果,即A+B+C+D的關(guān)鍵詞提取性能要勝于其他特征的組合性能。
3.2.2 算法比較
不同算法的對比在這里分為兩組,第一組是將本文提出的MFW-ITKEM算法與傳統(tǒng)的TextRank和TFIDF算法作對比,第二組是將本文提出的MFW-ITKEM算法與其他研究者提出的算法作比較。
第一組實(shí)驗(yàn)包括以下3種算法。
(1)TextRank。通過滑動窗口構(gòu)建共現(xiàn)網(wǎng)絡(luò),迭代計算詞語重要性,輸出排名靠前的詞語作為關(guān)鍵詞[12]。
(2)TFIDF。詞頻逆文檔算法,在基于詞頻的關(guān)鍵詞提取算法中,既考慮了詞語在單篇文檔中詞頻的大小,也將詞語對整個文檔集的區(qū)分能力納入計算中,這是一種經(jīng)典算法。
(3)MFW-ITKEM。本文提出的方法在已有研究的基礎(chǔ)上,將詞語在文檔內(nèi)的特征與詞語在文檔集上的語法特征相融合,改進(jìn)TextRank中的概率轉(zhuǎn)移矩陣,進(jìn)行關(guān)鍵詞的抽取。
表1和圖6是本文提出的MFW-ITKEM算法與經(jīng)典的TextRank和TFIDF算法的對比,可以看到,本文提出的方法在提取效果上均優(yōu)于經(jīng)典方法,其優(yōu)勢在于將節(jié)點(diǎn)在文檔內(nèi)的特征與節(jié)點(diǎn)在文檔集上的語義特征引入TextRank方法中。
第二組實(shí)驗(yàn)包括以下5種算法。
(1)T1。Word2vec算法,通過詞向量計算詞語的相似性,然后聚類得到關(guān)鍵詞[38]。
(2)T2。將詞向量進(jìn)行聚類,將外部知識融入TextRank的計算中[36]。
(3)T3。將詞語的位置信息和詞距融入詞圖模型中,來提升單文檔的關(guān)鍵詞提取效果[29]。
(4)T4。將Word2vec與TextRank相結(jié)合,將提取出的詞向量作為TextRank的輸入,采用了模型結(jié)合的方式[37]。
(5)MFW-ITKEM。本文提出的算法。
表2和圖7的統(tǒng)計結(jié)果顯示,橫向上比較來看,在關(guān)鍵詞個數(shù)較小時,5種方法的準(zhǔn)確率和F值基本相等,但是隨著關(guān)鍵詞個數(shù)的增加,MFW-ITKEM的準(zhǔn)確率和F值都有所提高,且高于其他研究者的方法,表明MFW-ITKEM方法在關(guān)鍵詞提取方面有更明顯的優(yōu)勢。
根據(jù)F值從縱向上分析,在關(guān)鍵詞數(shù)量為5、7、10的情況下,MFW-ITKEM在效果上均優(yōu)于其他4種算法。具體來說,關(guān)鍵詞數(shù)目為5時,5種算法的排序?yàn)門4 通過兩類實(shí)驗(yàn)結(jié)果分析,驗(yàn)證了本文提出的方法在使用詞向量獲取文檔集間的詞語關(guān)系的基礎(chǔ)上引入文檔內(nèi)的相鄰詞語的出度特征、頻率特征和詞語位置特征,能夠有效地提高關(guān)鍵詞的提取效果,比其他學(xué)者提出的僅考慮單文檔的統(tǒng)計特征或是通過詞向量聚類的算法更有優(yōu)勢。 本文在基于圖模型的關(guān)鍵詞提取方法的基礎(chǔ)上,綜合考慮詞語在單文檔中的重要性和其在文檔集中的語義關(guān)系,提出將這兩部分通過線性加權(quán)的方式融合來計算詞語的綜合影響力,并以此來改進(jìn)TextRank方法的概率轉(zhuǎn)移矩陣,實(shí)現(xiàn)圖中節(jié)點(diǎn)的權(quán)重計算并獲得關(guān)鍵詞,經(jīng)過實(shí)驗(yàn)驗(yàn)證,該算法提高了關(guān)鍵詞的提取效果。 本文所提出的算法也存在一些不足。訓(xùn)練Word2vec的語料均來自維基百科,尚未涵蓋汽車專業(yè)領(lǐng)域的一些術(shù)語,造成在使用單特征提取關(guān)鍵詞的實(shí)驗(yàn)中效果并不理想。后續(xù)研究將考慮使用汽車領(lǐng)域的語料集來訓(xùn)練Word2vec模型,并進(jìn)一步擴(kuò)大關(guān)鍵詞提取的文本,且將該方法與具體的應(yīng)用領(lǐng)域相結(jié)合,如熱點(diǎn)分析、創(chuàng)新評價以及主題演化方面,為用戶提供更有價值的參考。 [1] 毛太田,蔣冠文,李勇,等. 新媒體時代下網(wǎng)絡(luò)熱點(diǎn)事件情感傳播特征研究[J]. 情報科學(xué),2019,37(4):29-35,96. [2] 王健,張俊妮. 統(tǒng)計模型在中文文本挖掘中的應(yīng)用[J]. 數(shù)理統(tǒng)計與管理,2017,36(4):609-619. [3] 馬宗國,尹圓圓. 我國研究聯(lián)合體研究的知識圖譜分析——基于1992—2017年中國知網(wǎng)期刊文獻(xiàn)[J]. 科技管理研究,2019,39(5):246-250. [4] 余本功,陳楊楠,楊穎. 基于主題模型和專利數(shù)據(jù)的技術(shù)創(chuàng)新評價研究[J]. 現(xiàn)代情報,2019,39(1):111-117,168. [5] 趙汝南,常志遠(yuǎn),姜博,等. 基于網(wǎng)絡(luò)演化的領(lǐng)域知識發(fā)展趨勢研究[J]. 數(shù)字圖書館論壇,2016(3):24-29. [6] 溫有奎. 信息檢索系統(tǒng)的關(guān)聯(lián)關(guān)鍵詞推薦研究[J]. 數(shù)字圖書館論壇,2016(4):11-14. [7] 趙京勝,朱巧明,周國棟,等. 自動關(guān)鍵詞抽取研究綜述[J]. 軟件學(xué)報,2017,28(9):2431-2449. [8] 常耀成,張宇翔,王紅,等. 特征驅(qū)動的關(guān)鍵詞提取算法綜述[J]. 軟件學(xué)報,2018,29(7):2046-2070. [9] WEI H X,GAO G L,SU X D. LDA-Based Word Image Representation for Keyword Spotting on Historical Mongolian Documents[C]//Neural Information Processing(ICONIP). Springer,2016:432-441. [10] 傅柱,王曰芬,陳必坤. 國內(nèi)外知識流研究熱點(diǎn):基于詞頻的統(tǒng)計分析[J]. 圖書館學(xué)研究,2016(14):2-12. [11] BOUDIN F. A Comparison of Centrality Measures for Graph-Based Keyphrase Extraction[C]//Proceedings of the 6th International Joint Conference on Natural Language Processing. Nagoya:Asian Federation of Natural Language Processing,2013:834-838 [12] MIHALCEA R,TARAU P. TextRank:Bringing Order into Texts[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing,Stroudsburg:ACL,Barcelona. 2004:404-411. [13] BLEI D M,NGA Y,JODAN M I.Latentdirichlet allocation[J]. The Journal of Machine Learning Research,2003,3:993-1022. [14] 朱澤德,李淼,張健,等. 一種基于LDA模型的關(guān)鍵詞抽取方法[J]. 中南大學(xué)學(xué)報(自然科學(xué)版),2015,46(6):2142-2148 [15] 李湘東,巴志超,黃莉. 一種基于加權(quán)LDA模型和多粒度的文本特征選擇方法[J]. 現(xiàn)代圖書情報技術(shù),2015(5):42-49. [16] 邱明濤,馬靜,張磊,等. 基于可擴(kuò)展LDA模型的微博話題特征抽取研究[J]. 情報科學(xué),2017,35(4):22-26,31. [17] 楊春艷,潘有能,趙莉. 基于語義和引用加權(quán)的文獻(xiàn)主題提取研究[J]. 圖書情報工作,2016,60(9):131-138,146. [18] PAIK J H. A novel TF-IDF weighting scheme for effective ranking[C]//Proceedings of the 36th International ACM SIGIR conference on Research and Development in Information Retrieval. ACM,2013:343-352. [19] CAMPOS R,VíTOR M,PASQUALI A,et al. YAKE! Collection-Independent Automatic Keyword Extractor[C]//In Advances in Information Retrieval-40th European Conference on Information Retrieval. Springer ECIR 2018,Lecture Notes in Computer Science,Grenoble,F(xiàn)rance. Cham,2018:806-810. [20] 羅燕,趙書良,李曉超,等. 基于詞頻統(tǒng)計的文本關(guān)鍵詞提取方法[J]. 計算機(jī)應(yīng)用,2016,36(3):718-725. [21] 余本功,李婷,楊穎. 基于多屬性加權(quán)的社會化問答社區(qū)關(guān)鍵詞提取方法[J]. 圖書情報工作,2018,62(5):132-139. [22] 陳列蕾,方暉. 基于Scopus檢索和TFIDF的論文關(guān)鍵詞自動提取方法[J]. 南京大學(xué)學(xué)報(自然科學(xué)),2018,54(3):604-611. [23] FLORESCU C,CARAGEA C. A New Scheme for Scoring Phrases in Unsupervised Keyphrase Extraction[C]//Proceedings of the Advances in Information Retrieval-39th European Conference on Information Retrieval.ECIR 2017,Lecture Notes in Computer Science Aberdeen,UK,2017. [24] 李航,唐超蘭,楊賢,等. 融合多特征的TextRank關(guān)鍵詞抽取方法[J]. 情報雜志,2017,36(8):183-187. [25] YAN Y. A Graph-based approach of automatic key phraseextraction[J]. Procedia Computer Science,2017,107:248-255. [26] BISWAS S K,BORDOLOI M,SHREYA J. A graph based keyword extraction model using collective node weight[J]. Expert Systems with Applications,2018,97:51-59. [27] 張莉婧,李業(yè)麗,曾慶濤,等. 基于改進(jìn)TextRank的關(guān)鍵詞抽取算法[J]. 北京印刷學(xué)院學(xué)報,2016,24(4):51-55. [28] 夏天. 詞語位置加權(quán)Text Rank的關(guān)鍵詞抽取研究[J]. 現(xiàn)代圖書情報技術(shù),2013(9):30-34. [29] 劉竹辰,陳浩,于艷華,等. 詞位置分布加權(quán)TextRank的關(guān)鍵詞提取[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(9):74-79. [30] MIKOLOVT,CHEN K,CORRADO G,et al. Efficient Estimation of Word Representations in Vector Space[C]//Proceedings of the 2013 International Conference on Learning Representations,ICLR 2013,Workshop Track,Scottsdale,Arizona,USA. 2013:1-12. [31] BOUGOUIN A,BOUDINF,BéATRICE D. TopicRank:Graph-Based Topic Ranking for Keyphrase Extraction[C]// Proceedings of the 6th International Joint Conference on Natural Language Processing,IJCNLP 2013,Nagoya,Japan2013:543-551. [32] BOUDINF. Unsupervised key phraseextraction with multipartite graphs[C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,NAACL HLT,Association for Computational Linguistics,NewOrleans:June 1-6,2018,2:667-672. [33] STERCKX L,DEMEESTER T,DELEU J,et al. Creation and evaluation of large keyphrase extraction collections with multiple opinions[J]. Language Resources and Evaluation,2017,52:503-532. [34] 顧益軍,夏天. 融合LDA與TextRank的關(guān)鍵詞抽取研究[J]. 現(xiàn)代圖書情報技術(shù),2014(7/8):41-47. [35] 劉嘯劍,謝飛,吳信東. 基于圖和LDA主題模型的關(guān)鍵詞抽取算法[J]. 情報學(xué)報,2016,35(6):664-672. [36] 夏天. 詞向量聚類加權(quán)TextRank的關(guān)鍵詞抽?。跩]. 數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(2):28-34. [37] 寧建飛,劉降珍. 融合Word2vec與TextRank的關(guān)鍵詞抽取研究[J]. 現(xiàn)代圖書情報技術(shù),2016(6):20-27. [38] 李躍鵬,金翠,及俊川. 基于word2vec的關(guān)鍵詞提取算法[J]. 科研信息化技術(shù)與應(yīng)用,2015,6(4):54-59. Improved TextRank Keyword Extraction Method Based on Multivariate Features Weighted YU BenGong ZHANG HongMei CAO YuMeng ( School of Management, Hefei University of Technology, Hefei 230009, China ) Existing keyword extraction methods take into account the characteristics of words from the document set or single document, and rarely comprehensively considered the impact of the comprehensive features of words in single document and document set on the keyword extraction effect. This paper proposed a multi-feature weighted keyword extraction method. This method used the Word2vec model to extract the semantic relationship characteristics of words in the document set, and the importance characteristics of words in a single document to calculate the comprehensive influence of the words in a linear weighting manner, which was used to improve the probability transition matrix in the TextRank model. Finally, iterative calculation selected the top-ranked words as the keywords of the document. Experimental results show that comprehensive consideration of the influence of words from both a single document and a document set can effectively improve the effect of keyword extraction. Keyword Extraction; TextRank; Word2vec; Multivariate Feature Weighting TP391 10.3772/j.issn.1673-2286.2020.03.006 (2020-02-28) *本研究得到國家自然科學(xué)基金資助項目“基于制造大數(shù)據(jù)的產(chǎn)品研發(fā)知識集成與服務(wù)機(jī)制研究”(編號:71671057)資助。 余本功,男,1971年生,博士,教授,研究方向:信息系統(tǒng)、機(jī)器學(xué)習(xí)。 張宏梅,女,1994年生,碩士,通信作者,研究方向:數(shù)據(jù)挖掘、自然語言處理,E-mail:18856002708@163.com。 曹雨蒙,女,1994年生,碩士,研究方向:機(jī)器學(xué)習(xí)、自然語言處理。4 結(jié)語