尹 紅,陳 雁,李 平
(西南石油大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院 智能與網(wǎng)絡(luò)化系統(tǒng)研究中心,四川 成都 610500)
互聯(lián)網(wǎng)的快速發(fā)展,使得文檔數(shù)量迅速增長(zhǎng)。大量文檔可為知識(shí)獲取帶來(lái)紅利,但同時(shí)也給信息獲取帶來(lái)了挑戰(zhàn)。關(guān)鍵短語(yǔ)反映了文檔主題或主要內(nèi)容,能夠幫助用戶快速理解文檔并獲取文檔關(guān)鍵信息,它攜帶的重要信息可廣泛用于自然語(yǔ)言處理和信息檢索領(lǐng)域任務(wù)上,例如,聚類、分類、自動(dòng)摘要、話題監(jiān)測(cè)、問答系統(tǒng)、知識(shí)發(fā)現(xiàn)等[1-4],因此人們一直對(duì)關(guān)鍵短語(yǔ)提取技術(shù)有著極大興趣,并提出了大量新穎的方法。
關(guān)鍵短語(yǔ)提取方法主要沿著監(jiān)督和無(wú)監(jiān)督兩個(gè)方向不斷推進(jìn)[5]。在監(jiān)督方法中,通常將關(guān)鍵短語(yǔ)提取作為一個(gè)二分類問題[6-7],利用機(jī)器學(xué)習(xí)中的分類算法學(xué)習(xí)分類模型。在無(wú)監(jiān)督方法中,常見做法是將其作為一個(gè)基于圖的排序問題,把單個(gè)文檔轉(zhuǎn)換為圖,利用具體的排序算法[8-9]對(duì)節(jié)點(diǎn)進(jìn)行排序,取前K個(gè)短語(yǔ)作為關(guān)鍵短語(yǔ)。由于監(jiān)督方法需要大量的人工標(biāo)注數(shù)據(jù),而人工標(biāo)注是一個(gè)耗時(shí)耗力的任務(wù),因此本研究集中于無(wú)監(jiān)督方法上。
傳統(tǒng)的基于圖的方法通過詞語(yǔ)間的緊密程度和詞語(yǔ)本身在文檔中具有的影響力來(lái)計(jì)算詞語(yǔ)得分。當(dāng)前,在衡量詞匯間的緊密程度方面,研究者們大都采用詞匯間的語(yǔ)義關(guān)系以及共現(xiàn)頻率來(lái)表示詞語(yǔ)間的緊密性;在詞語(yǔ)影響力方面,研究者們大多利用詞的位置信息以及詞對(duì)主題的偏好程度來(lái)表示詞語(yǔ)本身的影響力。對(duì)于如何表示詞對(duì)主題的偏好程度,目前研究都局限于利用詞的主題分布與文檔主題分布的相似度來(lái)表示。據(jù)我們所知,詞的主題分布是針對(duì)整個(gè)語(yǔ)料集,不因文檔的不同而產(chǎn)生差異,而每篇文檔中的相同詞可能對(duì)相同的主題有不同的偏好性,因此現(xiàn)有的方法不能準(zhǔn)確的表示詞對(duì)主題的偏好程度。針對(duì)現(xiàn)有方法的不足,本文提出了EntropyRank算法,它借助主題模型中的文檔—主題分布和主題—詞分布來(lái)表示詞在具體文檔中特定的主題分布,并提出用詞主題分布的熵值來(lái)表示詞的主題偏好程度。最后,融合熵值來(lái)提取關(guān)鍵短語(yǔ)。
根據(jù)機(jī)器學(xué)習(xí)中的算法分類可將關(guān)鍵短語(yǔ)提取算法分為監(jiān)督和無(wú)監(jiān)督兩種,監(jiān)督關(guān)鍵短語(yǔ)提取方法通常將關(guān)鍵短語(yǔ)提取作為一個(gè)二分類問題,將關(guān)鍵短語(yǔ)與非關(guān)鍵短語(yǔ)分開標(biāo)注,采用機(jī)器學(xué)習(xí)中的分類算法學(xué)習(xí)到一個(gè)分類模型,利用學(xué)習(xí)到的分類模型去判斷一個(gè)新的詞語(yǔ)是否為關(guān)鍵短語(yǔ)[7]。而無(wú)監(jiān)督關(guān)鍵短語(yǔ)[10-17]提取方法不需要對(duì)樣本進(jìn)行標(biāo)注,僅利用文檔本身的信息就可以實(shí)現(xiàn)關(guān)鍵短語(yǔ)的提取。由于監(jiān)督方法需要事先標(biāo)注好的高質(zhì)量數(shù)據(jù),人工預(yù)處理代價(jià)高,所以目前國(guó)內(nèi)外對(duì)于關(guān)鍵短語(yǔ)提取算法的研究主要集中在無(wú)監(jiān)督方法上。
在無(wú)監(jiān)督方法中,較為流行的一種方法是基于統(tǒng)計(jì)信息,最具代表性的方法TF-IDF于1988年由KS Jones等人提出,它利用詞頻和詞出現(xiàn)在所有文本中的頻率來(lái)計(jì)算詞在文檔中的重要性。該方法沒有考慮到語(yǔ)義特征,導(dǎo)致忽略了一些重要的低頻詞匯,并且實(shí)現(xiàn)過程需要大量語(yǔ)料。因此,另一種流行的基于圖排序的方法引起了研究者們的重視。其中TextRank[13]作為最經(jīng)典的算法于2004年提出,它通過隨機(jī)游走方法計(jì)算圖中每個(gè)節(jié)點(diǎn)的分?jǐn)?shù)值,對(duì)節(jié)點(diǎn)分?jǐn)?shù)值進(jìn)行排序,并取前K個(gè)詞為關(guān)鍵詞。TextRank方法在進(jìn)行隨機(jī)游走時(shí)指出節(jié)點(diǎn)得分由相鄰節(jié)點(diǎn)的得分和節(jié)點(diǎn)自身影響力共同決定,它默認(rèn)圖中節(jié)點(diǎn)邊權(quán)為1,即認(rèn)為節(jié)點(diǎn)得分會(huì)均勻轉(zhuǎn)移到相鄰節(jié)點(diǎn),并且也默認(rèn)節(jié)點(diǎn)影響力為節(jié)點(diǎn)數(shù)的倒數(shù)。該方法沒有考慮到節(jié)點(diǎn)得分的轉(zhuǎn)移概率會(huì)受詞語(yǔ)間的相關(guān)關(guān)系的影響,也沒有考慮到詞語(yǔ)影響力存在差異的情況。
隨后,針對(duì)詞語(yǔ)間相關(guān)關(guān)系,Wan和Xiao[14]在2008年提出了SingleRank算法,他指出邊權(quán)由兩節(jié)點(diǎn)的共現(xiàn)次數(shù)決定。同時(shí),他提出的ExpandRank算法首次考慮利用除文檔本身之外的其他額外信息來(lái)對(duì)文檔建模,2014年Collapalli和CorageesSujatha根據(jù)Wan和Xiao[14]的想法提出Cite-TextRank[15]算法,利用科技文獻(xiàn)中的引用關(guān)系尋找額外文檔來(lái)對(duì)文檔建模,同年顧益軍提出節(jié)點(diǎn)在隨機(jī)游走時(shí)會(huì)以更大的概率跳轉(zhuǎn)到更重要的節(jié)點(diǎn)參考文獻(xiàn)以及近幾年提出的WeightedTextRank[16]、AttractionRank[17]融合共現(xiàn)關(guān)系和詞語(yǔ)間的相似性、相互吸引力來(lái)表示詞語(yǔ)間的相關(guān)關(guān)系。
對(duì)于如何計(jì)算詞語(yǔ)影響力,F(xiàn)lorescu等提出了positionRank[18],利用詞的位置信息來(lái)表示詞語(yǔ)影響力,他們認(rèn)為詞語(yǔ)出現(xiàn)的位置越靠前詞語(yǔ)影響力越大,然后統(tǒng)計(jì)每個(gè)詞在文檔中出現(xiàn)的位置,對(duì)每個(gè)位置的影響力求和作為詞語(yǔ)影響力;Liu等提出了TPR算法[19],認(rèn)為每個(gè)詞語(yǔ)都有一定的主題偏好性,累積詞對(duì)所有主題的偏好性當(dāng)作詞語(yǔ)影響力,在此基礎(chǔ)上,Sterckx、Teneva又相繼提出了STPR[20]和SR[21]算法,這兩種算法都是在TPR算法上做出的改進(jìn),其中STPR算法通過計(jì)算詞語(yǔ)主題分布和文檔主題分布的相似度作為詞語(yǔ)影響力,SR算法則是在STPR算法基礎(chǔ)上加入了詞語(yǔ)的語(yǔ)料特性,最后融合主題相似度與語(yǔ)料特性共同作為詞語(yǔ)影響力。除此之外,Liu等、Bougouin和Chage等人考慮用聚類的方法進(jìn)行關(guān)鍵短語(yǔ)提取,將候選關(guān)鍵短語(yǔ)進(jìn)行聚類,并把每個(gè)類別當(dāng)作一個(gè)節(jié)點(diǎn),類與類之間進(jìn)行全連接構(gòu)成圖,其中類別之間的關(guān)系通過類別中的詞來(lái)刻畫,最后選取每個(gè)類別中最具代表性的短語(yǔ)作為關(guān)鍵短語(yǔ)。
綜上所述,已有的算法中,沒有研究者考慮詞在具體文檔中特定的主題分布情況,而一個(gè)詞的主題分布可刻畫詞對(duì)主題的偏好性,若詞的主題分布越均勻,那么詞對(duì)每個(gè)主題的偏好性都相同,對(duì)于整個(gè)文檔來(lái)說,這個(gè)詞不能很好地去刻畫文檔的主題分布情況,反之則能很好地去刻畫文檔的主題分布情況。因此本文提出的EntropyRank算法采用信息熵來(lái)表示詞語(yǔ)特定的主題分布情況,這樣可以很好地捕捉到主題分布明顯的詞語(yǔ),并以較為簡(jiǎn)潔的方式改善關(guān)鍵短語(yǔ)提取效果。
LDA[22]在2003年由D M Blei等人提出,是一種基于概率圖模型的主題模型算法,用來(lái)識(shí)別語(yǔ)料庫(kù)中的潛在主題信息。在LDA模型中,認(rèn)為文檔主題服從多項(xiàng)分布,而每個(gè)主題又是在多個(gè)詞上的多項(xiàng)分布,則文檔d可由以下過程生成: 首先以一定的概率從主題分布θd中選擇某個(gè)主題t∈T(T為大小為M的主題集合),接下來(lái)從該主題的詞分布φt中以一定概率選擇某個(gè)詞w,重復(fù)上述過程可生成蘊(yùn)含多個(gè)主題的文檔,由于文檔都是經(jīng)過上述過程獲得,于是對(duì)于大量文檔集來(lái)說,可通過LDA模型訓(xùn)練得到一個(gè)文檔—主題分布矩陣θ和主題—詞分布矩陣φ。
(1)
信息論將信息的傳遞作為一種統(tǒng)計(jì)現(xiàn)象來(lái)考慮,給出了估算通信信道容量的方法,其中信息熵能夠表示隨機(jī)變量的不確定性,若隨機(jī)變量分布越均勻,則它的不確定性越大,信息熵越大,反之不確定性越小,信息熵越小。
關(guān)鍵短語(yǔ)提取技術(shù)關(guān)鍵在于能提取出代表文檔主題的詞,本研究認(rèn)為詞的主題分布情況能刻畫詞的主題表達(dá)力。若詞的主題分布明顯,表明該詞的主題表達(dá)力強(qiáng),能更清楚的表示文檔主題,則更可能是文檔關(guān)鍵短語(yǔ);若詞的主題分布比較均勻,表明該詞的主題表達(dá)力較弱,不能清楚的表示文檔主題,成為關(guān)鍵短語(yǔ)的可能性就較小。當(dāng)計(jì)算詞語(yǔ)影響力時(shí),我們利用詞語(yǔ)的主題表達(dá)力來(lái)刻畫詞語(yǔ)影響力,這里我們將詞的主題表達(dá)力稱作主題熵。當(dāng)詞語(yǔ)的主題表達(dá)力越強(qiáng),對(duì)應(yīng)的主題熵越?。环粗畬?duì)應(yīng)的主題熵越大。于是,我們采用主題熵的倒數(shù)來(lái)表示詞語(yǔ)影響力,為保證詞語(yǔ)影響力的計(jì)算具有意義,在計(jì)算詞語(yǔ)影響力時(shí)將主題熵加1。因此,對(duì)于文檔d中的詞語(yǔ)w,令ti(w)表示詞語(yǔ)影響力,其計(jì)算方式如式(2)所示。
(2)
其中,pj(wd)表示文檔d中的詞語(yǔ)w在第j個(gè)主題下的概率值。
采用圖排序方式對(duì)文檔進(jìn)行關(guān)鍵短語(yǔ)提取時(shí),將文檔看做一個(gè)詞序列S=(ω1,ω2,…,ωs),ωs表示詞序列中的第s個(gè)詞。接下來(lái)根據(jù)S構(gòu)建能夠代表文檔和體現(xiàn)詞之間相互關(guān)系的詞圖G=(V,E),其中V=(w1,w2,…,wq)為S構(gòu)成的大小為q的候選詞集合,E為具有權(quán)值的邊集合。我們使用大小為λ的窗口對(duì)詞序列S進(jìn)行遍歷,并統(tǒng)計(jì)兩個(gè)詞在窗口中的共現(xiàn)次數(shù)來(lái)作為邊權(quán)。在詞圖構(gòu)建過程中,連邊既可以是有向的也可以是無(wú)向的,但Mihalcea和Tarau[14]在實(shí)驗(yàn)過程中發(fā)現(xiàn)詞圖類型對(duì)實(shí)驗(yàn)效果的影響較小,因此本文在實(shí)驗(yàn)中構(gòu)建無(wú)向圖。
采用上述詞圖構(gòu)建方法將文檔表示成詞圖G,令M表示G的鄰接矩陣,mij∈M表示連邊(wi,wj)權(quán)重,在詞圖上利用隨機(jī)游走方法計(jì)算節(jié)點(diǎn)得分,按照式(3)迭代直至收斂,最后得到每個(gè)節(jié)點(diǎn)最終得分。
(3)
(4)
為防止在收斂結(jié)束時(shí)出現(xiàn)每個(gè)節(jié)點(diǎn)值都為0或者僅存在一個(gè)節(jié)點(diǎn)值為1的情況,在公式中加入了阻尼系數(shù)α保證每個(gè)節(jié)點(diǎn)都會(huì)收斂到一個(gè)正常值,因此節(jié)點(diǎn)得分計(jì)算公式修改后如式(5)所示。
(5)
(6)
則一個(gè)具體的詞wi,最終得分如式(7)所示。
(7)
Adj(wi): 節(jié)點(diǎn)wi的所有鄰居節(jié)點(diǎn)集合。
通過EntropyRank得到每個(gè)詞語(yǔ)得分之后,開始對(duì)候選關(guān)鍵短語(yǔ)進(jìn)行排序。Hulth等人指出大多數(shù)的已標(biāo)注關(guān)鍵短語(yǔ)為名詞性短語(yǔ),因此本文將從文檔中篩選出名詞短語(yǔ)作為候選關(guān)鍵短語(yǔ)。
本文按照以下方法獲得文檔的候選關(guān)鍵短語(yǔ)。首先對(duì)文檔進(jìn)行分詞處理,再進(jìn)行詞性標(biāo)注,最后選擇形如(形容詞)*(名詞)+格式的名詞短語(yǔ)參考文獻(xiàn),它表示零個(gè)或多個(gè)形容詞后可接一個(gè)或多個(gè)名詞。本文將這種形式的名詞短語(yǔ)當(dāng)作候選關(guān)鍵短語(yǔ)。
當(dāng)識(shí)別出候選關(guān)鍵短語(yǔ)之后,使用Entropy-Rank計(jì)算出的詞語(yǔ)得分來(lái)計(jì)算候選關(guān)鍵短語(yǔ)得分,因此候選關(guān)鍵短語(yǔ)的得分計(jì)算方式如式(8)所示。
(8)
隨后對(duì)候選關(guān)鍵短語(yǔ)的得分進(jìn)行降序排序得到一個(gè)降序候選關(guān)鍵短語(yǔ)列表,并取前K個(gè)短語(yǔ)作為文檔關(guān)鍵短語(yǔ)。
為驗(yàn)證算法的性能,本次實(shí)驗(yàn)在6個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。
500N-KPCrowd[23]數(shù)據(jù)集包括500篇新聞文檔,每個(gè)類別包含50篇新聞,關(guān)鍵短語(yǔ)由亞馬遜工作人員所標(biāo)注;Inspec數(shù)據(jù)集[7]包括2 000篇科學(xué)論文摘要,其中關(guān)鍵短語(yǔ)由作者和讀者分別標(biāo)注;DUC[24]數(shù)據(jù)集包括308篇新聞標(biāo)題及新聞文檔,其中關(guān)鍵短語(yǔ)由作者和讀者分別標(biāo)注;NUS[25]數(shù)據(jù)集包括211篇會(huì)議論文,且每篇論文長(zhǎng)度在4至12頁(yè)之間,其中關(guān)鍵短語(yǔ)由作者和讀者分別標(biāo)注;Krapivin[26]數(shù)據(jù)集包括2 304篇科技論文,其中關(guān)鍵短語(yǔ)由作者和讀者分別標(biāo)注;KP20K[27]數(shù)據(jù)集包括200篇科技論文摘要及其標(biāo)題,其中關(guān)鍵短語(yǔ)由作者和讀者分別標(biāo)注。經(jīng)過Mihalcea和Tarau[13]中的描述分析,對(duì)Inspec數(shù)據(jù)集我們采用讀者標(biāo)注的作為文檔的標(biāo)注關(guān)鍵短語(yǔ),其他數(shù)據(jù)集均采用作者標(biāo)注的作為文檔的標(biāo)注關(guān)鍵短語(yǔ)。對(duì)數(shù)據(jù)集的詳細(xì)描述,如表1所示。
表1 數(shù)據(jù)集介紹
因?yàn)閿?shù)據(jù)集中包含的新聞或者期刊摘要、論文內(nèi)容都較少,不足以學(xué)習(xí)到好的主題。因此,本文使用英文維基百科數(shù)據(jù)來(lái)學(xué)習(xí)主題模型。通過去除長(zhǎng)度小于1 000的文檔并去掉停用詞,最終保留了4 614 519篇文檔。對(duì)于主題模型中的缺省詞,我們將詞的主題分布設(shè)置為均勻分布。
本研究選取了準(zhǔn)確率P、召回率R、F1作為評(píng)價(jià)指標(biāo)。其中P是指算法抽取出的關(guān)鍵短語(yǔ)列表中標(biāo)注關(guān)鍵短語(yǔ)所占比例,R則是標(biāo)注關(guān)鍵短語(yǔ)被抽取出的比例,而F1是對(duì)P和R的一個(gè)綜合考慮。下面給出了3個(gè)評(píng)價(jià)標(biāo)準(zhǔn)的具體定義:
其中,ccorrect是算法提取出的正確的關(guān)鍵短語(yǔ)個(gè)數(shù),cextract是提取出的關(guān)鍵短語(yǔ)個(gè)數(shù),cstandard則是標(biāo)注關(guān)鍵短語(yǔ)的個(gè)數(shù)。上述三個(gè)評(píng)價(jià)指標(biāo)可以分別衡量實(shí)驗(yàn)效果。由于P、R指標(biāo)有時(shí)會(huì)出現(xiàn)互相矛盾的情況,因此本文利用綜合評(píng)價(jià)指標(biāo)F1對(duì)提出的方法進(jìn)行評(píng)估,可以得到相對(duì)客觀的評(píng)價(jià)。
EntropyRank算法中存在兩個(gè)參數(shù)可能會(huì)影響算法性能,包括窗口λ和主題數(shù)目M。因?yàn)?個(gè)數(shù)據(jù)集上平均標(biāo)注關(guān)鍵短語(yǔ)數(shù)量不同,因此在討論參數(shù)λ和M時(shí),將關(guān)鍵短語(yǔ)固定為所有數(shù)據(jù)集的平均標(biāo)注短語(yǔ)個(gè)數(shù)。于是,當(dāng)討論主題數(shù)目M對(duì)算法的影響時(shí),我們將窗口λ固定為3,關(guān)鍵短語(yǔ)個(gè)數(shù)K固定為15;當(dāng)討論窗口對(duì)算法的影響時(shí),我們將主題數(shù)目M固定為5,關(guān)鍵短語(yǔ)個(gè)數(shù)K固定為15。
4.3.1 窗口大小
為分析窗口大小對(duì)關(guān)鍵短語(yǔ)提取性能的影響,本研究在6個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖1所示。隨著窗口的取值不斷增大,算法性能逐漸提升,而在某些特定的數(shù)據(jù)集上,當(dāng)窗口增大到一定程度時(shí),算法性能開始下降。
圖1 K=15,F1值隨窗口λ的變化情況
當(dāng)窗口λ=18、21時(shí),Inspec數(shù)據(jù)集和KP20K數(shù)據(jù)集上的F1值逐漸減小,而其他數(shù)據(jù)集上F1值仍然增大。這是因?yàn)镮nspec和KP20K數(shù)據(jù)集由論文標(biāo)題及摘要構(gòu)成,文檔長(zhǎng)度較短,若在實(shí)驗(yàn)過程中窗口設(shè)置過大,則該文檔構(gòu)成的詞圖將會(huì)是一個(gè)完全圖,可能會(huì)出現(xiàn)所有連邊邊權(quán)相等的情況,這樣在進(jìn)行關(guān)鍵短語(yǔ)提取時(shí)將無(wú)法捕捉到詞語(yǔ)的局部結(jié)構(gòu)信息。
4.3.2 主題數(shù)目
本研究分析了LDA模型中的主題數(shù)目對(duì)關(guān)鍵短語(yǔ)提取性能的影響,在6個(gè)數(shù)據(jù)集上分別進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖2所示,隨著M的變化,6個(gè)數(shù)據(jù)集上的F1值變化比較平穩(wěn),這表明文檔的語(yǔ)義信息僅集中于某幾個(gè)主題。
圖2 K=15,F(xiàn)1值隨主題數(shù)目M的變化情況
本研究一共選取了8種對(duì)比方法衡量本文方法的有效性。包括TextRank、WeightedTextRank、SingleRank、AttractionRank、PositionRank、TPR、STPR、SR算法,它們都采用隨機(jī)游走的方法計(jì)算短語(yǔ)得分,其中TextRank、WeightedRank、AttractionRank算法僅考慮進(jìn)一步去尋找節(jié)點(diǎn)間的語(yǔ)義關(guān)系,未考慮到詞語(yǔ)本身具有差異性的情況。TPR、STPR、SR和PositionRank算法都考慮到了詞語(yǔ)本身具有特異性,但在通過隨機(jī)游走方法計(jì)算詞語(yǔ)得分時(shí),PositionRank算法將詞語(yǔ)的位置信息作為詞語(yǔ)自身影響力,未考慮到詞語(yǔ)的主題信息,其他3個(gè)算法則利用整個(gè)語(yǔ)料庫(kù)上的詞主題分布與文檔主題分布進(jìn)行相似性計(jì)算并將其作為詞語(yǔ)自身影響力,未考慮到相同詞在不同文檔下會(huì)有不同的主題分布的情況。
為驗(yàn)證EntropyRank算法的性能,我們固定窗口λ=3,主題數(shù)目M=5,分別在6個(gè)數(shù)據(jù)集上與其他算法進(jìn)行了對(duì)比。如圖3所示,在所有數(shù)據(jù)集上EntropyRank算法性能優(yōu)于其他對(duì)比算法。例如,在500N數(shù)據(jù)集上,當(dāng)K=10時(shí),EntropyRank算法F1值平均提升了3.59%,與WeightedRank、AttractionRank算法相比平均提升3.87%,相比于TPR、STPR、SR、PositionRank算法,F(xiàn)1值提升了1.81%,在其他數(shù)據(jù)集上的F1值提升情況與500N數(shù)據(jù)集上相似。
圖3 λ=3,M=5時(shí),EntropyRank與其對(duì)比方法隨著K的變化F1值的變化情況
綜上所述,EntropyRank算法在所有數(shù)據(jù)集上的F1值都有了提升,同時(shí)與考慮到詞語(yǔ)主題信息的方法相比,效果提升更明顯。因此,我們可得出: ①在計(jì)算詞的主題表達(dá)力時(shí),利用詞在具體文檔中的主題分布比LDA模型中的主題分布更有效。②與詞語(yǔ)主題分布和文檔主題分布的相似性作為詞語(yǔ)影響力的方法相比,詞語(yǔ)的主題熵能更準(zhǔn)確的刻畫詞語(yǔ)影響力。③可同時(shí)適用于摘要(短文本)與論文、新聞(長(zhǎng)文本)。
本文算法與其他算法相比,性能上有了顯著提升,但在模型效率上,本文算法的時(shí)間復(fù)雜度較高。我們將EntropyRank算法的時(shí)間復(fù)雜度分為兩部分,第一部分為O(λnall)+O(n2),第二部分為O(MN)+O(Mn),其中第一部分為詞圖構(gòu)建和詞語(yǔ)分?jǐn)?shù)計(jì)算的時(shí)間復(fù)雜度,第二部分為主題模型訓(xùn)練與詞主題分布的時(shí)間復(fù)雜度。第一部分與傳統(tǒng)的TextRank算法的時(shí)間復(fù)雜度相同,因此,EntropyRank算法多出的時(shí)間復(fù)雜度為O(MN)+O(Mn)。其中λ表示窗口大小,nall表示文本長(zhǎng)度,m表示主題數(shù)目,n表示詞圖的節(jié)點(diǎn)數(shù)目,N表示維基百科詞典大小。
本文提出利用主題模型訓(xùn)練得到的文檔—主題分布矩陣和主題—詞分布矩陣來(lái)表示詞在具體文檔中的主題分布,并采用信息熵來(lái)表示詞的顯著性,并基于隨機(jī)游走算法計(jì)算每個(gè)詞語(yǔ)的最終得分,最后利用得分計(jì)算候選短語(yǔ)得分,提取前K個(gè)短語(yǔ)作為關(guān)鍵短詞。其中在隨機(jī)游走過程中設(shè)置節(jié)點(diǎn)會(huì)以更大的概率隨機(jī)跳轉(zhuǎn)到更重要的節(jié)點(diǎn)上,從而使得一些低頻詞不被忽略。與其他8種對(duì)比算法相比,該算法在6個(gè)公開數(shù)據(jù)集上的F1值有了顯著提升。
考慮到詞之間的關(guān)系即邊權(quán)可以通過詞語(yǔ)間的語(yǔ)義關(guān)系和網(wǎng)絡(luò)科學(xué)中圖的性質(zhì)來(lái)刻畫,下一步工作將會(huì)挖掘詞圖中的節(jié)點(diǎn)間的結(jié)構(gòu)關(guān)系以及節(jié)點(diǎn)本身在詞圖中的結(jié)構(gòu)性質(zhì),將其與詞語(yǔ)間的語(yǔ)義關(guān)系相融合來(lái)修改節(jié)點(diǎn)邊權(quán),以進(jìn)一步提高關(guān)鍵短語(yǔ)的準(zhǔn)確性以及多樣性。