郎冬冬 劉晨晨 馮旭鵬 劉利軍 黃青松,2*
1(昆明理工大學信息工程與自動化學院 云南 昆明 650500) 2(云南省計算機應用重點實驗室 云南 昆明 650500)
關鍵短語被定義為針對一篇或多篇文檔具有總結性的詞或短語的集合。自動關鍵短語抽取[1]是提取給定文檔中與主題相關的一組短語,在信息檢索、關鍵詞抽取、自動摘要等領域具有重要應用。
關鍵短語抽取可分為有監(jiān)督和無監(jiān)督兩種方法,而無監(jiān)督的方法可分為兩種:基于主題聚類和圖排序的方法[2]?;趫D排序中最常用的是TextRank算法,該算法將文本中的句子、詞等作為無向圖的節(jié)點,把它們之間的關系作為邊的權重,再根據排序結果選取出關鍵詞或關鍵句。顧益軍等[3]將TextRank與LDA相結合,使候選詞語節(jié)點的重要性按文檔集主題分布進行了非均勻轉移。方康等[4]提出了基于馬爾可夫模型加權TextRank的單文檔關鍵詞抽取算法,準確率有所提高。Rezaei等[5]針對網頁提出了一種融合聚類與TextRank模型相結合的方法,它對所有的名詞進行聚類,然后利用TextRank模型抽取關鍵詞,實驗效果較好。文獻[6]利用深度學習結合詞匯聚類的方法進行關鍵詞抽取,對于篇幅較長的文章效果理想,但對于篇幅較短的則無法滿足需求。由此可知基于圖方法的缺陷是無法抽取出涵蓋主題信息的關鍵短語。第二種基于主題的方法將候選關鍵詞或短語聚類成主題,每個主題由相關的詞或短語組成。Shang等[7]融合LDA與TextRank模型,提出了一種專門用于基因信息的摘要系統(tǒng)。TextRank算法除了被用于傳統(tǒng)的文本提取之外,還被用于情感摘要的提取[8-9]、網頁內容可信度識別[10]、會議文摘等。Blei等[11]在隱含主題挖掘思想的基礎上,通過對主題詞匯組合成短語,得到了具有表意性的關鍵短語集合。文獻[12,13]從修改短語的搭配方式入手,以主題標簽抽取的形式在新聞類語料集上獲得了更具解釋性的關鍵短語集合?;跐撛谥黝}方法在關鍵短語抽取方面取得了較好的效果,但該方法沒有綜合考慮文檔的結構信息,所以在單文本關鍵短語抽取方面尚存在不足。
針對上述問題,本文綜合考慮文檔的主題信息和結構信息,根據文檔中的詞語共現構建出無向加權圖。通過詞圖節(jié)點的主題相似度得到邊的權值,引入節(jié)點主題影響力因素修改隨機跳轉概率,在加權無向圖上運行TextRank算法提取關鍵詞后,再利用bootstraping算法思想迭代生成短語來增強關鍵詞的表意性。最后,將模型用于單文本任務中,實驗結果表明該方法可有效提取表意性較強且涵蓋文本主要主題信息的關鍵短語。
基于LDA和TextRank的單文本關鍵短語抽取模型整體框架如圖1所示。模型主要分為三部分:
1) 利用主題模型得到目標文本所在語料集的主題分布;
2) 根據目標文本的詞語共現關系和詞語相似度構建關鍵詞圖,在圖的基礎上利用TextRank算法獲取候選關鍵詞排名;
3) 由候選關鍵詞迭代生成關鍵短語。
圖1 關鍵短語抽取模型整體結構
LDA模型是由Blei等提出的一種對自然語言進行建模的生成模型,適合挖掘大規(guī)模文檔集中潛藏的主題信息[14]。如圖2所示。
圖2 LDA圖模型
圖中:α和β分別為?m和φk的超參數,?m為文檔-主題概率分布,φk為主題-詞匯概率分布,K為主題個數,M為總的文檔數目,Nm為第m篇文本中單詞總數,Zm,n為詞的主體分布,wm,n為詞,通過對變量Z進行Gibbs間接估計θ和φ:
(1)
(2)
為提高關鍵詞抽取效果在TextRank中構建的單詞圖中,本文選擇構建無向加權圖[15]。如在長度為k的滑動窗口中,將窗口中第一個詞指向剩余的詞,節(jié)點間邊的權重則為詞語間的相似度。
對給定文檔D以句子為單位進行分割,即D=[S1,S2,…,Sm]。對于每個句子Si∈D進行預處理和詞干抽取,為了更好獲取到關鍵短語的表意性,詞干抽取時只抽取名詞和動詞用于單詞圖構建,即Si=[wi,1,wi,2,…,wi,n],其中wi,j∈Si是候選關鍵詞。構建候選關鍵詞圖G=(V,E),V為節(jié)點集V=[w1,w2,…,wn],E為節(jié)點共現關系生成之間邊的集合,k為窗口長度,兩點間邊(wi,wj)的權重可表示為e(wi,wj)。TextRank是在PageRank算法上演變而來,PageRank的標準公式[16]如式(3)所示。其中s(vi)表示節(jié)點的重要程度,它取決于指向該節(jié)點的節(jié)點分配給該節(jié)點的權重比,在PageRank中常取相同的值,In(vi)為指向節(jié)點vi的集合,out(vi)為vi指向的其他節(jié)點的集合,d為阻尼系數,通常取0.85,(1-d)表示每個節(jié)點隨機跳轉到其他節(jié)點的概率。TextRank在PageRank算法的基礎上引入邊的權值的概念,用于代表語義特征在構建單詞圖時將詞語間的共現關系表示為詞語間的語義關系。所以,本文將詞語在主題上的相似度作為詞語間的語義特征,即單詞圖中邊的權重。具體方法通過余弦相似度取得,計算如式(4),則TextRank的公式如式(5)。
(3)
(4)
(5)
以“電腦維修屬于一門技術,可解決硬件和軟件等問題。電腦價格是比較昂貴的設備,而日常辦公對硬件性能要求較低,用戶不會輕易拋棄,所以電腦維修業(yè)務有充足的市場空間。”為例構造的滑動窗口長度為3的單詞圖如圖3所示。
圖3 文本單詞圖構建示例
在TextRank算法中,節(jié)點的重要性會隨迭代過程不斷變化,由式(3)可知,節(jié)點間的隨機跳轉具有相同概率,但如果參考LDA文本生成的思想就容易得出:在某個主題下,作為節(jié)點的單詞出現的概率越高,則其他節(jié)點跳轉到該節(jié)點的可能性也應該更高。如在一組節(jié)點集為“安全,食品,監(jiān)管,大氣,治理,污染”的加權無向圖中,給定“環(huán)境保護”這一主題后,“污染”這一特征詞出現的概率較高,所以在加權無向圖上利用TextRank算法時,其他節(jié)點應具有更高概率隨機跳轉到節(jié)點“污染”。因為“食品”和“環(huán)境保護”這一主題的相關性相較于“污染”要小得多,所以針對“環(huán)境污染”這一主題在加權無向圖上使用TextRank算法時,其他節(jié)點隨機跳轉到節(jié)點“食品”的概率應該降低。基于這種假設,將節(jié)點的主題影響力融入到TextRank的迭代中。文獻[17]對LDA訓練出來的結果按照權重特征對主題特征詞進行重排序的做法,主要從兩方面計算單詞的主題影響力:1) 單詞在主題下具有較高的權重;2) 單詞和表征主題的主題詞具有較高的相似性。
(6)
(7)
綜合權重和相似度兩方面因素,節(jié)點詞語wi在主題t中的影響力計算公式如式(8)。一個節(jié)點跳轉到其他節(jié)點的隨機跳轉概率之和應為1,所以對式(8)做歸一化處理,得到式(9),再將該值作為其他節(jié)點在主題t下跳轉到該節(jié)點的隨機概率。
WTt,i=KRt,i×AVG_PMIt,i
(8)
(9)
綜合以上因素,加權無向圖的迭代式(5)變更為式(10)。當迭代次數達到100時或相鄰兩次迭代節(jié)點的重要程度值小于0.000 1時算法終止。
(10)
引入節(jié)點主題影響力和迭代算法終止后,得到一篇文檔在各個主題下的關鍵詞的重要程度排序,此時再將文檔中覆蓋度最高的主題代表該文檔。隨后本文對近期的熱點新聞語料按照本文方法進行了關鍵詞抽取,結果如表1所示,表中展示了按重要程度排名前十的關鍵詞。
表1 本文方法與人工抽取結果對別示例
由表1可知,基于LDA和TextRank的關鍵短語抽取方法就可抽取出文檔相關性較強、文檔主題覆蓋度較高的關鍵詞。和人工抽取結果相比,對提取出的關鍵詞集合在可讀性上較差。如通過“總統(tǒng),美國,競選,票數,希拉里,統(tǒng)計,賓夕法尼亞州”等容易推斷出該篇文檔講的是“美國總統(tǒng)競選”相關的內容。但是由于關鍵詞集合并不帶有語義信息,在表意性上遠遠不如人工提取的標簽“美國總統(tǒng)大選揭曉”更能代表該文檔。所以針對此問題本文參照文獻[13]的方法,利用bootstraping算法根據抽取出的關鍵詞集合迭代生成關鍵短語,對詞語在目標文本句中的共現關系計算關鍵短語的權重,然后再對關鍵短語的權重排序,最后選取前N個短語作為最終的關鍵短語。為避免統(tǒng)計詞語共現時單篇文檔提供信息量不足的問題,預先進行文本相似度計算,選取和目標文檔主題相似度最高的若干篇文本進行詞語的共現統(tǒng)計。
由于詞語生成短語是一個迭代過程,在迭代過程中,首先將篩選出的關鍵詞語兩兩組合成短語,在TextRank迭代終止后得到的短語權重及關鍵詞語在文本句中的共現計算短語權重,再將權重大于閾值的短語加入關鍵短語集合,為提升關鍵短語排名,削弱更新關鍵短語詞的權重,再進行下一步迭代,直到找不出符合條件的短語。在統(tǒng)計詞語共現關系之前,預先對文本進行主題相似度計算,獲取與目標文本最相關的若干篇文檔,目的是避免單篇文本提供的信息不足,同時也不會大幅度削弱短語的權重。文本主題相似度由式(11)通過余弦相似度計算得出,其中θdi,t為文檔di中主題t的概率,由式(2)計算取得。完整的關鍵短語生成如算法1所示。
(11)
算法1關鍵短語生成
輸入:候選關鍵詞集合C
輸出:關鍵短語集合K
//候選關鍵詞集合C為TextRank迭代計算得到的權重
//最高的前N個詞
(1) 設置標志位Set flag = true
(2) set K=C
//初始關鍵短語集合等于候選關鍵詞集合
(4)設定閾值 Set λ
(5) 計算集合C中關鍵詞語的權值W(Ci)
//W(Ci)為TextRank在加權無向圖上迭代得到的節(jié)點
//重要程度值
(6) while flag:
(7) for Ki in K:
(8)for Cj in C:
(9)生成短語P(Ki, Cj);
(10)統(tǒng)計P(Ki, Cj)在目標文本及相似文本句中的共現次數n(Ki, Cj);
(11)計算短語權重
//μ為權重系數
(12)end for
(13) end for
(14) for all P(Ki, Cj):
(15)if W(Ki,Cj) ≥ λ && P(Ki, Cj) K:
(16)將短語P(Ki, Cj) 添加到集合K;
(17)削弱更新Ki和Cj的權重:
(18)end if
(19) end for
(20) if 集合K未更新:
(21)set flag=false;
(22) end if
(23) end while
實驗從互聯(lián)網采集的兩類語料進行關鍵短語抽取:近期熱點新聞事件語料和論文摘要語料,分別記作NEWS和ABSTRACTS。其中,NEWS包含“里約奧運會”、“神舟十一號飛船發(fā)射”、“美國總統(tǒng)選舉”、“環(huán)境污染”、“應屆畢業(yè)生就業(yè)”等五個熱點事件語料各200篇,共1 000篇,人工標注的關鍵詞數為8 033個;ABSTRACTS包含“計算機”、“社會學”、“建工”、“農學”、“軍事”等五個領域的論文摘要各200篇,共1 000篇,并將文章作者擬定的關鍵字作為人工標注的關鍵詞,共3 986個。
實驗的評價標準分兩個階段評測:第一階段利用準確率(precision)、召回率(recall)和F-measure來評測關鍵詞的抽取效果,計算公式如式(12)-式(14)所示,其中nlabeled為關鍵詞數,ncorrect為抽取出關鍵詞中的關鍵詞數,nall為抽取出的關鍵詞總數;第二階段評測生成的關鍵短語在文章話題覆蓋度上的效果。將抽取出的短語和人工抽取的短語進行比較,話題相關記1分,部分相關記0.5分,不相關則記0分。如人工抽取結果為“美國總統(tǒng)大選”,模型方法抽取結果為“美國總統(tǒng)競選”則記1分;人工抽取結果為“神州十一號飛船對接成功”,模型方法抽取結果為“神舟飛船”則記0.5分;人工抽取結果為“里約奧運會開幕式”,模型方法抽取結果為“巴西舉行”則記0分。最后將總得分除以文本數作為關鍵短語抽取的精度。
(12)
(13)
(14)
由于以下參數會對本文方法的關鍵短語抽取效果造成影響:文本語料集主題數、構建單詞圖時滑動窗口的長度和單篇文本抽取的關鍵詞個數,所以本文設計實驗1和實驗2來獲得最優(yōu)的參數值。
圖4 不同主題數下的困惑度
從圖4可知,在NEWS語料集和ABSTRACTS語料集中,隨主題數的不斷增加,困惑度均呈下降趨勢。在NEWS語料集中,當主題數達到35時,困惑度趨于穩(wěn)定;在ABSTRACTS語料集中,當主題數達到45時,困惑度趨于穩(wěn)定。由此得出此時模型性能最佳,因此分別取主題數目為TNEWS=35,TABSTRACTS=45。
實驗2:由于不同長度滑動窗口和單篇文本抽取的詞數會對關鍵詞抽取效果產生影響,且在文檔結構的表征效果上也有著重要作用。取滑動窗口長度為4~24(間隔為4),分別在NEWS和ABSTRACTS上進行實驗,為保證實驗的合理性,阻尼系數取,實驗結果如圖5-圖7所示。由圖5可以看出,在NEWS語料集上,滑動窗口長度在4~20時,F1值變化不大,當滑動窗口長度大于20后有所下降,當滑動窗口長度取12左右時達到最優(yōu),在此狀態(tài)下能最好地利用文檔結構信息。單篇文檔抽取關鍵詞數量在6~13時效果較好。在ABSTRACTS上如圖6看出,單篇文檔抽取關鍵詞數量在6~9式效果較好。相較于在NEWS語料集上的結果,F1測度值受窗口長度影響較小,當窗口長度K=24時仍能取得較好的效果,這與摘要文本包含主題較少有關。而當K>28時,F1值開始下降,這是因為相較于新聞文本,摘要文本篇幅較短,滑動窗口過大則加權無向圖變?yōu)榱巳?lián)通圖。同時,由圖7容易看出,抽取前5個詞為關鍵詞的準確率較高,表明該方法能夠有效提高關鍵詞的權重,并能夠抽取出更接近人工標注的關鍵詞。
圖5 不同滑動窗口長度在NEWS語料上的F1測度
圖6 不同滑動窗口長度在ABSTRACTS語料上的F1測度
圖7 不同滑動窗口長度在NEWS語料上的準確率
實驗3:關鍵詞抽取效果的對比實驗。TextRank能夠有效利用文檔的結構信息,在傳統(tǒng)文本關鍵詞抽取上取得較好的效果?;谥黝}模型的方法能夠獲得單詞和文檔的主題分布,通過計算主題相似度亦能有效提取出關鍵短語;Adrien等[19]提出了一種基于圖形的關鍵短語提取方法,它依賴于文檔的主題表示。將本文方法(LAT)與基于LDA的方法、基于TextRank方法和Adrien所提方法的抽取結果進行對比。其中滑動窗口長度取K=12,單篇抽取關鍵詞數為10,阻尼系數取μ=0.85,不同抽取方法的部分抽取結果如表2所示。由表可以看出,在單文本任務上,僅使用基于TextRank或基于LDA的方法性能較低,這是因為文本能夠提供的信息量較少,并且容易摻雜干擾性詞語;本文LAT方法與Adrien所提方法彌補了其他兩種基本方法的缺陷,在召回率和準確率上都有很大提升,對比發(fā)現本文LAT方法要高于Adrien等所提方法,在NEWS語料集上的效果尤為明顯。
表2 不同抽取方法性能對比 %
實驗4:生成的關鍵短語主題相關性的對比實驗。本部分將生成的關鍵短語與人工抽取結果對比,主要評測由關鍵詞合成的短語能否涵蓋文本主要話題,實驗結果如表3、表4所示。生成的關鍵短語能夠覆蓋文本主要的話題,并能夠表示特定的語義信息。此外,該方法在處理事件性語料上有較好效果,能夠抽取出包含事件信息或用戶意圖的短語,而對于摘要類文本則只能提取概念性短語或詞語。
表3 關鍵短語抽取結果 %
表4 部分關鍵短語抽取結果示例
本文綜合考慮了文檔的主題信息和結構信息,提出了一種基于LDA和TextRank的單文本關鍵短語抽取方法。將其運用到關鍵詞抽取中,實驗結果表明,該方法能夠抽取文本主題覆蓋度較高的關鍵詞,由關鍵詞生成的關鍵短語具有較強的表意性。但該方法仍具有很大的改進空間,如利用文章標題、關鍵短語語義或將該方法運用到短文本中,進一步提升關鍵短語抽取的準確率。
[1] Tomokiyo T, Hurst M. A language model approach to keyphrase extraction[C]//ACL 2003 Workshop on Multiword Expressions: Analysis, Acquisition and Treatment. Association for Computational Linguistics, 2003:33-40.
[2] Turney P D. Learning Algorithms for Keyphrase Extraction[J]. Information Retrieval Journal, 2000,2(4):303-336.
[3] 顧益軍. 融合LDA與TextRank的關鍵詞抽取研究[J]. 現代圖書情報技術, 2014, 30(z1):41-47.
[4] 方康, 韓立新. 基于HMM的加權Textrank單文檔的關鍵詞抽取算法[J]. 信息技術, 2015(4):114-116.
[5] Rezaei M, Gali N, Fr?nti P. ClRank: A Method for Keyword Extraction from Web pages using clustering and distribution of nouns[C]//Web Intelligence and Intelligent Agent Technology (WI-IAT), 2015 IEEE/WIC/ACM International Conference on. IEEE, 2015, 1:79-84.
[6] 李躍鵬, 金翠, 及俊川. 基于word2vec的關鍵詞提取算法[J].科研信息化技術與應用, 2015(4):54-59.
[7] Shang Y, Hao H, Wu J, et al. Learning to rank-based gene summary extraction[J].Bmc Bioinformatics,2014,15(suppl 12):618.
[8] Hamid F, Tarau P. Anti-Summaries: Enhancing Graph-Based Techniques for Summary Extraction with Sentiment Polarity[M]//Computational Linguistics and Intelligent Text Processing. Springer International Publishing, 2015.
[9] 林莉媛, 王中卿, 李壽山,等. 基于PageRank的中文多文檔文本情感摘要[J].中文信息學報, 2014, 28(2):85-90.
[10] Balcerzak B, Jaworski W, Wierzbicki A. Application of TextRank algorithm for credibility assessment[C]//Proceedings of the 2014 IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT)-Volume 01. IEEE Computer Society, 2014:451-454.
[11] Blei D M, Lafferty J D. Visualizing Topics with Multi-Word Expressions[J]. eprint arXiv:0907.1013, 2009.
[12] 閆澤華. 基于LDA的新聞線索抽取研究[D]. 上海交通大學, 2012.
[13] 寇宛秋, 李芳. 基于種子詞匯的話題標簽抽取研究[J]. 中文信息學報, 2013, 27(5):114-121.
[14] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3(3):993-1022.
[15] Mihalcea R, Tarau P. TextRank: Bringing Order into Texts[C]//Proceedings of EMNLP, 2004,85:404-411.
[16] Page L. The PageRank citation ranking: Bringing order to the web[J]. Stanford Digital Libraries Working Paper, 1998,9(1):1-14.
[17] Lau J H, Newman D, Karimi S, et al. Best topic word selection for topic labelling[C]//COLING 2010, International Conference on Computational Linguistics, Posters Volume, 23-27 August 2010, Beijing, China,2010:605-613.
[18] Song Y, Pan S, Liu S, et al. Topic and keyword re-ranking for LDA-based topic modeling[C]//ACM Conference on Information and Knowledge Management, CIKM 2009, Hong Kong, China, November,2009:1757-1760.
[19] Bougouin A, Boudin F, Daille B. TopicRank: Graph-Based Topic Ranking for Keyphrase Extraction[C]//International Joint Conference on Natural Language Processing,2013:543-551.