李珊珊,周耘立
(四川大學計算機學院,成都 620065)
關(guān)鍵短語抽取研究現(xiàn)狀
李珊珊,周耘立
(四川大學計算機學院,成都 620065)
在這個信息爆炸的社會,如何從大量的文本快速瀏覽讀取重要信息,已經(jīng)變得越來重要。關(guān)鍵短語抽取就是從文本中自動抽取文本中重要的并且能夠代表文章主題的短語。關(guān)鍵短語可以幫助讀者快速并且準確地了解文本信息內(nèi)容。關(guān)鍵短語抽取方法可以分為無監(jiān)督方法和有監(jiān)督方法兩種,下面分別對關(guān)鍵短語抽取的兩種方法進行介紹。
關(guān)鍵短語抽?。缓蜻x關(guān)鍵短語;有監(jiān)督方法;無監(jiān)督方法
關(guān)鍵短語是文本中代表主題的詞和短語,關(guān)鍵短語抽取在信息檢索任務(wù)和自然語言處理任務(wù)中都有著重要的作用,關(guān)鍵短語同樣也是文本總結(jié)、觀點挖掘、文本分類和檢索索引等的基本任務(wù)[1]。盡管關(guān)鍵短語抽取已經(jīng)做了許多研究工作,但是相比其他的自然語言處理研究工作,關(guān)鍵短語抽取仍然存在很大的挑戰(zhàn)[2]。隨著網(wǎng)絡(luò)信息的發(fā)展,網(wǎng)絡(luò)文本信息越來越多,如何從這些錯綜復雜的網(wǎng)絡(luò)文本信息中快速瀏覽關(guān)鍵信息顯得無比重要。因此關(guān)鍵短語抽取具有重大的現(xiàn)實意義。本文將對現(xiàn)有的關(guān)鍵短語抽取方法進行分析總結(jié)。
關(guān)鍵短語是對文本內(nèi)容的簡單總結(jié),關(guān)鍵短語對文本主題具有概括性的功能。關(guān)鍵短語有以下幾個特點[3]:
覆蓋性:關(guān)鍵短語應(yīng)該是那些重要性程度高并且頻繁出現(xiàn)的短語。如果不是一個頻繁出現(xiàn)的候選短語,即使它的其他特征得分高,也不能作為關(guān)鍵短語抽取出來。
純度:關(guān)鍵短語是只在一個主題下頻繁出現(xiàn)的候選短語,而不是在整個文檔中都頻繁的候選短語。
短語性:當一個詞與其他詞構(gòu)成候選短語共同出現(xiàn)的次數(shù)超過預(yù)期的標準值時,也就是它們同現(xiàn)頻率大于一定的閾值時,候選短語才有可能成為關(guān)鍵短語。
完整性:抽取出來的關(guān)鍵短語應(yīng)該是詞語集合的全集而不是詞語集合的某個子集。
關(guān)鍵短語抽取方法分為兩步:第一步是利用一些啟發(fā)式規(guī)則先抽取詞,然后利用以上幾個特征將詞組合成短語作為候選短語;第二步是利用無監(jiān)督方法或者有監(jiān)督方法計算候選短語成為關(guān)鍵短語的得分,無監(jiān)督的方法是最終選取得分前N的候選短語作為關(guān)鍵短語,有監(jiān)督的方法是當?shù)梅殖^某個閾值時,候選短語作為關(guān)鍵短語被抽取出來。
關(guān)鍵短語抽取有監(jiān)督方法是把關(guān)鍵短語抽取任務(wù)作為一個二分類任務(wù)。有監(jiān)督方法是利用已標注的數(shù)據(jù)集訓練一個分類器,對將來來的數(shù)據(jù)利用已經(jīng)訓練好的分類器進行關(guān)鍵短語的抽取。訓練數(shù)據(jù)集中如果候選短語是標注的關(guān)鍵短語則作為正例,如果候選短語不是標注的關(guān)鍵短語則作為負例,這樣產(chǎn)生的正例和負例一起進行訓練,得到最終的分類器。不同的學習算法都可以用來訓練分類器,包括樸素貝葉斯、決策樹、bagging、boosting、多層感知器和支持向量機等分類算法[4]。
關(guān)鍵短語有監(jiān)督抽取方法需要利用特征訓練分類器,有監(jiān)督方法利用的特征主要有兩大特征:文本本身特征和文本之外的特征。
文本本身特征是只利用訓練數(shù)據(jù)集的知識計算,包括:
統(tǒng)計特征:此特征從訓練集里獲得的統(tǒng)計信息,包括TF-IDF[5]、短語第一出現(xiàn)的相對位置、短語在訓練數(shù)據(jù)集出現(xiàn)的次數(shù)等。
結(jié)構(gòu)特征:表示短語出現(xiàn)在文章中的章節(jié)和段落特征。
句法特征:表示候選短語的句法模式,例如詞性標注序列等。
文本之外的特征是利用除了訓練數(shù)據(jù)集自己的知識之外其他的信息,例如詞匯知識庫(Wikipedia[6])信息、網(wǎng)絡(luò)Web信息、相似文本的信息[7]、引文網(wǎng)絡(luò)信息[8]等。
由于關(guān)鍵短語抽取有監(jiān)督方法需要大量的標注數(shù)據(jù),但是獲取帶標注的語料很困難,所以研究者們提出了關(guān)鍵短語抽取無監(jiān)督的方法。關(guān)鍵短語抽取無監(jiān)督方法可以分為三類:基于圖的排序方法、KeyCluster方法和基于主題的圖的排序算法。
3.1 基于圖的排序方法
傳統(tǒng)上,一個候選短語的重要性經(jīng)常被定義與文本中的其他候選短語的相關(guān)程度[9],如果某個候選短語與其他的候選短語相關(guān)高,并且其相關(guān)的候選短語重要性得分很高,那么這個候選短語的重要性得分也相對較高。研究人員計算候選短語之間的關(guān)聯(lián)性使用同現(xiàn)頻率和語義相似度,并從文檔中收集的關(guān)聯(lián)性信息表示成一個圖[10]。
基于圖的排序方法是為每個文本建立一個圖,圖的每個頂點是候選短語,圖的邊作為兩個候選短語的連接,其中邊的權(quán)值是兩個候選短語共同出現(xiàn)的次數(shù)。然后通過遞歸算法獲得每個候選短語的得分,最后抽取前N個候選短語作為關(guān)鍵短語。
3.2 KeyCluster方法
由于基于圖的排序方法沒有考慮主題對關(guān)鍵短語的影響,導致抽取的關(guān)鍵短語對主題的概括性差,所以研究者們提出了KeyCluster方法[11]。該方法是利用維基百科和基于共同出現(xiàn)的統(tǒng)計信息對候選短語進行聚類,然后抽取聚類簇中心的幾個候選短語作為該主題下的關(guān)鍵短語。該方法可以選取所有主題下的關(guān)鍵短語,使得抽取出的關(guān)鍵短語能夠概括所有主題。
3.2 基于主題的圖的排序算法
KeyCluster方法雖然可以使抽取的關(guān)鍵短語具有主題更廣發(fā)的概括性,但是卻假設(shè)一篇文本的所有主題都是同等概率的,這顯然是不合理的。所以研究者們提出了基于主題的圖的排序算法,該方法在基于圖的排序算法基礎(chǔ)上加上主題對每個候選短語的影響[12],并且一篇文本的每個主題有不同的概率。基于主題的圖的排序算法在保證抽取的關(guān)鍵短語能夠覆蓋文本的所有主題的同時,又為每個主題賦予不同的概率,實驗效果優(yōu)于KeyCluster方法。
在關(guān)鍵短語抽取領(lǐng)域,一般采用召回率(Recall)、準確率(Precision)和F值來衡量關(guān)鍵短語抽取效果[13]。召回率又稱查全率是指機器抽取正確關(guān)鍵短語個數(shù)占人工抽取關(guān)鍵短語總數(shù)的比率。準確率是機器抽取正確關(guān)鍵短語個數(shù)占機器抽取關(guān)鍵短語總數(shù)的比率。
令A(yù)表示機器抽取為關(guān)鍵短語且人工也抽取為關(guān)鍵短語的詞語集合;B表示機器抽取為關(guān)鍵短語而人工抽取為非關(guān)鍵短語的詞語集合;C表示機器抽取為非關(guān)鍵短語而人工抽取為關(guān)鍵短語的詞語集合;D表示機器抽取為非關(guān)鍵短語且人工也抽取為非關(guān)鍵短語的詞語集合。
召回率Recall由公式(1)計算得到。
精確率Precision由公式(2)計算得到。
綜合考慮召回率Recall和精確率Precision的情況下,提出了F值,由(3)計算得到。
本文對現(xiàn)有的關(guān)鍵短語抽取方法進行了分析總結(jié),介紹了關(guān)鍵短語抽取無監(jiān)督方法和關(guān)鍵短語抽取有監(jiān)督方法的幾個典型算法,并闡述了它們不足之處。盡管關(guān)鍵短語抽取方法已經(jīng)做了大量的研究[14],但是相比較其他的自然語言處理任務(wù)仍有很大的不足和提升的空間。
[1]Florian Boudin.Reducing Over-Generation Errors for Automatic Keyphrase Extraction Using Integer Linear Programming,2015.
[2]Su Nam Kim,Olena Medelyan,Min-Yen Kan,Timothy Baldwin.Semeval-2010 task 5:Automatic Keyphrase Extraction from Scientific Articles,2010.
[3]M.Danilevsky,C.Wang,N.Desai,J.Guo,J.Han.Automatic Construction and Ranking of Topical Keyphrases on Collections of Short Documents,2014.
[4]K.S.Hasan,V.Ng.Automatic Keyphrase Extraction:A Survey of the State of the Art.2014.
[5]Gerard Salton,Christopher Buckley.Termweighting Approaches in Automatic Text Retrieval,1988.
[6]Olena Medelyan,Eibe Frank,and Ian H.Witten.Human-competitive Tagging using automatic Keyphrase Extraction,2009.
[7]Wan,X.,Xiao,J.Single Document Keyphrase Extraction Using Neighborhood Knowledge,2008.
[8]Caragea,Bulgarov,Godea,and Gollapalli.Citation-Enhanced Keyphrase Extraction from Research Papers:A Supervised Approach. 2014.
[9]Yutaka Matsuo,Mitsuru Ishizuka.Keyword Extraction from a Single Document Using Word Co-occurrence Statistical Information.2004. [10]Rada Mihalcea and Paul Tarau.TextRank:Bringing Order into Texts,2004.
[11]Zhi-yuan Liu,Chen Liang,Mao-song Sun.Topical Word Trigger Model for Keyphrase Extraction,2012.
[12]Zhi-yuan Liu,Wen-yi Huang,Yabin Zheng,Mao-song Sun.Automatic Keyphrase Extraction Via Topic Decomposition,2010.
[13]肖根勝.改進TF-IDF和譜分割的關(guān)鍵詞自動抽取方法研究[D],2012.
[14]姚堯.自動關(guān)鍵短語抽取綜述[J].現(xiàn)代計算機(專業(yè)版),2015.
Research Status of Keyphrase Extraction
LI Shan-shan,ZHOU Yun-li
(College of Computer Science,Sichuan University,Chengdu 610065)
In the society with information explosion,it is more important to scan and read significance information from the vast amounts of text. Keyphrase extraction is automatically extracted from the text on behalf of the topics of article and the important phrases.Kephrase can help the reader to understand the information of the text fast and exact.The method of keyphrase extraction is divided into supervised and unsupervised way,introduces two kinds of methods of extracting keyphrases.
Extract Keyphrases;Candidate Keyphrases;Supervised Method;Unsupervised Method
1007-1423(2017)02-0039-03
10.3969/j.issn.1007-1423.2017.02.010
李珊珊(1989-),女,江蘇徐州人,碩士研究生,學生,研究方向為數(shù)據(jù)挖掘
2016-11-15
2017-01-05
周耘立(1990~),男,四川浦江人,碩士研究生,學生,研究方向為數(shù)據(jù)挖掘