朱澤德,李淼,張健,曾偉輝,曾新華
?
一種基于LDA模型的關(guān)鍵詞抽取方法
朱澤德1, 2,李淼2,張健2,曾偉輝2,曾新華2
(1. 中國科學技術(shù)大學自動化系,安徽合肥,230026 2. 中國科學院合肥智能機械研究所,安徽合肥,230031)
為解決現(xiàn)有方法未能綜合考察文檔主題的全面性、關(guān)鍵詞的可讀性以及差異性,提出一種基于文檔隱含主題的關(guān)鍵詞抽取新算法TFITF。算法根據(jù)大規(guī)模語料產(chǎn)生隱含主題模型計算詞匯對主題的TFITF權(quán)重并進一步產(chǎn)生詞匯對文檔的權(quán)重,利用共現(xiàn)信息排序和選擇相鄰詞匯形成候選關(guān)鍵短語,再使用相似性排除隱含主題一致的冗余短語。此外,從文檔統(tǒng)計信息、詞匯鏈和主題分析3方面來進行關(guān)鍵詞抽取的對比測試,實驗在1 040篇中文摘要及5 408個關(guān)鍵詞構(gòu)成的測試集上展開。結(jié)果表明,算法有效地提高文檔關(guān)鍵詞抽取的準確率與召回率。
信息抽??;關(guān)鍵詞抽??;LDA模型;主題相似性
關(guān)鍵詞多為幾個詞或短語構(gòu)成的文檔內(nèi)容概要,關(guān)鍵詞抽取是信息時代人們從海量文檔數(shù)據(jù)中快速、準確地掌握感興趣內(nèi)容的重要途徑。關(guān)鍵詞抽取也稱關(guān)鍵詞標注,被大量用于文檔摘要、文本分類、信息過濾和全文檢索等文本處理領(lǐng)域。隨著Web2.0時代的到來,關(guān)鍵詞抽取被注入新的活力,網(wǎng)站標簽的自動推薦系統(tǒng)為關(guān)鍵詞抽取提供了廣闊的應(yīng)用空間。近年來,文檔隱含主題分析被研究者大量應(yīng)用于自然語言處理領(lǐng)域,該技術(shù)在關(guān)鍵詞抽取方面也發(fā)揮了重要的價值。Chen等[1]利用候選關(guān)鍵詞的潛在語義索引權(quán)重頻率來選擇關(guān)鍵詞,Liu等[2]根據(jù)文檔主題和候選關(guān)鍵詞主題分布的相似度抽取關(guān)鍵詞。此類方法通過大規(guī)模文檔集合學習隱含主題,避免了單篇文檔信息不足的缺陷。然而在主題層次推薦的關(guān)鍵詞傾向于主題常用詞,無法全面覆蓋文檔的主旨信息;單個詞匯表達主題的準確性不強,推薦的關(guān)鍵詞可讀性較差;同義詞或近義詞與文檔有相似的主題關(guān)系,導致推薦的關(guān)鍵詞出現(xiàn)冗余,無法實現(xiàn)詞匯的差異性。針對上述問題,以文檔隱含主題分析為基礎(chǔ)提出一種新的關(guān)鍵詞抽取算法詞頻?逆主題頻率(TFITF),該算法基于LDA(latent dirichlet allocation)模型對文檔主題分布進行分析,在關(guān)鍵詞與文檔主題一致的條件下增強詞匯對不同主題的表征性,選取能夠充分反映文檔主題且富含更多信息的短語作為候選關(guān)鍵詞,并進一步根據(jù)詞匯的主題分布的相似性消除冗余短語。此外,從文檔統(tǒng)計頻率信息和詞匯鏈2個方面選擇關(guān)鍵詞與主題分析進行實驗對比。
1 相關(guān)工作
關(guān)鍵詞抽取方法可分為有監(jiān)督和無監(jiān)督2類,有監(jiān)督方法將關(guān)鍵詞抽取看成二元分類問題:訓練時提取關(guān)鍵詞特征構(gòu)造分類模型,分類時根據(jù)模型判斷詞語是否為關(guān)鍵詞。李素建等[3]采用最大熵模型抽取關(guān)鍵詞;Nguyen等[4]利用顯著的形態(tài)特征抽取科學文獻關(guān)鍵詞;Treeratpituk[5]使用隨機森林識別關(guān)鍵詞;為改變分類方法無法區(qū)分關(guān)鍵詞代表文檔的強弱,Jiang等[6]提出學習產(chǎn)生排序器來排序不同的候選關(guān)鍵詞。然而有監(jiān)督方法標注訓練集耗時耗力,分類器受限于特定領(lǐng)域且存在過擬合問題。
無監(jiān)督方法涉及統(tǒng)計方法、圖模型和語義方法。統(tǒng)計方法主要利用詞頻、詞頻-逆文檔頻率、詞性、詞語位置、詞語同現(xiàn)頻率等信息抽取關(guān)鍵詞;Liu等[7]將關(guān)鍵詞抽取作為文檔到關(guān)鍵詞的翻譯。在圖模型的研究中,Mihalcea等[8]基于詞匯的共現(xiàn)鏈提出TextRank模型排序關(guān)鍵詞;Wan等[9]根據(jù)鄰近文檔知識將TextRank擴展成ExpandRank;Litvak等[10]將網(wǎng)頁排序的HITS算法引入關(guān)鍵詞抽??;李鵬等[11]在TextRank基礎(chǔ)上通過Tag引入相關(guān)文檔來估計詞項圖的邊權(quán)重并計算詞項的重要度;Bougouin等[12]將詞匯聚類后作為TextRank圖的頂點。在語義的方法中,隱含主題[1?2]通過分析候選關(guān)鍵詞的主題分布抽取關(guān)鍵詞;胡學鋼等[13]利用詞語在文檔中語義聯(lián)系將文檔表示成詞匯鏈形式抽取關(guān)鍵詞。
基于語義的方法是一種重要的無監(jiān)督方法,因無需標注文檔的關(guān)鍵詞作為訓練集,又有效利用外部知識輔助關(guān)鍵詞抽取。因此,目前關(guān)鍵詞抽取研究廣泛關(guān)注語義的方法。本文也在隱含主題模型分析文檔語義的基礎(chǔ)上,針對現(xiàn)有方法無法現(xiàn)實文檔主題全面性、關(guān)鍵詞可讀性和差異性的綜合考察,提出關(guān)鍵詞抽取算法TFITF模型。
在此,重點介紹本文實驗對比中的3個經(jīng)典無監(jiān)督模型。
TFIDF模型詞匯的TFIDF權(quán)重與詞匯在文檔中出現(xiàn)的頻率成正比,與詞匯在所有文檔中出現(xiàn)的頻率成反比:
其中:N為詞匯在文檔中出現(xiàn)次數(shù),N為文檔中所有詞總數(shù),為文檔集中所有文檔的數(shù)目,D為包含詞匯的所有文檔數(shù)目。
TextRank模型 借鑒于網(wǎng)頁排序的PageRank算法,TextRank將文檔看作一個詞的網(wǎng)絡(luò),網(wǎng)絡(luò)鏈接表示詞v與詞v之間的語義關(guān)系。TextRank認為一個詞的重要性S(v)由鏈向它的其他詞的重要性決定:
其中:w為頂點v和v的權(quán)重;數(shù)值由1個窗口內(nèi)共現(xiàn)次數(shù)確定;A(v)為鄰近頂點集;為衰減因子,設(shè)置為0.85。
ExpandRank模型 通過鄰近文檔擴展更多的知識提高關(guān)鍵詞抽取的準確性。針對文檔d先用余弦相似性從文檔集中選擇個近鄰的文檔,共現(xiàn)詞匯鏈由1個文檔構(gòu)建。文檔用1個TFIDF計算詞權(quán)重的詞向量表示,給定文檔d和個鄰近文檔構(gòu)成+1個文檔集,={0,1,2,…,}。頂點來自中詞匯,窗口內(nèi)共現(xiàn)詞匯v和v頂點鏈接構(gòu)成邊,邊的權(quán)重(v,v)為
其中:simdoc(0,d)為文檔0和d的余弦相似性;countdp(v,v)為文檔d中詞匯v和v的共現(xiàn)次數(shù)。
2 關(guān)鍵詞抽取
文檔的關(guān)鍵詞集合應(yīng)具備完備性、確定性和獨立性,即關(guān)鍵詞的全體能夠全面覆蓋文檔的主題信息,每個關(guān)鍵詞應(yīng)能表達準確的意義,同時關(guān)鍵詞間應(yīng)具有一定的差異性。本節(jié)主要闡述為保持關(guān)鍵詞集合具備上述特征而提出的TFITF模型具體計算方式,該模型先根據(jù)TFITF權(quán)值計算候選關(guān)鍵詞對文檔的權(quán)重,隨后根據(jù)同現(xiàn)率合并相鄰候選關(guān)鍵詞再按權(quán)重大小排序,最后根據(jù)短語的主題分布消除冗余。
2.1 LDA模型
LDA作為一種主題模型被廣泛地用于自然語言處理[14?15],實現(xiàn)對文本數(shù)據(jù)的主題信息進行完全建模。LDA模型包含詞、主題和文檔三層結(jié)構(gòu),如圖1所示。LDA最早是Blei等[16]以pLSI為基礎(chǔ),提出一個服從Dirichlet分布的維隱含隨機變量表示文檔的主題概率分布,模擬文檔的產(chǎn)生過程;Griffiths等[17]對參數(shù)施加Dirichlet先驗分布,使得LDA模型成為一個完整的生成模型。
圖1中:φ為主題中的詞匯概率分布,θ為第篇文檔的主題概率分布,φ和θ服從Dirichlet分布,φ和θ作為多項式分布的參數(shù)分別用于生成主題和單詞;和分別為φ和θ的分布參數(shù),反映了文檔集中隱含主題間的相對強弱,為所有隱含主題自身的概率分布;為主題數(shù)目;為文檔集中文檔數(shù)目;N為第篇文檔的詞總數(shù);ω和Z分別為第篇文檔中第個單詞及其隱含主題。
圖1 LDA的圖模型
2.2 TFITF模型
TFITF模型在分析文檔主題信息的基礎(chǔ)上進行文檔關(guān)鍵詞抽取,基本流程如圖2所示,主要分為以下5個步驟;
1) 預處理:為排除無關(guān)信息對訓練主題模型和關(guān)鍵詞抽取的干擾,依據(jù)關(guān)鍵詞多為名詞性短語的特點,對訓練主題文檔和待抽取關(guān)鍵短語文檔分別進行分詞、詞性標注和選取名詞與形容詞等預處理。
2) 主題分析:利用訓練文檔集產(chǎn)生主題模型,預測新文檔集的詞匯對主題的權(quán)重以及主題對文檔的權(quán)重。
3) TFITF權(quán)值計算:根據(jù)詞匯對主題的權(quán)重以及詞匯在所有主題中出現(xiàn)頻率計算詞匯對主題的TFITF權(quán)值,并進一步計算詞匯對文檔的權(quán)重。
4) 詞匯合并:利用詞性搭配規(guī)則從未預處理的原始文檔篩選出二元候選短語,根據(jù)候選短語中各詞匯的共現(xiàn)率以及候選短語權(quán)重計算短語構(gòu)成候選關(guān)鍵短語的權(quán)值,對預處理文檔中二元短語進行排序形成候選關(guān)鍵短語集合{H}。
5) 冗余消除:根據(jù)短語的主題分布篩選{H}權(quán)值較大且反映文檔不同子主題的個短語構(gòu)成關(guān)鍵詞短語輸出。
圖2 基于TFITF的關(guān)鍵詞提取流程
本小節(jié)后續(xù)內(nèi)容重點講述以上TFITF權(quán)值計算、詞匯合并以及冗余短語消除三步驟的具體實現(xiàn)方法。
2.2.1 TFITF權(quán)值計算
選擇Collapsed Gibbs采樣法抽取文檔集的主題模型,具體實現(xiàn)通過每個單詞的主題進行采樣,在獲得單詞ω的主題標號的條件下,計算主題Z中詞匯的概率為
文檔D中主題Z的概率為
其中:C為語料庫中詞被賦予主題Z的次數(shù),C為文檔d中詞被賦予主題Z的次數(shù)。
詞匯權(quán)重不僅與單一主題相關(guān),也與所有主題集合相關(guān)。類比TFIDF模型的思想,詞匯對主題的權(quán)值TFITF定義為與詞匯在主題中出現(xiàn)的概率成正比,與詞匯在所有主題中出現(xiàn)的頻率成反比。其中,詞頻(TF)為詞匯對主題的頻率,詞匯對主題Z的詞頻Tf取為φ,反映詞匯對主題Z的重要性;逆主題頻率(ITF)為詞匯對所有主題的逆主題頻率,避免了某些詞匯出現(xiàn)在主題的頻數(shù)過高而降低對不同主題的區(qū)分能力,n對Z的逆主題頻率如下式計算:
則在給定詞匯條件下,對主題Z的TFITF權(quán)重定義為:
其中:為詞匯對主題的噪聲閾值。在LDA概率主題模型中,所有詞匯都以一定的概率出現(xiàn)在每個主題,小概率的詞匯無法體現(xiàn)主題的實際內(nèi)容且構(gòu)成計算相似度的“噪音”。實驗中設(shè)定閾值為0.005,即若φ<,則認為主題Z不體現(xiàn)在詞匯上。
根據(jù)對主題Z的權(quán)重,結(jié)合主題Z在文檔D的概率θ,詞匯對文檔D的權(quán)重計算公式如下:
2.2.2 詞匯合并
短語比單個詞匯具有更強的可讀性和語義的完整性,能準確地表達文檔的主旨信息。根據(jù)大部分手工標注的關(guān)鍵詞為二元結(jié)構(gòu)的名詞短語,文中構(gòu)成名詞短語的搭配模板采用“名詞+名詞”或“形容詞+名詞”的結(jié)構(gòu)。
為檢測搭配模板構(gòu)成短語的可能性,針對短語的內(nèi)部詞匯計算共現(xiàn)概率,通過共現(xiàn)概率的大小反映不同詞匯間相關(guān)性的強弱。當2個詞匯的共現(xiàn)概率越高,它們具有的相關(guān)性越強,構(gòu)成短語的可能性越大。選擇待抽取關(guān)鍵詞文檔中滿足搭配模板的詞匯1和2,計算構(gòu)成候選短語的可能性如下式:
其中:(1,2)為1和2在待抽取關(guān)鍵詞文檔中滿足詞法構(gòu)成規(guī)則共現(xiàn)的次數(shù),(ω)(=1,2)為詞ω在待抽取關(guān)鍵詞文檔中出現(xiàn)次數(shù)。
根據(jù)的構(gòu)成詞匯ω對文檔D的權(quán)重,按式(10)計算對D的權(quán)重(|D)。
候選短語對文檔D的綜合權(quán)值P(|D)融合了自身構(gòu)成的可能性和對D的權(quán)重,如式(11)計算。
(11)
根據(jù)綜合權(quán)重大小排序二元短語構(gòu)成形成候選關(guān)鍵短語集合{H}。
2.2.3 冗余短語消除
關(guān)鍵詞集合中所有詞匯或短語應(yīng)盡可能反映文檔的不同主題或從不同的角度反映文檔主題,避免出現(xiàn)同義或近義的冗余短語。短語對主題Z的權(quán)值定義為所有構(gòu)成詞匯ω對主題的乘積,如式(12)所示。
根據(jù)貝葉斯公式計算短語的主題Z概率為:
其中:參數(shù)(Z)/()近似為訓練集中主題Z出現(xiàn)的次數(shù)N除以出現(xiàn)的次數(shù)N。
由式(13)計算短語對各主題的分布(|),候選關(guān)鍵詞集合{H}中的詞匯或短語H和的相似性由主題分布的余弦來衡量,如下式:
利用短語的相似性排除{H}中與權(quán)值較大的短語相似度過高的短語,形成新的候選關(guān)鍵短語集合{H′}。當限制關(guān)鍵詞輸出數(shù)目時,則截斷輸出{H’}中權(quán)值排序較大的短語形成關(guān)鍵詞集合。
3 實驗
3.1 實驗數(shù)據(jù)與評價
選取碩博論文數(shù)據(jù)進行關(guān)鍵詞抽取實驗,數(shù)據(jù)由1 040篇論文摘要構(gòu)成,涵蓋了基礎(chǔ)科學、工程科技、農(nóng)業(yè)科技、醫(yī)藥衛(wèi)生科技、哲學與人文科技、社會科學、信息科學和經(jīng)濟科學領(lǐng)域,手工標注了5 408個關(guān)鍵詞,平均每篇文檔關(guān)鍵詞個數(shù)為5.2,數(shù)據(jù)集稱為THESIS。對THESIS中的文檔進行分詞和詞性標注,過濾停用詞,將名詞、動詞和形容詞作為候選關(guān)鍵詞。因THESIS包含文檔數(shù)較少,不足以訓練隱含主題模型,在THESIS的基礎(chǔ)上增加網(wǎng)絡(luò)獲取的中文新聞?wù)Z料,過濾長度小于200個詞的短小文本,得到10 640篇文檔訓練隱含主題模型。
實驗采用準確率、召回率和1(Precision/Recall/F1-Measure)來評價關(guān)鍵詞抽取的效果。correct/extract,correct/standard,1/ ()。其中,correct為正確抽取的關(guān)鍵詞數(shù)目,extract為所有抽取的關(guān)鍵詞數(shù)目,而standard為所有人工標注的標準關(guān)鍵詞數(shù)目。
3.2 結(jié)果和分析
為測試本文提出的關(guān)鍵詞抽取算法的性能,計算了TFITF模型抽取文檔關(guān)鍵詞的準確率和召回率,并同詞匯頻率信息、詞匯鏈信息、擴展詞匯鏈信息其他3個無監(jiān)督算法進行對比,最后進一步闡述了各算法的參數(shù)選擇依據(jù)。
3.2.1 實驗對比
實驗中采用的文檔關(guān)鍵詞抽取的無監(jiān)督算法分別為:
1) TI1:基于詞頻?逆文檔頻率TFIDF的關(guān)鍵詞抽取,文檔集的詞匯頻率信息;
2)TR:基于TextRank的關(guān)鍵詞抽取,單文檔的局部詞匯鏈關(guān)系;
3) ER:基于ExpandRank的關(guān)鍵詞抽取,擴展鄰近文檔的局部詞匯鏈關(guān)系;
4) TI2:基于詞頻?逆主題頻率TFITF的關(guān)鍵詞抽取,訓練集的全局詞匯關(guān)系;
上述各算法對文檔的關(guān)鍵詞抽取的準確率?召回率曲線如圖3所示。在每條準確率?召回率曲線上,每個點代表推薦不同的關(guān)鍵詞數(shù)目時的評價結(jié)果,從左上=1至右下=15,曲線越靠近右上方,說明算法的效果總體越優(yōu)。每一算法都為參數(shù)調(diào)整后的最優(yōu)結(jié)果,對于TR設(shè)置窗口為6,ER設(shè)置近鄰文檔數(shù)為1,TI2設(shè)置隱含主題數(shù)為200。
1—TI1;2—IR;3—ER;4—TI2
由圖3可知:算法TI1雖在幾種無監(jiān)督算法中最易實現(xiàn),但在抽取文檔中少量的關(guān)鍵詞時TI1的準確率優(yōu)于算法TR和ER;隨著關(guān)鍵詞數(shù)量的增長,算法的準確率迅速下降,同時召回率增長緩慢,反映了TI1在抽取的關(guān)鍵詞數(shù)量增多時正確抽取的關(guān)鍵詞數(shù)量增幅較小。TI1通過統(tǒng)計文檔集中詞匯出現(xiàn)的頻率信息抽關(guān)鍵詞,對部分高頻的關(guān)鍵詞反應(yīng)敏感。
算法TR抽取關(guān)鍵詞的召回率同TI1基本一致,準確率在抽取的關(guān)鍵詞數(shù)量增加時略優(yōu)于TI1。TR通過詞匯在文檔中出現(xiàn)的連續(xù)性建立詞匯鏈,詞匯的關(guān)聯(lián)信息局限于單個文檔,無外部知識進行補充和修正,且僅僅從詞匯的層面分析重要性,制約了文檔抽取關(guān)鍵詞的效率。
算法ER擴展于TR,然而ER抽取關(guān)鍵詞的準確率最低,ER采取的策略是在文檔層面引入外部資源,供詞匯共現(xiàn)信息來進行分析。然而文檔集中相關(guān)性較弱會導致大量無關(guān)的噪音產(chǎn)生;召回率在抽取的關(guān)鍵詞數(shù)量增加時有較快的增長。
算法TI2抽取關(guān)鍵詞的準確率和召回率都明顯優(yōu)于其他無監(jiān)督算法。TI2通過大量的數(shù)據(jù)集產(chǎn)生主題信息,并強化詞匯對不同主題的區(qū)分性,進一步結(jié)合待抽取關(guān)鍵詞文檔的詞匯共現(xiàn)信息和詞匯間相關(guān)性信息。該方法綜合了文檔隱含主題信息和文檔詞匯信息實現(xiàn)了關(guān)鍵詞抽取,一方面使關(guān)鍵詞對文檔主題具有良好的覆蓋度,另一方面避免了被抽取的關(guān)鍵詞趨向主題的常用詞。
3.2.2 參數(shù)選擇
分別考察了帶參數(shù)的單一無監(jiān)督算法TR,ER和TI2中參數(shù)對關(guān)鍵詞抽取的影響,為3.2.1節(jié)中各組合方式中參數(shù)選擇提供依據(jù)。
圖4所示為TR模型中窗口大小取2,4,6和8情形時,關(guān)鍵詞數(shù)從1增長至15的過程中準確率?召回率曲線隨關(guān)鍵詞數(shù)目從左上漸變至右下。當窗口增長至8時,抽取的性能與為6時基本保持一致,卻增加了系統(tǒng)的時間消耗,因此確定最優(yōu)為6。
w:1—2;2—4;3—6;4—8
圖5所示為取6,ER的鄰近文檔數(shù)分別為0,1和2時,準確率?召回率曲線圖從左上遞漸變至右下,當為1時,算法獲得最佳的效果。當鄰近文檔數(shù)繼續(xù)增長時性能下降,主要因ER是在文檔層面引入外部知識,導致無關(guān)的噪聲引入,取決于文檔集中文檔間的相關(guān)程度。
h:1—0;2—1;3—2
Fig. 5 Precision?recall curves of ER adopting nearest neighbor documentsas 0, 1 or 2
圖6所示為隨隱含主題個數(shù)不同,TI2抽取關(guān)鍵詞的性能隨著主題個數(shù)變化波動較小,這表明TI2利用文檔和詞匯的主題分布進行關(guān)鍵詞抽取的魯棒性高,在達到200時模型的性能基本穩(wěn)定,增至300時幾乎不再提高。
k:1—100;2—200;3—300
4 結(jié)論
針對傳統(tǒng)的無監(jiān)督方法抽取關(guān)鍵詞未能很好地解決關(guān)鍵詞未能全面和準確地覆蓋文檔主旨信息,提出了一種基于LDA模型的TFITF算法抽取關(guān)鍵短語,該方法通過增強詞匯對不同主題的表征能力,避免推薦關(guān)鍵詞匯傾向于常用詞;再根據(jù)相鄰詞匯的共現(xiàn)率和權(quán)重合并產(chǎn)生候選關(guān)鍵短語,提高對關(guān)鍵詞的信息量和可讀性;最后利用不同短語描述不同的主題信息,排除關(guān)鍵詞組合的冗余性。通過同現(xiàn)有無監(jiān)督關(guān)鍵詞抽取算法的對比測試,實驗顯示了很好的效果。
如何在詞匯層面引入更精準的外部信息,避免從文檔層面或主題層面導致主題漂移,是今后改進和完善關(guān)鍵短語提取方法的重點。
[1] CHEN Jilin, YAN Jun, ZHANG Benyu, et al. Diverse topic phrase extraction through latent semantic analysis[C]// Proceedings of the Sixth International Conference on Data Mining. IEEE, 2006: 834?838.
[2] LIU Zhiyuan, SUN Maosong. Domain-specific term rankings using topic models[M]. Berlin Heidelberg: Springer, 2010: 454?465.
[3] 李素建, 王厚峰, 俞士汶, 等. 關(guān)鍵詞自動標引的最大熵模型應(yīng)用研究[J]. 計算機學報, 2004, 27(9): 92?97. LI Sujian, WANG Houfeng, YU Shiwen, et al. Research on maximum entropy model for keyword indexing[J]. Chinese Journal of Computers, 2004, 27(9): 92?97.
[4] Nguyen T D, Kan M Y. Keyphrase extraction in scientific publications[M]. Berlin Heidelberg: Springer, 2007: 317?326.
[5] Treeratpituk P, Teregowda P, Huang J, et al. Seerlab: A system for extracting key phrases from scholarly documents[C]//Proceedings of the 5th International Workshop on Semantic Evaluation. Association for Computational Linguistics, 2010: 182?185.
[6] Jiang X, Hu Y, Li H. A ranking approach to keyphrase extraction[C]//Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2009: 756?757.
[7] LIU Zhiyuan, CHEN Xinxiong, ZHENG Yabin, et al. Automatic keyphrase extraction by bridging vocabulary gap[C]// Proceedings of the Fifteenth Conference on Computational Natural Language Learning. Association for Computational Linguistics, 2011: 135?144.
[8] Mihalcea R, Tarau P. TextRank: Bringing order into texts[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2004.
[9] WAN Xiaojun, XIAO Jianguo. Single document keyphrase extraction using neighborhood knowledge[C]//Proceedings of the 23rd National Conference on Artificial Intelligence. American Association for Artificial Intelligence, 2008: 855?860.
[10] Litvak M, Last M. Graph-based keyword extraction for single-document summarization[C]//Proceedings of the Workshop on Multi-source Multilingual Information Extraction and Summarization. Association for Computational Linguistics, 2008: 17?24.
[11] 李鵬, 王斌, 石志偉, 等. Tag-TextRank: 一種基于Tag的網(wǎng)頁關(guān)鍵詞抽取方法[J]. 計算機研究與發(fā)展, 2012, 49(11): 2344?2351. LI Peng, WANG Bin, SHI Zhiwei, et al. Tag-TextRank Extraction Method Based on Tags[J]. Journal of Computer Research and Development, 2012, 49(11): 2344?2351.
[12] Bougouin A, Boudin F, Daille B. TopicRank: Graph-Based Topic Ranking for Keyphrase Extraction[C]//Proceedings of the International Joint Conference on Natural Language Processing (IJCNLP). Nagoya, 2013: 543?551.
[13] 胡學鋼, 李星華, 謝飛, 等. 基于詞匯鏈的中文新聞網(wǎng)頁關(guān)鍵詞抽取方法[J]. 模式識別與人工智能, 2010(1): 45?51. HU Xuegang, LI Xinghua, XIE Fei, et al. Keyword extraction based on lexical chains for Chinese news web pages[J]. Recognition and Artificial Intelligence, 2010(1): 45?51.
[14] 石晶, 胡明, 石鑫, 等. 基于 LDA 模型的文本分割[J]. 計算機學報, 2008, 31(10): 1865?1873. SHI Jing, HU Ming, SHI Xin, et al. Text Segmentation Based on Model LDA[J]. Chinese Journal of Computers, 2008, 31(10): 1865?1873.
[15] Hoffman M, Bach F R, Blei D M. Online learning for latent dirichlet allocation[C]//Advances in Neural Information Processing Systems, 2010: 856?864.
[16] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993?1022.
[17] Griffiths T L, Steyvers M. Finding scientific topics[C]// Proceedings of the National Academy of Sciences of the United States of America. The National Academy of Sciences, 2004, 101(Suppl 1): 5228?5235.
(編輯 陳愛華)
A LDA-based approach to keyphrase extraction
ZHU Zede1, 2, LI Miao2, ZHANG Jian2, ZENG Weihui2, ZENG Xinhua2
(1. Department of Automation, University of Science and Technology of China, Hefei 230026, China;2. Institute of Intelligent Machines, Chinese Academy of Sciences, Hefei 230031, China)
Due to the shortage of the comprehensive analysis of the coverage of document topics, the readability and difference of keyphrases, a new algorithm of keyphrase extraction TFITF based on the implicit topic model was put forward. The algorithm adopted the large-scale corpus and producted latent topic model to calculate the TFITF weight of vocabulary on the topic and further generate the weight of vocabulary on the document. And adjacent lexical was ranked and picked out as candidate keyphrases based on co-occurrence information. Then according to the similarity of vocabulary topics, redundant phrases were eliminated. In addition, the comparative experiments of candidate keyphrases were executed by document statistical information, vocabulary chain and topic information. The experimental results, which were carried out on an evaluation dataset including 1 040 Chinese documents and 5 408 standard keyphrases, demonstrate that the method can effectively improve the precision and recall of keyphrase extraction.
information extraction; keyphrase extraction; LDA model; topic similarity
10.11817/j.issn.1672-7207.2015.06.023
TP391
A
1672?7207(2015)06?2142?07
2014?06?13;
2014?08?20
模式識別國家重點實驗室開放課題基金資助項目(201306320);中國科學院信息化專項(XXH12504-1-10);國家自然科學基金資助項目(61070099)(Project (201306320) supported bythe Open Projects Program of National Laboratory of Pattern Recognition; Project (XXH12504-1-10) supported by the Informationization Special Projects of Chinese Academy of Science; Project (61070099) supported by the National Natural Science Foundation of China)
李淼,研究員,博士生導師,從事人工智能與知識工程研究;E-mail:mli@iim.ac.cn