徐濤+藍(lán)傳锜
摘要:藏文文本關(guān)鍵詞在文本聚類(lèi)/分類(lèi)、自動(dòng)摘要、信息檢索等領(lǐng)域具有重要地位,然而當(dāng)前互聯(lián)網(wǎng)上的藏文新聞網(wǎng)頁(yè)幾乎沒(méi)有提供關(guān)鍵詞。并且許多已有的關(guān)鍵詞自動(dòng)提取算法都需要建立在人工標(biāo)注的訓(xùn)練集之上,擴(kuò)展性不強(qiáng)。關(guān)鍵詞是文本中主題關(guān)聯(lián)度凝聚度較高的詞,因此該文將卡方統(tǒng)計(jì)量進(jìn)行改進(jìn),運(yùn)用詞與詞推薦的思想進(jìn)行關(guān)鍵詞抽取。通過(guò)藏文新聞網(wǎng)頁(yè)實(shí)驗(yàn)結(jié)果表明,該文的方法優(yōu)于融入位置信息的TF/IDF。
關(guān)鍵詞:藏文信息處理;卡方統(tǒng)計(jì)量;關(guān)鍵詞抽取
中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)26-0171-03
1 概述
藏文屬于漢藏語(yǔ)系,是一種古老語(yǔ)言并在現(xiàn)代藏語(yǔ)言文本被廣泛使用。隨著藏文信息的發(fā)展,尤其是藏文Web的普及,推動(dòng)了藏文文本信息量的急速增長(zhǎng)。面對(duì)大量的新聞網(wǎng)頁(yè),單單通過(guò)標(biāo)題用戶(hù)很容易錯(cuò)過(guò)有價(jià)值或是自己感興趣的內(nèi)容。如果新聞網(wǎng)頁(yè)標(biāo)注有關(guān)鍵詞,那么這些問(wèn)題就迎仍而解。關(guān)鍵詞是對(duì)文檔內(nèi)容的高度概括總結(jié),反映文檔的內(nèi)容和主題,為快速閱讀、文本分類(lèi)聚類(lèi)、文檔檢索等都提供了很大方便。一篇文檔的關(guān)鍵詞一般都是作者在創(chuàng)建文檔時(shí)手工添加或標(biāo)注的。但是在大量的文檔中沒(méi)有添加用于描述文檔的關(guān)鍵詞,并且手工添加關(guān)鍵詞是一個(gè)枯燥而繁重的工作,所以從文檔中自動(dòng)提取關(guān)鍵詞就顯得日益重要。
在國(guó)外的關(guān)鍵詞抽取研究方面,發(fā)展比較快也建立了一些實(shí)用系統(tǒng)。最早的如KEA[1]系統(tǒng)以其良好的可擴(kuò)展性而著名,該系統(tǒng)使用離散的貝葉斯方法訓(xùn)練關(guān)鍵詞抽取模型。另外GenEx[1]系統(tǒng)采用遺傳算法和C4.5決策樹(shù)歸納算法來(lái)抽取關(guān)鍵詞。也有方法直接抽取單個(gè)文檔的關(guān)鍵詞,文獻(xiàn)[3]就是通過(guò)LDA( latent dirichlet allocation) 模型[4]中的主題和詞的分布情況,使用給詞打分的方法直接抽取文檔關(guān)鍵詞,較好地抽取出了各主題的代表性詞。Barker和Cornacchia最早選擇名詞短語(yǔ)作為候選關(guān)鍵詞,再根據(jù)各個(gè)名詞短語(yǔ)的長(zhǎng)度、頻率及第一個(gè)詞語(yǔ)的詞頻這三個(gè)特征構(gòu)造關(guān)鍵詞抽取模型[5]。Matsuo和Ishizuka用詞同現(xiàn)的統(tǒng)計(jì)特征提取關(guān)鍵詞[6]。在國(guó)內(nèi),關(guān)鍵詞抽取的研究方面雖然落后于國(guó)外,但是也進(jìn)行大量的研究并取得了不錯(cuò)的成果[7]。在1997年,有關(guān)于PAT-Tree的關(guān)鍵詞提取算法提出[8],這一工作主要用于提取大數(shù)據(jù)量文本的關(guān)鍵詞提取,如長(zhǎng)篇小說(shuō)等?;旌戏椒ㄊ蔷C合利用語(yǔ)言分析和統(tǒng)計(jì)學(xué)習(xí)方法[9-10],或加入啟發(fā)式知識(shí)(如詞的位置、詞長(zhǎng)、HTML標(biāo)記等)來(lái)提高關(guān)鍵詞提取精度。2011年楊春明等提出了快速的領(lǐng)域文檔關(guān)鍵詞自動(dòng)提取算法[11],是用簡(jiǎn)單的詞項(xiàng)統(tǒng)計(jì)算法進(jìn)行關(guān)鍵詞抽取算法。清華大學(xué)的劉知遠(yuǎn)提出了基于主題的關(guān)鍵詞抽取方法[12],并首次在微博關(guān)鍵詞抽取中得以應(yīng)用。尹倩,胡學(xué)鋼等[13]提出一種基于密度聚類(lèi)模式的中文新聞網(wǎng)頁(yè)關(guān)鍵詞提取方法應(yīng)用在中文新聞網(wǎng)頁(yè)關(guān)鍵詞提取上。
綜上所述,在關(guān)鍵詞抽取方面,大致可分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩類(lèi)方法。第一類(lèi)方法需要大量的標(biāo)注語(yǔ)料訓(xùn)練分類(lèi)模型,且是針對(duì)某個(gè)特定領(lǐng)域的,主題還隨時(shí)間漂移,不適合普適性;另外,需要大量的訓(xùn)練語(yǔ)料,當(dāng)今關(guān)鍵詞抽取領(lǐng)域,對(duì)標(biāo)注語(yǔ)料的規(guī)范不統(tǒng)一,而且千差萬(wàn)別,耗時(shí)耗力;而且在模型的解碼過(guò)程中還涉及的速度影響。而第二類(lèi)方法不需要人工標(biāo)注訓(xùn)練集合的過(guò)程,因此更加快捷,而且主題更加更加直觀和現(xiàn)實(shí)。由于新聞網(wǎng)頁(yè)內(nèi)容領(lǐng)域涉及面比較廣,如果使用有監(jiān)督訓(xùn)練方法,抽取的出的關(guān)鍵詞主題漂移比較大,并且需要大量精確人工標(biāo)注語(yǔ)料,因此本文的研究使用第二類(lèi)方式更為合適。
2 藏文新聞網(wǎng)頁(yè)關(guān)鍵詞提取
2.1 網(wǎng)頁(yè)文本處理與候選關(guān)鍵詞
2.1.1 藏文網(wǎng)頁(yè)文本處理
對(duì)從網(wǎng)絡(luò)中抓取的藏文新聞網(wǎng)頁(yè)進(jìn)行過(guò)濾,清理網(wǎng)頁(yè)中的廣告圖片、垃圾鏈接等。并對(duì)網(wǎng)頁(yè)中新聞內(nèi)容的必要的筆記進(jìn)行存取,例如,正文中的字體大小、顏色標(biāo)記等。對(duì)新聞內(nèi)容進(jìn)行標(biāo)準(zhǔn)化處理,即過(guò)濾后的純文本與網(wǎng)頁(yè)前臺(tái)展現(xiàn)必須一致。最后對(duì)內(nèi)容進(jìn)行編碼統(tǒng)一。
2.1.2 候選關(guān)鍵詞
在藏文中,詞與詞之間沒(méi)有分解開(kāi)來(lái),所以我們首選需要對(duì)文本進(jìn)行分詞處理。然后去除停用詞,即去除對(duì)主題貢獻(xiàn)不大的詞和某些高頻詞,統(tǒng)計(jì)每個(gè)候選關(guān)鍵詞詞語(yǔ)出現(xiàn)的頻率和位置信息。
在許多相關(guān)文獻(xiàn)中只考慮名詞作為候選關(guān)鍵詞,但其他詞性的詞語(yǔ)對(duì)抽取新聞網(wǎng)頁(yè)的關(guān)鍵詞有著雙面性,如動(dòng)詞對(duì)抽取的關(guān)鍵詞質(zhì)量有著積極影響,而形容詞、副詞等對(duì)抽取的關(guān)鍵詞質(zhì)量有著消極影響。新聞網(wǎng)頁(yè)不同于一般的文木,它強(qiáng)調(diào)近來(lái)發(fā)生的具有一定社會(huì)價(jià)值的人和事,文本中的動(dòng)詞更能表達(dá)新聞主題,而相對(duì)名詞動(dòng)詞而言,具有的修飾特性的形容詞、副詞對(duì)文章主題的表達(dá)力度較弱。此外,對(duì)非名詞、動(dòng)詞詞義的過(guò)濾將減少關(guān)鍵詞抽取算法的時(shí)空花銷(xiāo)。
2.2 基于卡方統(tǒng)計(jì)量的關(guān)鍵詞提取算法
2.2.1 卡方統(tǒng)計(jì)量
本文將卡方統(tǒng)計(jì)量引入藏文文本的關(guān)鍵詞提取。思路很簡(jiǎn)單,首先從單文本中選取一組詞項(xiàng)H(通過(guò)語(yǔ)料分析詞項(xiàng)的高tf-idf值)作為文本的初步概括(對(duì)比詞項(xiàng)組)。將文本中的每個(gè)句子看成為一個(gè)主題句子,計(jì)算文本候選關(guān)鍵詞詞項(xiàng)ti(包括詞項(xiàng)H中的詞項(xiàng))與對(duì)比 組H中的詞項(xiàng)h在每個(gè)句子中的共現(xiàn)分布率[fo(ti,h)]。通過(guò)卡方統(tǒng)計(jì)量來(lái)計(jì)算ti與h的關(guān)聯(lián)程度(Degree of Bias),NiPh為理論值(期望值),Ni為ti與H中詞項(xiàng)總的共現(xiàn)次數(shù),Ph為詞項(xiàng)h的tf-idf值。
3 試驗(yàn)分析
之前介紹了基于卡方統(tǒng)計(jì)量的藏文新聞網(wǎng)頁(yè)關(guān)鍵詞抽取方法,如何利用這種方法來(lái)更好地進(jìn)行關(guān)鍵詞抽取任務(wù),本文在以下兩方面作出了研究與分析:參數(shù)設(shè)定實(shí)驗(yàn)、評(píng)測(cè)實(shí)驗(yàn)。參數(shù)設(shè)定實(shí)驗(yàn)主要是針對(duì)本文中所設(shè)定的各種參數(shù)對(duì)關(guān)鍵詞抽取的影響,最后選取最優(yōu)參數(shù)。最后進(jìn)行評(píng)測(cè)實(shí)驗(yàn),以本文最優(yōu)方法與TFIDF與啟發(fā)式信息相結(jié)合的方方法做比較,以此來(lái)分析本文方法的優(yōu)劣。endprint
3.1 試驗(yàn)數(shù)據(jù)準(zhǔn)備
本文的實(shí)驗(yàn)數(shù)據(jù)以藏文新聞關(guān)鍵詞抽取實(shí)驗(yàn)。由于目前還沒(méi)有藏文關(guān)鍵詞抽取測(cè)試數(shù)據(jù)集。為保證公平性,本文數(shù)據(jù)集來(lái)源于藏文網(wǎng)站(www.tibentcm.com),從3個(gè)類(lèi)別的新聞網(wǎng)頁(yè)中各抽取50篇文章進(jìn)行實(shí)驗(yàn)。并且在人工標(biāo)注關(guān)鍵詞方面制定了相應(yīng)的標(biāo)準(zhǔn)如下:
(1) 每篇文章關(guān)鍵詞數(shù)量在3-8個(gè);
(2) 每篇文檔的關(guān)鍵詞組需要覆蓋該篇文章的所有話(huà)題;
(3) 每個(gè)關(guān)鍵詞在該篇文章中出現(xiàn)應(yīng)大于1次;
(4) 每篇測(cè)試文章應(yīng)不少于200個(gè)藏詞。
3.2 評(píng)價(jià)指標(biāo)
3.3 參數(shù)設(shè)定實(shí)驗(yàn)
在本文所展示的方法中,比較重要的一環(huán)就是待抽取文本中對(duì)比詞項(xiàng)H的個(gè)數(shù)設(shè)定,在本文中設(shè)定方法按照個(gè)數(shù)與文本中詞數(shù)之間的比例設(shè)為Hp,為了設(shè)定最優(yōu)Hp值,對(duì)Hp值進(jìn)行多次調(diào)值后進(jìn)行試驗(yàn),選取的比較優(yōu)的結(jié)果如表1。
由此可以看出,Hp對(duì)抽取結(jié)果的影響是明顯的。由于在文中H中的詞項(xiàng)是待抽取文本中具有高TFIDF值的詞項(xiàng),從信息檢索的角度來(lái)說(shuō),是比較重要的詞項(xiàng),因此在文中起到一定的主題作用,即從理論和實(shí)驗(yàn)上都能得出以這類(lèi)詞組中相關(guān)聯(lián)比較緊密的詞項(xiàng)(通過(guò)卡方統(tǒng)計(jì)量計(jì)算),就越能體現(xiàn)出主題作用,也就是本文所抽取的關(guān)鍵詞。但是,H中的詞項(xiàng)個(gè)數(shù)應(yīng)該適中,如表1可以看出,Hp=35%為最優(yōu)。
3.4 本文方法與TFIDF方法比較
在實(shí)驗(yàn)2中,按照方法劃分為3組: 1)TFIDF方法;2)TFIDF與位置特征集和的方法; 3)本文的方法.表2顯示的是這三種方法分別在第二組數(shù)據(jù)上所進(jìn)行的對(duì)比實(shí)驗(yàn)結(jié)果。
由表2可見(jiàn),與僅基于TFIDF特征抽取關(guān)鍵詞相比,結(jié)合位置特征抽取的關(guān)鍵詞在精確率和召回率上均有明顯提高.基于TFIDF的方法傾向于考慮高頻詞對(duì)文章主題的貢獻(xiàn),增加的位置特征考慮特殊分布的詞語(yǔ)的重要性。而本文的方法完美詮釋了“重要詞”與“關(guān)鍵詞”的區(qū)別,使抽取的關(guān)鍵詞更能體現(xiàn)和概括文章的主題。
4 結(jié)論
本文以卡方統(tǒng)計(jì)量為基礎(chǔ),計(jì)算待抽取文章中詞項(xiàng)與文中主題緊密性,在藏文新聞內(nèi)容加以驗(yàn)證,實(shí)驗(yàn)結(jié)果表示,本文的方法是有效的。在實(shí)驗(yàn)中還得出了對(duì)比詞項(xiàng)Hp的最優(yōu)結(jié)果。但是藏文測(cè)試數(shù)據(jù)規(guī)范上還有待提高,數(shù)量還需要擴(kuò)展,并且在本文的方法中,主題的體現(xiàn)性上還需進(jìn)行更多實(shí)驗(yàn)和其他方法,如詞項(xiàng)聚類(lèi)方法。
參考文獻(xiàn):
[1] Witten,Paynter,F(xiàn)rank,et al.Kea: practical automatic keyphrase extraction[C].Proc of ACM Conference on Digital Libraries. New York: ACM Press,1999:254-255.
[2] Turney. Learning to extract key phrases from text[J].NRC Technical Report ERB-1057.Canada: National Research Council,1999.
[3] Pasquier.Task 5:single document keyphrase extraction using sentence clustering and latent dirichlet allocation[C].Proc of ACL Workshop on Semantic Evaluation,2010,154-157.
[4] David,Anderew,Michael. Latent dirichlet allocation[J].Journal of Machine Learning Research,2003(3):993-1022.
[5] Ken Barker,Nadia Cornacchia.Using noun phrase heads to extract document keyphrases[C].In Canadian Conference on Artificial Intelligence,2000:40-52.
[6] Yutaka Matsuo,Mitsuru Ishizuka.KeyWord extraction from a single document using Word co-occurrence statistical information[J].International Journal on Artificial Intelligence Tools,,2004,13(1):157-169.
[7] 章成志.自動(dòng)標(biāo)引研究的回顧與展望[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2007(11):33-39.
[8] CHIEN L.PAT-tree-based keyWord extraction for Chinese information retrieval[C].ACM SIGIR Forum.,1997:31:58.
[9] 劉佳賓,陳超,邵正榮,等.基于機(jī)器學(xué)習(xí)的科技文摘關(guān)鍵詞自動(dòng)提取方法[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(14):170-172.
[10] 張慶國(guó),薛德軍,張振海,等.海量數(shù)據(jù)集上基于特征組合的關(guān)鍵詞自動(dòng)抽取[J].情報(bào)學(xué)報(bào),2006,25(5):587-593.
[11] 楊春明,韓永國(guó).快速的領(lǐng)域文檔關(guān)鍵詞自動(dòng)提取算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(21):42-2145.
[12] 劉知遠(yuǎn).基于文檔主題結(jié)構(gòu)的關(guān)鍵詞抽取方法研究[D].清華大學(xué).2011.
[13] 尹倩,胡學(xué)鋼,謝飛,等.基于密度聚類(lèi)模式的中文新聞網(wǎng)頁(yè)關(guān)鍵詞提取[J].廣西師范大學(xué)學(xué)報(bào):自然科學(xué)版.2009,27(1):201-204.endprint