基于卡方統(tǒng)計(jì)量的藏文新聞網(wǎng)頁(yè)關(guān)鍵詞提取方法

2017-11-20 16:37:30徐濤藍(lán)傳锜

電腦知識(shí)與技術(shù) 2017年26期

徐濤+藍(lán)傳锜

摘要：藏文文本關(guān)鍵詞在文本聚類(lèi)/分類(lèi)、自動(dòng)摘要、信息檢索等領(lǐng)域具有重要地位，然而當(dāng)前互聯(lián)網(wǎng)上的藏文新聞網(wǎng)頁(yè)幾乎沒(méi)有提供關(guān)鍵詞。并且許多已有的關(guān)鍵詞自動(dòng)提取算法都需要建立在人工標(biāo)注的訓(xùn)練集之上，擴(kuò)展性不強(qiáng)。關(guān)鍵詞是文本中主題關(guān)聯(lián)度凝聚度較高的詞，因此該文將卡方統(tǒng)計(jì)量進(jìn)行改進(jìn)，運(yùn)用詞與詞推薦的思想進(jìn)行關(guān)鍵詞抽取。通過(guò)藏文新聞網(wǎng)頁(yè)實(shí)驗(yàn)結(jié)果表明，該文的方法優(yōu)于融入位置信息的TF/IDF。

關(guān)鍵詞：藏文信息處理；卡方統(tǒng)計(jì)量；關(guān)鍵詞抽取

中圖分類(lèi)號(hào)：TP393 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2017）26-0171-03

1 概述

藏文屬于漢藏語(yǔ)系，是一種古老語(yǔ)言并在現(xiàn)代藏語(yǔ)言文本被廣泛使用。隨著藏文信息的發(fā)展，尤其是藏文Web的普及，推動(dòng)了藏文文本信息量的急速增長(zhǎng)。面對(duì)大量的新聞網(wǎng)頁(yè)，單單通過(guò)標(biāo)題用戶(hù)很容易錯(cuò)過(guò)有價(jià)值或是自己感興趣的內(nèi)容。如果新聞網(wǎng)頁(yè)標(biāo)注有關(guān)鍵詞，那么這些問(wèn)題就迎仍而解。關(guān)鍵詞是對(duì)文檔內(nèi)容的高度概括總結(jié)，反映文檔的內(nèi)容和主題，為快速閱讀、文本分類(lèi)聚類(lèi)、文檔檢索等都提供了很大方便。一篇文檔的關(guān)鍵詞一般都是作者在創(chuàng)建文檔時(shí)手工添加或標(biāo)注的。但是在大量的文檔中沒(méi)有添加用于描述文檔的關(guān)鍵詞，并且手工添加關(guān)鍵詞是一個(gè)枯燥而繁重的工作，所以從文檔中自動(dòng)提取關(guān)鍵詞就顯得日益重要。

在國(guó)外的關(guān)鍵詞抽取研究方面，發(fā)展比較快也建立了一些實(shí)用系統(tǒng)。最早的如KEA[1]系統(tǒng)以其良好的可擴(kuò)展性而著名，該系統(tǒng)使用離散的貝葉斯方法訓(xùn)練關(guān)鍵詞抽取模型。另外GenEx[1]系統(tǒng)采用遺傳算法和C4.5決策樹(shù)歸納算法來(lái)抽取關(guān)鍵詞。也有方法直接抽取單個(gè)文檔的關(guān)鍵詞，文獻(xiàn)[3]就是通過(guò)LDA（ latent dirichlet allocation）模型[4]中的主題和詞的分布情況，使用給詞打分的方法直接抽取文檔關(guān)鍵詞，較好地抽取出了各主題的代表性詞。Barker和Cornacchia最早選擇名詞短語(yǔ)作為候選關(guān)鍵詞，再根據(jù)各個(gè)名詞短語(yǔ)的長(zhǎng)度、頻率及第一個(gè)詞語(yǔ)的詞頻這三個(gè)特征構(gòu)造關(guān)鍵詞抽取模型[5]。Matsuo和Ishizuka用詞同現(xiàn)的統(tǒng)計(jì)特征提取關(guān)鍵詞[6]。在國(guó)內(nèi)，關(guān)鍵詞抽取的研究方面雖然落后于國(guó)外，但是也進(jìn)行大量的研究并取得了不錯(cuò)的成果[7]。在1997年，有關(guān)于PAT-Tree的關(guān)鍵詞提取算法提出[8]，這一工作主要用于提取大數(shù)據(jù)量文本的關(guān)鍵詞提取，如長(zhǎng)篇小說(shuō)等?；旌戏椒ㄊ蔷C合利用語(yǔ)言分析和統(tǒng)計(jì)學(xué)習(xí)方法[9-10]，或加入啟發(fā)式知識(shí)（如詞的位置、詞長(zhǎng)、HTML標(biāo)記等）來(lái)提高關(guān)鍵詞提取精度。2011年楊春明等提出了快速的領(lǐng)域文檔關(guān)鍵詞自動(dòng)提取算法[11]，是用簡(jiǎn)單的詞項(xiàng)統(tǒng)計(jì)算法進(jìn)行關(guān)鍵詞抽取算法。清華大學(xué)的劉知遠(yuǎn)提出了基于主題的關(guān)鍵詞抽取方法[12]，并首次在微博關(guān)鍵詞抽取中得以應(yīng)用。尹倩，胡學(xué)鋼等[13]提出一種基于密度聚類(lèi)模式的中文新聞網(wǎng)頁(yè)關(guān)鍵詞提取方法應(yīng)用在中文新聞網(wǎng)頁(yè)關(guān)鍵詞提取上。

綜上所述，在關(guān)鍵詞抽取方面，大致可分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩類(lèi)方法。第一類(lèi)方法需要大量的標(biāo)注語(yǔ)料訓(xùn)練分類(lèi)模型，且是針對(duì)某個(gè)特定領(lǐng)域的，主題還隨時(shí)間漂移，不適合普適性；另外，需要大量的訓(xùn)練語(yǔ)料，當(dāng)今關(guān)鍵詞抽取領(lǐng)域，對(duì)標(biāo)注語(yǔ)料的規(guī)范不統(tǒng)一，而且千差萬(wàn)別，耗時(shí)耗力；而且在模型的解碼過(guò)程中還涉及的速度影響。而第二類(lèi)方法不需要人工標(biāo)注訓(xùn)練集合的過(guò)程，因此更加快捷，而且主題更加更加直觀和現(xiàn)實(shí)。由于新聞網(wǎng)頁(yè)內(nèi)容領(lǐng)域涉及面比較廣，如果使用有監(jiān)督訓(xùn)練方法，抽取的出的關(guān)鍵詞主題漂移比較大，并且需要大量精確人工標(biāo)注語(yǔ)料，因此本文的研究使用第二類(lèi)方式更為合適。

2 藏文新聞網(wǎng)頁(yè)關(guān)鍵詞提取

2.1 網(wǎng)頁(yè)文本處理與候選關(guān)鍵詞

2.1.1 藏文網(wǎng)頁(yè)文本處理

對(duì)從網(wǎng)絡(luò)中抓取的藏文新聞網(wǎng)頁(yè)進(jìn)行過(guò)濾，清理網(wǎng)頁(yè)中的廣告圖片、垃圾鏈接等。并對(duì)網(wǎng)頁(yè)中新聞內(nèi)容的必要的筆記進(jìn)行存取，例如，正文中的字體大小、顏色標(biāo)記等。對(duì)新聞內(nèi)容進(jìn)行標(biāo)準(zhǔn)化處理，即過(guò)濾后的純文本與網(wǎng)頁(yè)前臺(tái)展現(xiàn)必須一致。最后對(duì)內(nèi)容進(jìn)行編碼統(tǒng)一。

2.1.2 候選關(guān)鍵詞

在藏文中，詞與詞之間沒(méi)有分解開(kāi)來(lái)，所以我們首選需要對(duì)文本進(jìn)行分詞處理。然后去除停用詞，即去除對(duì)主題貢獻(xiàn)不大的詞和某些高頻詞，統(tǒng)計(jì)每個(gè)候選關(guān)鍵詞詞語(yǔ)出現(xiàn)的頻率和位置信息。

在許多相關(guān)文獻(xiàn)中只考慮名詞作為候選關(guān)鍵詞，但其他詞性的詞語(yǔ)對(duì)抽取新聞網(wǎng)頁(yè)的關(guān)鍵詞有著雙面性，如動(dòng)詞對(duì)抽取的關(guān)鍵詞質(zhì)量有著積極影響，而形容詞、副詞等對(duì)抽取的關(guān)鍵詞質(zhì)量有著消極影響。新聞網(wǎng)頁(yè)不同于一般的文木，它強(qiáng)調(diào)近來(lái)發(fā)生的具有一定社會(huì)價(jià)值的人和事，文本中的動(dòng)詞更能表達(dá)新聞主題，而相對(duì)名詞動(dòng)詞而言，具有的修飾特性的形容詞、副詞對(duì)文章主題的表達(dá)力度較弱。此外，對(duì)非名詞、動(dòng)詞詞義的過(guò)濾將減少關(guān)鍵詞抽取算法的時(shí)空花銷(xiāo)。

2.2 基于卡方統(tǒng)計(jì)量的關(guān)鍵詞提取算法

2.2.1 卡方統(tǒng)計(jì)量

本文將卡方統(tǒng)計(jì)量引入藏文文本的關(guān)鍵詞提取。思路很簡(jiǎn)單，首先從單文本中選取一組詞項(xiàng)H（通過(guò)語(yǔ)料分析詞項(xiàng)的高tf-idf值）作為文本的初步概括（對(duì)比詞項(xiàng)組）。將文本中的每個(gè)句子看成為一個(gè)主題句子，計(jì)算文本候選關(guān)鍵詞詞項(xiàng)ti（包括詞項(xiàng)H中的詞項(xiàng)）與對(duì)比組H中的詞項(xiàng)h在每個(gè)句子中的共現(xiàn)分布率[fo（ti，h）]。通過(guò)卡方統(tǒng)計(jì)量來(lái)計(jì)算ti與h的關(guān)聯(lián)程度（Degree of Bias），NiPh為理論值（期望值），Ni為ti與H中詞項(xiàng)總的共現(xiàn)次數(shù)，Ph為詞項(xiàng)h的tf-idf值。

3 試驗(yàn)分析

之前介紹了基于卡方統(tǒng)計(jì)量的藏文新聞網(wǎng)頁(yè)關(guān)鍵詞抽取方法，如何利用這種方法來(lái)更好地進(jìn)行關(guān)鍵詞抽取任務(wù)，本文在以下兩方面作出了研究與分析：參數(shù)設(shè)定實(shí)驗(yàn)、評(píng)測(cè)實(shí)驗(yàn)。參數(shù)設(shè)定實(shí)驗(yàn)主要是針對(duì)本文中所設(shè)定的各種參數(shù)對(duì)關(guān)鍵詞抽取的影響，最后選取最優(yōu)參數(shù)。最后進(jìn)行評(píng)測(cè)實(shí)驗(yàn)，以本文最優(yōu)方法與TFIDF與啟發(fā)式信息相結(jié)合的方方法做比較，以此來(lái)分析本文方法的優(yōu)劣。endprint

3.1 試驗(yàn)數(shù)據(jù)準(zhǔn)備

本文的實(shí)驗(yàn)數(shù)據(jù)以藏文新聞關(guān)鍵詞抽取實(shí)驗(yàn)。由于目前還沒(méi)有藏文關(guān)鍵詞抽取測(cè)試數(shù)據(jù)集。為保證公平性，本文數(shù)據(jù)集來(lái)源于藏文網(wǎng)站（www.tibentcm.com），從3個(gè)類(lèi)別的新聞網(wǎng)頁(yè)中各抽取50篇文章進(jìn)行實(shí)驗(yàn)。并且在人工標(biāo)注關(guān)鍵詞方面制定了相應(yīng)的標(biāo)準(zhǔn)如下：

（1）每篇文章關(guān)鍵詞數(shù)量在3-8個(gè)；

（2）每篇文檔的關(guān)鍵詞組需要覆蓋該篇文章的所有話(huà)題；

（3）每個(gè)關(guān)鍵詞在該篇文章中出現(xiàn)應(yīng)大于1次；

（4）每篇測(cè)試文章應(yīng)不少于200個(gè)藏詞。

3.2 評(píng)價(jià)指標(biāo)

3.3 參數(shù)設(shè)定實(shí)驗(yàn)

在本文所展示的方法中，比較重要的一環(huán)就是待抽取文本中對(duì)比詞項(xiàng)H的個(gè)數(shù)設(shè)定，在本文中設(shè)定方法按照個(gè)數(shù)與文本中詞數(shù)之間的比例設(shè)為Hp，為了設(shè)定最優(yōu)Hp值，對(duì)Hp值進(jìn)行多次調(diào)值后進(jìn)行試驗(yàn)，選取的比較優(yōu)的結(jié)果如表1。

由此可以看出，Hp對(duì)抽取結(jié)果的影響是明顯的。由于在文中H中的詞項(xiàng)是待抽取文本中具有高TFIDF值的詞項(xiàng)，從信息檢索的角度來(lái)說(shuō)，是比較重要的詞項(xiàng)，因此在文中起到一定的主題作用，即從理論和實(shí)驗(yàn)上都能得出以這類(lèi)詞組中相關(guān)聯(lián)比較緊密的詞項(xiàng)（通過(guò)卡方統(tǒng)計(jì)量計(jì)算），就越能體現(xiàn)出主題作用，也就是本文所抽取的關(guān)鍵詞。但是，H中的詞項(xiàng)個(gè)數(shù)應(yīng)該適中，如表1可以看出，Hp=35%為最優(yōu)。

3.4 本文方法與TFIDF方法比較

在實(shí)驗(yàn)2中，按照方法劃分為3組： 1）TFIDF方法；2）TFIDF與位置特征集和的方法； 3）本文的方法.表2顯示的是這三種方法分別在第二組數(shù)據(jù)上所進(jìn)行的對(duì)比實(shí)驗(yàn)結(jié)果。

由表2可見(jiàn)，與僅基于TFIDF特征抽取關(guān)鍵詞相比，結(jié)合位置特征抽取的關(guān)鍵詞在精確率和召回率上均有明顯提高.基于TFIDF的方法傾向于考慮高頻詞對(duì)文章主題的貢獻(xiàn)，增加的位置特征考慮特殊分布的詞語(yǔ)的重要性。而本文的方法完美詮釋了“重要詞”與“關(guān)鍵詞”的區(qū)別，使抽取的關(guān)鍵詞更能體現(xiàn)和概括文章的主題。

4 結(jié)論

本文以卡方統(tǒng)計(jì)量為基礎(chǔ)，計(jì)算待抽取文章中詞項(xiàng)與文中主題緊密性，在藏文新聞內(nèi)容加以驗(yàn)證，實(shí)驗(yàn)結(jié)果表示，本文的方法是有效的。在實(shí)驗(yàn)中還得出了對(duì)比詞項(xiàng)Hp的最優(yōu)結(jié)果。但是藏文測(cè)試數(shù)據(jù)規(guī)范上還有待提高，數(shù)量還需要擴(kuò)展，并且在本文的方法中，主題的體現(xiàn)性上還需進(jìn)行更多實(shí)驗(yàn)和其他方法，如詞項(xiàng)聚類(lèi)方法。

參考文獻(xiàn)：

[1] Witten，Paynter，F(xiàn)rank，et al.Kea： practical automatic keyphrase extraction[C].Proc of ACM Conference on Digital Libraries. New York： ACM Press，1999：254-255.

[2] Turney. Learning to extract key phrases from text[J].NRC Technical Report ERB-1057.Canada： National Research Council，1999.

[3] Pasquier.Task 5：single document keyphrase extraction using sentence clustering and latent dirichlet allocation[C].Proc of ACL Workshop on Semantic Evaluation，2010，154-157.

[4] David，Anderew，Michael. Latent dirichlet allocation[J].Journal of Machine Learning Research，2003（3）：993-1022.

[5] Ken Barker，Nadia Cornacchia.Using noun phrase heads to extract document keyphrases[C].In Canadian Conference on Artificial Intelligence，2000：40-52.

[6] Yutaka Matsuo，Mitsuru Ishizuka.KeyWord extraction from a single document using Word co-occurrence statistical information[J].International Journal on Artificial Intelligence Tools，，2004，13（1）：157-169.

[7] 章成志.自動(dòng)標(biāo)引研究的回顧與展望[J].現(xiàn)代圖書(shū)情報(bào)技術(shù)，2007（11）：33-39.

[8] CHIEN L.PAT-tree-based keyWord extraction for Chinese information retrieval[C].ACM SIGIR Forum.，1997：31：58.

[9] 劉佳賓，陳超，邵正榮，等.基于機(jī)器學(xué)習(xí)的科技文摘關(guān)鍵詞自動(dòng)提取方法[J].計(jì)算機(jī)工程與應(yīng)用，2007，43（14）：170-172.

[10] 張慶國(guó)，薛德軍，張振海，等.海量數(shù)據(jù)集上基于特征組合的關(guān)鍵詞自動(dòng)抽取[J].情報(bào)學(xué)報(bào)，2006，25（5）：587-593.

[11] 楊春明，韓永國(guó).快速的領(lǐng)域文檔關(guān)鍵詞自動(dòng)提取算法[J].計(jì)算機(jī)工程與設(shè)計(jì)，2011，32（21）：42-2145.

[12] 劉知遠(yuǎn).基于文檔主題結(jié)構(gòu)的關(guān)鍵詞抽取方法研究[D].清華大學(xué).2011.

[13] 尹倩，胡學(xué)鋼，謝飛，等.基于密度聚類(lèi)模式的中文新聞網(wǎng)頁(yè)關(guān)鍵詞提取[J].廣西師范大學(xué)學(xué)報(bào)：自然科學(xué)版.2009，27（1）：201-204.endprint

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于卡方統(tǒng)計(jì)量的藏文新聞網(wǎng)頁(yè)關(guān)鍵詞提取方法