基于統(tǒng)計(jì)語(yǔ)言模型的無(wú)導(dǎo)詞義消歧

2015-03-16 13:00:00陳浩

電腦知識(shí)與技術(shù) 2015年1期

陳浩

摘要：詞義消歧在自然語(yǔ)言處理中一直是一個(gè)難點(diǎn)問(wèn)題，同時(shí)，也是很多領(lǐng)域都需要解決的一個(gè)重要環(huán)節(jié)。本文介紹了一種基于統(tǒng)計(jì)語(yǔ)言模型和統(tǒng)計(jì)方法相結(jié)合的有導(dǎo)詞義消歧模型，詳細(xì)講解了統(tǒng)計(jì)語(yǔ)言模型原理；通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)，在有限的標(biāo)注語(yǔ)言條件下，語(yǔ)言模型確實(shí)可以提高詞義消歧的性能。由此得出，統(tǒng)計(jì)語(yǔ)言模型在詞義消歧的中具有良好的應(yīng)用前景。

關(guān)鍵詞：語(yǔ)言模型；hownet；無(wú)導(dǎo)方法

中圖分類號(hào)：TP311 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2015）01-0178-03

An Unsupervised Approach To Word Sense Disambiguation Based on Language Model

CHEN Hao

（Department of computer Science，Guangdong University of Finace and Economics， Huashang College， Guangzhou 510000，China）

Abstract： Word sense disambiguation is a difficult problem in many fields of natural language processing，eg.machine translation，information retrieval.This paper firstly introduces a language model which is conbining statistics method，and then discusses the advantage of the language model.Accordingly ，the language model has the good application foreground in Wsd.

Key words： language model； hownet； an unsupervised approach

隨著計(jì)算科學(xué)技術(shù)的飛速發(fā)展，自然語(yǔ)言處理希望機(jī)器能像人一樣能理解自然語(yǔ)言，并且代替人類去做很多人類無(wú)法從事的工作，從而提高工作效率，詞義消歧就是自然處理中一個(gè)很重要的問(wèn)題，攻克這一難題對(duì)于自然語(yǔ)言處理以及機(jī)器翻譯等都有很重大的意義。

許多學(xué)者對(duì)詞義消歧進(jìn)行了研究，十九世紀(jì)八十年代中期，Lesk[1] 利用詞典中的詞義或者成為義項(xiàng)來(lái)進(jìn)行詞義的消除歧義。他通過(guò)計(jì)算上下文詞語(yǔ)的覆蓋度，選擇覆蓋度了較大的作為正確的義項(xiàng)。盡管結(jié)果不是很理想，但是也開(kāi)創(chuàng)了自然語(yǔ)言中詞義消歧的先河。到了十九世紀(jì)初，語(yǔ)言學(xué)家Yarow sky[2]通過(guò)把文章的不同主題進(jìn)行分類，歧義詞語(yǔ)在在不同主題的文章中的含義不同，通過(guò)這種方法來(lái)確定歧義詞語(yǔ)的含義，取得不錯(cuò)的效果。[3]十九世紀(jì)末期，Wordnet進(jìn)入詞義消歧領(lǐng)域，通過(guò)計(jì)算上下文詞語(yǔ)的語(yǔ)言環(huán)境來(lái)確定詞語(yǔ)的含義。[4]進(jìn)入二十世紀(jì)以后，逐漸出現(xiàn)了一些基于實(shí)例的詞義消除歧義的方法，通過(guò)實(shí)例可以指導(dǎo)判斷歧義詞義的詞義。還可以采用詞義搭配關(guān)系，上下文語(yǔ)法知識(shí)等，測(cè)試中也取得了不錯(cuò)的消歧效果。

本文提出了一種運(yùn)用統(tǒng)計(jì)語(yǔ)言模型來(lái)解決詞義消歧問(wèn)題。在保持統(tǒng)計(jì)語(yǔ)言模型優(yōu)點(diǎn)的基礎(chǔ)上，該文提出方法的主要特點(diǎn)在于：

1）把多義詞放到統(tǒng)計(jì)語(yǔ)言模型里去進(jìn)行無(wú)指導(dǎo)消歧的方法；

2）使用聚類的方法對(duì)多義詞的周圍詞義聚類

3）通過(guò)抽取術(shù)語(yǔ)，可以提高上下文詞義的實(shí)用性。

本文以下內(nèi)容安排如下：第2節(jié)對(duì)知網(wǎng)進(jìn)行描述；第3節(jié)介紹無(wú)導(dǎo)消歧的過(guò)程，其中3.1節(jié)介紹基于統(tǒng)計(jì)語(yǔ)言模型的學(xué)習(xí)方法， 3.2介紹術(shù)語(yǔ)的抽取方法；3.3介紹上下文語(yǔ)言模型表示；第4節(jié)通過(guò)一些具體的詞語(yǔ)的例子來(lái)檢測(cè)消歧的效果；第5節(jié)分析本文提出的方法的優(yōu)勢(shì)和可能存在需要進(jìn)一步的研究的問(wèn)題。

1 《知網(wǎng)》[5]的介紹

《知網(wǎng)》是用義原來(lái)對(duì)每一個(gè)詞語(yǔ)進(jìn)行描述和定義的，義原可以理解為詞語(yǔ)的一個(gè)解釋，我們進(jìn)行詞義消歧的目的就是要確定多義詞在具體語(yǔ)境中屬于哪一種意思。我們以動(dòng)詞“打”

為例，打是一個(gè)多義詞，它有多種含義，我們?cè)谶M(jìn)行詞義消歧的時(shí)候可以確定它是哪個(gè)義原

在知網(wǎng)中，它的一般記錄格式是：No= W_C= G_C= ，E_C= ，其中No=是編號(hào)，W_C=是多義詞，G_C=是詞性，是動(dòng)詞，名詞還是形容詞等，最后一個(gè)E_C=是舉例，比如打毛衣，中的打就是編織的意思，而如果打仗中的打可理解為擊，敲，攻擊的意思。根據(jù)上下文的特點(diǎn)，我們可以確定在特定語(yǔ)境里多義詞的義原。

2 基于統(tǒng)計(jì)語(yǔ)言模型的無(wú)導(dǎo)學(xué)習(xí)方法[6]

2.1 統(tǒng)計(jì)語(yǔ)言模型

統(tǒng)計(jì)語(yǔ)言模型是用統(tǒng)計(jì)的方法對(duì)語(yǔ)言信號(hào)進(jìn)行排序的一種模型，如果在一篇文章中有n個(gè)詞，分別是word1，word2，…wordn，統(tǒng)計(jì)語(yǔ)言模型就要統(tǒng)計(jì)出這個(gè)序列在文章中出現(xiàn)的概率g（word），g（word）可以用下面這個(gè)公式表示（1）：

G（word）=g（word1）*g（word2|word1）g（word3|word1word2）…

g（wordn|word1word2…wordn-1）

我們可以通過(guò)估計(jì)wordn前面出現(xiàn)的所有詞來(lái)估計(jì)wordn出現(xiàn)的概率，為了減少計(jì)算量，我們采用計(jì)算wordn前面n-1個(gè)詞來(lái)簡(jiǎn)化這個(gè)計(jì)算

G（word）=g（word1）*g（word2|word1）*g（word3|word1word2）…

g（wordi|word1word2…wordi-1）

我們可以采用三元模型或者二元模型來(lái)進(jìn)行計(jì)算，如果在三元模型中，只是與前面兩個(gè)詞語(yǔ)有關(guān)，其中條件概率g（wordi|word1word2…wordi-1）可以在大規(guī)模語(yǔ)料中估計(jì)，如果語(yǔ)言片段出現(xiàn)概率大，就可能是符合條件的義項(xiàng)，把這個(gè)模型運(yùn)用到詞義消歧中去，可以取得良好的效果。

2.2 抽取術(shù)語(yǔ)[7]

我們?cè)跇?gòu)造義項(xiàng)矩陣的時(shí)候要確定一個(gè)m的值，我們認(rèn)為通過(guò)抽取術(shù)語(yǔ)的方法可以得到一些價(jià)值更大的術(shù)語(yǔ)，從而提高詞義消歧的效果。而在普通的詞義消除歧義的過(guò)程中，一些虛詞占據(jù)了很大的比例，從而會(huì)影響或者降低消除歧義的效果。

通過(guò)使用一些術(shù)語(yǔ)抽取的方法，先確定種子，然后擴(kuò)展開(kāi)去，在一個(gè)大型數(shù)據(jù)庫(kù)中，假設(shè)有一個(gè)字符串a(chǎn)bcd，ni_f（b，c）

那么字符bc出現(xiàn)的次數(shù)-1，設(shè)立經(jīng)驗(yàn)值5，2.5

在確定種子的基礎(chǔ)上進(jìn)行擴(kuò)展，這樣可以得到3—6字的準(zhǔn)術(shù)語(yǔ)。

我們通過(guò)3條規(guī)則來(lái)最后確定術(shù)語(yǔ)，符合下面規(guī)則的不是術(shù)語(yǔ)：1）字串在種子下面；2）頻率相同的種子；3）當(dāng)ni值比自己大，且2個(gè)字串個(gè)數(shù)相差為1的時(shí)候。

2.3待消除歧義詞語(yǔ)上下文的語(yǔ)言模型表示

如果取多義詞上下文+—3-5的上下文范圍： c-5，c-4，c-3，c-2，c-1 polysemous-word， c+1，c+2，c+3， c+4，c+5，.同樣也需要映射到統(tǒng)計(jì)語(yǔ)言模型中，其表示如下Vpolysemous-word=〈cterm-1，cterm-2，cterm-3，…，cterm-n〉，當(dāng)term-i出現(xiàn)在多義詞的上下文中時(shí)，也就是term-i∈{ c-5，c-4，c-3，c-2，c-1，c+1，c+2，c+3，c+4，c+5， }，可以對(duì)當(dāng)n=3，n=4，n=5時(shí)候分別進(jìn)行打分，得分高的就是n的取值。

3 試驗(yàn)及其結(jié)果

3.1 以Hownet為詞典的實(shí)驗(yàn)

我們?cè)O(shè)計(jì)了一個(gè)算法：

[第一步：在一個(gè)語(yǔ)料庫(kù)中提取多義詞其左右上下文為5的詞語(yǔ)；

第二步：用語(yǔ)言模型來(lái)進(jìn)行分析消歧詞的效果；

第三步：應(yīng)用不同階數(shù)的語(yǔ)言模型對(duì)多義詞語(yǔ)進(jìn)行消除歧義；

第四步：根據(jù)上下文對(duì)多義詞進(jìn)行打分，分?jǐn)?shù)高的為正確的義項(xiàng)。

3.2實(shí)驗(yàn)結(jié)論

我們以《詞林》中的幾個(gè)多義詞做比較。

本文提出的方法在原來(lái)的基礎(chǔ)上有一定的改進(jìn)，改進(jìn)的原因在于：

1）在本文提出的方法中，我們采用了統(tǒng)計(jì)語(yǔ)言模型來(lái)進(jìn)行消歧；

2）通過(guò)借鑒屬于抽取的方法可以使用多義詞的上下文更加準(zhǔn)確，從而提高效率。

4 結(jié)論與討論

本文提出了一種基于語(yǔ)言模型的無(wú)指導(dǎo)的詞義消歧方法，該方法在基于術(shù)語(yǔ)抽取的基礎(chǔ)上，使用了基于統(tǒng)計(jì)的語(yǔ)言模型的方法，最后的實(shí)驗(yàn)表明，該模型可以顯著的提高消歧性能。

通過(guò)實(shí)驗(yàn)表明，采用無(wú)指導(dǎo)的詞義消歧的方法，在統(tǒng)計(jì)語(yǔ)言模型下可以幫助提高詞義消歧的性能。未來(lái)的工作，我們主要從三個(gè)方面去進(jìn)行。

1）更高的提高術(shù)語(yǔ)抽取的質(zhì)量，因?yàn)檫@樣可以提高詞義消歧的性能。

2）待消歧的詞語(yǔ)上下文的更多地?cái)?shù)據(jù)集的特征可以發(fā)掘出更多的消歧的知識(shí)。

3）優(yōu)化其他的無(wú)指導(dǎo)消歧義的模型，如向量空間模型，測(cè)試各種無(wú)指導(dǎo)消歧模型的消歧效果。

參考文獻(xiàn)：

[1] Michael E Lesk Automated Sense Disambiguation Using Machine-readable Dictionaries How To tell a Pine Cone from an Ice Cream Cone[A].In Proceedings of the SIGDOC Conference[C].Association for Computing Machinery New York，1986：24-26

[2] David Yarowsky Word-sense disambiguation using statistical models of Rogets categories on large corpora[A].In COLING[C].Nantes，1992：545-460.

[3] Eneko Agirre Rigau Geman A proposal for word sense disambiguation using conceptual Distance[A].Proceedings of the 1st Inernational Conference on Recent Advances in Natural Language Processing[C]. Bulgarin 1995.

[5] 董振東，董強(qiáng)（2000）.“知網(wǎng)” [EB/OL].http：//keenage.com.

[6] 基于語(yǔ)言模型的有監(jiān)督詞義消歧模型優(yōu)化研究[J].中文信息學(xué)報(bào)，2014，28（1）：19-25.

[7] 劉建舟，何婷婷，劉曉華.基于開(kāi)放式語(yǔ)料漢語(yǔ)術(shù)語(yǔ)的自動(dòng)抽取[C].第十二屆東方語(yǔ)言信息處理國(guó)際會(huì)議論文，2003（8）：43-49

[8] LI Juan-zi. The research on Chinese word sense disambiguation [Ph.D.Thesis][C] Beijing： Tsinghua University，1999 （in Chinese）.

電腦知識(shí)與技術(shù)2015年1期

電腦知識(shí)與技術(shù)的其它文章: 辦公自動(dòng)化在疾控工作的應(yīng)用; 物聯(lián)網(wǎng)架構(gòu)和智能信息處理理論與關(guān)鍵技術(shù); 交互式設(shè)計(jì)在網(wǎng)站建設(shè)中的應(yīng)用; 論校園無(wú)線局域網(wǎng)通信安全策略; 光譜儀數(shù)據(jù)實(shí)時(shí)自動(dòng)傳輸與多點(diǎn)網(wǎng)絡(luò)監(jiān)測(cè)系統(tǒng); 云存儲(chǔ)服務(wù)中支持合作方式的數(shù)據(jù)完整性驗(yàn)證研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于統(tǒng)計(jì)語(yǔ)言模型的無(wú)導(dǎo)詞義消歧