陳浩
摘要:詞義消歧在自然語(yǔ)言處理中一直是一個(gè)難點(diǎn)問(wèn)題,同時(shí),也是很多領(lǐng)域都需要解決的一個(gè)重要環(huán)節(jié)。本文介紹了一種基于統(tǒng)計(jì)語(yǔ)言模型和統(tǒng)計(jì)方法相結(jié)合的有導(dǎo)詞義消歧模型,詳細(xì)講解了統(tǒng)計(jì)語(yǔ)言模型原理;通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),在有限的標(biāo)注語(yǔ)言條件下,語(yǔ)言模型確實(shí)可以提高詞義消歧的性能。由此得出, 統(tǒng)計(jì)語(yǔ)言模型在詞義消歧的中具有良好的應(yīng)用前景。
關(guān)鍵詞: 語(yǔ)言模型;hownet;無(wú)導(dǎo)方法
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)01-0178-03
An Unsupervised Approach To Word Sense Disambiguation Based on Language Model
CHEN Hao
(Department of computer Science,Guangdong University of Finace and Economics, Huashang College, Guangzhou 510000,China)
Abstract: Word sense disambiguation is a difficult problem in many fields of natural language processing,eg.machine translation,information retrieval.This paper firstly introduces a language model which is conbining statistics method,and then discusses the advantage of the language model.Accordingly ,the language model has the good application foreground in Wsd.
Key words: language model; hownet; an unsupervised approach
隨著計(jì)算科學(xué)技術(shù)的飛速發(fā)展,自然語(yǔ)言處理希望機(jī)器能像人一樣能理解自然語(yǔ)言,并且代替人類去做很多人類無(wú)法從事的工作,從而提高工作效率,詞義消歧就是自然處理中一個(gè)很重要的問(wèn)題,攻克這一難題對(duì)于自然語(yǔ)言處理以及機(jī)器翻譯等都有很重大的意義。
許多學(xué)者對(duì)詞義消歧進(jìn)行了研究,十九世紀(jì)八十年代中期,Lesk[1] 利用詞典中的詞義或者成為義項(xiàng)來(lái)進(jìn)行詞義的消除歧義。他通過(guò)計(jì)算上下文詞語(yǔ)的覆蓋度,選擇覆蓋度了較大的作為正確的義項(xiàng)。盡管結(jié)果不是很理想,但是也開(kāi)創(chuàng)了自然語(yǔ)言中詞義消歧的先河。到了十九世紀(jì)初,語(yǔ)言學(xué)家Yarow sky[2]通過(guò)把文章的不同主題進(jìn)行分類,歧義詞語(yǔ)在在不同主題的文章中的含義不同,通過(guò)這種方法來(lái)確定歧義詞語(yǔ)的含義,取得不錯(cuò)的效果。[3]十九世紀(jì)末期,Wordnet進(jìn)入詞義消歧領(lǐng)域,通過(guò)計(jì)算上下文詞語(yǔ)的語(yǔ)言環(huán)境來(lái)確定詞語(yǔ)的含義。[4]進(jìn)入二十世紀(jì)以后,逐漸出現(xiàn)了一些基于實(shí)例的詞義消除歧義的方法,通過(guò)實(shí)例可以指導(dǎo)判斷歧義詞義的詞義。還可以采用詞義搭配關(guān)系,上下文語(yǔ)法知識(shí)等,測(cè)試中也取得了不錯(cuò)的消歧效果。
本文提出了一種運(yùn)用統(tǒng)計(jì)語(yǔ)言模型來(lái)解決詞義消歧問(wèn)題。在保持統(tǒng)計(jì)語(yǔ)言模型優(yōu)點(diǎn)的基礎(chǔ)上,該文提出方法的主要特點(diǎn)在于:
1)把多義詞放到統(tǒng)計(jì)語(yǔ)言模型里去進(jìn)行無(wú)指導(dǎo)消歧的方法;
2)使用聚類的方法對(duì)多義詞的周圍詞義聚類
3)通過(guò)抽取術(shù)語(yǔ),可以提高上下文詞義的實(shí)用性。
本文以下內(nèi)容安排如下:第2節(jié)對(duì)知網(wǎng)進(jìn)行描述;第3節(jié)介紹無(wú)導(dǎo)消歧的過(guò)程,其中3.1節(jié)介紹基于統(tǒng)計(jì)語(yǔ)言模型的學(xué)習(xí)方法, 3.2介紹術(shù)語(yǔ)的抽取方法;3.3介紹上下文語(yǔ)言模型表示;第4節(jié)通過(guò)一些具體的詞語(yǔ)的例子來(lái)檢測(cè)消歧的效果;第5節(jié)分析本文提出的方法的優(yōu)勢(shì)和可能存在需要進(jìn)一步的研究的問(wèn)題。
1 《知網(wǎng)》[5]的介紹
《知網(wǎng)》是用義原來(lái)對(duì)每一個(gè)詞語(yǔ)進(jìn)行描述和定義的,義原可以理解為詞語(yǔ)的一個(gè)解釋,我們進(jìn)行詞義消歧的目的就是要確定多義詞在具體語(yǔ)境中屬于哪一種意思。我們以動(dòng)詞“打”
為例,打是一個(gè)多義詞,它有多種含義,我們?cè)谶M(jìn)行詞義消歧的時(shí)候可以確定它是哪個(gè)義原
在知網(wǎng)中,它的一般記錄格式是:No= W_C= G_C= ,E_C= ,其中No=是編號(hào),W_C=是多義詞,G_C=是詞性,是動(dòng)詞,名詞還是形容詞等,最后一個(gè)E_C=是舉例,比如打毛衣,中的打就是編織的意思,而如果打仗中的打可理解為擊,敲,攻擊的意思。根據(jù)上下文的特點(diǎn),我們可以確定在特定語(yǔ)境里多義詞的義原。
2 基于統(tǒng)計(jì)語(yǔ)言模型的無(wú)導(dǎo)學(xué)習(xí)方法[6]
2.1 統(tǒng)計(jì)語(yǔ)言模型
統(tǒng)計(jì)語(yǔ)言模型是用統(tǒng)計(jì)的方法對(duì)語(yǔ)言信號(hào)進(jìn)行排序的一種模型,如果在一篇文章中有n個(gè)詞,分別是word1,word2,…wordn,統(tǒng)計(jì)語(yǔ)言模型就要統(tǒng)計(jì)出這個(gè)序列在文章中出現(xiàn)的概率g(word),g(word)可以用下面這個(gè)公式表示(1) :
G(word)=g(word1)*g(word2|word1)g(word3|word1word2)…
g(wordn|word1word2…wordn-1)
我們可以通過(guò)估計(jì)wordn前面出現(xiàn)的所有詞來(lái)估計(jì)wordn出現(xiàn)的概率,為了減少計(jì)算量,我們采用計(jì)算wordn前面n-1個(gè)詞來(lái)簡(jiǎn)化這個(gè)計(jì)算
G(word)=g(word1)*g(word2|word1)*g(word3|word1word2)…
g(wordi|word1word2…wordi-1)
我們可以采用三元模型或者二元模型來(lái)進(jìn)行計(jì)算,如果在三元模型中,只是與前面兩個(gè)詞語(yǔ)有關(guān),其中條件概率g(wordi|word1word2…wordi-1)可以在大規(guī)模語(yǔ)料中估計(jì),如果語(yǔ)言片段出現(xiàn)概率大,就可能是符合條件的義項(xiàng),把這個(gè)模型運(yùn)用到詞義消歧中去,可以取得良好的效果。
2.2 抽取術(shù)語(yǔ)[7]
我們?cè)跇?gòu)造義項(xiàng)矩陣的時(shí)候要確定一個(gè)m的值,我們認(rèn)為通過(guò)抽取術(shù)語(yǔ)的方法可以得到一些價(jià)值更大的術(shù)語(yǔ),從而提高詞義消歧的效果。而在普通的詞義消除歧義的過(guò)程中,一些虛詞占據(jù)了很大的比例,從而會(huì)影響或者降低消除歧義的效果。
通過(guò)使用一些術(shù)語(yǔ)抽取的方法,先確定種子,然后擴(kuò)展開(kāi)去,在一個(gè)大型數(shù)據(jù)庫(kù)中,假設(shè)有一個(gè)字符串a(chǎn)bcd,ni_f(b,c) 那么字符bc出現(xiàn)的次數(shù)-1,設(shè)立經(jīng)驗(yàn)值5,2.5 在確定種子的基礎(chǔ)上進(jìn)行擴(kuò)展,這樣可以得到3—6字的準(zhǔn)術(shù)語(yǔ)。 我們通過(guò)3條規(guī)則來(lái)最后確定術(shù)語(yǔ),符合下面規(guī)則的不是術(shù)語(yǔ):1) 字串在種子下面;2) 頻率相同的種子;3) 當(dāng)ni值比自己大,且2個(gè)字串個(gè)數(shù)相差為1的時(shí)候。 2.3待消除歧義詞語(yǔ)上下文的語(yǔ)言模型表示 如果取多義詞上下文+—3-5的上下文范圍: c-5,c-4,c-3,c-2,c-1 polysemous-word, c+1,c+2,c+3, c+4,c+5,.同樣也需要映射到統(tǒng)計(jì)語(yǔ)言模型中,其表示如下Vpolysemous-word=〈cterm-1,cterm-2,cterm-3,…,cterm-n〉, 當(dāng)term-i出現(xiàn)在多義詞的上下文中時(shí),也就是term-i∈{ c-5,c-4,c-3,c-2,c-1,c+1,c+2,c+3,c+4,c+5, }, 可以對(duì)當(dāng)n=3,n=4,n=5時(shí)候分別進(jìn)行打分,得分高的就是n的取值。 3 試驗(yàn)及其結(jié)果 3.1 以Hownet為詞典的實(shí)驗(yàn) 我們?cè)O(shè)計(jì)了一個(gè)算法: [第一步:在一個(gè)語(yǔ)料庫(kù)中提取多義詞其左右上下文為5的詞語(yǔ); 第二步:用語(yǔ)言模型來(lái)進(jìn)行分析消歧詞的效果; 第三步:應(yīng)用不同階數(shù)的語(yǔ)言模型對(duì)多義詞語(yǔ)進(jìn)行消除歧義; 第四步:根據(jù)上下文對(duì)多義詞進(jìn)行打分,分?jǐn)?shù)高的為正確的義項(xiàng)。 3.2實(shí)驗(yàn)結(jié)論 我們以《詞林》中的幾個(gè)多義詞做比較。 本文提出的方法在原來(lái)的基礎(chǔ)上有一定的改進(jìn),改進(jìn)的原因在于: 1) 在本文提出的方法中,我們采用了統(tǒng)計(jì)語(yǔ)言模型來(lái)進(jìn)行消歧; 2) 通過(guò)借鑒屬于抽取的方法可以使用多義詞的上下文更加準(zhǔn)確,從而提高效率。 4 結(jié)論與討論 本文提出了一種基于語(yǔ)言模型的無(wú)指導(dǎo)的詞義消歧方法,該方法在基于術(shù)語(yǔ)抽取的基礎(chǔ)上,使用了基于統(tǒng)計(jì)的語(yǔ)言模型的方法,最后的實(shí)驗(yàn)表明,該模型可以顯著的提高消歧性能。 通過(guò)實(shí)驗(yàn)表明,采用無(wú)指導(dǎo)的詞義消歧的方法,在統(tǒng)計(jì)語(yǔ)言模型下可以幫助提高詞義消歧的性能。未來(lái)的工作,我們主要從三個(gè)方面去進(jìn)行。 1) 更高的提高術(shù)語(yǔ)抽取的質(zhì)量,因?yàn)檫@樣可以提高詞義消歧的性能。 2) 待消歧的詞語(yǔ)上下文的更多地?cái)?shù)據(jù)集的特征可以發(fā)掘出更多的消歧的知識(shí)。 3) 優(yōu)化其他的無(wú)指導(dǎo)消歧義的模型,如向量空間模型,測(cè)試各種無(wú)指導(dǎo)消歧模型的消歧效果。 參考文獻(xiàn): [1] Michael E Lesk Automated Sense Disambiguation Using Machine-readable Dictionaries How To tell a Pine Cone from an Ice Cream Cone[A].In Proceedings of the SIGDOC Conference[C].Association for Computing Machinery New York,1986:24-26 [2] David Yarowsky Word-sense disambiguation using statistical models of Rogets categories on large corpora[A].In COLING[C].Nantes,1992:545-460. [3] Eneko Agirre Rigau Geman A proposal for word sense disambiguation using conceptual Distance[A].Proceedings of the 1st Inernational Conference on Recent Advances in Natural Language Processing[C]. Bulgarin 1995. [5] 董振東,董強(qiáng)(2000).“知網(wǎng)” [EB/OL].http://keenage.com. [6] 基于語(yǔ)言模型的有監(jiān)督詞義消歧模型優(yōu)化研究[J].中文信息學(xué)報(bào),2014,28(1):19-25. [7] 劉建舟,何婷婷,劉曉華.基于開(kāi)放式語(yǔ)料漢語(yǔ)術(shù)語(yǔ)的自動(dòng)抽取[C].第十二屆東方語(yǔ)言信息處理國(guó)際會(huì)議論文,2003(8):43-49 [8] LI Juan-zi. The research on Chinese word sense disambiguation [Ph.D.Thesis][C] Beijing: Tsinghua University,1999 (in Chinese).