国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于統(tǒng)計(jì)語(yǔ)言模型的無(wú)導(dǎo)詞義消歧

2015-03-16 13:00:00陳浩
電腦知識(shí)與技術(shù) 2015年1期

陳浩

摘要:詞義消歧在自然語(yǔ)言處理中一直是一個(gè)難點(diǎn)問(wèn)題,同時(shí),也是很多領(lǐng)域都需要解決的一個(gè)重要環(huán)節(jié)。本文介紹了一種基于統(tǒng)計(jì)語(yǔ)言模型和統(tǒng)計(jì)方法相結(jié)合的有導(dǎo)詞義消歧模型,詳細(xì)講解了統(tǒng)計(jì)語(yǔ)言模型原理;通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),在有限的標(biāo)注語(yǔ)言條件下,語(yǔ)言模型確實(shí)可以提高詞義消歧的性能。由此得出, 統(tǒng)計(jì)語(yǔ)言模型在詞義消歧的中具有良好的應(yīng)用前景。

關(guān)鍵詞: 語(yǔ)言模型;hownet;無(wú)導(dǎo)方法

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)01-0178-03

An Unsupervised Approach To Word Sense Disambiguation Based on Language Model

CHEN Hao

(Department of computer Science,Guangdong University of Finace and Economics, Huashang College, Guangzhou 510000,China)

Abstract: Word sense disambiguation is a difficult problem in many fields of natural language processing,eg.machine translation,information retrieval.This paper firstly introduces a language model which is conbining statistics method,and then discusses the advantage of the language model.Accordingly ,the language model has the good application foreground in Wsd.

Key words: language model; hownet; an unsupervised approach

隨著計(jì)算科學(xué)技術(shù)的飛速發(fā)展,自然語(yǔ)言處理希望機(jī)器能像人一樣能理解自然語(yǔ)言,并且代替人類去做很多人類無(wú)法從事的工作,從而提高工作效率,詞義消歧就是自然處理中一個(gè)很重要的問(wèn)題,攻克這一難題對(duì)于自然語(yǔ)言處理以及機(jī)器翻譯等都有很重大的意義。

許多學(xué)者對(duì)詞義消歧進(jìn)行了研究,十九世紀(jì)八十年代中期,Lesk[1] 利用詞典中的詞義或者成為義項(xiàng)來(lái)進(jìn)行詞義的消除歧義。他通過(guò)計(jì)算上下文詞語(yǔ)的覆蓋度,選擇覆蓋度了較大的作為正確的義項(xiàng)。盡管結(jié)果不是很理想,但是也開(kāi)創(chuàng)了自然語(yǔ)言中詞義消歧的先河。到了十九世紀(jì)初,語(yǔ)言學(xué)家Yarow sky[2]通過(guò)把文章的不同主題進(jìn)行分類,歧義詞語(yǔ)在在不同主題的文章中的含義不同,通過(guò)這種方法來(lái)確定歧義詞語(yǔ)的含義,取得不錯(cuò)的效果。[3]十九世紀(jì)末期,Wordnet進(jìn)入詞義消歧領(lǐng)域,通過(guò)計(jì)算上下文詞語(yǔ)的語(yǔ)言環(huán)境來(lái)確定詞語(yǔ)的含義。[4]進(jìn)入二十世紀(jì)以后,逐漸出現(xiàn)了一些基于實(shí)例的詞義消除歧義的方法,通過(guò)實(shí)例可以指導(dǎo)判斷歧義詞義的詞義。還可以采用詞義搭配關(guān)系,上下文語(yǔ)法知識(shí)等,測(cè)試中也取得了不錯(cuò)的消歧效果。

本文提出了一種運(yùn)用統(tǒng)計(jì)語(yǔ)言模型來(lái)解決詞義消歧問(wèn)題。在保持統(tǒng)計(jì)語(yǔ)言模型優(yōu)點(diǎn)的基礎(chǔ)上,該文提出方法的主要特點(diǎn)在于:

1)把多義詞放到統(tǒng)計(jì)語(yǔ)言模型里去進(jìn)行無(wú)指導(dǎo)消歧的方法;

2)使用聚類的方法對(duì)多義詞的周圍詞義聚類

3)通過(guò)抽取術(shù)語(yǔ),可以提高上下文詞義的實(shí)用性。

本文以下內(nèi)容安排如下:第2節(jié)對(duì)知網(wǎng)進(jìn)行描述;第3節(jié)介紹無(wú)導(dǎo)消歧的過(guò)程,其中3.1節(jié)介紹基于統(tǒng)計(jì)語(yǔ)言模型的學(xué)習(xí)方法, 3.2介紹術(shù)語(yǔ)的抽取方法;3.3介紹上下文語(yǔ)言模型表示;第4節(jié)通過(guò)一些具體的詞語(yǔ)的例子來(lái)檢測(cè)消歧的效果;第5節(jié)分析本文提出的方法的優(yōu)勢(shì)和可能存在需要進(jìn)一步的研究的問(wèn)題。

1 《知網(wǎng)》[5]的介紹

《知網(wǎng)》是用義原來(lái)對(duì)每一個(gè)詞語(yǔ)進(jìn)行描述和定義的,義原可以理解為詞語(yǔ)的一個(gè)解釋,我們進(jìn)行詞義消歧的目的就是要確定多義詞在具體語(yǔ)境中屬于哪一種意思。我們以動(dòng)詞“打”

為例,打是一個(gè)多義詞,它有多種含義,我們?cè)谶M(jìn)行詞義消歧的時(shí)候可以確定它是哪個(gè)義原

在知網(wǎng)中,它的一般記錄格式是:No= W_C= G_C= ,E_C= ,其中No=是編號(hào),W_C=是多義詞,G_C=是詞性,是動(dòng)詞,名詞還是形容詞等,最后一個(gè)E_C=是舉例,比如打毛衣,中的打就是編織的意思,而如果打仗中的打可理解為擊,敲,攻擊的意思。根據(jù)上下文的特點(diǎn),我們可以確定在特定語(yǔ)境里多義詞的義原。

2 基于統(tǒng)計(jì)語(yǔ)言模型的無(wú)導(dǎo)學(xué)習(xí)方法[6]

2.1 統(tǒng)計(jì)語(yǔ)言模型

統(tǒng)計(jì)語(yǔ)言模型是用統(tǒng)計(jì)的方法對(duì)語(yǔ)言信號(hào)進(jìn)行排序的一種模型,如果在一篇文章中有n個(gè)詞,分別是word1,word2,…wordn,統(tǒng)計(jì)語(yǔ)言模型就要統(tǒng)計(jì)出這個(gè)序列在文章中出現(xiàn)的概率g(word),g(word)可以用下面這個(gè)公式表示(1) :

G(word)=g(word1)*g(word2|word1)g(word3|word1word2)…

g(wordn|word1word2…wordn-1)

我們可以通過(guò)估計(jì)wordn前面出現(xiàn)的所有詞來(lái)估計(jì)wordn出現(xiàn)的概率,為了減少計(jì)算量,我們采用計(jì)算wordn前面n-1個(gè)詞來(lái)簡(jiǎn)化這個(gè)計(jì)算

G(word)=g(word1)*g(word2|word1)*g(word3|word1word2)…

g(wordi|word1word2…wordi-1)

我們可以采用三元模型或者二元模型來(lái)進(jìn)行計(jì)算,如果在三元模型中,只是與前面兩個(gè)詞語(yǔ)有關(guān),其中條件概率g(wordi|word1word2…wordi-1)可以在大規(guī)模語(yǔ)料中估計(jì),如果語(yǔ)言片段出現(xiàn)概率大,就可能是符合條件的義項(xiàng),把這個(gè)模型運(yùn)用到詞義消歧中去,可以取得良好的效果。

2.2 抽取術(shù)語(yǔ)[7]

我們?cè)跇?gòu)造義項(xiàng)矩陣的時(shí)候要確定一個(gè)m的值,我們認(rèn)為通過(guò)抽取術(shù)語(yǔ)的方法可以得到一些價(jià)值更大的術(shù)語(yǔ),從而提高詞義消歧的效果。而在普通的詞義消除歧義的過(guò)程中,一些虛詞占據(jù)了很大的比例,從而會(huì)影響或者降低消除歧義的效果。

通過(guò)使用一些術(shù)語(yǔ)抽取的方法,先確定種子,然后擴(kuò)展開(kāi)去,在一個(gè)大型數(shù)據(jù)庫(kù)中,假設(shè)有一個(gè)字符串a(chǎn)bcd,ni_f(b,c)

那么字符bc出現(xiàn)的次數(shù)-1,設(shè)立經(jīng)驗(yàn)值5,2.5

在確定種子的基礎(chǔ)上進(jìn)行擴(kuò)展,這樣可以得到3—6字的準(zhǔn)術(shù)語(yǔ)。

我們通過(guò)3條規(guī)則來(lái)最后確定術(shù)語(yǔ),符合下面規(guī)則的不是術(shù)語(yǔ):1) 字串在種子下面;2) 頻率相同的種子;3) 當(dāng)ni值比自己大,且2個(gè)字串個(gè)數(shù)相差為1的時(shí)候。

2.3待消除歧義詞語(yǔ)上下文的語(yǔ)言模型表示

如果取多義詞上下文+—3-5的上下文范圍: c-5,c-4,c-3,c-2,c-1 polysemous-word, c+1,c+2,c+3, c+4,c+5,.同樣也需要映射到統(tǒng)計(jì)語(yǔ)言模型中,其表示如下Vpolysemous-word=〈cterm-1,cterm-2,cterm-3,…,cterm-n〉, 當(dāng)term-i出現(xiàn)在多義詞的上下文中時(shí),也就是term-i∈{ c-5,c-4,c-3,c-2,c-1,c+1,c+2,c+3,c+4,c+5, }, 可以對(duì)當(dāng)n=3,n=4,n=5時(shí)候分別進(jìn)行打分,得分高的就是n的取值。

3 試驗(yàn)及其結(jié)果

3.1 以Hownet為詞典的實(shí)驗(yàn)

我們?cè)O(shè)計(jì)了一個(gè)算法:

[第一步:在一個(gè)語(yǔ)料庫(kù)中提取多義詞其左右上下文為5的詞語(yǔ);

第二步:用語(yǔ)言模型來(lái)進(jìn)行分析消歧詞的效果;

第三步:應(yīng)用不同階數(shù)的語(yǔ)言模型對(duì)多義詞語(yǔ)進(jìn)行消除歧義;

第四步:根據(jù)上下文對(duì)多義詞進(jìn)行打分,分?jǐn)?shù)高的為正確的義項(xiàng)。

3.2實(shí)驗(yàn)結(jié)論

我們以《詞林》中的幾個(gè)多義詞做比較。

本文提出的方法在原來(lái)的基礎(chǔ)上有一定的改進(jìn),改進(jìn)的原因在于:

1) 在本文提出的方法中,我們采用了統(tǒng)計(jì)語(yǔ)言模型來(lái)進(jìn)行消歧;

2) 通過(guò)借鑒屬于抽取的方法可以使用多義詞的上下文更加準(zhǔn)確,從而提高效率。

4 結(jié)論與討論

本文提出了一種基于語(yǔ)言模型的無(wú)指導(dǎo)的詞義消歧方法,該方法在基于術(shù)語(yǔ)抽取的基礎(chǔ)上,使用了基于統(tǒng)計(jì)的語(yǔ)言模型的方法,最后的實(shí)驗(yàn)表明,該模型可以顯著的提高消歧性能。

通過(guò)實(shí)驗(yàn)表明,采用無(wú)指導(dǎo)的詞義消歧的方法,在統(tǒng)計(jì)語(yǔ)言模型下可以幫助提高詞義消歧的性能。未來(lái)的工作,我們主要從三個(gè)方面去進(jìn)行。

1) 更高的提高術(shù)語(yǔ)抽取的質(zhì)量,因?yàn)檫@樣可以提高詞義消歧的性能。

2) 待消歧的詞語(yǔ)上下文的更多地?cái)?shù)據(jù)集的特征可以發(fā)掘出更多的消歧的知識(shí)。

3) 優(yōu)化其他的無(wú)指導(dǎo)消歧義的模型,如向量空間模型,測(cè)試各種無(wú)指導(dǎo)消歧模型的消歧效果。

參考文獻(xiàn):

[1] Michael E Lesk Automated Sense Disambiguation Using Machine-readable Dictionaries How To tell a Pine Cone from an Ice Cream Cone[A].In Proceedings of the SIGDOC Conference[C].Association for Computing Machinery New York,1986:24-26

[2] David Yarowsky Word-sense disambiguation using statistical models of Rogets categories on large corpora[A].In COLING[C].Nantes,1992:545-460.

[3] Eneko Agirre Rigau Geman A proposal for word sense disambiguation using conceptual Distance[A].Proceedings of the 1st Inernational Conference on Recent Advances in Natural Language Processing[C]. Bulgarin 1995.

[5] 董振東,董強(qiáng)(2000).“知網(wǎng)” [EB/OL].http://keenage.com.

[6] 基于語(yǔ)言模型的有監(jiān)督詞義消歧模型優(yōu)化研究[J].中文信息學(xué)報(bào),2014,28(1):19-25.

[7] 劉建舟,何婷婷,劉曉華.基于開(kāi)放式語(yǔ)料漢語(yǔ)術(shù)語(yǔ)的自動(dòng)抽取[C].第十二屆東方語(yǔ)言信息處理國(guó)際會(huì)議論文,2003(8):43-49

[8] LI Juan-zi. The research on Chinese word sense disambiguation [Ph.D.Thesis][C] Beijing: Tsinghua University,1999 (in Chinese).

惠水县| 镇江市| 通山县| 屏山县| 翁牛特旗| 景谷| 肃北| 阳西县| 阳朔县| 潜山县| 福建省| 西昌市| 随州市| 天等县| 穆棱市| 宜都市| 湟中县| 子洲县| 丰镇市| 莎车县| 长治市| 永寿县| 伊宁市| 西昌市| 海丰县| 承德县| 西青区| 师宗县| 崇左市| 保亭| 宝坻区| 修武县| 溧水县| 布拖县| 瑞昌市| 桐梓县| 诸暨市| 乳源| 盐城市| 根河市| 延津县|