国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語料庫的多義詞統(tǒng)計意義解析

2019-10-08 06:24:31曹慧
科學(xué)大眾·教師版 2019年7期
關(guān)鍵詞:多義詞統(tǒng)計語料庫

曹慧

摘 要:本文所研究的三種基于語料庫的統(tǒng)計意義解析方法,試圖通過對詞的共現(xiàn)模式的了解來推斷一個多義詞的正確意義。該技術(shù)基于貝葉斯決策理論、神經(jīng)網(wǎng)絡(luò)和信息檢索中使用的內(nèi)容向量。為了更好地理解這些方法,我們給定一組上下文,每個上下文都包含已知意義上的名詞line,構(gòu)造一個分類器來為新的上下文選擇正確的行意義。為了了解多義的程度如何影響表現(xiàn),我們比較了三種和六種感覺任務(wù)的結(jié)果。結(jié)果表明,每一種方法都能準(zhǔn)確區(qū)分六種線形感官,準(zhǔn)確率達(dá)70%以上。此外,分類器的響應(yīng)模式在很大程度上在統(tǒng)計上是不可區(qū)分的。兩項任務(wù)的比較表明,解決個體感官困難程度是一個比多義程度更大的表現(xiàn)因素。

關(guān)鍵詞:語料庫; 統(tǒng)計; 多義詞

中圖分類號:G642 ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A ? ?文章編號:1006-3315(2019)07-159-002

1.引言

語料庫指的是為某一個或多個應(yīng)用而專門收集的、有一定結(jié)構(gòu)的、有代表性的、可以被計算機(jī)程序檢索的、具有一定規(guī)模的語料的集合[1]。本研究的目的是系統(tǒng)地探討基于語料庫的統(tǒng)計意義解析方法中,每個詞的義數(shù)、每個義的訓(xùn)練例數(shù)等變量對統(tǒng)計意義解析方法的影響。為了研究詞義數(shù)量的影響,我們選擇了高度多義的名詞line,在詞匯網(wǎng)絡(luò)中有25個詞義。

2.文獻(xiàn)綜述

Yarowsky[2]將貝葉斯統(tǒng)計方法與其他基于語料庫的統(tǒng)計模型發(fā)表的結(jié)果進(jìn)行了比較。他通過使用相同的詞語,用相同的意義定義,將這些差異最小化。令人信服地指出,貝葉斯模型與代價更高的方法一樣好,甚至更好。

作為本研究的試點(diǎn),利用內(nèi)容向量和神經(jīng)網(wǎng)絡(luò)分類器對線進(jìn)行了兩種意義上的區(qū)分任務(wù),準(zhǔn)確率達(dá)到90%以上。然后運(yùn)行一個三感區(qū)分任務(wù)。

3.研究方法

培訓(xùn)和測試的內(nèi)容取自1987-89《華爾街日報》語料庫和來自APHB語料庫。從WordNet中提取2個包含“[L1]ine(s)”的句子,并手動分配單個意義。

通常,實(shí)驗在目標(biāo)的兩側(cè)使用固定數(shù)量的單詞或字符作為上下文。在這個實(shí)驗中,我們使用語言單位-句子-代替。選擇使用兩句上下文:包含行和前一句的句子,訓(xùn)練和測試上下文的平均大小為44.5個單詞。

詞義解析任務(wù)使用名詞行以下六種意義:

1.a product: ‘ a new line of workstations

2.a formation of people or things: ‘stand in line

3.spoken or written text: ‘a(chǎn) line from Shakespeare

4.a thin, flexible object; cord: ‘a(chǎn) nylon line

5.an abstract division: ‘a(chǎn) line between good and evil

6.a telephone connection: ‘the line went dead

為了檢驗訓(xùn)練樣本的數(shù)量對分類器性能的影響,我們從200個訓(xùn)練集中提取了較小的訓(xùn)練集,每個意義的前50和100個上下文被用來構(gòu)建新的訓(xùn)練集。在給定的試驗中,對每個訓(xùn)練集使用相同的894個測試上下文集。每個分類器在相同的試驗中使用相同的訓(xùn)練和測試上下文,但是根據(jù)方法的需要對文本進(jìn)行不同的處理。

4.分類

這三個分類器使用的唯一信息是字符串在上下文中同時出現(xiàn)。它們不使用其他線索,如句法標(biāo)記或詞序。它們也不需要任何不是完全自動的訓(xùn)練上下文的增強(qiáng)。

4.1貝葉斯法

由Gale,Church和Yarowsky[3]開發(fā)的貝葉斯分類器使用貝葉斯決策理論對與多義目標(biāo)的每個意義同時出現(xiàn)的令牌進(jìn)行加權(quán)。模型的主要組件標(biāo)記被定義為任何字符串:單詞、數(shù)字、符號、標(biāo)點(diǎn)符號或任何組合。整個標(biāo)記都是重要的,因此基本單詞(wait vs. wait)和混合大小寫字符串(Bush vs. Bush)的變形形式是不同的標(biāo)記。與每個標(biāo)記相關(guān)聯(lián)的是一組顯著性,每個顯著性對應(yīng)一種感覺,由訓(xùn)練數(shù)據(jù)計算得出。給定意義的標(biāo)記的顯著性是Pr(token/sense)/Pr(token)。給定意義的標(biāo)記的影響是其顯著性的對數(shù)。

為了在(測試)上下文中選擇目標(biāo)單詞的意義,分類器計算每個標(biāo)記意義在上下文中對所有標(biāo)記的影響總和,并選擇和最大的意義。在意義分辨的情況下,顯著標(biāo)記包括出現(xiàn)頻率低得多的內(nèi)容詞。貝葉斯分類器實(shí)驗由AT&T貝爾實(shí)驗室的Kenneth Church進(jìn)行。在這些實(shí)驗中,兩句話環(huán)境使用的一個固定大小的窗口±50標(biāo)記周圍的目標(biāo)詞,Gale等人找到導(dǎo)致一個小數(shù)量的上下文用于估計概率最優(yōu)值。

4.2內(nèi)容向量

信息檢索系統(tǒng)的向量空間模型推動了感知分辨率的內(nèi)容向量方法,其中,語料庫中的每個概念都定義了向量空間的一個軸,語料庫中的文本表示為該空間中的一個點(diǎn)。語料庫中的概念通常定義為出現(xiàn)在語料庫中的詞干集,兩個文本之間的相似性被計算為表示兩個文本的向量的函數(shù)。

對于感知解析問題,每個感知都由一個由該感知訓(xùn)練上下文構(gòu)造的單個向量表示。由訓(xùn)練上下文定義的一個空間向量也是為每一個測試上下文構(gòu)造的。要為測試上下文選擇一個意義,需要計算其向量與每個意義向量之間的內(nèi)積,并選擇其內(nèi)積最大的意義。

4.3神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)方法將感知分辨率作為一種監(jiān)督學(xué)習(xí)范式。成對的(輸入特性,期望的響應(yīng))出現(xiàn)在一個學(xué)習(xí)程序中。該程序的任務(wù)是設(shè)計一些方法來使用輸入特性將訓(xùn)練上下文劃分為與期望響應(yīng)相對應(yīng)的非重疊集。

每個上下文都被轉(zhuǎn)換成位向量。在整個訓(xùn)練集中出現(xiàn)至少兩次的每個概念都被分配到位向量位置。得到的向量的位置為1,與上下文中的概念對應(yīng),否則為0。這個過程創(chuàng)建超過4000個位置的向量。然而,這些向量是極其稀疏的,它們平均包含略多于17個概念。

對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,直到每個訓(xùn)練示例中對應(yīng)于期望響應(yīng)的單元的輸出大于任何其他單元的輸出為止。訓(xùn)練一個網(wǎng)絡(luò)直到所有的例子都正確分類,這樣的結(jié)果是罕見的標(biāo)記可以獲得不相稱的重要性。

為了確定網(wǎng)絡(luò)的良好拓?fù)浣Y(jié)構(gòu),研究了各種網(wǎng)絡(luò)拓?fù)洌簩?到100個隱藏單元排列在一個隱藏層中的網(wǎng)絡(luò);具有多層隱藏單元的網(wǎng)絡(luò);以及具有單層隱藏單元的網(wǎng)絡(luò),其中輸出單元連接到隱藏單元和輸入單元。在所有情況下,沒有隱藏單元的網(wǎng)絡(luò)配置要么優(yōu)越,要么在統(tǒng)計上與更復(fù)雜的網(wǎng)絡(luò)難以區(qū)分。由于沒有網(wǎng)絡(luò)拓?fù)涿黠@優(yōu)于沒有隱藏單元的網(wǎng)絡(luò)拓?fù)洌赃@里報告的所有數(shù)據(jù)都來自這樣的網(wǎng)絡(luò)。

5.結(jié)論

所有分類器在訓(xùn)練上下文數(shù)量最多(200)的情況下表現(xiàn)最佳。

三種方法的響應(yīng)模式的收斂性表明,每種分類器都從訓(xùn)練上下文中提取盡可能多的字?jǐn)?shù)數(shù)據(jù)。如果是這樣,那么任何只使用單詞計數(shù)的技術(shù)都不會比這里測試的技術(shù)準(zhǔn)確得多。

雖然一詞多義的程度確實(shí)影響了感官分辨任務(wù)的難度,但更大的表現(xiàn)因素是個體感官分辨的難度。從語境的考察來看,關(guān)鍵信息似乎離詞很近,而離詞較遠(yuǎn)的語境則是噪聲。這些基于語料庫的統(tǒng)計技術(shù)使用了訓(xùn)練上下文的貧乏表示:兩個句子中出現(xiàn)的標(biāo)記的簡單計數(shù)。我們認(rèn)為,除非將詞序或句法信息等其他信息納入該技術(shù),否則不可能顯著提高分辨率的準(zhǔn)確性。

基金項目:2013年安徽省教育廳人文社會科學(xué)研究一般項目(項目編號:SK2013B227)

參考文獻(xiàn):

[1]何婷婷.語料庫研究[D]華中師范大學(xué)博士學(xué)位論文,2003

[2]Yarowsky,D.,Word-sense disambiguation using statistical models of Rogets categories trained on large corpora, COLING-92, 1992

[3]Gale,W.,Church,K.W.,and Yarowsky,D,A method for disambiguating word senses in a large corpus. Statistical Research Report 104,AT&T Bell Laboratories,1992

猜你喜歡
多義詞統(tǒng)計語料庫
多義詞
《語料庫翻譯文體學(xué)》評介
把課文的優(yōu)美表達(dá)存進(jìn)語料庫
2008—2015我國健美操科研論文的統(tǒng)計與分析
人間(2016年27期)2016-11-11 17:33:19
山東省交通運(yùn)輸投資計劃管理信息系統(tǒng)的設(shè)計
我國居民收入與消費(fèi)關(guān)系的統(tǒng)計分析
市場經(jīng)濟(jì)背景下的會計統(tǒng)計發(fā)展探究
商(2016年27期)2016-10-17 05:50:19
淺議多義詞在語境中的隱喻認(rèn)知
多義詞way的語義認(rèn)知分析及實(shí)證研究
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
梁平县| 遂平县| 丰都县| 台东县| 深圳市| 临沂市| 潜山县| 奉节县| 濮阳市| 留坝县| 北流市| 临夏县| 安国市| 喀什市| 西宁市| 辽阳县| 怀集县| 五华县| 荣昌县| 麻栗坡县| 华阴市| 曲靖市| 荆州市| 雷波县| 鄄城县| 吴江市| 天祝| 沧源| 靖西县| 克东县| 宜川县| 池州市| 重庆市| 临澧县| 娱乐| 浏阳市| 隆林| 五常市| 毕节市| 平利县| 博白县|