基于詞典信息的先秦漢語(yǔ)全文詞義標(biāo)注方法研究

2012-06-29 03:54張穎杰陳家駿陳小荷

中文信息學(xué)報(bào) 2012年3期

張穎杰，李斌,，陳家駿，陳小荷

(1. 南京大學(xué) 計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室，江蘇南京 210093；2. 南京師范大學(xué) 語(yǔ)言信息科技研究中心，江蘇南京 210097)

1 引言

詞義消歧(Word Sense Disambiguation, WSD)是在特定的上下文中為指定的詞自動(dòng)選擇合適詞義的過(guò)程，也稱(chēng)為自動(dòng)詞義標(biāo)注。在主流的詞義消歧方法中，有指導(dǎo)方法的效果最好[1]，但需要較大的人工標(biāo)注數(shù)據(jù)集，并且其結(jié)果對(duì)訓(xùn)練數(shù)據(jù)集有很強(qiáng)的依賴(lài)性，泛化能力較差。相對(duì)而言，基于知識(shí)的方法，將詞語(yǔ)在詞典中的義項(xiàng)數(shù)作為類(lèi)別數(shù)，將詞典對(duì)詞語(yǔ)的解釋和例句作為義項(xiàng)出現(xiàn)的語(yǔ)境信息，雖然受限于詞典規(guī)模，其效果通常不如有指導(dǎo)的方法，但是在一定程度上減少了對(duì)人工標(biāo)記數(shù)據(jù)的依賴(lài)性，義項(xiàng)標(biāo)注的覆蓋率較高，在缺乏人工標(biāo)注數(shù)據(jù)集的情況下，可以提供初始的自動(dòng)標(biāo)注結(jié)果。

目前，古漢語(yǔ)的詞義自動(dòng)標(biāo)注工作還處于起步階段，在資源和技術(shù)上都呈稀缺狀態(tài)。對(duì)于經(jīng)典傳世之作，雖有歷代學(xué)者的大量注疏，但這些注疏并不是在同一個(gè)釋義詞典或語(yǔ)義體系的基礎(chǔ)上進(jìn)行的。目前較為實(shí)用的、能夠服務(wù)于古漢語(yǔ)文獻(xiàn)詞義標(biāo)注的詞典是《漢語(yǔ)大詞典2.0》(后文簡(jiǎn)稱(chēng)為《大詞典》)[2]。該詞典收詞目30余萬(wàn)條，給出了詞語(yǔ)的古今義項(xiàng)和最早用例，是一本質(zhì)量高、釋義豐富的大型語(yǔ)文詞典。文獻(xiàn)[3]介紹了采用《大詞典》為主要的釋義詞典，人工逐詞標(biāo)注古籍義項(xiàng)以構(gòu)建中古漢語(yǔ)研究型語(yǔ)料庫(kù)的工作，工作量特別巨大。因此，研究古漢語(yǔ)義項(xiàng)的自動(dòng)標(biāo)注方法，已經(jīng)成為了中國(guó)古典文學(xué)和文獻(xiàn)研究的重要而迫切的需求。

對(duì)于缺乏訓(xùn)練數(shù)據(jù)的古漢語(yǔ)的詞義標(biāo)注來(lái)說(shuō)，有指導(dǎo)的方法難以直接使用。在本文中，我們利用詞典信息作為知識(shí)來(lái)源，采用了基于半指導(dǎo)方法的全文詞義標(biāo)注方法，對(duì)《左傳》進(jìn)行了標(biāo)注實(shí)驗(yàn)，人工抽樣的統(tǒng)計(jì)結(jié)果顯示，該方法的平均準(zhǔn)確率遠(yuǎn)高于系統(tǒng)基線，能夠在古漢語(yǔ)全文詞義標(biāo)注的起步階段提供初始結(jié)果，為人工標(biāo)注詞語(yǔ)義項(xiàng)提供良好的數(shù)據(jù)底本。

本文后續(xù)部分結(jié)構(gòu)如下，第二節(jié)介紹了古漢語(yǔ)詞義標(biāo)注的相關(guān)研究；第三節(jié)介紹了本文使用的全文詞義標(biāo)注方法；第四節(jié)說(shuō)明了實(shí)驗(yàn)的設(shè)計(jì)和結(jié)果分析；第五節(jié)給出了我們的結(jié)論及后續(xù)的研究工作。

2 相關(guān)研究

目前在古漢語(yǔ)的義項(xiàng)標(biāo)注方面研究較少。文獻(xiàn)[4]首先分析了古漢語(yǔ)詞義義項(xiàng)的分布情況與特點(diǎn)，考察了詞義消歧的難點(diǎn)。然后在現(xiàn)有的詞義消歧理論和方法的基礎(chǔ)上，基于條件隨機(jī)場(chǎng)，選擇上下文的詞及其詞性的復(fù)合特征，并加入其他語(yǔ)言學(xué)特征，設(shè)計(jì)6個(gè)不同的模板，對(duì)“將”、“如”等7個(gè)古漢語(yǔ)高頻詞進(jìn)行了詞義消歧實(shí)驗(yàn)，平均F值達(dá)到了83.04%。不過(guò)，該方法使用的詞典是《春秋左傳詞典》，不適用于其他先秦語(yǔ)料的詞義標(biāo)注，缺乏一般性。因?yàn)槲墨I(xiàn)[4]采用的是有指導(dǎo)方法，需要預(yù)標(biāo)注大量訓(xùn)練樣本，代價(jià)太高，泛化能力有限。

對(duì)于任意語(yǔ)言的詞義標(biāo)注，最簡(jiǎn)單的基于詞典的方法是通過(guò)計(jì)算目標(biāo)詞的定義及其所在的上下文之間重疊的詞數(shù)來(lái)確定詞義[5]。

scoreLeskVar(S)=|context(w)∩gloss(S)|

S表示某個(gè)特定的詞義，w為待標(biāo)注的詞，context(w)表示w所在的上下文，gloss(S)為詞義的定義。這種方法主要局限在于詞典中的定義通常比較簡(jiǎn)潔，未必能包含足夠的能標(biāo)識(shí)當(dāng)前詞義的詞匯[6]。

隨著包含分類(lèi)和語(yǔ)義關(guān)系的本體詞典的廣泛使用(如WordNet)，基于詞典的WSD研究中也出現(xiàn)了依賴(lài)于這些詞典中結(jié)構(gòu)化信息的結(jié)構(gòu)化方法，主要有基于相似度計(jì)算的方法[7]和基于圖的方法[8-9]兩類(lèi)?；谙嗨贫扔?jì)算的方法比較目標(biāo)詞的各個(gè)詞義與文本中其他詞之間的語(yǔ)義相似度，從中選擇使得下式結(jié)果最高的詞義。

基于圖的方法通常把全文表示成一個(gè)以詞義為結(jié)點(diǎn)、語(yǔ)義關(guān)系為邊的圖結(jié)構(gòu)，通過(guò)隨機(jī)游走等方法確定節(jié)點(diǎn)的得分，從而得到最終的詞義。近年來(lái)針對(duì)英語(yǔ)或現(xiàn)代漢語(yǔ)的全文標(biāo)注主要就用了這一類(lèi)的方法。

然而，對(duì)于古漢語(yǔ)這一特殊的應(yīng)用領(lǐng)域，很難使用結(jié)構(gòu)化方法。首先，古漢語(yǔ)的結(jié)構(gòu)化詞典資源缺乏。在漢語(yǔ)中運(yùn)用廣泛的《同義詞詞林》和HowNet中的概念描寫(xiě)和分類(lèi)主要針對(duì)現(xiàn)代漢語(yǔ)，由于古今異義等原因，無(wú)法直接用來(lái)計(jì)算古漢語(yǔ)詞語(yǔ)間的相似度。其次，結(jié)構(gòu)化方法通常嚴(yán)格的遵守一個(gè)前提，即“一段一義”[9]，用來(lái)構(gòu)成圖的段落中相同的詞最后將會(huì)被標(biāo)注上同一個(gè)詞義。但是古漢語(yǔ)詞類(lèi)活用現(xiàn)象比較頻繁，同樣的詞在同一段落中表現(xiàn)出多種不同的詞義是常見(jiàn)的現(xiàn)象，一般來(lái)講很難滿足這樣的前提。

考慮到以上問(wèn)題，本文利用現(xiàn)有的古漢語(yǔ)詞典資源，采用了一種半指導(dǎo)方法，對(duì)大量的古漢語(yǔ)語(yǔ)料實(shí)現(xiàn)了全文詞義標(biāo)注，對(duì)其性能進(jìn)行抽樣驗(yàn)證和分析。

3 半指導(dǎo)的WSD方法

本文的半指導(dǎo)方法沿用了文獻(xiàn)[9]提出的一種通過(guò)極少量人工標(biāo)注語(yǔ)料來(lái)進(jìn)行大量詞義標(biāo)注的方法，并根據(jù)古漢語(yǔ)特點(diǎn)和《大詞典》釋義方式進(jìn)行了調(diào)整和優(yōu)化。

3.1 Yarowsky的方法

在Yarowsky的研究要求每個(gè)詞只有兩個(gè)義項(xiàng)[10]。該方法首先對(duì)每一個(gè)需要標(biāo)注詞義的二義詞建立上下文列表U。其次，對(duì)該詞的每個(gè)可能詞義，手動(dòng)標(biāo)記一個(gè)包含典型搭配信息的可信小訓(xùn)練集seed，根據(jù)“一個(gè)搭配一種含義”的先決條件給出表示搭配信息的決策表。該可信小訓(xùn)練集對(duì)于每個(gè)含義只包含了一種搭配情況。再次，在seed上訓(xùn)練決策表分類(lèi)模型，并將其用于待標(biāo)注集的分類(lèi)，將所有概率超過(guò)既定閾值的結(jié)果增加到seed中，同時(shí)根據(jù)“一段一義”的約束條件擴(kuò)充seed，剩余用例仍作為待標(biāo)注集用于下一次的迭代。重復(fù)此過(guò)程至結(jié)果收斂，即所有未標(biāo)注用例的分類(lèi)結(jié)果概率均在閾值以下。最后，為剩余用例標(biāo)注結(jié)果。

具體流程可表示如圖1。

圖1 Yarowsky方法的流程圖

3.2 改進(jìn)的半指導(dǎo)詞義標(biāo)注方法

在本文中針對(duì)古漢語(yǔ)全文詞義標(biāo)注需要考慮的下述多個(gè)方面，對(duì)Yarowsky的方法作出一定的改進(jìn)，使之適用于古漢語(yǔ)這一特殊應(yīng)用對(duì)象和《大詞典》的釋義方式。

(1) 詞義粒度。本文中待標(biāo)注詞的詞義不只兩項(xiàng)，而是根據(jù)詞典中的義項(xiàng)來(lái)確定。詞典中凡是具有來(lái)自先秦文獻(xiàn)的例句的義項(xiàng)，均被用來(lái)作為詞義集合的一個(gè)元素。

(2) 特征選擇。這里不止采用一種搭配信息，而是選取了詞形、詞性的一元特征和兩者搭配的二元特征，如表1所示。有研究表明，二元特征窗口增大反而降低詞性標(biāo)注結(jié)果的準(zhǔn)確性[4]，因此對(duì)于二元特征，僅使用前后大小為1的窗口。

表1：特征選擇

由于“一段一義”的約束條件并不完全適用于古漢語(yǔ)，尤其對(duì)一些義項(xiàng)較多、應(yīng)用情況靈活的高頻詞。因此，本文降低其強(qiáng)制性，僅將待標(biāo)注詞所在的段落編號(hào)作為一個(gè)特征進(jìn)行考慮。

(3) 可信小訓(xùn)練集的選取。本文中不使用手動(dòng)標(biāo)注的方式，而是根據(jù)詞典信息自動(dòng)得到。由于古漢語(yǔ)詞典中的釋義通常用現(xiàn)代漢語(yǔ)表示，兩者的上下文在形式和內(nèi)容上差別較大，不能直接使用。而詞典中除了釋義外通常還包含一些例句，這些例句一般都具有典型性，且能保證其與詞義對(duì)應(yīng)的準(zhǔn)確性，故而我們通過(guò)這些例句得到標(biāo)注之初所需的seed。

(4) 迭代過(guò)程。在Yarowsky的方法中每次迭代的過(guò)程都將所有高于閾值的分類(lèi)結(jié)果加入seed中。而本文在每一輪分類(lèi)結(jié)束后僅加入概率最大且大于閾值的結(jié)果用于下一輪分類(lèi)。對(duì)于迭代過(guò)程的終止條件則分別考察設(shè)閾值和不設(shè)閾值(即閾值為0)兩種情況對(duì)結(jié)果的影響。

(5) 方法選擇。由于本文中所用的特征不再是單一的搭配信息，故而也不再使用簡(jiǎn)單的決策表，而改用了SVM的方法，其核函數(shù)使用了默認(rèn)的線性核[11]。

4 實(shí)驗(yàn)4.1 數(shù)據(jù)來(lái)源

本文將人工完成了分詞和詞性標(biāo)注的18萬(wàn)字《左傳》作為實(shí)驗(yàn)語(yǔ)料[12]，對(duì)其中的4 671個(gè)實(shí)詞共11萬(wàn)個(gè)詞例進(jìn)行了詞義標(biāo)注。這些實(shí)詞中有635個(gè)多音詞，占待標(biāo)注詞的13.6%。

知識(shí)來(lái)源采用了《大詞典》，該詞典對(duì)詞的釋義中涵蓋了從古至今所出現(xiàn)過(guò)的幾乎所有詞義，并給出了詞典編纂者認(rèn)定的詞義最早的文獻(xiàn)出處及例句。

以“忘”為例，其在詞典中第一個(gè)讀音的釋義如圖2所示。

忘1 [wànɡ ㄨㄤˋ]

[《廣韻》巫放切，去漾，微。]

1.忘記；不記得。《詩(shī)·小雅·隰?！罚骸爸行牟刂?，何日忘之?！薄端抉R法·仁本》：“天下雖安，忘戰(zhàn)必危?！?宋曾鞏《尚書(shū)都官員外郎陳君墓志銘》：“ 泉州歲兇，君築室止窮民，飢者給食，病者給醫(yī)，人忘其窮?！?周恩來(lái) 《致柯棣華大夫家屬的慰問(wèn)信》：“我們受惠于他的極多，使我們永不能忘?！?.指健忘癥?！读凶印ぶ苣峦酢罚骸?宋陽(yáng)里華子中年病忘?！?.遺棄；不顧念?！对?shī)·秦風(fēng)·晨風(fēng)》：“如何，如何！忘我實(shí)多。” 馬瑞辰通釋?zhuān)骸巴覍?shí)多，猶云棄我實(shí)甚?！薄肚f子·山木》：“覩一蟬，方得美蔭而忘其身；螳蜋執(zhí)翳而搏之，見(jiàn)得而忘其形?！薄夺釢h書(shū)·宋弘傳》：“貧賤之知不可忘。”4.玩忽，怠忽。《史記·孔子世家》：“昔武王克商，道通九夷百蠻，使各以其方賄來(lái)貢，無(wú)使忘職業(yè)?！?唐韓愈《潮州祭神文》之四：“惟神之恩，夙夜不敢忘怠?！?.無(wú)?！妒酚洝っ蠂L君列傳》：“日暮之後，過(guò)市朝者掉臂而不顧。非好朝而惡暮，所期物忘其中?！?司馬貞索隱：“忘者，無(wú)也。其中，市朝之中。言日暮物盡，故掉臂不顧也?！薄妒酚洝て浇蚝钪鞲噶袀鳌罚骸?高皇帝蓋悔之甚，乃使劉敬往結(jié)和親之約，然後天下忘干戈之事?！?.通“ 妄 ”。《老子》：“不知常，忘作，兇?！?朱謙之校釋?zhuān)骸巴?、妄古通?！薄俄n非子·解老》：“前識(shí)者，無(wú)緣而忘意度也?！?王先慎集解：“忘與妄通。”

注：下劃線的內(nèi)容表示出處，根據(jù)出處就可以得到例句出現(xiàn)的年代

圖2 “忘”的第一個(gè)讀音在《大詞典》中的釋義表示

4.2 實(shí)驗(yàn)預(yù)處理

(1) 根據(jù)年代篩選義項(xiàng)。由于《大詞典》收錄的義項(xiàng)非常豐富，每個(gè)詞語(yǔ)的義項(xiàng)往往多達(dá)數(shù)十條，這對(duì)于詞義自動(dòng)消歧是非常困難的，因此需要對(duì)義項(xiàng)和例句進(jìn)行年代的篩選?？紤]到先秦時(shí)代時(shí)期較長(zhǎng)、詞義也無(wú)法完全由《大詞典》的《左傳》出處涵蓋。我們根據(jù)60多種先秦文獻(xiàn)的名稱(chēng)(如《左傳》、《論語(yǔ)》等)對(duì)義項(xiàng)進(jìn)行時(shí)代篩選，保證了用于標(biāo)注的義項(xiàng)均有可能出現(xiàn)在先秦文獻(xiàn)中，剔除了大部分不可能出現(xiàn)的詞義。篩選后的義項(xiàng)被稱(chēng)為該詞的先秦義項(xiàng)。如圖2所示：“忘1”的第四個(gè)釋義“玩忽”和第五個(gè)釋義“無(wú)”最初都是在漢代的《史記》中出現(xiàn)的，故這兩個(gè)義項(xiàng)不包含在我們要分類(lèi)的義項(xiàng)列表中。而第一個(gè)釋義“忘記”的例句除了來(lái)自于先秦文獻(xiàn)《詩(shī)經(jīng)》和《司馬法》以外，還有的選自宋代和現(xiàn)代的文章，本文中所用的上下文信息僅從前兩者中提取。

(2) 詞典例句的詞性標(biāo)注。為了得到最初的種子訓(xùn)練集，實(shí)驗(yàn)利用南京師范大學(xué)開(kāi)發(fā)的先秦古漢語(yǔ)的詞性標(biāo)注工具[3]對(duì)這些例句進(jìn)行分詞和詞性標(biāo)注，該工具在左傳上的分詞和詞性標(biāo)注F值均超過(guò)90%。然后通過(guò)詞典中給出的拼音和釋義信息，得到用于訓(xùn)練的上下文特征。由于這些上下文特征來(lái)自于詞典中的例句，因而此種子訓(xùn)練集的標(biāo)注結(jié)果是可信的，其特征也具有典型性，保證了它對(duì)詞義標(biāo)注的指示作用。

4.3 詞義標(biāo)注

漢語(yǔ)中包含了很多的多音詞，同一個(gè)詞的不同讀音含義差別較大，甚至有時(shí)可以看作兩個(gè)不同的詞來(lái)處理。因此本文在標(biāo)注過(guò)程中針對(duì)多音詞分別使用“直接標(biāo)注詞義”和“先標(biāo)音再標(biāo)義”兩種標(biāo)注方法，來(lái)考察區(qū)分讀音對(duì)古漢語(yǔ)詞義自動(dòng)標(biāo)注效果的影響。

(1) 直接標(biāo)注詞義(Tag Sense Straightly, TSS)

根據(jù)詞典得到待標(biāo)注詞的詞義列表{senseik}，i=1,2,…,n,k=1,2,…,ni,N=∑ni,n為拼音的數(shù)目，ni為拼音i下的義項(xiàng)數(shù)目，N為待標(biāo)注詞的總義項(xiàng)數(shù)。執(zhí)行圖3的過(guò)程，最終為中的所有條目標(biāo)上詞義。

(2) 先標(biāo)音再標(biāo)義(Tag Pinyin before Sense, TPBS)

首先自動(dòng)標(biāo)注讀音。根據(jù)詞典得到待標(biāo)注詞的讀音列表{Pi},i=1,2,…,n,n為讀音的數(shù)目。執(zhí)行圖3的過(guò)程，為S中的所有條目標(biāo)上拼音Pi。

然后根據(jù)讀音的標(biāo)注結(jié)果將原待標(biāo)注集S分塊成為S1,S2,…,Sn，n表示該目標(biāo)詞拼音的數(shù)目，同一個(gè)分塊Si中的目標(biāo)詞都具有相同的讀音。同樣原可信訓(xùn)練集seed也根據(jù)讀音分類(lèi)成為seed1,seed2,…,seedn。

最后自動(dòng)標(biāo)注詞義。針對(duì)每個(gè)Si，根據(jù)seedi再次執(zhí)行圖3的過(guò)程，得到最終的詞義標(biāo)注結(jié)果senseik,i=1,2,…,n,k=1,2,…,ni，n為讀音的數(shù)目，ni為讀音Pi中義項(xiàng)的數(shù)目。

圖3 本文中半指導(dǎo)學(xué)習(xí)的流程圖

4.4 實(shí)驗(yàn)基線的設(shè)定(baseline)

本文中設(shè)定了兩條基線用于對(duì)比實(shí)驗(yàn)結(jié)果。由于《大詞典》中是將常用的讀音排在前面，而第一個(gè)釋義通常是該詞的本意或常用義，因此本文將目標(biāo)詞根據(jù)年代篩選釋義后的第一個(gè)讀音的第一個(gè)詞義和第二個(gè)詞義分別作為標(biāo)注結(jié)果的baseline1和baseline2。

4.5 實(shí)驗(yàn)結(jié)果及分析

自動(dòng)標(biāo)注完成后，由于標(biāo)注數(shù)據(jù)量大，且對(duì)于這些數(shù)據(jù)原先并不存在已知的正確結(jié)果，故而我們根據(jù)標(biāo)注數(shù)據(jù)在原文中的詞頻及其在詞典中的詞義數(shù)量分布從4 671個(gè)待標(biāo)注詞中抽取了22個(gè)樣本，人工檢查其結(jié)果進(jìn)行評(píng)測(cè)。表2給出了測(cè)試樣本在《大詞典》中的詞典義項(xiàng)數(shù)、讀音數(shù)、先秦義項(xiàng)數(shù)、《左傳》中的詞頻，并按照先秦義項(xiàng)數(shù)降序排列。這些詞在《左傳》中的詞頻從1到1 124不等，義項(xiàng)數(shù)最少為2，最多有13種，其中包含了5個(gè)多音詞。表3則給出了這些詞語(yǔ)的評(píng)測(cè)結(jié)果。

表2 評(píng)測(cè)抽樣詞語(yǔ)信息

根據(jù)表3，我們發(fā)現(xiàn)不關(guān)注讀音直接標(biāo)注詞義在平均值上取得了最好的效果，其宏平均和微平均[13]準(zhǔn)確率分別達(dá)到了67.15%和49.09%。分析實(shí)驗(yàn)結(jié)果我們討論以下幾個(gè)方面。

表3 抽樣標(biāo)注結(jié)果準(zhǔn)確率[0,1]，t表示設(shè)定了閾值

(1) 低頻詞的詞義標(biāo)注。對(duì)于《左傳》中的低頻詞，如果在大詞典包含了出自《左傳》的例句，即使義項(xiàng)數(shù)較多，也可以得到較好的結(jié)果。而當(dāng)其在詞典中的義項(xiàng)數(shù)目多且相應(yīng)的例句出處并非《左傳》或者語(yǔ)言與《左傳》差別較大時(shí)，該詞的釋義很難被準(zhǔn)確標(biāo)出。

例如，“缶”、“拊”、“區(qū)”、“繩”、“饘”和“珍”等詞雖然在《左傳》中只出現(xiàn)了一到兩次，但由于詞典中用于說(shuō)明其釋義的例句正是由《左傳》而來(lái)，故而我們根據(jù)例句得到的上下文對(duì)于這些詞的自動(dòng)詞義標(biāo)注具有很強(qiáng)的指示性，使得結(jié)果的準(zhǔn)確率比較高。同樣作為低頻詞的“負(fù)”在本次的抽樣結(jié)果中標(biāo)注效果很差。“負(fù)”在《左傳》中的詞頻僅有一次，使得它在自動(dòng)標(biāo)注時(shí)從客觀情況上無(wú)法進(jìn)行迭代的過(guò)程，只能通過(guò)例句給出的上下文來(lái)判斷。而在詞典中“負(fù)”的先秦義項(xiàng)有13項(xiàng)之多，且其中沒(méi)有出現(xiàn)出自《左傳》的例句，尤其是標(biāo)示其正確釋義的例句出自與《左傳》語(yǔ)言差別很大的《詩(shī)經(jīng)》，由此得到的種子上下文難以為該詞的詞義標(biāo)注做出正確的指引。

(2) 詞典中義項(xiàng)區(qū)分度對(duì)結(jié)果的影響。對(duì)于詞典中不同的義項(xiàng)間用法、語(yǔ)義或詞性區(qū)分度高的待標(biāo)注詞，不論其在《左傳》中詞頻高低，均能取得較好的標(biāo)注效果。例如，“對(duì)”、“戰(zhàn)”和“竹”，它們的詞頻有高有低，詞典中的義項(xiàng)數(shù)有多有少，但這些義項(xiàng)間均存在明顯的區(qū)別，因此，這3個(gè)詞的詞義標(biāo)注結(jié)果也取得了較好的效果。同樣作為高頻詞的“叛”，由于它的兩個(gè)釋義在詞性上有很明顯的區(qū)分，因此標(biāo)注的準(zhǔn)確率達(dá)到了100%。

而當(dāng)詞典中存在釋義間的“不平等”關(guān)系或義項(xiàng)粒度過(guò)細(xì)時(shí)，則會(huì)導(dǎo)致詞義的錯(cuò)誤標(biāo)注。這時(shí)閾值的加入可以防止迭代過(guò)程中錯(cuò)誤分類(lèi)的蔓延，提高結(jié)果的準(zhǔn)確率。例如，“戕”在詞典中的第三個(gè)釋義為“他國(guó)之臣?xì)⒈緡?guó)君主”，要判斷這一點(diǎn)需要有一些外在的先驗(yàn)知識(shí)，僅從局部上下文是很難分出該詞義與釋義一“殘害，殺害”的區(qū)別，甚至可以認(rèn)為釋義三是釋義一的一種特例，這也是導(dǎo)致了“戕”唯一的一個(gè)錯(cuò)標(biāo)。又如“災(zāi)”有兩個(gè)義項(xiàng)分別為“特指火災(zāi)”和“泛指災(zāi)害”，在自動(dòng)標(biāo)注時(shí)難以將“泛指”從“特指”中區(qū)分開(kāi)來(lái)，但在設(shè)定閾值的情況下準(zhǔn)確率有了顯著的提高。

(3) 詞典中例句的分布對(duì)結(jié)果的影響?！洞笤~典》中對(duì)于一個(gè)詞的每個(gè)義項(xiàng)給出的例句數(shù)量比較隨意，并沒(méi)有給予常用義更高的“權(quán)重”。這在詞義粒度細(xì)、區(qū)分度不高的情況下，為詞義的自動(dòng)標(biāo)注帶來(lái)了很大的困難，導(dǎo)致了結(jié)果的低準(zhǔn)確率。例如，“逆”和“告”，義項(xiàng)數(shù)目均在十個(gè)以上，而表示其常用義的例句都只有一句，反而是有些不常用的釋義被用了更多的例句來(lái)說(shuō)明，最終的標(biāo)注準(zhǔn)確率都降到了baseline1以下。

(4) 讀音對(duì)多音詞詞義標(biāo)注的影響。對(duì)于義項(xiàng)數(shù)目分布不平均的多音詞，先區(qū)分拼音后區(qū)分詞義的過(guò)程對(duì)提高詞義標(biāo)注的準(zhǔn)確率的意義不大，甚至可能起到反作用。例如，“告”，由于seed中表示第一種拼音的例句遠(yuǎn)比第二種拼音多，使得分類(lèi)結(jié)果更偏向于標(biāo)注為第一種讀音，以至于沒(méi)有能正確的把拼音二區(qū)分開(kāi)來(lái)，從而對(duì)最終的標(biāo)義的準(zhǔn)確性起了反作用。

綜上所述，在利用《大詞典》進(jìn)行古漢語(yǔ)的詞義自動(dòng)標(biāo)注時(shí)，對(duì)于詞頻低且在詞典中包含了所標(biāo)文獻(xiàn)的例句時(shí)，即使釋義的條目較多，也可能得到較好的結(jié)果。對(duì)于釋義間有明確的詞性差別的待標(biāo)注詞也能給出比較正確的結(jié)果。對(duì)于是多音詞的待標(biāo)注詞而言，只有當(dāng)其不同的讀音間釋義數(shù)目分布平均時(shí)，先標(biāo)讀音后標(biāo)詞義的兩步過(guò)程才更有意義。對(duì)于終止迭代過(guò)程的條件中所使用的閾值問(wèn)題，當(dāng)待標(biāo)注詞含義豐富，且詞頻較高時(shí)，加入閾值可以在一定程度上減少誤標(biāo)。另外，我們也從實(shí)驗(yàn)中發(fā)現(xiàn)了《大詞典》本身的釋義粒度有時(shí)過(guò)細(xì)或者兩個(gè)釋義存在“泛指”和“特指”的關(guān)系，這為我們的自動(dòng)標(biāo)注詞義過(guò)程帶來(lái)了很大的困難。

5 結(jié)論與未來(lái)工作

本文針對(duì)先秦古漢語(yǔ)這一特殊的文本對(duì)象，將WSD的過(guò)程分為先區(qū)分讀音后區(qū)分具體詞義這兩個(gè)步驟。實(shí)驗(yàn)過(guò)程使用了《大詞典》為知識(shí)來(lái)源，《左傳》作為測(cè)試語(yǔ)料，采用了基于支持向量機(jī)(SVM)的半指導(dǎo)方法。微平均和宏平均正確率分別達(dá)到49.09%和67.15%。對(duì)于義項(xiàng)區(qū)分度較大、用例相近的詞語(yǔ)，自動(dòng)標(biāo)注的效果可以達(dá)到95%以上。對(duì)于義項(xiàng)區(qū)分度低、《大詞典》用例差異大的詞語(yǔ)，效果還不太理想。在我們同時(shí)開(kāi)發(fā)的人機(jī)交互式義項(xiàng)標(biāo)注平臺(tái)的輔助下，可以作為人工標(biāo)注的良好初始結(jié)果，服務(wù)于古漢語(yǔ)詞義標(biāo)注語(yǔ)料庫(kù)的建設(shè)。

在今后的工作中我們考慮從以下幾方面對(duì)本文的工作進(jìn)行改進(jìn)：(1)加入更多語(yǔ)言信息，如句法結(jié)構(gòu)、語(yǔ)義角色、依存分析等，并加入特征選擇的過(guò)程，進(jìn)一步提高詞義標(biāo)注的效果； (2)利用較為豐富的歷代注疏文獻(xiàn)和驗(yàn)證指導(dǎo)學(xué)習(xí)方法的自動(dòng)標(biāo)注結(jié)果，同時(shí)提高全詞標(biāo)注的效果； (3)將詞義列表根據(jù)待標(biāo)注詞在不同釋義上的詞性不同分類(lèi)，來(lái)減小自動(dòng)標(biāo)注的難度。

[1] Pradhan, S., Loper, E., Dligach, D., et al. Semeval-2007 task-17: English lexical sample srl and all words[C]// Proceedings of SemEval-2007, ACL, 2007, 87-92.

[2] 漢語(yǔ)大詞典2.0[CD]. 商務(wù)印書(shū)館(香港). 2005.

[3] 董志翹.為中古漢語(yǔ)研究夯實(shí)基礎(chǔ)[J].燕山大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)，2011，12(1)：1-6.

[4] 于麗麗，丁德鑫，曲維光，等. 基于條件隨機(jī)場(chǎng)的古漢語(yǔ)詞義消歧研究[J].微電子學(xué)與計(jì)算機(jī)，2009，10: 45-48.

[5] Lesk. M. Automatic sense disambiguation using machine readable dictionaries: how to tell a pinecone from an ice cream cone[C]// Proceedings of the 5th annual international conference on Systems documentation, 1986:24-26.

[6] Patwardhan, S., Banerjee, S., Pedersen, T. Using measures of Semantic Relatedness for Word Sense Disambiguation[C]// Proceedings of CICLing, 2003:241-257.

[7] Pedersen, T., Banerjee, S., Patwardhan, S. Maximizing semantic relatedness to perform word sense disambiguation[R]. Minneaplis: University of Minnesota Supercomputing Institute, Res. rep: UMSI 2005/25, 2005.

[8] Sinha, R., Mihalcea, R. Unsupervised graph-based word sense disambiguation using measures of word semantic similarity[C]// Proceedings of the IEEE International Conference on Semantic Computing, 2007:363-369.

[9] Agirre E., Soroa A. Personalizing PageRank for word sense disambiguation[C]// Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, 2009:33-41.

[10] Yarowsky D. Unsupervised Word-Sense Disambiguation Rival Supervised Methods[C]// Proceeding of the 33rd Annual Meeting of the Association for Computational Linguistics, 1995:189-196.

[11] Jin P. Li F., Zhu D., et al. Exploiting External Knowledge Sources to Improve Kernel-based Word Sense Disambiguation[C]// Proceedings of IEEE International Conference on Natural Language Processing and Knowledge Engineering, 2008:222-227.

[12] 石民，李斌，陳小荷. 基于CRF的先秦漢語(yǔ)分詞標(biāo)注一體化研究[J]，中文信息學(xué)報(bào)，2010，2: 39-45.

[13] Manning C, Raghavan P, Schütze H. An introduction to Information Retrieval[M]. Cambridge, England: Cambridge University Press, 2007: 210-211.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡