張穎杰,李 斌,,陳家駿,陳小荷
(1. 南京大學(xué) 計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210093;2. 南京師范大學(xué) 語(yǔ)言信息科技研究中心,江蘇 南京 210097)
詞義消歧(Word Sense Disambiguation, WSD)是在特定的上下文中為指定的詞自動(dòng)選擇合適詞義的過(guò)程,也稱(chēng)為自動(dòng)詞義標(biāo)注。在主流的詞義消歧方法中,有指導(dǎo)方法的效果最好[1],但需要較大的人工標(biāo)注數(shù)據(jù)集,并且其結(jié)果對(duì)訓(xùn)練數(shù)據(jù)集有很強(qiáng)的依賴(lài)性,泛化能力較差。相對(duì)而言,基于知識(shí)的方法,將詞語(yǔ)在詞典中的義項(xiàng)數(shù)作為類(lèi)別數(shù),將詞典對(duì)詞語(yǔ)的解釋和例句作為義項(xiàng)出現(xiàn)的語(yǔ)境信息,雖然受限于詞典規(guī)模,其效果通常不如有指導(dǎo)的方法,但是在一定程度上減少了對(duì)人工標(biāo)記數(shù)據(jù)的依賴(lài)性,義項(xiàng)標(biāo)注的覆蓋率較高,在缺乏人工標(biāo)注數(shù)據(jù)集的情況下,可以提供初始的自動(dòng)標(biāo)注結(jié)果。
目前,古漢語(yǔ)的詞義自動(dòng)標(biāo)注工作還處于起步階段,在資源和技術(shù)上都呈稀缺狀態(tài)。對(duì)于經(jīng)典傳世之作,雖有歷代學(xué)者的大量注疏,但這些注疏并不是在同一個(gè)釋義詞典或語(yǔ)義體系的基礎(chǔ)上進(jìn)行的。目前較為實(shí)用的、能夠服務(wù)于古漢語(yǔ)文獻(xiàn)詞義標(biāo)注的詞典是《漢語(yǔ)大詞典2.0》(后文簡(jiǎn)稱(chēng)為《大詞典》)[2]。該詞典收詞目30余萬(wàn)條,給出了詞語(yǔ)的古今義項(xiàng)和最早用例,是一本質(zhì)量高、釋義豐富的大型語(yǔ)文詞典。文獻(xiàn)[3]介紹了采用《大詞典》為主要的釋義詞典,人工逐詞標(biāo)注古籍義項(xiàng)以構(gòu)建中古漢語(yǔ)研究型語(yǔ)料庫(kù)的工作,工作量特別巨大。因此,研究古漢語(yǔ)義項(xiàng)的自動(dòng)標(biāo)注方法,已經(jīng)成為了中國(guó)古典文學(xué)和文獻(xiàn)研究的重要而迫切的需求。
對(duì)于缺乏訓(xùn)練數(shù)據(jù)的古漢語(yǔ)的詞義標(biāo)注來(lái)說(shuō),有指導(dǎo)的方法難以直接使用。在本文中,我們利用詞典信息作為知識(shí)來(lái)源,采用了基于半指導(dǎo)方法的全文詞義標(biāo)注方法,對(duì)《左傳》進(jìn)行了標(biāo)注實(shí)驗(yàn),人工抽樣的統(tǒng)計(jì)結(jié)果顯示,該方法的平均準(zhǔn)確率遠(yuǎn)高于系統(tǒng)基線,能夠在古漢語(yǔ)全文詞義標(biāo)注的起步階段提供初始結(jié)果,為人工標(biāo)注詞語(yǔ)義項(xiàng)提供良好的數(shù)據(jù)底本。
本文后續(xù)部分結(jié)構(gòu)如下,第二節(jié)介紹了古漢語(yǔ)詞義標(biāo)注的相關(guān)研究;第三節(jié)介紹了本文使用的全文詞義標(biāo)注方法;第四節(jié)說(shuō)明了實(shí)驗(yàn)的設(shè)計(jì)和結(jié)果分析;第五節(jié)給出了我們的結(jié)論及后續(xù)的研究工作。
目前在古漢語(yǔ)的義項(xiàng)標(biāo)注方面研究較少。文獻(xiàn)[4]首先分析了古漢語(yǔ)詞義義項(xiàng)的分布情況與特點(diǎn),考察了詞義消歧的難點(diǎn)。然后在現(xiàn)有的詞義消歧理論和方法的基礎(chǔ)上,基于條件隨機(jī)場(chǎng),選擇上下文的詞及其詞性的復(fù)合特征,并加入其他語(yǔ)言學(xué)特征,設(shè)計(jì)6個(gè)不同的模板,對(duì)“將”、“如”等7個(gè)古漢語(yǔ)高頻詞進(jìn)行了詞義消歧實(shí)驗(yàn),平均F值達(dá)到了83.04%。不過(guò),該方法使用的詞典是《春秋左傳詞典》,不適用于其他先秦語(yǔ)料的詞義標(biāo)注,缺乏一般性。因?yàn)槲墨I(xiàn)[4]采用的是有指導(dǎo)方法,需要預(yù)標(biāo)注大量訓(xùn)練樣本,代價(jià)太高,泛化能力有限。
對(duì)于任意語(yǔ)言的詞義標(biāo)注,最簡(jiǎn)單的基于詞典的方法是通過(guò)計(jì)算目標(biāo)詞的定義及其所在的上下文之間重疊的詞數(shù)來(lái)確定詞義[5]。
scoreLeskVar(S)=|context(w)∩gloss(S)|
S表示某個(gè)特定的詞義,w為待標(biāo)注的詞,context(w)表示w所在的上下文,gloss(S)為詞義的定義。這種方法主要局限在于詞典中的定義通常比較簡(jiǎn)潔,未必能包含足夠的能標(biāo)識(shí)當(dāng)前詞義的詞匯[6]。
隨著包含分類(lèi)和語(yǔ)義關(guān)系的本體詞典的廣泛使用(如WordNet),基于詞典的WSD研究中也出現(xiàn)了依賴(lài)于這些詞典中結(jié)構(gòu)化信息的結(jié)構(gòu)化方法,主要有基于相似度計(jì)算的方法[7]和基于圖的方法[8-9]兩類(lèi)?;谙嗨贫扔?jì)算的方法比較目標(biāo)詞的各個(gè)詞義與文本中其他詞之間的語(yǔ)義相似度,從中選擇使得下式結(jié)果最高的詞義。
基于圖的方法通常把全文表示成一個(gè)以詞義為結(jié)點(diǎn)、語(yǔ)義關(guān)系為邊的圖結(jié)構(gòu),通過(guò)隨機(jī)游走等方法確定節(jié)點(diǎn)的得分,從而得到最終的詞義。近年來(lái)針對(duì)英語(yǔ)或現(xiàn)代漢語(yǔ)的全文標(biāo)注主要就用了這一類(lèi)的方法。
然而,對(duì)于古漢語(yǔ)這一特殊的應(yīng)用領(lǐng)域,很難使用結(jié)構(gòu)化方法。首先,古漢語(yǔ)的結(jié)構(gòu)化詞典資源缺乏。在漢語(yǔ)中運(yùn)用廣泛的《同義詞詞林》和HowNet中的概念描寫(xiě)和分類(lèi)主要針對(duì)現(xiàn)代漢語(yǔ),由于古今異義等原因,無(wú)法直接用來(lái)計(jì)算古漢語(yǔ)詞語(yǔ)間的相似度。其次,結(jié)構(gòu)化方法通常嚴(yán)格的遵守一個(gè)前提,即“一段一義”[9],用來(lái)構(gòu)成圖的段落中相同的詞最后將會(huì)被標(biāo)注上同一個(gè)詞義。但是古漢語(yǔ)詞類(lèi)活用現(xiàn)象比較頻繁,同樣的詞在同一段落中表現(xiàn)出多種不同的詞義是常見(jiàn)的現(xiàn)象,一般來(lái)講很難滿足這樣的前提。
考慮到以上問(wèn)題,本文利用現(xiàn)有的古漢語(yǔ)詞典資源,采用了一種半指導(dǎo)方法,對(duì)大量的古漢語(yǔ)語(yǔ)料實(shí)現(xiàn)了全文詞義標(biāo)注,對(duì)其性能進(jìn)行抽樣驗(yàn)證和分析。
本文的半指導(dǎo)方法沿用了文獻(xiàn)[9]提出的一種通過(guò)極少量人工標(biāo)注語(yǔ)料來(lái)進(jìn)行大量詞義標(biāo)注的方法,并根據(jù)古漢語(yǔ)特點(diǎn)和《大詞典》釋義方式進(jìn)行了調(diào)整和優(yōu)化。
在Yarowsky的研究要求每個(gè)詞只有兩個(gè)義項(xiàng)[10]。該方法首先對(duì)每一個(gè)需要標(biāo)注詞義的二義詞建立上下文列表U。其次,對(duì)該詞的每個(gè)可能詞義,手動(dòng)標(biāo)記一個(gè)包含典型搭配信息的可信小訓(xùn)練集seed,根據(jù)“一個(gè)搭配一種含義”的先決條件給出表示搭配信息的決策表。該可信小訓(xùn)練集對(duì)于每個(gè)含義只包含了一種搭配情況。再次,在seed上訓(xùn)練決策表分類(lèi)模型,并將其用于待標(biāo)注集的分類(lèi),將所有概率超過(guò)既定閾值的結(jié)果增加到seed中,同時(shí)根據(jù)“一段一義”的約束條件擴(kuò)充seed,剩余用例仍作為待標(biāo)注集用于下一次的迭代。重復(fù)此過(guò)程至結(jié)果收斂,即所有未標(biāo)注用例的分類(lèi)結(jié)果概率均在閾值以下。最后,為剩余用例標(biāo)注結(jié)果。
具體流程可表示如圖1。
圖1 Yarowsky方法的流程圖
在本文中針對(duì)古漢語(yǔ)全文詞義標(biāo)注需要考慮的下述多個(gè)方面,對(duì)Yarowsky的方法作出一定的改進(jìn),使之適用于古漢語(yǔ)這一特殊應(yīng)用對(duì)象和《大詞典》的釋義方式。
(1) 詞義粒度。本文中待標(biāo)注詞的詞義不只兩項(xiàng),而是根據(jù)詞典中的義項(xiàng)來(lái)確定。詞典中凡是具有來(lái)自先秦文獻(xiàn)的例句的義項(xiàng),均被用來(lái)作為詞義集合的一個(gè)元素。
(2) 特征選擇。這里不止采用一種搭配信息,而是選取了詞形、詞性的一元特征和兩者搭配的二元特征,如表1所示。有研究表明,二元特征窗口增大反而降低詞性標(biāo)注結(jié)果的準(zhǔn)確性[4],因此對(duì)于二元特征,僅使用前后大小為1的窗口。
表1:特征選擇
由于“一段一義”的約束條件并不完全適用于古漢語(yǔ),尤其對(duì)一些義項(xiàng)較多、應(yīng)用情況靈活的高頻詞。因此,本文降低其強(qiáng)制性,僅將待標(biāo)注詞所在的段落編號(hào)作為一個(gè)特征進(jìn)行考慮。
(3) 可信小訓(xùn)練集的選取。本文中不使用手動(dòng)標(biāo)注的方式,而是根據(jù)詞典信息自動(dòng)得到。由于古漢語(yǔ)詞典中的釋義通常用現(xiàn)代漢語(yǔ)表示,兩者的上下文在形式和內(nèi)容上差別較大,不能直接使用。而詞典中除了釋義外通常還包含一些例句,這些例句一般都具有典型性,且能保證其與詞義對(duì)應(yīng)的準(zhǔn)確性,故而我們通過(guò)這些例句得到標(biāo)注之初所需的seed。
(4) 迭代過(guò)程。在Yarowsky的方法中每次迭代的過(guò)程都將所有高于閾值的分類(lèi)結(jié)果加入seed中。而本文在每一輪分類(lèi)結(jié)束后僅加入概率最大且大于閾值的結(jié)果用于下一輪分類(lèi)。對(duì)于迭代過(guò)程的終止條件則分別考察設(shè)閾值和不設(shè)閾值(即閾值為0)兩種情況對(duì)結(jié)果的影響。
(5) 方法選擇。由于本文中所用的特征不再是單一的搭配信息,故而也不再使用簡(jiǎn)單的決策表,而改用了SVM的方法,其核函數(shù)使用了默認(rèn)的線性核[11]。
本文將人工完成了分詞和詞性標(biāo)注的18萬(wàn)字《左傳》作為實(shí)驗(yàn)語(yǔ)料[12],對(duì)其中的4 671個(gè)實(shí)詞共11萬(wàn)個(gè)詞例進(jìn)行了詞義標(biāo)注。這些實(shí)詞中有635個(gè)多音詞,占待標(biāo)注詞的13.6%。
知識(shí)來(lái)源采用了《大詞典》,該詞典對(duì)詞的釋義中涵蓋了從古至今所出現(xiàn)過(guò)的幾乎所有詞義,并給出了詞典編纂者認(rèn)定的詞義最早的文獻(xiàn)出處及例句。
以“忘”為例,其在詞典中第一個(gè)讀音的釋義如圖2所示。
忘1 [wànɡ ㄨㄤˋ]
[《廣韻》巫放切,去漾,微。]
1.忘記;不記得。《詩(shī)·小雅·隰?!罚骸爸行牟刂?,何日忘之?!薄端抉R法·仁本》:“天下雖安,忘戰(zhàn)必危?!?宋 曾鞏 《尚書(shū)都官員外郎陳君墓志銘》:“ 泉州 歲兇,君築室止窮民,飢者給食,病者給醫(yī),人忘其窮?!?周恩來(lái) 《致柯棣華大夫家屬的慰問(wèn)信》:“我們受惠于他的極多,使我們永不能忘?!?.指健忘癥?!读凶印ぶ苣峦酢罚骸?宋 陽(yáng)里華子 中年病忘?!?.遺棄;不顧念?!对?shī)·秦風(fēng)·晨風(fēng)》:“如何,如何!忘我實(shí)多。” 馬瑞辰 通釋?zhuān)骸巴覍?shí)多,猶云棄我實(shí)甚?!薄肚f子·山木》:“覩一蟬,方得美蔭而忘其身;螳蜋執(zhí)翳而搏之,見(jiàn)得而忘其形?!薄夺釢h書(shū)·宋弘傳》:“貧賤之知不可忘。”4.玩忽,怠忽。《史記·孔子世家》:“昔 武王 克 商 ,道通九夷百蠻,使各以其方賄來(lái)貢,無(wú)使忘職業(yè)?!?唐 韓愈 《潮州祭神文》之四:“惟神之恩,夙夜不敢忘怠?!?.無(wú)?!妒酚洝っ蠂L君列傳》:“日暮之後,過(guò)市朝者掉臂而不顧。非好朝而惡暮,所期物忘其中?!?司馬貞 索隱:“忘者,無(wú)也。其中,市朝之中。言日暮物盡,故掉臂不顧也?!薄妒酚洝て浇蚝钪鞲噶袀鳌罚骸?高皇帝 蓋悔之甚,乃使 劉敬 往結(jié)和親之約,然後天下忘干戈之事?!?.通“ 妄 ”。《老子》:“不知常,忘作,兇?!?朱謙之 校釋?zhuān)骸巴?、妄古通?!薄俄n非子·解老》:“前識(shí)者,無(wú)緣而忘意度也?!?王先慎 集解:“忘與妄通。”
注:下劃線的內(nèi)容表示出處,根據(jù)出處就可以得到例句出現(xiàn)的年代
圖2 “忘”的第一個(gè)讀音在《大詞典》中的釋義表示
(1) 根據(jù)年代篩選義項(xiàng)。由于《大詞典》收錄的義項(xiàng)非常豐富,每個(gè)詞語(yǔ)的義項(xiàng)往往多達(dá)數(shù)十條,這對(duì)于詞義自動(dòng)消歧是非常困難的,因此需要對(duì)義項(xiàng)和例句進(jìn)行年代的篩選??紤]到先秦時(shí)代時(shí)期較長(zhǎng)、詞義也無(wú)法完全由《大詞典》的《左傳》出處涵蓋。我們根據(jù)60多種先秦文獻(xiàn)的名稱(chēng)(如《左傳》、《論語(yǔ)》等)對(duì)義項(xiàng)進(jìn)行時(shí)代篩選,保證了用于標(biāo)注的義項(xiàng)均有可能出現(xiàn)在先秦文獻(xiàn)中,剔除了大部分不可能出現(xiàn)的詞義。篩選后的義項(xiàng)被稱(chēng)為該詞的先秦義項(xiàng)。如圖2所示:“忘1”的第四個(gè)釋義“玩忽”和第五個(gè)釋義“無(wú)”最初都是在漢代的《史記》中出現(xiàn)的,故這兩個(gè)義項(xiàng)不包含在我們要分類(lèi)的義項(xiàng)列表中。而第一個(gè)釋義“忘記”的例句除了來(lái)自于先秦文獻(xiàn)《詩(shī)經(jīng)》和《司馬法》以外,還有的選自宋代和現(xiàn)代的文章,本文中所用的上下文信息僅從前兩者中提取。
(2) 詞典例句的詞性標(biāo)注。為了得到最初的種子訓(xùn)練集,實(shí)驗(yàn)利用南京師范大學(xué)開(kāi)發(fā)的先秦古漢語(yǔ)的詞性標(biāo)注工具[3]對(duì)這些例句進(jìn)行分詞和詞性標(biāo)注,該工具在左傳上的分詞和詞性標(biāo)注F值均超過(guò)90%。然后通過(guò)詞典中給出的拼音和釋義信息,得到用于訓(xùn)練的上下文特征。由于這些上下文特征來(lái)自于詞典中的例句,因而此種子訓(xùn)練集的標(biāo)注結(jié)果是可信的,其特征也具有典型性,保證了它對(duì)詞義標(biāo)注的指示作用。
漢語(yǔ)中包含了很多的多音詞,同一個(gè)詞的不同讀音含義差別較大,甚至有時(shí)可以看作兩個(gè)不同的詞來(lái)處理。因此本文在標(biāo)注過(guò)程中針對(duì)多音詞分別使用“直接標(biāo)注詞義”和“先標(biāo)音再標(biāo)義”兩種標(biāo)注方法,來(lái)考察區(qū)分讀音對(duì)古漢語(yǔ)詞義自動(dòng)標(biāo)注效果的影響。
(1) 直接標(biāo)注詞義(Tag Sense Straightly, TSS)
根據(jù)詞典得到待標(biāo)注詞的詞義列表{senseik},i=1,2,…,n,k=1,2,…,ni,N=∑ni,n為拼音的數(shù)目,ni為拼音i下的義項(xiàng)數(shù)目,N為待標(biāo)注詞的總義項(xiàng)數(shù)。執(zhí)行圖3的過(guò)程,最終為中的所有條目標(biāo)上詞義。
(2) 先標(biāo)音再標(biāo)義(Tag Pinyin before Sense, TPBS)
首先自動(dòng)標(biāo)注讀音。根據(jù)詞典得到待標(biāo)注詞的讀音列表{Pi},i=1,2,…,n,n為讀音的數(shù)目。執(zhí)行圖3的過(guò)程,為S中的所有條目標(biāo)上拼音Pi。
然后根據(jù)讀音的標(biāo)注結(jié)果將原待標(biāo)注集S分塊成為S1,S2,…,Sn,n表示該目標(biāo)詞拼音的數(shù)目,同一個(gè)分塊Si中的目標(biāo)詞都具有相同的讀音。同樣原可信訓(xùn)練集seed也根據(jù)讀音分類(lèi)成為seed1,seed2,…,seedn。
最后自動(dòng)標(biāo)注詞義。針對(duì)每個(gè)Si,根據(jù)seedi再次執(zhí)行圖3的過(guò)程,得到最終的詞義標(biāo)注結(jié)果senseik,i=1,2,…,n,k=1,2,…,ni,n為讀音的數(shù)目,ni為讀音Pi中義項(xiàng)的數(shù)目。
圖3 本文中半指導(dǎo)學(xué)習(xí)的流程圖
本文中設(shè)定了兩條基線用于對(duì)比實(shí)驗(yàn)結(jié)果。由于《大詞典》中是將常用的讀音排在前面,而第一個(gè)釋義通常是該詞的本意或常用義,因此本文將目標(biāo)詞根據(jù)年代篩選釋義后的第一個(gè)讀音的第一個(gè)詞義和第二個(gè)詞義分別作為標(biāo)注結(jié)果的baseline1和baseline2。
自動(dòng)標(biāo)注完成后,由于標(biāo)注數(shù)據(jù)量大,且對(duì)于這些數(shù)據(jù)原先并不存在已知的正確結(jié)果,故而我們根據(jù)標(biāo)注數(shù)據(jù)在原文中的詞頻及其在詞典中的詞義數(shù)量分布從4 671個(gè)待標(biāo)注詞中抽取了22個(gè)樣本,人工檢查其結(jié)果進(jìn)行評(píng)測(cè)。表2給出了測(cè)試樣本在《大詞典》中的詞典義項(xiàng)數(shù)、讀音數(shù)、先秦義項(xiàng)數(shù)、《左傳》中的詞頻,并按照先秦義項(xiàng)數(shù)降序排列。這些詞在《左傳》中的詞頻從1到1 124不等,義項(xiàng)數(shù)最少為2,最多有13種,其中包含了5個(gè)多音詞。表3則給出了這些詞語(yǔ)的評(píng)測(cè)結(jié)果。
表2 評(píng)測(cè)抽樣詞語(yǔ)信息
根據(jù)表3,我們發(fā)現(xiàn)不關(guān)注讀音直接標(biāo)注詞義在平均值上取得了最好的效果,其宏平均和微平均[13]準(zhǔn)確率分別達(dá)到了67.15%和49.09%。分析實(shí)驗(yàn)結(jié)果我們討論以下幾個(gè)方面。
表3 抽樣標(biāo)注結(jié)果準(zhǔn)確率[0,1],t表示設(shè)定了閾值
(1) 低頻詞的詞義標(biāo)注。對(duì)于《左傳》中的低頻詞,如果在大詞典包含了出自《左傳》的例句,即使義項(xiàng)數(shù)較多,也可以得到較好的結(jié)果。而當(dāng)其在詞典中的義項(xiàng)數(shù)目多且相應(yīng)的例句出處并非《左傳》或者語(yǔ)言與《左傳》差別較大時(shí),該詞的釋義很難被準(zhǔn)確標(biāo)出。
例如,“缶”、“拊”、“區(qū)”、“繩”、“饘”和“珍”等詞雖然在《左傳》中只出現(xiàn)了一到兩次,但由于詞典中用于說(shuō)明其釋義的例句正是由《左傳》而來(lái),故而我們根據(jù)例句得到的上下文對(duì)于這些詞的自動(dòng)詞義標(biāo)注具有很強(qiáng)的指示性,使得結(jié)果的準(zhǔn)確率比較高。同樣作為低頻詞的“負(fù)”在本次的抽樣結(jié)果中標(biāo)注效果很差。“負(fù)”在《左傳》中的詞頻僅有一次,使得它在自動(dòng)標(biāo)注時(shí)從客觀情況上無(wú)法進(jìn)行迭代的過(guò)程,只能通過(guò)例句給出的上下文來(lái)判斷。而在詞典中“負(fù)”的先秦義項(xiàng)有13項(xiàng)之多,且其中沒(méi)有出現(xiàn)出自《左傳》的例句,尤其是標(biāo)示其正確釋義的例句出自與《左傳》語(yǔ)言差別很大的《詩(shī)經(jīng)》,由此得到的種子上下文難以為該詞的詞義標(biāo)注做出正確的指引。
(2) 詞典中義項(xiàng)區(qū)分度對(duì)結(jié)果的影響。對(duì)于詞典中不同的義項(xiàng)間用法、語(yǔ)義或詞性區(qū)分度高的待標(biāo)注詞,不論其在《左傳》中詞頻高低,均能取得較好的標(biāo)注效果。例如,“對(duì)”、“戰(zhàn)”和“竹”,它們的詞頻有高有低,詞典中的義項(xiàng)數(shù)有多有少,但這些義項(xiàng)間均存在明顯的區(qū)別,因此,這3個(gè)詞的詞義標(biāo)注結(jié)果也取得了較好的效果。同樣作為高頻詞的“叛”,由于它的兩個(gè)釋義在詞性上有很明顯的區(qū)分,因此標(biāo)注的準(zhǔn)確率達(dá)到了100%。
而當(dāng)詞典中存在釋義間的“不平等”關(guān)系或義項(xiàng)粒度過(guò)細(xì)時(shí),則會(huì)導(dǎo)致詞義的錯(cuò)誤標(biāo)注。這時(shí)閾值的加入可以防止迭代過(guò)程中錯(cuò)誤分類(lèi)的蔓延,提高結(jié)果的準(zhǔn)確率。例如,“戕”在詞典中的第三個(gè)釋義為“他國(guó)之臣?xì)⒈緡?guó)君主”,要判斷這一點(diǎn)需要有一些外在的先驗(yàn)知識(shí),僅從局部上下文是很難分出該詞義與釋義一“殘害,殺害”的區(qū)別,甚至可以認(rèn)為釋義三是釋義一的一種特例,這也是導(dǎo)致了“戕”唯一的一個(gè)錯(cuò)標(biāo)。又如“災(zāi)”有兩個(gè)義項(xiàng)分別為“特指火災(zāi)”和“泛指災(zāi)害”,在自動(dòng)標(biāo)注時(shí)難以將“泛指”從“特指”中區(qū)分開(kāi)來(lái),但在設(shè)定閾值的情況下準(zhǔn)確率有了顯著的提高。
(3) 詞典中例句的分布對(duì)結(jié)果的影響?!洞笤~典》中對(duì)于一個(gè)詞的每個(gè)義項(xiàng)給出的例句數(shù)量比較隨意,并沒(méi)有給予常用義更高的“權(quán)重”。這在詞義粒度細(xì)、區(qū)分度不高的情況下,為詞義的自動(dòng)標(biāo)注帶來(lái)了很大的困難,導(dǎo)致了結(jié)果的低準(zhǔn)確率。例如,“逆”和“告”,義項(xiàng)數(shù)目均在十個(gè)以上,而表示其常用義的例句都只有一句,反而是有些不常用的釋義被用了更多的例句來(lái)說(shuō)明,最終的標(biāo)注準(zhǔn)確率都降到了baseline1以下。
(4) 讀音對(duì)多音詞詞義標(biāo)注的影響。對(duì)于義項(xiàng)數(shù)目分布不平均的多音詞,先區(qū)分拼音后區(qū)分詞義的過(guò)程對(duì)提高詞義標(biāo)注的準(zhǔn)確率的意義不大,甚至可能起到反作用。例如,“告”,由于seed中表示第一種拼音的例句遠(yuǎn)比第二種拼音多,使得分類(lèi)結(jié)果更偏向于標(biāo)注為第一種讀音,以至于沒(méi)有能正確的把拼音二區(qū)分開(kāi)來(lái),從而對(duì)最終的標(biāo)義的準(zhǔn)確性起了反作用。
綜上所述,在利用《大詞典》進(jìn)行古漢語(yǔ)的詞義自動(dòng)標(biāo)注時(shí),對(duì)于詞頻低且在詞典中包含了所標(biāo)文獻(xiàn)的例句時(shí),即使釋義的條目較多,也可能得到較好的結(jié)果。對(duì)于釋義間有明確的詞性差別的待標(biāo)注詞也能給出比較正確的結(jié)果。對(duì)于是多音詞的待標(biāo)注詞而言,只有當(dāng)其不同的讀音間釋義數(shù)目分布平均時(shí),先標(biāo)讀音后標(biāo)詞義的兩步過(guò)程才更有意義。對(duì)于終止迭代過(guò)程的條件中所使用的閾值問(wèn)題,當(dāng)待標(biāo)注詞含義豐富,且詞頻較高時(shí),加入閾值可以在一定程度上減少誤標(biāo)。另外,我們也從實(shí)驗(yàn)中發(fā)現(xiàn)了《大詞典》本身的釋義粒度有時(shí)過(guò)細(xì)或者兩個(gè)釋義存在“泛指”和“特指”的關(guān)系,這為我們的自動(dòng)標(biāo)注詞義過(guò)程帶來(lái)了很大的困難。
本文針對(duì)先秦古漢語(yǔ)這一特殊的文本對(duì)象,將WSD的過(guò)程分為先區(qū)分讀音后區(qū)分具體詞義這兩個(gè)步驟。實(shí)驗(yàn)過(guò)程使用了《大詞典》為知識(shí)來(lái)源,《左傳》作為測(cè)試語(yǔ)料,采用了基于支持向量機(jī)(SVM)的半指導(dǎo)方法。微平均和宏平均正確率分別達(dá)到49.09%和67.15%。對(duì)于義項(xiàng)區(qū)分度較大、用例相近的詞語(yǔ),自動(dòng)標(biāo)注的效果可以達(dá)到95%以上。對(duì)于義項(xiàng)區(qū)分度低、《大詞典》用例差異大的詞語(yǔ),效果還不太理想。在我們同時(shí)開(kāi)發(fā)的人機(jī)交互式義項(xiàng)標(biāo)注平臺(tái)的輔助下,可以作為人工標(biāo)注的良好初始結(jié)果,服務(wù)于古漢語(yǔ)詞義標(biāo)注語(yǔ)料庫(kù)的建設(shè)。
在今后的工作中我們考慮從以下幾方面對(duì)本文的工作進(jìn)行改進(jìn):(1)加入更多語(yǔ)言信息,如句法結(jié)構(gòu)、語(yǔ)義角色、依存分析等,并加入特征選擇的過(guò)程,進(jìn)一步提高詞義標(biāo)注的效果; (2)利用較為豐富的歷代注疏文獻(xiàn)和驗(yàn)證指導(dǎo)學(xué)習(xí)方法的自動(dòng)標(biāo)注結(jié)果,同時(shí)提高全詞標(biāo)注的效果; (3)將詞義列表根據(jù)待標(biāo)注詞在不同釋義上的詞性不同分類(lèi),來(lái)減小自動(dòng)標(biāo)注的難度。
[1] Pradhan, S., Loper, E., Dligach, D., et al. Semeval-2007 task-17: English lexical sample srl and all words[C]// Proceedings of SemEval-2007, ACL, 2007, 87-92.
[2] 漢語(yǔ)大詞典2.0[CD]. 商務(wù)印書(shū)館(香港). 2005.
[3] 董志翹.為中古漢語(yǔ)研究夯實(shí)基礎(chǔ)[J].燕山大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2011,12(1):1-6.
[4] 于麗麗,丁德鑫,曲維光,等. 基于條件隨機(jī)場(chǎng)的古漢語(yǔ)詞義消歧研究[J].微電子學(xué)與計(jì)算機(jī),2009,10: 45-48.
[5] Lesk. M. Automatic sense disambiguation using machine readable dictionaries: how to tell a pinecone from an ice cream cone[C]// Proceedings of the 5th annual international conference on Systems documentation, 1986:24-26.
[6] Patwardhan, S., Banerjee, S., Pedersen, T. Using measures of Semantic Relatedness for Word Sense Disambiguation[C]// Proceedings of CICLing, 2003:241-257.
[7] Pedersen, T., Banerjee, S., Patwardhan, S. Maximizing semantic relatedness to perform word sense disambiguation[R]. Minneaplis: University of Minnesota Supercomputing Institute, Res. rep: UMSI 2005/25, 2005.
[8] Sinha, R., Mihalcea, R. Unsupervised graph-based word sense disambiguation using measures of word semantic similarity[C]// Proceedings of the IEEE International Conference on Semantic Computing, 2007:363-369.
[9] Agirre E., Soroa A. Personalizing PageRank for word sense disambiguation[C]// Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics, 2009:33-41.
[10] Yarowsky D. Unsupervised Word-Sense Disambiguation Rival Supervised Methods[C]// Proceeding of the 33rd Annual Meeting of the Association for Computational Linguistics, 1995:189-196.
[11] Jin P. Li F., Zhu D., et al. Exploiting External Knowledge Sources to Improve Kernel-based Word Sense Disambiguation[C]// Proceedings of IEEE International Conference on Natural Language Processing and Knowledge Engineering, 2008:222-227.
[12] 石民,李斌,陳小荷. 基于CRF的先秦漢語(yǔ)分詞標(biāo)注一體化研究[J],中文信息學(xué)報(bào),2010,2: 39-45.
[13] Manning C, Raghavan P, Schütze H. An introduction to Information Retrieval[M]. Cambridge, England: Cambridge University Press, 2007: 210-211.