劉筱杉
(武漢大學(xué)文學(xué)院,湖北 武漢 430072)
所謂多義詞,從語(yǔ)言信息處理的角度來(lái)看,就是“書(shū)寫(xiě)形式相同的一個(gè)詞形表示了兩個(gè)或多個(gè)不同的意義,即形與義形成了一對(duì)多的映射關(guān)系”[1]127。在語(yǔ)料庫(kù)詞義標(biāo)注中,多是以傳統(tǒng)詞典中的義項(xiàng)劃分作為重要依據(jù)的,但詞典編纂中,由于人在區(qū)分義項(xiàng)時(shí)往往過(guò)于追求概念上的細(xì)微差別,使得義項(xiàng)粒度過(guò)于精細(xì),超越了計(jì)算機(jī)的識(shí)別能力,進(jìn)而給詞義的自動(dòng)標(biāo)注帶來(lái)困難。例如,《現(xiàn)代漢語(yǔ)詞典》中,關(guān)于“大暴雨”一詞有兩個(gè)義項(xiàng)的描述:
[大暴雨]①指下得很大的暴雨。②氣象學(xué)上指24小時(shí)內(nèi)雨量達(dá)100—199.9毫米,或12小時(shí)內(nèi)雨量達(dá)70—139.9毫米的雨。①若無(wú)特別說(shuō)明,文中所引詞義注釋均出自《現(xiàn)代漢語(yǔ)詞典》(第6版),北京:商務(wù)印書(shū)館,2012年。文中語(yǔ)料均引自CCL語(yǔ)料庫(kù)(網(wǎng)絡(luò)版)。
義項(xiàng)①是泛指義,義項(xiàng)②是特指義,詞義表達(dá)也很清楚,但是在詞義標(biāo)注時(shí),例如:“珠江三角洲部分地方6日也下了224.8 毫米的大暴雨,并出現(xiàn)9級(jí)大風(fēng)?!奔瓤梢赃x擇外延大的義項(xiàng)①,因?yàn)楸┯瓴粌H大,而且降雨量超過(guò)了氣象學(xué)上的“199.9 毫米”;也可以選擇外延小的義項(xiàng)②,因?yàn)榧热挥炅窟_(dá)199.9毫米是氣象學(xué)上認(rèn)定的大暴雨,那么比它大的224.8毫米理所當(dāng)然也符合要求,造成選擇難的原因在于義項(xiàng)②被表泛指的義項(xiàng)①所包含。而詞義標(biāo)注又必須要給真實(shí)語(yǔ)料中的每個(gè)詞選擇并標(biāo)示一個(gè)確定的義項(xiàng),由此可見(jiàn),傳統(tǒng)詞典中的義項(xiàng)劃分并非完全適用于計(jì)算機(jī)。
以上是詞義自動(dòng)標(biāo)注在知識(shí)資源上存在的問(wèn)題。若從標(biāo)注實(shí)踐來(lái)看,這是否意味著高準(zhǔn)確率的詞義標(biāo)注無(wú)法實(shí)現(xiàn)?若否,又是否有新的解決途徑?能否直接從具體語(yǔ)料出發(fā),根據(jù)多義詞在真實(shí)語(yǔ)料庫(kù)中的使用及分布,去建構(gòu)能被計(jì)算機(jī)所識(shí)別的、形式化的、規(guī)則化的區(qū)別性特征?然后再利用所建構(gòu)的區(qū)別性特征,對(duì)詞典中不合理的義項(xiàng)劃分粒度進(jìn)行調(diào)整?這樣既能確保詞義標(biāo)注高準(zhǔn)確率的實(shí)現(xiàn),也解決了其在知識(shí)資源上的問(wèn)題。但關(guān)鍵是,該如何提取有效的區(qū)別性特征?盡管有不少學(xué)者在這方面進(jìn)行過(guò)研究,但他們?cè)谔崛^(qū)別性特征時(shí)各有側(cè)重,總的來(lái)說(shuō),缺乏一定的系統(tǒng)性、層級(jí)性。在前賢研究的基礎(chǔ)上,我們嘗試從真實(shí)的語(yǔ)料出發(fā),根據(jù)多義詞不同義項(xiàng)在詞類、句法組合、語(yǔ)義搭配上的差異,對(duì)多義詞義項(xiàng)的區(qū)別性特征進(jìn)行更為合理、全面的建構(gòu),以提高詞義標(biāo)注的準(zhǔn)確率。
在詞義標(biāo)注研究領(lǐng)域,學(xué)者們提出了義項(xiàng)粒度的概念,認(rèn)為細(xì)粒度(fine-grained)和粗粒度(coarse-grained)與多義詞的義項(xiàng)區(qū)分密切相關(guān),直接影響到詞義標(biāo)注的正確程度。Ide & Véronis認(rèn)為,“傳統(tǒng)語(yǔ)文詞典的義項(xiàng)切分粒度過(guò)小,導(dǎo)致有些多義詞義項(xiàng)超出了自然語(yǔ)言處理的需求,增加了詞義標(biāo)注的難度?!盫eronis 通過(guò)實(shí)驗(yàn)分析,將詞義標(biāo)注不一致的原因總結(jié)為三點(diǎn):“1)詞典的釋義中能被計(jì)算機(jī)用于判斷的線索較少;2)詞典的義項(xiàng)區(qū)分沒(méi)有充分考慮到實(shí)際運(yùn)用中的詞義布分;3)義項(xiàng)之間過(guò)于模糊,導(dǎo)致區(qū)別信息缺乏”。吳云芳、俞士汶指出:“信息處理用詞語(yǔ)義項(xiàng)區(qū)分應(yīng)對(duì)所標(biāo)注的語(yǔ)料具有‘完備性’”[1]128;并且還要求“義項(xiàng)的區(qū)分具有‘離散和不相交’的特性,即在意義分析系統(tǒng)中不同義項(xiàng)之間是離散的”[1]129。肖航認(rèn)為:“詞典中多義詞的義項(xiàng)之間存在重疊、相離、包含等關(guān)系,這些關(guān)系影響著詞義的準(zhǔn)確區(qū)分,具體表現(xiàn)為詞義區(qū)分線索不足、義項(xiàng)缺失等,義項(xiàng)劃分顆粒度是否適當(dāng)及義項(xiàng)間是否有足夠區(qū)分特征直接決定著詞義標(biāo)注的正確率?!碧K新春在論述傳統(tǒng)詞典的義項(xiàng)特征時(shí)也指出,其“長(zhǎng)于對(duì)具體詞的考察,缺乏統(tǒng)一、整體的義項(xiàng)切分標(biāo)準(zhǔn),義項(xiàng)顆粒度粗細(xì)不一,需將義項(xiàng)在使用中的獨(dú)立性、完整性以及區(qū)別特征的顯著性作為判斷義項(xiàng)切分是否合理的重要依據(jù)”。通過(guò)以上分析,我們認(rèn)為,多義詞義項(xiàng)粒度過(guò)粗或者過(guò)細(xì)是導(dǎo)致詞義標(biāo)注難的主要原因。具體表現(xiàn)在:
1.當(dāng)多義詞義項(xiàng)劃分顆粒度過(guò)細(xì)時(shí),義項(xiàng)間通常呈現(xiàn)出包含或者大面積重疊關(guān)系,義項(xiàng)之間的語(yǔ)義距離相對(duì)較小,從詞義標(biāo)注的角度而言,會(huì)因義項(xiàng)與義項(xiàng)之間缺乏足夠的區(qū)別性特征,而陷入模棱兩可的境地。例如:
[過(guò)道]①新式房子由大門(mén)通向各房間的走道;②舊式房子連通各個(gè)院子的走道,特指大門(mén)所在的一間或半間屋子。
從釋義上看,“過(guò)道”一詞兩個(gè)義項(xiàng)的核心內(nèi)容都是連通房子各組成部分的走道,可見(jiàn),兩義項(xiàng)之間存在非常明顯的重疊現(xiàn)象,差別僅僅在于義項(xiàng)①中的“房子”是“新式”的,而義項(xiàng)②中的“房子”是“舊式”的,也正因?yàn)閮闪x項(xiàng)在釋義上重疊的部分過(guò)大,使得用于能將彼此區(qū)別開(kāi)來(lái)的部分相對(duì)較小。在詞義標(biāo)注時(shí),通常會(huì)因區(qū)別性特征不足而造成困難。例如:“嬌小玲瓏的莫慧蘭在不足百米的過(guò)道上就連遭記者三次‘包圍’…”,似乎很難確定到底該選哪個(gè)義項(xiàng),莫慧蘭是站在“新式”過(guò)道還是“舊式”過(guò)道上,從句中無(wú)法判斷出來(lái),并且如此細(xì)微的義項(xiàng)劃分,對(duì)分析句子幫助也不大,應(yīng)合并成一個(gè)義項(xiàng)更好。
2.當(dāng)多義詞義項(xiàng)劃分顆粒度過(guò)粗時(shí),會(huì)使得原本有差別的兩個(gè)義項(xiàng)并未劃分開(kāi),導(dǎo)致義項(xiàng)劃分未能反映出該詞在語(yǔ)言實(shí)際運(yùn)用中的真實(shí)面貌,這樣詞義標(biāo)注的結(jié)果也會(huì)有悖于語(yǔ)言事實(shí)。例如:
[評(píng)論]①批評(píng)或議論;②批評(píng)或議論的文章。
從釋義上看,“評(píng)論”一詞的兩個(gè)義項(xiàng)并不難區(qū)分,義項(xiàng)①為動(dòng)詞,義項(xiàng)②為名詞,但在標(biāo)注過(guò)程中,可以發(fā)現(xiàn)義項(xiàng)②所指過(guò)于寬泛。在真實(shí)語(yǔ)料中,還存在一種較特殊的“評(píng)論”,即針對(duì)重大事件或問(wèn)題發(fā)表在報(bào)刊上的評(píng)述性文章,包括社論、評(píng)論員文章等。例如:“新華社發(fā)表了題為《在春天里放飛中國(guó)夢(mèng)》的評(píng)論?!彪m然此類“評(píng)論”囊括在義項(xiàng)②所指中,但又不同于一般的批評(píng)或議論性文章,它是一種新聞體裁。因此,有必要將義項(xiàng)②進(jìn)一步拆分為兩個(gè)義項(xiàng),即a.批評(píng)或議論的文章;b.特指一種新聞體裁,如社論、評(píng)論員文章等。這樣才會(huì)使標(biāo)注結(jié)果更符合語(yǔ)言實(shí)際。為驗(yàn)證上述觀點(diǎn)的合理性,我們發(fā)現(xiàn)《現(xiàn)代漢語(yǔ)大詞典》(上海辭書(shū)出版社)中“評(píng)論”一詞正是按照①批評(píng)、議論;②批評(píng)、議論的文章;③一種新聞體裁這樣三個(gè)義項(xiàng)劃分的。
鑒于作為詞義標(biāo)注重要資源的傳統(tǒng)詞典在義項(xiàng)劃分粒度上存在上述不合理問(wèn)題,可以利用區(qū)別性特征對(duì)其進(jìn)行調(diào)整、改造。所謂區(qū)別性特征,是指義項(xiàng)在真實(shí)語(yǔ)料中賴以體現(xiàn)其意義內(nèi)涵同時(shí)又能區(qū)別于其他義項(xiàng)的表達(dá)形式,是能被計(jì)算機(jī)所識(shí)別的形式化的產(chǎn)物,主要包括詞類、句法組合、語(yǔ)義類搭配等。借助區(qū)別性特征對(duì)不合理義項(xiàng)劃分粒度進(jìn)行調(diào)整主要包括如下方面:
1.義項(xiàng)合并
(1)當(dāng)多義詞不同義項(xiàng)在語(yǔ)義內(nèi)涵上有細(xì)微差異,且這一差異無(wú)法通過(guò)計(jì)算機(jī)所能識(shí)別的形式特征體現(xiàn)出來(lái)時(shí),需對(duì)相關(guān)義項(xiàng)進(jìn)行合并。例如“該”在《現(xiàn)漢》(第4 版)中有兩個(gè)義項(xiàng)為:①應(yīng)當(dāng):~說(shuō)的一定要說(shuō)。④表示根據(jù)情理或經(jīng)驗(yàn)推測(cè)應(yīng)當(dāng)如此:再不澆水,花都~蔫了。義項(xiàng)①與義項(xiàng)④的“該”均為助動(dòng)詞,兩者在句法組合上也大致相同即多出現(xiàn)于動(dòng)詞前,計(jì)算機(jī)很難從形式上對(duì)其進(jìn)行識(shí)別,兩義項(xiàng)在語(yǔ)義上的細(xì)微差別僅表現(xiàn)在前者是一種按道理、按照常理的“應(yīng)該”,后者多是根據(jù)經(jīng)驗(yàn)、情理作出的推測(cè),即便由人來(lái)判斷也會(huì)出現(xiàn)結(jié)果不一致的情況,因此宜將兩者合并成一個(gè)義項(xiàng)。
(2)當(dāng)多義詞不同義項(xiàng)的語(yǔ)義內(nèi)涵極為接近時(shí),即便在形式上呈現(xiàn)出細(xì)微的特征差異,仍需合并相關(guān)義項(xiàng),因?yàn)榱x項(xiàng)的劃分不能為了形式而形式,立足于不同義項(xiàng)語(yǔ)義內(nèi)涵有差異的劃分才是有意義的。例如:[正義]①公正的、有利于人民的道理。②公正的、有利于人民的。義項(xiàng)①是名詞,義項(xiàng)②具有描寫(xiě)性,屬于形容詞,多作定語(yǔ),如:正義的人、正義的事業(yè)。盡管兩義項(xiàng)在詞性、句法組合特征上的差異為計(jì)算機(jī)的自動(dòng)識(shí)別提供了區(qū)分線索,但其語(yǔ)義內(nèi)涵卻是極接近的,若暫不考慮義項(xiàng)的歸屬,單看“維護(hù)正義”與“正義戰(zhàn)爭(zhēng)”,似乎很難找出兩者的語(yǔ)義差別,故有必要將兩義項(xiàng)合二為一。以不同義項(xiàng)在語(yǔ)義內(nèi)涵上有足夠差異為前提來(lái)進(jìn)行義項(xiàng)劃分才是合理的,若盲目參照形式使得義項(xiàng)劃分粒度過(guò)于細(xì)致,反會(huì)給計(jì)算機(jī)的自動(dòng)識(shí)別增加不必要的負(fù)擔(dān)。
2.義項(xiàng)拆分
多義詞義項(xiàng)劃分粒度過(guò)粗的情況也是常有的,當(dāng)某一義項(xiàng)內(nèi)部仍存在語(yǔ)義差異,且這一差異能通過(guò)計(jì)算機(jī)可識(shí)別的形式體現(xiàn)出來(lái)時(shí),需對(duì)該義項(xiàng)進(jìn)行拆分。例如:[打磨]在器物的表面摩擦,使光滑、精致:手工~︱這個(gè)劇本還得經(jīng)過(guò)幾次~。從后半部分的用例可以顯示出傳統(tǒng)詞典對(duì)“打磨”的義項(xiàng)粒度處理是相對(duì)粗的。通過(guò)語(yǔ)義搭配這一區(qū)別性特征,可以發(fā)現(xiàn)與釋義中的“打磨”搭配的語(yǔ)義類多為“器皿、用具”,如玉石、陶器、刀具等,而與用例中的“打磨”搭配的語(yǔ)義類多是“文章、劇本”等,這說(shuō)明該義項(xiàng)內(nèi)部仍存在語(yǔ)義差別。后者是由前者引申出來(lái)的。最好的處理辦法是將其拆分為兩個(gè)獨(dú)立義項(xiàng):①在器物表面摩擦,使光滑、精致。②對(duì)文章、臺(tái)詞等創(chuàng)作進(jìn)行修改潤(rùn)色,使趨于完善。
3.義項(xiàng)補(bǔ)充
義項(xiàng)和語(yǔ)料之間需有清晰明確的對(duì)應(yīng),當(dāng)義項(xiàng)的劃分與真實(shí)語(yǔ)料中詞義分布不一致時(shí),需對(duì)缺失的義項(xiàng)進(jìn)行補(bǔ)充。例如:[出軌]①(火車(chē)、有軌電車(chē)等)行駛時(shí)脫離軌道。②比喻言語(yǔ)行動(dòng)超出常規(guī):這話說(shuō)得~了。從釋義上看,義項(xiàng)①具有動(dòng)作性,為動(dòng)詞,且后面無(wú)法帶賓語(yǔ);義項(xiàng)②具有描寫(xiě)性,能被程度副詞“很”、“太”修飾,也能出現(xiàn)在“得”的后面作補(bǔ)語(yǔ),如:這話太出軌、話說(shuō)得很出軌。借助句法組合上的區(qū)別性特征,兩義項(xiàng)似乎很容易區(qū)分開(kāi),但在真實(shí)語(yǔ)料中,我們卻發(fā)現(xiàn)有些用例無(wú)法從現(xiàn)有的義項(xiàng)中找到與之匹配的義項(xiàng),例如:“當(dāng)然,像妻子出軌、孩子犯罪這種問(wèn)題發(fā)生在自己身上的可能性極低…/結(jié)婚第四年,她丈夫出軌了?!崩渲小俺鲕墶鼻安⑽闯霈F(xiàn)“很”、“得”等標(biāo)志性詞語(yǔ),很顯然與義項(xiàng)②不符合,再?gòu)恼Z(yǔ)義搭配來(lái)看,與例句中的“出軌”搭配的語(yǔ)義類通常是“人”,而與義項(xiàng)①的“出軌”搭配的語(yǔ)義類則是“列車(chē)、電車(chē)”等交通工具,故義項(xiàng)①也是非匹配項(xiàng)。由此可見(jiàn),傳統(tǒng)詞典中對(duì)“出軌”的義項(xiàng)劃分是不具完備性的,借助語(yǔ)義搭配上的特征差異,我們認(rèn)為應(yīng)補(bǔ)上“比喻婚姻關(guān)系中一方或雙方出現(xiàn)外遇行為”這一義項(xiàng)才算完整。義項(xiàng)的劃分應(yīng)全面反映該詞在真實(shí)語(yǔ)料中的使用情況,只有這樣詞義標(biāo)注的結(jié)果方才不悖于語(yǔ)言事實(shí)。
鑒于傳統(tǒng)詞典中義項(xiàng)劃分粒度問(wèn)題給詞義標(biāo)注帶來(lái)了不少困難,Kilgarriff 甚至認(rèn)為,“若不解決好多義詞義項(xiàng)間區(qū)分難的問(wèn)題,不僅詞義標(biāo)注無(wú)法達(dá)到高準(zhǔn)確率,而且與之相關(guān)的研究也將走進(jìn)死胡同。”與此同時(shí),也有學(xué)者提出不同的看法。Wilks 認(rèn)為Kilgarriff 的論斷高估了多義詞義項(xiàng)區(qū)分的難度,他通過(guò)對(duì)Gale 等人提出的“One Sense Per Discourse”(一篇一義)及Yarowsky 提出的“One Sense Per Collocation”(一搭配一意義)兩個(gè)假設(shè)進(jìn)行分析,指出:“從語(yǔ)料本身出發(fā),有效利用多義詞在具體語(yǔ)料中的使用和分布特點(diǎn),高準(zhǔn)確率的詞義標(biāo)注是可以實(shí)現(xiàn)的”。Palmer 認(rèn)為:“能在義項(xiàng)區(qū)分中有效發(fā)揮作用的只有那些具體的、有形的標(biāo)準(zhǔn)(比如論元結(jié)構(gòu)、句法框架、選擇限制),而建立在世界知識(shí)之上的意義區(qū)分是值得懷疑的。”吳云芳、俞士汶也指出:“上下文語(yǔ)境是計(jì)算機(jī)區(qū)分詞語(yǔ)意義的最終憑借,因此可以根據(jù)詞語(yǔ)的句法行為來(lái)區(qū)分義項(xiàng)?!盵1]130蘇新春在論述機(jī)用詞典義項(xiàng)庫(kù)的建立時(shí)也提到,“要立足于義項(xiàng)意義內(nèi)涵尋求義項(xiàng)形式差異,同時(shí)也要注重對(duì)義項(xiàng)形式特征的提取,并努力做到使兩者相符”。
Kilgarriff 的觀點(diǎn)雖有一定道理,但難免有將困難無(wú)限放大之嫌。盡管標(biāo)注過(guò)程中會(huì)因義項(xiàng)劃分粒度不當(dāng)導(dǎo)致區(qū)分線索缺乏,從而使計(jì)算機(jī)陷入到選擇難的境地,但也不宜把難度估計(jì)過(guò)高,并非沒(méi)有解決的辦法。從上述其他學(xué)者的觀點(diǎn)中可以得到啟示。我們認(rèn)為,從真實(shí)的語(yǔ)料出發(fā),由于多義詞的使用和分布在具體語(yǔ)料中是有規(guī)律可尋的,可以根據(jù)多義詞不同義項(xiàng)在句法組合、語(yǔ)義搭配上的差異,尋找到足夠的區(qū)分線索,并對(duì)其進(jìn)行形式化的描寫(xiě)并建構(gòu)規(guī)則,以可識(shí)別的方式提供給計(jì)算機(jī),高準(zhǔn)確率的詞義標(biāo)注是可以實(shí)現(xiàn)的。同時(shí),區(qū)別性特征梯級(jí)建構(gòu)的過(guò)程,也是多義詞義項(xiàng)與義項(xiàng)間的區(qū)分度不斷明晰化的過(guò)程,完全可利用所建構(gòu)的區(qū)別性特征,及時(shí)對(duì)詞典中的義項(xiàng)劃分粒度進(jìn)行調(diào)整(如合并、拆分、補(bǔ)充義項(xiàng)等),使之更趨合理化,這樣也解決了詞義標(biāo)注在知識(shí)資源上的問(wèn)題。
另外,句法和語(yǔ)義也是相互依存與制約的。脫離了句法形式,語(yǔ)義關(guān)系無(wú)法得到體現(xiàn);脫離了語(yǔ)義關(guān)系,任何句法形式毫無(wú)作用可言。因此在對(duì)多義詞義項(xiàng)的區(qū)別性特征進(jìn)行提取時(shí),單從句法形式上進(jìn)行分析是欠妥的,容易陷入到唯形式論的誤區(qū)中。而是要將句法形式和語(yǔ)義關(guān)系、語(yǔ)義類別結(jié)合起來(lái),互相滲透。例如:“吞沒(méi)”一詞有兩個(gè)義項(xiàng):①把公共的或代管的財(cái)務(wù)據(jù)為己有;②淹沒(méi)。這兩個(gè)義項(xiàng)均表示動(dòng)詞義,而且“吞沒(méi)”后都可以帶賓語(yǔ)及動(dòng)態(tài)助詞,兩者句法組合功能大體相同,若要區(qū)分這兩個(gè)義項(xiàng),單從句法的角度似乎行不通,這時(shí)不妨通過(guò)“吞沒(méi)”后面受事角色語(yǔ)義類的不同來(lái)尋求突破。借助真實(shí)語(yǔ)料,可以發(fā)現(xiàn)與義項(xiàng)①搭配的受事角色語(yǔ)義類多為“錢(qián)財(cái)”,與義項(xiàng)②搭配的受事角色語(yǔ)義類以“建筑物”居多,根據(jù)這一區(qū)別性特征,計(jì)算機(jī)便能很快將其區(qū)分開(kāi)來(lái)。鑒于本研究中識(shí)別主體的特殊性即計(jì)算機(jī)往往對(duì)形式化、規(guī)則化的對(duì)象更容易識(shí)別,我們嘗試先從形式入手再到意義即從詞類層到句法層再到語(yǔ)義層即“梯級(jí)”遞進(jìn)的方式,對(duì)多義詞義項(xiàng)的區(qū)別性特征進(jìn)行更為合理與系統(tǒng)性的建構(gòu)。由于區(qū)別性特征形式可以是多樣的,故需對(duì)多義詞不同義項(xiàng)所屬的詞類、句法組合功能、語(yǔ)義搭配及各義項(xiàng)在語(yǔ)言使用中的分布情況進(jìn)行全面考察,并且遵循一定的規(guī)則與流程,采取逐層排除的方式,直至找出最為合理與有效的區(qū)別性特征。按照這一思路,我們認(rèn)為對(duì)多義詞義項(xiàng)的區(qū)別性特征進(jìn)行梯級(jí)建構(gòu)是可行的。
在前期的語(yǔ)言信息處理中,計(jì)算機(jī)自動(dòng)分詞與詞類標(biāo)注的正確率都已達(dá)到一定程度,由于不少多義詞的不同義項(xiàng)所屬詞類也是不相同的,因此可以充分利用詞類標(biāo)注的成果進(jìn)而對(duì)不同義項(xiàng)進(jìn)行識(shí)別。例如:
[設(shè)計(jì)]①[動(dòng)]在正式做某項(xiàng)工作之前,根據(jù)一定的目的要求,預(yù)先制定方法、圖樣等;②[名]設(shè)計(jì)的方案或規(guī)劃的藍(lán)圖等:那兩項(xiàng)~已經(jīng)完成。
《現(xiàn)代漢語(yǔ)詞典》中已明確標(biāo)出義項(xiàng)①是動(dòng)詞義,義項(xiàng)②是名詞義,當(dāng)計(jì)算機(jī)對(duì)如下句中“設(shè)計(jì)”所屬的義項(xiàng)進(jìn)行識(shí)別時(shí),首先可先通過(guò)專門(mén)的分詞標(biāo)注軟件對(duì)其進(jìn)行自動(dòng)分詞與詞類標(biāo)注,得到:
(1)高層建筑/n 的/u 建筑/n 設(shè)計(jì)/n 和/c 管理/n 上/nd ,/w 沒(méi)有/v 達(dá)到/v 防火/v 規(guī)范/n 的/u 要求/n。/w
(2)電子/n 窗戶/n 還/d 能/vu 按/p 用戶/n 的/u要求/n 設(shè)計(jì)/v 出/vd 世界/n 某/r 一/m 旅游勝地/n的/u 風(fēng)景/n ,/w 故/c 有著/v 廣闊/a 的/u 銷售/v 前景/n。/w
在此基礎(chǔ)上,通過(guò)詞類標(biāo)記來(lái)進(jìn)行匹配,第(1)句中“設(shè)計(jì)”的詞類標(biāo)記為n即名詞,計(jì)算機(jī)可根據(jù)此標(biāo)記很快找到與之相匹配的義項(xiàng)②,同理第(2)句中“設(shè)計(jì)”的詞類標(biāo)記為V即動(dòng)詞,計(jì)算機(jī)能很快判斷出與之匹配的是義項(xiàng)①。
可見(jiàn),通過(guò)借助前期詞處理所取得的成果,在詞類標(biāo)記的輔助下,計(jì)算機(jī)可以準(zhǔn)確地判斷出很大一部分多義詞的詞義或者縮小多義詞義項(xiàng)的數(shù)量,但是,此方法僅適用于多義詞義項(xiàng)所屬詞性不相同的情況,當(dāng)多義詞不同義項(xiàng)所屬詞性都相同時(shí),計(jì)算機(jī)則無(wú)法直接匹配識(shí)別。另外,在少數(shù)情況下,自動(dòng)分詞與標(biāo)注也會(huì)出現(xiàn)錯(cuò)誤,建立在此基礎(chǔ)上的義項(xiàng)識(shí)別也會(huì)受影響,例如:
(3)并/c 以/p 這個(gè)/r 設(shè)計(jì)/v 為/vl 綱領(lǐng)/n 而/c行動(dòng)/n(/w 當(dāng)然/d 只有/d 失敗/v)/w 。/w
第(3)句中,“設(shè)計(jì)”很明顯應(yīng)該標(biāo)注為“設(shè)計(jì)/n”即名詞才對(duì),但卻被標(biāo)注為“v”即動(dòng)詞,這時(shí)計(jì)算機(jī)若根據(jù)錯(cuò)誤的詞性標(biāo)注結(jié)果去匹配義項(xiàng),只會(huì)得到錯(cuò)誤的結(jié)果。對(duì)此,需要尋求新的途徑去解決利用詞類標(biāo)記無(wú)法辨識(shí)的那部分多義詞。
當(dāng)無(wú)法通過(guò)詞類標(biāo)記找到相匹配的義項(xiàng)時(shí),就必須進(jìn)入到句法層面,嘗試從組合功能的角度尋找義項(xiàng)間的區(qū)別性特征。即通過(guò)對(duì)該詞在句中可與哪些成分組合進(jìn)行逐一描寫(xiě)分析,從而找到義項(xiàng)甲具備而義項(xiàng)乙不具備、或者義項(xiàng)乙具備而義項(xiàng)甲不具備的某種特征。例如:
[沐浴]①洗澡;②借指受潤(rùn)澤;③比喻沉浸在某種環(huán)境中。
借助大量語(yǔ)料,我們對(duì)“沐浴”不同義項(xiàng)的句法組合特征進(jìn)行描寫(xiě),“沐浴”的句法組合特征見(jiàn)表1:
表1 “沐浴”的句法組合特征
表1清晰地顯示出三個(gè)不同義項(xiàng)的“沐浴”在組合功能上的差異,義項(xiàng)①作謂語(yǔ)時(shí),通??梢允枪鈼U的,也可以與動(dòng)態(tài)助詞“著/了/過(guò)”直接連用,還可以帶上動(dòng)量補(bǔ)語(yǔ),如:沐浴一次。義項(xiàng)②與義項(xiàng)③的“沐浴”也通常作謂語(yǔ),后面可以不帶任何成分,也可以帶上動(dòng)態(tài)助詞或者補(bǔ)語(yǔ),如:在日光下沐浴著/在暖陽(yáng)里沐浴一下。但與義項(xiàng)①不同的是,義項(xiàng)②與義項(xiàng)③的“沐浴”后面可以直接帶賓語(yǔ)或者介詞短語(yǔ),如:沐浴春風(fēng)/沐浴愛(ài)情光輝/沐浴在金色的秋陽(yáng)之中等。由此可見(jiàn),沐浴后能否帶賓語(yǔ)或者介詞短語(yǔ)構(gòu)成義項(xiàng)②與義項(xiàng)③區(qū)別于義項(xiàng)①的一個(gè)屬性特征。
根據(jù)這一區(qū)別性特征,計(jì)算機(jī)能很快識(shí)別出與以下句中的“沐浴”意思相符的義項(xiàng)。
(4)兩百年來(lái),法國(guó)人沐浴在浪漫的氣氛中。
由于第(4)句中的“沐浴”后出現(xiàn)了介詞短語(yǔ)“在……中”,義項(xiàng)①能很快排除掉,而義項(xiàng)②與義項(xiàng)③則可以通過(guò)“沐浴”前的語(yǔ)義角色語(yǔ)義類的不同來(lái)區(qū)分。與義項(xiàng)②搭配的語(yǔ)義類多為“植物”,如花草、秧苗等,與義項(xiàng)③搭配的語(yǔ)義類以“人”、“建筑物”類居多(具體操作流程下文會(huì)詳細(xì)說(shuō)明),據(jù)此可以判定例句中的“沐浴”當(dāng)屬義項(xiàng)③比喻沉浸在某種環(huán)境中。
需要說(shuō)明的是,計(jì)算機(jī)對(duì)于義項(xiàng)③的正確識(shí)別是以動(dòng)詞“沐浴”后的賓語(yǔ)或者介詞短語(yǔ)不為空為前提的,為便于表述,我們把這一區(qū)別性特征設(shè)為Vx即當(dāng)且僅當(dāng)“Vx≠空”,這一區(qū)別性特征在實(shí)際操作中才有效。當(dāng)“沐浴”后的賓語(yǔ)或者介詞短語(yǔ)為空時(shí),并不能斷定“沐浴”就是義項(xiàng)①,例如:
(5)找個(gè)背風(fēng)向陽(yáng)的草坪坐下,任憑太陽(yáng)沐浴。
(6)它讓你在它的光輝里沐浴,又讓你染上它的清香一步一回頭地離開(kāi)。
上文中的例(5)、例(6)句中“沐浴”的后面沒(méi)有賓語(yǔ)或者介詞短語(yǔ),但計(jì)算機(jī)并不能就此識(shí)別出“沐浴”當(dāng)屬義項(xiàng)①表示洗澡,因?yàn)榱x項(xiàng)②與義項(xiàng)③的“沐浴”后同樣可以不帶任何成分,在形式上與義項(xiàng)①的“沐浴”相同。此時(shí),計(jì)算機(jī)無(wú)法從形式上將義項(xiàng)①與義項(xiàng)②、義項(xiàng)③區(qū)分開(kāi)來(lái)。這也正體現(xiàn)出借助句法組合功能識(shí)別多義詞義項(xiàng)的局限性。在實(shí)際操作中,當(dāng)多義詞在句法組合上的某個(gè)區(qū)別性特征為空時(shí),有可能產(chǎn)生與其他義項(xiàng)相同的句法組合形式,導(dǎo)致計(jì)算機(jī)無(wú)法從形式上進(jìn)行義項(xiàng)識(shí)別,從而不得不采取新的手段來(lái)尋求突破。
當(dāng)多義詞的不同義項(xiàng)所屬詞性相同且從句法組合上也難以提取區(qū)別性特征時(shí),就只能進(jìn)入到語(yǔ)義層面,通過(guò)考察被標(biāo)注詞與其他詞語(yǔ)在搭配上的一些語(yǔ)義限制,將不同的義項(xiàng)區(qū)別開(kāi)來(lái)。根據(jù)“語(yǔ)義句法雙向選擇性原則”①邵敬敏認(rèn)為對(duì)于一個(gè)X+Y的組合,不僅X要選擇Y,而且Y要選擇X即只有相同或互補(bǔ)語(yǔ)義特征的詞才能搭配。以及“詞語(yǔ)之間能否搭配,取決于雙方是否存在耦合性義征或語(yǔ)義兼容性”[11],可以發(fā)現(xiàn)能夠組合到一起的詞語(yǔ)之間必然在語(yǔ)義上存在某種聯(lián)系。因此當(dāng)單從被標(biāo)注詞的角度無(wú)法找到突破口時(shí),不妨考察有哪些語(yǔ)義角色可以與之組合到一起,充當(dāng)這些語(yǔ)義角色的詞語(yǔ)又隸屬哪些語(yǔ)義類,從而找到使之與其他義項(xiàng)相區(qū)別的特征屬性。下面就以多義動(dòng)詞“腐蝕”為例,進(jìn)行具體說(shuō)明。
[腐蝕]①通過(guò)化學(xué)作用,使物體逐漸消損破壞;②使人在壞的思想、行為、環(huán)境等因素影響下逐漸變質(zhì)墮落。
1.建構(gòu)語(yǔ)義角色描寫(xiě)框架
要從語(yǔ)義搭配上對(duì)多義詞不同義項(xiàng)間的區(qū)別性特征進(jìn)行提取,首先需要對(duì)能與該詞搭配到一起的語(yǔ)義角色進(jìn)行全面描寫(xiě)。我們采取了魯川、林杏光先生的劃分體系,將語(yǔ)義角色分為主體、客體、鄰體、方式、根由、環(huán)境六種,并且每種語(yǔ)義角色又可細(xì)分,例如方式角色又包括工具、憑借和樣式①參見(jiàn)魯川、林杏光《現(xiàn)代漢語(yǔ)語(yǔ)法的格關(guān)系》,《漢語(yǔ)學(xué)習(xí)》,1989年第5期,第11-15頁(yè)。。在此基礎(chǔ)上,我們對(duì)不同義項(xiàng)“腐蝕”的語(yǔ)義角色搭配情況進(jìn)行描寫(xiě)分析并建構(gòu)框架,見(jiàn)表2:
表2 “腐蝕”語(yǔ)義角色描寫(xiě)框架
由表2可知能與義項(xiàng)①的“腐蝕”搭配的語(yǔ)義角色是受事、結(jié)果和工具,例如:硫酸能腐蝕皮膚。其中“硫酸”為工具、材料,“皮膚”則為受事。/昆蟲(chóng)的尸體被腐蝕成一片粉末。其中“昆蟲(chóng)的尸體”為受事,“粉末”為結(jié)果。能與義項(xiàng)②搭配的語(yǔ)義角色為受事、工具,例如:黃色書(shū)刊會(huì)腐蝕青少年。其中“黃色書(shū)刊”為工具,“青少年”則是受事。
2.語(yǔ)義角色的語(yǔ)義類歸納
完成了語(yǔ)義角色的框架建構(gòu)后,需要借助真實(shí)的語(yǔ)料庫(kù),找到能充當(dāng)這些語(yǔ)義角色的典型詞語(yǔ),然后進(jìn)行語(yǔ)義類歸納,并與《同義詞詞林》的義類體系②參見(jiàn)梅家駒、竺一鳴《同義詞詞林》,上海:上海辭書(shū)出版社,1983年,第12頁(yè)?!锻x詞詞林》把詞語(yǔ)分為大、中、小三級(jí),按詞義分類編排,共分12個(gè)大類、94個(gè)中類,1428個(gè)小類。例如:第二大類(B物)又分為Ba統(tǒng)稱、Bb擬狀物、Bc物體的部分、Bd 天體、Be地貌、Bf氣象等18個(gè)中類,中類(Ba統(tǒng)稱)又分出Ba01物體、Ba02生物Ba物品物件、Ba04貨物產(chǎn)品、Ba05器具設(shè)備等10個(gè)小類。對(duì)應(yīng)起來(lái)。我們對(duì)能進(jìn)入到與“腐蝕”搭配的不同語(yǔ)義角色的詞語(yǔ)進(jìn)行語(yǔ)義類歸納,見(jiàn)表3:
表3 “腐蝕”語(yǔ)義角色語(yǔ)義類
表3清晰地反映出與“腐蝕”搭配的不同語(yǔ)義角色的詞語(yǔ)在語(yǔ)義類上的差異。首先,從位于“腐蝕”之前的方式語(yǔ)義類來(lái)看,最大區(qū)別在于作為義項(xiàng)①方式的多為表“具體物”類名詞,例如:有害氣體、重金屬、硫酸、細(xì)菌等;而作為義項(xiàng)②方式的詞語(yǔ)多為“抽象事物”類,例如:榮譽(yù)、迷信觀念、邪教、不良習(xí)俗等。其次,從位于“腐蝕”之后的客體語(yǔ)義類來(lái)看,最大不同是義項(xiàng)②的客體可以是“人”類,即只要“腐蝕”后客體位置上出現(xiàn)表示“人”的詞語(yǔ),就可以識(shí)別為義項(xiàng)②,另外,部分表“抽象事物”類詞語(yǔ)也能作為義項(xiàng)②客體,例如:心靈、靈魂、精神等;與此相對(duì),作為義項(xiàng)①客體的只能是部分“具體物”類詞語(yǔ),例如:皮膚、建筑物、船只、木材等。
根據(jù)上述語(yǔ)義類區(qū)別性特征,計(jì)算機(jī)可以對(duì)被標(biāo)注詞前后,對(duì)應(yīng)語(yǔ)義角色位置上詞語(yǔ)的語(yǔ)義類進(jìn)行判別,并由此很快識(shí)別出下列句中“腐蝕”所屬義項(xiàng)。例如:
(7)坤薩曼說(shuō),蝙蝠的大堆排泄物嚴(yán)重腐蝕了博物館內(nèi)的棟梁、木柱。
(8)近些年,不法組織腐蝕在校大學(xué)生的案例時(shí)有發(fā)生,已引起了相關(guān)部門(mén)的高度警惕。
第(7)句中“腐蝕”前面的方式角色“蝙蝠的排泄物”屬于“Ba 廢物類”,并且位于“腐蝕”之后的客體角色為“棟梁、木柱”,屬于“Bn建筑物類”,于是可以判定該句中的“腐蝕”為義項(xiàng)①;第(8)句中“腐蝕”前面的方式角色“不法組織”當(dāng)屬“Di團(tuán)體、派別”類,而位于“腐蝕”之后的客體是“在校大學(xué)生”,屬于“A 人”類,故可判定該句中的“腐蝕”為義項(xiàng)②。
由以上分析不難發(fā)現(xiàn),語(yǔ)義搭配實(shí)質(zhì)上體現(xiàn)的是詞語(yǔ)語(yǔ)義類選擇機(jī)制,例如動(dòng)詞對(duì)論元角色語(yǔ)義類的選擇機(jī)制,形容詞對(duì)受其修飾名詞語(yǔ)義類選擇機(jī)制等,通過(guò)描寫(xiě)、歸納不同語(yǔ)義角色的語(yǔ)義類聚,進(jìn)而提取區(qū)別性特征,其優(yōu)點(diǎn)在于少量規(guī)則就可以涵蓋大量具體詞語(yǔ)的搭配,但要完成這樣一個(gè)語(yǔ)義類描寫(xiě)體系,并建立相應(yīng)規(guī)則庫(kù),工作量相當(dāng),還需持久努力。
多義詞各義項(xiàng)的頻率分布并非是均衡的,具體表現(xiàn)在某一義項(xiàng)很常用,使用頻率高,而其他義項(xiàng)則用得很少,出現(xiàn)頻率較低。尤其在語(yǔ)義搭配中,當(dāng)充任某語(yǔ)義角色的詞語(yǔ)較為零散地分布于眾多語(yǔ)義類,導(dǎo)致不太好歸納時(shí),不妨充分利用義項(xiàng)分布的不均衡性,先直接找出與非優(yōu)勢(shì)義項(xiàng)搭配詞語(yǔ)或語(yǔ)義類,而不對(duì)與優(yōu)勢(shì)義項(xiàng)搭配的語(yǔ)義類別作詳細(xì)描寫(xiě)、歸納,將其作為缺省值。在標(biāo)注時(shí),根據(jù)多義詞所在句中的搭配成分,看其是否符合與非優(yōu)勢(shì)義項(xiàng)搭配的條件,如果是,就判定該多義詞屬于非優(yōu)勢(shì)義項(xiàng),如果否,就取缺省值即該多義詞屬于優(yōu)勢(shì)義項(xiàng)。例如:
[參加]①加入某種組織或某種活動(dòng):~工作|~會(huì)議|~選舉;②參與提出(意見(jiàn)):這件事兒,請(qǐng)你也參加點(diǎn)兒意見(jiàn)。
較之義項(xiàng)①,義項(xiàng)②出現(xiàn)頻率相對(duì)較低,為了驗(yàn)證這一點(diǎn),我們從北大語(yǔ)料庫(kù)中隨機(jī)抽取了500句含有“參加”一詞的語(yǔ)例,結(jié)果發(fā)現(xiàn)表示義項(xiàng)②的句子不足5例,不僅數(shù)量少,而且用法也較為單一即只有“參加…意見(jiàn)”這一種用法,例如:“我不參加意見(jiàn),讓他們自己協(xié)商去。(《風(fēng)雨故人來(lái)》白峰溪)”可見(jiàn)兩個(gè)義項(xiàng)頻率分布玄虛,義項(xiàng)②作為非優(yōu)勢(shì)義項(xiàng)出現(xiàn)的語(yǔ)境較為固定,義項(xiàng)①是優(yōu)勢(shì)義項(xiàng),可以作為缺省值,毋須對(duì)其可以與哪些語(yǔ)義類搭配進(jìn)行歸納,并且由于義項(xiàng)①的搭配極為豐富,要詳盡描寫(xiě)也是相當(dāng)困難的。在實(shí)際標(biāo)注中,首先查看“參加”之后客事位置上是否出現(xiàn)“意見(jiàn)”這一常與義項(xiàng)②搭配的字段,如果是,就判定“參加”屬于義項(xiàng)②表示參與提出意見(jiàn);如果否,就取缺省值即“參加”屬于義項(xiàng)①,這樣不僅大大降低了計(jì)算機(jī)識(shí)別的難度,而且提高了準(zhǔn)確率。
綜上所述,在提取多義詞義項(xiàng)區(qū)別性特征時(shí),首先可從詞類標(biāo)記入手,當(dāng)多義詞不同義項(xiàng)所屬詞類不相同時(shí),可通過(guò)詞類標(biāo)記,找到與之相對(duì)應(yīng)的義項(xiàng);其次當(dāng)多義詞不同義項(xiàng)所屬詞類相同時(shí),需從句法組合上找出排它性特征;然后當(dāng)在句法組合也上無(wú)明顯性差別或者某區(qū)別性特征為空時(shí),就只能通過(guò)語(yǔ)義搭配來(lái)找到突破;最后當(dāng)充任某語(yǔ)義角色的詞語(yǔ)較為零散,不便于歸類,使得從語(yǔ)義搭配上也無(wú)計(jì)可施時(shí),可充分借助頻率排歧即通過(guò)非優(yōu)勢(shì)義項(xiàng)的排除來(lái)找到正確的義項(xiàng)所屬。由此,得到提取多義詞區(qū)別性特征的梯級(jí)建構(gòu)模型(圖中Y代表“是”,N代表“否”),見(jiàn)圖1:
圖1 區(qū)別性特征梯級(jí)建構(gòu)模型
計(jì)算機(jī)對(duì)多義詞詞義的自動(dòng)識(shí)別一直是語(yǔ)言信息處理中的難點(diǎn)問(wèn)題。本文針對(duì)作為詞義標(biāo)注重要依據(jù)的傳統(tǒng)詞典中的義項(xiàng)劃分問(wèn)題進(jìn)行了相關(guān)探討,認(rèn)為多義詞義項(xiàng)粒度過(guò)粗或者過(guò)細(xì)是導(dǎo)致詞義標(biāo)注難的主要原因所在。進(jìn)而嘗試從真實(shí)語(yǔ)料出發(fā),由詞類標(biāo)記到句法組合再到語(yǔ)義搭配即梯級(jí)遞進(jìn)的方式,對(duì)多義詞義項(xiàng)的區(qū)別性特征進(jìn)行更為合理與系統(tǒng)性的建構(gòu),并得到了梯級(jí)建構(gòu)的模型。但本文的研究只是一種概要式的探討,由于不同詞類具有其自身的獨(dú)特性,因此具體到單個(gè)多義詞的區(qū)別性特征提取時(shí),可能會(huì)在遵循上述操作流程的基礎(chǔ)上有略微變化,還有待進(jìn)一步研究。
新疆大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)2019年5期