李德俊
?
語料驅(qū)動(dòng)釋義: 意義、問題與對(duì)策*
*本研究得到國(guó)家社科基金項(xiàng)目“基于平行語料庫的《漢英詞典》的研編”(批準(zhǔn)號(hào):07BYY038)的資助,謹(jǐn)此致謝。
李德俊
摘要語料庫對(duì)詞典研編的價(jià)值是不言而喻的,在詞典編纂的實(shí)際過程中,不僅配例依賴于語料,語料對(duì)提高釋義的效率和科學(xué)性也發(fā)揮著舉足輕重的作用。但是,語料驅(qū)動(dòng)也有一些明顯缺陷,處理不當(dāng)會(huì)令語料驅(qū)動(dòng)流于形式。文章以語料驅(qū)動(dòng)釋義為例,通過實(shí)例討論了語料驅(qū)動(dòng)釋義的優(yōu)勢(shì),同時(shí)也分析了該方法過分依靠索引行所存在的問題。短語驅(qū)動(dòng)是語料驅(qū)動(dòng)的一種特殊形式,研究表明,基于統(tǒng)計(jì)的短語識(shí)別方法是克服索引行過多、提高釋義效率的有效方法。
關(guān)鍵詞語料庫語料驅(qū)動(dòng)釋義短語
一、 引言
隨著語料庫詞典學(xué)研究的興起和發(fā)展(王馥芳,羅敏莉 2004: 45—53),語料庫在詞典學(xué)研究和詞典編纂中不可或缺的作用已取得廣泛共識(shí)。今天,語料庫已不再局限于為詞典提供例證,其在詞典釋義方面的價(jià)值也日益凸顯。國(guó)外出版的部分詞典,例如柯林斯詞典,釋義基本依賴于對(duì)語料的釋讀,柯林斯詞典的成功與其釋義的準(zhǔn)確實(shí)用不無關(guān)聯(lián)。
基于語料庫的詞典研編在我國(guó)業(yè)已起步,但從已發(fā)表的研究成果看,語料庫建設(shè)和理論探討仍是主要議題,而針對(duì)語料庫在詞典研編實(shí)踐工作中的應(yīng)用的討論并不多見。雖然語料庫對(duì)詞典學(xué)的價(jià)值不言而喻,但語料驅(qū)動(dòng)也有一些缺陷和不足。伴隨語料驅(qū)動(dòng)而來的問題嚴(yán)重困擾著詞典編纂者,如果這些問題不能妥善解決,語料庫驅(qū)動(dòng)詞典編纂的效率會(huì)大打折扣。本文以釋義為例,在論證語料驅(qū)動(dòng)釋義的意義之后,重點(diǎn)討論了語料驅(qū)動(dòng)存在的問題和可行的解決方案。
二、 語料驅(qū)動(dòng)釋義方法與意義
語料驅(qū)動(dòng)視語料庫為一種理論研究,對(duì)于語料驅(qū)動(dòng)研究來說,語料庫不僅是儲(chǔ)存語言材料的倉庫,還是建立語言假設(shè)的源泉。語料庫本身蘊(yùn)含了自己的語言理論。(Tognini-Bonelli 2001: 84—85)
語料驅(qū)動(dòng)的哲學(xué)基礎(chǔ)是“意義的使用論”,誠(chéng)如維特根斯坦(1992: 8)所言: 根本不存在“五”字的意義的問題,只有“五”如何使用的問題,一個(gè)詞的意義就是它在語言中的用法。語料驅(qū)動(dòng)的方法從觀察分析語料開始,通過分析語料得出假設(shè),然后進(jìn)一步歸納、概括以形成語言規(guī)則。如用語料驅(qū)動(dòng)的方法進(jìn)行詞義和搭配的研究時(shí),事先不設(shè)定詞義(或義項(xiàng))和搭配規(guī)則,詞義和搭配規(guī)則完全基于對(duì)語料的分析和總結(jié)。Hunston(2006: 46—47)對(duì)initiative和condemn的詞義和搭配的研究很好地詮釋了該方法的特點(diǎn)。
Sinclair(轉(zhuǎn)引自Krishnamurthy 2008: 231)不僅強(qiáng)調(diào)語料驅(qū)動(dòng)的重要性,也在實(shí)際的詞典編纂中積極采用語料驅(qū)動(dòng)的方法。他認(rèn)為語言知識(shí)的最佳源泉是語言使用,所謂的語言使用指的就是真實(shí)的、用于交際的文本。
語料驅(qū)動(dòng)詞典釋義采用的是“自下而上”的方法,釋義以從語料庫中選擇未經(jīng)過編輯的語料(例子)為起點(diǎn),然后根據(jù)詞典研編的需要對(duì)語料進(jìn)行分析和歸納,從而形成釋義文本。對(duì)語料驅(qū)動(dòng)釋義來說,對(duì)語料的依賴是第一位的,語感只是在對(duì)語料的分析判斷時(shí)才起作用。
1. 釋義的要求
釋義就是對(duì)詞語、短語或術(shù)語的意義進(jìn)行詮釋。(Hartmann & James 2000: 35)在詞典學(xué)的其他文獻(xiàn)中,釋義的定義基本與此類似。雖然說上述定義的本身沒有問題,但是該定義是模糊的,根源在于“詞義”的所指不清。為了明確釋義的任務(wù),有必要先討論“什么是詞義”以及詞義的具體組成或分類。
在語言學(xué)領(lǐng)域,與意義相關(guān)的研究由來已久,也因此產(chǎn)生了各種不同的意義分類。Grice(1969)將意義分為四種類型: 固定意義、應(yīng)用固定意義、情景意義和說話者的情景意義。作為詞典學(xué)家,茲古斯塔(1983: 29—78)更關(guān)心詞義的不同表現(xiàn)形式,他將詞義劃分為固定意義和具體意義兩大類,其中固定意義包含詞的指稱意義、附加意義和詞的使用范圍。Leech(1987: 13—33)對(duì)意義的分類最具代表性,他認(rèn)為意義具有七種形態(tài),即概念意義、含蓄意義、社會(huì)意義、情感意義、反映意義、搭配意義和主題意義。
以上關(guān)于意義的分類,有些討論的并不是詞義,如主題意義、反映意義、情景意義。Grice的固定意義、Leech的概念意義和Zgusta的指稱意義基本相同,都是指詞匯或句子的基本概念義,它是詞匯的第一層意義。詞匯有虛實(shí)之分,虛詞不一定有具體的所指,也就是說沒有明確的概念義。對(duì)于虛詞來說,它主要承載著語法功能。虛詞的基本概念義就是它的語法功能義。茲古斯塔所言的附加義與Leech的內(nèi)涵意義、社會(huì)意義、情感意義、反映意義相當(dāng),Leech的搭配語義包含了茲古斯塔所言的詞的使用范圍。我國(guó)學(xué)者使用陪義對(duì)基本概念義之外的各種意義進(jìn)行統(tǒng)稱。(張志毅,張慶云2001: 42—68)陪義是詞匯的第二層意義。
詞義的分類紛然雜陳,反映了詞義的復(fù)雜性和多樣性。那么,在釋義時(shí)是否要考慮到基本概念義和所有的陪義?我們以Leech歸納的七種意義來討論這個(gè)問題。在這七類意義中,有些不屬于詞義描寫的范圍;有些意義具有不確定性、具體義因人而異。見表1:
表1 意義類型與特征
穩(wěn)定的詞義只有概念意義和情感意義。詞典無須描寫與詞義無關(guān)的意義,如反映意義、搭配意義和主題意義;詞典也不能描寫動(dòng)態(tài)的、因人而異的詞義,如含蓄意義和社會(huì)意義。概念意義和情感意義才是詞典釋義需要還原的對(duì)象。
語料庫語言學(xué)在詞匯語義方面的研究還揭示了詞義的另外一種形式: 語義韻(semantic prosody)。
語義韻與搭配語義不同,Leech的搭配意義指的是一個(gè)詞所獲得的各種聯(lián)想,這些聯(lián)想來自與這個(gè)詞經(jīng)常共現(xiàn)的一些詞的意義。(Leech 1987: 24—25)通過搭配語義可以區(qū)分基本概念義相同或相似的詞語,例如英語詞匯pretty和handsome基本概念義相似,但它們?cè)诖钆湟饬x上卻有所區(qū)別:
pretty + girl / boy / woman / flower / garden / colour / village
handsome + boy / man / car / vessel / overcoat / airliner / typewriter
語義韻也叫話語韻(discourse prosody),指的是修飾節(jié)點(diǎn)詞的搭配詞由于具有相同或相似的語義偏好(semantic preference),最終影響了節(jié)點(diǎn)詞的語義,使之擁有了搭配詞所包含的或貶或褒的聯(lián)想意義。語義韻可以分為消極語義韻(negative semantic prosody)、積極語義韻(positive semantic prosody)和中性語義韻(neutral semantic prosody)。(Stubbs 2002: 105—108)
語義韻加深了我們對(duì)詞義的理解。Hunston(2006: 60—61,142)的研究揭示了sit through具有“乏味”的語義韻,set in具有“不祥”的語義韻。因此,英語句子“He sat through the film.”表明他不但沒有被電影吸引,反而覺得其冗長(zhǎng)乏味;“A spell of fine weather set in.”這句英文由于語義韻的不和諧而顯得不自然。
語義韻反映的是詞匯的隱性義,是熟練語言使用者語言能力和詞匯知識(shí)的一部分,語義韻與詞匯的使用是否貼切和地道密切相關(guān)。
綜上所述,釋義就是用語言還原詞匯的概念義、情感義和語義韻。其他幾種詞義由于具有個(gè)人性的特征,不屬于語言社團(tuán)成員共享的知識(shí),因此不是釋義的對(duì)象。概念義是核心詞義,是釋義的主要對(duì)象;情感義并非是所有詞匯共有的,只存在于部分詞匯中,但是一旦某個(gè)詞匯具有了情感義,也需要在釋義時(shí)予以體現(xiàn);語義韻由于與詞匯的使用是否得當(dāng)有關(guān),因此也是釋義需要考慮的對(duì)象。
2. 語料驅(qū)動(dòng)釋義的優(yōu)點(diǎn)
釋義主要有兩種方法: 基于語料的經(jīng)驗(yàn)主義方法(即“語料驅(qū)動(dòng)法”)和基于內(nèi)省的理性主義方法(即“內(nèi)省法”)。這兩種方法都可以詮釋詞匯的概念義和情感義,但詞匯語義韻的釋解就只能借助語料庫才能進(jìn)行。概念義是詞匯的基本義,也是釋義的重點(diǎn)所在。本節(jié)從詞匯的概念義入手討論語料驅(qū)動(dòng)釋義的方法和優(yōu)勢(shì),情感義和語義韻的詮釋與之類似,不再贅述。
釋義一直是詞典重現(xiàn)詞義的首要手段,也是詞典學(xué)研究的重點(diǎn)。國(guó)內(nèi)學(xué)者對(duì)詞典釋義方式的研究較為深入,總結(jié)出了多種釋義方式。(胡明揚(yáng)等1982: 132—137;黃建華2001: 109—113)不論采用何種釋義方式,釋義方法不外乎上文提及的兩種: (1) 內(nèi)省法: 從內(nèi)省出發(fā),以個(gè)人對(duì)詞語的認(rèn)知為基礎(chǔ)構(gòu)建釋義文本,有時(shí)在釋義過程中參考收集的語言實(shí)例;(2) 語料驅(qū)動(dòng)法: 從語料出發(fā),以語言材料為基礎(chǔ),通過對(duì)其分析、歸納生成釋義文本。
在沒有語料庫可以使用之前,內(nèi)省無疑是釋義的主要方法,即使釋義時(shí)參考了語言實(shí)例,但零星的例子并不能構(gòu)成真正意義上的語料。我國(guó)已出版的單語和雙語詞典基本采用的都是內(nèi)省釋義的方法。例如:
狼藉亂七八糟: 雜亂不堪。(《現(xiàn)代漢語詞典》第6版)
目不暇接形容東西太多,眼睛看不過來。(《現(xiàn)代漢語詞典》第6版)
內(nèi)耗losses caused by internal strife(《新時(shí)代漢英詞典》)
內(nèi)秀intelligent without seeming so(《新世紀(jì)漢英大詞典》)
內(nèi)省釋義具有兩個(gè)難以克服的缺點(diǎn)。其一,難以操作,很多時(shí)候內(nèi)省難以構(gòu)建釋義文本。漢語里的功能詞和眾多的多義詞都是這種情況,例如“摸”“打”“不”等。內(nèi)省釋義困難的根源是釋義與文本的分裂,詞義需要在短語語境或更大的語境中才能具體化,所以離開文本而單憑個(gè)人思考來還原詞義必定困難重重。其二,釋義具有個(gè)人性,與詞語在語言中的典型義往往不一致,難以保證準(zhǔn)確和全面。
我國(guó)漢語界對(duì)釋義進(jìn)行的探討由來已久,對(duì)幾種主要詞類都建立了釋義模式。例如,名詞的基本釋義模式可以用公式表示如下:
m=tL(m代表被解釋的名詞,t代表種差,L代表類詞語)(符淮青 2009: 97),如:
軍旗軍隊(duì)的旗幟。
名詞釋義模式在面對(duì)不同詞語的時(shí)候會(huì)進(jìn)行些許調(diào)整,但以種差和類詞語構(gòu)建釋義核心內(nèi)容的方法基本保持不變。釋義模式在詞典編寫中發(fā)揮了巨大作用,它為解釋紛繁復(fù)雜的詞義找出了一條清晰的路線,大大提高了詞典釋義的效率。
然而,基于模式的釋義方式也不能克服內(nèi)省法固有的缺陷,以下例子都來自于《現(xiàn)代漢語詞典》第6版:
地?cái)傇诘厣详惲胸浳锍鲑u的攤子。
花絮比喻各種有趣的零碎新聞(多用于新聞報(bào)道的標(biāo)題)。
水①最簡(jiǎn)單的氫氧化合物,化學(xué)式H2O。無色、無味、無臭的液體,在標(biāo)準(zhǔn)大氣壓(101.325千帕)下,冰點(diǎn)0℃,沸點(diǎn)100℃,4℃時(shí)密度最大,為1克/毫升。
可以清楚看出以上三個(gè)釋義的缺陷?!暗?cái)偂焙汀盎ㄐ酢钡尼屃x顯然出現(xiàn)了差錯(cuò);“水”的學(xué)科性釋義遠(yuǎn)離生活,不適合語文詞典的使用對(duì)象。
語料驅(qū)動(dòng)釋義可以克服內(nèi)省釋義法的主要不足。由于釋義基于語料,釋義就是從語料中歸納詞義,所以釋義無從下手的問題基本可以緩解。例如,單憑內(nèi)省對(duì)“不”進(jìn)行釋義比較困難,但是如果有下列語料的支持,釋義就會(huì)變得簡(jiǎn)單:
語料: 夠不到;搬不動(dòng);寫不好;說不清;看不見。
釋義: 不 用在動(dòng)補(bǔ)結(jié)構(gòu)中間,表示不可能達(dá)到某種結(jié)果。[1]
語料驅(qū)動(dòng)法還可以克服釋義個(gè)人性的問題,使釋義更準(zhǔn)確和全面。以“狼藉”為例,在現(xiàn)代漢語語料庫(www.cncorpus.org)中檢索到以下關(guān)鍵索引行:
1) 三個(gè)人的興致都很高,你勸我,我勸你,你賀我,我謝你,直吃得杯盤狼藉,碗底朝天。
2) 桌上杯盤狼藉,那些大蠟臺(tái)上一盞盞洋蠟也都被夜風(fēng)搖曳的沒了光亮。
3) 蘇聯(lián)和各國(guó)共產(chǎn)黨當(dāng)時(shí)也嚴(yán)厲打擊并揭露托派第四國(guó)際,致使它聲名狼藉。
從上述索引行來看,“狼藉”應(yīng)該有兩個(gè)義項(xiàng),一個(gè)是基本義,另一個(gè)是比喻義?;谝陨险Z料,可以對(duì)“狼藉”釋義如下:
狼藉① 亂七八糟,雜亂不堪,如“杯盤狼藉”。② 比喻行為不檢點(diǎn),名聲不好,如“聲名狼藉”。
下面再看看語料驅(qū)動(dòng)法對(duì)“目不暇接”的釋義:
語料(來自現(xiàn)代漢語語料庫,經(jīng)過整理):
4) 好玩的地方太多,莉莉東張西望,目不暇接,不知道究竟玩什么才好。
5) 走進(jìn)山東威海地毯毛紡廠的車間,一排排國(guó)內(nèi)外先進(jìn)設(shè)備,奪目爭(zhēng)輝;再進(jìn)展品室,完全是地毯的世界: 鋪的、掛的,手織的、機(jī)織的,方的、圓的,令人目不暇接。
6) 打唱臺(tái)上的猴園樂園以及三打白骨精、沉香劈山救母等傳統(tǒng)姑蘇燈彩被打入了光、電、聲新技術(shù),使整個(gè)公園菊燈交融、聲光相接、動(dòng)靜結(jié)合,令人目不暇接、流連忘返。
7) 各種類型的叢書、辭書、專著和論文如雨后春筍般萌發(fā)出來,令人目不暇接。
8) 這天上午,我到東珠市口大街的北馬路牙子上玩耍,有軌電車叮當(dāng)亂響,穿梭來往,小販吆喝叫賣,九腔十八調(diào),令人眼花繚亂,目不暇接,兩只耳朵不夠使喚。
9) 現(xiàn)在,文藝園地百花競(jìng)艷,繁花似錦,使人目不暇接。
10) 這里的商品真是琳瑯滿目,應(yīng)有盡有,使人有些目不暇接,眼花繚亂。
語料分析: 在現(xiàn)代漢語語料庫中共檢索到19條包含“目不暇接”的索引行,所有的索引行都顯示“目不暇接”的對(duì)象是新奇、美好的“東西”。因此,我們可將其釋為:
目不暇接新奇、美好的東西太多,眼睛看不過來。
使用語料驅(qū)動(dòng)的方法,“地?cái)偂焙汀盎ㄐ酢钡尼屃x也可以得到修正:
地?cái)倹]有正規(guī)的經(jīng)營(yíng)店面,直接擺在地上經(jīng)營(yíng)的攤點(diǎn)。
花絮指新聞或畫面外有趣而零碎的片段。
上文“內(nèi)耗”和“內(nèi)秀”的英文釋義顯然是基于內(nèi)省的釋義。漢英詞典編寫時(shí),由于編纂者有時(shí)無法通過內(nèi)省獲得英語對(duì)應(yīng)詞,只好采取解釋性釋義。對(duì)于內(nèi)向型的編碼詞典來說,解釋性釋義的意義不大。使用語料驅(qū)動(dòng)的方法,可以檢索到許多個(gè)人內(nèi)省無法獲得的目標(biāo)語對(duì)應(yīng)詞。借助于平行語料庫PECC[2],檢索到“內(nèi)耗”和“內(nèi)秀”的對(duì)應(yīng)詞分別為:“infight; infighting”和“a diamond in the rough”。語料驅(qū)動(dòng)彌補(bǔ)了個(gè)人知識(shí)的不足,使釋義更加準(zhǔn)確有效。
三、 語料驅(qū)動(dòng)釋義存在的問題
前一節(jié)論述了語料驅(qū)動(dòng)釋義的優(yōu)點(diǎn),但是基于索引行的語料驅(qū)動(dòng)法卻遠(yuǎn)非想象的那么簡(jiǎn)單而易于操作。
雖然說索引行承載了詞義,但基于索引行的詞義還原有一個(gè)難以克服的困難: 那就是難以對(duì)檢索到的大量句子語料進(jìn)行分析和整理。例如,以“戰(zhàn)爭(zhēng)”為關(guān)鍵詞在PECC中檢索,共命中2016個(gè)檢索行(句子);以“水”為關(guān)鍵詞,在現(xiàn)代漢語語料庫中共檢索到5318個(gè)索引行。實(shí)際上,人工手段難以對(duì)如此龐大的數(shù)據(jù)進(jìn)行釋讀和分析。
針對(duì)PECC命中的檢索行進(jìn)一步研究發(fā)現(xiàn),大多數(shù)的語料都是在重復(fù)關(guān)鍵詞的某一個(gè)或幾個(gè)使用義。例如:
11) 瞎說一頓之不能解決問題是大家明了的,那末,停止你的發(fā)言權(quán)有什么不公道呢?
12) 他一定要弄壞事情,一定要失掉群眾,一定不能解決問題。
13) 調(diào)查就像“十月懷胎”,解決問題就像“一朝分娩”。
14) 他們是認(rèn)真地在那里進(jìn)行工作,他們是仔細(xì)地在那里解決問題。
在以上例11)—例14)這些語料中,“問題”都意為“須要研究討論并加以解決的矛盾、疑難”(《現(xiàn)代漢語詞典》),相當(dāng)于英語里的problem, issue。大量重復(fù)的語料使基于檢索行分析的工作量成倍增加,事實(shí)上,在實(shí)際的研究中對(duì)語料的窮盡分析常常無法完成。在這種情況下,基于語料的釋義并不能獲得最大的收益。
對(duì)于語料庫的效率問題,Chomsky早就有過質(zhì)疑。他(1984: 44)認(rèn)為內(nèi)省不僅比語料庫的方法效率更高,也是語言研究的唯一方法,他曾對(duì)內(nèi)省的作用做過如下總結(jié): 如果你靜靜地坐著,幾分鐘的思考就可以輕易獲得大量的相關(guān)數(shù)據(jù)。我國(guó)國(guó)內(nèi)也不乏類似的聲音,至今仍有學(xué)者對(duì)語料庫方法持懷疑態(tài)度,在詞典編纂過程中,內(nèi)省釋義仍然是主流。
在詞典的編寫過程中,如果以上問題得不到合理解決,基于語料庫的詞典編纂很容易變成“口號(hào)式的空談”。
四、 對(duì)策: 基于短語的方法
1. 短語驅(qū)動(dòng)釋義的理據(jù)
在實(shí)際的詞典編纂過程中,語料驅(qū)動(dòng)方法的缺點(diǎn)一直困擾著詞典學(xué)家和編纂人員。為了提高語料驅(qū)動(dòng)的效率,研究人員也提出了一些解決方案,其中主要的方法是對(duì)語料進(jìn)行語義標(biāo)注。但是,語義標(biāo)注的工程極為浩大,大多數(shù)語義標(biāo)注語料庫最后都停留在了理論上。另外,語義標(biāo)注難以克服錯(cuò)碼和漏注等問題,實(shí)際檢索效率還沒有得到證明。
與內(nèi)省相比,語料庫驅(qū)動(dòng)的最大優(yōu)勢(shì)是可以提供語境,因此有利于從“語言的使用”中來考察詞義。從語境理論來看,語境多種多樣(Malinowski 1923;Firth 1957;王建華 2002),但簡(jiǎn)而言之,語境不外乎源自語言系統(tǒng)本身的言內(nèi)語境和來自語言系統(tǒng)之外的社會(huì)文化語境。社會(huì)文化語境與詞匯的社會(huì)意義相關(guān),如前文所言,由于詞匯的社會(huì)意義不具有穩(wěn)定性,它不是釋義必不可少的要素。詞匯的概念意義和情感意義主要由言內(nèi)語境所決定。言內(nèi)語境有大小層次之分,大到完整的篇章,小到句子短語都是言內(nèi)語境。一般情況下,句子就能夠使詞義明晰化,因此,語料檢索所得的索引行也基本上以句子為基礎(chǔ)。但是,由于以句子為基礎(chǔ)的索引行存在數(shù)據(jù)噪音難以抑制的問題,目前語料庫語言學(xué)界慣用的關(guān)鍵詞索引(KWIC)方法在釋義時(shí)的效用會(huì)受到很大影響。
短語是比句子更小的語言單位,在當(dāng)代語言學(xué)領(lǐng)域,短語具有特殊的含義,是短語學(xué)的研究對(duì)象。Gries(2008: 6)認(rèn)為“短語”是一個(gè)詞匯單位和另一個(gè)或幾個(gè)詞匯單位的共現(xiàn),該共現(xiàn)組合具有獨(dú)立完整的語義功能,其共現(xiàn)頻率大于理論頻率。
可以肯定的是,大多數(shù)情況下,詞義在句中能夠明晰化,那么詞義在短語中是否也能明晰化呢?
英語詞匯多一詞多義,在脫離語境的情況下,我們可以說某個(gè)詞是有歧義的,如sake,light,foot等。蒯因(2005: 37—42)將句子分為場(chǎng)合句(occasion sentence)和恒定句(standing sentence)。由于存在單詞句,所以詞匯也可以有場(chǎng)合和恒定之分。像“二氧化碳、石榴、函數(shù)”這樣的詞匯屬于恒定類,其概念義比較透明;而像前面提到的“sake”等英語詞就是場(chǎng)合詞,其義隨語境變化(或者說其義在語境中才能透明)。英語單詞sake的詞義非常模糊,但只要我們將其置于“for the sake of”這一短語中,其義立即明晰起來;“as light as a feather”也使得light的詞義得以明確;“foot”既是名詞,也可以作為動(dòng)詞使用,在“hands and feet”“on foot”“foot the bill”這些短語中,不僅其詞性變得明朗,而且歧義也得以消除。
對(duì)于詞匯的歧義,蒯因(2005: 142)還談到了“過程—結(jié)果”(process-product)歧義詞。如“assignment”一詞,它既可以指分配的行為(the act of assigning),也可以指被分配的東西(the thing assigned)。例如:
15a) After the school assignment, she began to watch television.
15b) Fast as you do, you can’t finish the assignment in two hours.
16a) His assignment to the new department was due to his competence in English.
16b) The assignment of candidates to types of job is in effect random.
在例15)中,assignment義為“duty”,即“the thing assigned”;而例16)表示的是“the act of assigning”?;谝陨暇渥?,可以提取相關(guān)短語: school assignment, finish the assignment和assignment to?!癮ssignment”的歧義在短語中也如其在句子中一樣得到了消解。
我們現(xiàn)在還沒有充分理由認(rèn)為所有詞語的詞義都可以通過其所在的短語而得以具體化和明晰化,像“poor politician”這樣的短語并不能使“poor”的詞義明晰化,即使我們將該類短語拓展為句子也無濟(jì)于事,如“He is a poor politician./The poor politician has resigned.”。這里存在的問題并不能說明我們需要比句子更大的語境才能確定“poor”的詞義?!皃oor politician”之所以具有歧義是因?yàn)樾稳菰~修飾語“poor”和名詞“politician”之間的搭配所致,短語“poor politician”并沒有起到消除歧義的作用,而在短語“poor but happy;help the poor”和“poor baby;poor donkey”中,“poor”的詞義就會(huì)明朗起來。
綜上所述,我們認(rèn)為,詞匯的概念義和情感義大多可以通過該詞語所處的短語語境而得以明確,短語驅(qū)動(dòng)可以取代句子驅(qū)動(dòng)反映詞語的使用,前文的“杯盤狼藉”和“聲名狼藉”亦可為佐證。
短語驅(qū)動(dòng)還可以克服語料驅(qū)動(dòng)所面臨的索引行過多這一難題,這是短語驅(qū)動(dòng)釋義的另一個(gè)理據(jù)。
如果我們對(duì)上一節(jié)的語料做進(jìn)一步的分析,就會(huì)發(fā)現(xiàn),詞匯有共現(xiàn)的特性,如例11)—例14)中“問題”與“解決”的共現(xiàn)。共現(xiàn)構(gòu)成了短語,也使詞義具體化?!皢栴}”與“解決”共現(xiàn)時(shí),其義為“須要研究討論并加以解決的矛盾、疑難”;如果“問題”與“回答”共現(xiàn),如例17)—例20),那么它的詞義就是“要求回答或解釋的題目”,用英語說就是question,而不是problem。
17) 第一個(gè)問題倒容易回答。
18) 這個(gè)節(jié)目的要求很簡(jiǎn)單——回答15個(gè)問題,如果全答對(duì)就可贏得一百萬美元。
19) 我開始每天撥打電話,隨著回答出的問題難度不斷增大,我的心跳也不斷加快,我自己也覺得很詫異。
20) 你是符號(hào)學(xué)方面的專家,我們希望你能幫助我們回答這個(gè)問題。
由于索引行蘊(yùn)含的詞義信息具有高度重復(fù)性,而且詞義可以在短語語境中被具體化,接下來可以這樣設(shè)想: 如果能將與關(guān)鍵詞(被釋義詞)存有搭配關(guān)系的短語從語料庫中提取出來,那么釋義效率不僅與基于索引行的釋義方法相當(dāng),而且還會(huì)免去分析大量索引行所需的時(shí)間,使語料驅(qū)動(dòng)釋義更加切合實(shí)際。我們可以將短語驅(qū)動(dòng)視作語料庫驅(qū)動(dòng)的最簡(jiǎn)方案(minimalist approach)。
2. 短語驅(qū)動(dòng)釋義的方法
短語驅(qū)動(dòng)的優(yōu)勢(shì)已經(jīng)得以明確,但是短語的提取卻不能采用簡(jiǎn)單的關(guān)鍵詞索引方法,需要設(shè)計(jì)新的方案提取短語。也就是說,短語驅(qū)動(dòng)釋義法的關(guān)鍵是短語的自動(dòng)識(shí)別和提取。
正因?yàn)闃?gòu)成短語的詞語具有共現(xiàn)傾向,也就是說當(dāng)觀察到“問題”時(shí),“解決”的共現(xiàn)頻率會(huì)高于與“問題”沒有搭配關(guān)系的詞語(例如“發(fā)行”)的頻率,所以從統(tǒng)計(jì)測(cè)量的角度自動(dòng)識(shí)別和提取短語就成了首選的解決方案。通過相關(guān)統(tǒng)計(jì)模型可以有效鑒別短語和非短語。
目前很少有文獻(xiàn)專門論述短語的自動(dòng)識(shí)別和提取,但是我們完全可以借鑒語料庫語言學(xué)領(lǐng)域?qū)Υ钆淞Φ挠?jì)算方法來計(jì)算構(gòu)成短語各字詞之間的共現(xiàn)頻率值。對(duì)于搭配的識(shí)別,語言學(xué)家們發(fā)現(xiàn)了多種方法,Evert (2005) 討論過30多種方法,Pecina (2005) 列舉的度量方法更是多達(dá)57種。在這些測(cè)量方法中,有三種最為流行,即Z值測(cè)量法、t值測(cè)量法和MI(Mutual Information)值(互信息值)測(cè)量法。下面以Z值測(cè)量法為例,來說明短語自動(dòng)識(shí)別的基本原理。
(1) 設(shè)跨度S=5,以節(jié)點(diǎn)詞(如question)在BROWN語料庫中進(jìn)行索引,得節(jié)點(diǎn)詞頻數(shù)n為257,小文本的詞語數(shù)M=(2S+1)×n=2827
(2) 語料檢索得到搭配詞“answer”在語料庫中總使用頻率F(c)=153,搭配詞在文本總體(N)中的出現(xiàn)頻率P=F(c)/N。N=1200428,P=153/1200428=0.000127
(3) 搭配詞的期待頻數(shù)E=P×M=0.36
(5) Z值=(F(n,c)-E)/ SD,其中F(n,c)是節(jié)點(diǎn)詞和搭配詞的共現(xiàn)次數(shù),在LOB中,answer和question的共現(xiàn)次數(shù)為12,因此Z=(12-0.36)/0.6=19.39
表2是當(dāng)跨度為5時(shí),在BROWN語料庫中與節(jié)點(diǎn)詞question相關(guān)的幾個(gè)搭配詞的Z值:
表2 與question相關(guān)的搭配詞的Z值
雖然各種統(tǒng)計(jì)度量方法都可以進(jìn)行短語自動(dòng)識(shí)別,但針對(duì)不同語言也表現(xiàn)出一定的差異性。初步研究表明識(shí)別英語短語時(shí),MI值的識(shí)別方法優(yōu)于Z值;識(shí)別漢語短語時(shí),Z值效率最高。(李德俊 2014: 8—13)短語識(shí)別也可以采用復(fù)合的方式,以提高識(shí)別的效率。表3是利用現(xiàn)代漢語語料庫語料,使用ICTCLAS(Build 269)分詞后,在WordSmith 5.0中計(jì)算出的與“水”相關(guān)的具有統(tǒng)計(jì)意義的短語的Z值:
表3 與“水”相關(guān)的搭配詞Z值
Z值大于2就具有統(tǒng)計(jì)意義,依據(jù)Z值,很多“噪音”被有效地過濾,短語被凸顯了出來。如果將Z值與其他統(tǒng)計(jì)值聯(lián)合使用,會(huì)取得更好的效果。
短語驅(qū)動(dòng)的方法完成了語料驅(qū)動(dòng)釋義的第一步,即短語的識(shí)別和提取,接下來要對(duì)短語進(jìn)行分類:
(1) 河水、湖水、海水、地下水;(2) 水源、開水、喝水、飲水;(3) 灌溉水、澆水;(4) 清水、純凈水;(5) 洪水。
詞義分析:
河水、湖水、海水、地下水→組成河流、湖泊、海洋的主要成分;
水源、開水、喝水、飲水→動(dòng)物和人賴以生存的必需物質(zhì);
灌溉水、澆水→植物賴以生存的必需物質(zhì);
清水、純凈水→純凈狀態(tài)下為無色無味的液體;
洪水→暴雨過度可致其泛濫而引起水災(zāi)。
(短語驅(qū)動(dòng))釋義: 水 組成河流、湖泊、海洋的主要成分,動(dòng)植物和人賴以生存的必需物質(zhì),純凈狀態(tài)下為無色無味的液體,暴雨過度可致其泛濫而引起水災(zāi)。
基于短語的釋義不僅更加通俗易懂,而且也更好地還原了詞匯的經(jīng)驗(yàn)值。短語驅(qū)動(dòng)釋義是語料驅(qū)動(dòng)釋義的特殊形式,它將語料具體到短語,是語料驅(qū)動(dòng)的具體化。
短語驅(qū)動(dòng)釋義也適合比喻義的研究。很多詞語都有比喻性的用法,有人甚至認(rèn)為語言本身就是隱喻的。萊肯(2011: 214)說:“由任何人生成的幾乎每一個(gè)句子都包含著重要的隱喻或其他比喻性元素。”短語語境可以甄別字面義和比喻義,這是短語使詞義具體化的另一種情況。以“深淺”為例,語料分析顯示,當(dāng)“深淺”與“顏色”(包括“紅”“綠”“褐”等具體的顏色詞)、“色彩”、“水”、“不一”等共現(xiàn)時(shí),其義為字面義;當(dāng)“深淺”與“不知”“理解”“閱歷”“專業(yè)”等共現(xiàn)時(shí),其義是比喻義。
并不是所有的比喻義都是詞典學(xué)關(guān)注的對(duì)象。詞的比喻義有兩類,一類是字面義偶爾的畸變,如把朱麗葉比作太陽;另一類由于在語言中一再重復(fù)地使用而被大眾所接受,如“深淺”的比喻義。后一種比喻義由于使用頻率高,在語言系統(tǒng)中已經(jīng)變成了詞語字面義之外的默認(rèn)義,它是詞語的一個(gè)新的義項(xiàng)。
詞典編纂需要大量的人力和時(shí)間,短語驅(qū)動(dòng)能取得更大的效益?;陉P(guān)鍵詞檢索的技術(shù)會(huì)獲得數(shù)以百計(jì)或千計(jì)的檢索行,通過人工逐條研讀和分析在實(shí)踐上是辦不到的。短語驅(qū)動(dòng)是對(duì)關(guān)鍵詞檢索行的進(jìn)一步分類和篩選,它充分利用了計(jì)算機(jī)的自動(dòng)處理功能,過濾了大量的冗余信息,將研究者從海量數(shù)據(jù)中解放了出來。
五、 結(jié)論與評(píng)述
在題為“Corpus-driven Lexicography”的文章中,Krishnamurthy(2008: 231—242)全面闡述了Sinclair關(guān)于語料驅(qū)動(dòng)的概念,并對(duì)語料驅(qū)動(dòng)詞典學(xué)的研究方法闡述如下:
語料驅(qū)動(dòng)詞典學(xué)的研究方法是自下而上的方法,研究從語料檢索開始,繼而對(duì)檢索到的、未經(jīng)任何修改的原始語料進(jìn)行分析,然后再根據(jù)詞典研究的需要對(duì)其進(jìn)行分類。語料驅(qū)動(dòng)詞典編纂不認(rèn)可既往的詞目;新詞目、義項(xiàng)、釋義都依賴于對(duì)語料的分析。
語料由句子組成,句子又由短語構(gòu)成,因此短語是語料的一個(gè)單位。短語驅(qū)動(dòng)是語料驅(qū)動(dòng)的特殊方式,與語料驅(qū)動(dòng)相比,短語驅(qū)動(dòng)具有多種優(yōu)勢(shì)。首先,語料驅(qū)動(dòng)沒有明確的驅(qū)動(dòng)單位,從詞到篇都是語料,研究的對(duì)象不確定。其次,短語可以自動(dòng)識(shí)別和提取。最后,基于短語的釋義模式效率更高。短語驅(qū)動(dòng)不僅可以建構(gòu)釋義文本、再現(xiàn)詞語的使用義,而且還可以避免單純的關(guān)鍵詞檢索方式所產(chǎn)生的索引行過多、信息無法分析和釋讀等問題。隨著短語自動(dòng)識(shí)別技術(shù)的日臻成熟,針對(duì)未標(biāo)注語料庫進(jìn)行短語自動(dòng)提取已經(jīng)從理論走向了現(xiàn)實(shí)。短語驅(qū)動(dòng)不僅能大幅度提高詞典研編的效率,也將會(huì)是邁向詞典編纂自動(dòng)化的重要一步。但是,短語學(xué)的相關(guān)研究還沒有引起國(guó)內(nèi)詞典學(xué)界的重視,我們?nèi)匀灰揽繉?duì)索引行的解釋來進(jìn)行釋義和配例。詞典學(xué)既是理論學(xué)科,同時(shí)也是一門技術(shù)學(xué)科。詞典學(xué)在技術(shù)領(lǐng)域近年來發(fā)展迅速,國(guó)外學(xué)者不僅提出了自動(dòng)識(shí)別、提取短語(搭配)的方法,也開發(fā)了相關(guān)的識(shí)別工具,如Sketch Engine,它們已應(yīng)用于基于語料庫的大型英語詞典的編纂,并取得了良好的效果。我們注意到,在理論研究之外,詞典編纂技術(shù)將是未來詞典學(xué)研究的主要方向之一。但是目前還沒有針對(duì)漢語開發(fā)的短語自動(dòng)識(shí)別工具,由于識(shí)別前需要對(duì)漢語語料進(jìn)行分詞處理,漢語分詞存在的問題會(huì)影響短語自動(dòng)識(shí)別的準(zhǔn)確度。為了提升我國(guó)詞典研編的水平,詞典輔助編纂工具的研究和開發(fā)勢(shì)在必行。
附注
[1] 釋義來自《現(xiàn)代漢語詞典》,但顯然此釋義參考了語料,不完全基于內(nèi)省。
[2] PECC(Parallel English Chinese Corpus)是國(guó)家哲學(xué)社會(huì)科學(xué)基金項(xiàng)目“平行語料庫與積極型《漢英詞典》的研編”的第一期工程。
參考文獻(xiàn)
1. 符淮青.詞義的分析和描寫.北京: 外語教學(xué)與研究出版社,2009.
2. 胡明揚(yáng)等.詞典學(xué)概論.北京: 中國(guó)人民大學(xué)出版社,1982.
3. 胡文飛.新型漢英學(xué)習(xí)詞典釋義原則的構(gòu)建.辭書研究,2013(4).
4. 黃建華.詞典論.上海: 上海辭書出版社,2001.
5. 蒯因.語詞和對(duì)象.陳啟偉,朱銳,張學(xué)廣譯.北京: 中國(guó)人民大學(xué)出版社,2005.
6. 萊肯.當(dāng)代語言哲學(xué)導(dǎo)論.陳波,馮艷譯.北京: 中國(guó)人民大學(xué)出版社,2011.
7. 李德俊.短語及其自動(dòng)識(shí)別研究評(píng)述.外語研究,2014(6).
8. 王馥芳,羅敏莉.語料庫詞典學(xué)的興起與發(fā)展.辭書研究,2004(5).
9. 王建華.關(guān)于語境的構(gòu)成與分類.語言文字應(yīng)用,2002(3).
10. 維特根斯坦.哲學(xué)研究.湯潮,范光棣譯.北京: 三聯(lián)書店出版社,1992.
11. 楊蔚.試析原型及相關(guān)認(rèn)知理論的詞典效應(yīng).外語教學(xué),2011(1).
12. 張志毅,張慶云.詞匯語義學(xué).北京: 商務(wù)印書館,2001.
13. 茲古斯塔.詞典學(xué)概論.林書武等譯.北京: 商務(wù)印書館,1983.
14. Chomsky N.ModularApproachestotheStudyoftheMind. San Diego: San Diego University Press, 1984.
15. Evert S.TheStatisticsofWordCooccurrences: Word Pairs and Collocations.Stuttgart:InstitutfürmaschinelleSprachverarbeitung,UniversityofStuttgart, 2005.Avaiablefromhttp:∥www.collocations.de/phd.html.
16.FirthJR. Papers in Linguistics 1934—1951.Oxford:OxfordUniversityPress, 1957.
17.GriceHP.Utterer’sMeaningandIntention. Philosophical Review,1969(78).
18.GriesS.PhraseologyandLinguisticTheory:ABriefSurvey. ∥GrangerS,MeunierF. (eds.) Phraseology: An Interdisciplinary Perspective.Amsterdam/Philadelphia:JohnBenjaminsPublishingCompany, 2008.
19.HartmannRRK,JamesG. Dictionary of Lexicography.Beijing:ForeignLanguageTeachingandResearchPress, 2000.
20.HunstonS. Corpora in Applied Linguistics. 北京: 世界圖書出版公司,2006.
21.HunstonS.Corpus Approaches to Evaluation: Phraseology and Evaluative Language.NewYork:Routledge, 2011.
22.KrishnamurthyR.Corpus-drivenLexicography. International Journal of Lexicography, 2008(21).
23.LeechG.語義學(xué).李瑞華等譯. 上海: 上海外語教育出版社, 1987.
24.MalinowskiB.TheProblemofMeaninginPrimitiveLanguages.∥OgdenCK,RichardsIA. (eds.) The Meaning of Meaning.NewYork:Harcourt,Brace&World, 1923: 451—510.
25.McEneryT. Corpus Linguistics: Method, Theory and Practice.Cambridge:CombridgeUniversityPress, 2012.
26.PecinaP.AnExtensiveEmpiricalStudyofCollocationExtractionMethods. ∥Proceedings of the ACL Student Research Workshop, 2005.
27.SinclairJ.TheSearchforUnitsofMeaning. Textus, 1996(9).
28.StubbsM. Words and Phrases: Corpus Studies of Lexical Semantics.Oxford:Blackwell, 2002.
29.Tognini-BonelliE. Corpus Linguistics at Work.Amsterdam:JohnBenjaminsPublishingCompany, 2001.
(中國(guó)人民解放軍國(guó)際關(guān)系學(xué)院江蘇210039)
(責(zé)任編輯李瀟瀟)
Corpus-driven Definition: Values, Drawbacks and Solutions
Li Dejun
Abstract:The value of the corpus to lexicography cannot be overestimated. The corpus is not only significant in citation selection but also in dictionary definition writing. However, the corpus-driven method also has some drawbacks, which, if inappropriately treated, will be counterproductive. This paper, using concrete examples, discusses the advantages and problems of corpus-driven dictionary definition. As a special form of corpus-driven definition, the phraseology-driven method is recommended to solve these problems and make the corpus-driven method more efficient.
Key words:the corpus, corpus-driven, definition, phraseology