王恩旭,袁毓林
(1.北京大學(xué) 中文系,北京100871; 2. 曲阜師范大學(xué) 文學(xué)院,山東 曲阜273165)
機器理解詞義主要借助于詞典,但目前的詞典釋義還不準確,也不完備。突出表現(xiàn)在:
(1) 文獻[1]、[2]考察詞典的名詞釋義時發(fā)現(xiàn),釋義不完備的情況隨處可見。比如“書”“唱片”等本該包含“物質(zhì)”“信息”兩個義位,但詞典只收錄“物質(zhì)”一個義位,漏掉了“信息”義位。
(2) 文獻[3]調(diào)查了《現(xiàn)代漢語詞典》(2005版,簡稱《現(xiàn)漢》)、《現(xiàn)代漢語規(guī)范詞典》(2004版,簡稱《規(guī)范》)、《新華字典》(2001版)等辭書后發(fā)現(xiàn),“本義-引申義”的聯(lián)系普遍不夠明顯。
(3)循環(huán)釋義的情況還比較常見,比如“漂亮”,《現(xiàn)漢》(2012版)的釋義就是循環(huán)的:
【漂亮】好看;美觀。
【好看】看著舒服;美觀;精彩。
【美觀】好看;漂亮。
從文獻[4]對《現(xiàn)漢》(2012版)的調(diào)查來看,2 094個雙音復(fù)合詞中循環(huán)釋義的有246個,占總量的11.7%。循環(huán)釋義或同義詞釋義的方式,對以漢語為母語的人來說問題不大,但對機器或外國學(xué)習(xí)者來說,卻容易出問題。因為,任何兩個詞的意義都不完全對等。此時,用一個同義詞來解釋另一個同義詞,就容易讓讀者忽略同義詞之間的差別,造成詞語使用上的混亂。
(4) 不論詞典的規(guī)模多大、更新的速度多快,通常都無法窮盡所有的新詞,而這些新詞往往就是機器理解詞的主要障礙。*以分詞為例,研究表明,60%的分詞錯誤是新詞和未登錄詞造成的[6]。
本文的目標: 通過分析詞的語義結(jié)構(gòu)、構(gòu)建詞的釋義模版,解決多義詞、同義詞、新造、合成詞等釋義問題,為自然語言處理及機器詞典編纂服務(wù)。
分析詞的語義結(jié)構(gòu),本文采用生成詞庫論的方法。*和已有的理論相比,生成詞庫論提供了一個更為豐富、完備的詞義描述框架,被廣泛應(yīng)用于多種語言的詞典編纂和語義資源建設(shè)之中。但在漢語中,生成詞庫論還限于解釋一些個別的語言現(xiàn)象,系統(tǒng)的面向計算的詞匯語義分析尚未展開[7]。根據(jù)文獻[5],詞的概念結(jié)構(gòu)中可能包括以下四方面的信息:
(1) 語義類型(TYPESTR): 每個詞都屬于一個特定的語義類;
(2) 論元結(jié)構(gòu)(ARGSTR): 確定謂詞的論元性質(zhì)、數(shù)量及其句法實現(xiàn)情況;
(3) 事件結(jié)構(gòu)(EVESTR): 確定表達式的事件類型、事件成分及事件關(guān)系;
(4) 物性結(jié)構(gòu)(QUALIA): 包括一個詞的表現(xiàn)形式是什么(formal)、由什么構(gòu)成(constitutive)、有哪些功能(telic)、怎樣產(chǎn)生(agentive)四種物性角色。
詞類不同,詞的語義結(jié)構(gòu)分析方法往往便不同。分析名詞的語義結(jié)構(gòu),適合從物性結(jié)構(gòu)入手。和其他詞類相比,名詞的語義信息更為復(fù)雜,除了文獻[5]的四種物性角色外,還可能包含材料、單位、處置、行為、定位五種物性角色[1]。分析名詞的語義結(jié)構(gòu),先要弄清名詞包含了哪些物性信息;然后再分析它的語義成分和語義關(guān)系。以“椅子(有腿有靠背的坐具)”為例,分析它的物性結(jié)構(gòu),可以得到以下信息:
語義類信息: 人造物;家具類
物性結(jié)構(gòu)信息: 功用角色(供人坐);構(gòu)成角色(由靠背、四條腿等構(gòu)成)
在此基礎(chǔ)上,確定“椅子”的詞義成分和詞義關(guān)系:
詞義成分: 3個(人/家具/靠背和四條腿)。
詞義關(guān)系: 3種(語義類關(guān)系,“家具”和“椅子”是上下位關(guān)系;功用關(guān)系,“供人坐”或“用來坐”是“椅子”的功用;構(gòu)成關(guān)系,“靠背和四條腿”是“椅子”的構(gòu)成成分。)
分析動詞的語義結(jié)構(gòu),適合從論元結(jié)構(gòu)入手。論元結(jié)構(gòu)的基本語義成分是動詞和論元,基本語義關(guān)系是動詞和論元的關(guān)系。論元有兩種: 一種是必有論元,一種是非必有論元[8]。根據(jù)必有論元數(shù)量的多少,可將動詞分為三類: 一價動詞(帶一個必有論元)、二價動詞(帶兩個必有論元)和三價動詞(帶三個必有論元)。分析動詞的論元結(jié)構(gòu),先要弄清動詞需要跟帶哪些論元,哪些是必有論元,哪些是非必有論元;然后弄清動詞和論元之間的關(guān)系。以“走(人或鳥、獸用雙腳在地上交替向前移動)”為例:
語義類信息: 身體活動;位移類
必有論元: 1個(人或鳥、獸);
非必有論元: 3個(雙腳/前/地上)
語義關(guān)系: 6種(語義類關(guān)系,“移動”和“走”是上下位關(guān)系;施事-動作關(guān)系,“人或鳥、獸”是“移動”的施事;工具-動作關(guān)系,“(用)雙腳”是“移動”的工具;處所-動作關(guān)系,“(在)地上”是“移動”的處所;方式-動作關(guān)系,“(雙腳)交替”是“移動”的方式;動作-方向關(guān)系,“移動”的方向是“(向)前”)
分析形容詞的語義結(jié)構(gòu),適合從搭配入手。選擇從搭配入手,基于以下幾方面的考慮: (1)形容詞的意義虛泛、空靈,從其自身入手不容易把握,最好的辦法莫過于看它的搭配對象。(2)從形式上看,形容詞常和兩類詞搭配: 另一類是名詞,如“白紙”、“薄皮”、“明月”、“甜棗”、“低空”等;一類是動詞,如“明說”“慢走”“亂跑”“高唱”“緊握”等。從意義上看,形容詞并不直接和實體名詞搭配,而是先和屬性名詞搭配,然后再和實體名詞搭配,即“顏色白的紙/厚度小的皮/光線明的月亮”;同樣,形容詞也并不直接和動詞搭配,而是先和屬性名詞搭配,然后再和動詞搭配,即“以公開的方式說/以較慢的速度走/以較高的聲音唱”。這說明,形容詞無論和實體名詞還是和動詞搭配,本質(zhì)是一樣的,其真正的搭配對象是屬性名詞。(3)文獻[9-10]指出,實體名詞、屬性名詞和形容詞之間存在配價上的關(guān)系,實體名詞可以看作是屬性名詞的論元,形容詞是屬性的值,即“實體名詞(屬性名詞)=形容詞”。
詞的意義和搭配之間存在著一種內(nèi)在的聯(lián)系[11]。分析形容詞的語義結(jié)構(gòu),就是要弄清形容詞和什么樣的屬性名詞搭配。弄清了這些,也就大體弄清了形容詞的意義和用法[2]。以“薄(扁平物體的厚度小)”為例:
語義類信息: 物性的值;小類
語義成分: 3個(實體名詞: 扁平物體;屬性名詞: 厚度;屬性值: 小)
語義關(guān)系: 3種(語義類關(guān)系,“薄”和“小”之間有上下位關(guān)系;領(lǐng)屬關(guān)系,“扁平物體”包含著多種屬性,“厚度”是其中的一種,兩者存在著領(lǐng)屬關(guān)系;屬性和屬性值關(guān)系,“厚度”是屬性,“小”是該屬性的值,兩者是屬性和屬性值的關(guān)系)
基于詞的語義結(jié)構(gòu)分析,構(gòu)建詞的釋義模版。構(gòu)建釋義模版時,遵循三個原則:
(1) 不同的詞類之間,釋義模板可能是不同的。比如,構(gòu)建名詞的釋義模版,適合從物性結(jié)構(gòu)入手;構(gòu)建動詞的釋義模版,適合從論元結(jié)構(gòu)入手構(gòu);構(gòu)建形容詞的釋義模板,適合從搭配對象入手。比較:*為增強詞義信息的完整性和典型性,本文在釋義時采用了文獻[1]的方法,將被釋詞嵌入釋義之中。以“椅子”為例: 《柯林斯》【chair】A chair is a piece of furniture for one person to sit on,with a back and four legs.《現(xiàn)漢》【椅子】有腿有靠背的坐具?!侗疚摹贰疽巫印恳巫邮且环N供人坐的家具,它有靠背和四條腿。和《現(xiàn)漢》相比,本文釋義的語義信息更加豐富。(進一步討論,參見第5部分)
【椅子】X是……(語義類),X是用來……(功用角色),X由……構(gòu)成(構(gòu)成角色)。(X表被釋詞,下同)
【走】當人或鳥獸(施事)X時,他/它用……(工具)在……(處所)以……方式(方式)向……(方向)移動(語義類)。
【薄】如果說一個物體(實體)X,那么意味著 它的……方面(屬性)……(屬性值)。
(2) 同一詞類內(nèi)部、不同的語義類之間*本文的語義分類主要參照《現(xiàn)代漢語語義分類詞典》[13]、《現(xiàn)代漢語語義詞典》(北京大學(xué)計算語言學(xué)研究所),個別分類吸收了現(xiàn)代語言學(xué)的研究成果。比如,將動詞分為自主動詞和非自主動詞是吸收了文獻[14]的成果。,釋義模板也可能是不同的。比如名詞“紙(可供寫字、繪畫、印刷、包裝等用的薄片狀的東西,多用植物纖維制成)”和“質(zhì)地(材料的結(jié)構(gòu)性質(zhì))”詞類相同,但由于語義類別不同(前者屬于“具體事物-辦公用品”類,后者屬于“抽象事物-屬性”類),釋義模版便不同。試比較:
【紙】X是……(語義類),X的形狀是……(形式角色),用X來……(功用角色),X由……制成(施成角色)。
【質(zhì)地】X表示……方面的(構(gòu)成角色)性質(zhì)(語義類)。
類似的情況在其他詞類中也存在。以動詞為例,自主動詞和非自主動詞的語義類別不同,釋義模版也不同。自主動詞具有“有意性”和“可控性”,比如“打、跑、吃、開、發(fā)球、生產(chǎn)”等;非自主動詞具有“無意性”和“非可控性”,比如“病、死、跌、塌、丟、發(fā)芽、生根”等[14]。自主動詞的語義結(jié)構(gòu),除了包含動詞和必有論元信息外,還包含意愿、工具、方式、依據(jù)、目的等信息。相對而言,非自主動詞的語義結(jié)構(gòu),通常只包含動詞和必有論元信息,不包含意愿、工具、方式、依據(jù)、目的等信息。試比較:
自主動詞:
【打】如果 你(施事)X某人或某物(受事),那么 你 有意(意愿)用……(工具)大力(方式)擊打(語義類)他/它。
【發(fā)球】②如果 你(施事)X球(受事),那么 你 依照……(依據(jù))把球(處置)發(fā)給(語義類)……(與事)。非自主動詞:
【丟】如果 你(施事)X某物(受事),那么 你 失去了(語義類)它。
【發(fā)芽】如果 種子(施事)X芽(受事),那么 它 長出(語義類)幼芽。
(3) 在同一詞類、同一語義類內(nèi)部,釋義模板要相同或盡可能相同。比如:
“紫檀、白樺、紅柳、黃蘗”等屬于喬木類名詞,應(yīng)該具有相同的釋義模版;
“打、擊、敲、捶、揍”等屬于打擊類動詞,應(yīng)該具有相同的釋義模版;
“好看、漂亮、美觀、俊秀”等表示評價屬性的值,應(yīng)該有相同的釋義模版;
“稍、較、很、極、太”等屬于程度類副詞,應(yīng)該具有相同的釋義模版;
“朝、向、對、往、迎、逆”等屬于方向類介詞,應(yīng)該具有相同的釋義模版;
……
有關(guān)同一語義類詞語的釋義模版,后面還會進一步討論,這里暫略。
文獻[15-16]利用釋義模版解決了名名短語的自動釋義問題(準確率為94.23%)。在詞語層面,根據(jù)本文的觀察,利用釋義模版可以解決以下四方面的問題:
(1) 解決多義詞的釋義問題。
多義詞的義項之間存在語義上的聯(lián)系,利用這種聯(lián)系,可以“把錯綜復(fù)雜的一詞多義的現(xiàn)象理出頭緒,并串聯(lián)起來,從而更好地掌握一個詞的全部意義”[17: 39-40]。為了增強義項間的語義聯(lián)系,《新牛津英語詞典》(1998)、《規(guī)范》做了大量的研究工作,但義項間的語義聯(lián)系依然不夠明顯[3]。本文通過釋義模版來解決這一問題。以形容詞“好”為例,《規(guī)范》(第3版)概括了六個義項,本文從搭配入手為“好”建構(gòu)了統(tǒng)一的釋義模版,即“如果說……好,那么他或它……方面優(yōu)點多;令人滿意”。利用這一模版,將“好”的各項意義關(guān)聯(lián)了起來,如表1所示。試比較: (為了節(jié)約篇幅,義項①用完整釋義模式“如果……,那么……”,其他義項用簡潔釋義模式。下同。)
表1 多義詞“好”的釋義比較
和《規(guī)范》相比,本文的釋義有三方面優(yōu)點: ①通過設(shè)置典型語境凸顯形容詞的典型意義和典型用法,便于讀者理解形容詞的意義。②用同一釋義模版解釋多義詞的多項意義,有利于增強義項間的語義聯(lián)系。③兼用“跟……相近”或“跟……相對”的釋義方式,有利于增強被釋詞與其相關(guān)同義詞、反義詞的聯(lián)系。
利用釋義模版可以解決多義形容詞的釋義問題,也可以解決其他多義詞的釋義問題。比如動詞“傳”,《規(guī)范》概括了六個義項: ①一方交給另一方;上代交給下代。②把知識、技能等教給別人。③廣泛散布;宣揚。④命令別人來。⑤表達;流露。⑥熱或電在導(dǎo)體中流通。仔細觀察這六項意義,不難發(fā)現(xiàn)它們都表示“轉(zhuǎn)移”。利用這一共性,可以建立統(tǒng)一的釋義模版。利用這一模版,可以將“傳”的各項意義重新解釋如下:
【傳】釋義模版:如果一方X……給另一方,那么……從一方轉(zhuǎn)移到另一方。
① 如果一方(上一代) X物品或技藝給 另一方(下一代),那么 物品或技藝 從一方(上一代)轉(zhuǎn)移到 另一方(下一代)。跟“傳遞、遺傳”相近。
② 如果一方X知識、技能等給 另一方,那么知識、技能等從一方 轉(zhuǎn)移到 另一方。跟“傳授”相近。
③ 如果一方X言論、信息等給 另一方,那么言論、信息等廣泛地從一方 轉(zhuǎn)移到 另一方。跟“傳播”相近。
④ 如果說話人X命令給 聽話人,那么 命令 從說話人這里 轉(zhuǎn)移到 聽話人那里,并使聽話人來說話人這里。跟“傳喚”相近。
⑤ 如果一方X思想、感情等給 另一方,那么思想、感情等 從一方 轉(zhuǎn)移到 另一方。跟“傳情”相近。
⑥ 如果某物體X電或熱,那么 電或熱 從該物體的一端 轉(zhuǎn)移到 另一端。跟“傳導(dǎo)”相近。
利用釋義模版解決多義詞的釋義問題,需要語言學(xué)研究的支持。文獻[18]發(fā)現(xiàn),多義詞有一個共同的核心義。比如“發(fā)”,核心義表示“(使)……離開……”,利用核心義可以將“發(fā)”的各項意義聯(lián)系起來: 義項①“發(fā)射”表示“使箭或炮彈離開”;義項②“產(chǎn)生;發(fā)生”表示“使某種事物脫離本體”;義項③“派遣;出發(fā)”表示“(使)人有目的地離開”;義項④“打開”表示“使覆蓋的部分離開”;義項⑤“啟發(fā)”表示“使蒙蔽思想的部分離開”。如果說文獻[18]的研究還是個案式的、無法窺測核心義全貌的話,那么文獻[19]對“按、拔、報、保、北、備”等200多個多義詞核心義的研究則完善了“核心義的概念體系”,凸顯了核心義對多義詞釋義的價值。
(2) 解決同義詞的釋義問題。
同義詞的廣泛分布,讓人們習(xí)慣于用一個同義詞來解釋另一個同義詞。比如,解釋“好看”用“漂亮;美觀”;解釋“漂亮”用“好看”,解釋“美觀”用“好看;漂亮”。這樣做,不僅造成了大量的循環(huán)釋義,也難以凸顯同義詞之間的細微語義差別。釋義模版則可以解決這一問題。由于同義詞以名、動、形為絕大多數(shù)*根據(jù)文獻[20]對《新華同義詞詞典》(2005版)的統(tǒng)計,名詞、動詞、形容詞占同義詞的絕大多數(shù)(占92%)。其中,動詞數(shù)量最多(占45%),形容詞次之(占25%),名詞再次之(占22%)。。因此,下面的討論將圍繞著名、動、形同義詞展開。
先來看名詞,以“椅子”類同義詞為例。前面解決了“椅子”的釋義問題,基于這一釋義,可以解決和“椅子”同一語義類詞的釋義問題。稍有不同的是,前者在后者的基礎(chǔ)上增加或替換了一些語義角色(下劃線部分)。比如:
釋義模版:X是一種……的椅子。
【竹椅】X是一種 由竹子做的 椅子。(增加了施成角色)
【長椅】X是一種 長條形的 椅子。(增加了形式角色)
【躺椅】X是一種 用來躺臥的 椅子。(替換了功用角色)
【搖椅】X是一種 有枕部和扶手、可以前后搖晃的 椅子。(替換了構(gòu)成、功用角色)
接下來看動詞,以“打擊”類動詞為例。解釋“打擊”類動詞,文獻[21]用了“工具、方式、力度、部位/對象、頻率、目的/結(jié)果”六種語義成分,本文用了“施事、受事、意愿、工具、力度、頻率、語義類、部位、目的/結(jié)果”九種語義成分。釋義前,先構(gòu)建釋義模版:
如果 施(施事)X受(受事),那么 施 有意(意愿)用……(工具)以……(力度或頻率)擊打(語義類)受或受的……部位(部位),以/使……(目的/結(jié)果)。
利用這一模版,解釋“打擊”類動詞的意義。比如:
【打】如果 你 X 某人或某物,那么你 有意 用手或器物 大力 擊打 他(它)。
【敲】如果 你 X 某物(門、鼓等),那么你 有意 用手或器物 連續(xù) 擊打 它,以引起某人的注意。
【摑】如果 你 X 某人,那么你 有意 用手掌 擊打 他(臉/耳光)。
【揍】如果 你 X 某人,那么你 有意 用手或器物 擊打 他。
施事、意愿、語義類是共有的語義成分,擊打部位、擊打工具、擊打力度等是每個“打擊”動詞特有的語義成分(下劃線部分)。解釋前者,是為了凸顯“打擊”類動詞的共性;解釋后者,是為了凸顯每一個“打擊”動詞的個性,即凸顯“打擊”類動詞之間的細微語義差別。
最后看形容詞,以“漂亮”“好看”“美觀”為例。解釋這些詞語,《現(xiàn)漢》《規(guī)范》的釋義是循環(huán)的,本文則不會出現(xiàn)這樣的問題,二者的比較如表2所示。
表2 同義詞“漂亮”“好看”“美觀”的釋義比較
通過釋義模版,“漂亮”“好看”“美觀”的差別就很明顯了: “漂亮”可以評價人、事、物或動作的整體(如“這一仗打得真漂亮”),也可以評價人、事、物或動作的某一方面(如外觀);“好看”通常評價人、物、動作的某一方面(如外觀);“美觀”通常評價景、物的某一方面(如外觀、款式等)。
(3) 解決新造合成詞的釋義問題。
新詞詞形、詞義是“新的”,但詞法結(jié)構(gòu)、語義結(jié)構(gòu)往往是“舊的”。因此,可以用“舊的”釋義模板解釋新詞。比如“裸X”,分析它的語義結(jié)構(gòu),可以建構(gòu)如下釋義模板:
【裸X】(相對……來說,)裸X是一種除了其自身外、什么都沒有或不附帶的X。
利用這一模板,可以解釋像“裸機”這樣已收入《現(xiàn)漢》的新詞,也可以解釋像“裸官”“裸考”“裸油價”這樣未收入《現(xiàn)漢》的新詞:
【裸機】裸機是一種除了其自身外、什么(網(wǎng)絡(luò)、系統(tǒng)等)都不附帶的機器。
【裸官】(相對家屬、財產(chǎn)在國內(nèi)的官員來說,)裸官是一種除了其自身外、什么(家屬、財產(chǎn))都不在國內(nèi)的官員。
【裸油價】裸油價是一種除了油自身的價格外、什么(附加稅)都不附帶的價格。
利用釋義模版,可以解決以下兩類新詞的釋義問題:
一類是構(gòu)詞形式相似的新詞,以仿擬詞為代表。通過仿擬產(chǎn)生的新詞,在構(gòu)詞形式、表意特點方面有很多相似之處。利用這些相似之處,可以為仿擬詞建構(gòu)統(tǒng)一的釋義模版。比如,“裸X”表示“一種除了其自身外、什么都沒有或不附帶的X”;“XX門”表示“一種和……有關(guān)的丑聞”(如“艷照門/伊朗門/拉鏈門”等);“互聯(lián)網(wǎng)+”表示“一種互聯(lián)網(wǎng)和……相結(jié)合的行業(yè)”(如“互聯(lián)網(wǎng)+政務(wù)服務(wù)/互聯(lián)網(wǎng)+手機/互聯(lián)網(wǎng)+雜貨店”等)。
另一類是語義上密切相關(guān)的新詞,以新造同義詞為代表。這些詞在產(chǎn)生新意義之前,概念意義可能并不相同;進入某一特定的領(lǐng)域后,概念意義才變得相同或基本相同。比如“奔馳”“寶馬”“大眾”等,沒有描述汽車品牌之前,不是同義詞;進入汽車行業(yè)后,才變成了同義詞。變成同義詞后,可以用釋義模版來解釋:
X是……汽車品牌(語義類),X始創(chuàng)于……(施成角色),X的標志是……(形式角色),X的特色是……(評價角色),X的車型有……(構(gòu)成角色)。
有些新造同義詞的使用條件受限,只能在特定的語境下使用。解釋這些新詞,需要設(shè)置一個特定的語境。比如“潛水”“冒泡”“吐槽”“活躍”“話嘮”“傳說”,通常只在QQ群中使用,用來描述QQ群成員的活躍程度。其中,“潛水”的活躍程度最低,發(fā)言次數(shù)最少;“冒泡”的活躍程度較低,偶爾發(fā)幾次言;“吐槽”的活躍程度中等,針對某些話題發(fā)言較多;“活躍”的活躍程度較高,發(fā)言次數(shù)超出了平均水平;“話嘮”的活躍程度很高,發(fā)言次數(shù)超出平均水平很多;“傳說”的活躍程度最高,發(fā)言次數(shù)遠遠超出了平均水平。基于以上分析,可構(gòu)建“潛水”類新詞的釋義模版:
如果 某人 在QQ群中 處于X等級,那么意味著 他 在該群的活躍程度……,發(fā)言次數(shù)……。
(4) 有利于解決句子或篇章的理解問題。
釋義模版不是憑空產(chǎn)生的,而是在大量真實語料的基礎(chǔ)上提煉、概括而成的。釋義模版概括得越全面、越準確,越有利于理解詞在真實語境中的意義和用法。以“食堂”為例,《規(guī)范》將其解釋為“機關(guān)、團體里向本單位人員供應(yīng)伙食的部門和處所”,還不夠全面。因為,該釋義只在“食堂”和“創(chuàng)辦單位”“就餐人員”“食物”之間建立起了聯(lián)系,有利于理解例a類的句子;沒有在“食堂”和“食材”“炊事員”“筷子”之間建立起聯(lián)系,不利于理解例b類的句子。(語料源自北京大學(xué)CCL語料庫)
a1. 工人們在食堂打了飯就出來,……。(就餐人員、食物)
a2. 她……,在醫(yī)院食堂買了飯菜帶回來讓我們吃了以后,又匆匆地去上班了。(創(chuàng)辦單位、食物、就餐人員)
b1. 我們學(xué)校食堂用蒸箱蒸饅頭, ……。(創(chuàng)辦單位、食物、炊具)
b2. 村里辦起了食堂,家中的米鹽柴什么的也全被村里沒收了,……(創(chuàng)辦單位、食材)
b3. 我看見了……這條船的食堂,炊事員正在洗筷子,……。(創(chuàng)辦者、炊事人員、餐具)
通過物性結(jié)構(gòu),本文將和“食堂”有關(guān)的重要信息都關(guān)聯(lián)到了一起,形成新的“食堂”釋義:
【食堂】X 是一個由食材、食物、炊具、餐具、炊事人員等構(gòu)成(構(gòu)成角色)的非盈利性場所(語義類),主要由機關(guān)、學(xué)校等企事業(yè)單位創(chuàng)辦(施成角色),用于制作和供應(yīng)企事業(yè)單位內(nèi)部職工、學(xué)生的飲食(功用角色)。
有了這一釋義,不僅可以理解例a類的句子,也可以理解例b類的句子。
以上說了釋義模版對句子理解的作用,下面再說一下釋義模版對語篇理解的作用。以汽車品牌“奔馳”為例,對于這一品牌,百度百科用了14 000多字來描述,內(nèi)容涉及“奔馳創(chuàng)始人”“奔馳標志”“品牌特色”“發(fā)展歷程”“車型列表”等方面,如圖1所示。
圖1 百度百科對“奔馳”的語篇描述目錄
利用釋義模版,可將以上的描述概括如下:
【奔馳】奔馳是德國汽車品牌(語義類),始創(chuàng)于1926年(施成角色),標志是三叉星(形式角色),因外貌出眾、性能卓越、售后服務(wù)良好(評價角色)而聞名,主要車型有乘用車系、商用車系、輕型商務(wù)車系(構(gòu)成角色)。
詞語釋義是語篇描述的一個關(guān)鍵詞集合,弄清了“奔馳”的詞匯意義是什么,也就大體弄清了“奔馳”語篇描述的關(guān)鍵詞有哪些。從這個意義上說,做好“奔馳”的釋義工作,對于理解語篇中的“奔馳”也是有幫助的。
機器詞典和詞匯語義資源是自然語言理解中的基礎(chǔ)性資源,機器學(xué)習(xí)、數(shù)據(jù)挖掘、單詞相似度計算等通常都要在機器詞典和詞匯語義資源的基礎(chǔ)上進行。但目前的機器詞典和詞匯語義資源建設(shè)還不盡如人意,詞的語義知識描述、表示等問題依舊是制約詞匯語義分析深入的一個關(guān)鍵問題[22]。
為了解決詞義知識的描述問題,本團隊構(gòu)建了親屬關(guān)系自動推理模型[23-24]、名名組合釋義模板[15-16]、漢語名詞物性結(jié)構(gòu)描寫體系[1]、形容詞語義分析框架[25],揭示了復(fù)合名詞詞義中的物性角色分布規(guī)律[26]。在此基礎(chǔ)上,本文進一步推進,建構(gòu)了漢語詞的釋義模版。建構(gòu)釋義模版時,本文做了兩方面的改進:
(1) 受柯林斯詞典(CollinsCOBUILDAdvancedLearner’sEnglishDictionary2006年第5版)的啟發(fā),放棄了傳統(tǒng)的、描述式的釋義方法,改用了基于用法的、例證式的釋義方法。以“打”為例,試比較:
《柯林斯》【hit】?If you hit someone or something, you deliberately touch them with a lot of force, with your hand or an object held in your hand.
《現(xiàn)漢》【打】?用手或器具撞擊物體。
《本課題》【打】?如果你打某人或某物,那么你會故意用手或器物大力擊打它。
以往的釋義方法,被釋詞和釋義是分離的;例證式的釋義方法,被釋詞和釋義是一體的,被釋詞被嵌入到了釋義之中。例證式釋義方法的優(yōu)點,誠如《柯林斯》詞典前言所說: “所有義項均采用整句釋義,親切自然,深入淺出,成功凸顯了詞語在典型語境中的典型用法,釋義本身就是絕佳的例證。”
(2) 放棄按詞、按義項逐一釋義的方法,改用了模版統(tǒng)一釋義的方法。研究表明,建構(gòu)釋義模版有助于解決詞語釋義不完備問題、多義詞釋義問題、同義詞釋義問題、新造合成詞釋義問題、句子理解及語篇理解等問題。
[1]袁毓林. 漢語名詞物性結(jié)構(gòu)的描寫體系和運用案例[J].當代語言學(xué),2014(1): 31-48.
[2]李強, 袁毓林.生成詞庫理論和名詞語義的結(jié)構(gòu)描述與概念解釋[C].詞匯學(xué)國際學(xué)術(shù)會議暨第十一屆全國漢語詞匯學(xué)學(xué)術(shù)研討會論文, 北京: 北京大學(xué), 2016.
[3]施春宏.詞義結(jié)構(gòu)的認知基礎(chǔ)及釋義原則[J].中國語文, 2012(2): 114-127。
[4]馬英新. “動+名”偏正式雙音復(fù)合詞的結(jié)構(gòu)義及其釋義研究[D].石家莊: 河北師范大學(xué)博士學(xué)位論文,2013.
[5]Pustejovsky J. The generative lexicon[M]. Cambridge: MIT Press, 1995.
[6]Sproat R, Emerson T. The first international Chinese word segmentation bakeoff[C]//Proceedings of the 2nd SIGHAN work-shop on Chinese language processing, 2003: 11-17.
[7]Pierrette B, Federica B (eds.),黃居仁, 蘇祺(導(dǎo)讀),2001/2010,詞義的語言: 詞義理論的跨學(xué)科討論[M].北京: 北京大學(xué)出版社.
[8]袁毓林. 漢語配價語法研究[M].北京: 商務(wù)印書館,2010.
[9]Miller G A. Nounsin WordNet[M]. WordNet: An Electronic Lexical Database. Cambridge & MA: The MIT Press, 1998.
[10]袁毓林. 形容詞的語義特征和句式特點之間的關(guān)系[J].漢藏語學(xué)報,2013(7): 147-165.
[11]Lyons J. Semantics[M].Cambridge: Cambridge University Press,1977.
[12]柯林斯出版公司. Collins COBUILD advanced learner’s English dictionary: new edition[M]. 北京: 外語教學(xué)與研究出版社, 2006.
[13]蘇新春. 現(xiàn)代漢語語義分類詞典[Z].北京: 商務(wù)印書館,2014.
[14]馬慶株. 自主動詞和非自主動詞[J].中國語言學(xué)報, 北京: 商務(wù)印書館, 1988(3): 157-180.
[15]魏雪, 袁毓林. 基于語義類和物性角色建構(gòu)名名組合的釋義模板[J].世界漢語教學(xué),2013(2): 172-181.
[16]魏雪, 袁毓林. 基于規(guī)則的漢語名名組合的自動釋義研究[J].中文信息學(xué)報,2014(3): 1-10.
[17]郭在貽. 訓(xùn)詁學(xué)(修訂本)[M].北京: 中華書局,1986/2005.
[18]張聯(lián)榮. 談詞的核心義[J]. 語文研究,1995(3): 31-36.
[19]王云路, 王誠. 漢語詞匯核心義研究[J].北京: 北京大學(xué)出版社,2014.
[20]歐陽麗文, 李仕春. 從詞性的角度看現(xiàn)代漢語同義詞的分布規(guī)律[J].廣西教育學(xué)院學(xué)報, 2013(2): 82-85.
[21]蔣紹愚. 打擊義動詞的詞義分析[J].中國語文, 2007(5): 387-401.
[22]中文信息學(xué)會. 中文信息處理發(fā)展報告[Z]. www.cipsc.org.cn,2016.
[23]陳振宇, 袁毓林, 張秀松, 等. 一種基于大知識庫的親屬關(guān)系自動推理模型[J]. 中文信息學(xué)報, 2010a, 24(3): 117-123.
[24]陳振宇, 袁毓林. 漢語親屬關(guān)系的語義表示和自動推理[J]. 中國語文, 2010b(1): 44-56.
[25]Wang Enxu, Yuan Yunlin.The meaning of the Chinese polysemous adjective “Hao”(Good).Chinese Lexical Semantics. Wu Yunfang et al. (Eds), CLSW2017, Springer Verlag, Berlin Heidelberg, 2017. (forthcoming)
[26]王恩旭,袁毓林. 詞義中物性角色的分布及其對詞語釋義的影響[J].外國語,2017.(已錄用,待發(fā)表)