国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中文信息處理的詞法問(wèn)題
——以句本位語(yǔ)法圖解樹(shù)庫(kù)構(gòu)建為背景

2014-02-28 03:30彭煒明宋繼華俞士汶
中文信息學(xué)報(bào) 2014年2期
關(guān)鍵詞:詞法詞庫(kù)詞類

彭煒明,宋繼華,俞士汶

(1. 北京大學(xué) 計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室 北京大學(xué) 計(jì)算語(yǔ)言學(xué)研究所,北京 100871; 2. 北京師范大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100875)

1 引言

在以人工語(yǔ)言(各類計(jì)算機(jī)程序語(yǔ)言)為分析對(duì)象的編譯過(guò)程中,詞法分析和句法分析是前后串行的兩個(gè)過(guò)程。詞法分析過(guò)程將輸入字符(character)序列轉(zhuǎn)換成單詞(token)序列;句法分析一般也稱語(yǔ)法分析或文法分析,它將單詞序列分析成符合一定形式文法規(guī)則的語(yǔ)句。當(dāng)前大多數(shù)的自然語(yǔ)言處理系統(tǒng)也還是劃分詞法和句法兩個(gè)處理階段,但是不同語(yǔ)言中詞法分析和句法分析的分界情況卻不大一致,這決定了各自分析內(nèi)容和分析方法的迥異。

英語(yǔ)文本中單詞之間有空格作為標(biāo)記,因而詞法和句法的邊界是清晰的。詞法分析階段除了以空格切“詞”,主要就是進(jìn)行詞干化(stemming)處理,即分析詞語(yǔ)的形態(tài)變化??傊⒄Z(yǔ)信息處理的詞法分析任務(wù)是獨(dú)立而明確的。漢語(yǔ)的情況就復(fù)雜了,中文信息處理界很早就把分詞問(wèn)題當(dāng)作漢語(yǔ)自然語(yǔ)言理解的第一個(gè)“攔路虎”,但一直未能徹底地解決;而漢語(yǔ)理論界至今還有人對(duì)漢語(yǔ)“詞”這個(gè)單位的自然存在持保留意見(jiàn)。作為信息處理系統(tǒng)的輸入,中文文本沒(méi)有分隔詞的空格,同時(shí)漢語(yǔ)的詞又缺乏嚴(yán)格的形態(tài)變化,所以詞的界定很難給出一個(gè)可以貫徹到底的操作標(biāo)準(zhǔn)。各種標(biāo)準(zhǔn)(語(yǔ)法的標(biāo)準(zhǔn)、詞匯的標(biāo)準(zhǔn))似乎都只能用作指導(dǎo)性的參照標(biāo)準(zhǔn),并且各標(biāo)準(zhǔn)之間有時(shí)候還有沖突。

中文信息處理是以應(yīng)用為主導(dǎo)的一門交叉學(xué)科,對(duì)語(yǔ)言學(xué)理論向來(lái)都是取“拿來(lái)主義”的態(tài)度,理論指導(dǎo)和理論驗(yàn)證貫穿于本學(xué)科發(fā)展的全過(guò)程。在“詞”這個(gè)問(wèn)題上,信息處理的各類應(yīng)用(機(jī)器翻譯、信息檢索等)決定了從文本中獲得一個(gè)個(gè)單詞的實(shí)際需求。因此,分詞規(guī)范暫且回避關(guān)于詞的理論爭(zhēng)議,而從應(yīng)用需求出發(fā)定義“信息處理使用的、具有確定的語(yǔ)義或語(yǔ)法功能的分詞單位”,并把“結(jié)合緊密、使用穩(wěn)定”的部分詞組也包括在內(nèi)[1]。通過(guò)分詞規(guī)范,并輔以一定詞庫(kù),中文信息處理實(shí)際上避開(kāi)了詞和短語(yǔ)邊界不清的理論問(wèn)題,將單詞的界定交給語(yǔ)言學(xué)家或者具有語(yǔ)言學(xué)背景的詞庫(kù)建設(shè)人員,由他們來(lái)規(guī)范分詞單位的切分與否。而具體詞法分析算法則擺脫了詞、語(yǔ)判定的麻煩,專注于分詞歧義的消解。這樣,中文信息處理算是有了一個(gè)人為劃定的詞法邊界。

雖然“分詞單位”包括了部分詞組,但籠統(tǒng)地看,它仍然小于語(yǔ)言學(xué)上“詞”的范圍。大量在語(yǔ)言學(xué)家眼中的成詞單位都被排除在“分詞單位”之外,比如大部分的數(shù)量詞、處所名詞。如果把詞庫(kù)收錄詞稱為“詞匯詞”,詞庫(kù)之外的詞統(tǒng)稱“臨時(shí)造詞”的話*這里不直接使用“未登錄詞”是因?yàn)楸疚摹芭R時(shí)造詞”與現(xiàn)在中文信息處理中通行的“未登錄詞”概念所指不同。,那么目前大部分臨時(shí)造詞的自動(dòng)分析都擱置到句法分析任務(wù)中去了。中文分詞所定義的“未登錄詞”通常只包括人名、地名、機(jī)構(gòu)名、新詞語(yǔ)、縮略語(yǔ),外加構(gòu)詞規(guī)則極強(qiáng)的少數(shù)詞類,如數(shù)詞。前幾類詞至今還是中文分詞的難關(guān),而此外的詞法分析本質(zhì)上都是在“規(guī)范/詞庫(kù)+歧義消解”的框架模式下進(jìn)行*后來(lái)興起的基于字標(biāo)注的分詞方法(如CRF分詞等)沒(méi)有匹配詞典,但它通過(guò)算法學(xué)習(xí)得到的構(gòu)詞規(guī)律仍然是基于標(biāo)注語(yǔ)料,而標(biāo)注語(yǔ)料是按照分詞規(guī)范來(lái)切分的。。在這一框架下的中文分詞實(shí)際上并沒(méi)有完成詞法分析階段的全部任務(wù),它把一些屬于詞法分析的任務(wù)留給句法分析處理,從而增加了自動(dòng)句法分析的負(fù)擔(dān)。現(xiàn)狀是,漢語(yǔ)詞法分析迅速走向應(yīng)用(中文分詞系統(tǒng)的實(shí)現(xiàn)),而句法分析系統(tǒng)一直以來(lái)未能達(dá)到實(shí)用水平。中文信息處理面臨的各種困境很大程度上都是源于詞法分析和句法分析的混同,或者說(shuō)詞法分析的不獨(dú)立。

筆者以黎錦熙“句本位”語(yǔ)法體系為理論指導(dǎo)構(gòu)建了一個(gè)小規(guī)模的漢語(yǔ)語(yǔ)法圖解樹(shù)庫(kù)。在建設(shè)過(guò)程中,我們將黎氏語(yǔ)法與其他漢語(yǔ)語(yǔ)法理論進(jìn)行了對(duì)比研究,也對(duì)中文信息處理中主流樹(shù)庫(kù)的實(shí)踐經(jīng)驗(yàn)加以分析和梳理。一方面注意到黎氏語(yǔ)法這一早期漢語(yǔ)語(yǔ)法體系的歷史局限性和許多不完善之處,另一方面也發(fā)現(xiàn)了其中仍具有強(qiáng)大生命力、值得繼承發(fā)揚(yáng)的優(yōu)良品質(zhì)[2]。有些觀點(diǎn)和方法是黎氏語(yǔ)法獨(dú)特的,有些則是各家語(yǔ)法理論共識(shí)而被中文信息處理所忽視的,涉及詞法和句法的方方面面。本文主要總結(jié)圖解樹(shù)庫(kù)構(gòu)建中遇到的各種詞法問(wèn)題,包括臨時(shí)造詞和詞類標(biāo)注問(wèn)題,并談?wù)勗谔幚磉@些問(wèn)題的過(guò)程中進(jìn)行的理論思考。本文也會(huì)涉及與詞法相關(guān)的句法問(wèn)題,但是專門的句法問(wèn)題擬另文闡述。

2 構(gòu)建圖解樹(shù)庫(kù)的基本情況

句本位語(yǔ)法樹(shù)庫(kù)以黎錦熙《新著國(guó)語(yǔ)文法》中設(shè)計(jì)的“圖解析句法”為模型,將句子的句法結(jié)構(gòu)呈現(xiàn)為二維平面上的圖解形式,也可以稱作“圖解樹(shù)庫(kù)”。圖解結(jié)構(gòu)以XML格式存儲(chǔ),因而本質(zhì)上也是一種樹(shù)結(jié)構(gòu)。相比目前主流的短語(yǔ)結(jié)構(gòu)樹(shù)或依存結(jié)構(gòu)樹(shù),圖解樹(shù)結(jié)構(gòu)的特點(diǎn)是采用主語(yǔ)、謂語(yǔ)等“句子成分”作中間結(jié)點(diǎn)。直觀上看,圖解樹(shù)的結(jié)構(gòu)層次更加扁平。

圖解形式通過(guò)一條長(zhǎng)橫線上下區(qū)分主干成分和附加成分,主干成分的有限組合模式?jīng)Q定句子主干的結(jié)構(gòu)類型,格局清晰、中心詞突出。黎先生在對(duì)大量漢語(yǔ)例句進(jìn)行句法分析實(shí)踐的基礎(chǔ)上歸納出如圖1所示的一個(gè)“圖解總公式”。我們以此為原型開(kāi)發(fā)了圖解標(biāo)注工具,標(biāo)注了《論語(yǔ)》、《唐宋八大家文鈔?45篇》和《漢語(yǔ)語(yǔ)法教材·例句》共計(jì)11.4萬(wàn)字規(guī)模的圖解樹(shù)庫(kù),并開(kāi)展了漢語(yǔ)句式系統(tǒng)描寫、文言句法歷時(shí)比較和句義骨架抽取等方面的研究[2]。

圖1 句本位語(yǔ)法圖解總公式[4]

恰如黎先生的比喻“句子由最簡(jiǎn)單的到極繁復(fù)的形式,仿佛像一種有機(jī)物的生長(zhǎng)[3]”,所有復(fù)雜句子的結(jié)構(gòu)分析只是總公式的反復(fù)運(yùn)用和層疊嵌套。這種圖解樹(shù)結(jié)構(gòu)給我們帶來(lái)的疑問(wèn)或啟示是: 漢語(yǔ)句法分析系統(tǒng)可以簡(jiǎn)化到所有句子結(jié)構(gòu)都概括于一個(gè)圖解公式?

語(yǔ)言的句法系統(tǒng)是客觀存在的,特定句子的句法結(jié)構(gòu)也應(yīng)該是客觀的,但是采用不同的語(yǔ)法分析體系和分析方法卻可得到結(jié)構(gòu)殊異的表現(xiàn)形式。將圖解樹(shù)的XML結(jié)構(gòu)與另兩種樹(shù)結(jié)構(gòu)(短語(yǔ)結(jié)構(gòu)、 依存結(jié)構(gòu))對(duì)比發(fā)現(xiàn),前者之所以能夠在二維圖形與XML之間維持一種確定的編碼解碼關(guān)系,從而使整個(gè)句子結(jié)構(gòu)系統(tǒng)表現(xiàn)得更加簡(jiǎn)明,就是因?yàn)榫浔疚徽Z(yǔ)法嚴(yán)格區(qū)分了句法組合和詞法構(gòu)造兩種類型的語(yǔ)法關(guān)系。

從“詞組本位”語(yǔ)法體系的角度來(lái)觀察圖解總公式,其中主要句法關(guān)系也不外乎: 主謂(雙豎杠分隔)、述賓(單豎杠分隔)、述補(bǔ)(謂詞和后附的右斜線或右折線)、偏正(左斜/左折線與體詞為定中,前附的右斜/右折線與謂詞為狀中)、連謂(謂詞與前、后附加的動(dòng)詞性副附),聯(lián)合結(jié)構(gòu)在圖解上用虛線相連。除此之外的各種臨時(shí)結(jié)構(gòu),圖解時(shí)大多以連字號(hào)“-”聯(lián)結(jié),作為一個(gè)造句單位置于總公式的某一成分位置上。也就是說(shuō),圖解析句之所以能夠簡(jiǎn)化句法分析系統(tǒng),就是因?yàn)樗鼘?duì)主要句法關(guān)系之外的臨時(shí)結(jié)構(gòu)做了特殊的詞法處理。這種以連字號(hào)聯(lián)結(jié)的單位就是下節(jié)要討論的“臨時(shí)造詞”。

3 臨時(shí)造詞

盡管漢語(yǔ)詞和短語(yǔ)之間的界限相對(duì)模糊,但是仍有區(qū)分的可能和必要。朱德熙先生說(shuō): “句法研究的是句子的內(nèi)部構(gòu)造,以詞為基本單位;詞法研究的是詞的內(nèi)部構(gòu)造,以語(yǔ)素為基本單位??梢?jiàn)句法和詞法是屬于兩個(gè)不同平面的東西[5]?!毙细Ax先生把“詞”作為最小的小句構(gòu)件,認(rèn)為“作為最低級(jí)別的語(yǔ)法單位的語(yǔ)素,當(dāng)它以詞的身分出現(xiàn)的時(shí)候,才成為小句構(gòu)件,否則,就只是詞的構(gòu)件[6]?!笔反嬷毕壬v“語(yǔ)法是研究用詞造句規(guī)律的學(xué)問(wèn),……‘詞’是語(yǔ)法最小的單位[7]。”*史先生這里的“語(yǔ)法”其實(shí)就是指句法,因?yàn)樵谒捏w系中“詞法”只講詞分類??梢?jiàn),不管是詞組本位、小句中樞,還是句本位,從語(yǔ)素到詞的構(gòu)造過(guò)程理論上都不在句法分析的范圍之內(nèi)。

如前所述,中文信息處理以分詞為界對(duì)詞法分析和句法分析做了一個(gè)人為的劃分。按照分詞規(guī)范,前接成分、后接成分、語(yǔ)素、非語(yǔ)素字等“小于詞的單位”也作為句法分析的輸入出現(xiàn)在句法樹(shù)的葉子結(jié)點(diǎn)中。分詞規(guī)范與語(yǔ)法理論相背,其出發(fā)點(diǎn)顯然是盡可能保持語(yǔ)料庫(kù)與詞庫(kù)在分詞單位上的一致性。

詞庫(kù)構(gòu)建和句法分析對(duì)“詞”單位有不同的要求。前者是詞匯層面的收錄,詞作為靜態(tài)的備用單位,是詞匯詞;后者是語(yǔ)法層面的分析,詞作為動(dòng)態(tài)的運(yùn)用單位,是語(yǔ)法詞。詞匯詞排斥“規(guī)則能產(chǎn)”的結(jié)構(gòu),而語(yǔ)法詞不排斥。如果某一結(jié)構(gòu)結(jié)合緊密,并且總是充當(dāng)一個(gè)句子成分,那么即便規(guī)則能產(chǎn),也應(yīng)視作“臨時(shí)造詞”,比如“數(shù)量詞”、“處所名詞”。

在詞庫(kù)、詞法標(biāo)注語(yǔ)料庫(kù)、句法樹(shù)庫(kù)三個(gè)方面的語(yǔ)言資源建設(shè)實(shí)踐中,通常是先建詞庫(kù)和詞法標(biāo)注語(yǔ)料庫(kù),后建樹(shù)庫(kù)。詞法規(guī)范考慮更多的是與詞庫(kù)建設(shè)的一致和同步,即首先保證分詞、詞性標(biāo)注等詞法分析的形式化和可計(jì)算性。因此造成了句法分析中造句單位的偏差,削弱了句法樹(shù)庫(kù)的系統(tǒng)性。

我們構(gòu)建圖解樹(shù)庫(kù)時(shí)曾試圖利用現(xiàn)有分詞結(jié)果(按規(guī)范切分正確),但是發(fā)現(xiàn)某些切開(kāi)的結(jié)構(gòu)無(wú)法進(jìn)入圖解格局(總公式中并沒(méi)有相應(yīng)的句法構(gòu)件設(shè)計(jì))。這時(shí)就只能拒絕切分,重新聯(lián)結(jié)為一個(gè)合成詞。這些臨時(shí)造詞可分為重疊、附加和復(fù)合3類,下面參照《北京大學(xué)語(yǔ)料庫(kù)加工規(guī)范》(以下簡(jiǎn)稱《北大規(guī)范》)[8],逐一考察。

3.1 重疊

漢語(yǔ)重疊構(gòu)詞主要有AA、AAB、ABB、AABB、A里AB、A不AB、ABAB、V一V、V了V、V了一V等形式,其中每字母代表一個(gè)漢字。下面舉例及切分標(biāo)注均引自《北大規(guī)范》,原規(guī)范中每類下面還分若干小類,這里每小類僅取一例作代表(后文同此)。

(1) “AA”重疊形: 走走/v,好好/d,人人/n,個(gè)個(gè)/q,常常/d;

(2) “AAB”重疊形: 洗洗澡/v,試試看/v;

(3) “ABB”重疊形: 孤單單/z,一個(gè)個(gè)/mq;

(4) “AABB”重疊形: 比比劃劃/v,高高興興/z,山山水水/n,許許多多/m,大大小小/z,確確實(shí)實(shí)/d;

(5) “A里AB”形: 糊里糊涂/z;

(6) “A不AB”形: 相不相信/v,漂不漂亮/z;

(7) “AB不AB”: 相信/v 不/df 相信/v;

(8) “ABAB”重疊形: 研究/v 研究/v,高興/a 高興/a,很多/m 很多/m,雪白/z 雪白/z,一個(gè)/mq 一個(gè)/mq,嘩啦/o 嘩啦/o;

(9) “V一V”形: 談/v 一/m 談/v;

(10) “V了V”形: 想/v 了/ul 想/v;

(11) “V了一V”形: 讀/v 了/ul 一/m 讀/v。

圖2 “ABAB”重疊和“V一V”形的短語(yǔ)結(jié)構(gòu)

其中前6類不切分,后5類切分。切分序列作為一種短語(yǔ)結(jié)構(gòu)進(jìn)入到語(yǔ)法樹(shù)庫(kù)中,例如圖2中,(8)具有與動(dòng)詞并列、連謂相同或相似的短語(yǔ)結(jié)構(gòu),而(9)則引入了另一種“固定短語(yǔ)”的結(jié)構(gòu)類型。不管采用哪種形式,這些重疊結(jié)構(gòu)都會(huì)給句法系統(tǒng)帶進(jìn)更多的歧義結(jié)構(gòu)。在句法消歧時(shí),它們將參與到同形序列的結(jié)構(gòu)競(jìng)爭(zhēng)中去,從而增加句法分析的計(jì)算復(fù)雜度。句本位語(yǔ)法圖解對(duì)這些結(jié)構(gòu)的處理是一貫的,即不作句法結(jié)構(gòu)分析而以連字號(hào)連接為一個(gè)造句單位,因此句法系統(tǒng)的格局不亂。

3.2 附加

附加構(gòu)詞中至少有一個(gè)成分是詞綴,分以下3類。

(1) 前綴+X: 小王/nr,大楊/nr,老二/n,超音速/b,超聲波/n,無(wú)公害/v,無(wú)條件/d,過(guò)飽和/z,非金屬/n,非/h國(guó)家/n工作/vn人員/n;

(2) X+后綴: 花兒/n,人們/n,藝術(shù)家/n,辦事員/n,畢業(yè)生/n,參謀長(zhǎng)/n,革命性/n,磁盤機(jī)/n,標(biāo)準(zhǔn)化/v,研究者/n,語(yǔ)言學(xué)界/n,朋友/n們/k,探索者/n,不/df顧/v勸告/v而/c執(zhí)意/vd鬧事/v者/k;

(3) 前綴+X+后綴: 非黨員/n,無(wú)政府主義者/n,超薄型/b。

漢語(yǔ)詞綴大多都是所謂“構(gòu)詞”詞綴而非“構(gòu)形”詞綴[9],像“人們”、“藝術(shù)家”等都已收錄在詞庫(kù)中,因而不在臨時(shí)造詞的討論范圍內(nèi)。難于處理的是像“非”、“們”、“者”等既可以附著在語(yǔ)素或詞上,也可以附著在短語(yǔ)上的“語(yǔ)綴”。

圖解規(guī)范為: 若X為語(yǔ)素或詞(包括可用連字號(hào)連接的復(fù)合詞,通常為體詞),則仍用連字號(hào)合成一詞,比如“朋友-們”、“非-國(guó)家-工作-人員”;否則只有承認(rèn)語(yǔ)綴的“詞”地位,分析為結(jié)構(gòu)助詞。比如“不顧勸告而執(zhí)意鬧事者”就是通過(guò)句法來(lái)實(shí)現(xiàn)VP的“指稱化”(詳見(jiàn)5.2節(jié))。表現(xiàn)在圖解上,用支架頂起“不顧勸告而執(zhí)意鬧事”并按正常的VP結(jié)構(gòu)圖解,然后附上括弧標(biāo)記的結(jié)構(gòu)助詞“者”,整體轉(zhuǎn)為一個(gè)NP。

以下幾個(gè)典型助詞與附加相關(guān),在此一并說(shuō)明。

“了”、“著”、“過(guò)”3個(gè)動(dòng)態(tài)助詞后附在動(dòng)詞或動(dòng)詞短語(yǔ)上,其造詞緊密程度不如以上詞綴,確實(shí)更接近句法組合關(guān)系,因此不論前面是詞還是短語(yǔ),一律按助詞圖解。

結(jié)構(gòu)助詞“所”的語(yǔ)法功能是動(dòng)詞(短語(yǔ))指稱化的標(biāo)志,比況助詞“似的”、“般”等的語(yǔ)法功能是名詞(短語(yǔ))陳述化的標(biāo)志,均可仿照“者”字圖解。

“第”總是前附在數(shù)詞上,以連字號(hào)合成一個(gè)序數(shù)詞;“多”、“來(lái)”、“把”等總是后附在數(shù)詞或數(shù)量詞上,以連字號(hào)合成一個(gè)概數(shù)(量)詞,如: 五十-來(lái)-分,七-斤-多。

3.3 復(fù)合

復(fù)合詞與短語(yǔ)之間的界限最難把握。根據(jù)邢福義《小句中樞說(shuō)》中的“小句包容律”,短語(yǔ)相比復(fù)合詞具備兩個(gè)常備結(jié)構(gòu)因素: A. 構(gòu)件組合靈活,B. 音節(jié)較多[10]。且有公式:

? 短語(yǔ)-AB=復(fù)合詞

? 短語(yǔ)-A=定型短語(yǔ)(如: 世界大學(xué)生運(yùn)動(dòng)會(huì))

? 短語(yǔ)-B=近似短語(yǔ)詞(如: “吃飯、走路、講話、唱歌)

《北大規(guī)范》在處理復(fù)合詞時(shí)帶一定彈性,但基本上也考慮到了這兩個(gè)因素。定型短語(yǔ)主要為團(tuán)體、機(jī)構(gòu)、組織等專有名詞,規(guī)定先切分再組合,如: [世界/n 大學(xué)生/n 運(yùn)動(dòng)會(huì)/n]nt。近似短語(yǔ)詞則從使用頻率和意義專門化兩方面考慮,主要規(guī)范了以下兩類。

(1) 二字名詞: 牛肉/n(名+名),烤肉/n(動(dòng)+名,定中結(jié)構(gòu)),紅花/n(形+名,意義專門化,一種藥名),白/a花/n(形+名,定中結(jié)構(gòu),白色的花);

(2) 三字名詞: 證明信/n,電流表/n,手表/n廠/n,馬尾巴/n,電/n暖壺/n,小媳婦/n,白/a砂糖/n,美麗島/n,貧困/a縣/n。

所謂彈性主要體現(xiàn)在定中結(jié)構(gòu)的組合中,不管“單音+單音”類型,還是“雙音+單音”、“單音+雙音”類型,都有切分和不切分的情況。語(yǔ)義在最終判定時(shí)實(shí)際上起了關(guān)鍵作用。朱德熙《現(xiàn)代漢語(yǔ)形容詞研究》一文對(duì)此進(jìn)行過(guò)細(xì)致的考察,以“白紙”、“白的紙”為例,認(rèn)為這兩種定中關(guān)系的差別在于: 后者定語(yǔ)是描寫性的,而前者是限制性的,“是一種具有強(qiáng)烈的凝固趨勢(shì)的結(jié)構(gòu),它的結(jié)構(gòu)原則不是自由的造句原則[11]。”這一觀察與句本位圖解的做法是一致的。在黎錦熙《〈實(shí)踐論〉語(yǔ)法圖解》、《〈矛盾論〉語(yǔ)法圖解分析》等圖解作品中,可以發(fā)現(xiàn)大量的這種限制性定中結(jié)構(gòu)都以連字號(hào)連接為一個(gè)復(fù)合詞。因此,如上所列的二字名詞和三字名詞在我們的圖解樹(shù)庫(kù)中均以復(fù)合詞標(biāo)注,若其已被詞庫(kù)收錄則直接標(biāo)注,否則以連字號(hào)連接。

還有三類臨時(shí)構(gòu)造的復(fù)合詞是: (1)數(shù)量詞(數(shù)詞+量詞);(2)處所名詞(名詞+方位名詞);(3)動(dòng)結(jié)式/動(dòng)趨式動(dòng)詞(動(dòng)詞+結(jié)果/趨向等補(bǔ)語(yǔ))。這三類詞都具有很強(qiáng)的規(guī)則能產(chǎn)性,是最典型的臨時(shí)造詞,因而《北大規(guī)范》一律處理為短語(yǔ)(數(shù)量短語(yǔ)、處所短語(yǔ)和動(dòng)補(bǔ)短語(yǔ))。目前我們的圖解方式是按加連字號(hào)的復(fù)合詞來(lái)處理,但是這幾種結(jié)構(gòu)實(shí)際上都有擴(kuò)展形式,比如數(shù)量詞中可插入形容詞(例如,一-大-塊),動(dòng)結(jié)式/動(dòng)趨式中可插入表可能的“得”和“不”(例如,看-得-清,提-不-起),方位詞也可附著在短語(yǔ)而非單詞上(例如,高山-大河-間)。因此,這些結(jié)構(gòu)也可以考慮作相應(yīng)圖解形式的擴(kuò)展。

4 慣用語(yǔ)

上節(jié)梳理了中文信息處理現(xiàn)行詞法規(guī)范當(dāng)作短語(yǔ),而句本位語(yǔ)法當(dāng)作單詞圖解的內(nèi)容;本節(jié)主要考察那些在詞法規(guī)范中作為一個(gè)分詞單位,但仍可作句本位圖解分析的內(nèi)容。我們把意義專門化作為復(fù)合詞區(qū)別于短語(yǔ)的特征之一,這是就一般情況而言。事實(shí)上,復(fù)合詞語(yǔ)和意義專門化的對(duì)應(yīng)關(guān)系并不是絕對(duì)的,趙元任先生總結(jié)如表1所示。

表1 復(fù)合詞語(yǔ)和意義專門化關(guān)系[12]

表中“臨時(shí)詞”即上節(jié)討論的臨時(shí)造詞,可看作復(fù)合詞中的動(dòng)態(tài)部分;而“慣用語(yǔ)”可看作短語(yǔ)中的靜態(tài)部分。由于它的這種靜態(tài)性質(zhì),一般都會(huì)作為特殊類而收入詞庫(kù)。這也是為何詞法規(guī)范中將其作為一個(gè)分詞單位的原因。這類慣用語(yǔ)包括的短語(yǔ)結(jié)構(gòu)類型有:

(1) 主謂結(jié)構(gòu): 手頭緊,耳朵軟;

(2) 動(dòng)補(bǔ)結(jié)構(gòu): 拿不出手;

(3) 定中結(jié)構(gòu): 半瓶子醋;

(4) 狀中結(jié)構(gòu): 干瞪眼,亂彈琴,很難說(shuō);

(5) 動(dòng)賓結(jié)構(gòu): 有意思,背包袱,丟飯碗,管閑事,加把勁,撿便宜……

這類慣用語(yǔ)中動(dòng)賓結(jié)構(gòu)數(shù)量最多,且以“單字動(dòng)詞+雙字名詞”的三字結(jié)構(gòu)為最常見(jiàn)。之所以仍對(duì)其進(jìn)行圖解分析,有兩方面原因: ①這些結(jié)構(gòu)雖然帶上了一定詞匯意義,但字面意義(綜合意義)仍然存在;②它們的結(jié)構(gòu)不像真正復(fù)合詞那樣穩(wěn)固,大都可以自由擴(kuò)展,類似離合詞的用法,有的還離多合少。

5 詞類標(biāo)注

5.1 依句辨品

在詞類問(wèn)題上,句本位語(yǔ)法主張“用句法控制詞類”,根據(jù)詞所充當(dāng)?shù)木浞ǔ煞謥?lái)辨別詞類[4]。所謂“依句辨品”可以從圖解上直觀地反映出來(lái): 特定圖解位置對(duì)應(yīng)著相對(duì)固定的詞類(圖1)。在此需要首先澄清許多人對(duì)句本位語(yǔ)法的一個(gè)誤解,即認(rèn)為“依句辨品”就是“作主語(yǔ)、賓語(yǔ)的是名詞,作述語(yǔ)的是動(dòng)詞,作名詞附加語(yǔ)的是形容詞,作動(dòng)詞、形容詞附加語(yǔ)的是副詞。”圖解總公式清楚地表明,詞類和句子成分存在對(duì)應(yīng)關(guān)系,但不是一一對(duì)應(yīng)。通過(guò)圖解工具標(biāo)注語(yǔ)法樹(shù)就是利用了這種對(duì)應(yīng)關(guān)系,標(biāo)注時(shí)只需進(jìn)行少量的詞類選擇,大部分詞的詞類標(biāo)記都由程序根據(jù)句法位置直接生成。11.4萬(wàn)字規(guī)模的圖解樹(shù)庫(kù)能在一個(gè)較短時(shí)間內(nèi)完成標(biāo)注,很大程度上得益于此。

“依句辨品”帶來(lái)的問(wèn)題是將導(dǎo)致“詞無(wú)定類”、“離句無(wú)品”,從下例中可窺見(jiàn)一斑?!吧啤弊鳛橐粋€(gè)詞在《論語(yǔ)》樹(shù)庫(kù)中的詞類分布有五,如表 2所示。

表 2 《論語(yǔ)》圖解樹(shù)庫(kù)中抽取的“善”

從表中可以看出,所謂“詞無(wú)定類”是詞形無(wú)定類,而具體義值對(duì)應(yīng)的詞類是確定的。 “依句辨品”的“品”是詞在語(yǔ)境中具體義值的語(yǔ)法類別,它反映詞的言語(yǔ)意義或使用義。而詞庫(kù)劃分詞項(xiàng)(義項(xiàng))是依據(jù)詞的語(yǔ)言意義,或稱詞匯意義、貯存義。語(yǔ)言意義是對(duì)言語(yǔ)意義的抽象和概括,具有一定的廣義度[13]。仍以上舉諸“善”為例,詞庫(kù)中通常把③④⑤概括為一個(gè)詞項(xiàng),其詞類標(biāo)記需綜合考察它在所有句子中的句法功能分布狀況。

顯然,句本位語(yǔ)法的詞類和當(dāng)前中文信息處理的詞類是在不同詞義層面上的標(biāo)注,前者取詞的使用義,后者取詞的貯存義。與之前關(guān)于“詞”單位的界定問(wèn)題類似,現(xiàn)行詞類系統(tǒng)首先保證分詞標(biāo)注語(yǔ)料庫(kù)與詞庫(kù)的一致性,而忽略句法分析對(duì)輸入詞類序列的實(shí)際需求。

文獻(xiàn)[14]分析了在現(xiàn)行詞類體系下自動(dòng)標(biāo)注軟件的各種表現(xiàn)和存在問(wèn)題,指出詞類體系與歸類標(biāo)準(zhǔn)存在互相矛盾之處,詞性標(biāo)注結(jié)果“不僅會(huì)加大詞性標(biāo)注軟件算法的難度,甚至?xí)沟弥形男畔⑻幚淼暮罄m(xù)工程無(wú)法展開(kāi)?!逼渲兄饕膸桌信e如下:

(1) 全句動(dòng)詞序列: 圍繞/V扶貧/V搞/V開(kāi)發(fā)/V, 搞/V 好/A開(kāi)發(fā)/V促/V扶貧/V

(2) 區(qū)別詞(按定義只能修飾名詞的詞)修飾動(dòng)詞: 大型/B展覽/V,遠(yuǎn)程/B發(fā)射/V

(3) 不同詞性的詞形成并列結(jié)構(gòu): 付出 了勞動(dòng)/V與 汗水/N

“詞有定類”的代價(jià)是“類無(wú)定職”,在溝通詞庫(kù)和句法分析上現(xiàn)行詞類系統(tǒng)是脫節(jié)的。其中最顯著的問(wèn)題莫過(guò)于謂詞(動(dòng)詞或形容詞)直接充當(dāng)主、賓語(yǔ)的情況。這便是黎氏語(yǔ)法所謂“名物化”,而后來(lái)語(yǔ)法學(xué)界多修正為“指稱化”的一種無(wú)標(biāo)記詞類轉(zhuǎn)化現(xiàn)象。

5.2 指稱化

朱德熙先生在研究“的、者、所、之”的語(yǔ)法、語(yǔ)義功能時(shí)提出了“自指”和“轉(zhuǎn)指”[15]兩個(gè)指稱化概念,展示了分析漢語(yǔ)詞轉(zhuǎn)類現(xiàn)象的語(yǔ)義觀察視角。其文中首先拿英語(yǔ)kind/kindness和write/writer來(lái)說(shuō)明“自指”和“轉(zhuǎn)指”兩類指稱化過(guò)程。前者只轉(zhuǎn)類為名詞,不產(chǎn)生新的義項(xiàng),因?yàn)楹缶Y-ness沒(méi)有給詞根kind增加新的詞匯意義;后者既轉(zhuǎn)類為名詞,也產(chǎn)生新的義項(xiàng),在詞典中需要另行釋義?!白灾敢饬x(kindness)只跟謂詞自身(kind)的意義相關(guān),而轉(zhuǎn)指意義則跟謂詞所蘊(yùn)含的對(duì)象相關(guān)(例如writer指動(dòng)作的施事,employee指動(dòng)作的受事)?!?/p>

漢語(yǔ)的特點(diǎn): 謂詞可直接充當(dāng)主、賓語(yǔ)而不改變形式,因而是否發(fā)生轉(zhuǎn)類還需從意義上判斷。若是自指,就沒(méi)有理由讓謂詞轉(zhuǎn)為名詞,因?yàn)榧葲](méi)有詞匯意義改變,也無(wú)形式標(biāo)記。轉(zhuǎn)指分兩類,帶形式標(biāo)記的(主要為“所VP”、“VP者”),指稱化功能可認(rèn)為由結(jié)構(gòu)助詞承擔(dān),謂詞不轉(zhuǎn)類;不帶標(biāo)記的轉(zhuǎn)指謂詞才認(rèn)為轉(zhuǎn)類成名詞??傊瑵h語(yǔ)指稱化在詞類上的表現(xiàn)是: ①自指不轉(zhuǎn)類;②兼類只限于無(wú)標(biāo)記轉(zhuǎn)指,如“鎖”(動(dòng)作的工具)、“發(fā)明”(動(dòng)作的結(jié)果)、“代表”(動(dòng)作的施事)等均是提取了動(dòng)詞的某個(gè)論元。

黎氏語(yǔ)法對(duì)自指謂詞的處理是: 堅(jiān)持主、賓位為指稱位的句法原則,因而單個(gè)謂詞充當(dāng)主、賓語(yǔ)則發(fā)生“名物化”,轉(zhuǎn)類為名詞;但謂詞若再帶上賓語(yǔ)、狀語(yǔ)等其他成分,則認(rèn)為整個(gè)短語(yǔ)“名物化”(圖解時(shí)頂起成為“名詞性短語(yǔ)”,見(jiàn)圖1),而謂詞本身不轉(zhuǎn)類。前者是“詞無(wú)定類”的主要來(lái)源,讓“依句辨品”廣遭詬病。

為了兼顧句法的系統(tǒng)性(依句辨品)和詞類的系統(tǒng)性(詞有定類),我們修改圖解規(guī)范: 充當(dāng)主、賓語(yǔ)的自指謂詞,不論是否再帶其他成分,一律頂起以示“指稱化”。也就是說(shuō),黎氏語(yǔ)法中“指稱化”分成詞法實(shí)現(xiàn)(轉(zhuǎn)類)和句法實(shí)現(xiàn)(名詞性短語(yǔ))兩種方式,而圖解樹(shù)庫(kù)中都統(tǒng)一為句法實(shí)現(xiàn)。

構(gòu)建樹(shù)庫(kù)的宗旨是為了實(shí)現(xiàn)自動(dòng)句法分析,如果罔顧指稱化的語(yǔ)言事實(shí),拘定“名、動(dòng)、形三大詞類可以不加區(qū)別地直接充當(dāng)主、賓語(yǔ)”,那么句法分析只能止步于“漢語(yǔ)詞類與句子成分之間不存在一一對(duì)應(yīng)關(guān)系”。這不但把漢語(yǔ)語(yǔ)法的系統(tǒng)規(guī)律都抹殺了,也無(wú)助于中文信息處理應(yīng)用的展開(kāi)。

5.3 非句法功能類

目前大多數(shù)的漢語(yǔ)詞性標(biāo)注系統(tǒng)乃至國(guó)際評(píng)測(cè)中,標(biāo)記集都包括如前接成分、后接成分、語(yǔ)素、非語(yǔ)素字、成語(yǔ)、簡(jiǎn)略語(yǔ)等類別(稱法或有小異)。在句本位圖解樹(shù)庫(kù)中,這些都不單獨(dú)設(shè)類,因?yàn)樗鼈儾⒎潜匦璧木浞üδ茴?,?duì)句法分析無(wú)益。如前所述,前接成分和后接成分作為臨時(shí)造詞的一個(gè)構(gòu)件,不應(yīng)切分開(kāi),而成語(yǔ)、簡(jiǎn)略語(yǔ)與名、動(dòng)、形等詞類顯然不在同一標(biāo)準(zhǔn),也應(yīng)根據(jù)句法功能歸入相應(yīng)詞類中去。語(yǔ)素和非語(yǔ)素字主要出現(xiàn)在一些離合詞的用法(如“出了一次差”)、字用舉例(如“鷓鴣的‘鷓’”)中。這些單字既已獨(dú)立充當(dāng)句子成分,就應(yīng)承認(rèn)其“詞”地位,哪怕作為臨時(shí)造詞,沒(méi)有必要為了幾例少數(shù)用法而多立名目。

6 結(jié)論

在流水式、模塊化的軟件系統(tǒng)框架下,目前中文信息處理的詞法、句法劃分過(guò)于簡(jiǎn)單化。各個(gè)處理階段又人為地追求統(tǒng)一的計(jì)算模型,而忽略了語(yǔ)言事實(shí)中復(fù)雜的詞法、句法關(guān)系。筆者從句本位圖解樹(shù)庫(kù)構(gòu)建的實(shí)踐經(jīng)驗(yàn)出發(fā),主張:

第一,正視詞法分析在漢語(yǔ)自動(dòng)分析中的獨(dú)立性地位,重新界定詞法分析的具體內(nèi)容,將許多具有高內(nèi)聚性的組合關(guān)系從句法分析中離析出來(lái),作為臨時(shí)造詞單獨(dú)處理。

第二,統(tǒng)籌詞類標(biāo)注與詞庫(kù)建設(shè)、句法分析之間的關(guān)系,改變將詞庫(kù)詞類直接作為句法分析輸入的做法,在訓(xùn)練句法模型時(shí)進(jìn)行詞類的句本位轉(zhuǎn)化?!耙谰浔嫫贰笔侵档媒梃b的。

[1] GB/T 13715—1992,信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范[S].

[2] 彭煒明.句本位語(yǔ)法數(shù)字化平臺(tái)的建設(shè)和應(yīng)用研究[D].北京: 北京師范大學(xué)碩士學(xué)位論文,2012.

[3] 黎錦熙.新著國(guó)語(yǔ)文法·引論[M].北京: 商務(wù)印書館,1992.

[4] 黎錦熙.黎錦熙選集[M].長(zhǎng)春: 東北師范大學(xué)出版社,2001.

[5] 朱德熙.語(yǔ)法講義[M].北京: 商務(wù)印書館,1999.

[6] 邢福義.漢語(yǔ)語(yǔ)法學(xué)[M].長(zhǎng)春: 東北師范大學(xué)出版社,1998.

[7] 史存直.語(yǔ)法新編[M].上海: 華東師范大學(xué)出版社,1982.

[8] 俞士汶,段慧明,朱學(xué)鋒等.北大語(yǔ)料庫(kù)加工規(guī)范: 切分·詞性標(biāo)注·注音[J].漢語(yǔ)語(yǔ)言與計(jì)算學(xué)報(bào),2003,13 (2): 121-158.

[9] 郭銳.現(xiàn)代漢語(yǔ)詞類研究[M].北京: 商務(wù)印書館,2002.

[10] 邢福義.小句中樞說(shuō)[J].中國(guó)語(yǔ)文,1995,(06): 420-428.

[11] 朱德熙.現(xiàn)代漢語(yǔ)形容詞研究[J].語(yǔ)言研究,1956,(1).

[12] 趙元任.漢語(yǔ)口語(yǔ)語(yǔ)法[M].北京: 商務(wù)印書館,1979.

[13] 王寧.論詞的語(yǔ)言意義的特性[J].北京師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2011,(02).

[14] 溫鎖林.從詞性標(biāo)注看小句的中樞地位[J].漢語(yǔ)學(xué)報(bào),2004,(01) .

猜你喜歡
詞法詞庫(kù)詞類
一“吃”多用
用詞類活用法擴(kuò)充詞匯量
輸入法詞庫(kù)取證比較研究
大學(xué)英語(yǔ)詞類教學(xué)研究及啟示
從成語(yǔ)中學(xué)習(xí)詞類活用
應(yīng)用于詞法分析器的算法分析優(yōu)化
輸入法詞庫(kù)乾坤大挪移
漫談高考考點(diǎn)對(duì)詞類及句子成分的隱性考查
語(yǔ)文學(xué)習(xí)方法之組詞法淺談
2010年高考英語(yǔ)“相似”考題例析