錢小飛
摘 要:名詞短語識別是漢語句法分析中的難點,挖掘和利用語言學知識是提高名詞短語識別效率的關(guān)鍵。文章對漢語名詞短語識別相關(guān)的本體研究進行了綜述,討論了名詞短語的界定、分類、性質(zhì)判定、結(jié)構(gòu)關(guān)系和功能等問題,這些研究對于定義名詞短語,抓取識別特征具有啟發(fā)意義。
關(guān)鍵詞:面向識別任務(wù) 漢語名詞短語 本體研究 綜述
一、中文信息處理與名詞短語研究
在中文信息處理的基礎(chǔ)研究中,名詞短語的識別是一個重要問題,也是進一步作句法和語義處理的基礎(chǔ)。研究漢語名詞短語的專著較少,史錫堯(1990)對名詞短語的內(nèi)部結(jié)構(gòu)、定語構(gòu)成、中心語構(gòu)成以及定語順序進行了較詳細的描寫。王玨(2001)涉及到名詞的句法功能、語義關(guān)系、定語類型以及定語順序等問題。其他論述多散見于單篇文獻。從結(jié)構(gòu)內(nèi)容上劃分,我們將面向識別任務(wù)的名詞短語本體研究歸納為三個方面:(1)“的”的同一性;(2)含“的”名詞短語研究;(3)不含“的”名詞短語研究。這些研究涉及到名詞短語的界定問題,以及潛在可用的識別資源和策略問題。本文通過對這些研究的整理分析,梳理和辨識對名詞短語識別有用的語言學知識。
二、“的”的同一性
“的”的同一性問題涉及到名詞短語界定。哪些“的”字短語是名詞性的,存在爭議。以De表示廣義的“的”①,弱化其形式區(qū)分,同一性研究即如何對De進行更合理的分類。字面上,“的”是一種文字形式。但語料中存在少量De字同形,如“的1”和“的3”同形,“的2”和“的3”同形,以前者為例,不應(yīng)包含在名詞短語的結(jié)構(gòu)助詞中。盡管漢語書面形式約定“的”“地”“得”分別是定語、狀語、補語的標識,但實際語料中存在不合約定的用法,并且含“的”短語也并不完全對應(yīng)著名詞短語。
De的同一性研究包括四分說、二分說、三分說和同一說四種觀點。
(一)四分說
黎錦熙(1924)把De分為“特別介詞”“語尾”“聯(lián)接代名詞”和“確定語態(tài)的助詞”四類,涉及到De字研究的一些重要問題,如De作為語氣詞、副詞性語尾,引導補語,表領(lǐng)屬關(guān)系以及構(gòu)成“的”字短語等問題。這一分類初步區(qū)分了副詞性語尾“地”和補語標志“得”。
(二)二分說
呂叔湘(1942)論述了部分De表示語氣的現(xiàn)象,提出把De分為關(guān)系詞和語氣詞兩類。關(guān)系詞表示加語與端語的組合關(guān)系;語氣詞表示確認的語氣。二分說把表示語氣和修飾關(guān)系放在對立面上,區(qū)分了句末或動賓之間表語氣的De和偏正結(jié)構(gòu)中的De,引起了學術(shù)界對于語氣詞“的”的關(guān)注。
(三)三分說
朱德熙(1961)應(yīng)用功能分布理論系統(tǒng)地研究了De的性質(zhì)和分類問題,將“X的”語法功能的不同歸結(jié)為De的不同功用,從而把De區(qū)分為三個語素:“的1”“的2”和“的3”,分別是副詞性語法單位、形容詞性語法單位、名詞性語法單位的后附成分。這一分類在語法學界引發(fā)了關(guān)于De的性質(zhì)和分類問題的大討論,問題涉及分類方法、分類內(nèi)容等多個方面。以下兩個問題特別值得我們注意。
1.是否存在語氣詞De。朱德熙(1961、1966)使用“是……的”框架,論證了“我會寫的”中的“的”是“的3”,同時也指出作為語氣詞的De和“的3”的界限“實在不容易劃清楚”,承認語氣詞De與否都會遇到困難。
2.是否存在時間助詞De。宋玉柱(1981)論證了表示時間的De,指出這些De指明動作發(fā)生于過去,去掉De會改變動作時間,造成語義矛盾,如“他昨天晚上什么時候回來的?”。它們不能用于表示將來時的句子中,如“你明天什么時候回來的?”。
我們認為De表示語氣和時間的情況是客觀存在的,但上述論述只有建立在De字功能單一的假設(shè)上才能成立,在“我昨天買的是這本書”中,“的”是時間助詞還是“的3”,亦或同時實現(xiàn)了兩種功能呢?僅看作時間助詞至少是不全面的。
(四)同一說
隨著研究的深入,學術(shù)界越來越傾向于De字功能同一的觀點。石毓智(2000)從認知的角度,認為De的功能是用來確立認知域中的成員。功能同一性的論證多在認知層面進行,這種抽象的解釋形式難以用來解決句法功能分類問題。
對于計算機而言,三分說系統(tǒng)地考察了“的1”“的2”和“的3”的分布位置,有較好的可操作性。首先,“的1”對應(yīng)于形式“地”,不可能作為名詞短語;其次,清楚地描述了“的2”和“的3”的分布差異,可以較明確地分辨名詞性和形容詞性“的”字短語。
三、含“的”名詞短語研究
構(gòu)造名詞短語的De,可以是“的2”或“的3”。一方面,De的問題受到廣泛關(guān)注;另一方面,語言學家觀察得到De的參與是形成復雜名詞短語的重要因素。按照是否含有結(jié)構(gòu)助詞De,名詞短語分為含De名詞短語和不含De名詞短語。
(一)“的”字短語研究
關(guān)于名詞性“的”字短語的研究主要討論了“的”的性質(zhì),“的”字短語的自指、轉(zhuǎn)指和成分提取等方面的問題。
1.“的”的性質(zhì)
早期以黎錦熙(1924)等為代表的學者認為,“的”字短語是由含“的”偏正結(jié)構(gòu)省略中心語而來,往往可以將省略成分補充出來,其中“的”是修飾語的標記。但在許多情況下,中心語無法補出,中心詞省略說也就失去了解釋力,如“醬油和醋一樣打五分錢的”。
朱德熙(1966)反對修飾語標記省略的觀點,采用功能分布理論區(qū)分了三個De,認為“S的”是一個自足的名詞性成分,其后并沒有省略什么,“的”是名詞性成分的標記。根據(jù)該理論,“相對程度副詞+形容詞+的”是謂詞性的,其中“的”是形容詞性單位的后附成分,但是這樣的格式卻能夠出現(xiàn)在主語的位置上用于指稱,如“更重要的是今年的高考”。
郭銳(2000)區(qū)分了表述功能的詞匯層面和句法層面,把“的”看成是詞匯層面的“飾詞標記”,認為“開車的跑了”中“開車的”與“急性好治”中的“急性”一樣,都是飾詞性成分在句法層面的指稱化。endprint
名詞短語識別作為一項較為基礎(chǔ)的研究,宜采用較為寬泛的定義,我們主張以朱德熙的觀點為主,部分采納郭銳關(guān)于飾詞性成分指稱化的觀點,將主語位置上的謂詞性“X+的2”短語也納入名詞短語的范疇。
2.“的”字短語的指代和成分提取
朱德熙(1978)研究了由動詞性結(jié)構(gòu)組成的“的”字短語(DJ的)以及由該類“的”字短語組成的判斷句,分析了“DJ的”與“DJ的+M”的關(guān)系,認為“DJ的”中關(guān)于動詞存在主謂和述賓兩種句法關(guān)系,“DJ的”總是優(yōu)先指代未出現(xiàn)的關(guān)系成分,因而可以指代三種對象:潛主語、潛賓語和其他成分。指代前兩者的“DJ的”,對應(yīng)了同格成分“M”;并且隨著動詞向的不同,“DJ的”在句中可能出現(xiàn)0個或多個潛在關(guān)系成分,因而“DJ的”可能產(chǎn)生指代歧義?!癉J的”結(jié)構(gòu)指代潛主語、潛賓語和其他成分的不同之處在于,指代潛主語的“DJ的”語義上能夠離開“M”而獨立,而指代潛賓語的則不能。袁毓林(1994)修正了朱德熙關(guān)于“的”字短語歧義指數(shù)的計算方法,認為句法成分的提取不僅與動詞的價有關(guān),也與名詞的配價有關(guān)。
沈家煊(1999)提出了一個轉(zhuǎn)喻/轉(zhuǎn)指的認知模型,在認知框架內(nèi)將指代目標和替代項分辨為兩個不同的對象,替代項能夠激活指代目標,并且替代項的顯著度高于指代目標。認知框架與配價結(jié)構(gòu)有時是一致的,有時卻不一致,這樣更好地解釋了“的”字短語的自指和轉(zhuǎn)指問題。如“毒蛇咬的(傷口)”并不在配價結(jié)構(gòu)內(nèi),但卻在“施事—動作—結(jié)果”這一認知框架內(nèi),替代項“毒蛇咬”這一動作比指代目標“傷口”內(nèi)涵更多,顯著度更高。
指代和成分提取研究表明,“的”字短語內(nèi)部存在精巧的句法語義構(gòu)造。根據(jù)朱德熙的觀點,多數(shù)包含動詞的含“的”偏正結(jié)構(gòu)可以看作是“De字短語+中心語”形式。這樣,在“[NP1]+V+[NP2]+De+[NP3]”格式中,NP1、NP2、NP3與動詞“V”都存在句法語義關(guān)系,這些關(guān)系可以參與短語邊界識別,如判斷“V”是否“NP2+De+NP3”的左邊界,而這正是最長名詞短語識別的難點。
“的”字短語的構(gòu)造規(guī)則還提供了挖掘句法語義關(guān)系的方法。絕大部分動詞是二價動詞,“VP的”多提取主語和賓語,最常見的是提取賓語,可以利用轉(zhuǎn)指規(guī)則自動獲取搭配。但風險也可以預見:對二價動詞,提取的結(jié)果可能是<動詞,結(jié)果>,如“毒蛇咬的(傷口)”中的<咬,傷口>;對一價動詞,可能提取出<動詞,施事>,如從“游泳的人”中提取出<游泳,人>;或定中搭配對,如<游泳,健將>。
(二)含“的”偏正結(jié)構(gòu)研究
含“的”偏正結(jié)構(gòu)是以助詞“的”為標記的偏正結(jié)構(gòu)。研究主要涉及三個方面:含“的”偏正結(jié)構(gòu)的屬性;“N1的N2”內(nèi)部關(guān)系;“N的V”結(jié)構(gòu)與功能。
關(guān)于結(jié)構(gòu)屬性的研究主要從語法和認知兩個角度進行,探討了無標記偏正結(jié)構(gòu)和含“的”偏正結(jié)構(gòu)的異同。
“N1的N2”內(nèi)部關(guān)系研究涉及到了其內(nèi)部的語法、語義、語用等層面,集中討論了其中的領(lǐng)屬關(guān)系問題(沈陽,1995)。領(lǐng)屬關(guān)系知識能夠給識別工作提供消歧知識。例如,“修理汽車的輪子”對于計算機來說是一個歧義結(jié)構(gòu),當檢測到“汽車”和“輪子”具有很強的領(lǐng)屬關(guān)系時,基本可以排除“修理”和“汽車”在該句中作為動賓搭配的可能性。
“N的V”結(jié)構(gòu)是名詞性的還是動詞性的存在爭議。學術(shù)界就其歷史演變、內(nèi)部結(jié)構(gòu)、外部功能等進行了多角度的研究。爭論的焦點是“N的V”的內(nèi)部結(jié)構(gòu)關(guān)系和“V”的名物化問題。
1.內(nèi)部結(jié)構(gòu)關(guān)系
從內(nèi)部結(jié)構(gòu)的研究來看,主要有主謂關(guān)系說、偏正關(guān)系說,后者得到了語法學界的廣泛承認,大多數(shù)語法學家都持有這一觀點。
張伯江(1993)細致地考察了“N的V”的內(nèi)部結(jié)構(gòu)語義關(guān)系,特別是“V”可能實現(xiàn)的語法性質(zhì),發(fā)現(xiàn)表示時間意義的語法手段最受限制,表情態(tài)的次之,而動詞自身的補充成分(賓語)和修飾性成分(狀語)比較自由。常見修飾性成分有:專職動詞前加詞,如“全速、大力”;副詞,如“不”;表否定意義的助動詞,如“未能、不肯”?!癡”后出現(xiàn)賓語的情況較普遍,但不容易出現(xiàn)補語和動態(tài)助詞“了、著、過”。從語義關(guān)系看,大多數(shù)情況下“N”是施事,但作受事也不少見。
沈家煊等(2000)從認知角度研究了“N”和“V”的句法語義關(guān)系,根據(jù)“N”能否作“V”的主賓語,分析了構(gòu)成“N的V”的四種情形,四種情況形成各自的動詞聚類,并認為“N的V”是“參照體—目標”構(gòu)式,“N”是參照體,“V”是目標,人們通過參照體獲得對目標的認知,因此進入“N的V”的“N”必然是與“V”聯(lián)系的凸現(xiàn)度或可及度較高的名詞。
2.動詞名物化
內(nèi)部結(jié)構(gòu)的一個重要問題是“V”是否名物化。黎錦熙(1924)在其構(gòu)建的“依句辨品”的語法體系中,將詞類和句法成分一一對應(yīng),認為主語和賓語位置上的“V”轉(zhuǎn)化成了名詞。朱德熙反對“名物化”的觀點,認為動詞作主語時受定語修飾是動詞固有的用法,而“這本書的出版”之所以是名詞性的,并非因為該結(jié)構(gòu)出現(xiàn)在主語或賓語的位置上,而是因為“這個結(jié)構(gòu)本身是名詞性的:既不能作謂語,也不能受副詞修飾”。
張伯江(1993)沒有對“V”的性質(zhì)作出定論,但認為“V”的名詞性增強,動詞性減弱;王冬梅(2002)采用及物性理論中的八項及物性判定特征對“V”進行測試,得出同樣的結(jié)論,發(fā)現(xiàn)及物性越高的動詞越不容易出現(xiàn)在該結(jié)構(gòu)中。
3.外部句法功能
由于對“N的V”的結(jié)構(gòu)關(guān)系、結(jié)構(gòu)核心認識不同,對它的外部功能也存在不同見解?;痉譃閮煞N觀點,一種認為“N的V”是名詞性的,持名物化說、偏正關(guān)系說及“參照體—目標”構(gòu)式說的學者大都持此觀點。
張伯江(1993)根據(jù)語料統(tǒng)計指出,“N的V”格式作主語和賓語的幾率大約各占一半,并且作賓語時更傾向于作介詞賓語;當“V”為光桿動詞時,作主語或賓語都十分常見,“V”前后帶附加成分時,作主語的傾向則十分明顯。endprint