国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中文非投射語(yǔ)義依存現(xiàn)象分析研究

2014-02-28 00:45鄭麗娟邵艷秋楊爾弘
中文信息學(xué)報(bào) 2014年6期
關(guān)鍵詞:句法語(yǔ)料主語(yǔ)

鄭麗娟,邵艷秋,楊爾弘

(北京語(yǔ)言大學(xué) 應(yīng)用語(yǔ)言學(xué)研究所,北京 100083)

1 引言

語(yǔ)義分析是自然語(yǔ)言處理的核心問(wèn)題。中文語(yǔ)義分析研究,從21世紀(jì)開(kāi)始蓬勃發(fā)展以來(lái),借鑒各種國(guó)外語(yǔ)義分析理論: 論元結(jié)構(gòu)、語(yǔ)義角色標(biāo)注、格語(yǔ)法和語(yǔ)義依存分析理論等,都已經(jīng)取得了豐碩的成果。但目前句子級(jí)的語(yǔ)義分析研究主要集中在語(yǔ)義角色標(biāo)注這種淺層語(yǔ)義分析[1-2]的任務(wù)上,這種淺層分析只分析句子中主要謂詞與其論元之間的語(yǔ)義關(guān)系,對(duì)論元內(nèi)部的各成分間的語(yǔ)義關(guān)系并沒(méi)有進(jìn)行分析。如北京大學(xué)基于語(yǔ)義組塊分析和詞匯語(yǔ)義特征的語(yǔ)義角色標(biāo)注[3]和利用北大網(wǎng)庫(kù)的標(biāo)注語(yǔ)料進(jìn)行語(yǔ)義角色標(biāo)注的研究,哈爾濱工業(yè)大學(xué)提出的一種基于特征組合和支持向量機(jī)的語(yǔ)義角色標(biāo)注方法,蘇州大學(xué)的名詞性謂詞語(yǔ)義角色標(biāo)注和以依存關(guān)系為標(biāo)注單元進(jìn)行語(yǔ)義角色標(biāo)注等[4]。此外,淺層語(yǔ)義分析中對(duì)語(yǔ)義關(guān)系類(lèi)型的定義也不夠豐富。這些特點(diǎn)導(dǎo)致語(yǔ)義角色標(biāo)注這種淺層分析存在一定的局限性,對(duì)句子意義的理解不夠深入,特別是在基于短語(yǔ)結(jié)構(gòu)句法和依存句法的淺層語(yǔ)義分析研究遭遇瓶頸的階段,語(yǔ)義分析的準(zhǔn)確率無(wú)法進(jìn)一步提高。

因而,近來(lái)也有不少學(xué)者研究句子結(jié)構(gòu)的深層語(yǔ)義: 如清華大學(xué)李涓子的語(yǔ)義依存分析理論[5]、武漢大學(xué)基于特征結(jié)構(gòu)的語(yǔ)義研究[6-8]和山西大學(xué)的框架語(yǔ)義結(jié)構(gòu)研究。雖然深層語(yǔ)義研究正在如火如荼地進(jìn)行,但深層語(yǔ)義研究畢竟還處于探索階段,各種語(yǔ)義理論被廣泛應(yīng)用,以克服淺層語(yǔ)義分析的不足,試圖把漢語(yǔ)語(yǔ)義分析推向更加成熟的階段。

2 依存句法和語(yǔ)義依存

2.1 依存樹(shù)

依存樹(shù)是一種基于句子的句法、語(yǔ)義分析結(jié)果的形式化結(jié)構(gòu)或者數(shù)據(jù)存儲(chǔ)形式,這種形式更便于計(jì)算機(jī)的存儲(chǔ)計(jì)算和自動(dòng)學(xué)習(xí),也更加直觀化。簡(jiǎn)而言之,句法依存樹(shù)就是為句子中的每個(gè)詞語(yǔ)(句子核心詞除外)找到它的依存詞(父親節(jié)點(diǎn)),并指出該詞語(yǔ)與依存詞之間的句法關(guān)系。這種傳統(tǒng)的依存樹(shù)結(jié)構(gòu)規(guī)定句子中的每個(gè)詞只能有一個(gè)父親節(jié)點(diǎn)與其存在依存關(guān)系,且不同的依存弧之間不允許交叉。如圖1和圖2就是對(duì)句子“王華的媽媽很疼愛(ài)她。”的句法和語(yǔ)義依存分析實(shí)例。

圖1 依存句法樹(shù)

圖2 語(yǔ)義依存樹(shù)

依存弧上所標(biāo)注的是詞對(duì)之間的句法關(guān)系,且弧是由核心詞指向修飾詞,例如,SBV表示“媽媽”和“疼愛(ài)”是主謂結(jié)構(gòu),且“疼愛(ài)”是核心,VOB表示“疼愛(ài)”和“她”是動(dòng)賓結(jié)構(gòu),“疼愛(ài)”是核心,ADV表示“很”和“疼愛(ài)”是狀中結(jié)構(gòu),“疼愛(ài)”是核心,ATT表示“王華”和“媽媽”是定中結(jié)構(gòu),“媽媽”是核心,RAD表示右附加關(guān)系,WP表示標(biāo)點(diǎn)符號(hào)。

從圖1和圖2的對(duì)比中可以看出,依存句法樹(shù)和語(yǔ)義依存樹(shù)的原理是一樣的,唯一的不同就在于,前者弧上關(guān)系為句法關(guān)系,后者弧上關(guān)系為語(yǔ)義關(guān)系。在語(yǔ)義依存樹(shù)中,弧上關(guān)系表示的是,弧指向詞語(yǔ)(依存詞或者修飾詞)相對(duì)于弧發(fā)出詞語(yǔ)(核心詞)的語(yǔ)義。Agt表示施事,Poss表示領(lǐng)事,mDegr表示程度標(biāo)記,Datv表示涉事,指動(dòng)作或者事件所關(guān)涉的對(duì)象,mPunc表示標(biāo)點(diǎn)標(biāo)記,mAux表示“的”字標(biāo)記。這樣,每個(gè)詞對(duì)的語(yǔ)義關(guān)系可表示為一個(gè)三元組,例如,(媽媽→王華,Poss)表示“王華”是“媽媽”的領(lǐng)有者,“媽媽”是核心詞,“王華”是修飾詞或依存詞,“王華”依存于“媽媽”。

2.2 依存圖理論的提出

漢語(yǔ)是一種語(yǔ)序靈活、詞類(lèi)功能多樣化的意合型語(yǔ)言,語(yǔ)言變式繁多,在真實(shí)語(yǔ)言現(xiàn)象中經(jīng)常會(huì)出現(xiàn)某個(gè)詞語(yǔ)同時(shí)依存于多個(gè)詞語(yǔ)[9],即同時(shí)和句中其他多個(gè)詞語(yǔ)發(fā)生語(yǔ)義關(guān)聯(lián)的現(xiàn)象,也可能出現(xiàn)依存弧相互交叉的非投射現(xiàn)象。這些現(xiàn)象都是傳統(tǒng)的依存樹(shù)無(wú)法表達(dá)的。為了將這些真實(shí)存在的語(yǔ)言現(xiàn)象顯現(xiàn)出來(lái),同時(shí)還能夠兼顧依存表達(dá)的優(yōu)勢(shì),本文突破原有的依存樹(shù)表達(dá)的限制,采用依存圖的描述方式,即只要句子中的詞與詞之間實(shí)際存在語(yǔ)義關(guān)系,就將它們相連接,這就意味著在依存樹(shù)中允許一個(gè)詞語(yǔ)有多個(gè)父親節(jié)點(diǎn),同時(shí)依存弧之間可能會(huì)出現(xiàn)交叉。例如,句子“她眼睛哭腫了?!逼湟来鎴D如圖3所示。

圖3 依存圖

從圖3中可以看出,“她”與“哭”和“眼睛”兩個(gè)詞語(yǔ)都有語(yǔ)義關(guān)系,即詞語(yǔ)“她”存在兩個(gè)父親節(jié)點(diǎn): “哭”和“眼睛”,分別表示施事和領(lǐng)屬關(guān)系中的領(lǐng)事;另外,弧(腫→眼睛)與弧(哭→她)也形成了交叉。從句意理解的角度來(lái)看,這樣的多父親節(jié)點(diǎn)和交叉弧都是有其表達(dá)語(yǔ)義的真實(shí)價(jià)值,如果用依存樹(shù)來(lái)表達(dá),語(yǔ)義表達(dá)上就會(huì)不全面: 以“哭”為全句核心,依存樹(shù)的語(yǔ)義標(biāo)注情況為: (哭→她,Agt),(她→眼睛,Bleg),(哭→腫,eResu),(腫→了,mTone),從而丟掉了“眼睛”和“腫”之間存在的真實(shí)語(yǔ)義關(guān)系。如圖4所示。

圖4 依存樹(shù)

值得提出的是,依存樹(shù)的不足已有學(xué)者在研究了。例如,北京大學(xué)孫薇薇的句法依存圖[8],武漢大學(xué)姬東鴻在提出依存語(yǔ)義樹(shù)分析的不足[9]的基礎(chǔ)上研究了基于特征結(jié)構(gòu)的語(yǔ)義依存圖[6-7]。本文的依存圖同武漢大學(xué)的依存圖[7]相比,除了語(yǔ)義關(guān)系定義和標(biāo)注理念有所不同之外,在結(jié)構(gòu)表示上的一個(gè)主要不同是武漢大學(xué)的依存圖是一個(gè)無(wú)向圖,對(duì)有依存關(guān)系的兩者來(lái)說(shuō),并不標(biāo)出弧的指向。而我們的圖是有向圖,每組詞對(duì)都是核心詞指向依存詞,我們認(rèn)為這對(duì)于明確修飾詞和依存詞的語(yǔ)義關(guān)系是很有幫助的。

通過(guò)對(duì)大量語(yǔ)言事實(shí)的分析和研究,我們?cè)谶@里對(duì)傳統(tǒng)的Robinson依存理論[10]中所規(guī)定的公理進(jìn)行了部分修訂,突破了原有的依存樹(shù)的局限性,構(gòu)建依存圖,以增強(qiáng)依存表達(dá)的生命力。本文的依存圖遵循如下公理:

(1) 一個(gè)句子中只有一個(gè)成分是獨(dú)立的;

(2) 其他成分直接依存于某一個(gè)成分;

(3) 任何一個(gè)成分可以同時(shí)依存于兩個(gè)或兩個(gè)以上的成分;

(4) 如果A成分直接依存于B成分,而C成分在句中位于A和B之間,那么C可以依存于A左邊的成分或B右邊的成分,即允許依存弧之間發(fā)生交叉;

參照Robinson依存理論[10]中所規(guī)定的公理,我們的依存圖公理與其有很大的差異,主要在(3)和(4),公理(3)強(qiáng)調(diào)一個(gè)成分可以依存于多個(gè)成分,即可以有多個(gè)父親節(jié)點(diǎn)。公理(4)強(qiáng)調(diào)了不同的依存弧之間允許交叉。依據(jù)這幾條公理做句法或語(yǔ)義分析時(shí)可以構(gòu)造出一個(gè)有向無(wú)環(huán)依存圖。

本文將針對(duì)第4條公理重點(diǎn)討論漢語(yǔ)中出現(xiàn)的非投射現(xiàn)象。

3 投射現(xiàn)象與非投射現(xiàn)象

非投射現(xiàn)象是和投射現(xiàn)象相對(duì)的。以往的語(yǔ)義依存樹(shù)處理的都是投射情況,對(duì)于英語(yǔ)這種語(yǔ)序比較固定的語(yǔ)言來(lái)說(shuō),投射樹(shù)基本足夠用來(lái)分析其絕大部分的語(yǔ)言現(xiàn)象,但是對(duì)于像漢語(yǔ)、德語(yǔ)、荷蘭語(yǔ)等這種語(yǔ)序靈活的語(yǔ)言,很多的句子只用投射現(xiàn)象去做語(yǔ)義分析,就會(huì)導(dǎo)致語(yǔ)義分析性能低下,甚至是出現(xiàn)不合乎語(yǔ)言表達(dá)習(xí)慣的語(yǔ)言現(xiàn)象。

投射現(xiàn)象,是指將樹(shù)結(jié)構(gòu)表示的句子中的每一個(gè)詞語(yǔ)向下垂直投影形成的線性詞序列同句子的詞語(yǔ)排列順序相一致,即從依存樹(shù)上看,依存弧之間不存在交叉情況。為了清晰觀察依存樹(shù)的投射現(xiàn)象,我們將圖4展示為層次表示形式,如圖5所示,可以看出按照樹(shù)結(jié)構(gòu)投影下來(lái)的詞序列順序和原句保持一致。

圖5 依存樹(shù)層次表示形式

非投射現(xiàn)象則和投射現(xiàn)象相反,指將樹(shù)結(jié)構(gòu)表示的句子中的每個(gè)詞語(yǔ)向下垂直投影形成的線性詞序列同句子的詞語(yǔ)排列順序不一致,即從依存樹(shù)上看,依存弧之間存在交叉情況。圖3為例句的依存圖表示,其對(duì)應(yīng)的層次依存圖的詞序列投影如圖6所示。從投影結(jié)果可見(jiàn),投影下來(lái)的詞序列“她哭眼睛腫了?!蓖涞脑~序列“她眼睛哭腫了?!毕啾龋a(chǎn)生了不一致現(xiàn)象。

圖6 依存圖層次表示形式

可以看出,在真實(shí)語(yǔ)料中,非投射現(xiàn)象是客觀存在的。非投射本身是針對(duì)語(yǔ)序靈活的語(yǔ)言結(jié)構(gòu)提出的一種解決問(wèn)題的方案,但是由于其豐富的交叉現(xiàn)象的存在,減少了表達(dá)語(yǔ)法關(guān)系時(shí)對(duì)語(yǔ)序的依賴(lài),從而使得運(yùn)用非投射依存現(xiàn)象分析句法、語(yǔ)義更有效。因此,不管是語(yǔ)序靈活的語(yǔ)言還是英語(yǔ)這樣語(yǔ)序比較固定的語(yǔ)言都正在做非投射現(xiàn)象的分析[11]。

4 語(yǔ)義依存圖庫(kù)中非投射現(xiàn)象的語(yǔ)言學(xué)分析

從上述的分析中可以看出,非投射現(xiàn)象是客觀存在的,漢語(yǔ)中更是如此。下面本節(jié)就從基于真實(shí)語(yǔ)料的語(yǔ)義依存圖庫(kù)出發(fā),描寫(xiě)并解釋漢語(yǔ)中通常出現(xiàn)的非投射現(xiàn)象。

4.1 語(yǔ)義依存圖庫(kù)簡(jiǎn)介

語(yǔ)料采集方面,語(yǔ)義依存圖庫(kù)總共包括大約40 000個(gè)句子,其中包含大約10 000句的新聞?wù)Z料、9 000句的中小學(xué)課本語(yǔ)料等共20 000句的書(shū)面語(yǔ)語(yǔ)料和10 000句微博語(yǔ)料、10 000句機(jī)器翻譯所用語(yǔ)料等共20 000句的口語(yǔ)語(yǔ)料。

語(yǔ)義標(biāo)簽集的確立方面,目前,學(xué)界對(duì)語(yǔ)義角色的分類(lèi)各有不同,數(shù)目多寡不定,HowNet的角色劃分比較齊全和完善。但HowNet定義的角色主要是針對(duì)動(dòng)詞,較少考慮到形容詞、名詞等其他詞類(lèi)之間語(yǔ)義關(guān)系[12],且語(yǔ)義角色類(lèi)型繁多。魯川的語(yǔ)義分類(lèi)體系[13]相對(duì)來(lái)說(shuō)更加面向工程實(shí)際,對(duì)這兩者加以擴(kuò)展和修改,在標(biāo)注了大約10 000句的語(yǔ)料的過(guò)程中,我們逐步完善定義了一整套包含127個(gè)標(biāo)簽的語(yǔ)義標(biāo)簽集合。該語(yǔ)義標(biāo)簽集分為5個(gè)大類(lèi): 周邊角色集、嵌套關(guān)系集、反關(guān)系集、語(yǔ)義依附標(biāo)記集和事件關(guān)系集。周邊角色通常由指稱(chēng)概念來(lái)充當(dāng),包括施事、受事和源事等32個(gè)語(yǔ)義角色。嵌套關(guān)系是指由小句或者短語(yǔ)充當(dāng)某個(gè)語(yǔ)義角色的現(xiàn)象,小句的核心與謂詞的核心連接標(biāo)為嵌套關(guān)系。反關(guān)系是指那些充當(dāng)了定語(yǔ)的動(dòng)詞或動(dòng)詞短語(yǔ),嵌套關(guān)系和反關(guān)系的標(biāo)簽數(shù)量理論上講同周邊角色相等,但在真實(shí)語(yǔ)料中遠(yuǎn)不會(huì)出現(xiàn)那么多。事件關(guān)系指復(fù)句或緊縮句中多個(gè)事件之間的句法語(yǔ)義關(guān)系,包含19個(gè)標(biāo)簽。此外,我們還定義了語(yǔ)義依附標(biāo)記,多為一些連詞、介詞、助詞等虛詞,含有17個(gè)小類(lèi)。

語(yǔ)料庫(kù)雖然包含40 000個(gè)句子,但目前已完成的標(biāo)注工作僅達(dá)到10 000個(gè)句子,主要是中小學(xué)語(yǔ)文課本語(yǔ)料。本文僅以這10 000個(gè)句子的語(yǔ)義依存標(biāo)注結(jié)果為研究對(duì)象,統(tǒng)計(jì)出來(lái)的非投射現(xiàn)象比例顯示不是所有的基本句型的變式都會(huì)出現(xiàn)非投射現(xiàn)象,在10 501個(gè)句子的語(yǔ)料庫(kù)中,非投射現(xiàn)象的比重只有17.4%,雖然和投射現(xiàn)象相比,非投射現(xiàn)象所占比重不高,但非投射現(xiàn)象是真實(shí)存在的,總結(jié)出這些非投射現(xiàn)象的情況,對(duì)于提高機(jī)器自動(dòng)語(yǔ)義分析的準(zhǔn)確率來(lái)說(shuō),非常重要。

4.2 非投射語(yǔ)義依存現(xiàn)象的語(yǔ)言學(xué)分析

本文以已標(biāo)注的句子為研究對(duì)象,總結(jié)和分析了非投射現(xiàn)象出現(xiàn)的句型及其句子變式,規(guī)律總結(jié)如下。

(1) 小句賓語(yǔ)句。小句賓語(yǔ)句的某個(gè)句法成分發(fā)生位移,并且狀語(yǔ)位于整個(gè)句子的最前端時(shí),狀語(yǔ)和謂語(yǔ)動(dòng)詞的語(yǔ)義關(guān)聯(lián)與小句賓語(yǔ)句內(nèi)部句法成分的語(yǔ)義關(guān)聯(lián)造成弧之間的交叉。小句賓語(yǔ)句內(nèi)部句法成分的位移是有其內(nèi)在動(dòng)力的,或者是由于主語(yǔ)承前省略,造成句子形式上缺乏主語(yǔ),或者是說(shuō)話(huà)者為了突出話(huà)題,強(qiáng)調(diào)說(shuō)明對(duì)象等語(yǔ)用因素。但無(wú)論句子形式如何變化,語(yǔ)義始終都是小句賓語(yǔ)句要表達(dá)的語(yǔ)義,語(yǔ)義分析就應(yīng)該按語(yǔ)句表義原型標(biāo)注,而忽略形式變化,否則語(yǔ)義分析就無(wú)章可循了。例如,“醒來(lái)的時(shí)候,夢(mèng)不知道飛到哪里去了”。狀語(yǔ)“醒來(lái)的時(shí)候”修飾謂詞“知道”,與謂詞語(yǔ)義關(guān)系密切;而“夢(mèng)”是小句賓語(yǔ)“飛到哪里去了”中發(fā)生位移的一個(gè)成分,“夢(mèng)”和“知道”并沒(méi)有語(yǔ)義關(guān)聯(lián),“夢(mèng)”與“飛”才存在真實(shí)的語(yǔ)義關(guān)聯(lián),因此,狀語(yǔ)的修飾限定作用(“知道”和“時(shí)候”相連的依存弧)與小句賓語(yǔ)的主謂結(jié)構(gòu)(“飛”和“夢(mèng)”連接的依存弧)形成了弧與弧的交叉。具體分析如圖7所示。

圖7 小句賓語(yǔ)句語(yǔ)義依存圖分析

(2) 比較句。比較句是用來(lái)表示兩種不同事物在某一點(diǎn)上(性質(zhì)、數(shù)量等)的不同程度值,所以比較句中通常含有比較項(xiàng)、參照項(xiàng)、比較點(diǎn)和比較值[14]。如句子“他比我成績(jī)好”中,其比較項(xiàng)、參照項(xiàng)、比較點(diǎn)和比較值分別為: 他、我、成績(jī)和好。在任何一種語(yǔ)言的比較句中,比較項(xiàng)、參照項(xiàng)不可缺失,但是由于漢語(yǔ)是意合型語(yǔ)言,并不要求比較點(diǎn)必須出現(xiàn),有時(shí)候比較點(diǎn)是比較項(xiàng)自身的總體屬性,即比較項(xiàng)就是比較點(diǎn);或者比較點(diǎn)為了避免累贅,只出現(xiàn)在比較項(xiàng)或者參照項(xiàng)其中一個(gè)的后面。為了能很好地標(biāo)示出深層語(yǔ)義,與沒(méi)有帶明顯的比較點(diǎn)的比較句相區(qū)分,比較點(diǎn)只出現(xiàn)在比較項(xiàng)或者參照項(xiàng)其中一個(gè)的后面就會(huì)造成弧之間的交叉現(xiàn)象,尤其是比較點(diǎn)緊跟比較項(xiàng)之后且參照項(xiàng)之后不再有比較點(diǎn),弧交叉就無(wú)法避免。我們對(duì)比較項(xiàng)與比較點(diǎn)相重合的句子如: “他比我優(yōu)秀”的語(yǔ)義分析如圖8所示,對(duì)比較點(diǎn)只出現(xiàn)一次的句子如: “他成績(jī)比我好”的語(yǔ)義分析處理如圖9所示。

圖8 比較項(xiàng)與比較點(diǎn)重合的比較句的語(yǔ)義依存圖分析

圖9 比較點(diǎn)只出現(xiàn)一次的語(yǔ)義依存圖分析

(3) 主謂謂語(yǔ)句。(此處的主謂謂語(yǔ)句是指真正的主謂謂語(yǔ)句,并不含有位移造成的表層形式的主謂謂語(yǔ)句,如句子“這件事我知道?!辈皇俏覀兌x的主謂謂語(yǔ)句。)大主語(yǔ)和小主語(yǔ)有廣義的領(lǐng)屬關(guān)系,且大主語(yǔ)和大謂語(yǔ)之間存在狀語(yǔ),狀語(yǔ)是修飾謂詞的詞語(yǔ),根據(jù)語(yǔ)義相關(guān)原則,狀語(yǔ)和謂語(yǔ)聯(lián)系密切,主謂謂語(yǔ)句中的謂語(yǔ)就是小謂語(yǔ),因此,這組領(lǐng)屬關(guān)系和狀中關(guān)系就形成了弧交叉。如句子“有些恐龍則身材矮小?!毕让鞔_了述謂結(jié)構(gòu)的說(shuō)明對(duì)象“恐龍”,述謂結(jié)構(gòu)是對(duì)話(huà)題(即說(shuō)明對(duì)象)的敘述說(shuō)明,述謂結(jié)構(gòu)中的小主語(yǔ)“身材”和話(huà)題大主語(yǔ)“恐龍”之間存在領(lǐng)屬關(guān)系,且在大主語(yǔ)和大謂語(yǔ)之間存在一個(gè)表示轉(zhuǎn)折的語(yǔ)氣副詞“則”,因此,“恐龍”和“身材”的語(yǔ)義領(lǐng)屬關(guān)系與“則”和“矮小”的語(yǔ)義修飾關(guān)系造成了弧之間的交叉。具體分析如圖10所示。

圖10 主謂謂語(yǔ)句語(yǔ)義依存圖分析

(4) 緊縮句。漢語(yǔ)是一種意合型語(yǔ)言,只要表意順暢,并不太注重句子表層形式的完整性,因此常常會(huì)出現(xiàn)必要句法成分的省略或者復(fù)句的緊縮,緊縮形式上給人單句的感覺(jué),但其語(yǔ)義卻要求是復(fù)句形式。為了表示句子的語(yǔ)義,語(yǔ)義依存圖的標(biāo)注就標(biāo)出了緊縮復(fù)句中深層語(yǔ)義,成分的省略就必然要標(biāo)示出來(lái),否則會(huì)形成句法上不和句法搭配的句法形式。例如,“有飽肚的東西拿些來(lái)?!逼渖顚诱Z(yǔ)義結(jié)構(gòu)或者說(shuō)原型是“如果有飽肚的東西,就拿些東西來(lái)。”緊縮復(fù)句中承前省略了受事賓語(yǔ)“東西”,而受事賓語(yǔ)又受到數(shù)量詞“些”的修飾,如果為了避免非投射,不標(biāo)示出“些”和“東西”的深層語(yǔ)義,就會(huì)形成動(dòng)詞和名量詞在句法上的不合理的搭配。因此,對(duì)“有飽肚的東西拿些來(lái)?!边@種緊縮句,我們的語(yǔ)義依存圖分析如圖11所示。

圖11 緊縮句語(yǔ)義依存圖分析

(5) 注釋短語(yǔ)或復(fù)句。在注釋短語(yǔ)或復(fù)句中,補(bǔ)句通常是對(duì)主句中某個(gè)名詞性成分的補(bǔ)充說(shuō)明,主句和補(bǔ)句中間通常用標(biāo)點(diǎn)隔開(kāi)[14]。補(bǔ)充說(shuō)明成分和名詞性成分有語(yǔ)義關(guān)聯(lián),有時(shí)可能造成弧的交叉。例如,它們是用不同的材料做的,大理石、花崗巖等?!笆恰摹睆?qiáng)調(diào)句式,強(qiáng)調(diào)制作材料,句子形式上省略了施事,使得受事“它們”提前,充當(dāng)主語(yǔ),以完善句子表層形式。在這種非原型結(jié)構(gòu),“做”和“它們”表示成事關(guān)系的弧與“材料”和“大理石”表示解釋關(guān)系的弧形成了交叉現(xiàn)象,但是其原型句: “用不同的材料做它們,大理石、花崗巖等”就不會(huì)形成交叉。具體分析如圖12所示。

圖12 注釋復(fù)句或短語(yǔ)語(yǔ)義依存圖分析

(6) 代詞指稱(chēng)。代詞本身就是起指稱(chēng)、替代的作用,以避免句法形式上的重復(fù)和漢語(yǔ)詞匯缺乏的假象。就一個(gè)簡(jiǎn)單的代詞來(lái)說(shuō),其指稱(chēng)意義本身就不明確,代詞只有放在具體的語(yǔ)境中才有明確的指代對(duì)象,況且有時(shí)候,句中名詞較多,代詞的指代就可能造成語(yǔ)義的錯(cuò)誤理解。因此,語(yǔ)義語(yǔ)料庫(kù)在建設(shè)的時(shí)候,就應(yīng)該指出代詞的具體指代對(duì)象,以使句子表意明確化。而且只有代詞對(duì)象明確化之后,才能明確句子間的語(yǔ)義關(guān)聯(lián),為篇章語(yǔ)義分析奠定基礎(chǔ)。如句子“工程師向工人們走來(lái),他什么也沒(méi)對(duì)工人們說(shuō)?!薄八焙汀肮こ處煛敝阜Q(chēng)同一個(gè)人,如若不把兩者聯(lián)系起來(lái),會(huì)造成敘述的脫節(jié),句與句之間的語(yǔ)義關(guān)系不明確,進(jìn)而造成語(yǔ)篇結(jié)構(gòu)松散。在這句話(huà)中,“他”和“工程師”表示等同指代關(guān)系的弧與“走”和“說(shuō)”之間表示事件間關(guān)系的弧形成交叉。具體分析如圖13所示。

圖13 代詞指稱(chēng)句語(yǔ)義依存分析

(7) 動(dòng)補(bǔ)謂語(yǔ)句。有些動(dòng)補(bǔ)謂語(yǔ)句包含兩個(gè)動(dòng)核結(jié)構(gòu),特別是補(bǔ)語(yǔ)的語(yǔ)義指向動(dòng)作的施事、受事或者工具等時(shí),此類(lèi)動(dòng)補(bǔ)謂語(yǔ)句就可能包含兩個(gè)動(dòng)核結(jié)構(gòu)[13]。例如,他的衣服穿破了。他走累了。

a 他走累了。 他走+他累了。

b 他的衣服穿破了 他穿衣服+衣服破

對(duì)于a類(lèi)句子,兩個(gè)動(dòng)核結(jié)構(gòu)的主語(yǔ)都是一樣的,雖然可以為了圖的美觀,減少弧線,可是減少了弧線,就會(huì)影響第二個(gè)謂詞與主語(yǔ)的語(yǔ)義關(guān)系。然而很多情況下,兩個(gè)謂詞和主語(yǔ)的語(yǔ)義關(guān)系并不一樣。因此,在標(biāo)注的過(guò)程中,為了明確詞對(duì)之間的語(yǔ)義關(guān)系,其具體標(biāo)注如圖14所示。

圖14 兩個(gè)動(dòng)核結(jié)構(gòu)的主語(yǔ)一致的依存圖分析

但對(duì)于b類(lèi)句子,如果按照a類(lèi)的語(yǔ)義進(jìn)行標(biāo)注,就會(huì)造成語(yǔ)義不合理的現(xiàn)象“衣服穿+衣服破”,這也不是句子本身的語(yǔ)義。因此,我們對(duì)b類(lèi)句子這樣的兩個(gè)動(dòng)核結(jié)構(gòu)主語(yǔ)不一致的情況又做了處理,使得句義的表達(dá)符合邏輯,此時(shí)就會(huì)出現(xiàn)弧的交叉。b類(lèi)句子語(yǔ)義依存圖分析如圖15所示。

圖15 兩個(gè)動(dòng)核結(jié)構(gòu)的主語(yǔ)不一致的依存圖分析

經(jīng)過(guò)對(duì)漢語(yǔ)中非投射現(xiàn)象的分析,發(fā)現(xiàn)多數(shù)都是由語(yǔ)言變式引起的,那些屬于原型的句子形式,通常不會(huì)出現(xiàn)非投射現(xiàn)象。因此,要找到漢語(yǔ)中所有的非投射現(xiàn)象,就需要找到漢語(yǔ)中基本句型的所有語(yǔ)言變式,并且對(duì)每種語(yǔ)言變式進(jìn)行逐一分析,以提高非投射現(xiàn)象標(biāo)注的準(zhǔn)確率。

5 結(jié)語(yǔ)

漢語(yǔ)是一種語(yǔ)序靈活的語(yǔ)言,傳統(tǒng)的投射依存樹(shù)不能很好的解決很多特殊類(lèi)型句子的語(yǔ)義分析問(wèn)題。本文從漢語(yǔ)真實(shí)語(yǔ)料出發(fā),驗(yàn)證和明確了非投射現(xiàn)象的客觀存在性,基于語(yǔ)義依存圖庫(kù),對(duì)漢語(yǔ)的非投射現(xiàn)象進(jìn)行了深入的分析和歸納,從語(yǔ)言學(xué)角度對(duì)語(yǔ)義依存圖語(yǔ)料庫(kù)中出現(xiàn)的非投射現(xiàn)象給出了理論解釋和分析。本文的主要意義可歸納為3個(gè)方面,一是為我們的語(yǔ)義依存體系給予更好的理論上的支撐;二是為未來(lái)提高機(jī)器自動(dòng)語(yǔ)義標(biāo)注提供更好的標(biāo)注知識(shí),從而提高語(yǔ)義自動(dòng)標(biāo)注的性能;三是為語(yǔ)義分析理論提供一種新的思考視角。

對(duì)非投射現(xiàn)象的概括,由于語(yǔ)料規(guī)模的有限和語(yǔ)料正在標(biāo)注階段,可能還存在以上7類(lèi)不能完全概括的有非投射現(xiàn)象的句法結(jié)構(gòu),這一點(diǎn),還有待于語(yǔ)料規(guī)模的擴(kuò)大化,希望在以后能更全面地概括含有非投射現(xiàn)象的漢語(yǔ)句式,并找到句法到語(yǔ)義的投射規(guī)律。另外,除了非投射現(xiàn)象之外,對(duì)于語(yǔ)義依存圖中某些節(jié)點(diǎn)出現(xiàn)多父親節(jié)點(diǎn)的現(xiàn)象以及構(gòu)建語(yǔ)義依存圖自動(dòng)標(biāo)注系統(tǒng)也將是未來(lái)的研究工作。

致謝

在文章寫(xiě)作過(guò)程中,特別感謝哈爾濱工業(yè)大學(xué)丁宇同學(xué)在本文研究過(guò)程中給予的大力支持和幫助。同時(shí)非常感謝在匿名評(píng)審過(guò)程中提出寶貴意見(jiàn)的評(píng)審老師們。

[1] Min Zhang, Wanxiang Che, Guodong Zhou,et al. Semantic Role Labeling Using a Grammar-Driven Convolution Tree Kemel[J]. IEEE Transactions on Audio,Speech and Language Processing. 2008,16(7): 1315-1329.

[2] Wanxiang Che, Min Zhang, Ai Ti Aw, et al. Using a Hybrid Convolution Tree Kernel for Semantic Role Labeling [J]. ACM Transactions on Asian Language Information Processing.2008,7(4): 1-23.

[3] 丁偉偉,常寶寶.基于語(yǔ)義組塊分析的漢語(yǔ)語(yǔ)義角色標(biāo)注[J]. 中文信息學(xué)報(bào),2009,23(5): 53-61,74.

[4] 陳菜芳.中文語(yǔ)義角色標(biāo)注研究概述[J]. 文教資料, 2012,(27): 139-140.

[5] 尤昉,李涓子,王作英. 基于語(yǔ)義依存關(guān)系的漢語(yǔ)語(yǔ)料庫(kù)的構(gòu)建[J]. 中文信息學(xué)報(bào),2003,17(1): 46-53.

[6] 陳波,姬東鴻,呂晨.基于特征結(jié)構(gòu)的漢語(yǔ)連動(dòng)句語(yǔ)義標(biāo)注研究[J]. 中文信息學(xué)報(bào),2013,27(5): 60-66,74.

[7] 陳波,姬東鴻,呂晨.基于特征結(jié)構(gòu)的漢語(yǔ)主謂謂語(yǔ)句語(yǔ)義標(biāo)注研究[J]. 中文信息學(xué)報(bào),2012,26(3): 22-26,32.

[8] Weiwei Sun, Yantao Du, Xin Kou, et al. Grammatical Relations in Chinese: GB-Ground Extraction and Data-Driven Parsing[C]//Proceedings of the Association for Computational Linguistics.2014,446-456.

[9] 王躍龍,姬東鴻.漢語(yǔ)依存圖庫(kù)建設(shè)研究[C]. 蕭國(guó)政,何炎祥,孫茂松.《中國(guó)計(jì)算技術(shù)與語(yǔ)言問(wèn)題研究--第七屆中文信息處理國(guó)際會(huì)議論文集》.北京: 電子工業(yè)出版社,2007: 251-256.

[10] Robinson,J.J.Dependency structures and transformation rules[J].Language,1970, 46(2):259-285.

[12] 邵艷秋,邱立坤,梁春霞等.中文語(yǔ)義依存樹(shù)庫(kù)構(gòu)建及自動(dòng)分析技術(shù)[C].孫茂松,陳群秀.《中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)》.北京: 清華大學(xué)出版社,2011: 228-233.

[13] 魯川. 漢語(yǔ)語(yǔ)法的意合網(wǎng)絡(luò)[M].北京: 商務(wù)印書(shū)館,2001: 64-65.

[14] 范曉. 漢語(yǔ)的句子類(lèi)型[M].太原: 書(shū)海出版社,1998: 58-59,182.

猜你喜歡
句法語(yǔ)料主語(yǔ)
基于歸一化點(diǎn)向互信息的低資源平行語(yǔ)料過(guò)濾方法*
述謂結(jié)構(gòu)與英語(yǔ)句法配置
主語(yǔ)從句用法“大揭秘”
葡語(yǔ)中零主語(yǔ)的語(yǔ)義功能分析
消除隔閡,呈現(xiàn)新面孔
句法二題
詩(shī)詞聯(lián)句句法梳理
對(duì)外漢語(yǔ)教學(xué)領(lǐng)域可比語(yǔ)料庫(kù)的構(gòu)建及應(yīng)用研究
——以“把”字句的句法語(yǔ)義標(biāo)注及應(yīng)用研究為例
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法
信息結(jié)構(gòu)與句法異位