趙懌怡,劉海濤
1.廈門大學(xué)人文學(xué)院,福建廈門 361005
2.浙江大學(xué)外國語言文化與交流學(xué)院,杭州 310058
歧義結(jié)構(gòu)理解中的依存距離最小化傾向
趙懌怡1,劉海濤2
1.廈門大學(xué)人文學(xué)院,福建廈門 361005
2.浙江大學(xué)外國語言文化與交流學(xué)院,杭州 310058
用依存句法分析漢語歧義結(jié)構(gòu)發(fā)現(xiàn)人腦在句法加工時傾向選擇最小化依存距離的句法結(jié)構(gòu)。該發(fā)現(xiàn)從依存理論角度解釋了以往依照短語結(jié)構(gòu)句法分析潛在歧義結(jié)構(gòu)“VP+N1+的+N2”無法說明心理學(xué)實驗結(jié)果的原因,找到了歧義結(jié)構(gòu)實時閱讀過程中傾向選擇特定句法結(jié)構(gòu)的語言學(xué)依據(jù)。最小化依存距離的認(rèn)知機制是降低言語工作記憶成本的有效方法,是言語理解過程中的重要機制之一。
依存句法;依存距離;言語工作記憶;歧義結(jié)構(gòu);句法分析
言語工作記憶在句子理解中的機制和作用是認(rèn)知心理學(xué)研究的熱門課題。在眾多的言語理解實驗中,歧義結(jié)構(gòu)是重要的實驗材料,是言語工作記憶中的焦點問題。
從計算語言學(xué)角度來看,歧義作為任何語言中普遍存在的現(xiàn)象是自然語言處理中的難點。計算語言學(xué)發(fā)展的歷史就是與歧義做斗爭的歷史[1]。馮志偉[2]提出的“潛在歧義理論”明示了漢語中存在潛在歧義格式,潛在的歧義格式可以產(chǎn)生兩種以上的合理解釋,消除歧義往往需要上下文來輔助理解。傳統(tǒng)語言學(xué)和計算語言學(xué)試圖通過句法規(guī)則和上下文約束來限制合理句法結(jié)構(gòu)的生成,以實現(xiàn)計算機對自然語言的理解。
而心理學(xué)的研究關(guān)注人在言語理解過程中句法結(jié)構(gòu)選擇的過程和機制。張亞旭、張厚粲、舒華[3]從心理學(xué)實驗角度對潛在歧義格式進(jìn)行研究,注意到均衡歧義結(jié)構(gòu)的存在,這種結(jié)構(gòu)被分析成歧義結(jié)構(gòu)中的任何一種都是合理的。該文以歧義結(jié)構(gòu)“VP+N1+的+N2”為例(如“關(guān)心學(xué)校的老師”),發(fā)現(xiàn)在實時閱讀過程中,人們往往按偏正(而非述賓)結(jié)構(gòu)來分析均衡的偏正/述賓歧義短語,而以往的針對花園幽徑句(garden-path)的解釋原則(最小附加和遲關(guān)閉)并不能對這一現(xiàn)象進(jìn)行很好的解釋。該文猜測潛在歧義結(jié)構(gòu)“VP+N1+的+N2”多被分析為偏正結(jié)構(gòu)的分布“很可能是某種機制的結(jié)果,而這種機制也是被試者實時閱讀中按偏正結(jié)構(gòu)分析均衡型歧義短語的原因?!?/p>
那么,這種言語理解過程中的機制是什么?它怎樣運作?又是否存在合理的可計算的語言學(xué)依據(jù)呢?
本文從這些問題出發(fā),嘗試從語言學(xué)角度對已有的心理語言學(xué)實驗成果進(jìn)行深入挖掘,探索人在言語理解過程中的認(rèn)知傾向。第2章,以依存句法為理論基礎(chǔ)進(jìn)行語言分析,以依存距離為衡量標(biāo)準(zhǔn)提出了“歧義結(jié)構(gòu)理解中存在依存距離最小化傾向”的假設(shè)。第3章,利用心理語言學(xué)已有的實驗材料與結(jié)果對假設(shè)進(jìn)行驗證與深入討論,證明了在均衡歧義結(jié)構(gòu)理解中人總是傾向選擇依存距離較短的句法結(jié)構(gòu)進(jìn)行分析。結(jié)論部分,認(rèn)為這種句法結(jié)構(gòu)的選擇是減小言語工作記憶負(fù)擔(dān)的語言學(xué)表現(xiàn),是經(jīng)濟(省力)原則的語言學(xué)體現(xiàn),是言語理解的重要機制之一。
依存句法是描述詞間關(guān)系的句法。句法分析的三個要素是:從屬詞、支配詞和詞間關(guān)系[1]。用依存句法分析潛在歧義結(jié)構(gòu)的實例“關(guān)心學(xué)校的老師”,得到兩個結(jié)構(gòu)不同的依存圖:圖1(a)的最終支配詞是“老師”,表示出該短語被分析成名詞為中心詞的偏正短語,即潛在歧義結(jié)構(gòu)實例“關(guān)心學(xué)校的老師”被實現(xiàn)為偏正結(jié)構(gòu)的分析;圖1(b)的最終支配詞是“關(guān)心”,表示該短語被分析成以動詞為中心詞的述賓短語,即潛在歧義結(jié)構(gòu)實例“關(guān)心學(xué)校的老師”被實現(xiàn)為述賓結(jié)構(gòu)的分析。
圖1 (a)名詞為中心詞的偏正短語
圖1 (b)動詞為中心詞的述賓短語
Lin[4]用依存句法分析了英語的中心嵌套結(jié)構(gòu)(Center embedding)和外置結(jié)構(gòu)(Extraposition),試圖用依存連接的總長度衡量句子結(jié)構(gòu)復(fù)雜程度,解釋句法變換的目的是降低句子的復(fù)雜程度。
Gibson[5]從人腦計算資源的角度提出依存局部性理論(Dependency Locality Theory,DLT),他認(rèn)為人類分析句子的過程包含兩個資源的利用:結(jié)構(gòu)整合和結(jié)構(gòu)儲存。結(jié)構(gòu)整合是把聽到的詞整合到已有的句法結(jié)構(gòu)中;結(jié)構(gòu)儲存是把接受的詞儲存在短期記憶中,以便整合時使用。這個過程也是計算機分析句子的過程。在這個過程中,句子處理的復(fù)雜程度和句法依存的長度相關(guān):依存成分距離越長句子越難處理。與基于短語結(jié)構(gòu)的句法理論相比,依存句法更為直接地描述了人腦接受單詞并將其整合到已有的句子片段中的過程。用依存的方法分析語言結(jié)構(gòu),可以清楚地表示DLT所描述的句子理解的兩個過程:短期記憶儲存輸入詞并把輸入詞整合到已有的句法結(jié)構(gòu)中,實現(xiàn)句子理解。
認(rèn)為經(jīng)過大量語言現(xiàn)象驗證的DLT理論對解釋人腦或計算機句子理解過程有著普遍性的貢獻(xiàn)。那么,影響人類和計算機對潛在歧義結(jié)構(gòu)理解的“某種機制”是否可以從依存成分的距離角度來解釋呢?
Temperley[6]基于DLT理論提出句子處理的復(fù)雜程度和句法依存(syntactic dependencies)的長度相關(guān),句法依存越長句子越難理解。他針對賓州樹庫(Penn Treebank)中的部分語料充分分析了英語書面語中多種類型的語言結(jié)構(gòu),來驗證其“英語書面語依存長度最小化”的觀點。
Liu[7]提出“依存距離(Dependency Distance,指支配詞和從屬詞間的線性距離)”可以作為衡量語言理解難度的標(biāo)準(zhǔn)之一。他考察了20種語言,認(rèn)為人類理解句子中存在最小化平均依存距離的傾向。為了考察在歧義結(jié)構(gòu)理解過程中短期記憶的儲存情況,使用這一指標(biāo)來衡量兩個歧義結(jié)構(gòu)的區(qū)別。
Liu,Hudson和Feng[8]提出了依存距離的計算方法。這種方法計算依存距離的對象可以是短語結(jié)構(gòu)、句子結(jié)構(gòu),也可以是大規(guī)模的依存樹庫。依存距離作為一種線性距離,首先定義詞按線性順序編號“W1…Wi/…Wn”,支配詞Wa和其從屬詞Wb的依存距離為a-b;相鄰詞對間具有依存關(guān)系,依存距離為1。若a>b,依存距離大于0,表明支配詞的線性順序在從屬詞之后;若a<b,依存距離小于0,表明支配詞的線性順序在從屬詞之前。在依存距離的相關(guān)實驗中,研究者往往考察依存距離的絕對值。整個句子(或短語)的平均依存距離計算公式為:
公式中,n是句子中詞的數(shù)量;DDi是第i個依存對間的依存距離。在依存句法分析的句子中,原則上只有一個根節(jié)點沒有支配詞,它的依存距離被定義為0。這個公式可以被用來計算更大的句子集合(例如,樹庫)的平均依存距離。按照上述方法,實例“VP+N1+的+N2”為“關(guān)心學(xué)校的教師”,計算該短語按不同結(jié)構(gòu)分析時,短語內(nèi)部的平均依存距離。當(dāng)短語被分析成偏正結(jié)構(gòu)時,平均依存距離為1;而當(dāng)短語被分析成述賓結(jié)構(gòu)時,平均依存距離為1.25,如圖2所示。
圖2 潛在歧義結(jié)構(gòu)“VP+N1+的+N2”的平均依存距離
“潛在歧義結(jié)構(gòu)‘VP+N1+的+N2’多被分析為偏正結(jié)構(gòu)的分布”可用上一章中提到的依存距離最小化來解釋。潛在歧義結(jié)構(gòu)“VP+N1+的+N2”按照偏正、述賓結(jié)構(gòu)分析得到的結(jié)構(gòu)內(nèi)部的平均依存距離存在固定的差距。為了進(jìn)一步證實在包含潛在歧義結(jié)構(gòu)的句子理解過程中同樣具備最小化依存距離的傾向,收集了20組經(jīng)過心理學(xué)測試的句子[3]。這些句子是由16名本科生在7點量表中對部分取自真實文本語料,部分取自有關(guān)漢語語言學(xué)的公開出版物的170條偏正/述賓型歧義短語進(jìn)行評分篩選得到。7點量表[9]旨在分析歧義短語分別以實例為偏正或述賓兩種結(jié)構(gòu)的合理性。評分接近1說明該歧義結(jié)構(gòu)更傾向于被實例為偏正結(jié)構(gòu),接近7說明該歧義結(jié)構(gòu)更傾向于實例為述賓結(jié)構(gòu)。評分接近4說明該歧義結(jié)構(gòu)被實例為偏正結(jié)構(gòu)或述賓結(jié)構(gòu)等同合理。本文實驗材料為20條均衡型歧義結(jié)構(gòu)補足語境后的20組(a)(b)對照的句子。這些句子中的歧義結(jié)構(gòu)被心理學(xué)實驗證實為均衡型歧義結(jié)構(gòu),即歧義短語兩個可能的結(jié)構(gòu)在語義或語用方面的比較是相當(dāng)?shù)模欢@些歧義短語不同結(jié)構(gòu)所對應(yīng)的意義在日常生活中是典型合理的。相關(guān)心理學(xué)實驗[3]已經(jīng)證明:被試者在理解這些包含均衡歧義結(jié)構(gòu)的句子時,歧義結(jié)構(gòu)部分傾向按照偏正結(jié)構(gòu)來解析;均衡型歧義短語按照述賓結(jié)構(gòu)來解析容易出現(xiàn)加工困難。
對這些包含均衡型歧義結(jié)構(gòu)的句子進(jìn)行了依存句法分析,并在依存句法分析的基礎(chǔ)上計算了句子的平均依存距離。以第一組句子為例,首先依照依存句法關(guān)系[10]對圖3(a)、圖3(b)進(jìn)行標(biāo)注,并在計算依存距離時去掉了句末和句中標(biāo)點,來減少句子非必要成分對依存距離的影響。在圖3(b)“保護(hù)小徐的戰(zhàn)馬不成,孫剛感到非常內(nèi)疚”中,前后兩分句各自表達(dá)完整的意思,在依存句法中兩分句的支配詞“不成”、“感到”應(yīng)由承接關(guān)系連接,同樣為了避免過長的依存距離把兩分句視為句子單獨處理。即“感到”句法上的支配詞是上一分句的“不成”,依存距離為2,剔除分句承接關(guān)系的影響后,“孫剛感到非常內(nèi)疚”單獨成句,“感到”成為第二分句的根支配詞,依存距離為0。
圖3 含均衡型歧義結(jié)構(gòu)句子的平均依存距離
經(jīng)過依存句法標(biāo)注和計算,得到了20組句子的平均依存距離(表1)。在這20組句子中,90%均衡型歧義結(jié)構(gòu)實例為偏正結(jié)構(gòu)句的依存距離均小于實例為述賓結(jié)構(gòu)句。例外的兩組,第8組與第15組的偏正結(jié)構(gòu)句子均包含以“認(rèn)為”、“擔(dān)心”為謂語動詞的小句賓語結(jié)構(gòu)。這種結(jié)構(gòu)的依存分析規(guī)定謂語動詞支配小句的動詞,是產(chǎn)生較大的依存距離的一種依存結(jié)構(gòu)。小句賓語結(jié)構(gòu)的出現(xiàn)干擾了全句的平均依存距離,是出現(xiàn)異常數(shù)據(jù)組的原因。
表1 20組句子的平均依存距離1)
從語言學(xué)角度來看,發(fā)現(xiàn)在20組實驗材料中,述賓結(jié)構(gòu)句的表達(dá)形式多為兩個分句。位于第一分句的均衡歧義結(jié)構(gòu)后接時間指示詞“之前”、“之后”實例為述賓結(jié)構(gòu),做事件型時間狀語,例“護(hù)理麗麗的養(yǎng)父之前”、“接觸小陳的醫(yī)生之后”。這種語言現(xiàn)象在實際語料庫中的數(shù)量有限,這說明在現(xiàn)實言語交際中此類語言現(xiàn)象的使用率并不高。這類語料的低使用率證明了:潛在歧義結(jié)構(gòu)“VP+N1+的+N2”實例為述賓結(jié)構(gòu)相對于實例為偏正結(jié)構(gòu),存在平均依存距離較大,導(dǎo)致句法復(fù)雜性增加,容易產(chǎn)生加工困難,不利于理解。
Kimball[11]在短語結(jié)構(gòu)句法基礎(chǔ)上提出的表層句法處理7策略來解釋復(fù)雜句子的生成(這7條原則因為翻譯的問題常被誤讀)。其中第二個原則是:終極符號與最底層的非終極符號結(jié)合,被引申為右結(jié)合原則;第五個原則是:句法結(jié)構(gòu)盡早關(guān)閉,除非下一個節(jié)點是該短語的直接成分,被引申為早關(guān)閉原則。這兩條原則可以很好地解釋歧義結(jié)構(gòu)“VP+N1+的+N2”傾向被理解為偏正結(jié)構(gòu)的原因。名詞N1根據(jù)右結(jié)合原則被連接到前一節(jié)點動詞V上,根據(jù)早關(guān)閉原則形成了一個述賓結(jié)構(gòu)的“的”字短語。這樣的表層句法分析原則的實質(zhì)就是盡量減小工作記憶的儲存量。Frazier[12]為解決花園幽徑句[13]的句法分析問題,在花園幽徑模型(Garden Path Model)中提出了兩個更為著名的句法分析策略,即遲關(guān)閉原則和最小附加原則。它們針對性地解決了花園幽徑句句法分析常常需要回溯的難題,目的是實現(xiàn)花園幽徑句的高效分析。如果用該句法策略來解釋歧義結(jié)構(gòu)“VP+N1+的+N2”就不十分有效了。注意到,這所有的句法分析策略都是在短語結(jié)構(gòu)語法基礎(chǔ)上進(jìn)行自動句法分析的原則性規(guī)定,針對特定問題提出,但觀點很不統(tǒng)一。用這些基于短語結(jié)構(gòu)語法的計算機處理特定語言問題的句法規(guī)則來解釋心理學(xué)實驗發(fā)現(xiàn)的歧義結(jié)構(gòu)理解中的差異并不充分,沒發(fā)現(xiàn)問題的本質(zhì)。而依存句法體系中依存距離最小化傾向是通過大量實際語料的統(tǒng)計得出的規(guī)律[7],這可能正是人類言語理解的重要機制之一,是均衡型歧義結(jié)構(gòu)“VP+N1+的+N2”傾向于被理解為偏正結(jié)構(gòu)的合理解釋。
研究者普遍承認(rèn)[4-7],句子的句法復(fù)雜性影響對工作記憶的要求。而關(guān)于句法復(fù)雜性的探討往往局限于關(guān)系從句等特定的句式、句型,這些語言使用中形成的習(xí)慣和語法規(guī)則屬于傳統(tǒng)語言學(xué)的范疇,往往缺乏可計算的性質(zhì)。這直接導(dǎo)致研究者難以判斷“一種語言的語言學(xué)特性,如何制約言語工作記憶過程在句子理解中的作用機制和性質(zhì)”[14]。如果把依存距離視為語言學(xué)特征的可量性指標(biāo),運用簡單的句法分析就不難發(fā)現(xiàn)人腦對于特定句式、句型,特殊句法現(xiàn)象,包括對歧義結(jié)構(gòu)的句法理解、語義選擇都朝著最小化該指標(biāo)的方向發(fā)展。
本文從語言學(xué)角度對認(rèn)知科學(xué)領(lǐng)域普遍關(guān)心的言語理解中的工作記憶進(jìn)行了探討,結(jié)合心理學(xué)的實驗結(jié)果和材料,證明了人類的言語理解機制與語言學(xué)可量性特征——依存距離存在關(guān)聯(lián),認(rèn)為人在句法加工時存在最小化依存距離的句子理解傾向。最小化依存距離和人腦的短期工作記憶容量密切相關(guān)。本研究為心理學(xué)實驗檢測到的被試者在均衡型歧義結(jié)構(gòu)“VP+N1+的+ N2”理解時偏好以偏正的結(jié)構(gòu)進(jìn)行句法處理提供了一種合理的解釋,也印證了Gibson,Pearlmutter[15]大腦運算系統(tǒng)中句子剖析理論中“整合成本”的語言學(xué)含義。最小化依存距離就是降低整合成本的方式之一。
鑒于實驗用語言材料數(shù)量和形式的局限,依存距離作為語言的可量特征參與到言語理解機制的運作中仍舊需要專門、專業(yè)的心理學(xué)實驗設(shè)計來證明。但本文結(jié)合語言學(xué)理論和心理學(xué)成果的研究方法,對人類言語行為模型和理論的探討是有益的。
[1]劉海濤.依存語法的理論與實踐[M].北京:科學(xué)出版社,2009.
[2]馮志偉.論歧義結(jié)構(gòu)的潛在性[J].中文信息學(xué)報,1995,9(4):14-24.
[3]張亞旭,張厚粲,舒華.漢語偏正/述賓歧義短語加工初探[J].心理學(xué)報,2000,32(1):13-19.
[4]Lin D K.On the structural complexity of natural language sentences[C]//Proceedings of the16th Conference on Computational Linguistics,1996,2:729-733.
[5]Gibson E.The dependency locality theory:a distance-based theory of linguistic complexity[M]//Marantz A,Miyashita Y,O’Neil W.Image,Language,Brain.Cambridge,MA:MIT Press,2000:95-126.
[6]Temperley D.Minimization of dependency length in written English[J].Cognition,2007,105:300-333.
[7]Liu H T.Dependency distance as a metric of language comprehension difficulty[J].Journal of Cognitive Science,2008,9(2):159-191.
[8]Liu H T,Hudson R,F(xiàn)eng Z W.Using a Chinese Treebank to measure dependency distance[J].Corpus Linguistics and Linguistic Theory,2009,5(2):161-174.
[9]張亞旭.漢語局部句法歧義句的加工[D].1998.
[10]Liu H,Huang W.A Chinese dependency syntax for treebanking[C]//Proceedings of the 20th Pacific Asia Conference on Language,Information and Computation.Beijing:Tsinghua University Press,2006:126-133.
[11]Kimball J.Seven principles of surface structure parsing in natural language[J].Cognition,1973,2(1):15-47.
[12]Frazier L.Sentence processing:a tutorial review[M]//Coltheart M.The Psychology of Reading.Hillsdale,NJ:Lawrence Erlbaum Associates Inc,1987:559-586.
[13]Bever T G.The cognitive basis for linguistic struction[M]// Hayes J R.Cognition and Development of Language.New York:Wiley,1970:253-279.
[14]張亞旭,蔣曉鳴,黃永靜.言語工作記憶、句子理解與句法依存關(guān)系加工[J].心理科學(xué)進(jìn)展,2007,15(1):22-28.
[15]Gibson E,Pearlmutter N J.Constraints on sentence comprehension[J].Trend in Cognitive Sciences,1998,7(2):262-268.
ZHAO Yiyi1,LIU Haitao2
1.School of Humanities,Xiamen University,Xiamen,Fujian 361005,China
2.School of International Studies,Zhejiang University,Hangzhou 310058,China
Human beings tend to choose the structure with the minimum dependency distance during ambiguous structure understanding in order to reduce the burden on working memory.This paper reanalyzes the psychological experimental results within the framework of dependency grammar.The measurement of dependency distance provides the linguistic criteria for why is the potential ambiguity structure“VP+N1+the+N2”considered as the Modifier-Noun Construction(MNC)rather than Narrative-Object Structure(NOS).Minimizing dependency distance is an important mechanism during natural language understanding and an effective way to reduce the memory cost.
dependency grammar;dependency distance;working memory;ambiguous structure;syntactic analysis
A
TP391
10.3778/j.issn.1002-8331.1309-0429
ZHAO Yiyi,LIU Haitao.Minimizing dependency distance in understanding of ambiguous structure.Computer Engineering and Applications,2014,50(6):7-10.
國家社會科學(xué)基金重大項目(No.11&ZD188)。
趙懌怡(1982—),女,博士,助理教授,研究領(lǐng)域為應(yīng)用語言學(xué),語言復(fù)雜網(wǎng)絡(luò);劉海濤(1962—),男,博士,教授,研究領(lǐng)域為人類語言的結(jié)構(gòu)模式與演化規(guī)律,語言復(fù)雜網(wǎng)絡(luò)。E-mail:zhaoyiyi@xmu.edu.cn
2013-09-27
2013-11-13
1002-8331(2014)06-0007-04
CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-11-15,http://www.cnki.net/kcms/detail/11.2127.TP.20131115.1121.010.html