杜家利, 于屏方
(1. 廣東外語外貿大學 詞典中心,廣東 廣州 510420;2. 南京大學 外國語學院,江蘇 南京 210093;3. 廣東外語外貿大學 中國語言文化學院,廣東 廣州 510420)
?
花園幽徑模式行進錯位的量化研究:計算語言學視角
杜家利1,2, 于屏方3
(1. 廣東外語外貿大學 詞典中心,廣東 廣州 510420;2. 南京大學 外國語學院,江蘇 南京 210093;3. 廣東外語外貿大學 中國語言文化學院,廣東 廣州 510420)
該文討論了花園幽徑模式行進錯位過程中的困惑商指數(shù)。非對稱性信息斷層的存在導致解碼呈現(xiàn)否定之否定的螺旋上升態(tài)勢。行進錯位的潛在效應幅度可通過困惑商指數(shù)得到測定。基于大數(shù)據(jù)語料庫統(tǒng)計方法和在線剖析器分析方法,我們測算出優(yōu)選結構困惑商指數(shù)介于(-∞,1];非優(yōu)選結構困惑商指數(shù)介于[1,2];兩結構臨界值分別為0.72和1.28;歧義域為[0.72,1.28]。結論認為,多結構頻數(shù)差異是導致困惑商指數(shù)變化的根本;行進錯位的幅度和非對稱性信息補償?shù)膹姸染c困惑商指數(shù)相關;基于統(tǒng)計的困惑商指數(shù)可對局部歧義的復雜句結構提供前瞻性解碼信息。
計算語言學;花園幽徑模式;行進錯位;局部歧義;困惑商
花園幽徑(Garden Path: GP)模式是一種局部歧義的回溯性頓悟模式,其解碼呈現(xiàn)“先期偽平衡——中期再平衡——后期優(yōu)化平衡” 的螺旋上升態(tài)勢。這種折返性錯位效應恰似花園中走入了一條貌通而實不暢的幽徑。行進錯位(Processing Breakdown)[1]在誘發(fā)回溯的同時,其非對稱性信息形成了斷層并最終為認知的頓悟跨越提供了可能。語義觸發(fā)點出現(xiàn)后,先期原型模式被顛覆,非原型的備選模式適時啟動,最終結構得以重組并實現(xiàn)否定之否定的解讀。
例如,在“The man lent the book never returned it.[2]”中,[[The man]NP [lent the book]VP]S是原型結構,系統(tǒng)首先采納Vpast tense→{lent}進行解碼,并實現(xiàn)[NP+VP]S的平衡結構。但隨著觸發(fā)點returned的出現(xiàn),原來的平衡結構被打破,系統(tǒng)被迫再平衡,備選模式Vpast participle→{lent}得以啟動。最后,優(yōu)化后的平衡結構變成了[[The man]NP+[lent the book]CP+[never returned it]VP]S。系統(tǒng)在經歷了行進錯位后折返回溯并實現(xiàn)了跨越式解碼。
作為局部歧義的花園幽徑模式,其特有的行進錯位效應和信息斷層現(xiàn)象激發(fā)了諸多學者的研究熱情。如基于眼動的記憶模型研究[3],言語停頓所致的局部歧義研究[4];結構啟動研究[5-9],認知系統(tǒng)的頓悟性和控制性研究[10-16],統(tǒng)計和算法研究[17-19],語義特征研究[20-22],詞匯期待研究[23-25]等各種多維度研究。本文將從花園幽徑模式行進錯位過程中產生的困惑度為中心進行量化討論,利用計算語言學方法分析行進錯位的“肯定——否定——二次否定”的解碼特征。
花園幽徑模式解讀主要分為三個主要階段: 前期順暢的信息偽對稱階段、中期困惑的信息斷層階段、后期跨越的信息再對稱階段[26]。
2.1 花園幽徑模式的解碼特征
花園幽徑模式出現(xiàn)前期,信息具有表象的趨對稱性。這個發(fā)生在注視初期的加工反映了大腦對花園幽徑理解的初始模式。隨著相關附加信息的涌入,信息表象的趨對稱感逐漸被現(xiàn)實的斷層感所取代,直到解碼無法依靠前行信息繼續(xù)進行加工。認知系統(tǒng)要求對初始模式回視、補充新的信息,然后對獲取的總信息重新加工,再分析效應出現(xiàn)。信息得到補償彌合后,先前信息偽對稱的失衡狀態(tài)被真平衡所取代,語言加工重新回到正常軌道并完成解碼。
花園幽徑模式的設置者,不論其目的是研究還是尋求語言效果,與被試相比都擁有更多的解碼信息。被試誤入花園幽徑之時,就是期待信息快速補償之時。當解歧點出現(xiàn),缺損信息得到補償,斷層感得到彌合,信息變得重新對稱,語言加工變得順暢。
據(jù)此分析,我們認為花園幽徑模式的解讀就是當信息出現(xiàn)斷層無法繼續(xù)構建成功模式時對非對稱性信息的快速補償。由此,我們提出花園幽徑模式非對稱性信息補償假說[27]。
該假說包括三個主要部分: 花園幽徑模式解讀中的信息是非對稱性的,存在信息斷層的可能;花園幽徑模式解碼路徑呈現(xiàn)否定之否定的螺旋態(tài)勢,存在補償性回歸的可能;花園幽徑模式具有信息逆向選擇的超常規(guī)解釋,存在頓悟跨越的可能。
2.2 行進錯位研究的非對稱性信息補償效應
非對稱性信息補償效應模型采用“三四五”主體構架,即涵括三個解碼部分、四個外圍附屬部分和五個相關原則。
三個解碼部分是非回溯的正常解碼;沒有正確模式的錯誤解碼;涉及折返頓悟、否定之否定的花園幽徑模式解碼。
四個外圍附屬部分涵括詞與短語的瞬時匹配;整句匹配;內程序知識庫的結構啟動、記憶容量和尚好策略;屬于外程序知識庫的信息密度、經驗控制、詞匯期待、語義條件和語境限定。
五個相關原則包括西蒙非極致原則、阿克洛夫逆向選擇原則、格雷欣法則、瓦爾拉斯均衡和帕累托最優(yōu)。具體見圖1。
非回溯的正常解碼流程如下:
a1 輸入字符串(Input);
a2 判定字符串提供的信息與認知貯存信息是否具有暫時性匹配平衡(Balance?);
a3 肯定答復(Yes)則在整合內程序知識庫信息的基礎上進行詞、短語的瞬時匹配,并形成初始結構(+A);
a4 受西蒙非極致原則影響,初始結構(+A)與后續(xù)字符串整合后形成模式B;
a5 模式B涵括的字串數(shù)量在累加過程中受到
圖1 行進錯位的非對稱信息補償效應圖
外程序知識庫信息的影響,并完成整句匹配;
a6 匹配完成的模式B信息勢能達到最佳,與全句字串蘊含的信息勢能對照(Balance?);
a7 信息平衡(Yes)則生成終極結構(+B);
a8 終極結構達到帕累托最優(yōu)狀態(tài)后成功解碼(Success);
a9 輸出(Output)。
錯誤解碼流程如下:
b1 輸入字符串(Input);
b2 判定字符串提供的信息與認知貯存信息是否具有暫時性匹配平衡(Balance?);
b3 否定答復(No)則進入下一輪選擇;
b4 相對于正常解碼形成的暫時初始結構(+A)來說,否定答復認知形成的結構為判定性結構(-A?),系統(tǒng)判定該結構是否受阿克洛夫逆向選擇和格雷欣法則影響;受到影響生成的是否定之否定[-(-A)]結構;不受影響生成的是錯誤結構(-A);
b5 判定生成的是否是(-A?);
b6 肯定答復(Yes),獲得的是結構(-A),經與內外程序知識庫比對確認為錯誤;
b7 輸出(Output)。
花園幽徑模式解碼流程:
c1-c6與a1-a6相同;
c7 達到最佳信息勢能的B模式無法實現(xiàn)與蘊含信息的平衡,認知過載和行進式錯位產生;
c8 信息斷層(Fault)出現(xiàn);
c9 解碼回溯到初始a2狀態(tài)(Balance?);
c10 -c12 與b3-b5相同;
c13 否定答復(No),說明受阿克洛夫逆向選擇和格雷欣法則影響,產生了由前期錯誤結構演變而來的回歸(Regression)模式,大量有效信息得到補償;
c14 頓悟(insight)出現(xiàn);
c15 否定之否定[-(-A)]結構生成,并受內外程序知識庫監(jiān)控;
c16 完成的[-(-A)]模式信息勢能達到最佳,與全句字串蘊含的信息勢能對照(Balance?);
c17 信息達到瓦爾拉斯均衡(Yes)則生成終極結構(+C);不均衡則經與內外程序知識庫比對確認為錯誤,轉至c19;
c18 終極結構達到帕累托最優(yōu)狀態(tài)后成功解碼(Success);
c19 輸出(Output)。
從上面的分析可以看出,從c1~c15(模型中用虛線的大矩形進行了標注)是花園幽徑模式解碼的核心區(qū)域,涉及信息斷層、認知回歸、頓悟和否定之否定。螺旋上升是否定之否定的必然結果。解碼信息的“先期偽平衡——中期再平衡——后期優(yōu)化平衡” 形成了“肯定——否定——二次否定”的螺旋上升態(tài)勢?;▓@幽徑效應初期,原型模式(+A)被激活但不能成功解碼,遂被認知判定為偽處理模式,第一次加工(B模式)失敗,并導致信息斷層后的折返回歸。如果要跨越障礙,B需要對(+A)進行否定(即進入-A狀態(tài))?;▓@幽徑效應中期,系統(tǒng)回溯后重新進行解碼,備用模式(-A)被激活?;▓@幽徑效應后期,備選模式否定后的C模式(即[-(-A)]平衡模式)得到構建。由于(-A)是B對(+A)的否定,終結模式C又是對(-A)的否定,那么C必然是對模式(+A)的否定之否定。信息由第一次加工的不對稱失敗到第二次的對稱成功,經歷了Z型的否定之否定的認知軌跡,在信息斷層后通過回歸和頓悟獲得了補償性信息,完成了螺旋上升的認知軌跡。
困惑商(CQ: Confusion Quotient ) 類似智商IQ,情商EQ以及財商FQ,這里指由于花園幽徑效應存在所導致的認知困惑程度。商值高,惑度則高。
智商(IQ: Intelligence Quotient)意指知覺能力、觀察能力、思考能力、推理能力和理解能力等諸方面的系統(tǒng)評測,包括注意力、判斷力、記憶力、語言分析能力等各領域的智能表現(xiàn),還有對知識的掌握及分析問題和解決問題的能力等。情商(EQ: Emotional Intelligence Quotient)意指情緒、情感、意志以及耐受挫折等方面的品質評測。財商(FQ: Financial Quotient),意為一個人與金錢打交道的能力。
我們這里提出“困惑商CQ”的概念,特指由于非對稱信息的補償所產生的認知過載現(xiàn)象,包括行進式錯位和信息斷層,蘊含頓悟式回溯解碼,是高信息勢能向低信息勢能的流動。就像信息熵代表“不確定性”一樣,當?shù)皖l、高困惑商的非優(yōu)選結構顛覆高頻、低困惑商的優(yōu)選結構時,認知系統(tǒng)需要為成功解碼提供足夠多的補償性解釋信息,這就為認知系統(tǒng)帶來了額外的認知負擔。
非對稱信息的補償是由超出常規(guī)預期的次優(yōu)選項導致的。在花園幽徑模式中必然存在一個優(yōu)選結構和次選結構,而且通常這種結構的優(yōu)選與否在統(tǒng)計學意義上具有差異性。
優(yōu)選結構是認知系統(tǒng)的缺省模式,在解碼前享有較高的使用頻數(shù),其曾經存在的頻數(shù)越高對后續(xù)認知折返的阻力越大,產生的頓悟效應越明顯,認知過載現(xiàn)象也越突出。也就是說前期觀察頻數(shù)正偏離預期頻數(shù)的差值越大(觀察頻數(shù)大于預期頻數(shù)),越可能充當優(yōu)選結構。
次選結構則相反。如果認知系統(tǒng)中前期觀察頻數(shù)負偏離預期觀察頻數(shù)的差值越大(觀察頻數(shù)小于預期頻數(shù)),越不可能充當優(yōu)選結構,其非對稱導致的信息補償?shù)目赡茉酱?,要求越強烈,具有的認知扭矩越大。
在花園幽徑模式中,折返性頓悟現(xiàn)象所需要的信息補償來源于認知的多個系統(tǒng),如詞匯、句法、語義、語用等,它們共同作用的結果可完成花園幽徑模式的解讀,彌合認知扭矩不平衡帶來的信息斷層,實現(xiàn)信息補償。所以,我們認為對非對稱信息的補償計算需要如下幾個變量:
基于語料庫的某項屬性的觀察頻數(shù)(O: Observer);
某項屬性的預期頻數(shù)(E: Expecter);
參與信息補償?shù)膶傩詥卧獢?shù)量(n: number);
屬性單元(i);
困惑商(CQ: Confusion Quotient );
非對稱信息所需要的困惑商值(V: Value)。下文中具體困惑商值的簡寫為Vcq,下標cq表示困惑商。
(1)
式(1)中(Oi-Ei)表示對屬性i來說,觀察頻數(shù)偏離預期頻數(shù)的距離;
(Oi-Ei)/Ei表示偏離距離與預期頻數(shù)的比值,負值表示負偏離,正值表示正偏離;
1-(Oi-Ei)/Ei表示正負偏離以1為基點向兩側輻射,正偏離輻射范圍為(-∞,1],負偏離范圍為[1,2]。
取和公式表示所有參與信息補償?shù)膶傩运哂械钠x比值可以進行累加,然后取平均值。
從正負偏離的輻射范圍可以看到計算也是具有不對稱性的,次選結構的偏離值在一個封閉域內,而優(yōu)選結構的偏離值則是半開放的。
例1Thehorseracedpastthebarnfell[5].
以例1的動詞raced說明如下(表1)。
表1 動詞raced非對稱信息困惑商
如表1,由于這里只計算了動詞的困惑商,句中其他結構成分沒有涉及,所以不存在平均值的問題,即這里是n=1的狀態(tài)。施事角色屬性的困惑商為0.16,而受事角色困惑商為1.84,后者造成的認知扭矩更大,需要更多的信息補償才能實現(xiàn)平衡,完成解碼。
假定某動詞X觀察頻數(shù)和預期頻數(shù)相等,那么不對稱情況被消解,兩者差值為零,獲得的困惑商為1。這是平衡解碼的理想狀態(tài)。
假定某動詞X觀察頻數(shù)無限小于預期頻數(shù),即觀察頻數(shù)近乎為零,則困惑商約為2。這種極端低概率的解碼模式一旦被采納,需要認知系統(tǒng)釋放來彌補信息斷層的補償信息量也超乎想象。這就是說不對稱信息困惑商最大為2。
假定需要進行不對稱信息補償?shù)哪硠釉~X觀察頻數(shù)無限放大,由于不對稱性的存在,該次選結構的頻數(shù)不會超過優(yōu)選結構頻數(shù),也就是說它的觀察頻數(shù)的最大值就是預期頻數(shù)。此時,觀察頻數(shù)和預期頻數(shù)相等,困惑商為1。這表明次選結構的不對稱困惑商最小為1。
這樣,次選結構不對稱信息困惑商區(qū)間為[1,2]。越接近1表示需要補償?shù)男畔⑸?,信息趨向于對稱,引起頓悟的可能性就小,產生折返性回溯的花園幽徑效應可能性也小,而出現(xiàn)通達性歧義的可能性增大。越接近2則情況相反,認知扭矩不斷累加,直至達到超出認知總容量的極點。
對優(yōu)選結構來說,觀察頻數(shù)的最低點就是預期頻數(shù),低于該頻數(shù)結構就不再是優(yōu)選結構了。因此,不對稱困惑商最大為1。隨著觀察頻數(shù)對預期頻數(shù)的不斷超越,所需要的信息困惑商越來越小。
假定某動詞Y在認知中具有五個可供選擇的屬性,抽樣總數(shù)為500,那么理論預期頻數(shù)為100。如果每個屬性在語料庫中都觀察到100個符合各自屬性的頻數(shù),那就是理想的帕累托最優(yōu)狀態(tài)。假定有一個屬性的觀察頻數(shù)達到了490,那么需要進行信息補償?shù)闹禐?2.90。這表示該優(yōu)選模式已經具備了足夠的解碼信息量,它產生的是正偏離,不需要再對該屬性進行信息補償。
優(yōu)選結構產生的困惑商從1不斷向負無窮輻射。越接近1表示優(yōu)選結構需要補償?shù)男畔⒃蕉啵畔②呄蛴趯ΨQ,而基于頻數(shù)的優(yōu)選結構傾向受到極大挑戰(zhàn);相反,困惑商向負無窮輻射過程中,需要額外補償說明的信息越少,該優(yōu)選結構信息自足量越大,越容易在解碼時被認知系統(tǒng)優(yōu)先采納,困惑程度越來越低,直至該結構解碼成為一種非受控的完全無意識狀態(tài)。
非對稱性信息補償通常是以優(yōu)選結構和次選結構的頻數(shù)統(tǒng)計差異性存在為條件的,所以,我們需要根據(jù)卡方檢驗的臨界值測算出可能誘發(fā)花園幽徑效應的非對稱困惑商的臨界值。超出臨界值則表明頻數(shù)具有顯著性差異,信息困惑商也具有區(qū)別性特征。如果實際統(tǒng)計值沒有超出臨界值則表明頻數(shù)不具有統(tǒng)計意義的顯著差異,信息處于非補償?shù)慕y(tǒng)計意義的對稱狀態(tài)。
假定顯著水平為.05,自由度為1,理論臨界值則為3.84(可查閱SPSS值附錄)。
假定實際解碼中涉及兩個義項屬性且可能誘發(fā)花園幽徑效應的次選屬性頻數(shù)為X,統(tǒng)計中總觀察頻數(shù)為50,那么優(yōu)選屬性頻數(shù)則為50-X。根據(jù)卡方檢驗公式推導如下(表2)。
表2 次選屬性臨界觀察頻數(shù)推導表
如表2所示,(X-25)2/25=1.92, X=18。這說明具有優(yōu)選結構和次選結構的觀察頻數(shù)臨界比為32∶18。比值越大,說明優(yōu)選和次選結構頻數(shù)差異越懸殊,如果誘發(fā)花園幽徑效應產生的認知困惑度也越強烈;比值越小,兩結構頻數(shù)趨同,統(tǒng)計學意義的差異不斷彌合,呈現(xiàn)非回溯通達性歧義的可能性加大。依據(jù)以上數(shù)據(jù)我們可以推導出非對稱信息困惑商的臨界值,具體如表3所示。
表3 次選屬性非對稱信息補償臨界值測算表
表3中優(yōu)選結構和次選結構的臨界觀察頻數(shù)中次選屬性的觀察頻數(shù)是18,預期頻數(shù)是25,頻數(shù)偏差為18-25=-7,頻數(shù)偏差與預期頻數(shù)之比為-7/25=-0.28。根據(jù)困惑商計算公式,此結構屬性n=1, 困惑商值CQ=1-(-0.28) =1.28。這表明次選屬性非對稱信息補償臨界值為1.28,說明如果實際解碼中困惑商大于臨界值,誘發(fā)花園幽徑效應的可能性增大,信息斷層后需要信息補償?shù)膹姸纫苍龃?。困惑商?.28向2.00變化時(前面已驗證次選結構CQ最大值為2),認知扭矩處于不斷加大狀態(tài),一旦次選屬性顛覆優(yōu)選屬性成為正確的解碼模式,那么大扭矩產生的認知困惑和過載現(xiàn)象將得到釋放;相反,從1.28向1.00變化時(前面已驗證次選結構CQ最小值為1),認知扭矩變小,信息不對稱可能性減少,認知困惑程度減弱,出現(xiàn)“多車道通行”的通達性歧義可能性增大。
下面我們以英語中的主導從句和附屬關系從句為例討論行進錯位的困惑商指數(shù)。
主導從句(Matrix Clause)與附屬關系從句(Reduced Relative Clause)不對稱是指主動詞及物被動態(tài)和不及物主動態(tài)屬性分布不均衡導致的結構歧義。主動詞(Matrix verb)具有及物和不及物兩種屬性,通常不及物主動態(tài)屬性是優(yōu)選結構。這樣,在與前行名詞構建的暫時結構中形成的是主謂結構。但是,隨著解碼推進,次選結構的主動詞及物被動態(tài)屬性被激活,優(yōu)選結構被顛覆,折返性回溯產生。在英語中,過去式與過去分詞的同形為這種結構歧義的存在提供了便利。請見例2和例3。
例2 The boat floated down the river sank[28].
例2出現(xiàn)了花園幽徑效應,其根本原因在于動詞floated的屬性變化,致使初期構建的主導從句結構被后期附屬從句結構所顛覆。我們分別利用BNC隨機抽樣計算不對稱困惑商。
如表4所示,動詞floated的被動語態(tài)的頻數(shù)是13,不對稱信息困惑商為Vcq=1.48>1.28臨界值。
表 4 動詞floated 的主被動語態(tài)不對稱值對比
這說明被動語態(tài)作為次選結構的認知扭矩較大,顛覆優(yōu)選結構后,獲得的補償性信息量也較多。這種低頻數(shù)的解碼模式對于基于概率的Stanford Parser來說,解讀有困難。請見Stanford Parser對該句的錯誤剖析:
*(ROOT
(S
(NP (DT The) (NN boat))
(VP (VBD floated)
(PRT (RP down))
(SBAR
(S
(NP (DT the) (NN river))
(VP (VBD sank)))))))
如上所示,解析器無法正確分析該句結構,the river sank被誤認為是從句結構,而且floated down the river作為附屬關系從句的解碼也無法在剖析中體現(xiàn)。正確結構中主動詞應該是sank,附屬關系從句作為定語的是floated down the river。動詞floated應該認定為過去分詞(VBN floated)而不應該是過去式(VBD floated)。 成功的剖析如下:
(ROOT
(S
(NP
(NP (DT The) (NN boat))
(VP (VBN floated)
(PP (IN down)
(NP (DT the) (NN river)))))
(VP (VBD sank))))
例3 The dog walked to the park chewed the bone[29].
例3也是花園幽徑句。動詞walked的過去式和過去分詞同形,其語態(tài)屬性既可以是主動也可以是被動。我們先計算兩個選項的非對稱困惑商。
如表5所示,動詞walked的被動語態(tài)的頻數(shù)是0,不對稱信息困惑商為Vcq=2 >1.28臨界值。這
表 5 動詞walked的主被動語態(tài)不對稱值對比
說明被動語態(tài)結構從理論上說認知扭矩達到無法超越的最大值,從實踐意義說,該句應該是Gibson博士自己創(chuàng)造的花園幽徑句,其在語料庫中出現(xiàn)的概率近乎可以忽略。這樣極端的低概率在解碼中引起的顛覆效應將是空前的,極端不對稱解碼所需要的信息補償量也會讓讀者產生極強烈的認知困惑,并在解碼成功后誘發(fā)令人震撼的頓悟感。這種句子對于基于概率語料庫的Stanford Parser來說是不存在剖析正確的可能,只能依靠規(guī)則而不是統(tǒng)計實現(xiàn)解碼。請見Stanford Parser對該句的錯誤剖析:
*(ROOT
(SINV
(S
(NP (DT The) (NN dog))
(VP (VBD walked)
(PP (TO to)
(NP (DT the) (NN park)))))
(VP (VBD chewed))
(NP (DT the) (NN bone))))
正如我們分析的那樣,Stanford Parser無法完成解碼。系統(tǒng)把整個結構解讀為SINV而不是S,參照系統(tǒng)代碼的解釋,我們可以知道SINV[30]即“Declarative sentence with subject-aux inversion, top level labelling apart from S, usually for complete structure”,也就是具有主語翻轉功能的完全陳述句結構(an inverted S structure),例如,在“Marching past the reviewing stand were 500 musicians”句中的結構。Marcus et al具體結構解釋如下:
圖2 代碼SINV的結構樣例
如圖2可知,我們需要的The dog walked to the park chewed the bone剖析結構并不是解析器剖析的SINV結構,也不存在主語翻轉問題。該句從規(guī)則語法角度可以很容易判定是一個附屬關系從句結構。把動詞walked理解成過去分詞(VBN walked) 就能成功解碼。正確剖析如下:
(ROOT
(S
(NP
(NP (DT The) (NN dog))
(VP (VBN walked)
(PP (TO to)
(NP (DT the) (NN park)))))
(VP (VBD chewed)
(NP (DT the) (NN bone)))))
從上面的分析可以看出,主導從句與附屬關系從句的不對稱源于動詞過去分詞和過去式的同形歧義,過去式形式可以附著于前行詞作為全句的主動詞(matrix verb)出現(xiàn);過去分詞形式也可以附著于前行詞作為附屬關系從句出現(xiàn),并由此引發(fā)主動態(tài)和被動態(tài)的非對稱性選擇。通常情況下,作為主動詞的過去式形式具有認知原型特點,次選結構取代優(yōu)選結構將產生認知過載現(xiàn)象。類似的花園幽徑句還有“The performer sent the flowers was pleased”, “The woman brought the flowers smiled broadly”[30]等。
花園幽徑模式源于非對稱信息補償?shù)恼J知過載,是行進式錯位和信息斷層相互作用的結果。困惑商指數(shù)可用于量化分析信息斷層所致的非對稱性信息補償。我們測算后可知,優(yōu)選和非優(yōu)選結構困惑商指數(shù)從1分別向負無窮和2輻射。向1靠近,兩結構趨向于對稱;向負無窮靠近,優(yōu)選結構信息自足量增大,原型特點凸顯;向2靠近,非優(yōu)選結構斷層效應激增,行進中的錯位感加大。優(yōu)選和非優(yōu)選結構的困惑商指數(shù)臨界值分別0.72和1.28。超出臨界值則表明兩結構頻數(shù)具有顯著性差異,更易導致信息斷層和行進錯位的出現(xiàn)。研究證明,困惑商指數(shù)對花園幽徑模式行進錯位的幅度和強度具有前瞻性。
[1] B L Pritchett. Garden path phenomena and the grammatical basis of language processing[J]. Language, 1988(64): 539-576.
[2] K Rayner, M Carlson, L Frazier. The interaction of syntax and semantics during sentence processing: Eye movements in the analysis of semantically biased sentences[J]. Journal of verbal learning and verbal behavior, 1983, 22(3): 358-374.
[3] G Altmann, A Garnham, Y Dennis. Avoiding the garden path: Eye movements in context[J]. Journal of Memory and Language, 1992, 31(5): 685-712.
[4] K G D Bailey, F Ferreira. Disfluencies affect the parsing of garden-path sentences[J]. Journal of Memory and Language, 2003, 49(2): 183-200.
[5] T G Bever. The cognitive basis for linguistic structures[A]. In Hayes, J R (ed.), Cognition and the Development of Language. New York: John Wiley and Sons, 1970: 279-352.
[6] K Christianson. Sensitivity to syntactic changes in garden path sentences[J]. Journal of psycholinguistic research, 2008, 37(6): 391-403.
[7] J L Du, P FYu, M L Li. Machine Learning from Garden Path Sentences: The Application of computational Linguistics[J]. International Journal of Emerging Technologies in Learning, 2014,9(6):58-62.
[8] T J Slattery, P Sturt, K Christianson, et al. Lingering misinterpretations of garden path sentences arise from competing syntactic representations[J]. Journal of Memory and Language, 2013, 69(2): 104-120.
[9] R P G van Gompel, M J Pickering, J Pearson, et al. The activation of inappropriate analyses in garden-path sentences: Evidence from structural priming[J]. Journal of Memory and Language, 2006, 55(3): 335-362.
[10] F Ferreira, J M Henderson. Recovery from misanalyses of garden-path sentences[J]. Journal of Memory and Language, 1991, 30(6): 725-745.
[11] G Hickok. Parallel parsing: Evidence from reactivation in garden-path sentences[J]. Journal of Psycholinguistic Research, 1993, 22(2): 239-250.
[12] E Malaia, R B Wilbur, C Weber-Fox. ERP evidence for telicity effects on syntactic processing in garden-path sentences[J]. Brain and Language, 2009, 108(3):145-158.
[13] J M Novick, E Hussey, S Teubner-Rhodes, et al. Clearing the garden-path: Improving sentence processing through cognitive control training[J]. Language and Cognitive Processes, 2014, 29(2):186-217.
[14] L C Vuong. The role of executive control in garden path reinterpretation[D]. PhD dissertation: RICE University, 2010.
[15] Y Choi, J C Trueswell. Children’s (in)ability to recover from garden paths in a verb-final language: Evidence for developing control in sentence processing[J]. Journal of Experimental Child Psychology, 2010, 106(1):41-61.
[16] 杜家利,于屏方. 花園幽徑現(xiàn)象頓悟性的認知解讀[J]. 外語與外語教學,2011, (06): 26-29.
[17] M. F. Boston, J. T. Hale. Garden-pathing in a statistical dependency parser[C]//Proceedings of the Midwest Computational Linguistics Conference (MCLC). 2007.
[18] 馮志偉. 花園幽徑句的自動分析算法[J].當代語言學, 2003, 5(04): 339-349.
[19] 杜家利,于屏方. 花園幽徑現(xiàn)象理解折返性的數(shù)據(jù)結構分析[J]. 中文信息學報, 2015, 29(1): 28-37.
[20] Y H Jin. Semantic analysis of Chinese garden-path sentences[C]//Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing, 2006, (7): 33-39.
[21] C J C Lin, T G Bever. Garden path and the comprehension of head-final relative clauses[J]. Processing and Producing Head-final Structures, 2011: 277-297.
[22] N D Patson, F Ferreira. Conceptual plural information is used to guide early parsing decisions: Evidence from garden-path sentences with reciprocal verbs[J]. Journal of memory and language, 2009, 60(4): 464-486.
[23] B McMurray, M K Tanenhaus, R N Aslin. Within-category VOT affects recovery from “l(fā)exical” garden-paths: Evidence against phoneme-level inhibition[J]. Journal of Memory and Language, 2009, 60(1): 65-91.
[24] J C Trueswell, M K Tanenhaus, C Kello. Verb-specific constraints in sentence processing: separating effects of lexical preference from garden-paths[J]. Journal of Experimental Psychology: Learning, Memory, and Cognition, 1993, 19(3): 528 -553.
[25] 宋洋, 王厚峰. 共指消解研究方法綜述[J]. 中文信息學報, 2015, 29(1):1-12.
[26] 杜家利, 于屏方. 花園幽徑句行進錯位的計算語言學研究[M].北京: 商務印書館, 2015.
[27] 杜家利.非對稱信息補償假說: 花園幽徑模式的困惑商研究[M].北京: 中國社會科學出版社, 2015.
[28] R W Milne. Predicting garden path sentences[J]. Cognitive Science, 1982, 6(4): 349-373.
[29] E A F Gibson. A computational theory of human linguistic processing: Memory limitations and processing breakdown[D]. School of Computer Science: Carnegie Mellon University, 1991.
[30] M Marcus, G Kim, M A Marcinkiewicz, et al. The Penn Treebank: annotating predicate argument structure[C]//Proceedings of the Workshop on Human Language Technology. Association for Computational Linguistics, 1994: 114-119.
Quantitative Research on the Processing Breakdown in Garden Path: A Computational Linguistic Perspective
DU Jiali1,2, YU Pingfang3
(1.Lexicographical Research Center, Guangdong University of Foreign Studies,Guangzhou, Guangdong 510420, China;2.School of Foreign Studies, Nanjing University, Nanjing, Jiangsu 210093, China;3.Faculty of Chinese Language and Culture, Guangdong University of Foreign Studies,Guangzhou, Guangdong 510420, China)
This article discusses the confusion quotient (CQ) index in the processing breakdown of the garden path phonomenon. The presence of asymmetric information breakdown could lead to spiral upward trend of decoding which showed the pattern of double negation. The amplitude of potential effects of processing breakdown could be measured through the CQ index. Based on large data corpus statistics and online parser analytic method, we calculate the value of CQ index. CQ duration for the preferred construction lies between (-∞, 1], and for the non-preferred construction, [1,2]. The critical values for the preferred and non-preferred structures are 0.72 and 1.28 respectively, and the ambiguous domain lies in [0.72, 1.28]. It is concluded that the frequency deviation of multi-structures is a fundamental reason to lead to different CQ index. The amplitude of processing breakdown and magnitude of asymmetry information compensation are related to CQ index. It is revealed that the statistics-based CQ index can provide the prospective information for decoding the complex structure of local ambiguity.
computational linguistics; garden path model; processing breakdown; local ambiguity; confusion quotient
杜家利(1971—),博士,南京大學博士后,副教授,主要研究領域為計算語言學。E-mail:dujiali68@126.com于屏方(1971—),博士,中國社會科學院博士后,教授,主要研究領域為應用語言學。E-mail:yupingfang68@126.com
1003-0077(2015)05-0031-08
2015-07-21 定稿日期: 2015-09-18
國家社科后期資助項目(12FYY019);中國博士后第57批一等資助項目(2015M570424)
TP391
A