于文勃 梁丹丹
?
口語加工中的詞語切分線索*
于文勃 梁丹丹
(南京師范大學(xué)文學(xué)院, 南京 210097)
詞是語言的基本結(jié)構(gòu)單位, 對詞語進行切分是語言加工的重要步驟。口語語流中的切分線索來自于語音、語義和語法三個方面。語音線索包括概率信息、音位配列規(guī)則和韻律信息, 韻律信息中還包括詞重音、時長和音高等內(nèi)容, 這些線索的使用在接觸語言的早期階段就逐漸被個體所掌握, 而且在不同的語言背景下有一定的特異性。語法和語義線索屬于較高級的線索機制, 主要作用于詞語切分過程的后期。后續(xù)研究應(yīng)從語言的畢生發(fā)展和語言的特異性兩個方面考察口語語言加工中的詞語切分線索。
口語; 詞語切分; 語音; 語義; 語法
語言單位包括語素、詞、詞組等, 其中, 詞是最小的能獨立運用的音義結(jié)合體, 是個體在頭腦中存儲的基本單位(張珊珊, 楊亦鳴, 2012)??谡Z語流是隨時間變化的線性結(jié)構(gòu), 詞語切分過程中, 詞和詞之間沒有清晰可靠的邊界, 不像文本閱讀中有明確的空間線索(標點符號或空格), 早期的研究往往關(guān)注語義、語法等方面的線索信息, 但是嬰幼兒在習(xí)得語言初期并不具有完備的語義知識和語法體系, 那么他們是如何進行切分的呢?可以猜想, 語音信息可能是重要的線索。另一方面, 隨著人工智能和語音合成等新技術(shù)的發(fā)展, 從語音層面探究詞語的切分線索, 描繪人腦詞語切分的內(nèi)在過程儼然成為了當前心理學(xué)的研究熱點。本文著重介紹口語加工中詞語切分的語音線索, 隨后介紹語法和語義線索, 最后對未來的研究提出一些建議。
本部分內(nèi)容聚焦詞語切分的語音線索, 從概率信息、音位配列規(guī)則和韻律信息三個方面梳理相關(guān)研究。
20世紀90年代末, 研究者提出統(tǒng)計學(xué)習(xí)(statistical learning)的概念, 指個體自覺地運算刺激間的轉(zhuǎn)換概率(transitional probability, TP)掌握統(tǒng)計規(guī)律的過程(Saffran, Aslin, & Newport, 1996; 唐溢等, 2015; Saffran & Kirkham, 2018), 這一認知過程也被認為是嬰幼兒和成人在語流中切分詞語、發(fā)現(xiàn)語法分類甚至是習(xí)得句法結(jié)構(gòu)的重要方式(Newport, 2016)。
2.1.1 嬰幼兒的研究
在口語語流中, 概率信息指單詞內(nèi)音節(jié)的轉(zhuǎn)換概率高于單詞間的音節(jié), 比如詞組中, 音節(jié)間的轉(zhuǎn)換概率要高于音節(jié)間, 研究表明剛出生8個月的嬰兒就已經(jīng)具備了利用這一概率信息切分詞語的能力(Aslin, Saffran, & Newport, 1998; Saffran, Aslin, et al., 1996; Saffran, Aslin, & Newport, 1996)。Saffran, Aslin等(1996)設(shè)計了4個由3個音節(jié)組成的固定單詞(,,,), 這些單詞隨機相連組成無意義音節(jié)串(……)。在完整單詞中, 三個音節(jié)是固定連接的, 它們之間的轉(zhuǎn)換概率為1 (三個音節(jié)均為的內(nèi)部音節(jié), 同時出現(xiàn)), 但在跨界單詞中, 前兩個音節(jié)之間的轉(zhuǎn)換概率為0.33 (單詞可能出現(xiàn)在其他任意三個單詞之后), 后兩個音節(jié)的轉(zhuǎn)換概率為1, 因此跨界單詞中和之間的轉(zhuǎn)換概率較小, 意味著可能是詞語邊界, 所有無意義音節(jié)串均沒有重音、停頓等線索, 只在轉(zhuǎn)換概率上有所區(qū)分。實驗分為學(xué)習(xí)階段和測試階段, 學(xué)習(xí)階段讓嬰兒聽2分鐘的無意義音節(jié)串, 測試1發(fā)現(xiàn)嬰兒對學(xué)習(xí)過的完整單詞注視時間短, 對沒學(xué)習(xí)過的單詞注視時間長; 測試2發(fā)現(xiàn)嬰兒對學(xué)習(xí)過的完整單詞注視時間短, 對學(xué)習(xí)過的跨界單詞注視時間長, 研究者認為這種去習(xí)慣化效應(yīng)是因為嬰兒以轉(zhuǎn)換概率的高低劃分詞語邊界, 對高轉(zhuǎn)換概率的單詞更為熟悉, 注視時間減少。
概率信息在詞語切分中的作用也受到一些質(zhì)疑, Estes (2012)認為大多數(shù)統(tǒng)計學(xué)習(xí)研究都是實驗室研究, 而且實驗材料為人工語法詞, 這一學(xué)習(xí)機制是否能推廣到自然語言環(huán)境中值得商榷; 另外, 也有研究者認為嬰兒識別的音節(jié)串只是根據(jù)概率信息計算出來的音節(jié)單元, 并非是具有詞匯屬性的真實單詞(Endress & Mehler, 2009; Perruchet & Poulin-Charronnat, 2012)。一些研究者通過實驗在一定程度上反駁了以上質(zhì)疑, 比如Lew-Williams, Pelucchi和Saffran (2011)以意大利語為實驗材料, 發(fā)現(xiàn)8~10個月的嬰兒可以利用轉(zhuǎn)換概率和詞匯呈現(xiàn)形式來切分詞語; Erickson, Thiessen和Estes (2014)發(fā)現(xiàn)8個月大的嬰兒只會將高轉(zhuǎn)換概率的音節(jié)串作為標簽來對物體分類, 嬰兒的這種分類能力被認為是基于真實詞匯的, 因此研究者推斷嬰兒通過概率信息切分出來的音節(jié)串也具備一定的詞匯屬性。
2.1.2 成人的研究
相比于嬰幼兒的研究, 成人的研究中更容易控制額外變量, 有助于深入分析概率信息在詞語切分中的作用。Saffran, Aslin等人(1996)的研究雖然證明嬰兒可以通過音節(jié)間的概率信息切分口語語流, 但沒有細致考察概率信息的載體。音節(jié)是我們直覺上最容易劃分出來的最小語音單位, 一般以元音作為核心, 輔音在元音前面或后面, 共組成4種基本類型:(1)V, (2)C-V, (3)V-C, (4)C-V-C (林燾, 王理嘉, 2013), 那么概率信息的載體是元音、輔音還是整個音節(jié)這一問題并沒有答案。近年來以成人為被試的研究發(fā)現(xiàn), 不同語言背景下個體對承載概率信息的語音載體有著不同的偏好(Bonatti, Pe?a, Nespor, & Mehler, 2005; Gómez, Mok, Ordin, Mehler, & Nespor, 2017)。Bonatti等人(2005)在經(jīng)典的轉(zhuǎn)換概率范式基礎(chǔ)上, 分別在元音和輔音層面上控制音節(jié)間的概率信息, 結(jié)果發(fā)現(xiàn)當輔音為載體時, 法語被試能夠更好地利用概率信息進行詞語切分, 研究者認為這是因為在印歐語系中輔音對單詞識別的作用大于元音。Gómez等人(2017)以粵語母語者為被試, 沿用了Bonatti等(2005)的實驗范式, 首先在材料中保證了音節(jié)間的轉(zhuǎn)換概率恒定(音節(jié)后接音節(jié)或), 然后分別改變元音間的概率信息(含元音的音節(jié)后接含元音的音節(jié)的概率為0.75, 接含元音的音節(jié)的概率為0.25)和輔音間的概率信息(含輔音的音節(jié)后接含輔音的音節(jié)的概率為0.75, 接含輔音的音節(jié)的概率為0.25), 結(jié)果發(fā)現(xiàn), 相比于輔音條件, 粵語母語者在元音條件下能更好地利用概率信息切分詞語。不同于大部分印歐語系語言, 以漢語普通話、粵語和越南語等為代表的漢藏語系語言具有聲調(diào)這一超音段特征, Gómez等人(2017)還發(fā)現(xiàn)隨著聲調(diào)信息的加入粵語被試對詞語切分的準確率進一步提高。可見, 雖然利用概率信息切分詞語是人類普遍的能力, 但在不同語言背景中表現(xiàn)形式并不相同。
每種語言都有自己的語音音位配列規(guī)則(phonotactics), 符合配列規(guī)則的音位搭配出現(xiàn)頻率高, 不符合的出現(xiàn)頻率低甚至為0, 比如在英語中就是高頻輔音搭配, 而是低頻輔音搭配。當個體在語流中識別到不可能同處于一個音節(jié)的兩個音位時, 會傾向認為二者之間存在音節(jié)邊界, 而如果前后兩個音節(jié)分別是單音節(jié)詞, 那么在切分音節(jié)的同時就完成了詞語的切分(McQueen, 1998; Suomi, McQueen, & Cutler, 1997; Tremblay & Spinelli, 2013)。在荷蘭語的研究中, McQueen (1998)采用詞語指認范式, 要求被試在聽到無意義雙音節(jié)中的真詞時迅速報告, 比如在無意義雙音節(jié)詞和中, 真詞音節(jié)均為, 但是前者輔音和分別處在兩個音節(jié)中, 后者輔音和處在同一個音節(jié)內(nèi)。結(jié)果發(fā)現(xiàn), 被試在第一種條件下報告真詞的反應(yīng)時更短, 準確率更高, 研究者指出在荷蘭語中輔音和不能處于同一音節(jié)內(nèi), 與第一種條件刺激的發(fā)音方式相匹配, 被試在聽到雙音節(jié)詞時更容易判斷兩個音位之間有音節(jié)邊界, 進而完成了對真詞的切分。
緊張性和松弛性是普遍存在的音位對立特征, 既可以表現(xiàn)在元音上, 也可以表現(xiàn)在輔音上, 緊元音(tense vowel)聽起來強而長, 松元音(lax vowel)聽起來短而弱(王理嘉, 1991)。在英語中, 緊元音(如、)可以作為詞尾音, 而松元音(如、)不可以, Skoruppa, Nevins, Gillard和Rosen (2015)發(fā)現(xiàn)在語音片段中, 個體傾向?qū)⑵淝蟹殖啥皇? 這說明元音的松緊性提供了必要的線索。音位配列規(guī)則可以看作是音位間、音節(jié)間概率信息的延伸, 暴露在語言環(huán)境下的個體可以通過它們之間的概率信息掌握音節(jié)與音節(jié)之間、詞與詞之間的邊界, 進而內(nèi)化為語音規(guī)則, 而無需特定的習(xí)得過程。
語言的語音結(jié)構(gòu)由音段結(jié)構(gòu)和超音段結(jié)構(gòu)兩部分組成(何善芬, 1989), 音段結(jié)構(gòu)就是上文提到的音節(jié), 也指其內(nèi)部的元音和輔音, 詞語切分中的概率信息和音位配列規(guī)則主要作用在音段結(jié)構(gòu)上; 超音段特征包括音高、強度以及時間特性, 由音位或音位群負載(楊玉芳, 黃賢軍, 高路, 2006), 相關(guān)的研究表明, 多種超音段信息也可以作為線索幫助個體切分口語語流。在韻律音系學(xué)中, 韻律特征(語調(diào)、時域分布和重音)主要通過超音段特征實現(xiàn), 因此本部分所介紹的超音段信息也可以被稱作韻律信息。
2.3.1 詞重音
一段語流中各音節(jié)聲音響亮程度并不完全相等, 在語流中聽起來比其他音節(jié)突顯的音節(jié)稱為重音音節(jié)。重音可以分成詞匯層面的詞重音和句子層面的句重音或重讀。詞重音有詞匯屬性, 具有語法和詞匯意義, 起到辨義作用, 而句重音彰顯話語組織的突出焦點, 具有語用功能(何善芬, 1989; 許希明, 沈家煊, 2016)。Hyman (2009)將世界語言劃分為重音語言和聲調(diào)語言, 前者以英語為代表, 帶有詞層面的節(jié)律特征, 后者以漢語普通話為代表, 帶有詞層面的音高特征。相關(guān)的研究表明, 以重音語言為母語的個體能夠利用詞重音作為線索切分語流。
英語是自由重音語言, 單音節(jié)詞不會遇到重音分配的問題, 多音節(jié)詞的重音分配位置不固定, 雖然大多數(shù)單詞詞重音位于第一音節(jié)(如)但也可能位于其他音節(jié)上(如)。Cutler和Carter (1987)通過語料庫調(diào)查發(fā)現(xiàn)在英語的實義詞中, 強音節(jié)開頭的數(shù)量是弱音節(jié)開頭數(shù)量的三倍, 而且前者出現(xiàn)的頻率也是后者的兩倍, 因此他們推斷英語母語者會通過詞重音確定詞語的起始位置。Cutler和Norris (1988)設(shè)計了兩類無意義音節(jié):和, 前者由兩個完整元音音節(jié)組成, 記為SS (強強)音節(jié), 后者由一個完整元音音節(jié)和一個半元音音節(jié)組成, 記為SW (強弱)音節(jié), 實驗要求被試在聽無意義音節(jié)的同時檢測真詞(如)的出現(xiàn), 結(jié)果發(fā)現(xiàn)被試對SS音節(jié)中真詞的反應(yīng)時間顯著長于SW音節(jié), 這可能是因為音節(jié)和均是重音音節(jié), 二者會競爭輔音, 進而干擾對真詞的識別, 而SW音節(jié)中不存在競爭關(guān)系。嬰兒的研究也證實了詞重音作為線索對切分詞語的作用, Jusczyk, Houston和Newsome (1999)采用轉(zhuǎn)頭偏好范式, 考察7.5個月嬰兒的音節(jié)識別能力, 結(jié)果發(fā)現(xiàn)他們對符合英語詞重音模式(重音為第一音節(jié))的雙音節(jié)單詞有偏好, 而對于不符合詞重音模式的單詞沒有偏好。
雖然詞重音可以作為英語詞語切分的線索, 但是這一線索并非具有跨語言的普遍性。法語詞重音形式與英語不同, 所有詞重音均在詞末音節(jié)上(林燾, 王理嘉, 2013), 屬于固定重音語言, 研究發(fā)現(xiàn)法語母語者并非通過重音而是通過音節(jié)的完整性來切分詞語(Mehler, Dommergues, Frauenfelder, & Segui, 1981); 而在同樣是重音語言的西班牙語中, 母語者在切分詞語過程中會結(jié)合音節(jié)的數(shù)量和重音兩方面線索(LaCross et al., 2016)。
2.3.2 音高和時長信息
韻律結(jié)構(gòu)普遍存在于所有語言中, 每一個韻律結(jié)構(gòu)都會存在韻律邊界, 通常伴隨語段末音段延長、無聲段以及相對較大的音高移動(李衛(wèi)君, 楊玉芳, 2010)。研究指出這些音高和時長變化在語音歧義詞的切分過程中起著消解歧義的作用(Christophe, Peperkamp, Pallier, Block, & Mehler, 2004; Gout, Christophe, & Morgan, 2004; Shatzman & McQueen, 2006)。在Christophe等人(2004)以法語為材料的實驗中, 目標詞可以和后面單詞的首音節(jié)(歧義音節(jié))組成合乎語義的競爭詞, 但是目標詞()和歧義音節(jié)()或者處在韻律短語內(nèi)部(如[]), 或者處在韻律短語邊界處(如[] [])。他們發(fā)現(xiàn)被試對目標詞的反應(yīng)情況受到韻律邊界的調(diào)節(jié), 如果目標詞和歧義音節(jié)分屬于不同的韻律短語, 那么韻律邊界有助于切分二者, 避免形成競爭詞干擾目標詞的識別。
韻律邊界對詞語的切分體現(xiàn)在音高和時長兩方面信息的共同作用上, 那么兩者中單獨一個因素是否也能夠起到切分詞語的作用呢?Shatzman和McQueen (2006)采用跨通道語義啟動范式考察荷蘭語中輔音的時長對歧義詞組的切分影響(,)。結(jié)果發(fā)現(xiàn), 當輔音持續(xù)時間較短時, 被試更早地對目標詞()對應(yīng)的圖片進行注視, 這是因為位于詞尾()的輔音的時長要短于位于詞首()的情況, 因此被試將較短的切分成前一個單詞的詞尾, 進而對目標詞()加工更快。除此之外, 關(guān)于抑揚?揚抑規(guī)律(ITL, IambicTrochaic law)的研究也提供了音高和時長信息是如何在詞語切分中起線索作用的證據(jù)(Frost, Monaghan, & Tatsumi, 2017; Langus et al., 2016)。早在一百多年前, 研究者就發(fā)現(xiàn)個體具有根據(jù)強度、時長和音高等聲學(xué)特征將聲音序列進行組塊化的傾向(Bolton, 1894; Woodrow, 1909)。Hayes (1995)提出節(jié)奏感知的抑揚?揚抑規(guī)律(IambicTrochaic Law):在強度參數(shù)上, 個體對節(jié)奏感知有強弱形式的揚抑偏好(后續(xù)研究發(fā)現(xiàn)音高參數(shù)與強度參數(shù)規(guī)律相同); 在時長參數(shù)上, 個體對節(jié)奏有短長形式的抑揚偏好; 作者進一步指出這一規(guī)律不僅僅是語言的結(jié)構(gòu)形式, 也是個體組織、切分語言的方式。近年來的實證研究將焦點放在抑揚?揚抑規(guī)律對詞語切分作用的跨語言特性上。Langus等人(2016)以意大利語、土耳其語和波斯語母語者為被試, 以重復(fù)出現(xiàn)、順序固定的無意義音節(jié)為材料(), 每隔一個音節(jié)改變音節(jié)的時長(180~400 ms)或基頻F0 (180~400 Hz), 熟悉階段要求被試認真聽語音材料, 測試階段給被試呈現(xiàn)音節(jié)對, 如, 要求判斷其是否剛剛出現(xiàn)過。結(jié)果發(fā)現(xiàn)在音高參數(shù)上, 三組被試成績相當且正確率較高(0.7~0.8), 說明他們都以揚抑形式切分音節(jié), 能夠區(qū)分音節(jié)對和; 但是在時長參數(shù)上, 意大利母語者判斷的正確率顯著高于其他兩組被試, 說明只有意大利母語者能夠利用時長線索正確切分音節(jié), 即詞語切分過程受到語言經(jīng)驗的影響。不過, Frost等人(2017)的研究與此結(jié)論完全相反, 他們考察了日語母語者和英語母語者, 發(fā)現(xiàn)在時長參數(shù)下, 兩組被試的回答正確率相當, 研究者認為抑揚?揚抑規(guī)律對詞語的切分效應(yīng)是一般性的認知機制, 具有跨語言的普遍性。雖然兩個研究采用的實驗范式相同, 自變量和因變量指標也基本一致, 但兩者在材料設(shè)置上有細微差別, 前者的音節(jié)呈現(xiàn)順序固定, 后者的音節(jié)呈現(xiàn)順序隨機變化, 而且后者的作答形式為迫選, 要求被試在兩個音節(jié)對中選擇更像單詞的一個, 這可能是造成兩個研究結(jié)果相悖的原因??傊? 關(guān)于時長、音高等聲學(xué)信息在詞語切分中作用的研究剛剛起步, 在研究范式和材料上都有不完善的地方, 還需要更多的研究加以對比。
2.3.3 韻律特征的規(guī)律性
上文介紹的線索信息在詞語切分過程中大多作用在目標詞附近, 可以看作是個體利用即時信息對口語語流進行切分, 但也有研究發(fā)現(xiàn)當個體對語流進行加工時, 如果前段語流的韻律特征(時長、音高)呈規(guī)律性的變化, 那么個體會以相同的變化模式切分后續(xù)語流(Brown, Dilley, & Tanenhaus, 2012; Brown, Salverda, Dilley, & Tanenhaus, 2015; Dilley, & McAuley, 2008; Dilley, Mattys, & Vinke, 2010)。
Dilley和McAuley (2008)設(shè)計了一系列由8個音節(jié)組成的單詞串(), 其中前兩個單詞為重音在第一音節(jié)的雙音節(jié)單詞, 后面4個單音節(jié)單詞可以組成多種音節(jié)形式的單詞()??疾煲舾呔€索時, 將前兩個單詞(和)的基頻F0設(shè)置成由高到低(270~280 Hz到170~180 Hz)或相反的變化趨勢(如圖1), 其中單音節(jié)條件中(圖1第一行)第五個音節(jié)()的F0由高到低(270~280 Hz到170~180 Hz), 雙音節(jié)條件中(圖1第二行)第五個音節(jié)()的F0為低(170~180 Hz), 兩種條件下最后三個音節(jié)的F0保持一致。實驗任務(wù)要求被試在聽到單詞串后報告他們聽到的最后一個單詞, 結(jié)果發(fā)現(xiàn)在單音節(jié)條件下, 被試會按照“高低高低”的組合規(guī)律切分單詞, 將和聽成一個合成詞, 最后報告單音節(jié)單詞; 然而在雙音節(jié)條件下, 被試更多地報告雙音節(jié)單詞。
圖1 實驗材料示意圖
(資料來源:Dilley & McAuley, 2008)
語速通常被定義為單位時間內(nèi)聽到的音段或音節(jié)的數(shù)量(Reinisch, 2016), 語速快意味著每個音節(jié)的時長短, 語速慢意味著每個音節(jié)的時長長, 因此, 語速可以被看作是音節(jié)時長的一種表現(xiàn)形式。相關(guān)的研究表明, 語速也會對目標詞的切分產(chǎn)生影響(Baese-Berk et al., 2014; Dilley & Pitt, 2010; Morrill, Baese-Berk, Heffner, & Dilley, 2015; Morrill, Dilley, McAuley, & Pitt, 2014)。在句子中, 通過PSOLA軟件調(diào)整語句前段音節(jié)串的語速(正常語速, 1.9倍正常語速和0.6倍正常語速), 結(jié)果發(fā)現(xiàn)當目標詞前面的單詞語速較慢時, 被試傾向于報告沒有聽到目標詞(), 而語速較快時, 被試傾向于報告聽到目標詞()。研究者推斷較慢的語速中, 被試期待音節(jié)的時長較長, 單詞與協(xié)同發(fā)音導(dǎo)致被試感知不到目標詞(Dilley & Pitt, 2010)。在跨語言的研究中, Lai和Dilly (2016)采用相同的實驗范式, 發(fā)現(xiàn)在漢語語句中, 音節(jié)的識別也受到語速的影響; 而且即使過濾掉語義信息只保留基頻信息, 目標詞遠端的韻律特征依舊可以影響詞語切分的結(jié)果(Dilley et al., 2010)。
口語詞語切分過程中, 語音范疇提供的線索大致可以分為音段線索和韻律線索兩類, 雖然線索載體和作用方式都不同, 但是兩類線索均是個體在接觸語言早期就能夠習(xí)得的, 尤其是已有研究證實個體在1歲以內(nèi)就可以利用概率信息和詞重音信息切分詞語; 盡管抑揚?揚抑規(guī)律對詞語切分的線索作用只得到成人研究的支持, 但是相關(guān)研究已經(jīng)表明個體在出生伊始就具備抑揚或揚抑偏好(Abboub, Nazzi, & Gervain, 2016), 可以設(shè)想嬰幼兒在切分詞語時會綜合使用音段和韻律線索。另外, 語音切分是語音合成的逆向過程, 現(xiàn)有的研究成果可以為增強合成語音的表現(xiàn)力和自然度提供幫助(李勇, 魏珰, 王柳渝, 2017)。
相比于語音線索, 語法和語義層面的信息對詞語切分影響的研究較少, 而且考慮到這二者均是較高級的語言知識, 因此研究對象主要是成人。
Cole, Jakimik和Cooper (1980)采用錯誤發(fā)音聽辨任務(wù)(listening for mispronunciations task)考察語法線索在詞語切分中的作用, 發(fā)現(xiàn)語流前段的語法結(jié)構(gòu)能夠提示被試后面的詞語形式, 比如結(jié)構(gòu)提示被試后面為形式, 因此在聽到錯誤輔音(正確形式為, 錯誤形式為)時, 被試可以迅速報告錯誤發(fā)音, 而結(jié)構(gòu)提示被試后面為形式, 因此被試聽到錯誤輔音時, 還要進一步排除其他可能。Mattys, Melhorn和White (2007)考察了英語主謂一致原則對語音歧義詞切分的影響, 實驗包括3種聽覺材料, 中性詞組(,)、單數(shù)主語句子(,)和復(fù)數(shù)主語句子(,), 在每一個試次中, 先呈現(xiàn)視覺目標詞(或), 隨后呈現(xiàn)聽覺詞組或句子, 要求被試盡快判斷聽覺材料中是否包括視覺目標詞。結(jié)果發(fā)現(xiàn), 在中性詞組條件中出現(xiàn)了一致性效應(yīng), 即當目標詞與聽覺刺激一致時(和,和), 被試的反應(yīng)時要短于二者不一致時(和,和); 但在復(fù)數(shù)主語句子條件下, 被試反應(yīng)的一致性效應(yīng)消失, 研究者認為復(fù)數(shù)條件下句子的主語導(dǎo)致被試期待聽覺刺激的出現(xiàn), 因此即使目標詞和語句中的單詞一致, 對目標詞的切分也會受到語法的抑制。
近年來, 一些研究者試圖從腦神經(jīng)活動的角度揭示個體切分詞語的內(nèi)在機制。Ding,Lucia, Zhang, Tian和Poeppel (2016)采用腦磁圖技術(shù), 向被試呈現(xiàn)沒有韻律信息且均由單音節(jié)單詞組成的中英文句子(), 結(jié)果發(fā)現(xiàn)當被試聽到符合語法結(jié)構(gòu)的詞組()或者句子()時, 大腦皮層會出現(xiàn)較明顯的電磁頻譜反應(yīng), 研究者將其稱為大腦皮層的“神經(jīng)鎖定” (neuro entrainment)現(xiàn)象, 借于此他們推斷個體能夠以語法知識切分語流, 并建構(gòu)語義表征。
索緒爾(De Saussure & Baskin, 1916)在《普通語言學(xué)教程》書中指出要通過音節(jié)的意義對語流進行切分, 從而保證被切分的音節(jié)有對應(yīng)的實體, 比如, 法語音節(jié)串只能切分成(如果我拿走它)和(如果我掌握它)兩種。雖然索緒爾的設(shè)想較為粗糙, 沒有得到實驗證據(jù)的支持, 但隨著語言知識的增長, 個體對詞語的切分必然受到語義的限制。Norris, McQueen和Culter (1995)提出口語詞語切分的可能性限制原則(Possible-Word Constraint, PWC), 認為在口語詞語加工中個體頭腦的候選詞語必須能夠解釋語流中的所有音位, 只有這樣才能完成詞語識別, 進而完成詞語切分。在研究中, Norris, McQueen, Cutler和Butterfield (1997)要求被試在聽到音節(jié)串的同時識別真詞, 結(jié)果發(fā)現(xiàn)在音節(jié)串中對真詞的識別比在音節(jié)串中更加困難, 這是因為音位無法單獨構(gòu)成一個單詞, 不利于切分音節(jié)串, 而構(gòu)成單詞的可能性較大, 有利于切分音節(jié)串。
近年來, 視聽跨通道詞語啟動范式普遍被使用在詞語切分的研究中(White, Mattys, & Wiget, 2012)。White等人(2012)設(shè)計了強語義關(guān)聯(lián)和弱語義關(guān)聯(lián)的詞組(和), 并從模擬對話中切分出真實詞組作為實驗材料。實驗過程中, 首先呈現(xiàn)聽覺詞組作為啟動刺激, 隨后呈現(xiàn)視覺目標詞, 要求被試判斷目標詞是否為真實單詞, 視覺目標詞包括三種情況:與探測詞組的結(jié)尾詞相同、與探測詞組無關(guān)和非詞。結(jié)果發(fā)現(xiàn)在強語義相關(guān)的探測條件下被試對與探測詞組結(jié)尾相同的視覺單詞判斷更快, 這說明強語義探測刺激具有啟動效應(yīng), 加快了對目標詞的切分。
在實際的口語加工中, 切分詞語是個極其復(fù)雜的過程, 受到多種線索的協(xié)同(競爭)作用, 一些研究考察了韻律特征(重音)、音位規(guī)則、語義和語法等線索的相對權(quán)重(Babineau, Shi, & Achim, 2017; Heffner, Dilley, McAuley, & Pitt, 2013; Mattys, 2004)。在法語連音(French liaison)的研究中, Babineau等(2017)發(fā)現(xiàn)句法規(guī)則對連音的切分作用最大, 而語音線索只起輔助作用; 另一方面, 環(huán)境背景和被試的策略也會影響詞語切分過程(Mattys, White, & Melhorn, 2005; Morrill et al., 2015)。Mattys等人(2005)的研究結(jié)果發(fā)現(xiàn), 在安靜環(huán)境下語義的影響權(quán)重最大, 隨后是詞匯信息和音位規(guī)則, 而重音的線索作用最小, 但在噪聲環(huán)境中韻律特征等低層級線索的作用變大。
通過行為學(xué)實驗可以判斷個體對不同線索的依仗程度, 但是不能探究個體利用多種線索的時間進程, 大量事件相關(guān)電位的研究證實在詞語切分過程中, 語音線索的作用是即時的, 不受高級線索的影響, 而語義、語法線索的作用時間主要位于整合語義的最后階段(Steinhauer, Alter, & Friederici, 1999; 張輝, 孫和濤, 顧介鑫, 2013)。在Steinhauer等(1999)以德語為材料的研究中, 句子的每一個韻律短語邊界都會引起被試頂葉腦區(qū)的活動, 出現(xiàn)中止正漂移的腦電成分(closure positive shift, CPS), 而如果韻律線索切分的句子結(jié)構(gòu)與句法結(jié)構(gòu)矛盾, 還會出現(xiàn)一個雙向的N400-P600成分(biphasic N400-P600)。張輝等人(2013)以相同的實驗范式考察漢語母語者對四字成語材料的切分情況, 實驗過程中向被試呈現(xiàn)兩種朗讀模式的成語(2+2, 1+3), 其中每種朗讀模式中一半是符合成語句法結(jié)構(gòu)的(), 一半是不符合的()。結(jié)果發(fā)現(xiàn)韻律節(jié)奏主效應(yīng)顯著, 無論材料是否符合句法模式, 只要以“1+3”節(jié)奏朗讀時, 都會激發(fā)被試雙向的N400-P600成分, 而以“2+2”節(jié)奏朗讀則不會出現(xiàn)此成分。這說明個體在運用韻律信息切分語流時有一定的獨立性, 切分早期并不受到語義、語法等高級線索的干擾。
本文系統(tǒng)地梳理了語音、語法和語義線索對口語詞語切分的作用, 近年來的研究一方面集中在嬰幼兒詞語切分的線索機制上, 另一方面聚焦于成人是如何綜合利用多種線索進行詞語切分的, 筆者認為目前的研究仍有不足之處, 可以從以下兩個方面豐富、擴展。
語言發(fā)展會歷經(jīng)個體從出生到死亡的所有階段, 目前的研究主要集中在成人口語詞語切分上, 嬰幼兒的研究才剛剛起步。一直以來, 嬰幼兒是如何掌握詞語這一問題始終困擾心理學(xué)家和語言學(xué)家, 除了本文提到的概率信息外是否還有其他線索呢?一些研究發(fā)現(xiàn)嬰幼兒對詞語的習(xí)得受到他們接觸詞語的頻率(Ambridge, Kidd, Rowland, & Theakston, 2015)、時間分布、空間分布和文本環(huán)境(Roy, Frank, DeCamp, Miller, & Roy, 2015)的影響; 語料庫的調(diào)查也發(fā)現(xiàn)嬰兒所接觸的語料中有9%是單個單詞(single word), 出現(xiàn)頻率較高的是、、和等(Ambridge & Lieven, 2011), 因此可以猜想嬰兒首先要掌握單個單詞, 隨后以此作為“據(jù)點”切分詞組和句子, 進而掌握新詞, 但這一假設(shè)仍需要更多實驗證據(jù)的支持。除此之外, 語言加工的老化研究也是近期興起的熱點問題, 詞語切分能力是否與語義加工一樣存在老化現(xiàn)象呢?如果存在, 是單一線索使用能力下降還是多種線索使用能力共同下降呢?
跨語言的研究已經(jīng)證實, 個體在切分語言的過程中受到母語語音結(jié)構(gòu)的影響(Cutler & Otake, 1994; Mehler et al., 1981; LaCross et al., 2016)。印歐語系中, 語言中的一個基本單位(詞)通常對應(yīng)若干音節(jié), 因此對詞語的切分首先要解決的問題是一個單詞對應(yīng)幾個音節(jié); 但漢語的音節(jié)結(jié)構(gòu)有其獨特的地方, 首先, 每一個音節(jié)有一個聲調(diào), 使同一個音節(jié)中的各個音位有一種向心力, 內(nèi)聚為一個整體, 從而能清楚地與其他音節(jié)區(qū)別開來(徐通鏘, 2001); 此外, 漢語音節(jié)以元音結(jié)尾占多數(shù), 輔音結(jié)尾的只有和兩種, 以元音開頭的音節(jié)又極少, 這都大大降低了連讀的可能性; 最后, 按照徐通鏘(2010)的說法, 漢語的特點是“1個字·1個音節(jié)·1個概念”, 英語中相應(yīng)的結(jié)構(gòu)是“1個詞·n個音節(jié)·1個概念”, 即漢語音節(jié)與意義是一一對應(yīng)的關(guān)系, 可見在漢語中識別音節(jié)并不存在困難。不過, 漢語詞匯化過程中表現(xiàn)出明顯的雙音化傾向, 馮勝利(1998)也指出由于自然音步的影響, 漢語普通話母語者習(xí)慣使用雙音節(jié)詞, 端木三(2000)也以為例子, 指出漢語中的韻律結(jié)構(gòu)對句法結(jié)構(gòu)具有一定的限制作用, 那么這種雙音節(jié)傾向是否是漢語母語者在語音層面上切分語流的線索呢?這有待于進一步考證。另一方面, 漢語沒有明顯的語法形態(tài), 同音字數(shù)量多, 這導(dǎo)致了漢語中存在大量的同音異構(gòu)形式, 比如這一結(jié)構(gòu), 既可以表示動賓含義炒飯這一動作, 也可以表示偏正含義炒飯這一實物, 再比如結(jié)構(gòu)也存在歧義, 可以表示小張師傅本人, 也可以指代小張的師傅, 今后的研究可以發(fā)掘韻律信息在此類結(jié)構(gòu)中的切分作用。
詞語切分是語言加工研究的根本問題, 口語狀態(tài)下的詞語切分是自然交際中的關(guān)鍵環(huán)節(jié), 未來應(yīng)更廣泛地從不同線索、不同視角、不同語言展開對這一問題的探討, 不但可以揭示出某種具體語言中口語加工時的詞語切分過程, 而且可以在此基礎(chǔ)上得出具有普遍性的口語詞語切分模型。
端木三. (2000). 漢語的節(jié)奏.(4), 203?209.
馮勝利. (1998). 論漢語的 “自然音步”.(1), 40?47.
何善芬. (1989). 英語超音段音位及其辨義功能.(6), 66?69.
李勇, 魏珰, 王柳渝. (2017). 基于PSOLA與DCT的情感語音合成方法.(12), 278?282.
李衛(wèi)君, 楊玉芳. (2010). 絕句韻律邊界的認知加工及其腦電效應(yīng).(11), 1021?1032.
唐溢, 張智君, 曾玫媚, 黃可, 劉煒, 趙亞軍. (2015). 基于名人面孔視覺特征和語義信息的視覺統(tǒng)計學(xué)習(xí).(7), 837?850.
王理嘉. (1991).. 北京: 語文出版社.
林燾, 王理嘉. (2013). 語音學(xué)教程. 北京: 北京大學(xué)出版社.
徐通鏘. (2001).. 北京: 北京大學(xué)出版社.
徐通鏘. (2010).. 北京: 北京大學(xué)出版社.
許希明, 沈家煊. (2016). 英漢語重音的音系差異.(5), 643?656.
楊玉芳, 黃賢軍, 高路. (2006). 韻律特征研究.(4), 546?550.
張輝, 孫和濤, 顧介鑫. (2013). 成語加工中韻律與句法互動的事件相關(guān)電位研究.(1), 22?31.
張珊珊, 楊亦鳴. (2012). 從記憶編碼加工看人腦中的基本語言單位——一項基于單音節(jié)語言單位的 ERPs 研究.(2), 1?6.
Abboub, N., Nazzi, T., & Gervain, J. (2016). Prosodic grouping at birth., 46?59.
Ambridge, B., Kidd, E., Rowland, C. F., & Theakston, A. L. (2015). The ubiquity of frequency effects in first language acquisition.(2), 239?273.
Ambridge, B., & Lieven, E. V. M. (2011).. Cambridge: Cambridge University Press.
Aslin, R. N., Saffran, J. R., & Newport, E. L. (1998). Computation of conditional probability statistics by 8-month-old infants.(4), 321?324.
Babineau, M., Shi, R., & Achim, A. (2017). Contextual factors in lexical processing: The case of French Liaison.(4), 457?470.
Baese-Berk, M. M., Heffner, C. C., Dilley, L. C., Pitt, M. A., Morrill, T. H., & McAuley, J. D. (2014). Long-term temporal tracking of speech rate affects spoken-word recognition.(8), 1546?1553.
Bolton, T. L. (1894). Rhythm.(2), 145?238.
Bonatti, L. L., Pe?a, M., Nespor, M., & Mehler, J. (2005). Linguistic constraints on statistical computations: The role of consonants and vowels in continuous speech processing.(6), 451?459.
Brown, M., Dilley, L. C., & Tanenhaus, M. K. (2012, January).. Proceedings of theAnnual Meeting of the Cognitive Science Society. Austion, TX.
Brown, M., Salverda, A. P., Dilley, L. C., & Tanenhaus, M. K. (2015). Metrical expectations from preceding prosody influence perception of lexical stress.(2), 306?323.
Christophe, A., Peperkamp, S., Pallier, C., Block, E., & Mehler, J. (2004). Phonological phrase boundaries constrain lexical access I. Adult data.(4), 523?547.
Cole, R. A., Jakimik, J., & Cooper, W. E. (1980). Segmenting speech into words.(4), 1323?1332.
Cutler, A., & Carter, D. M. (1987). The predominance of strong initial syllables in the English vocabulary.(3?4), 133?142.
Cutler, A., & Norris, D. (1988). The role of strong syllables in segmentation for lexical access.(1), 113?121.
Cutler, A., & Otake, T. (1994). Mora or phoneme? Further evidence for language-specific listening.(6), 824?844.
De Saussure, F., & Baskin, W. (1916).. London: Duckworth.
Dilley, L. C., & McAuley, J. D. (2008). Distal prosodic context affects word segmentation and lexical processing.(3), 294?311.
Dilley, L. C., Mattys, S. L., & Vinke, L. (2010). Potent prosody: Comparing the effects of distal prosody, proximal prosody, and semantic context on word segmentation.(3), 274?294.
Dilley, L. C., & Pitt, M. A. (2010). Altering context speech rate can cause words to appear or disappear.(11), 1664?1670.
Ding, N., Lucia, M., Zhang, H., Tian, X., & Poeppel, D. (2016). Cortical tracking of hierarchical linguistic structures in connected speech.(1), 158?164.
Endress, A. D., & Mehler, J. (2009). The surprising power of statistical learning: When fragment knowledge leads to false memories of unheard words.(3), 351?367.
Estes, K. G. (2012). Infants generalize representations of statistically segmented words.(3), 447.
Erickson, L. C., Thiessen, E. D., & Estes, K. G. (2014). Statistically coherent labels facilitate categorization in 8-month-olds., 49?58.
Frost, R. L. A., Monaghan, P., & Tatsumi, T. (2017). Domain- general mechanisms for speech segmentation: The role of duration information in language learning.(3), 466?476.
Gómez, D. M., Mok, P., Ordin, M., Mehler, J., & Nespor, M. (2017). Statistical speech segmentation in tone languages: The role of lexical tones.(1), 84?96.
Gout, A., Christophe, A., & Morgan, J. L. (2004). Phonological phrase boundaries constrain lexical access II. Infant data.(4), 548?567.
Hayes, B. (1995).. Chicago: University of Chicago Press.
Heffner, C. C., Dilley, L. C., McAuley, J. D., & Pitt, M. A. (2013). When cues combine: How distal and proximal acoustic cues are integrated in word segmentation.(9), 1275?1302.
Hyman, L. M. (2009). How (not) to do phonological typology: the case of pitch-accent.(2?3), 213?238.
Jusczyk, P. W., Houston, D. M., & Newsome, M. (1999). The beginnings of word segmentation in English-learning infants.(3), 159?207.
LaCross, A., Liss, J., Barragan, B., Adams, A., Berisha, V., McAuliffe, M., & Fromont, R. (2016). The role of stress and word size in Spanish speech segmentation.(6), EL484?EL490.
Lai, W., & Dilley, L. (2016).. Proceedings of 2016 Speech Prosody, Boston, MA.
Langus, A., Seyed-Allaei, S., Uysal, E., Pirmoradian, S., Marino, C., Asaadi, S., ... Nespor, M. (2016). Listening natively across perceptual domains?.(7), 1127?1139.
Lew‐Williams, C., Pelucchi, B., & Saffran, J. R. (2011). Isolated words enhance statistical language learning in infancy.(6), 1323?1329.
Mattys, S. L. (2004). Stress versus coarticulation: Toward an integrated approach to explicit speech segmentation.(2), 397?408.
Mattys, S. L., Melhorn, J. F., & White, L. (2007). Effects of syntactic expectations on speech segmentation.(4), 960?977.
Mattys, S. L., White, L., & Melhorn, J. F. (2005). Integration of multiple speech segmentation cues: A hierarchical framework.(4), 477?500.
McQueen, J. M. (1998). Segmentation of continuous speech using phonotactics.(1), 21?46.
Newport, E. L. (2016). Statistical language learning: Computational, maturational, and linguistic constraints.(3), 447?461.
Mehler, J., Dommergues, J. Y., Frauenfelder, U., & Segui, J. (1981). The syllable's role in speech segmentation.(3), 298?305.
Morrill, T. H., Dilley, L. C., McAuley, J. D., & Pitt, M. A. (2014). Distal rhythm influences whether or not listeners hear a word in continuous speech: Support for a perceptual grouping hypothesis.(1), 69?74.
Morrill, T., Baese-Berk, M., Heffner, C., & Dilley, L. (2015). Interactions between distal speech rate, linguistic knowledge, and speech environment.(5), 1451?1457.
Norris, D., Mcqueen, J. M., & Cutler, A. (1995). Competition and segmentation in spoken-word recognition.(5), 1209?1228.
Norris, D., McQueen, J. M., Cutler, A., & Butterfield, S. (1997). The possible-word constraint in the segmentation of continuous speech.(3), 191?243.
Perruchet, P., & Poulin-Charronnat, B. (2012). Beyond transitional probability computations: Extracting word-like units when only statistical information is available.(4), 807?818.
Reinisch, E. (2016). Natural fast speech is perceived as faster than linearly time-compressed speech.(4), 1203?1217.
Roy, B. C., Frank, M. C., DeCamp, P., Miller, M., & Roy, D. (2015). Predicting the birth of a spoken word.(41), 12663?12668.
Saffran, J. R., & Kirkham, N. Z. (2018). Infant statistical learning., 181?203.
Saffran, J. R., Aslin, R. N., & Newport, E. L. (1996). Statistical learning by 8-month-old infants., 1926?1928.
Saffran, J. R., Newport, E. L., & Aslin, R. N. (1996). Word segmentation: The role of distributional cues.(4), 606?621.
Shatzman, K. B., & McQueen, J. M. (2006). Segment duration as a cue to word boundaries in spoken-word recognition.(1), 1?16.
Skoruppa, K., Nevins, A., Gillard, A., & Rosen, S. (2015). The role of vowel phonotactics in native speech segmentation., 67?76.
Steinhauer, K., Alter, K., & Friederici, A. D. (1999). Brain potentials indicate immediate use of prosodic cues in natural speech processing.(2), 191?196.
Suomi, K., McQueen, J. M., & Cutler, A. (1997). Vowel harmony and speech segmentation in Finnish.(3), 422?444.
Tremblay, A., & Spinelli, E. (2013). Segmenting liaison-initial words: The role of predictive dependencies.(8), 1093?1113.
White, L., Mattys, S. L., & Wiget, L. (2012). Segmentation cues in conversational speech: Robust semantics and fragile phonotactics., 375.
Woodrow, H. (1909).New York: Science Press.
Word segmentation cues in the process of spoken language
YU Wenbo; LIANG Dandan
(School of Chinese Language and Culture, Nanjing Normal University, Nanjing 210097, China)
Words are generally considered as the basic unit of language processing. Hence word segmentation is a vital step for language comprehension. In speech processing, cues for word segmentation may be phonological, grammatical or semantic. Phonological cues can be further classified as statistic, phonotactic and prosodic, while prosodic information involves stress, duration and pitch. Phonological cues are generally acquired at the initial stage of language learning, and they differ as the linguistic environment changes. Semantic and grammatical knowledge provide high-level cues which constrains word segmentation at later stage. It is suggested that future research focus on the trajectory of segmentation cues in a lifespan and the specificity of language in the process of word segmentation.
spoken language; word segmentation; phonology; semantics; grammar
2017-12-27
*江蘇高校優(yōu)勢學(xué)科建設(shè)工程資助項目(PAPD)資助。
梁丹丹, E-mail: ldd233@sina.com
B842
10.3724/SP.J.1042.2018.01765