劉文理 周 詳 張明亮
(1南開大學(xué)周恩來政府管理學(xué)院社會心理學(xué)系, 天津 300350) (2山東行政學(xué)院, 濟(jì)南 250014)
言語聲音知覺受到鄰近言語語境的影響。如元音?流音音節(jié)/ar/和/al/, 或者擦音/s/和/?/影響到隨后/da/-/ga/連續(xù)體的知覺(Mann, 1980; Mann & Repp,1981)。元音/i/和/u/, 或者/e/和/o/, 影響到隨后/ba/-/da/連續(xù)體的知覺(Coady, Kluender, & Rhode, 2003;Holt & Lotto, 2002)。不僅前面的言語語境影響到后面言語聲音的知覺, 后面語境也能影響到前面聲音的知覺。如元音/a/和/u/, /i/和/y/影響到前面擦音連續(xù)體/s/-/?/的知覺(Mann & Repp, 1980; Mitterer, 2006;Smits, 2001)。探討這種言語語境效應(yīng)的機(jī)制不僅有助于了解人們感知言語聲音的內(nèi)在加工過程, 也有助于語音識別工程的開展。傳統(tǒng)的語音識別模型注重單個聲音聲學(xué)線索的利用, 不關(guān)注語境如何影響到語音的識別, 這與人們識別語音的過程有很大差別(Lotto & Kluender, 1998)。如果語音識別模型能夠綜合語境效應(yīng), 可能會提高識別成績。
自從言語知覺語境效應(yīng)發(fā)現(xiàn)后, 研究者設(shè)計了大量的實驗對此進(jìn)行探討, 并提出了幾個理論模型解釋這些言語語境效應(yīng)。第一個理論是“協(xié)同發(fā)音的知覺彌補(bǔ)” (perceptual compensation for coarticulation)。這個理論認(rèn)為言語知覺內(nèi)隱的參照了言語產(chǎn)生的動作表征, 因而能夠從知覺上彌補(bǔ)相鄰音段由于協(xié)同發(fā)音所產(chǎn)生的同化效應(yīng)(Fowler, Brown, & Mann,2000; Mann, 1980)。例如, 在流音?塞音序列中, 由于音段間的協(xié)同發(fā)音, 舌根塞音/g/的發(fā)音部位在流音/l/后相比在流音/r/后會被拉的更靠前, 因為/l/與/r/相比有一個更靠前的發(fā)音部位, 這會讓/g/在發(fā)音部位和一些聲學(xué)線索上更類似于/d/。同樣, 齒齦塞音/d/的發(fā)音部位在音段/r/后會被拉的更靠后, 這讓/d/在發(fā)音部位和一些聲學(xué)特征上更類似于/g/。然而, 當(dāng)語境是/al/時被試在感知/da/-/ga/連續(xù)體時會有更多的/g/反應(yīng), 語境是/ar/時被試會有更多的/d/反應(yīng)。簡而言之, 語境讓目標(biāo)音段的發(fā)音部位偏前,被試知覺到的目標(biāo)音段發(fā)音部位就偏后, 反之亦然。因此, 知覺反應(yīng)與協(xié)同發(fā)音的影響正好相反,協(xié)同發(fā)音的影響是一種同化效應(yīng), 被試的知覺反應(yīng)似乎彌補(bǔ)了相鄰音段間協(xié)同發(fā)音的影響。一些研究者認(rèn)為這表明言語知覺參照了言語產(chǎn)生的動作表征, 從而為言語知覺的發(fā)音特征理論提供了支持,包括動覺理論(Liberman, Cooper, Shankweiler, &Studdert-Kennedy, 1967; Liberman & Mattingly, 1985)和直接知覺理論(Fowler, 1986)。動覺理論認(rèn)為語音范疇的聲學(xué)線索缺少恒常性, 恒常性只存在于音段發(fā)音的動作表征中, 言語知覺的最終目標(biāo)是言語產(chǎn)生中的動作表征, 而非聲學(xué)線索。直接知覺理論認(rèn)為言語知覺是一個生態(tài)化的過程, 語音范疇的聲學(xué)線索是近端事件, 言語的發(fā)音特征是遠(yuǎn)端事件, 遠(yuǎn)端的發(fā)音特征可以直接從近端的聲學(xué)線索中通達(dá)。
第二個理論認(rèn)為言語語境效應(yīng)只是一般的聽知覺現(xiàn)象, 可以由頻譜對比機(jī)制來解釋(Holt, Lotto,& Kluender, 2000; Lotto & Kluender, 1998)。以流音?塞音序列為例, 流音/l/有一個更高的F3(第三共振峰)終止頻率, /r/有一個更低的F3終止頻率。當(dāng)被試識別/da/-/ga/連續(xù)體刺激時, 一個有更高頻F3的刺激語境(/l/)會讓被試對高頻區(qū)產(chǎn)生適應(yīng), 敏感度下降, 而對低頻區(qū)的敏感度會提高, 這讓被試有更多的/g/反應(yīng), 因為/g/刺激有更低的F3起始頻率。同樣, 一個更低頻的F3語境(/r/)會讓被試有更多的/d/反應(yīng), 因為/d/刺激有更高的F3起始頻率。這反映了聽知覺中的一種頻譜對比效應(yīng), 是一般的知覺現(xiàn)象。Lotto和Kluender (1998)發(fā)現(xiàn)非言語的語境,如模擬流音/l/和/r/的F3過渡段的調(diào)頻正弦波滑音,或者頻率等于/l/或/r/的F3終止頻率的正弦波純音,也能影響到/da/-/ga/序列的識別, 且影響方向與言語語境/al/和/ar/一致, 符合頻譜對比效應(yīng)的預(yù)期。這為言語語境效應(yīng)只是聽覺的一般現(xiàn)象提供了證據(jù), 不管是言語語境還是非言語語境, 只要語境中提供了對比性的頻譜成分, 就能誘發(fā)這種語境效應(yīng)。
之后更多的實驗發(fā)現(xiàn)了言語和非言語聲音知覺中的這種相互影響(Coady et al., 2003; Holt, 2005, 2006;Holt et al., 2000; Lotto, Sullivan, & Holt, 2003; Stephens &Holt, 2003; Wade & Holt, 2005)。如Stephens和Holt(2003)發(fā)現(xiàn)言語語境能以對比的方式影響到后面非言語聲音的知覺。Holt (2006)發(fā)現(xiàn)言語和非言語語境能夠聯(lián)合起來以一種合作或競爭的方式影響到目標(biāo)音節(jié)的識別。這些實驗結(jié)果再次表明語境效應(yīng)并不特定于言語語境, 非言語語境也能誘發(fā)這種效應(yīng), 關(guān)鍵看語境聲音和目標(biāo)聲音是否存在對比性的頻譜特征。進(jìn)而, 聽覺理論者建議研究者應(yīng)以一般聽覺加工機(jī)制為基礎(chǔ)來理解和研究言語知覺, 言語聲音和非言語聲音知覺在很多方面具有共通性, 言語知覺沒有特殊性(Diehl, Lotto, & Holt, 2004; Holt &Lotto, 2008)。然而, 強(qiáng)調(diào)發(fā)音特征的理論者認(rèn)為盡管言語聲音和非言語聲音都能誘發(fā)類似的語境效應(yīng),二者潛在的機(jī)制并不相同:言語語境效應(yīng)表明聽者的言語知覺內(nèi)隱的參照了言語產(chǎn)生的動作表征, 是知覺對協(xié)同發(fā)音效應(yīng)的彌補(bǔ); 而非言語語境效應(yīng)只是聽覺的一種掩蔽效應(yīng)(Fowler et al., 2000;Viswanathan, Fowler, & Magnuson, 2009; Viswanathan,Magnuson, & Fowler, 2010, 2013, 2014)。
另有研究者用語音學(xué)習(xí)來解釋語境效應(yīng)(Mitterer, 2006; Smits, 2001)。以擦?元音節(jié)為實驗材料, Smits (2001)發(fā)現(xiàn)擦音連續(xù)體[?]-[s]的識別受到后面元音[y]和[i]的影響。這種效應(yīng)不能完全由元音關(guān)鍵的聲學(xué)特征(F3)來解釋, 被試給予元音的語音范疇標(biāo)簽解釋了這種效應(yīng)的大量變異, 即元音范疇的知覺影響到擦音范疇的知覺。Mitterer (2006)認(rèn)為語境效應(yīng)可能有不同的起源:對于流音?塞音序列(/r/和/l/對后面/da/-/ga/連續(xù)體識別的影響), 語境效應(yīng)可能是一般聽覺加工過程的產(chǎn)物, 如頻譜對比效應(yīng); 對于擦音?元音序列, 這種效應(yīng)主要是語音學(xué)習(xí)的結(jié)果, 聽者習(xí)得了元音范疇如何引起擦音范疇聲學(xué)模式的變化, 從而元音范疇知覺影響到前面擦音的識別。Mitterer (2006)認(rèn)為語境音和目標(biāo)音之間關(guān)鍵聲學(xué)特征的相似性是一個重要因素:對于流?塞音序列, 二者間關(guān)鍵的聲學(xué)線索(F3)處于同樣的頻率區(qū), 這為聽覺上的交互作用提供了空間,因而一般聽覺加工機(jī)制可能負(fù)責(zé)了這類語境效應(yīng);對于擦?元音序列, 擦音極點頻率和元音F3頻率間隔超過了半個八度, 沒有太多聽覺上交互作用的空間, 經(jīng)驗誘導(dǎo)的語音學(xué)習(xí)可能更關(guān)鍵一些。
以上3個理論從不同角度對言語語境效應(yīng)進(jìn)行了解釋。發(fā)音特征理論認(rèn)為言語語境效應(yīng)是聽者對言語音段間協(xié)同發(fā)音效應(yīng)知覺上的彌補(bǔ), 言語知覺以言語動作表征為參照。聽覺理論者認(rèn)為言語語境效應(yīng)可以用頻譜對比效應(yīng)進(jìn)行解釋, 只是一般知覺現(xiàn)象。另有理論強(qiáng)調(diào)語音學(xué)習(xí)在語境效應(yīng)中的作用。近年來爭論主要圍繞發(fā)音特征理論和聽覺理論展開(Fowler, 2006; Lotto & Holt, 2006; Viswanathan et al., 2010, 2013)。比較遺憾的是, 以往有關(guān)語境效應(yīng)的例子通常難以區(qū)分發(fā)音特征理論和聽覺理論的解釋力度。如以研究最多的流音?塞音語境效應(yīng)為例(/ar/和/al/對識別/da/-/ga/連續(xù)體的影響), 從發(fā)音特征理論角度看, /l/有較前的發(fā)音部位, /r/有較后的發(fā)音部位, 聽者知覺時會彌補(bǔ)語境音發(fā)音部位的協(xié)同發(fā)音效應(yīng), 因而/ar/后聽者會有更多的/da/反應(yīng)(/da/相比/ga/有更靠前的發(fā)音部位), /al/后會有更多的/ga/反應(yīng), 實驗結(jié)果與此一致。而從聽覺理論角度看, /r/有較低的F3頻譜, /l/有較高的F3頻譜, 根據(jù)頻譜對比效應(yīng)假設(shè), /ar/后聽者會有更多的/da/反應(yīng)(/da/有更高的F3起始頻率), /al/后聽者會有更多的/ga/反應(yīng)(/ga/有更低的F3起始頻率), 實驗結(jié)果也與這個假設(shè)一致。因此, 就/r/和/l/對/da/-/ga/知覺的語境效應(yīng)而言, 兩種理論都可以解釋, 難以區(qū)分。為了區(qū)分這兩個理論的解釋力度, Viswanathan等(2010)以英語和泰米爾語流音(/r/和/l/)為語境音, 考察了它們對/da/-/ga/連續(xù)體識別的影響。結(jié)果發(fā)現(xiàn)這些流音的語境效應(yīng)與發(fā)音特征理論的預(yù)期一致, 且不能由這些流音的純音模擬音進(jìn)行解釋。然而這個研究結(jié)果受到一些研究者的質(zhì)疑, Kingston及其同事(2014)認(rèn)為Viswanathan等人(2010)的研究中所使用的流音的純音模擬音是一些頻率固定的正弦波純音或純音復(fù)合音, 頻率僅等于語境音節(jié)F2、F3或F4的終止頻率, 他們并沒有分析語境音節(jié)完整的共振峰軌跡。如果純音模擬音能夠模擬語境音節(jié)關(guān)鍵的或完整的共振峰軌跡, 這些非言語模擬音也許能夠表現(xiàn)出與言語音節(jié)類似的語境效應(yīng)。如果是這樣,Viswanathan等人(2010)的研究結(jié)果也可以用聽覺理論進(jìn)行解釋。
總之, 以往研究所使用的語境效應(yīng)例子難以區(qū)分發(fā)音特征理論和聽覺理論的解釋力度。即使有研究者試圖使用新的材料考察兩個理論的解釋力, 但由于沒有全面分析語境音的聲學(xué)特征, 使用了不恰當(dāng)?shù)姆茄哉Z模擬音, 導(dǎo)致實驗結(jié)果也難以區(qū)分兩種理論的解釋力(Kingston et al., 2014; Viswanathan et al., 2010)。為了區(qū)分發(fā)音特征理論和聽覺理論對語境效應(yīng)的解釋力度, 當(dāng)前研究創(chuàng)新性的采用同一塞音/p/與3個元音結(jié)合形成的3個音節(jié)/pa/、/pi/和/pu/為語境音, /ta/-/ka/連續(xù)體為目標(biāo)音, 考察語境音對目標(biāo)音識別的影響。/pa/、/pi/和/pu/作為語境音時能夠使發(fā)音特征理論和聽覺理論分別做出不同的預(yù)期, 這樣就能根據(jù)實驗結(jié)果檢驗兩種理論的解釋力度。根據(jù)發(fā)音特征理論, 語境音節(jié)的發(fā)音部位是最關(guān)鍵的因素。3個語境音節(jié)的塞音/p/的唇音發(fā)音部位是相對恒定的, 因而塞音所產(chǎn)生的語境效應(yīng)應(yīng)該是類似的。元音的發(fā)音部位在3個音節(jié)中有差別,/i/是前元音, 有最靠前的舌位; /a/也是前元音, 但舌位相比/i/稍微靠后; /u/是后元音, 有最靠后的舌位。因此整體上來看, 音節(jié)/pi/有最靠前的舌位, 其次是/pa/, /pu/的舌位最靠后。按照協(xié)同發(fā)音的知覺彌補(bǔ)假設(shè), 語境音靠前的發(fā)音部位會讓被試感知目標(biāo)音時傾向于發(fā)音部位更靠后的語音范疇, /pi/音節(jié)做語境時被試應(yīng)該會產(chǎn)生最多的/ka/反應(yīng)(相比/ta/, /ka/的發(fā)音部位更靠后), 其次是/pa/音節(jié), /pu/音節(jié)做語境時被試的/ka/反應(yīng)最少。
根據(jù)聽覺理論, 語境音節(jié)的聲學(xué)特征是最關(guān)鍵的因素。3個語境音節(jié)和目標(biāo)音連續(xù)體的簡式語圖見圖1。塞音/p/在3個元音語境中關(guān)鍵的聲學(xué)線索差異是F2起始頻率和F2過渡段的朝向(英語塞音:Cooper, Delattre, Liberman, Borst, & Gerstman, 1952;Delattre, Liberman, & Cooper, 1955; 漢語塞音:Yan,1990)。/ta/-/ka/連續(xù)體最關(guān)鍵的聲學(xué)線索差異是F3起始頻率(從1800 Hz變化到2700 Hz, 構(gòu)成一個連續(xù)體)。對于/pa/音節(jié), F2的起始頻率是800 Hz, 之后在60 ms內(nèi)線性提高到1200 Hz。/pi/音節(jié)F2的起始頻率是1600 Hz, 之后線性提高到2400 Hz。/pu/音節(jié)F2的起始頻率是900 Hz, 然后線性下降到650 Hz。從聲學(xué)特征來看, 只有音節(jié)/pi/的F2軌跡(從1600 Hz上升到2400 Hz)與目標(biāo)音節(jié)/ka/的F3軌跡(從1800 Hz上升到2450 Hz)處于重疊的頻率區(qū), /pa/和/pu/音節(jié)的F2軌跡遠(yuǎn)離目標(biāo)音節(jié)/ta/和/ka/的F3頻率區(qū)(從1800 Hz或2700 Hz過渡到2450 Hz)。根據(jù)頻譜對比效應(yīng)的預(yù)期, /pi/音節(jié)作為語境時被試有更多的/ta/反應(yīng),因為/pi/音節(jié)的F2軌跡與目標(biāo)音節(jié)/ka/的F3軌跡重疊,被試加工語境音節(jié)/pi/后聽覺皮層對/pi/的F2軌跡產(chǎn)生適應(yīng), 導(dǎo)致被試隨后在感知/ta/-/ka/連續(xù)體時對/ka/的F3線索也不夠敏感, 因而被試會有更多的/ta/反應(yīng)。而/pa/和/pu/作為語境時會產(chǎn)生怎樣的語境效應(yīng)并不明確。除了關(guān)鍵的F2軌跡, 語境音節(jié)的F1、F3和F4頻率可能也會影響到/ta/-/ka/連續(xù)體的知覺。3個語境音節(jié)的F1軌跡類似, 都處于低頻區(qū)。這些低頻的聲學(xué)線索要么對/ta/-/ka/連續(xù)體的知覺沒有影響, 即使有影響, 它們的影響應(yīng)該類似。3個語境音節(jié)的F3和F4頻率是穩(wěn)態(tài)的, 都處于同樣的高頻區(qū), 包括接近2450 Hz的頻率波段(/pi/音節(jié)的F2穩(wěn)態(tài)頻率值是2400 Hz)和等于或高于3000 Hz的頻率波段。因而, 與低頻區(qū)的聲學(xué)線索類似, 這些高頻區(qū)的聲學(xué)線索要么對目標(biāo)音節(jié)的知覺沒有影響, 即使有影響, 它們的影響應(yīng)該類似。綜上, 3個語境音節(jié)關(guān)鍵的聲學(xué)線索差異就是F2軌跡, 按照頻譜對比效應(yīng)假設(shè)的預(yù)期, /pi/音節(jié)作為語境會導(dǎo)致被試有更少的/ka/反應(yīng), /pa/和/pu/作為語境其效應(yīng)并不明確。
圖1 語境音節(jié)和目標(biāo)音節(jié)4個共振峰軌跡的簡式語圖
由此, 以/pa/、/pi/和/pu/作為語境音時, 發(fā)音特征理論和聽覺理論做出了不同的預(yù)期。發(fā)音特征理論預(yù)期/pi/語境會導(dǎo)致被試產(chǎn)生最多的/ka/反應(yīng), 其次是/pa/語境, /pu/語境會產(chǎn)生最少的/ka/反應(yīng)。而根據(jù)聽覺理論, /pi/語境會導(dǎo)致被試有最少的/ka/反應(yīng),/pa/和/pu/語境的效應(yīng)不明確, 可能不會影響到/ta/-/ka/連續(xù)體的識別。實驗1將以/pa/、/pi/和/pu/作為語境音, /ta/-/ka/連續(xù)體作為目標(biāo)音, 直接考察哪種理論與實驗結(jié)果更吻合。
發(fā)音特征理論與聽覺理論爭論的另一個焦點是非言語聲音的語境效應(yīng)問題。聽覺理論認(rèn)為言語聲音的語境效應(yīng)可以由這些言語聲音關(guān)鍵聲學(xué)線索的非言語模擬音進(jìn)行模擬, 二者有相同的機(jī)制。但是發(fā)音特征理論者認(rèn)為非言語聲音的語境效應(yīng)與言語聲音的語境效應(yīng)潛在機(jī)制不同, 前者是一種聽覺掩蔽效應(yīng)。進(jìn)而, Viswanathan等人(2010)的研究表明流音對塞音連續(xù)體識別的語境效應(yīng)不能由流音的非言語模擬音進(jìn)行解釋, 但是這個研究沒有全面分析語境音的聲學(xué)特征, 使用的非言語模擬音只關(guān)注流音幾個共振峰的終止頻率, 這受到了后來研究者的質(zhì)疑(Kingston et al., 2014)。當(dāng)前研究在全面分析語境音聲學(xué)特征的基礎(chǔ)上, 在實驗2和實驗3中采用合適的非言語模擬音, 考察實驗1中3個語境音節(jié)所表現(xiàn)出的語境效應(yīng)是否能由非言語聲音進(jìn)行模擬。實驗2的語境音是實驗1中3個語境音節(jié)的F2軌跡的純音模擬音。3個語境音節(jié)關(guān)鍵的聲學(xué)線索差異即是F2軌跡, 實驗2的目的是考察3個音節(jié)的F2模擬音對/ta/-/ka/連續(xù)體識別的影響是否與3個語境音節(jié)一致, 即3個音節(jié)的語境效應(yīng)差異是否能由關(guān)鍵的聲學(xué)線索差異來解釋, 如果二者的效應(yīng)一致, 則為基于聲學(xué)線索分析語境效應(yīng)的聽覺理論提供了進(jìn)一步支持。如果二者不一致, 則表明3個音節(jié)的語境效應(yīng)差異不是由關(guān)鍵的聲學(xué)線索差異(F2軌跡)引起的, 聽覺理論的觀點會受到質(zhì)疑。但是實驗2的非言語聲音只模擬了實驗1中3個語境音節(jié)的F2軌跡, 沒有考慮其它的聲學(xué)線索。事實上3個語境音節(jié)其它聲學(xué)線索(F1、F3和F4)也存在細(xì)微的差異。如果實驗1和實驗2的結(jié)果不完全一致,也可能是由于語境音節(jié)其它線索存在差異引起的。實驗3的目的是考察這種可能性。實驗3使用的非言語聲音模擬了3個語境音節(jié)所有的共振峰軌跡,即使用正弦波言語(采用正弦波純音模擬言語聲音所有的聲學(xué)線索)作為語境音。通過對實驗1三個語境音節(jié)所有聲學(xué)線索的非言語模擬, 可以進(jìn)一步考察實驗1三個音節(jié)語境效應(yīng)差異是否由于聲學(xué)線索差異引起的, 特別是除F2軌跡之外的其它聲學(xué)線索的作用。
實驗1的語境音是3個塞?元音節(jié)/pa/、/pi/和/pu/, 目標(biāo)音是/ta/-/ka/連續(xù)體。發(fā)音特征理論預(yù)期/pi/語境會導(dǎo)致被試產(chǎn)生最多的/ka/反應(yīng), 其次是/pa/語境, /pu/語境會產(chǎn)生最少的/ka/反應(yīng)。聽覺理論預(yù)期/pi/語境會導(dǎo)致被試有最少的/ka/反應(yīng), /pa/和/pu/語境的效應(yīng)不明確, 可能不會影響到/ta/-/ka/連續(xù)體的識別。實驗1的目的是考察哪種理論能夠更好的解釋當(dāng)前實驗的結(jié)果。
30名南開大學(xué)本科生參加了實驗1, 被試母語為漢語, 男女被試各半, 平均年齡21.2歲。被試的視力或矯正視力正常, 聽力正常。實驗后付給報酬。
語境音節(jié)和目標(biāo)音節(jié)都使用Klatt合成器合成,刺激時長250 ms。語境音節(jié)的合成參數(shù)見表1。每個語境音節(jié)都由一個60 ms的共振峰過渡段和一個190 ms的穩(wěn)態(tài)部分組成。F1和F2頻率在最初60 ms內(nèi)由起始頻率線性上升或下降到穩(wěn)態(tài)頻率, 之后頻率維持恒定。F3和F4頻率一直維持穩(wěn)態(tài)。基頻(F0)在整個音節(jié)時長內(nèi)由130 Hz線性下降為120 Hz。目標(biāo)音節(jié)是由10個刺激組成的/ta/-/ka/連續(xù)體, 通過變化F3起始頻率合成。F3起始頻率以100 Hz為步長從1800 Hz變化到2700 Hz構(gòu)成連續(xù)體上的10個刺激。最初80 ms的共振峰過渡段之后, F3頻率抵達(dá)2450 Hz的穩(wěn)態(tài)值。F1頻率在80 ms的過渡段內(nèi)從350 Hz上升到750 Hz, 之后170 ms維持穩(wěn)態(tài)。F2頻率在80 ms過渡段內(nèi)從1650 Hz下降到1200 Hz, 之后維持穩(wěn)態(tài)。F4頻率固定在2850 Hz。/ta/-/ka/序列刺激的F0曲線與語境音節(jié)完全一致。語境音節(jié)和目標(biāo)音節(jié)都以16 bit分辨率和10 kHz抽樣率進(jìn)行合成。每個音節(jié)的平均RMS (root mean square)能量相等。將3個語境音節(jié)和/ta/-/ka/連續(xù)體上的10個目標(biāo)音節(jié)進(jìn)行拼接, 共構(gòu)成30個刺激項目, 語境音節(jié)和目標(biāo)音節(jié)間間隔50 ms。
表1 實驗1語境音節(jié)的合成參數(shù)(Hz)
實驗1包括4個實驗條件。被試首先完成一個基線條件, 基線條件下僅呈現(xiàn)/ta/-/ka/連續(xù)體上的10個目標(biāo)音節(jié), 每個音節(jié)呈現(xiàn)10次, 要求被試識別所呈現(xiàn)的刺激是/ta/還是/ka/。正式識別前被試先進(jìn)行一個簡短的練習(xí), 兩個端點刺激(最清晰的/ta/和/ka/)每個呈現(xiàn)10次要求被試進(jìn)行識別。實驗程序及刺激呈現(xiàn)皆由praat軟件完成?;境绦蛉缦拢菏紫瘸尸F(xiàn)指導(dǎo)語, 被試點擊鼠標(biāo)實驗開始, 屏幕上呈現(xiàn)左右兩個黃色方框, 一個方框內(nèi)標(biāo)有“da”, 另一個方框內(nèi)標(biāo)有“ga” (此處用漢語拼音代替音標(biāo)進(jìn)行標(biāo)示, 因為被試對漢語拼音非常熟悉, 通常不熟悉音標(biāo)標(biāo)音法)。之后聲音刺激依次呈現(xiàn)(呈現(xiàn)順序隨機(jī)), 每個刺激呈現(xiàn)后, 被試判斷該刺激是“da”還是“ga”, 用鼠標(biāo)點擊相應(yīng)的黃色框進(jìn)行反應(yīng), 被試反應(yīng)不限時。反應(yīng)后間隔2s呈現(xiàn)下一個刺激。
基線條件之后, 被試完成3個有語境音節(jié)(/pa/、/pi/和/pu/)的識別條件, 3個條件的順序在被試之間進(jìn)行了平衡。每個條件下被試首先完成練習(xí), 語境音節(jié)與兩個端點刺激結(jié)合每個呈現(xiàn)10次構(gòu)成練習(xí)項目。正式識別任務(wù)語境音節(jié)與/ta/-/ka/連續(xù)體上的10個刺激結(jié)合每個呈現(xiàn)10次(每個語境音節(jié)100個項目)。帶有語境音的識別條件與基線條件的程序基本相同:首先呈現(xiàn)指導(dǎo)語, 指導(dǎo)語要求被試識別語境音后面的刺激是“da”還是“ga”。被試點擊鼠標(biāo)任務(wù)開始, 聲音刺激按隨機(jī)順序依次呈現(xiàn)(每個刺激都由語境音與目標(biāo)音構(gòu)成, 二者間間隔50 ms)。被試用鼠標(biāo)點擊標(biāo)有“da”或“ga”的方框進(jìn)行反應(yīng)。反應(yīng)后間隔2s呈現(xiàn)下一個刺激。最后在基線條件和3個語境條件之間還有一個簡短的識別任務(wù)。3個語境音節(jié)每個呈現(xiàn)10次要求被試進(jìn)行識別, 被試用鼠標(biāo)點擊標(biāo)有“ba”、“bi”和“bu”的方框進(jìn)行反應(yīng)。
實驗在安靜的實驗室里進(jìn)行, 被試個別施測。刺激通過封閉式耳機(jī)(Sennheiser PX360)呈現(xiàn), 音量調(diào)整到舒適的水平。整個實驗約持續(xù)45 min。
圖2 基線(baseline)和3個語境條件(/pa/、/pi/和/pu/)下被試在/ta/-/ka/連續(xù)體上各刺激平均的“ga”反應(yīng)比率
聽覺理論的頻譜對比效應(yīng)預(yù)期/pi/音節(jié)作為語境時被試會有最少的“ga”反應(yīng), 最多的“da”反應(yīng),因為/pi/與端點刺激/ta/有對比性的頻譜成分; /pa/和/pu/做語境時語境效應(yīng)方向并不明確。而發(fā)音特征理論預(yù)期/pi/音節(jié)做語境時被試會有最多的“ga”反應(yīng),其次是/pa/音節(jié), /pu/音節(jié)會產(chǎn)生最少的“ga”反應(yīng)。
實驗1的結(jié)果表明/pi/音節(jié)作為語境時產(chǎn)生了最少的“ga”反應(yīng), 在刺激1~2上的“ga”反應(yīng)顯著的少于/pu/語境條件, 在刺激2上的“ga”反應(yīng)與/pa/語境條件差異邊緣顯著。/pa/語境產(chǎn)生的“ga”反應(yīng)數(shù)量居中,與基線條件沒有顯著差異。音節(jié)/pu/充當(dāng)語境時被試有最多的“ga”反應(yīng), 除在刺激1~3上多于/pi/語境外, 在刺激1和3上也多于基線條件。實驗結(jié)果與聽覺理論的預(yù)期更為一致, 與發(fā)音特征理論的預(yù)期幾乎相反。聽覺理論的頻譜對比效應(yīng)預(yù)期/pi/語境會產(chǎn)生最少的/ka/反應(yīng), 這與實驗結(jié)果相吻合。另外實驗結(jié)果發(fā)現(xiàn)/pa/和/pu/語境也影響到/ta/-/ka/連續(xù)體的識別, 二者都導(dǎo)致被試有更多的/ka/反應(yīng), /pu/語境下被試的/ka/反應(yīng)比率甚至顯著高于基線條件。頻譜對比效應(yīng)假設(shè)難以解釋這種現(xiàn)象, 這與Mitterer (2006)的觀點也不一致。Mitterer (2006)認(rèn)為只有語境音與目標(biāo)音共享關(guān)鍵的聲學(xué)特征, 二者才有聽覺交互作用的可能。但是音節(jié)/pa/和/pu/與目標(biāo)音節(jié)并不共享關(guān)鍵的聲學(xué)特征, 它們?nèi)匀挥绊懙?ta/-/ka/連續(xù)體的識別。3個語境音節(jié)這種語境效應(yīng)模式能由關(guān)鍵的聲學(xué)線索差異(F2軌跡)來解釋嗎?實驗2用非言語聲音模擬了3個語境音節(jié)的F2軌跡, 目的是考察3個非言語聲音的效應(yīng)模式與3個語境音節(jié)的效應(yīng)模式是否一致。
實驗2的語境聲音是3個非言語聲音, 分別模擬了實驗1三個音節(jié)/pa/、/pi/和/pu/的F2軌跡。實驗2的目的是考察實驗1中3個音節(jié)的語境效應(yīng)差異是否源于關(guān)鍵聲學(xué)線索(F2軌跡)的差異:如果3個音節(jié)的語境效應(yīng)差異源于關(guān)鍵聲學(xué)線索的差異, 那么3個非言語聲音的語境效應(yīng)模式應(yīng)該與3個音節(jié)一致;如果3個非言語聲音的語境效應(yīng)與3個言語聲音的語境效應(yīng)不一致, 則說明實驗1中3個音節(jié)的語境效應(yīng)差異不是由關(guān)鍵聲學(xué)線索差異引起的, 可能存在其它的原因。
南開大學(xué)26名本科生參加了實驗2, 被試母語為漢語, 男女被試各半, 平均年齡20.8歲, 所有人都沒有參加實驗1。被試的視力或矯正視力正常,聽力正常。實驗后付給報酬。
3個非言語聲音分別模擬了音節(jié)/pa/、/pi/和/pu/的F2軌跡。每個非言語聲音都包括一個60 ms的調(diào)頻正弦波滑音(模擬共振峰過渡段)和一個190 ms的頻率恒定的正弦波純音(模擬穩(wěn)態(tài)頻率段)。對于音節(jié)/pa/的F2模擬音, 起始60 ms滑音段的頻率從800 Hz線性提高至1200 Hz, 之后190 ms的純音段頻率穩(wěn)定在1200 Hz。對于音節(jié)/pi/的F2模擬音, 起始60 ms滑音段的頻率從1600 Hz線性提高至2400 Hz,之后190 ms的純音段頻率固定在2400 Hz。音節(jié)/pu/的F2模擬音起始60 ms滑音段的頻率從900 Hz線性下降到650 Hz, 之后190 ms純音段頻率穩(wěn)定在650 Hz。目標(biāo)音節(jié)同實驗1。3個F2模擬音的抽樣率和分辨率同言語語境。非言語聲音和言語聲音的RMS能量相互匹配。將3個F2模擬音分別與/ta/-/ka/連續(xù)體上的10個刺激進(jìn)行拼接, 構(gòu)成30個刺激項目, 語境聲音和目標(biāo)音節(jié)間間隔50 ms。3個非言語F2模擬音和目標(biāo)音節(jié)的簡式語圖見圖3。
被試首先完成基線條件, 基線條件僅呈現(xiàn)/ta/-/ka/連續(xù)體上的10個刺激, 要求被試進(jìn)行識別。練習(xí)和正式識別的程序同實驗1。接下來被試完成3個帶語境音的識別條件, 3個條件之間的順序在被試間進(jìn)行平衡。每個條件下練習(xí)和正式識別程序同實驗1。整個實驗約持續(xù)40 min。
圖3 三個非言語F2模擬音(左側(cè))和/ta/-/ka/連續(xù)體(右側(cè))的簡式語圖
圖4 基線和3個F2模擬音條件下被試在/ta/-/ka/連續(xù)體10個刺激上平均的“ga”反應(yīng)比率
實驗2結(jié)果分析表明/pa/的F2模擬音誘發(fā)了最多的“ga”反應(yīng):在刺激1、2和5上的“ga”反應(yīng)顯著的多于基線條件, 在刺激1-5上的“ga”反應(yīng)顯著的多于/pi/-F2條件。/pu/的F2模擬音誘發(fā)了第二多的“ga”反應(yīng):在刺激4-5上的“ga”反應(yīng)顯著的多于/pi/-F2條件。/pi/的F2模擬音產(chǎn)生了最少的“ga”反應(yīng), 在刺激5上的“ga”反應(yīng)甚至顯著的少于基線條件。
實驗2與實驗1的結(jié)果總體上很相似, /pi/和/pi/的F2模擬音作為語境音被試都有最少的“ga”反應(yīng),/pa/和/pu/及它們的F2模擬音做語境時被試都產(chǎn)生了更多的“ga”反應(yīng)。這表明音節(jié)/pa/、/pi/和/pu/之間的語境效應(yīng)差異很大程度上源于關(guān)鍵聲學(xué)線索的差異, 即3個音節(jié)F2軌跡的差異, 這為基于聲學(xué)線索分析語境效應(yīng)的聽覺理論提供了進(jìn)一步的支持。實驗2的結(jié)果也再次表明與目標(biāo)音節(jié)關(guān)鍵聲學(xué)特征間隔較遠(yuǎn)頻率區(qū)的聲學(xué)線索也能影響到目標(biāo)音節(jié)的識別:/pa/和/pu/的F2模擬音所產(chǎn)生的“ga”反應(yīng)顯著的多于/pi/-F2條件, /pa/的F2模擬音所產(chǎn)生的“ga”反應(yīng)也顯著的多于基線條件。
盡管實驗1和實驗2的結(jié)果整體上比較類似,二者之間也存在細(xì)微的差異。一個差異是/pa/、/pi/和/pu/三個音節(jié)的語境效應(yīng)要小于它們的F2模擬音。另一個差異是在實驗1中, /pu/音節(jié)誘發(fā)了最多的“ga”反應(yīng), 但在實驗2中/pa/音節(jié)的F2模擬音誘發(fā)了最多的“ga”反應(yīng)。因此實驗1和實驗2的結(jié)果不完全一致。有兩個可能的原因?qū)е铝诉@種差異。一個原因是語境音節(jié)中其它聲學(xué)線索的存在導(dǎo)致了實驗1和實驗2結(jié)果的差異。因為實驗2的非言語聲音只模擬了語境音節(jié)的F2軌跡, 并沒有考慮其它的聲學(xué)線索。雖然語境音節(jié)除F2軌跡之外的其它聲學(xué)線索(F1、F3和F4軌跡)大體上是匹配的, 但并沒有絕對的匹配, 這些其它聲學(xué)線索的差異可能導(dǎo)致了3個音節(jié)和其F2模擬音的語境效應(yīng)存在一些差異。另一個可能是語境音節(jié)的語音范疇標(biāo)簽導(dǎo)致實驗1和實驗2的結(jié)果存在差異。實驗1的3個語境音節(jié)除聲學(xué)線索差異外, 還可以分別感知為/pa/、/pi/和/pu/三個言語聲音, 既有相同的/p/范疇, 也有不同的3個元音范疇/a/、/i/和/u/。而實驗2的3個非言語聲音只是一些聲學(xué)線索, 不能感知為語音范疇,即缺少語音標(biāo)簽, 這也可能是實驗1和實驗2的結(jié)果存在差異的原因。
實驗3的目的是進(jìn)一步考察實驗1和實驗2結(jié)果存在差異的原因, 更深入的揭示實驗1的塞?元?塞音序列語境效應(yīng)的來源和潛在機(jī)制。實驗3的語境聲音仍然采用3個非言語聲音, 但這3個非言語聲音模擬了實驗1三個音節(jié)的全部聲學(xué)線索, 即使用正弦波純音模擬言語聲音的全部共振峰軌跡。這屬于一種正弦波言語, 正弦波言語在沒有指導(dǎo)的時候被試很難將之感知為言語, 特別是單音節(jié)的聲音(Remez, Rubin, Pisoni, & Carrell, 1981)。通過使用正弦波言語, 實驗1和實驗3的語境聲音在聲學(xué)線索方面匹配的更全面, 如果實驗2與實驗1的結(jié)果差異是由于其它聲學(xué)線索差異引起的, 我們預(yù)期實驗3的正弦波言語將展現(xiàn)出與實驗1的言語聲音類似的語境效應(yīng)。如果實驗2與實驗1的結(jié)果差異不是由于其它聲學(xué)線索差異引起的, 我們預(yù)期實驗3與實驗1的語境效應(yīng)仍然會存在差異, 實驗1中3個音節(jié)的語境效應(yīng)差異可能部分的起源于語音范疇感知的影響。
實驗3以3個音節(jié)/pa/、/pi/和/pu/的正弦波言語為語境音, 目的是進(jìn)一步考察除關(guān)鍵聲學(xué)線索F2之外的其它聲學(xué)線索在3個音節(jié)語境效應(yīng)差異中所起到的作用。如果其它聲學(xué)線索是實驗1和實驗2語境效應(yīng)差異的來源, 我們預(yù)期實驗3會表現(xiàn)出與實驗1相同的語境效應(yīng)模式。否則, 實驗1的語境效應(yīng)差異可能有其它的原因, 如語音范疇感知的影響。
21名南開大學(xué)學(xué)生(男生11名)參加了實驗3, 被試母語為漢語, 平均年齡23.8歲, 所有被試都沒有參加實驗1和2。被試視力或矯正視力正常, 聽力正常。實驗后付給報酬。
實驗3的語境刺激是音節(jié)/pa/、/pi/和/pu/的正弦波言語。正弦波言語模擬了3個言語音節(jié)所有的共振峰軌跡(見圖1)。3個音節(jié)的共振峰過渡段(包括前60 ms的F1和F2過渡段)采用調(diào)頻的正弦波滑音進(jìn)行模擬, 共振峰穩(wěn)態(tài)部分(包括F1和F2的穩(wěn)態(tài)部分, 以及F3和F4)采用頻率恒定的正弦波純音進(jìn)行模擬。模擬后的正弦波言語的簡要語圖見圖1。目標(biāo)刺激仍然是/ta/-/ka/連續(xù)體。所有刺激的抽樣率、分辨率及RMS能量都互相匹配。3個語境音分別與/ta/-/ka/連續(xù)體上的10個刺激進(jìn)行拼接, 構(gòu)成30個刺激項目, 語境聲音和目標(biāo)音節(jié)間間隔50 ms。
被試首先完成基線條件?;€條件僅呈現(xiàn)10個目標(biāo)刺激, 每個呈現(xiàn)10次要求被試進(jìn)行識別。正式測試前先進(jìn)行練習(xí)。練習(xí)和正式識別程序同實驗1?;€條件后被試完成3個帶語境音的識別條件, 3個條件的測試順序在被試間進(jìn)行了平衡。每個條件下練習(xí)和正式識別程序同實驗1。整個實驗約持續(xù)40 min。
實驗3的結(jié)果分析表明/pa/-SWS條件下被試產(chǎn)生了最多的“ga”反應(yīng), 在刺激5~7以及刺激9上顯著的多于/pi/-SWS條件, 在刺激5上顯著的高于/pu/-SWS條件, 在刺激9上顯著的高于基線條件。/pu/-SWS和基線條件下被試產(chǎn)生的“ga”反應(yīng)數(shù)量居中, 二者無顯著差異。/pi/-SWS條件下被試產(chǎn)生了最少的“ga”反應(yīng), 但與/pu/-SWS和基線條件下的差異沒有達(dá)到統(tǒng)計上的顯著水平。
圖5 基線條件及3個正弦波言語條件下被試在/ta/-/ka/連續(xù)體各刺激上平均的“ga”反應(yīng)百分比
實驗3的結(jié)果整體上與實驗2非常類似, 都是/pa/的模擬音條件下被試產(chǎn)生了最多的“ga”反應(yīng), 其次是/pu/的模擬音條件, /pi/的模擬音條件被試產(chǎn)生了最少的“ga”反應(yīng)。實驗3以正弦波言語為語境音, 正弦波言語模擬了實驗1中3個語境音節(jié)的全部共振峰軌跡, 只是被試不能將之感知為言語。但是實驗結(jié)果發(fā)現(xiàn)3個正弦波言語所產(chǎn)生的語境效應(yīng)與只模擬3個音節(jié)F2軌跡的非言語聲音所產(chǎn)生的語境效應(yīng)類似。這表明3個正弦波言語的語境效應(yīng)差異應(yīng)該主要源于它們的F2軌跡差異。這是可能的, 雖然3個正弦波言語除F2之外的其它共振峰模式存在細(xì)微差異,但它們總體上是匹配的, 如F1軌跡都處于低頻區(qū), F3和F4都處于高頻區(qū)(見圖1), 它們對/ta/-/ka/連續(xù)體知覺的影響在3個正弦波言語中應(yīng)該是類似的。因此3個正弦波言語的語境效應(yīng)差異還是源于它們最關(guān)鍵的聲學(xué)線索差異, 即F2軌跡。這也導(dǎo)致實驗3和實驗2的結(jié)果總體上非常相似。
3個正弦波言語與3個音節(jié)整體的聲學(xué)線索是互相匹配的, 但實驗3的語境效應(yīng)模式仍然與實驗1存在差別。這表明實驗1中3個音節(jié)的語境效應(yīng)模式不完全是由于它們的聲學(xué)線索差異引起的, 也表明實驗1和實驗2的語境效應(yīng)差異不是由于其它聲學(xué)線索(F1、F3和F4)差異引起的。實驗2和實驗3所使用的非言語聲音與實驗1的言語音節(jié)最重要的一個差別就是能否感知為語音。即使實驗3的正弦波言語模擬了言語音節(jié)所有的共振峰軌跡, 但是仍然不能感知為言語。由此實驗1中3個音節(jié)所表現(xiàn)出的語境效應(yīng)模式至少部分的源于它們的語音范疇感知, 特別是與實驗2和實驗3的結(jié)果存在差別的部分。實驗1與后面兩個實驗結(jié)果存在差別的地方主要有兩點。一是/pa/、/pi/和/pu/三個音節(jié)的語境效應(yīng)要小于它們的F2模擬音和正弦波言語所產(chǎn)生的語境效應(yīng), 方差分析發(fā)現(xiàn)3個音節(jié)的F2模擬音及正弦波言語條件下的語境主效應(yīng)都顯著, 而3個音節(jié)的語境主效應(yīng)沒有達(dá)到顯著。這可能由于3個音節(jié)有共同的塞音范疇感知, 盡管塞音/p/在3個音節(jié)中的聲學(xué)線索有差異, 但它們都能被感知為/p/。這種共同的語音范疇標(biāo)簽可能降低了聲學(xué)線索差異所驅(qū)動的語境效應(yīng)。而它們的F2模擬音和正弦波言語沒有共同的語音范疇標(biāo)簽, 可能更能展現(xiàn)出聲學(xué)線索差異所引起的語境效應(yīng)。第二個差別是實驗1中/pu/音節(jié)誘發(fā)了最多的“ga”反應(yīng), 但在實驗2和實驗3中/pa/音節(jié)的非言語模擬音誘發(fā)了最多的“ga”反應(yīng)。這可能由于3個音節(jié)中元音范疇感知差異引起的, 元音/u/是圓唇元音, 而/a/和/i/是非圓唇元音,圓唇能夠降低聲學(xué)線索中F2的頻率, 可能對后面/ta/-/ka/連續(xù)體的知覺產(chǎn)生影響, 導(dǎo)致/pu/語境產(chǎn)生了最多的“ga”反應(yīng)。而實驗2和實驗3的非言語模擬音缺少語音范疇感知, 因此沒有表現(xiàn)出這種模式。
當(dāng)前研究通過3個實驗考察了漢語塞?元?塞音序列語境效應(yīng)的潛在機(jī)制, 探討了聽覺理論和發(fā)音特征理論對言語語境效應(yīng)的解釋力度。實驗1以3個塞?元音節(jié)/pa/、/pi/和/pu/為語境音, /ta/-/ka/連續(xù)體為目標(biāo)音。通過對3個音節(jié)發(fā)音部位的分析, 發(fā)音特征理論預(yù)期被試“ga”反應(yīng)比率在/pi/語境下最大, 其次是/pa/語境, /pu/語境下最小。而根據(jù)3個音節(jié)的聲學(xué)特征, 聽覺理論(頻譜對比效應(yīng))預(yù)期/pi/語境下被試的/ga/反應(yīng)最少, /pa/和/pu/語境的效應(yīng)方向不明確。實驗結(jié)果發(fā)現(xiàn)/pi/語境下被試產(chǎn)生了最少的“ga”反應(yīng), 其次是/pa/語境, /pu/語境下被試產(chǎn)生了最多的“ga”反應(yīng)。這與聽覺理論的預(yù)期更一致, 與發(fā)音特征理論的預(yù)期相反。但是聽覺理論主要基于頻譜對比效應(yīng)做出預(yù)期, 這正確的預(yù)測了/pi/語境的效應(yīng)方向, 不能解釋/pa/和/pu/及其非言語模擬音的語境效應(yīng), 這在后面會進(jìn)一步討論。鑒于3個音節(jié)主要的聲學(xué)線索差異是它們的F2軌跡,它們的語境效應(yīng)差異是源于這種關(guān)鍵聲學(xué)線索的差異嗎?實驗2以實驗1三個音節(jié)F2軌跡的非言語模擬音為語境音, 考察了這種可能性。結(jié)果發(fā)現(xiàn)/pa/的F2模擬音產(chǎn)生了最多的“ga”反應(yīng), 其次是/pu/的F2模擬音, /pi/的F2模擬音產(chǎn)生了最少的“ga”反應(yīng)。這與實驗1的結(jié)果整體上是一致的, 表明/pa/、/pi/和/pu/三個音節(jié)語境效應(yīng)差異主要源于它們關(guān)鍵的聲學(xué)線索差異, 即第二共振峰(F2)模式的差異。這為基于聲學(xué)線索分析和解釋語境效應(yīng)的聽覺理論提供了進(jìn)一步的支持。
除了總體上的相似性, 實驗1和實驗2的結(jié)果也存在一些差異, 包括實驗1的語境效應(yīng)更小、/pu/語境有最多的“ga”反應(yīng), 而實驗2語境效應(yīng)更大,/pa/音節(jié)的F2模擬音有最多的“ga”反應(yīng)。這表明雖然實驗1三個音節(jié)的語境效應(yīng)主要源于它們F2軌跡的差異, 但F2軌跡差異不能完全解釋3個音節(jié)的語境效應(yīng)模式。3個音節(jié)的語境效應(yīng)差異應(yīng)該還有其它的原因。比較實驗1和實驗2的語境刺激, 主要有兩個差別, 一是3個音節(jié)還包括除F2之外的其它共振峰線索, 這些共振峰所處的頻率區(qū)雖然在3個音節(jié)中總體上是匹配的, 但是還存在細(xì)微的差別, 有可能是這些非關(guān)鍵的共振峰軌跡導(dǎo)致了實驗1和實驗2語境效應(yīng)的差別。另一個區(qū)別是實驗1是言語語境, 可感知為語音范疇, 而實驗2是非言語語境, 無法感知為語音范疇。這可能也是實驗1和實驗2語境效應(yīng)差異的一個來源。實驗3對這兩種解釋進(jìn)行了考察, 實驗3的語境音是3個音節(jié)的正弦波言語, 正弦波言語模擬了3個音節(jié)所有的共振峰軌跡,這樣實驗1和實驗3的語境音在聲學(xué)線索上是匹配的,二者主要的差別是實驗1的語境音可感知為言語,而實驗3的語境音很難感知為言語。如果實驗1和實驗2的語境效應(yīng)差別是因為實驗1的語境音中其它聲學(xué)線索的存在, 那么聲學(xué)線索匹配后實驗1和實驗3的語境效應(yīng)應(yīng)該更類似。實驗3的結(jié)果分析表明/pa/的正弦波言語產(chǎn)生了最多的“ga”反應(yīng), 其次是/pu/的正弦波言語, /pi/的正弦波言語產(chǎn)生了最少的“ga”反應(yīng)。這與實驗2的結(jié)果類似, 與實驗1的結(jié)果仍然存在差異。這表明實驗1與實驗2及實驗3的語境效應(yīng)差異不是由于其它聲學(xué)線索的作用,更可能是由于實驗1的語境音能夠感知為語音范疇。語音范疇感知對3個音節(jié)的語境效應(yīng)產(chǎn)生了一定的影響, 導(dǎo)致實驗1的語境效應(yīng)模式和后面兩個實驗存在一些差別。
綜上, 3個實驗結(jié)果表明當(dāng)前研究中的漢語塞?元?塞音序列語境效應(yīng)差異主要起源于語境音關(guān)鍵聲學(xué)線索的差異, 但是語境音的語音范疇感知也能調(diào)節(jié)它們的語境效應(yīng)表現(xiàn)??傮w上, 實驗結(jié)果為基于聲學(xué)線索分析語境效應(yīng)的聽覺理論提供了支持。但是聽覺理論忽視了語音范疇感知對語境效應(yīng)的影響, 當(dāng)前實驗結(jié)果對聽覺理論觀點是一個補(bǔ)充, 語境音的語音范疇也能一定程度上影響到它們的語境效應(yīng)模式。事實上, 一些研究者認(rèn)為語音學(xué)習(xí)和語音范疇感知是語境效應(yīng)的一個重要來源(Mitterer,2006; Smits, 2001)。實驗結(jié)果沒有支持基于發(fā)音部位分析語境效應(yīng)的發(fā)音特征理論, 即語境效應(yīng)可能不是由于協(xié)同發(fā)音的知覺彌補(bǔ), 更多的是由于聽者對語境音中聲學(xué)線索的聽覺加工及語音范疇感知影響到后面目標(biāo)音的知覺和識別。
當(dāng)前實驗結(jié)果對聽覺理論的另一個重要補(bǔ)充是聲學(xué)線索產(chǎn)生語境效應(yīng)的模式不僅僅是頻譜對比效應(yīng)。聽覺理論者主要依據(jù)頻譜對比效應(yīng)解釋言語和非言語聲音的語境效應(yīng)。頻譜對比效應(yīng)假設(shè)認(rèn)為存在對比性頻譜成分的語境聲音能以對比的方式影響到目標(biāo)音節(jié)的識別, 潛在機(jī)制可能是語境音中關(guān)鍵頻譜成分的激活導(dǎo)致聽覺皮層加工的適應(yīng), 這種適應(yīng)會使得目標(biāo)音節(jié)中與語境音相同的頻譜成分激活下降,因而被試會更多的以具有對比性頻譜成分的范疇進(jìn)行反應(yīng)(Holt, 2006; Holt & Lotto, 2002; Holt et al.,2000; Lotto & Kluender, 1998)。如當(dāng)前研究中語境音節(jié)/pi/的F2軌跡與目標(biāo)音節(jié)/ka/的F3軌跡幾乎重疊(具體分析見前言與圖1), 按照頻譜對比效應(yīng)的預(yù)期,被試加工語境音節(jié)/pi/后聽覺皮層對/pi/的F2軌跡產(chǎn)生適應(yīng), 導(dǎo)致被試隨后在感知/ta/-/ka/連續(xù)體時對/ka/的F3線索也不夠敏感, 因而被試會更多的以/ta/進(jìn)行反應(yīng)。這個理論正確的預(yù)期了/pi/音節(jié)及其非言語模擬音所產(chǎn)生的語境效應(yīng), 它們在3個實驗中確實誘發(fā)了最少的“ga”反應(yīng)。但是這個理論難以解釋/pa/和/pu/及其非言語模擬音的語境效應(yīng)。/pa/和/pu/的F2軌跡及其F2模擬音都處于低頻區(qū)(/pa/:從800 Hz到1200 Hz; /pu/:從900 Hz到650 Hz), 與目標(biāo)序列/ta/-/ka/連續(xù)體的F3頻率區(qū)(從1800 Hz到2700 Hz)間隔較遠(yuǎn), 但它們?nèi)匀挥绊懙?ta/-/ka/連續(xù)體的識別, 都導(dǎo)致被試產(chǎn)生了更多的“ga”反應(yīng)(在一些條件下甚至顯著的多于基線條件)。如果按照頻譜對比效應(yīng)的解釋, 即使存在適應(yīng)效應(yīng), 這些低頻的聲學(xué)線索也只能引起/ka/音節(jié)F3過渡段的適應(yīng)(相比/ta/音節(jié), /ka/音節(jié)F3過渡段的頻率更低), 從而會讓被試產(chǎn)生更多的/ta/反應(yīng)。然而實驗結(jié)果卻發(fā)現(xiàn)/pa/和/pu/及其非言語模擬音做語境時被試產(chǎn)生了更多的/ka/反應(yīng)。因此頻譜對比效應(yīng)假設(shè)難以解釋/pa/和/pu/及其非言語模擬音的語境效應(yīng)。
如何解釋這種語境效應(yīng)呢?一種可能性是這些低頻的聲學(xué)語境激活了一些聲學(xué)線索, 這些聲學(xué)線索促進(jìn)了/ka/范疇的識別。眾多研究發(fā)現(xiàn)齒齦塞音/d/的典型聲學(xué)線索包括一個高頻的爆破段和一個起始頻率在1500~1800 Hz左右的下傾的共振峰過渡段, /d/的頻譜能量集中于高頻區(qū); 舌根塞音/g/的典型聲學(xué)線索包括一個中頻的爆破段和一個1~2 kHz之間的共振峰過渡段, 通常會有一個突顯的中頻頻譜峰(Cooper et al., 1952; Delattre et al., 1955;Li, Menon, & Allen, 2010; Stevens & Blumstein,1978)。漢語塞音/t/和/k/也發(fā)現(xiàn)了類似的聲學(xué)特征。塞音/t/爆破段的能量集中于高頻區(qū)(約3000~4000 Hz左右); 塞音/k/的爆破段通常有兩個頻譜峰, 一個突顯的中頻峰(約1400 Hz左右)和一個稍弱的高頻峰(陽晶, 陳肖霞, 2005)。由此塞音/t/的頻譜能量主要集中于高頻區(qū), 而塞音/k/的能量主要集中于中頻區(qū), /pa/和/pu/音節(jié)及其非言語模擬音這些低中頻的共振峰軌跡可能激活了一些能量集中于低中頻區(qū)的聲學(xué)線索, 這些低中頻區(qū)的聲學(xué)線索又促進(jìn)了/ka/范疇的識別。研究也表明/ga/的知覺主要由中頻的爆破段決定(Li et al., 2010)。按照這個假設(shè), 可以預(yù)期有高頻共振峰軌跡的語境音會促進(jìn)/ta/范疇的識別。初步實驗證實了這個預(yù)期, 8名漢語聽者參加了一個小測驗, 60 ms高頻和低頻滑音充當(dāng)語境音, /ta/-/ka/連續(xù)體充當(dāng)目標(biāo)音。高頻滑音從3600 Hz線性提高至4000 Hz, 低頻滑音從900 Hz線性提高至1300 Hz。實驗結(jié)果表明低頻(高頻)音語境條件下被試在刺激1~10上平均的“ga”反應(yīng)百分比分別是:96.25(95), 90(93.75), 87.5(92.5), 92.5(93.75), 65(58.75),45(16.25), 51.25(17.5), 23.75(3.75), 21.25(7.5)和20(5)。實驗結(jié)果符合聲學(xué)線索激活假設(shè)的預(yù)期, 高頻線索條件下被試有更多的/ta/反應(yīng), 低頻線索條件下被試有更多的/ka/反應(yīng)。這表明/pa/和/pu/音節(jié)及非言語模擬音的語境效應(yīng)可能是由于激活了有利于/ka/范疇識別的聲學(xué)線索, 即一些中低頻的聲學(xué)線索, 這些中低頻的聲學(xué)線索是識別/ka/范疇的關(guān)鍵線索。因而, 當(dāng)前實驗結(jié)果擴(kuò)展了聽覺基礎(chǔ)上的語境效應(yīng)類型, 除頻譜對比效應(yīng)引起的語境效應(yīng)外, 某個語音范疇聲學(xué)線索的激活也能促進(jìn)該范疇的識別。
最后, 來自聽覺神經(jīng)科學(xué)的研究成果也為基于聽覺理論解釋語境效應(yīng)提供了支持。研究表明哺乳動物聽覺皮層神經(jīng)元的活動受到聽覺刺激歷史或語境的影響(Asari & Zador, 2009; Bartlett & Wang,2005; Brosch & Schreiner, 1997; Brosch & Scheich,2008; David & Shamma, 2013; Delgutte, 1996;Lochmann, Ernst, & Denève, 2012; Ulanovsky, Las,Farkas, & Nelken, 2004)。前面的刺激能夠抑制或促進(jìn)聽覺皮層神經(jīng)元對隨后刺激的反應(yīng):當(dāng)前后刺激的參數(shù)(特別是頻率)類似時, 會產(chǎn)生最強(qiáng)的抑制效應(yīng); 當(dāng)前后刺激的參數(shù)不同時, 可能會有促進(jìn)效應(yīng)(Bartlett & Wang, 2005; Brosch & Schreiner, 1997;Brosch & Scheich, 2008)。聽覺皮層神經(jīng)元對刺激語境的敏感為語境效應(yīng)提供了神經(jīng)基礎(chǔ)。刺激語境能夠激活或抑制聽覺皮層神經(jīng)元對一些聲學(xué)線索的反應(yīng), 當(dāng)某個語音范疇的聲學(xué)線索被前面語境抑制后, 該語音范疇的識別可能會受到抑制; 當(dāng)某個語音范疇的聲學(xué)線索被前面語境激活后, 該語音范疇的識別可能會受到促進(jìn)。
當(dāng)前研究以漢語塞?元音節(jié)及其非言語模擬音為語境音, 漢語/ta/-/ka/連續(xù)體為目標(biāo)音, 通過3個實驗考察了發(fā)音特征理論和聽覺理論對漢語塞?元?塞音序列語境效應(yīng)的解釋力度, 并對塞?元?塞音序列語境效應(yīng)機(jī)制進(jìn)行了深入探討。實驗結(jié)果發(fā)現(xiàn)塞?元?塞音序列語境效應(yīng)主要源于語境音聲學(xué)線索的差異, 語境音的語音范疇感知可能也部分的影響到其語境效應(yīng)表現(xiàn)。另外實驗結(jié)果發(fā)現(xiàn)除頻譜對比效應(yīng)所預(yù)期的語境效應(yīng)外, 頻率波段遠(yuǎn)離目標(biāo)音關(guān)鍵聲學(xué)線索所處頻率區(qū)的語境音也能影響到目標(biāo)音的識別, 可能由于該語境音激活了特定語音范疇的聲學(xué)線索。當(dāng)前實驗結(jié)果不僅有助于解決聽覺理論和發(fā)音特征理論對語境效應(yīng)解釋方面的爭論,還對基于頻譜對比效應(yīng)解釋語境效應(yīng)的聽覺理論進(jìn)行了補(bǔ)充和豐富。雖然實驗結(jié)果總體上支持了聽覺理論, 但是單純的頻譜對比效應(yīng)不能解釋語境效應(yīng)變異的所有事實, 還需要考慮語音范疇感知及特定聲學(xué)線索激活對目標(biāo)音識別的影響。
當(dāng)前研究雖然為漢語塞?元?塞音序列的語境效應(yīng)機(jī)制提供了一些解釋, 但是言語知覺中的語境效應(yīng)是一個非常復(fù)雜的現(xiàn)象, 還有很多問題需要進(jìn)一步探討。語境效應(yīng)的來源可能包括聲學(xué)線索的影響、語音范疇的影響, 以及語音經(jīng)驗的作用, 這些因素都在什么情境中的語境效應(yīng)中起作用, 它們之間有什么差別, 如聽覺和語音基礎(chǔ)上的語境效應(yīng)是否存在加工時間方面的差異, 這些都值得進(jìn)一步探索。即使是聲學(xué)線索驅(qū)動下的語境效應(yīng), 其潛在的機(jī)制也可能存在差異, 這包括聽覺基礎(chǔ)上的對比效應(yīng), 特定聲學(xué)線索對特定范疇識別的促進(jìn)作用, 聲學(xué)線索在什么條件下起到抑制作用(對比), 什么時候又能起到促進(jìn)作用, 這也需要進(jìn)一步探討。最后, 語境效應(yīng)的神經(jīng)機(jī)制也值得探索, 聽覺神經(jīng)科學(xué)已經(jīng)在微觀角度上對此進(jìn)行了一些探討, 認(rèn)知神經(jīng)科學(xué)角度上的宏觀研究還比較少, 這也是將來研究的一個方向。
Asari, H., & Zador, A. M. (2009). Long-lasting context dependence constrains neural encoding models in rodent auditory cortex.Journal of Neurophysiology, 102
, 2638–2656.Bartlett, E. L., & Wang, X. Q. (2005). Long-lasting modulation by stimulus context in primate auditory cortex.Journal of Neurophysiology, 94
, 83–104.Brosch, M., & Scheich, H. (2008). Tone-sequence analysis in the auditory cortex of awake macaque monkeys.Experimental Brain Research, 184
, 349–361.Brosch, M., & Schreiner, C. E. (1997). Time course of forward masking tuning curves in cat primary auditory cortex.Journal of Neurophysiology, 77
, 923–943.Coady, J. A., Kluender, K. R., & Rhode, W. S. (2003). Effects of contrast between onsets of speech and other complex spectra.Journal of the Acoustical Society of America, 114
,2225–2235.Cooper, F. S., Delattre, P. C., Liberman, A. M., Borst, J. M., &Gerstman, L. J. (1952). Some experiments on the perception of synthetic speech sounds.Journal of the Acoustical Society of America, 24
, 597–606.David, S. V., & Shamma, S. A. (2013). Integration over multiple timescales in primary auditory cortex.Journal of Neuroscience, 33
, 19154–19166.Delattre, P. C., Liberman, A. M., & Cooper, F. S. (1955).Acoustic loci and transitional cues for consonants.Journal of the Acoustical Society of America, 27
, 769–773.Delgutte, B. (1996). Auditory neural processing of speech. In W. J. Hardcastle & J. Laver (Eds.),The handbook of phonetic sciences
(pp. 505–538). Oxford: Blackwell.Diehl, R. L., Lotto, A. J., & Holt, L. L. (2004). Speech perception.Annual Review of Psychology, 55
, 149–179.Fowler, C. A. (1986). An event approach to the study of speech perception from a direct-realist perspective.Journal of Phonetics, 14
, 3–28.Fowler, C. A. (2006). Compensation for coarticulation reflects gesture perception, not spectral contrast.Perception &Psychophysics, 68
, 161–177.Fowler, C. A., Brown, J. M., & Mann, V. A. (2000). Contrast effects do not underlie effects of preceding liquids on stopconsonant identification by humans.Journal of Experimental Psychology: Human Perception & Performance, 26
, 877–888.Holt, L. L. (2005). Temporally nonadjacent nonlinguistic sounds affect speech categorization.Psychological Science,16
, 305–312.Holt, L. L. (2006). Speech categorization in context: Joint effects of nonspeech and speech precursors.Journal of the Acoustical Society of America, 119
, 4016–4026.Holt, L. L., & Lotto, A. J. (2002). Behavioral examinations of the level of auditory processing of speech context effects.Hearing Research, 167
, 156–169.Holt, L. L., & Lotto, A. J. (2008). Speech perception within an auditory cognitive science framework.Current Directions in Psychological Science, 17
, 42–46.Holt, L. L., Lotto, A. J., & Kluender, K. R. (2000). Neighboring spectral content influences vowel identification.Journal of the Acoustical Society of America, 108
, 710–722.Kingston, J., Kawahara, S., Chambless, D., Key, M., Mash, D.,& Watsky, S. (2014). Context effects as auditory contrast.Attention, Perception, & Psychophysics, 76
, 1437–1464.Li, F. P., Menon, A., & Allen, J. B. (2010). A psychoacoustic method to find the perceptual cues of stop consonants in natural speech.Journal of the Acoustical Society of America, 127
, 2599–2610.Liberman, A. M., Cooper, F. S., Shankweiler, D. P., &Studdert-Kennedy, M. (1967). Perception of the speech code.Psychological Review, 74
, 431–461.Liberman, A. M., & Mattingly, I. G. (1985). The motor theory of speech perception revised.Cognition, 21
, 1–36.Lochmann, T., Ernst, U. A., & Denève, S. (2012). Perceptual inference predicts contextual modulations of sensory responses. Journal of Neuroscience, 32
, 4179–4195.Lotto, A. J., & Holt, L. L. (2006). Putting phonetic context effects into context: A commentary on Fowler (2006).Perception & Psychophysics, 68
, 178–183.Lotto, A. J., & Kluender, K. R. (1998). General contrast effects in speech perception: Effect of preceding liquid on stop consonant identification.Perception & Psychophysics,60
, 602–619.Lotto, A. J., Sullivan, S. C., & Holt, L. L. (2003). Central locus for nonspeech context effects on phonetic identification (L).Journal of the Acoustical Society of America, 113
, 53–56.Mann, V. A. (1980). Influence of preceding liquid on stop-consonant perception.Perception & Psychophysics,28
, 407–412.Mann, V. A., & Repp, B. H. (1980). Influence of vocalic context on perception of the [∫]–[s] distinction.Perception& Psychophysics, 28
, 213–228.Mann, V. A., & Repp, B. H. (1981). Influence of preceding fricative on stop consonant perception.Journal of the Acoustical Society of America, 69
, 548–558.Mitterer, H. (2006). On the causes of compensation for coarticulation: Evidence for phonological mediation.Perception& Psychophysics, 68
, 1227–1240.Remez, R. E., Rubin, P. E., Pisoni, D. B., & Carrell, T. D.(1981). Speech perception without traditional speech cues.Science, 212
, 947–949.Smits, R. (2001). Evidence for hierarchical categorization of coarticulated phonemes.Journal of Experimental Psychology:Human Perception and Performance, 27
, 1145–1162.Stephens, J. D. W., & Holt, L. L. (2003). Preceding phonetic context affects perception of nonspeech (L).Journal of the Acoustical Society of America, 114
, 3036–3039.Stevens, K. N., & Blumstein, S. E. (1978). Invariant cues for place of articulation in stop consonants.Journal of the Acoustical Society of America, 64
, 1358–1368.Ulanovsky, N., Las, L., Farkas, D., & Nelken, I. (2004).Multiple time scales of adaptation in auditory cortex neurons.Journal of Neuroscience, 24
, 10440–10453.Viswanathan, N., Fowler, C. A., & Magnuson, J. S. (2009). A critical examination of the spectral contrast account of compensation for coarticulation.Psychonomic Bulletin and Review, 16
, 74–79.Viswanathan, N., Magnuson, J. S., & Fowler, C. A. (2010).Compensation for coarticulation: Disentangling auditory and gestural theories of perception of coarticulatory effects in speech.Journal of Experimental Psychology: Human
Perception and Performance, 36
, 1005–1015.Viswanathan, N., Magnuson, J. S., & Fowler, C. A. (2013)
.Similar response patterns do not imply identical origins: An energetic masking account of nonspeech effects in compensation for coarticulation.Journal of Experimental Psychology:Human Perception and Performance, 39
, 1181–1192.Viswanathan, N., Magnuson, J. S., & Fowler, C. A. (2014).Information for coarticulation: Static signal properties or formant dynamics?Journal of Experimental Psychology:Human Perception & Performance, 40
, 1228–1236.Wade, T., & Holt, L. L. (2005). Effects of later-occurring nonlinguistic sounds on speech categorization.Journal of the Acoustical Society of America, 118
, 1701–1710.Yan, J. (1990). A study of the vowel formant pattern and the coarticulation in the voiceless stop initial monosyllable of Standard Chinese. InReport on phonetic research
(pp.30–54). Institute of Linguistics, Chinese Academy of Social Sciences.Yang, J., & Chen, X.-X. (2005). The characteristic analysis for stop burst spectrum in Standard Chinese. InReport on phonetic research
(pp. 70–75). Institute of Linguistics,Chinese Academy of Social Sciences.(陽晶, 陳肖霞. (2005). 普通話塞音爆破段譜的特性分析. 見語音研究報告
(pp. 70–75). 中國社會科學(xué)院語言研究所.)