劉江濤
(杭州電子科技大學(xué)信息工程學(xué)院,杭州 310023)
語音感知(speech perception)是近半個世紀(jì)以來研究的熱門領(lǐng)域之一,許多不同研究分支的學(xué)者都參與其中,比如聽覺語音學(xué),心理語言學(xué),認(rèn)知及神經(jīng)科學(xué)等等。前人對語音感知范疇的研究大多關(guān)注范疇感知(categorical perception)現(xiàn)象[1,2]。人們很容易把聽到的語音按范疇歸類。具體而言,在塞音感知研究中,濁音起始時間(voice onset time,簡稱VOT)作為參數(shù)把塞音歸為不同的范疇。不同的語言可能區(qū)分不同的VOT范疇,因此跨語言塞音感知有時很困難。
本文主要綜述塞音感知的文獻,盡量不涉及言語感知的其他方面,如元音感知,其他類型輔音感知,聲調(diào)韻律感知等。方便起見,本文先介紹濁音起始時間,進而綜述塞音范疇感知和感知訓(xùn)練的相關(guān)文獻。
Lisker&Abramson[3]用濁音起始時間來指塞音除阻(release)到聲帶開始顫動之間的這段時間。其目的就是想看用濁音起始時間這單個參數(shù)能否很好地區(qū)分幾種語言的塞音范疇。他們選了11種語言,并將其歸為三類:兩范疇語言,三范疇語言,和四范疇語言。他們的研究結(jié)果表明,用VOT來區(qū)分音位范疇(phonemic category)是很有效的。
VOT通常很短,要用毫秒來計量。盡管很短,對聽話人來說是極其重要的聲學(xué)音征(acoustic cue)。聽話人對它很敏感,用它來把聽到的塞音歸為清音或濁音[4]。VOT已被證實為區(qū)分塞音語音差異的有效聲學(xué)尺度[5-7]。
大多數(shù)語言都只區(qū)分三種以內(nèi)的VOT類型,因為超過三種,人們在聽覺上很難區(qū)分。這三種類型是:正值VOT,零值VOT,和負值VOT。對應(yīng)而言,送氣清塞音(voiceless aspirated plosive)的VOT值為正,不送氣清塞音(voiceless unaspirated plosive)的VOT值為零(或略大于零),濁塞音(voiced plosive)的VOT值為負。
先以漢語為例,吳宗濟[8]38-39錄了漢語普通話發(fā)音人的音,并測量了漢語塞音在不同元音前時的VOT值。/p/,/t/,和 /k/的VOT值接近零,而 /ph/,/th/,和 /kh/的VOT值均為正值,而且都在100 ms以上。換言之,/p/,/t/,和 /k/是不送氣清輔音,/ph/,/th/,和 /kh/是送氣清輔音。是否送氣區(qū)分了/p/和 /ph/,/t/和 /th/,以及 /k/和 /kh/三組。送氣(aspiration)是漢語塞音的區(qū)別性特征(distinctive feature)。通常認(rèn)為,漢語塞音都是清音,聲帶不顫動,因而發(fā)聲(voicing)并非漢語塞音的區(qū)別性特征。
Lisker&Abramson[3]測量了四個美式英語發(fā)音人。應(yīng)當(dāng)注意的是,詞首重讀位置元音前的/b/,/d/,和/g/是不送氣清塞音,VOT值接近于零,而相同位置的/p/,/t/和 /k/是送氣清塞音,VOT值是正值。因此可以說,詞首重讀位于元音前時,/b/和/p/,/d/和/t/,/g/和/k/的唯一區(qū)別在于是否送氣。送氣才是它們的區(qū)別性特征,而不是發(fā)聲。從這個意義上說,英語塞音和漢語塞音范疇是一致的。
下面以法語為例談?wù)務(wù)嬲齾^(qū)分清濁的情況。法語中/p/,/t/和 /k/是清塞音,當(dāng)出現(xiàn)在元音前時,就會失去送氣,成為不送氣清塞音;當(dāng)出現(xiàn)在半元音前、另一輔音前或位于詞尾時,就是送氣清塞音。/b/,/d/和 /g/在法語中永遠是濁塞音。Caramazza & Yeni-Komshian[9]的研究表明,VOT 在法語中是音位性(phonemic)的,也就是說,講法語的人要用VOT作為音征來區(qū)分清濁。他們還給出了講法語的人塞音VOT的分布情況。濁塞音/b/,/d/和/g/的VOT值在-150ms至0 ms之間,而不送氣清塞音/p/,/t/和 /k/的VOT值在0 ms至30 ms之間。
總結(jié)起來,在詞首重讀位置元音前時,漢語、英語和法語中的塞音都區(qū)分兩種范疇。但不同的是,漢語和英語都區(qū)分送氣清塞音和不送氣清塞音,而法語區(qū)分濁塞音和不送氣清塞音。因此,對于母語為漢語的中國人而言,習(xí)得英語塞音沒有難度,而習(xí)得法語塞音難度很大。這些研究對于跨語言塞音感知極為重要。
范疇感知是塞音感知的重要特征。塞音范疇感知是指在感知塞音時對不同范疇的塞音很容易識別,表現(xiàn)出非此即彼的特點,而對于同一范疇內(nèi)聲學(xué)特征不同的塞音卻難以區(qū)分。人們在感知時從一個范疇突然跳到另一個范疇,兩個范疇間的突然跨越(crossover)被稱作音位界線(phoneme boundary)。
范疇感知概念是由Liberman,et al.[2]首次提出的。他們的實驗結(jié)果表明,從一個范疇到另一個范疇的感知轉(zhuǎn)換是突然的,不連貫的;音位界線處的區(qū)分能力明顯高于音位范疇之內(nèi)。
人們不禁會問:這種范疇感知能力是天生的還是后天從環(huán)境中習(xí)得的?Eimas,et al.[10]首先做了實驗。他們讓一個月和四個月的美國嬰兒聽三對語音。結(jié)果顯示,同一對的第二個語音和第一個語音屬于同一范疇時,嬰兒的吮吸頻率沒有變化。當(dāng)同一對的第二個語音和第一個語音屬于不同范疇時,嬰兒的吮吸頻率急劇增加。這一結(jié)果說明,嬰兒的感知機制(perceptual mechanism)是天生的,且與語音的范疇一致。
接著,其他研究者[11,12]擴展到對嬰兒跨語言語音感知的研究。這些研究最為有趣的一點是,嬰兒感知并不局限于母語中的音位對立,他們能夠感知其他語言的音位對立,卻感知不到母語中的。比如,Lasky,Syrdal-Lasky,& Klein[12]的研究說明,語言經(jīng)驗(linguistic experience)對4-6.5個月的嬰兒在區(qū)分雙唇塞音范疇時幾乎沒有影響。換言之,這個年齡的嬰兒清濁界限位置尚未移至母語中的位置。因此可以說,這種范疇感知能力有些是天生的,有些是后天從環(huán)境中習(xí)得的。
其他研究者[13,14]比較了嬰兒和成人的跨語言語音區(qū)分能力。結(jié)果表明,對某些語音的區(qū)分能力會隨著年齡增長而下降。也就是說,嬰兒在接觸母語越來越多后,只形成了母語中的音位范疇,而把其他的范疇丟掉了。Werker&Tees[15]的研究顯示,嬰兒的這種能力下降發(fā)生在一歲時。
后來,一些研究者[16,17]認(rèn)為這種變化并不是早期能力的完全消失,實際上是一種音位重組過程:嬰兒按照母語中的音位范疇把聽到的語音進行歸類。那些不屬于母語任何一個范疇的語音就不受重組,因此區(qū)分能力并未下降。
Best[18]于 1995 年提出了感知同化模式(Perceptual Assimilation Model(PAM))。PAM主要研究人們?nèi)绾胃兄Z語音。PAM認(rèn)為,人們在學(xué)習(xí)二語時,會根據(jù)二語語音和母語語音的相似和不同的程度把二語中的音位對立(sound contrast)歸為不同的范疇。如果與母語語音差異過大,無法同化,就歸為非語音(non-speech sound)。能歸為語音的二語對立再根據(jù)是否能同化到母語的范疇進一步分為母語范疇和非母語范疇。如果二語音位對立能被同化為母語音位,則可進一步分為以下三種同化類型:兩范疇同化(Two-Category Assimilation,簡稱TC),范疇典型性差異同化(Category-Goodness Difference,簡稱CG),以及單范疇同化(Single-Category Assimilation,簡稱 SC)。
感知同化模式在一定程度上解釋了為什么成人在學(xué)習(xí)二語語音時有時會難以區(qū)分二語中的音位范疇。就塞音感知而言,如果二語與母語區(qū)分不同的VOT范疇,就有可能在區(qū)分二語音位范疇時產(chǎn)生困難。
一個密切相關(guān)且倍受關(guān)注的問題是:對學(xué)習(xí)二語中遇到的區(qū)分難度很大的塞音對立,成人能不能通過感知訓(xùn)練(perceptual training)重新區(qū)分開?Pisoni,Aslin,Perey,& Hennessy[19]的實驗表明,只講英語的美國大學(xué)生,經(jīng)過簡單的訓(xùn)練,卻能夠區(qū)分詞首位置三種不同的塞音范疇:濁塞音,不送氣清塞音,送氣清塞音。對他們母語來說,詞首位置上只區(qū)分不送氣清塞音和送氣清塞音兩范疇,濁塞音和不送氣清塞音的對立并非音位性的。結(jié)果顯示,成人感知塞音范疇的機制是具有可塑性的,可以短期內(nèi)通過實驗室訓(xùn)練改變。緊接著,McClasky,Pisoni,& Carrell[20]做了實驗,說明這種訓(xùn)練效果會從一個發(fā)音部位遷移到另一個,比如只訓(xùn)練雙唇塞音的三范疇卻也能區(qū)分齒齦音的三范疇,反之亦然。
上世紀(jì)九十年代起,可以看作是感知訓(xùn)練的快速發(fā)展時期。這一時期,感知訓(xùn)練受到了第二語言習(xí)得和教學(xué)領(lǐng)域很多研究者的重視,并進行了廣泛和深入的研究。主要發(fā)現(xiàn)可以總結(jié)如下:感知訓(xùn)練可以有效促進輔音、元音以及漢語聲調(diào)的感知[21-23],感知能力的提高可以改善發(fā)音[24,25],而且訓(xùn)練的效果可以長期保持[26]。最近幾年,以感知訓(xùn)練為切入點探討大腦可塑性以及自上而下的音位加工和自下而上的聲學(xué)信息加工神經(jīng)機制的文章出現(xiàn)了不少[27,28]。
另外,感知訓(xùn)練的方法也開始多樣化,比如“高變異語音訓(xùn)練法”(high variability phonetic training)[21,25]、“適應(yīng)性知覺訓(xùn)練法”(adaptive training)[24,29]、“視聽知覺訓(xùn)練法”(audiovisual perceptual training)[30]等等。
本文綜述了塞音范疇感知和感知訓(xùn)練的相關(guān)文獻。以往的研究表明,嬰兒在出生后不久就表現(xiàn)出某種范疇感知能力,這種能力與其母語經(jīng)驗無關(guān)。嬰兒的音位范疇在大約一歲時才調(diào)整到與母語音位范疇一致,并且固定下來。成人在學(xué)習(xí)二語語音時,很容易把二語中的音位對立歸為不同的范疇。感知同化模式在一定程度上解釋了為什么成人在學(xué)習(xí)二語語音時有時會難以區(qū)分二語中的音位范疇。人們嘗試用感知訓(xùn)練的方法來建立新的音位范疇,取得了一定的效果,訓(xùn)練效果還可以長期保持。感知訓(xùn)練的方法也開始多樣化。這些研究對于二語語音習(xí)得和語音教學(xué)都具有良好的啟示。
[1]Harnad,S.Categorical perception:The groundwork of cognition[C].Cambridge:Cambridge University Press,1987.
[2]Liberman,A.M.,Harris,K.S.,Hoffman,H.S.,et al.The discrimination of speech sounds within and across phoneme boundaries[J].Journal of Experimental Psychology,1957,54(5),358-368.
[3]Lisker,L.,& Abramson,A.S.A cross-language study of voicing in initial stops:Acoustical measurements[J].Word,1964,20(3),384-442.
[4]Ashby,M.,& Maidment,J.Introducing phonetic science[M].Cambridge:Cambridge University Press,2005:92.
[5]Cho,T.,& Ladefoged,P.Variation and universality in VOT:Evidence from 18 languages[J].Journal of Phonetics,1999,27,207-229.
[6]Klatt,D.Voice onset time,frication,and aspiration in word-initial consonant clusters[J].Journal of Speech & Hearing Research,1975,18,686-706.
[7]Lisker,L.,& Abramson,A.S.Some effects of context on voice onset time in English stops[J].Language& Speech,1967,10,1-28.
[8]吳宗濟.漢語普通話單音節(jié)語圖冊[M].北京:中國社會科學(xué)出版社,1986.
[9]Caramazza,A.,& Yeni-Komshian,G.H.Voice onset time in two French dialects[J].Journal of Phonetics,1974,2,239-245.
[10]Eimas,P.D.,Siqueland,E.R.,Jusczyk,P.,et al.Speech perception in infants[J].Science,1971,171(3968),303-306.
[11]Aslin,R.N.,Pisoni,D.B.,Hennessy,B.L.,et al.Discrimination of voice onset time by human infants:New findings and implications for the effects of early experience[J].Child Development,1981,52(4),1134-1145.
[12]Lasky,R.E.,Syrdal-Lasky,A.,& Klein,R.E.VOT Discrimination by four to six and a half month old infants from Spanish environments[J].Journal of Experimental Child Psychology,1975,20,215-225.
[13]Trehub,S.E.The discrimination of foreign speech contrasts by infants and adults[J].Child Development,1976,47(2),467-472.
[14]Werker,J.F.,Gilbert,J.H.V.,Humphrey,K.,et al.Developmental aspects of cross-language speech perception[J].Child Development,1981,52(1),349-355.
[15]Werker,J.F.,& Tees,R.C.Cross-language speech perception:Evidence for perceptual reorganization during the first year of life[J].Infant Behavior and Development,1984,7,49-63.
[16]Best,C.T.The emergence of native-language phonological influences in infants:A perceptual assimilation model[A].In J.C.Goodman& H.C.Nusbaum(Eds.),The development of speech perception:The transition from speech sounds to spoken words[C](pp.167-224).Cambridge,MA:The MIT Press,1994.
[17]Werker,J.F.,& Pegg,J.E.Infant speech perception and phonological acquisition[J].In C.A.Ferguson,L.Menn,& C.Stoel-Gammon(Eds.).Phonological development:Models,research,and implications[C](pp.285-311).Timoniun,MD:York Publishing Company,1992.
[18]Best,C.T.(1995).A direct realist view of cross-language speech[A].In W.Strange(Ed.),Speech perception and linguistic experience:Issues in cross-language research[C](pp.171-203).Baltimore:York Press.
[19]Pisoni,D.B.,Aslin,R.N.,Perey,A.J.,et al.Some effects of laboratory training on identification and discrimination of voicing contrasts in stop consonants[J].Journal of Experimental Psychology:Human Perception and Performance,1982,8(2),297-314.
[20]McClasky,C.L.,Pisoni,D.B.,& Carrell,T.D.Transfer of training of a new linguistic contrast in voicing[J].Perception& Psychophysics,1983,34,323-330.
[21]Logan,J.S.,Lively,S.E.,& Pisoni,D.B.Training Japanese listeners to identify English/r/and/l/:a first report[J].Journal of the Acoustical Society of America,1991,89(2),874-886.
[22]Liu,J.A study of training effect on the perception of the voicing contrast in French plosives[D].Jinan:Unpublished M.A.thesis,Shandong University,2009.
[23]Wang,Y.,Spence,M.M.,Jongman,A.,et al.Training American listeners to perceive Mandarin tones[J].Journal of the Acoustical Society of America,1999,106(6),3649-3658.
[24]McClelland,J.L.,F(xiàn)iez,J.A.,& McCandliss,B.D.Teaching the/r/-/l/discrimination to Japanese adults:behavioral and neural aspects[J].Physiology& Behavior,2002,77,657-662.
[25]Wang,Y.,Jongman,A.,& Sereno,J.A.Acoustic and perceptual evaluation of Mandarin tone productions before and after perceptual training[J].Journal of the Acoustical Society of America,2003,113(2),1033-1043.
[26]Bradlow,A.R.Akahane-Yamada,R.,Pisoni,D.B.,et al.Training Japanese listeners to identify English/r/and/l/:Long term retention of learning in perception and production[J].Perception & Psychophysics,1999,61(5),977-985.
[27]Zhang,Y.,Kuhl,P.K.,Imada,T.,et al.Neural signatures of phonetic learning in adulthood:A magnetoencephalography study[J].NeuroImage,2009,46,226-240.
[28]Liebenthal,E.,Desai,R.,Ellingson,M.M.,et al.Specialization along the left superior temporal sulcus for auditory categorization[J].Cerebral Cortex,2010,20(12),2958-2970.
[29]Golestani,N.& Zatorre,R.J.Individual differences in the acquisition of second language phonology[J].Brain & Language,2009,109(2-3),55-67.
[30]Hazan,V.,Sennema,A.,Iba,M.,et al.Effect of audiovisual perceptual training on the perception and production of consonants by Japanese learners of English[J].Speech Communication,2005,47(3),360-378.