羅霄驍 康冠蘭 周曉林,2,3,4
?
McGurk效應(yīng)的影響因素與神經(jīng)基礎(chǔ)*
羅霄驍1康冠蘭1周曉林1,2,3,4
(1北京大學(xué)心理與認知科學(xué)學(xué)院, 北京 100871) (2北京大學(xué)機器感知與智能教育部重點實驗室, 北京 100871) (3北京大學(xué)IDG麥戈文腦科學(xué)研究所, 北京 100871) (4浙江師范大學(xué)心理與腦科學(xué)研究院, 金華 321004)
McGurk效應(yīng)(麥格克效應(yīng))是典型的視聽整合現(xiàn)象, 該效應(yīng)受到刺激的物理特征、注意分配、個體視聽信息依賴程度、視聽整合能力、語言文化差異的影響。引發(fā)McGurk效應(yīng)的關(guān)鍵視覺信息主要來自說話者的嘴部區(qū)域。產(chǎn)生McGurk效應(yīng)的認知過程包含早期的視聽整合(與顳上皮層有關(guān))以及晚期的視聽不一致沖突(與額下皮層有關(guān))。未來研究應(yīng)關(guān)注面孔社會信息對McGurk效應(yīng)的影響, McGurk效應(yīng)中單通道信息加工與視聽整合的關(guān)系, 結(jié)合計算模型探討其認知神經(jīng)機制等。
McGurk效應(yīng); 視聽言語感知; 視聽整合; 多感覺整合
多感覺整合(multisensory integration)是將不同感覺通道輸入的信息有效合并為統(tǒng)一、連貫、穩(wěn)定的知覺的過程(Stein & Stanford, 2008; 文小輝, 李國強, 劉強, 2011; 文小輝等, 2009)。視聽言語感知(audiovisual speech perception)是一種典型的多感覺整合過程——在與他人面對面交流時, 個體會整合視覺信息和聽覺信息進行言語理解, 也即視聽整合(audiovisual integration)。其中, “視覺信息”指的是說話人的口唇發(fā)音動作、面部肌肉活動及表情等。個體可以利用這些信息形成連續(xù)的視知覺, 并與頭腦中儲存的詞語表象相比較和聯(lián)系, 進而理解說話者表達的內(nèi)容。該過程也稱為“唇讀” (lipreading) (Summerfield, 1992; 樸永馨, 2006; 徐誠, 2013)。例如:聽力障礙者主要依賴視覺信息進行言語感知(雷江華, 方俊明, 2005)?!奥犛X信息”指的是說話人的語音信息。對聽力正常者 而言, 聽覺信息在言語感知中起主導(dǎo)作用, 視覺信息是輔助信息。即使如此, 視覺信息對言語感知的影響仍然存在, 例如同時呈現(xiàn)聽覺信息和相應(yīng)的視覺信息時, 言語感知準確率比單獨呈現(xiàn)聽覺信息時高(Ross, Saint-Amour, Leavitt, Javitt, & Foxe, 2007)——這體現(xiàn)了視聽整合的益處。
McGurk效應(yīng)(McGurk effect / McGurk illusion) (McGurk & MacDonald, 1976)是一種典型的視聽整合現(xiàn)象, 指的是當特定發(fā)音的視覺刺激與特定發(fā)音的聽覺刺激同時呈現(xiàn)時, 個體可能產(chǎn)生新感知的現(xiàn)象(例如:說話者說“ga”的視頻和說“ba”的音頻同時呈現(xiàn), 聽話者可能會感知到另一個音節(jié)“da”), 這反映了視覺信息對聽覺感知的影響。一般認為, 發(fā)生了McGurk效應(yīng)即發(fā)生了視聽整合, 所以McGurk效應(yīng)發(fā)生率可以作為視聽整合強弱的指標(Fernández, Macaluso, & Soto-Faraco, 2017; Marques, Lapenta, Costa, & Boggio, 2016; Tiippana, 2014)。
McGurk效應(yīng)一直是視聽言語感知研究中的熱點問題。自McGurk和MacDonald (1976)發(fā)表該效應(yīng), 到2016年40年間, 原文已經(jīng)被引用近5000次(Alsius, Paré, & Munhall, 2018; MacDonald, 2018)。即使如此, 目前仍然缺乏全面、系統(tǒng)的McGurk效應(yīng)綜述。Marques等人(2016)的綜述主要關(guān)注McGurk效應(yīng)的研究對理解視聽整合過程的啟示, 尤其是如何用視聽整合的理論模型來解釋McGurk效應(yīng), 以及McGurk效應(yīng)在特殊人群言語感知研究中的應(yīng)用。但該綜述集中于視聽整合問題, 對McGurk效應(yīng)本身關(guān)注不足。例如:沒有關(guān)注McGurk效應(yīng)的測量和界定; 對McGurk效應(yīng)的影響因素討論較少(文中只涉及了外界物理刺激的影響); 沒有關(guān)注McGurk效應(yīng)中可能存在的視聽不一致沖突問題等。Alsius等人(2018)的綜述主要關(guān)注McGurk效應(yīng)作為視聽言語感知過程的研究工具有哪些局限性以及需要注意的問題, 尤其是影響McGurk效應(yīng)發(fā)生率的因素以及McGurk刺激與視聽一致刺激的差異。但該綜述的主要目的在于反思當前研究使用McGurk范式的合理性, 沒有涉及神經(jīng)基礎(chǔ)問題; 且其對McGurk效應(yīng)的影響因素的闡述系統(tǒng)性不足。MacDonald (2018)的綜述回顧了40年前McGurk效應(yīng)的發(fā)現(xiàn)過程以及作者的心路歷程, 是對歷史事件的回顧, 沒有關(guān)注McGurk效應(yīng)的最新研究進展。
本文嘗試對McGurk效應(yīng)進行全面、系統(tǒng)的綜述。首先探討McGurk效應(yīng)的測量與界定問題。再從個體內(nèi)變異和個體間變異的角度出發(fā), 闡述影響McGurk效應(yīng)的相關(guān)因素。進一步從眼動模式、動態(tài)神經(jīng)加工過程、相關(guān)腦區(qū)三個方面, 闡述McGurk效應(yīng)的認知神經(jīng)基礎(chǔ)。最后提出未來研究展望以及需要注意的問題。
已有研究一般采用“McGurk效應(yīng)發(fā)生率”作為評價McGurk效應(yīng)強弱(多少)的指標——使用McGurk刺激實施多次測量后, 計算其中發(fā)生McGurk效應(yīng)的次數(shù)比例(在測量的過程中需要加入視聽一致刺激或視聽不一致但不會誘發(fā)McGurk效應(yīng)的刺激作為填充試次)。研究中最常用的McGurk刺激是視覺“ga”加聽覺“ba”的視聽組合, 發(fā)生McGurk效應(yīng)時可能感知到“da” (Beauchamp, Nath, & Pasalar, 2010; Fernández et al., 2017; Nath & Beauchamp, 2012)。除此之外, 視覺“ka”加聽覺“pa”可能感知到“ta” (Gurler, Doyle, Walker, Magnotti, & Beauchamp, 2015)。另一方面, 也有研究在元音上采用“i”等其他搭配, 例如視覺“gi”加聽覺“bi”可能感知到“di” (Colin, Radeau, Soquet, Demolin, Colin, & Deltenre, 2002)。也有研究在輔音之前添加元音, 例如視覺“aga”加聽覺“aba”可能感知到“ada” (Bertelson, Vroomen, & de Gelder, 2003; Buchan & Munhall, 2012)。還有研究會重復(fù)兩次音節(jié), 例如視覺“gaga”加聽覺“baba”可能感知到“dada” (Mallick, Magnotti, & Beauchamp, 2015; McGurk & MacDonald, 1976)。雖然McGurk刺激有很多種, 但是其核心都是特定視覺輔音和聽覺輔音的組合, 使個體感知到的聽覺刺激發(fā)生改變。
為什么只有特定的視聽信息組合才會產(chǎn)生McGurk效應(yīng), 而其他組合則不會?分層預(yù)測編碼模型(hierarchical predictive coding model, Olasagasti, Bouton, & Giraud, 2015)給出了解釋。該模型考慮到視覺和聽覺信息的動態(tài)交互過程, 建立了視覺信息(唇形, lip aperture)和聽覺信息(第二共振峰, second formant)在物理維度上的動態(tài)變化二維空間, 以探究不同感覺通道對輸入的感知信息進行預(yù)測和判斷的動態(tài)變化過程。在典型的McGurk效應(yīng)中, 視覺“ga”和聽覺“ba”的視聽不一致輸入與視覺“da”和聽覺“da”的視聽一致輸入在上述二維空間中的坐標非常接近, 所以這種情況下的視聽不一致并不會造成很強的跨通道沖突, 而可能會更接近“da”的表征。但如果反過來, 對于視覺“ba”和聽覺“ga”的不一致輸入, 其坐標與其他視聽一致音節(jié)的坐標都不接近, 因此, 這種視聽不一致信息輸入會造成較強跨通道沖突, 無法融合。所以, 融合的發(fā)生可能是因為視聽不一致刺激的視聽通道表征在二維動態(tài)編碼空間中非常接近某個視聽一致刺激的表征, 大腦就更容易預(yù)期當前刺激是視聽一致的, 進而表征出在二維空間中坐標接近的視聽一致感知。
關(guān)于McGurk效應(yīng)的界定, 即“被試的什么反應(yīng)可以算作發(fā)生了McGurk效應(yīng)”, 不同的研究之間存在一定差異。部分研究的界定比較嚴格——只有個體感知到了特定的融合音節(jié)(例如在呈現(xiàn)視覺“ga”和聽覺“ba”時感知到“da”), 才能算是發(fā)生了McGurk效應(yīng)(Colin et al., 2002; Rosenblum, Schmuckler, & Johnson, 1997)。但是這種界定方式忽略了很多其他情況(例如:依據(jù)該界定, 如果被試報告感知到“tha”“ga”等其他音節(jié), 就不能算作發(fā)生了McGurk效應(yīng))。所以, 另一部分研究采用的是自由度更高的界定——只要被試報告不同于實際聽覺刺激的感知, 都算是發(fā)生了McGurk效應(yīng)(Gurler et al., 2015; Mallick et al., 2015; Wilson, Alsius, Paré, & Munhall, 2016)。這種定義更符合“McGurk效應(yīng)反映了視覺信息對聽覺感知的影響”這一觀點。目前, 多數(shù)研究者傾向于采取后者這種高自由度的界定, 以納入所有視聽信息交互的情況(Alsius et al., 2018; Tiippana, 2014)。本文中涉及的研究多數(shù)是后一種界定。
McGurk效應(yīng)的個體內(nèi)變異是指對同一個體而言, 其McGurk效應(yīng)發(fā)生率由于受到某些因素的影響而發(fā)生改變的現(xiàn)象(即在被試內(nèi)設(shè)計中, 不同實驗條件之間的McGurk效應(yīng)發(fā)生率改變)。造成McGurk效應(yīng)個體內(nèi)變異的因素主要有物理刺激(例如:視覺、聽覺刺激及其同步性等自下而上的外部因素)和認知因素(例如:注意分配、心理預(yù)期等自上而下的內(nèi)部因素)。
3.1.1 物理刺激因素
視覺刺激變化可能影響個體對視覺信息的加工效果(即影響唇讀過程), 進而造成McGurk效應(yīng)的個體內(nèi)變異。視覺信息呈現(xiàn)的質(zhì)量越好(越清晰、越完整), 越容易發(fā)生McGurk效應(yīng); 而破壞視覺信息的呈現(xiàn)會降低其對聽覺感知的影響, 即減少McGurk效應(yīng)。研究者通過降低視頻分辨率(Wilson et al., 2016)、對視頻進行馬賽克轉(zhuǎn)換(MacDonald, Andersen, & Bachmann, 2000)、對視頻進行空間像素化處理(Thomas & Jordan, 2002)等技術(shù)手段來降低視頻的清晰程度。結(jié)果均表明, McGurk效應(yīng)隨視頻清晰度的降低而減少。也有研究將視頻切分后只呈現(xiàn)其中一部分(Jordan & Thomas, 2011; Ujiie, Asai, & Wakabayashi, 2015)、或是用光點來呈現(xiàn)說話者的面部運動信息(損失了很多原有面部運動信息) (Jordan, McCotter, & Thomas, 2000), McGurk效應(yīng)(相比于呈現(xiàn)完整的面部視頻)也會減少。還有研究在10米或20米之外呈現(xiàn)視頻(距離越遠視頻越看不清), McGurk效應(yīng)會隨距離增加而減少(Jordan & Sergeant, 2000)。此外, 將視頻里的面孔倒置(人們對倒置的面孔加工更困難) (Thomas & Jordan, 2002), 或是將正立面孔的嘴部倒置(這種奇怪的面孔也會增加人們對面孔的加工難度), McGurk效應(yīng)也會減少(Rosenblum, Yakel, & Green, 2000; Ujiie, Asai, & Wakabayashi, 2018)。近來還有研究發(fā)現(xiàn), 降低視頻的播放速度(這可能破壞原本流暢的視覺信息)也會減少McGurk效應(yīng)(Magnotti, Mallick, & Beauchamp, 2018)。
雖然視覺信息的呈現(xiàn)質(zhì)量對McGurk效應(yīng)影響較大, 但通過破壞視覺信息很難完全消除McGurk效應(yīng)。只要仍有少量有效的視覺信息線索, 效應(yīng)都還會發(fā)生。即McGurk效應(yīng)較為穩(wěn)定、不易消除。研究表明, 即使呈現(xiàn)馬賽克程度最高的視覺信息(MacDonald et al., 2000), 或是將面部距離增加到20米之遠(Jordan & Sergeant, 2000), 甚至將視頻的嘴部區(qū)域刪除(Jordan & Thomas, 2011), McGurk效應(yīng)仍會發(fā)生。
不過, 如果視覺信息沒有被意識覺察(閾下呈現(xiàn)), 就不會發(fā)生McGurk效應(yīng)。即對于McGurk效應(yīng)而言, 閾下視覺加工不足以引發(fā)視聽整合(Munhall, ten Hove, Brammer, & Paré, 2009), 視覺信息需要被意識覺察才可能引起McGurk效應(yīng)。有研究使用連續(xù)閃爍抑制范式(continuous flashing suppression, CFS, Fang & He, 2005; Tsuchiya & Koch, 2005)將McGurk刺激的視覺信息呈現(xiàn)在閾下。結(jié)果表明, 在CFS條件下, McGurk效應(yīng)消失了(Palmer & Ramsey, 2012)。還有研究設(shè)計了一種動態(tài)雙歧圖的McGurk刺激呈現(xiàn)方法(一個花瓶的邊緣構(gòu)成兩個面對面的側(cè)臉?;ㄆ吭谛D(zhuǎn), 其邊緣構(gòu)成的側(cè)臉在旋轉(zhuǎn)過程中呈現(xiàn)出嘴型的變化。被試對該動態(tài)雙歧圖的感知會在“側(cè)臉”和“花瓶”之間變化)。如果McGurk效應(yīng)的發(fā)生無需意識覺察視覺信息, 那么無論個體對雙歧圖的感知如何, 都應(yīng)該會發(fā)生McGurk效應(yīng)。但如果McGurk效應(yīng)的發(fā)生需要意識覺察視覺信息, 則只有在個體對雙歧圖的感知是“側(cè)臉”時, 才會發(fā)生McGurk效應(yīng)(當感知為“花瓶”時, 不會發(fā)生McGurk效應(yīng))。實驗結(jié)果也支持了后一個推論(Munhall et al., 2009)。
當然, 有的視覺信息對McGurk效應(yīng)影響不大。McGurk效應(yīng)只對視覺言語信息(相關(guān)面部肌肉的運動)敏感, 只要不影響視覺言語信息的呈現(xiàn)效果, 就不會影響McGurk效應(yīng)。例如:有研究表明, 無論將視覺刺激用彩色呈現(xiàn)還是用黑白呈現(xiàn), 其McGurk效應(yīng)發(fā)生率都沒有差異(Jordan et al., 2000)。
相比于視覺信息, 改變聽覺信息影響McGurk效應(yīng)的研究很少。這可能是因為McGurk效應(yīng)本身就是“對聽覺信息的感知受到視覺信息的影響而發(fā)生變化”, 如果改變聽覺刺激, 就難以區(qū)分聽覺感知發(fā)生的變化究竟是來自視覺信息的影響, 還是來自聽覺信息本身改變的影響。不過, 仍有研究者從聽覺刺激的角度揭示了McGurk效應(yīng)的穩(wěn)定性——音調(diào)、音高等因素對McGurk效應(yīng)的影響不大。他們比較了正常說出音節(jié)和唱出音節(jié)(用升調(diào)、降調(diào)兩種唱法)對McGurk效應(yīng)的影響, 結(jié)果表明在“唱出”和“說出”兩種條件下的McGurk效應(yīng)發(fā)生率沒有顯著差異(Quinto, Thompson, Russo, & Trehub, 2010)。
還有研究者針對聽覺信息的呈現(xiàn)來拓展McGurk效應(yīng)的研究范式。他們在視覺刺激不變的情況下, 改變聽覺刺激的呈現(xiàn)條件。即視覺刺激總是“ba”, 而聽覺刺激可能是“ba”(與視覺信息一致), 也可能是一種聽起來像“a”的音頻(將“ba”的輔音信息減弱)。如此一來, 后者的刺激組合也會誘發(fā)被試報告聽到了“ba” (但實際的聽覺刺激是“a”), 即視覺言語信息對聽覺感知形成了“補充”。這與經(jīng)典McGurk效應(yīng)類似(Irwin, Avery, Brancazio, Turcios, Ryherd, & Landi, 2018)。該范式可以歸為McGurk范式的一種變式——經(jīng)典McGurk效應(yīng)關(guān)注的是聽覺信息不變, 改變視覺信息可能改變個體的聽覺感知; 而該變式關(guān)注的是視覺信息不變, 改變聽覺信息后, 視覺信息會對聽覺感知進行補充, 也體現(xiàn)了視覺信息影響聽覺感知。未來研究可以嘗試將該范式與傳統(tǒng)的McGurk范式進行比較, 驗證二者是否有類似的機制(例如兩種范式的效應(yīng)發(fā)生率是否相似?是否激活了相似的視聽整合相關(guān)腦區(qū)?), 可考慮將該變式作為另一個視聽整合的指標。
最后, 視覺和聽覺刺激呈現(xiàn)的同步性也可能造成McGurk效應(yīng)的個體內(nèi)變異。在視聽整合研究中, 視覺和聽覺刺激不一定要精確地同步呈現(xiàn)才會引起視聽整合, 在一定時間窗內(nèi)的視聽刺激異步對視聽整合影響不大(Munhall, Gribble, Sacco, & Ward, 1996; Stevenson, Zemtsov, & Wallace, 2012)。McGurk效應(yīng)也不例外。研究發(fā)現(xiàn), 只要聽覺刺激(相比于視覺刺激)呈現(xiàn)的延遲在–360~ 360 ms的時間窗內(nèi), 都會產(chǎn)生McGurk效應(yīng)。當然, 同步性的降低同時也會導(dǎo)致McGurk效應(yīng)減少(Munhall et al., 1996)。此外, 即使被試能夠感知到視聽信息呈現(xiàn)的不同步, 也仍然可能產(chǎn)生McGurk效應(yīng)(Soto-Faraco & Alsius, 2009), 這也體現(xiàn)了McGurk效應(yīng)的穩(wěn)定性。
總體而言, McGurk效應(yīng)一方面容易受到物理刺激因素影響而發(fā)生個體內(nèi)變異, 但另一方面又具有較強的穩(wěn)定性(不容易完全消失)?,F(xiàn)有研究大都關(guān)注自下而上的物理刺激因素如何影響McGurk效應(yīng)(尤其關(guān)注視覺信息的影響), 也得出了較為一致的結(jié)論; 然而卻忽視了聽覺信息的作用。一個值得探究的問題是:當聽覺信息的可靠性下降時(信噪比降低), McGurk效應(yīng)如何變化?這是實際生活中很常見的視聽言語感知情景(例如在嘈雜的環(huán)境中與別人聊天)。針對這一問題, 我們預(yù)期:由于聽覺信息可靠性降低, 個體對視覺信息的權(quán)重增加, 即視覺信息對聽覺感知的影響增加, 這可能引發(fā)更多McGurk效應(yīng)。
3.1.2 認知因素
如上文所述, 物理刺激的改變對McGurk效應(yīng)的影響較大。但即使面對相同的物理刺激, 個體的認知狀態(tài)不同, 也可能造成McGurk效應(yīng)發(fā)生率改變。而且, 相比于物理刺激這類自下而上的調(diào)節(jié)因素, 自上而下的認知因素變化在實際生活中更常見(例如我們面對的常常是物理刺激相同的面孔, 但自身的認知狀態(tài)容易發(fā)生改變)。然而這類研究并不多。已有研究主要圍繞注意分配進行探討——當個體分配給McGurk任務(wù)的注意減少時, McGurk效應(yīng)就會減少。研究采用雙任務(wù)范式, 要求被試在進行視聽判斷任務(wù)(McGurk任務(wù))的同時進行一項無關(guān)的視覺或聽覺任務(wù)(這降低了被試分配在McGurk任務(wù)上的注意)。結(jié)果表明, McGurk效應(yīng)發(fā)生率在雙任務(wù)條件下比單任務(wù)條件低(Alsius, Navarra, Campbell, & Soto-Faraco, 2005)。進一步研究還發(fā)現(xiàn), 如果被試同時進行一項觸覺任務(wù)(不同于視覺、聽覺通道的第三個感覺通道), 則McGurk效應(yīng)發(fā)生率也會降低(Alsius, Navarra, & Soto-Faraco, 2007)。這提示注意分配對McGurk效應(yīng)的影響并不僅僅局限于視覺或聽覺通道, 而是受到一般性的注意分配的影響。另一項采用雙任務(wù)范式的研究讓被試同時進行一項工作記憶任務(wù), 也發(fā)現(xiàn)了一致的結(jié)果(Buchan & Munhall, 2012)。還有研究在呈現(xiàn)面部視覺信息時, 同時呈現(xiàn)一個分心刺激(一片葉子劃過面部)。當要求被試忽略面部去注意分心刺激時(相比于要求被試忽略分心刺激去注意面部的情況), McGurk效應(yīng)的發(fā)生率更低(Tiippana, Andersen, & Sams, 2004)。
除了注意分配, 還有研究探討了預(yù)期對McGurk效應(yīng)的影響——如果明確告訴被試接下來呈現(xiàn)視聽一致刺激(但實際上仍會包含視聽不一致的McGurk刺激), 相比于告知被試視聽刺激可能不一致的情況, McGurk效應(yīng)的發(fā)生率更高(Gau & Noppeney, 2016)。即個體預(yù)期視聽一致會促進McGurk效應(yīng)的發(fā)生。
綜上所述, 在McGurk效應(yīng)的個體內(nèi)變異研究中, 研究者更多關(guān)注自下而上的物理刺激因素對McGurk效應(yīng)的影響, 但對自上而下的認知相關(guān)因素關(guān)注較少。雖然已有研究探討注意分配和預(yù)期如何影響McGurk效應(yīng), 但這一方向仍有較大的發(fā)展空間。未來可以考慮探究其它自上而下的認知因素, 例如個體的情緒狀態(tài)對McGurk效應(yīng)的影響——在不同的情緒狀態(tài)下, 個體的視聽整合或許會發(fā)生變化, 這也更貼近日常視聽言語感知情景。
另一個生活中常見但卻研究較少的問題是:面孔本身的社會屬性如何影響視聽言語感知。我們常常與不同的人交流, 而不同人的面孔具有不同的社會屬性(面孔情緒、吸引力、重要性、熟悉度等), 這與視覺言語信息加工可能發(fā)生交互, 進而影響言語感知。有研究探討了面孔熟悉度、以及聲音面孔是否匹配對McGurk效應(yīng)的影響, 結(jié)果表明, 當聲音與面孔不匹配時, 對面孔熟悉的被試感知到更少的McGurk效應(yīng) (Walker, Bruce, & O'Malley, 1995)。另一項研究發(fā)現(xiàn), 如果將不同情緒的聲音和面部一起呈現(xiàn), 要求被試判斷聲音的情緒, 那么被試的判斷會受到面部情緒的影響而產(chǎn)生偏差。而且當對聽覺信息的性別進行判斷時, 被試也會受到視覺信息性別的影響(de Gelder & Vroomen, 2000)。所以, 我們有理由推測, 在McGurk效應(yīng)中, 即使不改變視覺信息的物理特性, 面孔本身就具有的社會屬性也可能影響聽覺感知, 這值得進一步研究。最近, 我們嘗試探究了與獎賞聯(lián)結(jié)的面孔如何影響McGurk效應(yīng)。結(jié)果表明, 相比于沒有與獎賞聯(lián)結(jié)的面孔, 與獎賞聯(lián)結(jié)的面孔McGurk效應(yīng)發(fā)生率更高。
McGurk效應(yīng)的個體間變異(即個體差異)指的是在同樣的測量條件下, 不同個體的McGurk效應(yīng)發(fā)生率仍會有差異的現(xiàn)象(即在被試間設(shè)計中, 不同組別之間的McGurk效應(yīng)差異)。研究表明, 雖然McGurk效應(yīng)在不同測量條件下可能發(fā)生個體內(nèi)變異, 但如果測試條件相同, McGurk效應(yīng)發(fā)生率在個體內(nèi)是較穩(wěn)定的。對同一批被試間隔1年的兩次同等條件測量的皮爾遜相關(guān)為0.91 (Mallick et al., 2015); 另一項間隔2個月的測量相關(guān)為0.77(Strand, Cooperman, Rowe, & Simenstad, 2014)。但是, McGurk效應(yīng)在不同個體間就沒那么穩(wěn)定了。Mallick等人(2015)測試了165名被試, 結(jié)果表明不同個體的McGurk效應(yīng)發(fā)生率有很大差異(從0%到100%)。所以在進行組間比較時, 研究者應(yīng)謹慎分析組間差異的來源。下文將闡述三個可能與McGurk效應(yīng)個體間變異相關(guān)的因素:對視聽信息的依賴程度差異、視聽整合能力及其發(fā)展差異、語言文化差異。
3.2.1 對視聽信息的依賴程度差異
McGurk效應(yīng)的個體差異可能來自個體對視覺或聽覺信息的依賴程度差異——對視覺信息依賴程度高的個體更容易受到視覺信息的影響, 進而發(fā)生更多McGurk效應(yīng); 而對聽覺信息依賴程度高的個體則更不易受到視覺信息影響, McGurk效應(yīng)也更少。研究發(fā)現(xiàn), 高水平音樂家(8~13年專業(yè)音樂訓(xùn)練)相比于沒有音樂訓(xùn)練的普通人McGurk效應(yīng)發(fā)生率更低, 這可能是因為音樂家通過長期訓(xùn)練培養(yǎng)了出色的聽覺能力使其更傾向于使用聽覺信息(Proverbio, Massetti, Rizzi, & Zani, 2016)。另一項研究表明, 相比于雙眼進行McGurk任務(wù)的被試, 閉上一只眼睛進行任務(wù)的被試McGurk效應(yīng)發(fā)生率更低(Moro & Steeves, 2018), 這可能是因為視覺通道部分受阻之后, 個體對聽覺通道的依賴程度增加。還有研究發(fā)現(xiàn), 在視聽言語感知任務(wù)中, 老年人更容易受到視覺信息的影響(即老年人的McGurk效應(yīng)發(fā)生率比年輕人高), 這可能是因為隨著年齡的增長, 老年人的聽覺機能退化得比視覺快, 進而對視覺信息的依賴增強(Sekiyama, Soshi, & Sakamoto, 2014)。
對特殊人群(高自閉特質(zhì)者、聽力受損者、視力受損者)的McGurk效應(yīng)研究也支持上述觀點(即對視聽信息的依賴程度差異可能造成McGurk效應(yīng)的個體間變異)。研究發(fā)現(xiàn), 自閉癥譜系障礙(autism spectrum disorder, ASD)的兒童在面孔記憶任務(wù)上表現(xiàn)更差, 在視聽言語感知任務(wù)中也更少受到視覺信息的影響, 即McGurk效應(yīng)發(fā)生率比正常兒童低(de Gelder, Vroomen, & van der Heide, 1991)。這可能是因為ASD兒童加工面部整體信息的能力較低, 無法有效利用視覺信息(即對視覺信息依賴程度低)。也有研究測量了被試的自閉癥譜系商數(shù)(autism spectrum quotient, AQ), 結(jié)果表明, 高AQ者的McGurk效應(yīng)比低AQ者少(Ujiie et al., 2018), 并且AQ得分與McGurk效應(yīng)發(fā)生率負相關(guān)(Ujiie et al., 2015), 即自閉特質(zhì)越高, McGurk效應(yīng)發(fā)生率越低, 這也與上述de Gelder等人(1991)的結(jié)論一致。另一方面, 聽力受損者(有人工耳蝸植入或配備有助聽器)和聽力正常者一樣會發(fā)生McGurk效應(yīng), 但是聽力受損者對視覺信息的依賴程度更高, McGurk效應(yīng)發(fā)生率也更高(Rouger, Fraysse, Deguine, & Barone, 2008)。這一結(jié)果在聽力受損兒童中得到了重復(fù)(石涯, 王永華, 李文靖, 2016)。此外, 聽力受損者的McGurk效應(yīng)會受到手語的影響:如果手語和唇形一致(但與聲音不一致), 則他們更容易報告聽到視覺信息的音節(jié)(手語或唇形), 這提示他們在視聽感知中非常依賴視覺信息(Bayard, Colin, & Leybaert, 2014)。最后, 視力受損者(從小失去了一只眼睛)的McGurk效應(yīng)發(fā)生率低于單眼(或雙眼)進行任務(wù)的視力正常者(Moro & Steeves, 2018), 這可能是因為視力受損者更傾向于依賴聽覺信息。
總體而言, 不同人群之間的比較均體現(xiàn)了視聽信息依賴程度對McGurk效應(yīng)的影響。然而, 組間比較存在的問題是:除了視聽信息依賴程度的差異, McGurk效應(yīng)還可能受到其它人群間差異的影響。所以, 未來研究可考慮直接操縱影響視聽信息依賴程度的因素, 提供更完善的因果關(guān)系證據(jù)。例如:可以考慮將Moro和Steeves (2018)的研究修改為組內(nèi)設(shè)計, 即比較同一組個體在單眼進行任務(wù)和雙眼進行任務(wù)時的McGurk效應(yīng)發(fā)生率。也可以考慮進行縱向追蹤研究(例如:比較樂器學(xué)習(xí)者學(xué)習(xí)樂器前后的McGurk效應(yīng)差異)。
3.2.2 視聽整合能力及其發(fā)展差異
個體在分別接收視聽信息后對二者的整合(即視聽整合)能力的差異也可能與McGurk效應(yīng)的個體差異有關(guān)。整合能力較強者可能更容易發(fā)生McGurk效應(yīng)。相對的, 整合能力較弱者McGurk效應(yīng)更少。研究表明, 視聽整合時間窗的范圍大小存在個體間差異, 并在一定程度上反映了視聽整合能力(Stevenson et al., 2012)——個體整合時間窗邊界越靠右(即在仍能發(fā)生整合的情況下, 視覺刺激呈現(xiàn)后, 聽覺刺激呈現(xiàn)得越晚; 也即整合時間窗的范圍越大), 該個體發(fā)生McGurk效應(yīng)的可能性也越大(Stevenson et al., 2012), 即視聽整合能力越強的個體, 越容易發(fā)生McGurk效應(yīng)。
關(guān)于McGurk效應(yīng)的發(fā)展研究也支持上述觀點(即視聽整合能力差異是造成McGurk效應(yīng)個體間變異的因素之一)。研究表明, 12歲前兒童的McGurk效應(yīng)發(fā)生率比成人低(Hockley & Polka, 1994; McGurk & MacDonald, 1976), 這可能是因為兒童的視聽整合能力尚在發(fā)展中(較低), 而成人的視聽整合能力已經(jīng)發(fā)展成熟(較高)。不過, 即使是4~5個月大的還未學(xué)會說話的嬰兒就已經(jīng)會發(fā)生McGurk效應(yīng)(Burnham & Dodd, 2004; Rosenblum et al., 1997)。即嬰兒在學(xué)會說話前, 視聽整合能力就已經(jīng)開始發(fā)展, 而且大約12歲左右就能發(fā)展到成人水平。所以兒童與成人的McGurk效應(yīng)差異可能就是來自視聽整合能力的差異。
綜上所述, 個體整合能力越強、發(fā)展越完善, McGurk效應(yīng)就越強。然而, 大部分研究都以McGurk效應(yīng)本身作為視聽整合能力的指標, 很少有研究利用別的指標測量視聽整合能力, 并與McGurk效應(yīng)的測量結(jié)果相比較。所以, 視聽整合能力與McGurk效應(yīng)的關(guān)系還需要進一步探究。這樣一方面有助于確認視聽整合能力差異是否確實是McGurk效應(yīng)個體間變異的來源, 另一方面有助于確認利用McGurk范式探究視聽整合的有效性。值得注意的是, 最近有研究發(fā)現(xiàn):個體在噪聲中利用視覺信息輔助聽覺理解句子的能力(也常被視為視聽整合能力的指標)與個體的McGurk效應(yīng)發(fā)生率沒有顯著相關(guān)(Van Engen, Xie, & Chandrasekaran, 2017)。這進一步警示我們, McGurk效應(yīng)發(fā)生率與視聽整合能力的關(guān)系需要更細致的探討。未來研究應(yīng)該采用更多指標(例如上文提到的視聽整合時間窗大小、對視聽刺激的反應(yīng)時、以及其它視聽整合相關(guān)任務(wù)等)評價視聽整合能力, 并探究這些指標與McGurk效應(yīng)的關(guān)系。
值得一提的是, 上述視聽整合能力的發(fā)展情況在漢語母語兒童中有不一致的結(jié)果。研究發(fā)現(xiàn)漢語母語的二年級、五年級小學(xué)生以及一年級大學(xué)生都表現(xiàn)出McGurk效應(yīng), 但這三類人之間的McGurk效應(yīng)發(fā)生率沒有差異, 即沒有表現(xiàn)出上述英語母語者的發(fā)展趨勢(李燕芳, 梅磊磊, 董奇, 2008)。后續(xù)研究發(fā)現(xiàn), 漢語母語兒童在視聽不一致、視聽一致、單獨聽覺條件下, 判斷聲音刺激的正確率沒有差異; 但是漢語母語大學(xué)生在視聽不一致條件下正確率低于單獨聽覺和視聽一致條件, 即成人更容易受視覺信息影響(李燕芳, 梅磊磊, 董奇, 2009)。這又與英語母語者的研究結(jié)果一致。這些研究體現(xiàn)出了語言文化差異與視聽整合能力發(fā)展的交互。下文將對語言文化差異的影響進行詳細闡述。
3.2.3 語言文化差異
McGurk效應(yīng)是一種言語感知現(xiàn)象, 具有不同文化背景(使用不同母語)的人在McGurk效應(yīng)上可能存在差異, 即語言文化差異也是造成McGurk效應(yīng)個體間變異的因素之一。研究發(fā)現(xiàn)日語母語者的McGurk效應(yīng)發(fā)生率比英語母語者低(Hisanaga, Sekiyama, Igasaki, & Murayama, 2016; Sekiyama & Tohkura, 1993)。這可能是由于日語母語者相比于英語母語者更少受到面部視覺信息的影響。在日本文化中, 注視別人面部是不禮貌的, 所以日本人在面對面交流中更傾向于使用聽覺信息, 而不是視覺信息。后續(xù)研究還發(fā)現(xiàn)漢語母語者的McGurk效應(yīng)發(fā)生率也比英語母語者低(Sekiyama, 1997)。
不過, 也有研究者沒有發(fā)現(xiàn)漢語、英語母語者之間的McGurk效應(yīng)差異(Magnotti, Mallick, Feng, Zhou, Zhou, & Beauchamp, 2015)。他們認為McGurk效應(yīng)本身就有較大的個體差異, 組間比較的樣本不宜太少, 于是采用較大樣本(307人)、較多McGurk刺激(9個)進行測量。結(jié)果表明McGurk效應(yīng)發(fā)生率在漢語、英語母語者人群內(nèi)部有較大的個體差異, 但在兩類人群之間整體而言沒有顯著差異。
除了McGurk效應(yīng)發(fā)生率的差異, 不同語言文化背景還可能影響個體在發(fā)生McGurk效應(yīng)時感知到的音節(jié)類型。研究發(fā)現(xiàn), 對于經(jīng)典的McGurk刺激(視覺“ga”聽覺“ba”), 英語母語者更多報告感知到“tha”, 而日語母語者更多報告感知到“da”。這可能與母語差異有關(guān)——日語中并沒有“th”的發(fā)音, 而英語日常生活中“tha”的發(fā)音多于“da”的發(fā)音(Burnham & Dodd, 2018)。
總體而言, 語言文化差異影響McGurk效應(yīng)發(fā)生率的研究結(jié)果不一致。其中獲得陽性結(jié)果的研究樣本量較小, 而大樣本研究沒有發(fā)現(xiàn)顯著差異??紤]到McGurk效應(yīng)發(fā)生率本身具有較大的個體差異, 所以語言文化因素究竟是不是McGurk效應(yīng)個體差異的來源, 仍舊存疑。一種解釋是:語言文化差異確實會對視聽言語感知產(chǎn)生影響(例如上文提到的音節(jié)感知類型差異), 只是對McGurk效應(yīng)發(fā)生率的影響不夠明顯。這可能是因為不同語言文化背景者對McGurk刺激的加工趨于某個相似的“閾限”——有研究表明, 即使McGurk效應(yīng)沒有發(fā)生, 視覺信息也已經(jīng)對聽覺感知產(chǎn)生了影響(Brancazio & Miller, 2005)。所以McGurk效應(yīng)的發(fā)生可能是連續(xù)的過程, 視覺信息的影響需要達到一定程度才會產(chǎn)生效應(yīng)(即存在某個“閾限”)。在世界文化交融的當今社會, 各國大學(xué)生被試在視聽言語感知中對視覺信息的加工越來越相似, 即達到McGurk“閾限”的程度越來越相似, 故難以體現(xiàn)出文化差異。所以未來研究除了考慮擴大樣本量之外, 還應(yīng)該選取更為典型的語言文化群體(而不是容易接觸到不同文化的大學(xué)生群體), 或許會有進一步發(fā)現(xiàn)。
動態(tài)人臉是一種包含很多信息的復(fù)雜刺激, 那么導(dǎo)致McGurk效應(yīng)發(fā)生的視覺信息究竟是人臉的什么信息?研究者們嘗試采用眼動實驗來探究此問題。目前的研究結(jié)果提示:引發(fā)McGurk效應(yīng)的視覺信息主要來自人臉的嘴部區(qū)域。但對嘴部的直接注視不是引起McGurk效應(yīng)的必要條件。除嘴部之外, 面部的其它區(qū)域同樣能提供少量但有效的視覺言語信息, 進而引發(fā)McGurk效應(yīng)。
在言語感知中, 視覺言語信息主要來自嘴部區(qū)域的運動。所以引發(fā)McGurk效應(yīng)的視覺信息也主要來自嘴部區(qū)域。有研究探討了眼動模式的個體差異與McGurk效應(yīng)個體差異的關(guān)系。結(jié)果表明, 容易產(chǎn)生McGurk效應(yīng)的個體看嘴部區(qū)域的時間更長, 且看嘴部區(qū)域的時間與McGurk效應(yīng)發(fā)生率正相關(guān)(Gurler et al., 2015)。類似的, 英語母語者的McGurk效應(yīng)發(fā)生率比日語母語者高, 而英語母語者看嘴部區(qū)域的時間也更長(Hisanaga et al., 2016)。另一方面, 采用雙任務(wù)范式的研究發(fā)現(xiàn), 相比于單任務(wù)條件, 在雙任務(wù)條件下McGurk效應(yīng)發(fā)生率更低, 并且被試對視覺刺激的面部區(qū)域注視更少, 對嘴部區(qū)域的注視也更少(Buchan & Munhall, 2012)。
但是, 也有不一致的結(jié)果——研究發(fā)現(xiàn), 被試是否看嘴部區(qū)域與McGurk效應(yīng)的變化并沒有關(guān)系(Hisanaga et al., 2016; Paré, Richler, ten Hove, & Munhall, 2003; Wilson et al., 2016)。這提示對嘴部區(qū)域的中央視野加工對McGurk效應(yīng)的發(fā)生并不是必須的, 外周視野就能獲取足夠誘發(fā)McGurk效應(yīng)的嘴部視覺言語信息。例如:Paré等人(2003)進行的一系列實驗發(fā)現(xiàn), McGurk效應(yīng)的感知與個體注視點是否在嘴部區(qū)域沒有相關(guān)。他們還直接控制了個體的注視點位置, 結(jié)果表明, 只要個體的注視點還在面部區(qū)域內(nèi), 無論是注視嘴部、眼睛、還是額頭, 都不影響McGurk效應(yīng)發(fā)生率。只有當個體注視點離開嘴部區(qū)域10°~20°時, McGurk效應(yīng)才會顯著減少(但仍然存在), 只有離開嘴部區(qū)域60°以上, McGurk效應(yīng)才會完全消失。
考慮到上述不一致的研究結(jié)果, 嘴部區(qū)域注視時間與McGurk效應(yīng)發(fā)生率的關(guān)系還需要進一步探究。已有研究結(jié)果不一致可能有兩個原因:(1)不同研究之間使用的研究范式或分析方法不同。例如:Buchan和Munhall (2012)比較的是雙任務(wù)和單任務(wù)條件下的人群內(nèi)差異; Gurler等人(2015)比較的是自由注視狀態(tài)下的人群間差異; Paré等人(2003)的研究不是自由注視(他們嘗試控制被試的注視位置), 并且記錄眼動的方法與其他研究不同(使用粘附人眼角膜的感應(yīng)線圈, 而非其他研究常用的紅外捕捉技術(shù))。以上實驗設(shè)計或操作上的差異都可能導(dǎo)致研究之間結(jié)果不同。(2)不同研究之間的興趣區(qū)劃分方法存在差異。例如Gurler等人(2015)以及Buchan和Munhall (2012)采用的是方形興趣區(qū), 而Wilson等人(2016)則采用圓形興趣區(qū), 這也可能影響注視時間的結(jié)果。
除了嘴部區(qū)域, 面部其它區(qū)域同樣能提供足以誘發(fā)McGurk效應(yīng)的視覺言語信息。研究發(fā)現(xiàn), 即使不呈現(xiàn)嘴部區(qū)域(將視頻沿對角線切分, 只呈現(xiàn)沒有嘴部的那一部分; 或?qū)⒁曨l沿水平中軸切分, 只呈現(xiàn)上半部分), McGurk效應(yīng)也不會完全消失(Jordan & Thomas, 2011)。在使用其它范式的視聽整合研究中也發(fā)現(xiàn)了類似的效應(yīng)——即使消除嘴部運動信息(只留下面部其它區(qū)域的運動信息), 視聽整合仍然會發(fā)生(Thomas & Jordan, 2004)。遺憾的是, 這些研究均沒有采用眼動技術(shù)。而在其它采用眼動技術(shù)的McGurk效應(yīng)研究中, 研究者都只關(guān)注了嘴部以及眼睛區(qū)域, 忽略了面部其它區(qū)域。所以未來研究除了關(guān)注嘴部區(qū)域, 還應(yīng)該比較面部其它區(qū)域的眼動差異(例如鼻子、臉頰等嘴部周邊區(qū)域。即在保證興趣區(qū)大小基本一致的前提下, 盡量讓所有興趣區(qū)覆蓋整個面部區(qū)域)。這可能為我們進一步理解McGurk效應(yīng)提供證據(jù)。例如:我們最近的一項研究表明, 與獎賞聯(lián)結(jié)的面孔(相比于未與獎賞聯(lián)結(jié)的面孔)發(fā)生更多McGurk效應(yīng), 且被試對其嘴部周邊區(qū)域(鼻子、臉頰)的注視時間更長、注視點個數(shù)更多; 但對嘴部區(qū)域的注視時間卻反而更短、注視點個數(shù)更少。該結(jié)果也支持了上文提到的推論(面部其它區(qū)域也能提供有效的視覺言語信息; 而對嘴部區(qū)域的注視不是發(fā)生McGurk效應(yīng)的必要條件)。
大腦接收了視聽信息的輸入之后, 開始對其進行整合加工。此時涉及的問題是:大腦在接收刺激后的不同階段里如何加工視聽刺激, 進而產(chǎn)生McGurk效應(yīng)?研究者們嘗試用具有較高時間分辨率的腦電技術(shù)(electroencephalogram, EEG)或是腦磁圖技術(shù)(magnetoencephalography, MEG)回答該問題。目前的研究結(jié)果提示:對視聽信息的整合發(fā)生在加工早期階段; 而在加工晚期階段, 大腦會嘗試解決McGurk刺激的視聽不一致沖突。
發(fā)生McGurk效應(yīng)時, 視聽整合過程在加工早期就已經(jīng)發(fā)生。研究發(fā)現(xiàn), 對于McGurk刺激而言, 當發(fā)生McGurk效應(yīng)時, N1波幅相比于視聽一致刺激更小; 而且相比于沒有發(fā)生McGurk效應(yīng)的McGurk刺激也更小(Romero, Senkowski, & Keil, 2015)。N1主要由聽覺刺激造成。相比于單獨聽覺刺激, 視聽刺激引發(fā)的N1波幅更小, 這可能反映了視聽整合過程中視覺信息利用率的增加(Besle, Fort, Delpuech, & Giard, 2004)。所以, 發(fā)生McGurk效應(yīng)時的N1波幅降低可能提示了此時視覺信息對聽覺信息的影響更明顯。而且N1是事件相關(guān)電位(event related potential, ERP)的第一個負波, 這也提示這種影響發(fā)生在加工早期階段。神經(jīng)振蕩結(jié)果也表明, 當McGurk效應(yīng)發(fā)生時, Beta頻段的抑制相比于視聽一致的刺激在加工早期(0~500 ms)更強 (Romero et al., 2015)。這與上述N1結(jié)果類似, 提示了McGurk效應(yīng)的發(fā)生(相比于視聽一致的情況)需要更強的視聽整合, 而且這種整合在加工早期就已經(jīng)發(fā)生。
采用oddball范式進行的研究也支持McGurk效應(yīng)中的視聽整合過程發(fā)生在加工早期的觀點。這類研究將視聽一致刺激作為標準刺激, McGurk刺激作為偏差刺激, 比較McGurk刺激和視聽一致刺激的ERP。結(jié)果表明, 在早期加工階段(聽覺刺激呈現(xiàn)后200~300 ms), McGurk刺激會誘發(fā)失匹配負波(mismatch negativity, MMN) (Saint- Amour, De Sanctis, Molholma, Ritter, & Foxe, 2007)。MMN反映了對出現(xiàn)頻率較低的新異聽覺刺激的探知; 反映了大腦將當前聽覺刺激與之前的一系列聽覺刺激進行比較的加工過程。當聽覺感知改變時, 就會產(chǎn)生MMN。因此, MMN可以作為聽覺辨別能力的電生理指標。MMN常由聽覺刺激的物理屬性改變而誘發(fā)。不過, 對McGurk刺激而言, 聽覺刺激的物理屬性沒有發(fā)生變化, 但主觀感知變化也引起了MMN, 這被稱為McGurk-MMN。McGurk-MMN在很多研究中得到了重復(fù)(Colin et al., 2002; Colin, Radeau, Soquet, & Deltenre, 2004; Eskelund, MacDonald, & Andersen, 2015)。這提示在加工McGurk刺激的早期階段, 個體就已經(jīng)感知到了新異的聽覺刺激(雖然聽覺刺激的物理屬性實際上并沒有改變), 即視聽整合已經(jīng)發(fā)生了(辛昕, 任桂琴, 李金彩, 唐曉雨, 2017)。采用類似oddball范式的MEG研究也表明, 發(fā)生McGurk效應(yīng)時, 在早期加工階段(聽覺刺激呈現(xiàn)后160 ms以及270 ms), 不同腦區(qū)的Gamma振蕩活動會增強(Kaiser, Hertrich, Ackermann, Mathiak, & Lutzenberger, 2005)。而Gamma神經(jīng)振蕩與信息整合加工有關(guān)(錢浩悅, 黃逸慧, 高湘萍, 2018)。這與上述McGurk-MMN的結(jié)果類似, 即此時視聽整合已經(jīng)開始發(fā)生, 大腦探測到了聽覺信號的“改變” (實際上是主觀感受改變, 物理刺激并沒有變化)。
在上述McGurk-MMN的相關(guān)研究中(采用oddball范式), 研究者主要比較了McGurk刺激(偏差刺激)與視聽一致刺激(標準刺激)的差異, 但是這類研究忽略了以下問題:此時產(chǎn)生的MMN究竟是由于聽覺感知發(fā)生改變, 還是由于視覺信息與聽覺信息不一致?所以, 在未來的相關(guān)研究中應(yīng)該考慮加入一組對照條件——將視聽一致刺激作為標準刺激、視聽不一致且不會誘發(fā)McGurk效應(yīng)的刺激作為偏差刺激。依據(jù)聽覺感知發(fā)生改變才會發(fā)生MMN的假設(shè), 這種情況下的視聽不一致刺激相比于視聽一致刺激應(yīng)該不會產(chǎn)生MMN。這一推論值得進一步探究。
在加工的相對晚期階段(上述視聽整合過程已經(jīng)開始之后), 大腦會嘗試解決視聽不一致沖突(McGurk刺激的視聽信息實際上是不一致的, 所以可能發(fā)生沖突)。研究表明, 在刺激呈現(xiàn)后500~ 800 ms, McGurk刺激相比于視聽一致刺激有更強的Beta頻段抑制。依據(jù)已有研究, 視聽不一致刺激的Beta頻段抑制比視聽一致刺激強(Lange, Christian, & Schnitzler, 2013), 這可能反映了視聽不一致的沖突效應(yīng)以及自上而下的沖突解決過程。即大腦可能在加工的相對晚期階段才探測到視聽不一致沖突, 并且嘗試解決。另一方面, 采用oddball范式的MEG研究也表明, 發(fā)生McGurk效應(yīng)時, 加工晚期的Gamma頻段活動會增強, 這也提示了與聽覺信息不一致的視覺信息對聽覺感知的影響(Kaiser et al., 2005)。有趣的是, 即使被試報告感知到視聽不一致, McGurk效應(yīng)仍會發(fā)生(Soto-Faraco & Alsius, 2009)。這提示, 即使視聽不一致沖突沒有解決, 視聽整合也會發(fā)生, 二者是相對獨立的過程。
除了時間進程問題, 在大腦加工McGurk刺激的過程中, 另一個重要問題是:哪些腦區(qū)參與了加工以及這些腦區(qū)起何作用?研究者們嘗試用具有較高空間分辨率的功能性磁共振成像技術(shù)(functional magnetic resonance imaging, fMRI)、經(jīng)顱磁刺激技術(shù)(transcranial magnetic stimulation, TMS)和MEG回答此問題。目前的研究結(jié)果提示:顳上皮層(superior temporal cortex)與視聽整合過程相關(guān); 額下皮層(inferior frontal cortex)與視聽不一致沖突相關(guān)。
在發(fā)生McGurk效應(yīng)的過程中, 顳上皮層與視聽整合密切相關(guān)(Beauchamp et al., 2010; Miller & D'Esposito, 2005; Nath & Beauchamp, 2012)。早期fMRI研究表明, 相比于沒有發(fā)生McGurk效應(yīng), 當發(fā)生McGurk效應(yīng)時, 顳上皮層的激活更強(Jones & Callan, 2003)。對McGurk效應(yīng)個體差異的神經(jīng)基礎(chǔ)研究發(fā)現(xiàn), McGurk效應(yīng)發(fā)生率在50%以上的被試(強McGurk感知者)相比于發(fā)生率在50%以下的被試(弱McGurk感知者), 左側(cè)顳上溝(left superior temporal sulcus, lSTS)的激活更強, 且其激活程度與McGurk效應(yīng)發(fā)生率有顯著正相關(guān)(Nath & Beauchamp, 2012)。該結(jié)果在6~12歲兒童的研究中得到了重復(fù)(Nath, Fava, & Beauchamp, 2011)。更重要的是, Beauchamp等人(2010)使用fMRI技術(shù)定位每個被試的STS, 之后使用TMS抑制STS的激活。結(jié)果表明, 使用TMS刺激STS之后, 被試的McGurk效應(yīng)發(fā)生率降低了, 但是對一般視聽材料的判斷不受影響。類似的, Marques, Lapenta, Merabet, Bolognini和Boggio (2014)使用經(jīng)顱電刺激技術(shù)(transcranial direct current stimulation)刺激STS, 也得到了與Beauchamp等人(2010)一致的結(jié)果。在EEG研究中, Saint-Amour等人(2007)對上文提到的McGurk-MMN進行了溯源分析, 發(fā)現(xiàn)了左側(cè)顳葉皮層的主導(dǎo)效應(yīng)。MEG研究也發(fā)現(xiàn), 在發(fā)生McGurk效應(yīng)之前會伴隨著多個腦區(qū)的神經(jīng)振蕩, 尤其是左側(cè)顳上回(left superior temporal gyrus)的Beta神經(jīng)振蕩, 研究者認為這提示了視聽整合的過程(Keil, Müller, Ihssen, & Weisz, 2012)。
McGurk效應(yīng)與顳上皮層的關(guān)系研究結(jié)果較為一致, 但仍有進一步探索的空間。最近, 一項視聽整合的研究發(fā)現(xiàn), STS對視聽整合的反應(yīng)可以再細分:STS的某些體素(voxels)對面孔的嘴部運動更敏感, 而另一些體素對面孔的眼部運動更敏感。當視聽信息呈現(xiàn)時, STS激活, 且只有對嘴部運動敏感的體素會對聽覺刺激有較強的反應(yīng)。這提示STS腦區(qū)在整合視聽信息的過程中, 視覺和聽覺信息都會一起加工, 但是對整合影響較大的視覺信息(例如嘴部運動)相比于對整合影響較小的視覺信息(例如眼部運動)在其中的加工方式可能不同(Zhu & Beauchamp, 2017)。該研究提示, 對McGurk效應(yīng)而言, STS的激活也可能有類似的效應(yīng)(例如:對嘴部運動敏感的體素或許可以預(yù)測McGurk效應(yīng)發(fā)生與否, 而對眼部運動敏感的體素則不能)。未來值得從細分腦區(qū)激活模式的角度進一步探討STS在McGurk效應(yīng)中的作用。
除了顳上皮層, 另一個備受關(guān)注的McGurk效應(yīng)相關(guān)腦區(qū)是額下皮層。該腦區(qū)與視聽不一致沖突有關(guān)(Fernández et al., 2017; Gau & Noppeney, 2016; Nath & Beauchamp, 2012)。在早期的McGurk效應(yīng)fMRI研究中就發(fā)現(xiàn)了額下皮層的激活(Jones & Callan, 2003)。在MEG研究中也發(fā)現(xiàn)了左側(cè)額下皮層的神經(jīng)振蕩活動增強(Kaiser et al., 2005)。對McGurk效應(yīng)個體差異的神經(jīng)基礎(chǔ)研究也發(fā)現(xiàn), 相比于視聽一致刺激, 額下回(inferior frontal gyrus, IFG)對視聽不一致刺激(包括McGurk刺激)的激活更強。但是IFG的激活在強McGurk感知者和弱McGurk感知者之間沒有差異。研究者由此推斷:IFG可能與視聽不一致沖突有關(guān), 但與視聽整合過程關(guān)系不大(Nath & Beauchamp, 2012)。還有研究發(fā)現(xiàn), 相比于沒有發(fā)生McGurk效應(yīng)的情況, 當發(fā)生McGurk效應(yīng)時, IFG的激活更強。而且與沖突探測相關(guān)的腦區(qū)——前扣帶回(anterior cingulatecortex, ACC)的激活也更強(Fernández et al., 2017)。這也提示了McGurk效應(yīng)中存在視聽不一致沖突的過程。
Gau和Noppeney (2016)的研究也涉及額下皮層激活模式與McGurk效應(yīng)的關(guān)系, 但與上述Fernández等人(2017)的研究結(jié)果不一致。具體而言, Gau和Noppeney (2016) 使用fMRI探究預(yù)期對McGurk效應(yīng)的影響。在該研究中, 研究者明確告訴被試這一組刺激的視聽信息是一致還是不一致(即“告知一致”和“告知不一致”條件)。結(jié)果表明, 相比于告知不一致條件, 在告知一致條件下, 被試的McGurk效應(yīng)發(fā)生率更高(即被試預(yù)期刺激是視聽一致時更容易發(fā)生McGurk效應(yīng))。在神經(jīng)層面, 左額下溝(left inferior frontal sulcus, lIFS)在視聽不一致時(相比于視聽一致)激活更強, 這與上述Fernández等人(2017)的結(jié)果相似。但當被試發(fā)生了McGurk效應(yīng)(相比于沒有發(fā)生McGurk效應(yīng))時, lIFS激活減弱。而且, 這種效應(yīng)在被試預(yù)期視聽一致(發(fā)生更多McGurk效應(yīng))時比預(yù)期視聽不一致(發(fā)生更少McGurk效應(yīng))時更明顯。這似乎與Fernández等人(2017)的結(jié)果相反——Fernández等人(2017)發(fā)現(xiàn):發(fā)生McGurk效應(yīng)時, IFG激活更強。
即使有不一致的研究結(jié)果, 仍可以肯定的是:額下皮層在McGurk效應(yīng)中與視聽不一致沖突有關(guān)。只是目前還需要進一步探究其激活模式。上述研究結(jié)果不一致可能有三個原因:(1)兩項研究的范式不同。Fernández等人(2017)關(guān)注的是自然狀態(tài)下的McGurk刺激感知; 而Gau和Noppeney (2016)關(guān)注的是有心理預(yù)期條件下對McGurk刺激的感知。即后者可能還包括了預(yù)期的效應(yīng)。(2) fMRI無法細致區(qū)分加工的時間進程。額下皮層確實與視聽不一致沖突有關(guān), 但是其在沖突解決的過程中可能有不同的激活模式。具體而言:大腦探測到?jīng)_突并剛開始嘗試解決時, 額下皮層激活增強; 而激活越強, 就越有利于沖突解決, 進而有利于McGurk效應(yīng)的發(fā)生。此時比較McGurk效應(yīng)發(fā)生和沒發(fā)生時的額下皮層激活程度, 就可能得到Fernández等人(2017)的結(jié)果。但當過了大腦嘗試解決沖突的時間段, 如果發(fā)生了McGurk效應(yīng), 則可能沖突已經(jīng)基本解決。所以由于沖突變?nèi)? 額下皮層的激活也就隨之減小。相對的, 如果沒有發(fā)生McGurk效應(yīng), 則沖突還沒有解決, 其激活可能仍然較強。此時比較McGurk效應(yīng)發(fā)生和沒發(fā)生時的額下皮層激活程度, 就可能得到Gau和Noppeney (2016)的結(jié)果。(3)額下皮層的不同區(qū)域可能在不同的時間進程上起到不同的作用。Fernández等人(2017)定位的是IFG, 而Gau和Noppeney (2016)定位的是IFS, 位置稍有區(qū)別。二者可能在上述加工時間進程中起到承接的作用——隨著沖突解決程度的改變, 額下回的激活模式也隨之改變。這個問題值得進一步采用時間、空間分辨率都較高的MEG技術(shù)深入探究。
綜上所述, 對McGurk效應(yīng)的相關(guān)腦區(qū)分析仍有較大探索空間。除了上述額下皮層激活模式之外, 未來研究還可以考慮進行功能連接分析。例如對刺激的加工是如何在顳上皮層與額下皮層二者之間傳遞的?這有助于我們理解McGurk效應(yīng)中的視聽整合過程和視聽不一致沖突過程。還可以考慮進行多體素模式分析(multivoxel pattern analysis, MVPA), 以探究McGurk刺激相比于視聽一致刺激或是不能誘發(fā)McGurk效應(yīng)的視聽不一致刺激的大腦激活模式有何差異。這有助于我們進一步理解大腦對McGurk刺激的加工相比于其他視聽刺激有何本質(zhì)差別。
McGurk效應(yīng)反映了視覺信息對聽覺感知的影響。該效應(yīng)提出至今40多年, 仍舊是視聽言語感知研究中的熱點問題。本文嘗試對McGurk效應(yīng)的研究要點進行系統(tǒng)性梳理, 概括如下:(1) McGurk效應(yīng)的測量與界定:誘發(fā)McGurk效應(yīng)需要特定輔音的視頻和特定輔音的音頻組合。目前較常用視覺輔音“g”和聽覺輔音“b”的組合。相關(guān)研究中最普遍的因變量指標為McGurk效應(yīng)發(fā)生率, 即對McGurk刺激實施多次測量后計算其中發(fā)生McGurk效應(yīng)的次數(shù)比例。多數(shù)研究將McGurk效應(yīng)界定為:只要感知到不同于實際聽覺刺激的音節(jié), 就算是發(fā)生了McGurk效應(yīng)。(2) McGurk效應(yīng)的影響因素:包括物理刺激(例如:視覺、聽覺刺激、視聽刺激異步性)、認知因素(例如:注意分配、心理預(yù)期)等造成個體內(nèi)變異的因素。還包括視聽信息依賴程度、視聽整合能力、語言文化差異等造成個體間變異的因素。(3) McGurk效應(yīng)的認知神經(jīng)機制:McGurk效應(yīng)發(fā)生時, 視覺言語信息主要來自說話者的嘴部區(qū)域(不過, 說話者面部其它區(qū)域也能提供有效的視覺言語信息)。視聽整合過程發(fā)生在加工早期階段、與顳上皮層有關(guān)。視聽不一致沖突發(fā)生在加工晚期階段、與額下皮層有關(guān)。
雖然前人研究對McGurk效應(yīng)進行了細致深入的探討, 但仍然存在一些問題與不足, 這在上文已經(jīng)有所討論(例如:現(xiàn)有研究很少關(guān)注面孔社會屬性對McGurk效應(yīng)的影響, 也很少關(guān)注面部其它區(qū)域提供的視覺言語信息, 而且眼動和fMRI研究中存在不一致的結(jié)果等)。下文將從McGurk效應(yīng)中單通道信息加工與視聽整合的關(guān)系、McGurk效應(yīng)的刺激間變異、與計算模型的關(guān)系、對后續(xù)認知過程的影響、以及范式的標準化與推廣性出發(fā), 結(jié)合已有研究的不足, 提出未來研究的可能方向。
視聽整合過程應(yīng)該涉及兩個方面:一是加工外界輸入的單通道的視覺和聽覺信息; 二是對輸入的視聽信息進行整合。遺憾的是, 很少有研究細致區(qū)分McGurk效應(yīng)發(fā)生率的改變究竟是來自哪個方面, 大部分研究只是粗略地解釋為“某因素影響了視聽整合過程”, 而沒有進一步討論該因素究竟是直接影響了視聽整合能力本身, 還是影響了個體對單通道信息的加工過程(視聽整合能力可能不變), 進而影響了視聽整合的程度。這是未來研究在解釋McGurk效應(yīng)發(fā)生率的變化時需要注意的問題。換言之, 雖然研究者們公認發(fā)生McGurk效應(yīng)就是發(fā)生了視聽整合, 但是直接把McGurk效應(yīng)發(fā)生率等同于視聽整合能力顯得過于武斷。因為McGurk效應(yīng)發(fā)生率(即視聽整合的程度)除了與個體視聽整合能力有關(guān)之外, 還與個體對單通道信息(視覺、聽覺信息)的加工有關(guān)(也見本文3.2)。相應(yīng)的, 在神經(jīng)機制方面, 已有研究大都關(guān)注McGurk效應(yīng)中的視聽整合過程(最近也有研究開始關(guān)注McGurk效應(yīng)與視聽不一致沖突, 見本文4.3), 但很少有研究關(guān)注對單通道信息的加工在McGurk效應(yīng)神經(jīng)機制中所起的作用, 這在未來同樣值得進一步探討。
以對視覺信息的加工過程(即唇讀過程)為例——我們推測, McGurk效應(yīng)的發(fā)生與否可能與個體對視覺信息的加工策略(傾向于自上而下地控制還是自下而上地反應(yīng))有關(guān), 這一假設(shè)主要基于唇讀的神經(jīng)機制研究。研究表明, McGurk效應(yīng)的發(fā)生率與唇讀能力顯著正相關(guān)(Strand et al., 2014)。而聽力正常者唇讀過程的神經(jīng)機制與視聽整合過程很相似——唇讀與顳上皮層的激活相關(guān)(Macsweeney, et al., 2000)。然而, 聽力障礙者的唇讀卻是與海馬和后部扣帶皮層的活動相關(guān), 而非顳上皮層(Macsweeney, et al., 2002)。其中, 海馬的激活提示了記憶在唇讀中的重要作用, 而后部扣帶皮層則可能是負責(zé)將記憶中的語言知識與外部輸入的視覺信息進行比較, 進而完成言語感知。這提示聽力障礙者在對視覺信息的加工過程(即唇讀過程)中更傾向于采取自上而下的加工策略。而聽力正常者可能只在更困難的言語加工情境下(例如有噪音時)才調(diào)動這種自上而下的加工(張明, 陳騏, 2003)。所以, 我們推測, 不同加工策略并不是非此即彼, 而是連續(xù)變化、有所權(quán)重, 而個體加工視覺信息時采取的兩種加工策略的權(quán)重可能與McGurk效應(yīng)有關(guān)。
McGurk效應(yīng)存在較大的刺激間變異。即不同的McGurk刺激(例如不同的說話人、不同的視聽音節(jié)組合)對同一個被試而言, 其McGurk效應(yīng)發(fā)生率可能有較大差異(Mallick et al., 2015)。目前大部分研究都只采用1個或2個McGurk刺激, 所以在進行研究之間的比較時, 刺激間的變異也可能導(dǎo)致研究結(jié)果差異。但很少有研究者考慮這個問題。未來研究可以考慮使用多個McGurk刺激, 以期降低McGurk效應(yīng)的刺激間變異的影響。不過, 這樣也會帶來另一個問題:如何控制本研究中的刺激間變異。
研究者可以考慮使用McGurk效應(yīng)的差異噪聲編碼模型(noisy encoding of disparity model, NED, Magnotti & Beauchamp, 2015)來分離McGurk效應(yīng)的刺激間變異。該模型認為不同個體受視覺信息影響的程度、以及表征視聽信息的清晰度不同, 不同刺激引起McGurk效應(yīng)的“能力”也不同(有的刺激更容易誘發(fā)McGurk效應(yīng), 有的更不容易), 這些因素共同影響McGurk效應(yīng)是否發(fā)生。相應(yīng)地, NED模型包括三個參數(shù):感知噪聲(sensory noise,s)、區(qū)別閾限(disparity threshold, T)、刺激差異(stimulus disparity, D)。其中, 感知噪聲(σ)描述了個體在表征視聽信息時的清晰、準確程度。感知噪聲越低, 表征越清晰。區(qū)別閾限(T)描述了個體依據(jù)視覺信息進行判斷的傾向高低。區(qū)別閾限越高, 個體越傾向于依賴視覺信息進行判斷(即更可能產(chǎn)生McGurk效應(yīng))。感知噪聲和區(qū)別閾限都是描述個體間變異的參數(shù)。而刺激差異(D)描述了單個McGurk刺激引起McGurk效應(yīng)的可能性大小, 是描述刺激間變異的參數(shù)。該模型區(qū)分了刺激引起的變異和個體的內(nèi)部差異, 這讓研究者可以利用該模型分離出由刺激的差異帶來的McGurk效應(yīng)變異。所以, 未來研究可以考慮采用多個McGurk刺激、并使用NED模型來控制刺激間差異的影響??梢钥紤]在經(jīng)過預(yù)實驗之后, 篩選出刺激差異相似的McGurk刺激。也可考慮不直接比較McGurk效應(yīng)發(fā)生率, 而是比較模型擬合后的個體相關(guān)參數(shù), 即感知噪聲和區(qū)別閾限的變化。這樣一方面可以增加結(jié)論的可推廣性, 另一方面可以控制由于增加McGurk刺激數(shù)量而帶來的刺激差異混淆。尤其是涉及使用不同刺激進行組間比較的實驗、或是不同刺激在被試間交叉平衡的實驗。
除了上文探討的腦機制相關(guān)研究, 計算模型研究也嘗試從新的角度對McGurk效應(yīng)的機制進行解釋(Marques et al., 2016; Samuel, 2011)。例如上文已經(jīng)提到的分層預(yù)測編碼模型(Olasagasti et al., 2015)以及NED模型(Magnotti & Beauchamp, 2015)。未來研究應(yīng)考慮將腦科學(xué)技術(shù)與計算模型相結(jié)合。不同于通過實驗操縱或是利用神經(jīng)生理技術(shù)來探究機制的方法, 計算模型研究嘗試先假定其中的加工過程, 并利用不同的參數(shù)來描述不同的加工過程, 參數(shù)在其中代表的意義與特定加工過程相對應(yīng)。這可能為我們理解某個認知過程提供新的思路。但是, 計算模型比較依賴事先對模型的假設(shè), 其參數(shù)擬合大多是依據(jù)行為結(jié)果(例如McGurk效應(yīng)發(fā)生率)或是視聽刺激的物理參數(shù), 這與其它探討McGurk效應(yīng)腦機制的研究(例如EEG、fMRI結(jié)果)關(guān)聯(lián)較小。遺憾的是, 很少有McGurk效應(yīng)的研究將神經(jīng)生理技術(shù)與計算模型相結(jié)合。所以, 未來的計算模型研究可以考慮利用EEG、fMRI結(jié)果等神經(jīng)科學(xué)指標進行參數(shù)擬合, 抑或是神經(jīng)科學(xué)研究可以考慮利用計算模型尋找相應(yīng)參數(shù)的對應(yīng)腦區(qū), 為模型的參數(shù)找到神經(jīng)基礎(chǔ)。例如:將神經(jīng)生理結(jié)果與NED模型相結(jié)合, 嘗試尋找刺激差異(D)、感知噪聲(σ)、區(qū)別閾限(T)的相關(guān)腦區(qū)。這有助于我們定位哪些腦區(qū)負責(zé)編碼刺激差異、哪些腦區(qū)負責(zé)表征視聽信息的清晰度、以及哪些腦區(qū)負責(zé)對視覺信息的利用等。再如:最近提出的多感覺語言感知的因果推斷模型(model of causal inference in multisensory speech perception, Magnotti & Beauchamp, 2017)認為, 人們在面對多通道信息時并不是直接進行整合, 而是先判斷這些不同通道的信息是否同源的可能性(因果推斷), 并據(jù)此給“整合”或“不整合”分配權(quán)重——即在面對視聽不一致的McGurk刺激時, 大腦會先判斷視聽信息是來自同一個人的可能性(以及不是來自同一個人的可能性), 并據(jù)此給“整合”或“不整合”命令分配權(quán)重、并平均表征。在完成因果推斷之后, 如果執(zhí)行“整合”命令, 則會產(chǎn)生McGurk效應(yīng); 反之, 則不會發(fā)生McGurk效應(yīng)。這提示我們, 除了視聽整合過程和視聽不一致沖突之外, 在那之前的因果推斷過程可能也是發(fā)生McGurk效應(yīng)時的一個步驟。為之尋找相關(guān)神經(jīng)基礎(chǔ)有助于我們補充、完善對McGurk效應(yīng)機制的理解。
多數(shù)研究都在關(guān)注影響McGurk效應(yīng)的因素, 或是直接探討McGurk效應(yīng)的機制, 很少有研究關(guān)注McGurk效應(yīng)發(fā)生之后的“后續(xù)影響”。即McGurk效應(yīng)是否以及如何影響其他認知過程。圍繞這個要點, 可以提出很多有趣的研究問題。例如:有研究發(fā)現(xiàn), 當被試感受過McGurk刺激之后, 在接下來的單獨聲音判斷任務(wù)中, 被試會更傾向于認為聽到的聲音是之前看到的嘴型的聲音。即McGurk效應(yīng)會重新校準個體對聽覺語音的識別(Bertelson et al., 2003)。類似的, 另一項研究也發(fā)現(xiàn), 當McGurk效應(yīng)發(fā)生(聽覺“aba”和視覺“aga”被感知為“ada”)之后, 對純聽覺“aba”的判斷更容易被錯誤地知覺為“ada” (McGurk知覺)。而且當這種情況發(fā)生時, 大腦的聽覺皮層的激活模式與實際聽到“ada”時更相似(相比于沒有把純聽覺“aba”錯誤地知覺為“ada”的情況)。這提示當感知到McGurk效應(yīng)時, 大腦的神經(jīng)表征模式會從表征“aba”向“ada”轉(zhuǎn)換, 這會影響到后續(xù)的純聽覺任務(wù)(Lüttke, Ekman, van Gerven, & de Lange, 2016)。這些研究都提示, McGurk效應(yīng)的發(fā)生確實會對后續(xù)認知過程產(chǎn)生影響, 探究該問題有助于我們更加全面地認識McGurk效應(yīng)。與此相關(guān)的另一個有趣問題是:在McGurk效應(yīng)研究中, 刺激材料多采用的是無意義音節(jié)(例如聽覺“ba”和視覺“ga”感知到“da”)。但有少部分研究采用的是詞匯刺激(例如:聽覺“bait”和視覺“gate”感知到“date”, Alsius et al., 2005, 2007)。那么當采用詞匯刺激時, McGurk效應(yīng)發(fā)生(或沒發(fā)生)后的語義激活情況如何變化?是激活了聽覺詞的語義、還是視覺詞的語義、還是整合后感知的語義?抑或是所有語義都有激活, 只是激活程度不同?這有助于我們理解McGurk效應(yīng)發(fā)生后, 原本的聽覺與視覺刺激在加工過程中如何變化。
雖然對McGurk效應(yīng)的研究很多, 但不同研究之間在細節(jié)上存在較大差異, 研究范式的標準化是未來需要重視的問題, 主要包括:采用標準化刺激、使用一致的McGurk效應(yīng)界定標準、在實驗中加入填充試次、報告完整的描述統(tǒng)計結(jié)果。Alsius等人(2018)嘗試對McGurk效應(yīng)的強度進行元分析。但在初步篩出的276項研究中, 最終符合元分析標準的只有21項。而在這21項研究之中, 只有2項研究用表格報告了均值標準差; 不同研究之間范式的使用也千差萬別。而且, 考慮到McGurk效應(yīng)的刺激間變異和個體間變異, 在確定造成這些變異的主要原因之前(即可能的調(diào)節(jié)變量), 對McGurk效應(yīng)的強度進行元分析似乎是不可能的。這強烈提示我們:在未來的研究中, 應(yīng)注意以下問題:(1)采用標準化刺激。研究者們應(yīng)該建立標準McGurk刺激的開放數(shù)據(jù)庫, 一方面免去自行錄制視頻的投入, 另一方面可以更好地控制McGurk效應(yīng)的刺激間變異, 有助于進行研究間的比較。(2)使用一致的McGurk效應(yīng)界定標準。建議采用寬松的McGurk效應(yīng)界定標準。即只要聽覺感知不同于實際的聽覺刺激, 就算是發(fā)生了McGurk效應(yīng)(Alsius et al., 2018; Tiippana, 2014)。(3)在實驗中加入填充試次。建議除了視聽一致刺激之外, 增加單獨聽覺的條件作為填充試次, 以確認在McGurk效應(yīng)中確實是視覺信息對聽覺感知造成了影響, 而不是被試聽覺感知本身的問題(Alsius et al., 2018)。(4)應(yīng)該報告完整的描述性統(tǒng)計結(jié)果, 這是將來進行元分析的必要數(shù)據(jù)。
最后, 研究者還需要注意McGurk效應(yīng)的推廣性問題——將McGurk效應(yīng)的研究結(jié)論推廣到視聽一致的言語感知情景中時, 需要謹慎(Alsius et al., 2018)。因為McGurk效應(yīng)的加工過程無論在現(xiàn)象上還是神經(jīng)上都與視聽一致時的加工過程不完全一樣。主要體現(xiàn)在以下研究中:(1)個體對視聽一致刺激的加工不涉及視聽沖突, 但對McGurk刺激的加工可能涉及視聽不一致沖突的探測和解決(Fernández et al., 2017)。而且McGurk效應(yīng)的發(fā)生率與探測視聽不一致的能力(分辨真實的視聽一致刺激和McGurk刺激)有顯著負相關(guān)(Strand et al., 2014)。(2)相比于McGurk刺激, 顳上皮層對視聽一致刺激更偏好, 即對視聽一致刺激的激活更強(Lüttke, Ekman, van Gerven, & de Lange, 2015)。(3)個體的McGurk效應(yīng)發(fā)生率與個體在噪聲中利用視覺信息輔助聽覺理解句子的能力沒有顯著相關(guān)。而后者的刺激主要是視聽一致刺激。這提示我們McGurk效應(yīng)不一定能直接替代對視聽一致刺激的研究(Van Engen et al., 2017)。
雷江華, 方俊明. (2005). 聾人唇讀的大腦機制研究.(1), 10–12.
李燕芳, 梅磊磊, 董奇. (2008). 漢語母語者視聽雙通道言語知覺的特點及發(fā)展研究.,(3), 43–47.
李燕芳, 梅磊磊, 董奇. (2009). 視覺言語在漢語母語兒童和成人英語語音知覺中的作用.,(5), 1038–1041.
樸永馨. (2006).. 北京: 華夏出版社.
錢浩悅, 黃逸慧, 高湘萍. (2018). Gamma神經(jīng)振蕩和信息整合加工.(3), 433–441.
石涯, 王永華, 李文靖. (2016). 唇讀對聽障兒童語音識別的幫助作用.,(5), 482–485.
文小輝, 李國強, 劉強. (2011). 視聽整合加工及其神經(jīng)機制.,(7), 976–982.
文小輝, 劉強, 孫弘進, 張慶林, 尹秦清, 郝明潔, 牟海蓉. (2009). 多感官線索整合的理論模型.,(4), 659–666.
辛昕, 任桂琴, 李金彩, 唐曉雨. (2017). 早期視聽整合加工——來自MMN的證據(jù).,(5), 757–768.
徐誠. (2013). 唇讀研究回顧:從聾人到正常人.(1), 56–61.
張明, 陳騏. (2003). 聽覺障礙人群的言語機制.(5), 486–493.
Alsius, A., Navarra, J., Campbell, R., & Soto-Faraco, S. (2005). Audiovisual integration of speech falters under high attention demands.,(9), 839–843.
Alsius, A., Navarra, J., & Soto-Faraco, S. (2007). Attention to touch weakens audiovisual speech integration.,(3), 399–404.
Alsius, A., Paré, M., & Munhall, K. G. (2018). Forty years after hearing lips and seeing voices: The McGurk effect revisited.,(1-2), 111–144.
Bayard, C., Colin, C., & Leybaert, J. (2014). How is the McGurk effect modulated by cued speech in deaf and hearing adults?,, 416.
Beauchamp, M. S., Nath, A. R., & Pasalar, S. (2010). fMRI-guided transcranial magnetic stimulation reveals that the superior temporal sulcus is a cortical locus of the McGurk effect.,(7), 2414–2417.
Bertelson, P., Vroomen, J., & de Gelder, B. (2003). Visual recalibration of auditory speech identification: A McGurk after effect.,(6), 592–597.
Besle, J., Fort, A., Delpuech, C., & Giard, M. (2004). Bimodal speech: Early suppressive visual effects in human auditory cortex.,(8), 2225–2234.
Brancazio, L., & Miller, J. L. (2005). Use of visual information in speech perception: Evidence for a visual rate effect both with and without a McGurk effect.,(5), 759–769.
Buchan, J. N., & Munhall, K. G. (2012). The effect of a concurrent working memory task and temporal offsets on the integration of auditory and visual speech information.,(1), 87–106.
Burnham, D., & Dodd, B. (2004). Auditory-visual speech integration by prelinguistic infants: Perception of an emergent consonant in the McGurk effect.,(4), 204–220.
Burnham, D., & Dodd, B. (2018). Language-general auditory- visual speech perception: Thai-English and Japanese- English McGurk effects.,(1-2), 79–110.
Colin, C., Radeau, M., Soquet, A., & Deltenre, P. (2004). Generalization of the generation of an MMN by illusory McGurk percepts: Voiceless consonants.,(9), 1989–2000.
Colin, C., Radeau, M., Soquet, A., Demolin, D., Colin, F., & Deltenre, P. (2002). Mismatch negativity evoked by the McGurk-MacDonald effect: A phonetic representation within short-term memory.,(4), 495–506.
de Gelder, B., & Vroomen, J. (2000). The perception of emotions by ear and by eye.,(3), 289–311.
de Gelder, B., Vroomen, J., & van der Heide, L. (1991). Face recognition and lip-reading in autism.,(1), 69–86.
Eskelund, K., MacDonald, E. N., & Andersen, T. S. (2015). Face configuration affects speech perception: Evidence from a McGurk mismatch negativity study.,, 48–54.
Fang, F., & He, S. (2005). Cortical responses to invisible objects in the human dorsal and ventral pathways.,(10), 1380–1385.
Fernández, L. M., Macaluso, E., & Soto-Faraco, S. (2017). Audiovisual integration as conflict resolution: The conflict of the McGurk illusion.,(11), 5691–5705.
Gau, R., & Noppeney, U. (2016). How prior expectations shape multisensory perception.,, 876–886.
Gurler, D., Doyle, N., Walker, E., Magnotti, J., & Beauchamp, M. (2015). A link between individual differences in multisensory speech perception and eye movements.,(4), 1333–1341.
Hisanaga, S., Sekiyama, K., Igasaki, T., & Murayama, N. (2016). Language/culture modulates brain and gaze processes in audiovisual speech perception.,, 35265.
Hockley, N. S., & Polka, L. (1994). A developmental study of audiovisual speech perception using the McGurk paradigm.,(5), 3309–3318.
Irwin, J., Avery, T., Brancazio, L., Turcios, J., Ryherd, K., & Landi, N. (2018). Electrophysiological indices of audiovisual speech perception: Beyond the McGurk effect and speech in noise.,(1-2), 39–56.
Jones, J. A., & Callan, D. E. (2003). Brain activity during audiovisual speech perception: An fMRI study of the McGurk effect.,(8), 1129–1133.
Jordan, T. R., McCotter, M. V., & Thomas, S. M. (2000). Visual and audiovisual speech perception with color and gray-scale facial images.,(7), 1394–1404.
Jordan, T. R., & Sergeant, P. (2000). Effects of distance on visual and audiovisual speech recognition.,(1), 107–124.
Jordan, T. R., & Thomas, S. M. (2011). When half a face is as good as a whole: Effects of simple substantial occlusion on visual and audiovisual speech perception.,(7), 2270–2285.
Kaiser, J., Hertrich, I., Ackermann, H., Mathiak, K., & Lutzenberger, W. (2005). Hearing lips: Gamma-band activity during audiovisual speech perception.,(5), 646–653.
Keil, J., Müller, N., Ihssen, N., & Weisz, N. (2012). On the variability of the McGurk effect: Audiovisual integration depends on prestimulus brain states.,(1), 221–231.
Lange, J., Christian, N., & Schnitzler, A. (2013). Audio- visual congruency alters power and coherence of oscillatory activity within and between cortical areas.,, 111–120.
Lüttke, C. S., Ekman, M., van Gerven, M. A., & de Lange, F. P. (2015). Preference for audiovisual speech congruency in superior temporal cortex.,(1), 1–7.
Lüttke, C. S., Ekman, M., van Gerven, M. A. J., & de Lange, F. P. (2016). McGurk illusion recalibrates subsequent auditory perception.,, 32891.
MacDonald, J. (2018). Hearing lips and seeing voices: The origins and development of the 'McGurk effect' and reflections on audio–visual speech perception over the last 40 years.,(1-2), 7–18.
MacDonald, J., Andersen, S., & Bachmann, T. (2000). Hearing by eye: How much spatial degradation can be tolerated?,(10), 1155–1168.
Macsweeney, M., Amaro, E., Calvert, G. A., Campbell, R., David, A. S., McGuire, P., ... Brammer, M. J. (2000). Silent speechreading in the absence of scanner noise: An event-related fMRI study.(8), 1729–1733.
Macsweeney, M., Calvert, G. A., Campbell, R., McGuire, P. K., David, A. S., Williams, S. C. R., ... Brammer, M. J. (2002). Speechreading circuits in people born deaf.(7), 801–807.
Magnotti, J. F., & Beauchamp, M. S. (2015). The noisy encoding of disparity model of the McGurk effect.,(3), 701–709.
Magnotti, J. F., & Beauchamp, M. S. (2017). A causal inference model explains perception of the McGurk effect and other incongruent audiovisual speech.,(2), e1005229.
Magnotti, J. F., Mallick, D. B., & Beauchamp, M. S. (2018). Reducing playback rate of audiovisual speech leads to a surprising decrease in the McGurk effect.,(1-2), 19–38.
Magnotti, J. F., Mallick, D. B., Feng, G., Zhou, B., Zhou, W., & Beauchamp, M. S. (2015). Similar frequency of the McGurk effect in large samples of native Mandarin Chinese and American English speakers.,(9), 2581–2586.
Mallick, D. B., Magnotti, J. F., & Beauchamp, M. S. (2015). Variability and stability in the McGurk effect: Contributionsof participants, stimuli, time, and response type.,(5), 1299–1307.
Marques, L. M., Lapenta, O. M., Costa, T. L., & Boggio, P. S. (2016). Multisensory integration processes underlying speech perception as revealed by the McGurk illusion.,(9), 1115–1129.
Marques, L. M., Lapenta, O. M., Merabet, L. B., Bolognini, N., & Boggio, P. S. (2014). Tuning and disrupting the brain-modulating the McGurk illusion with electrical stimulation., 533.
McGurk, H., & MacDonald, J. (1976). Hearing lips and seeing voices.,(5588), 746–748.
Miller, L. M., & D'Esposito, M. (2005). Perceptual fusion and stimulus coincidence in the cross-modal integration of speech.,(25), 5884–5893.
Moro, S. S., & Steeves, J. K. E. (2018). Audiovisual plasticity following early abnormal visual experience: Reduced McGurk effect in people with one eye., 103–107.
Munhall, K. G., Gribble, P., Sacco, L., & Ward, M. (1996). Temporal constraints on the McGurk effect.,(3), 351–362.
Munhall, K. G., ten Hove, M. W., Brammer, M., & Paré, M. (2009). Audiovisual integration of speech in a bistable illusion.,(9), 735–739.
Nath, A. R., & Beauchamp, M. S. (2012). A neural basis for interindividual differences in the McGurk Eeffect, a multisensory speech illusion.,(1), 781–787.
Nath, A. R., Fava, E. E., & Beauchamp, M. S. (2011). Neural correlates of interindividual differences in children's audiovisual speech perception.,(39), 13963–13971.
Olasagasti, I., Bouton, S., & Giraud, A. L. (2015). Prediction across sensory modalities: A neurocomputational model of the McGurk effect.,, 61–75.
Palmer, T. D., & Ramsey, A. K. (2012). The function of consciousness in multisensory integration.,(3), 353–364.
Paré, M., Richler, R. C., ten Hove, M., & Munhall, K. G. (2003). Gaze behavior in audiovisual speech perception: The influence of ocular fixations on the McGurk effect.,(4), 553–567.
Proverbio, A. M., Massetti, G., Rizzi, E., & Zani, A. (2016). Skilled musicians are not subject to the McGurk effect.,, 30423.
Quinto, L., Thompson, W. F., Russo, F. A., & Trehub, S. E. (2010). A comparison of the McGurk effect for spoken and sung syllables.,(6), 1450–1454.
Romero, Y. R., Senkowski, D., & Keil, J. (2015). Early and late beta-band power reflect audiovisual perception in the McGurk illusion.,(7), 2342–2350.
Rosenblum, L. D., Schmuckler, M. A., & Johnson, J. A. (1997). The McGurk effect in infants.,(3), 347–357.
Rosenblum, L. D., Yakel, D. A., & Green, K. P. (2000). Face and mouth inversion effects on visual and audiovisual speech perception.,(2), 806–819.
Ross, L. A., Saint-Amour, D., Leavitt, V. M., Javitt, D. C., & Foxe, J. J. (2007). Do you see what I am saying? Exploring visual enhancement of speech comprehension in noisy environments.,(5), 1147–1153.
Rouger, J., Fraysse, B., Deguine, O., & Barone, P. (2008). McGurk effects in cochlear-implanted deaf subjects.,(1), 87–99.
Saint-Amour, D., De Sanctis, P., Molholma, S., Ritter, W., & Foxe, J. J. (2007). Seeing voices: High-density electrical mapping and source-analysis of the multisensory mismatch negativity evoked during the McGurk illusion.,(3), 587–597.
Samuel, A. G. (2011). Speech perception.,(1), 49–72.
Sekiyama, K. (1997). Cultural and linguistic factors in audiovisual speech processing: The McGurk effect in Chinese subjects.,(1), 73–80.
Sekiyama, K., Soshi, T., & Sakamoto, S. (2014). Enhanced audiovisual integration with aging in speech perception: A heightened McGurk effect in older adults.,, 323.
Sekiyama, K., & Tohkura, Y. (1993). Inter-language differences in the influence of visual cues in speech perception.,(4), 427–444.
Soto-Faraco, S., & Alsius, A. (2009). Deconstructing the McGurk–MacDonald illusion.,(2), 580–587.
Stein, B. E., & Stanford, T. R. (2008). Multisensory integration: Current issues from the perspective of the single neuron.,, 255–266.
Stevenson, R. A., Zemtsov, R. K., & Wallace, M. T. (2012). Individual differences in the multisensory temporal binding window predict susceptibility to audiovisual illusions.,(6), 1517–1529.
Strand, J., Cooperman, A., Rowe, J., & Simenstad, A. (2014). Individual differences in susceptibility to the McGurk effect: Links with lipreading and detecting audiovisual incongruity.,(6), 2322–2331.
Summerfield, Q. (1992). Lipreading and audio-visual speech perception.(1273), 71–78.
Thomas, S. M., & Jordan, T. R. (2002). Determining the influence of Gaussian blurring on inversion effects with talking faces.,(6), 932–944.
Thomas, S. M., & Jordan, T. R. (2004). Contributions of oral and extraoral facial movement to visual and audiovisual speech perception.,(5), 873–888.
Tiippana, K. (2014). What is the McGurk effect?,, 725.
Tiippana, K., Andersen, T. S., & Sams, M. (2004). Visual attention modulates audiovisual speech perception.,(3), 457–472.
Tsuchiya, N., & Koch, C. (2005). Continuous flash suppression reduces negative afterimages.,(8), 1096–1101.
Ujiie, Y., Asai, T., & Wakabayashi, A. (2015). The relationship between level of autistic traits and local bias in the context of the McGurk effect.,, 891.
Ujiie, Y., Asai, T., & Wakabayashi, A. (2018). Individual differences and the effect of face configuration information in the McGurk effect.(4), 973–986.
Van Engen, K. J., Xie, Z., & Chandrasekaran, B. (2017). Audiovisual sentence recognition not predicted by susceptibility to the McGurk effect.,(2), 396–403.
Walker, S., Bruce, V., & O'Malley, C. (1995). Facial identity and facial speech processing: Familiar faces and voices in the McGurk effect.,(8), 1124–1133.
Wilson, A. H., Alsius, A., Paré, M., & Munhall, K. G. (2016). Spatial frequency requirements and gaze strategy in visual-only and audiovisual speech perception.,(4), 601–615.
Zhu, L. L., & Beauchamp, M. S. (2017). Mouth and voice: A relationship between visual and auditory preference in the human superior temporal sulcus.,(10), 2697–2708.
The influential factors and neural mechanisms of McGurk effect
LUO Xiaoxiao1; KANG Guanlan1; ZHOU Xiaolin1,2,3,4
(1School of Psychological and Cognitive Sciences, Peking University, Beijing, 100871, China) (2Key Laboratory of Machine Perception (Ministry of Education), Peking University, Beijing 100871, China) (3PKU-IDG/McGovern Institute for Brain Research, Peking University, Beijing 100871, China) (4Institute of Psychological and Brain Sciences, Zhejiang Normal University, Jinhua 321004, China)
The McGurk effect is a typical audiovisual integration phenomenon, influenced by characteristics of physical stimuli, attentional allocation, the extent that individuals rely on visual or auditory information in processing, the ability of audiovisual integration, and language/culture differences. Key visual information that leads to the McGurk effect is mainly extracted from the mouth area of the talker. The McGurk effect implicates both audiovisual integration (which occurs in the early processing stage and is related to the activation of superior temporal cortex) and the conflict of the incongruent audiovisual stimuli (which occurs in the late processing stage and is related to the activation of inferior frontal cortex). Future studies should further investigate the influence of social factors on the McGurk effect, pay attention to the relationship between unimodal information processing and audiovisual integration in the McGurk effect, and explore the neural mechanisms of McGurk effect with computational modeling.
McGurk effect; audiovisual speech perception; audiovisual integration; multisensory integration
10.3724/SP.J.1042.2018.01935
2018-03-13
*國家自然科學(xué)基金面上項目(31470976), 科技部973項目(2015CB856400), 機器感知與智能教育部重點實驗室開放課題基金項目(K-2017-05)。
周曉林, E-mail: xz104@pku.edu.cn
B842