国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

反饋促進學習的神經(jīng)機制

2019-12-15 20:29馮成志
心理研究 2019年3期
關鍵詞:前額多巴胺研究者

馮 霞 馮成志

(蘇州大學心理系,蘇州 215123)

1 引言

早在心理學認知概念盛行時,就有研究者提出,人類大腦是個反饋控制系統(tǒng) (Pezzulo& Cisek,2016)?,F(xiàn)實生活中反饋無處不在,有時甚至關乎生命安全。如開車下坡時,我們根據(jù)坡度、限速和儀表盤上的速度指示制動,根據(jù)制動效果做出反應調(diào)整。這里潛在的期望是:恰當?shù)姆答仌龠M學習,讓接收者受益。恰當?shù)姆答伌龠M學習得到了很多證據(jù)的支持,元分析的結果發(fā)現(xiàn)得到反饋的實驗組相對于控制組成績高出0.41個標準差,相當于能夠在標準化測驗中從第50百分位提高到第66百分位(Wiliam,2011)。反饋不總發(fā)揮正面推動作用,Kluger與DeNisi(1996)對600多項研究的元分析發(fā)現(xiàn),總體上反饋效應顯著,但有三分之一的研究顯示反饋反而降低了學習成績。直接將反饋與行為結果聯(lián)系起來是非?;靵y的,結果可能相互矛盾。反饋相關神經(jīng)機制的研究能為理解反饋的作用提供新的視角。

有關反饋研究的腦電指標中,研究者最常選用的是錯誤相關負波(error-related negativity)(Krigolson, 2018)和反饋相關負波(feedback-related negativity, FRN)(Holroyd & Krigolson, 2007; Peterbugs, Kobza, & Bellebaum, 2016)。 FRN 最初由Miltner在時間估計任務中發(fā)現(xiàn),他當時認為該成分與ERN一樣,反映的是錯誤覺察過程。ERN與FRN有很大相似性:(1)兩者都是誘發(fā)源引發(fā)的負波,只是時間進程上有差異。在實際研究中,誘發(fā)相應波形的時間是個范圍,且會因?qū)嶒炄蝿詹煌嬖诓町悺RN的峰值約在錯誤反應后80ms,F(xiàn)RN是反饋呈現(xiàn)后約 145~300ms之間的負波 (Luft, 2014)。 (2)ERN和FRN都被溯源至前扣帶回 (anterior cingulate cortex, ACC)(Walsh & Anderson, 2012)。 (3)對波形的理論解釋也存在一定重疊。如,強化學習理論和情緒動機假說,既可見于對ERN的解釋(Holroyd& Coles,2002;),也可見于對 FRN的解釋(Hajcak, Moser, Holroyd, & Simons, 2007;李鵬,李紅,2008)?;趦烧叩年P系,研究者將ERN分為反應 ERN(response-locked ERN)和反饋 ERN(feedback-locked ERN)(李鵬, 李紅, 2008), 前者在反應后約0~150ms出現(xiàn),后者在反饋后約200~300ms出現(xiàn),反饋ERN即為FRN。盡管命名上進一步細分,但ERN和FRN都定位于中央前回,且都是在錯誤試次后波幅更大,研究者普遍認為,它們至少是相關的。筆者認為,就“反饋”的含義,F(xiàn)RN是一個更廣泛的概念,由于研究者多關注錯誤反饋,使得FRN在很多研究中與ERN、fERN(the feedback error related negativity)、FN(feedback negativity)實際指的是同一含義(Krigolson,2018),本文關注反饋作用機制,使用FRN描述。

如前所述,反饋加工與學習效果之間的關系是個很大的命題,且行為結果?;ハ嗝堋J录嚓P電位的研究表明,加工反饋的方式與學習質(zhì)量有很大關系(Luft,2014)。本文將從FRN和θ、β振蕩的角度回顧以往相關研究中學習者的反饋加工特點,為進一步理解學習任務中反饋加工機制提供幫助。

2 學習任務中的FRN研究

縱觀FRN研究,常用的有博弈任務(Gheza,Paul, & Pourtois, 2018;Hajcak et al., 2007)、時間估計任務 (Holroyd& Krigolson,2007;Luft,Nolte, & Bhattacharya, 2013; Luft, Takase, &Bhattacharya, 2014; Pornpattananangkul & Nusslock,2016)、規(guī)則學習任務 (Bellebaum & Daum,2008; Bellebaum, Kobza, Thiele, & Daum,2010; Santesso et al.,2008)等。 在各種任務中,作者一方面關注實驗所引發(fā)的FRN特征;另一方面,關注FRN與行為表現(xiàn)的關系;更進一步地,探討FRN能否作為高效學習者的標志。

博弈任務要求被試在選項中迫選,每個選擇都意味著得失相應價值,被試最終獲得的價值可在實驗后按比例兌換成獎金,以此激勵被試在實驗中獲得最大化結果的動機。如要求被試按鍵猜測四個門中隱藏的獎勵:線索1、2、3代表獲獎的概率分別是25%、50%、75%(未告知被試),反應后給予反饋。與一般博弈任務不同的是,該研究在線索后或被試選擇后,詢問“你認為自己能贏得這個試次嗎”以做出獎勵預測。結果表明,選擇后做出預測,預料之外的FRN更大,證實FRN的大小與獎勵預測偏差程度有關,同時該效應的大小與預期和結果之間的接近性有關(Hajcak et al., 2007)。 在 Sailer(2010)的研究中,成功選擇帶來更大收益或更小損失的選項為正確反應,結果發(fā)現(xiàn),與未習得者相比,習得者的FRN更小;同時,無論結果類型如何,在整個實驗過程中,習得者和未習得者的FRN均有相似程度的降低。但引起FRN降低的原因是不同的:實驗后期,習得者FRN降低是由于結果的可預測性,而未習得者FRN的降低不能歸因于可預測性,可能是由于動機顯著降低引起的。

時間估計任務也常被使用。Holroyd等(2007)通過調(diào)控被試做出反應的時間窗長度來控制任務難度,分析預期內(nèi)外的行為和腦電數(shù)據(jù)。結果發(fā)現(xiàn),預期中與預期外的反應時和ERP波形差異均顯著;預期中反應時/fERN變化小,預期外的變化大,證實fERN振幅反映的是反饋預測誤差信號,且該信號大小與被試在任務中的行為變化相關,即非預期試次后行為調(diào)整更大,fERN能反映基于反饋信息的行為適應性調(diào)整。Pornpattananangkul等(2016)的時間估計實驗也證實了EEG指數(shù)與行為數(shù)據(jù)相關,實驗中要求被試分別完成“延遲折扣”行為任務和時間估計獎賞腦電任務。結果顯示:相對于無獎勵試次,獎勵試次在獎勵預期和獎勵結果階段的EEG活動都增強。而且,EEG指數(shù)顯著預測了行為表現(xiàn),表現(xiàn)為:反饋前α抑制,反饋鎖定θ、β都與延遲折扣任務中“延遲—大獎勵”的偏向相關,表明在獎勵學習中,這些EEG指數(shù)對學習和調(diào)整行為以獲得最大化獎勵是非常重要的。但就時間評定任務自身而言,Luft的研究結果發(fā)現(xiàn),高低學習者的FRN沒有差異(Luft et al.,2013;Luft et al., 2014)。

規(guī)則學習任務中,習得任務的規(guī)則將利于獎勵獲得。即一旦習得規(guī)則,就能基于規(guī)則對結果產(chǎn)生期待。研究結果發(fā)現(xiàn),洞察任務規(guī)則后,意料外的負反饋引發(fā)更大波幅FRN:習得規(guī)則的被試,消極反饋后FRN增加;未習得規(guī)則的被試,沒有表現(xiàn)出FRN的調(diào)節(jié)特點(Bellebaum & Daum,2008),說明規(guī)則學習中,F(xiàn)RN能反映學習效果。在Santesso的研究中,不是所有的正確反應都會獲得獎勵反饋,學習被定義為對高概率獎勵刺激的反應偏向。結果顯示,與未習得者相比,習得者在獎勵反饋后表現(xiàn)出更正的(即更小的)FRN(Santesso et al., 2008)。 相對于直接映射到某結果的確定性反饋,概率線索任務更復雜,因為它要求學習者更關注當前與以往反饋結果的關系,并在此基礎上調(diào)整后續(xù)的反應判斷。

上述研究利用多種實驗任務,從不同角度論證了FRN與行為表現(xiàn)之間的關系,證實了兩者之間的相關性。不難看出,雖然以上研究中都涉及對FRN的探討,但任務類型多樣,學習的性質(zhì)存在差異,對學習的操作性定義也因任務而異。Arbel等提出FRN是學習者使用反饋程度的標志 (Arbel,Murphy, & Donchin, 2014)。 若確實如此,那么,“能從反饋中有效提取信息,促進學習”的高效學習者和“不能從反饋中有效學習”的低效學習者在FRN指標上應表現(xiàn)出差異。但目前這方面的證據(jù)有限且不一致。如前所述,發(fā)現(xiàn)FRN與高效學習者間存在關系的學習任務多涉及概率因素 (Bellebaum&Daum, 2008; Sailer et al., 2010; Santesso et al.,2008),而不是基于錯誤的學習,如時間估計任務(Luft et al., 2013; Luft et al., 2014)。 概率學習任務與其它任務相比,不同學習階段所代表的含義可能不同。概率任務晚期體現(xiàn)的是對學習作用已削弱的預期反饋,而同樣的加工階段在陳述性學習中仍是信息豐富的反饋(Yael& Hao,2016)。已有研究通過改變指導語來控制反饋的信息量,結果表明FRN能反映非預期反饋的信息性(Schiffer,Siletti,Waszak,& Yeung,2017)。這種可能的信息差異與FRN有什么關系是值得進一步考慮的問題。

3 學習任務中的時頻特征

由于ERP是對特定“事件”下多個試次平均后的波形特征,并不能囊括鎖時/鎖位外的信息,并且試次間得出平均和差異波的不同處理方式也可能造成不一致的結果,使得反饋相關電活動的加工特征變得不透明 (Cavanagh,F(xiàn)rank,Klein,& Allen,2010)。分析反饋加工中的振蕩特征一方面能挖掘鎖時/鎖位外的波形信息,提高對數(shù)據(jù)的利用率;另一方面能避免ERP分析中不同成分相互干擾的問題(Glazer, Kelley, Pornpattananangkul, Mittal, &Nusslock,2018),為認識反饋學習機制提供新的視角(Cohen, Wilmes, & Vijver, 2011)。 在實現(xiàn)強化學習的過程中,前額 θ(4-8Hz)和 β(19-23Hz)波段振蕩及它們之間的交互作用非常重要(Vijver,Ridderinkhof, & Cohen, 2011)。

對反饋加工相關θ波的考察主要集中在額中線區(qū)域,如前額FCz和Fz點。許多研究發(fā)現(xiàn),錯誤反饋后200~500ms,前額中區(qū)θ波能量升高,它與消極反饋、失去金錢后的學習過程緊密聯(lián)系在一起(Cavanagh, Zambrano-Vazquez, & Allen, 2012; Cohen, Elger, & Ranganath, 2007; Cohen et al.,2011; Hamel et al., 2018; Luft et al., 2013)。 與ERP成分不同的是,θ波段的活動反映在多種額中央成分中 (如ERN、FRN、N2等),且不受任務類型(如oddball、概率強化學習、反應沖突任務)和刺激性質(zhì)(新穎、沖突、懲罰、錯誤)的影響(Cavanagh,Zambrano-Vazquez, et al., 2012)。 也有證據(jù)表明 θ與FRN成分的產(chǎn)生有很大關系,主要表現(xiàn)在:FRN和θ波的主要活躍皮層均是包括ACC在內(nèi)的前額區(qū) 域 (Cavanagh & Frank, 2014; Glazer et al.,2018),且FRN和θ均對獲獎概率敏感 (Cohen et al.,2007)。研究者認為,反饋后前額中部的θ波活動反映的是同一網(wǎng)絡下物理距離較大的不同腦區(qū)之間的溝通機制(Glazer et al., 2018)。考察學習過程中的θ波變化時發(fā)現(xiàn),當行為反應是探索性的,即結果有很大不確定性時,θ能量較高;在善于利用不確定性引導探索行為的被試群體中,前額θ能量更大(Cavanagh, Figueroa, Cohen, & Frank, 2012);一旦被試習得聯(lián)系或者不需要改變或?qū)ふ倚碌牟呗詴r,θ 效應減少(Cunillera et al., 2012)。 而且,θ 波與更佳的學習表現(xiàn)有關。在時間估計任務中,高效學習者的額中部在錯誤反饋后有更大θ波能量;前額中區(qū)θ波能預測學習過程中的糾正行為,在善于學習的人中 θ 波能量更高(Luft et al., 2013),結合時間估計的任務特征,習得好反映的是錯誤反饋后有更高的認知控制。

β波的研究主要集中在左中央和中前額電極位置 (Cohen et al.,2007; HajiHosseini,Rodríguez-Fornells, & Marco-Pallarés, 2012; Vijver et al.,2011)。β的活動反映了獎勵相關區(qū)域的激活,且在非預期性獎勵反應后才增加 (HajiHosseini et al.,2012),這說明β與獎賞促進的學習有一定的關系,是正確反應試次后維持運動系統(tǒng)的信號。以往研究表明,β能量活動似乎與任務性質(zhì)和反饋特征有比較大的關系。在時間評定任務中,地形圖中體現(xiàn)的能量區(qū)域與左側感覺運動區(qū)域關聯(lián),而在概率學習任務中的能量區(qū)域偏前額中部。這可能與時間估計任務后給予的是正確和錯誤反饋 (Luft et al.,2013;Vijver et al.,2011),而概率學習任務中給予的是獎勵反饋(HajiHosseini et al., 2012)有關。 在時間估計任務中,β去同步化與被試在任務中的績效好壞高度相關。針對反饋信息加工,可能存在兩種不同的β能量活動模式:一種是前額與中前額區(qū)域與獎勵信息加工相關的同步化 (event-related synchronization,ERS:α和β波段在大腦靜息狀態(tài)下表現(xiàn)出波幅增高的電活動)——獎勵反饋后β升高;另一種是前額偏左區(qū)域與錯誤信息加工有關的β頻率去同步化(Luft, 2014)(event-related desynchronization,ERD——同時進行的信息加工導致α和β波段振蕩幅度減低)——錯誤反饋后β降低。研究者認為,失去/錯誤反饋相關的β去同步化能驅(qū)動學習和隨后的調(diào)整,以改善績效。后續(xù)研究需要進一步研究積極反饋后β能量增加和消極反饋后β降低的相互獨立的機制(Glazer et al., 2018)。

4 反饋促進學習的解釋機制

FRN的功能與意義,即FRN反映了何種加工過程和機制的問題,國內(nèi)已有研究者(李丹陽,李鵬,李紅,2018)對近10年FRN的理論解釋進行了回顧,在眾多假說中,影響較大的主要有強化學習理論(reinforcement learning theory)和預期違反假說(expectancy-deviation hypothesis)。

Holroyd(2002)提出的基于基底神經(jīng)節(jié)—多巴胺生物系統(tǒng)的強化學習假設是解釋反饋機制最具影響力的理論。該理論認為,神經(jīng)系統(tǒng)由多個運動控制器組成,不同運動控制器與不同皮層相聯(lián)系。當系統(tǒng)確定進行中的事件比預期差時,會引發(fā)中腦多巴胺相位降低,減少的多巴胺活動使對前扣帶回皮層抑制解除,引發(fā)錯誤試次中產(chǎn)生FRN。前扣帶回皮層利用這些預測誤差信號去選擇、增強對當前任務最合適的運動控制器。

盡管該理論有較大影響力,但關于多巴胺作用的推論,受到不少質(zhì)疑,主要原因是:目前的研究手段很難在人體上直接作用于多巴胺并觀察其變化,更多是對“黑匣子”過程的推論。極少數(shù)研究從基因和藥理水平上證明了多巴胺系統(tǒng)活動性與FRN大小之間的關系。但多巴胺的藥理性操作比較復雜,涉及劑量、被試的新陳代謝水平、荷爾蒙激素水平等,基因操作手段在一般實驗環(huán)境下較難實現(xiàn),故在多數(shù)研究中驗證多巴胺機制存在困難。這也使得Holroyd和Coles模型中有些關鍵假設目前無法得到檢驗。

眾多用FRN為指標的研究中,都涉及預期偏離、預測誤差等類似表述,主要是因為:(1)從對實驗結果的直觀解釋看,很多研究發(fā)現(xiàn)“預期外比預期內(nèi)引發(fā)更大FRN波幅”(Bellebaum & Daum,2008;Cohen etal., 2007; Oliveira, McDonald, &Goodman,2007),似乎 FRN就是“預期偏差”的反映。(2)從發(fā)生發(fā)展過程看,“預期誤差”能解釋學習的變化過程——學習的核心是學會預測線索,而對預測線索的感知受預期誤差調(diào)節(jié) (Nasser,Calu,Schoenbaum,& Sharpe,2017)。根據(jù)線索,從習得到未習得的變化過程就是預期誤差由大變小的過程。(3)“強化學習理論”和“預期違反假說”對FRN的解釋只是基于不同角度和形式,兩者并不是非此即彼的關系。Heydari等認為,多巴胺相位信號攜帶了獎勵預測誤差信息(Heydari& Holroyd,2016)。Oliveira等認為,預期違反假說只是改進了表達方式,與強化學習等其它關于FRN和ACC功能的觀點并不沖突(Oliveira et al., 2007)。 近年來,有研究者提出,反饋效價和反饋預期的加工依賴不同的大腦系統(tǒng)(Gheza et al., 2018),F(xiàn)RN 是反饋預期和反饋效價相互作用的產(chǎn)物,存在正負之分的獎賞預測誤差(李丹陽,李鵬,李紅,2018),該解釋與傳統(tǒng)的強化學習理論一致。因此,雖然從對實驗結果和學習過程的直觀解釋看,“預期違反假說”有很大的適應性,但需從深層加工機制上給予補充。

此外,F(xiàn)RN不僅反映了強化學習,還涉及情緒加工過程,盡管關于FRN的情緒動機假說現(xiàn)已很少被單獨論述,但學習過程中的情緒加工過程不容忽視,對學習過程中反饋機制的解釋需完善。有研究者提出,反饋加工應從雙加工角度認識 (Sanfey&Chang,2008):一方面是自動加工過程,像強化學習理論和基底神經(jīng)節(jié)—多巴胺模型 (Holroyd&Coles,2002);另一方面,將P300作為學習中控制加工過程的一個指標(Ullsperger,F(xiàn)ischer,Nigbur,& Endrass,2014)。P300在行為調(diào)整、處理任務說明、加工工作記憶等方面都發(fā)揮一定作用,它似乎比FRN更適合預測適應性行為 (Martín,Appelbaum,Pearson, Huettel, & Woldorff, 2013; Ullsperger et al.,2014)。目前研究中,這兩個系統(tǒng)似乎可以獨立地加工反饋信息,且對不同的反饋變量敏感,但它們之間也存在相互作用的證據(jù),后續(xù)研究可從雙加工的視角進一步厘清它們在基于反饋的適應性行為中發(fā)揮的作用,建立更具廣泛性和解釋力的反饋加工模型。

5 研究展望

從內(nèi)部神經(jīng)機制研究FRN,對揭示反饋的學習和決策機制很有幫助,并已取得了一些成果,但這對于解釋 “人類如何利用反饋信息促進學習和行為改善”這一問題還遠遠不夠。并且還有一些問題待澄清。如,F(xiàn)RN與反饋效價之間的關系如何,即FRN到底對正性還是負性結果更敏感?FRN究竟是積極反饋誘發(fā)的正偏向波還是消極反饋誘發(fā)的負偏向波,抑或是兩者共同作用的結果?已有一些研究者提供證據(jù)證明反饋評價并不是調(diào)節(jié)負性而是調(diào)節(jié)正性條件下的波形。具體而言,他們發(fā)現(xiàn)正確反饋的內(nèi)在評價過程在N200時間窗內(nèi)誘發(fā)正性波,積極和消極反饋后的ERP差異更多來自于獎賞而不是錯誤加工過程(Cockburn& Holroyd,2018),建議將原來的反饋錯誤相關負波更名為獎勵正波 (the reward positivity) (Krigolson, Hassall, & Handy, 2014;Proudfit,2015)。如何正確理解獎勵正波和反饋負波之間的關系,它們所反映的內(nèi)在反饋評價過程到底有何異同?這是未來研究反饋評價過程的研究者都必須面對的一個基礎問題。關于學習任務中FRN研究的一個重要方面是,F(xiàn)RN對學習的什么特征敏感。比如學習通常被置于兩種框架下討論:一是試誤學習,二是強化學習(獎懲)。基于錯誤的學習常和內(nèi)隱學習或程序化學習過程相聯(lián)系,而強化學習更多地包含假設檢驗的過程(Luft,2014)。如,博弈任務和規(guī)則學習任務的加工過程中更多涉及假設檢驗,而時間估計任務則是基于錯誤對行為進行調(diào)整。學習任務特征與FRN之間的關系究竟如何?再如,隨著學習的推進,F(xiàn)RN會相應地如何變化?這種變化是否因?qū)W習任務類型不同而存在差異?在數(shù)據(jù)處理方面,越來越多的研究者意識到,簡單分析某個或某些電極點的FRN波形、振幅特征是非常不夠的,利用事件相關電位的動態(tài)分析法,能從頻率、能量、相位等多方面全面分析數(shù)據(jù),未來反饋機制的研究中必將廣泛使用該方法。盡管不可能所有關注FRN的研究都使用完全相同的方法,但需要清楚所用方法的局限性,并嘗試從多種方法去全面理解。

猜你喜歡
前額多巴胺研究者
貪婪的多巴胺
多巴胺不敏感型帕金森綜合征診斷及治療的研究進展
How music changes your life
跟蹤導練(四)(4)
用水痘病毒開發(fā)新型HIV疫苗
研究者稱,經(jīng)CRISPR技術編輯過的雙胞胎已出生。科學將如何回應?
研究者調(diào)查數(shù)據(jù)統(tǒng)計
秋日的困惑
年輕瘦人糖尿病增多