劉赫
摘 要:本文闡述了動(dòng)物行為訓(xùn)練的生物學(xué)背景和相應(yīng)的心理學(xué)和神經(jīng)生理學(xué)原理,論述了動(dòng)物四種學(xué)習(xí)方式以及動(dòng)物訓(xùn)練的兩種方法:強(qiáng)化和懲罰。
關(guān)鍵詞:行為訓(xùn)練;條件反射;強(qiáng)化;懲罰
1 生物學(xué)背景和原理
動(dòng)物的行為訓(xùn)練就是一種學(xué)習(xí)行為,動(dòng)物有四種學(xué)習(xí)方式:經(jīng)典性條件反射、操作性條件反射、適應(yīng)和復(fù)雜學(xué)習(xí)[1]。
經(jīng)典性條件反射就是著名的巴甫洛夫條件反射,巴甫洛夫是前蘇聯(lián)著名的生理學(xué)家,曾因?yàn)閷?duì)動(dòng)物消化腺的創(chuàng)造性研究而獲得1904年諾貝爾生理學(xué)獎(jiǎng)。巴甫洛夫?qū)?dòng)物消化腺的研究主要以狗為研究對(duì)象。他與助手在對(duì)狗的研究中發(fā)現(xiàn),當(dāng)助手給狗食物時(shí),狗吃到食物,會(huì)分泌很多唾液;此后又發(fā)現(xiàn)狗只要看到食物,就開(kāi)始分泌唾液;再后來(lái),只要聽(tīng)到助手的腳步聲,狗似乎知道馬上就可以吃到食物,唾液地分泌也開(kāi)始增加。巴甫洛夫系統(tǒng)研究了這種現(xiàn)象,提出了“條件反射”的概念,后人稱之為“經(jīng)典條件反射”[2]。巴甫洛夫認(rèn)為,條件反射形成的條件是無(wú)條件反射:食物吃到嘴里,引起唾液分泌增加,這是自然的生理反應(yīng),形成后不需要學(xué)習(xí),這種反應(yīng)叫做無(wú)條件反射;此時(shí)引發(fā)反應(yīng)的刺激是食物,為無(wú)條件刺激,做出的反應(yīng)是無(wú)條件反應(yīng)。另外一種是條件反射:研究助手的腳步聲與狗的唾液分泌增加本來(lái)沒(méi)有必然的聯(lián)系,是一種無(wú)關(guān)刺激,或稱中性刺激;當(dāng)腳步聲與食物同時(shí)、多次重復(fù)后,狗聽(tīng)到腳步聲,唾液分泌就開(kāi)始增加,這時(shí)中性刺激由于與無(wú)條件刺激聯(lián)結(jié)而變成了條件刺激,由此引起的唾液分泌就是條件反應(yīng)[3]。
操作性條件反射是美國(guó)心理學(xué)家斯金納(B.F.Skinner)在本世紀(jì)30年代根據(jù)他所設(shè)計(jì)的實(shí)驗(yàn)研究的結(jié)果提出來(lái)的[2]。斯金納設(shè)計(jì)了一種專用木箱——斯金納箱,箱內(nèi)有一套杠桿裝置。將饑餓的動(dòng)物置于箱內(nèi),它們?cè)谙鋬?nèi)亂跑、亂咬、亂撞,偶爾跳上杠桿,將杠桿壓下,這時(shí)杠桿帶動(dòng)一個(gè)活門(mén),從活門(mén)內(nèi)掉出一個(gè)食物小球滾入箱內(nèi)的木槽中,從而取得食物。以后動(dòng)物再次進(jìn)入箱內(nèi)經(jīng)過(guò)亂撞之后按壓了杠桿取得了食物,反復(fù)幾次之后,饑餓的動(dòng)物一進(jìn)入箱內(nèi),就會(huì)主動(dòng)按壓杠桿取得食物。這樣就在壓杠桿和取食物之間形成了條件反射,斯金納稱它為操作性條件反射。操作性條件反射如以食物為非條件刺激,也可稱為食物運(yùn)動(dòng)性條件反射。將動(dòng)物(如雞)放入實(shí)驗(yàn)箱內(nèi),當(dāng)它在走動(dòng)中偶然用喙啄在杠桿上時(shí)就喂食,以強(qiáng)化這一動(dòng)作,如此重復(fù)多次,雞就學(xué)會(huì)自動(dòng)啄杠桿而得食。在此基礎(chǔ)上,可以進(jìn)一步訓(xùn)練動(dòng)物只有當(dāng)出現(xiàn)某一特定的信號(hào)(如燈光)后啄杠桿才能得到食物的強(qiáng)化,就形成了以燈光為條件刺激的食物運(yùn)動(dòng)性條件反射。這類條件反射的特點(diǎn)是強(qiáng)化了動(dòng)物必須通過(guò)自己的某種運(yùn)動(dòng)或操作才能得到食物這一關(guān)聯(lián),所以也稱作操作性條件反射,這是一種更為復(fù)雜的行為[2]。
斯金納的操作性條件反射又稱工具性條件反射,其結(jié)果是規(guī)范或改變動(dòng)物的行為。動(dòng)物通過(guò)自己的某種活動(dòng)或操作得到強(qiáng)化而形成條件反射。動(dòng)物對(duì)環(huán)境做出反應(yīng),從而得到獎(jiǎng)勵(lì),動(dòng)物的行為在要求獎(jiǎng)勵(lì)的時(shí)候是一種工具。在操作性條件反射中,動(dòng)物通過(guò)展示特殊行為而受到獎(jiǎng)勵(lì)或避免一個(gè)轉(zhuǎn)移性刺激。例如,動(dòng)物進(jìn)入一個(gè)指定區(qū)域,然后動(dòng)物受到食物獎(jiǎng)勵(lì)。在建立這種關(guān)系后,在下次動(dòng)物更愿意進(jìn)入指定區(qū)域。
適應(yīng)是重復(fù)刺激導(dǎo)致行為減弱或消失的結(jié)果。 例如動(dòng)物開(kāi)始可能被巨大的噪音驚嚇,但如果噪音重復(fù)許多次,動(dòng)物對(duì)噪音的反應(yīng)開(kāi)始變小。此時(shí)噪音作為一種刺激,逐漸轉(zhuǎn)變成被忽略的事物。
復(fù)雜學(xué)習(xí)基本上是一種無(wú)所不包的行為??茖W(xué)家最初認(rèn)為所有的學(xué)習(xí)都能概括為適應(yīng)、典型條件反射和工具性條件反射。然而這三種學(xué)習(xí)形式不能解釋一些觀測(cè)到的學(xué)習(xí),如有的動(dòng)物通過(guò)觀察其他動(dòng)物學(xué)會(huì)了作某些特殊的行為;或某些隱藏的學(xué)習(xí),如大鼠第一次探索過(guò)一個(gè)迷宮,當(dāng)再次通過(guò)的時(shí)候其速度會(huì)更快。
2 動(dòng)物行為訓(xùn)練的方法——強(qiáng)化
行為訓(xùn)練的方法主要是強(qiáng)化和懲罰。強(qiáng)化是無(wú)關(guān)刺激和無(wú)條件刺激在時(shí)間上結(jié)合的過(guò)程,包括正強(qiáng)化和負(fù)強(qiáng)化[3]。正強(qiáng)化是使動(dòng)物感到高興或愉快,同時(shí)增加其特殊行為發(fā)生可能性的作用;而負(fù)強(qiáng)化則是使動(dòng)物感到不高興或不愉快,同時(shí)為了消除某些作用而增加其特殊行為發(fā)生可能性的作用。
與之相對(duì)有積極強(qiáng)化物和消極強(qiáng)化物,積極強(qiáng)化物是指能增強(qiáng)該反應(yīng)與反應(yīng)相伴隨的刺激,如水、食物、獎(jiǎng)賞等;所謂消極強(qiáng)化物,是指與反應(yīng)相伴隨的刺激物,從情境中被排除時(shí)可增強(qiáng)該反應(yīng)。例如,將白鼠放進(jìn)一特別箱子中,給予白鼠電擊直至白鼠按壓杠桿,經(jīng)過(guò)幾次強(qiáng)化后,白鼠很快學(xué)會(huì)了壓桿反應(yīng),以逃避電擊。電擊即是增強(qiáng)壓桿反應(yīng)的消極強(qiáng)化物,其他諸如強(qiáng)光、噪聲、批評(píng)等厭惡性刺激皆屬此類(見(jiàn)圖1)。
強(qiáng)化的程序分為連續(xù)強(qiáng)化和間歇強(qiáng)化,間歇強(qiáng)化一般可分為固定強(qiáng)化和非固定強(qiáng)化兩種,固定強(qiáng)化又分定時(shí)強(qiáng)化和定比強(qiáng)化[4]。定時(shí)強(qiáng)化是指以反應(yīng)時(shí)間而非反應(yīng)數(shù)量為單位來(lái)實(shí)施強(qiáng)化,如每隔3或10min給予一次強(qiáng)化,人類的計(jì)時(shí)工資即是一例。實(shí)驗(yàn)表明,強(qiáng)化的時(shí)間間隔越短,動(dòng)物的反應(yīng)越快,反之亦然。此外,反應(yīng)也隨著接近強(qiáng)化點(diǎn)時(shí)間的長(zhǎng)短而變得或慢或快,即反應(yīng)之初,速度較慢,而接近強(qiáng)化時(shí)間點(diǎn)時(shí),反應(yīng)則加快。一次強(qiáng)化之后,反應(yīng)重新變慢,開(kāi)始了下一個(gè)循環(huán)。所謂定比強(qiáng)化是指以反應(yīng)的數(shù)量而非時(shí)間為單位來(lái)實(shí)施強(qiáng)化。如設(shè)定白鼠只有壓桿每20次才予以一次強(qiáng)化,人類的計(jì)件工資即是如此。實(shí)驗(yàn)表明,如果強(qiáng)化比率的標(biāo)準(zhǔn)不是高不可攀的話,定比強(qiáng)化下的動(dòng)物反應(yīng)要快于定時(shí)強(qiáng)化下的反應(yīng)。斯金納的研究還指出,如果使用非固定強(qiáng)化,即安排強(qiáng)化的時(shí)間間隔或反應(yīng)次數(shù)不是以固定的標(biāo)準(zhǔn)出現(xiàn),而采取變異的標(biāo)準(zhǔn)的話,這往往會(huì)克服固定強(qiáng)化的缺陷,而使得反應(yīng)既穩(wěn)定又均勻,而且難以消退。如果將固定強(qiáng)化和非固定強(qiáng)化混合安排使用,則效果非常好[5](見(jiàn)圖2)。
3 動(dòng)物行為訓(xùn)練的方法——懲罰
懲罰也是行為訓(xùn)練的一個(gè)方法,合理地采用將有助于某些不必要行為的消失或減少[6]。懲罰的目的是為了降低或抑制某種行為的活動(dòng),并使某種行為消失或減少。通常我們都鼓勵(lì)采用正強(qiáng)化的方法進(jìn)行訓(xùn)練,然而,總用一種方式去實(shí)現(xiàn)行為訓(xùn)練往往達(dá)不到預(yù)期的效果,此時(shí)就要考慮運(yùn)用懲罰的方法來(lái)完成所需要的動(dòng)作。當(dāng)然,我們反對(duì)運(yùn)用體罰或任何對(duì)動(dòng)物身心有傷害的方法,我們這里的懲罰是中止獎(jiǎng)勵(lì)、停止強(qiáng)化、中止行為訓(xùn)練或訓(xùn)練員可以采取走開(kāi)的方法。為了減少不希望的行為,最有效的方法就是停止強(qiáng)化,讓這一行為慢慢消失[7]。特別是在行為訓(xùn)練過(guò)程中動(dòng)物顯示攻擊行為的時(shí)候,訓(xùn)練人員可以采取中止行為訓(xùn)練的方法;或者當(dāng)發(fā)生了動(dòng)物直接的攻擊行為后,訓(xùn)練人員通過(guò)離開(kāi)或走開(kāi)作為對(duì)動(dòng)物的懲罰。通過(guò)采取以上方法都能降低攻擊行為再次發(fā)生的概率。如果發(fā)現(xiàn)用中止行為的方法來(lái)降低攻擊行為需要頻繁地延長(zhǎng)時(shí)間才能達(dá)到效果,那么此時(shí)就應(yīng)該重新評(píng)估以上方法。如果采取中止行為訓(xùn)練后動(dòng)物仍然沒(méi)有降低攻擊的頻率,表明該方法對(duì)這一動(dòng)物已經(jīng)沒(méi)有效果了,需要采用新的技術(shù)來(lái)降低攻擊行為的發(fā)生或重新調(diào)查行為訓(xùn)練的有效性[8]。
此外,要慎重采取其他的懲罰措施,由于實(shí)施懲罰的有效性是有限的,處罰并不能給動(dòng)物恰當(dāng)?shù)男袨?,只能減少不希望行為的發(fā)生率[9]。而且懲罰是有消極影響的,盡管我們的本意是消除或減弱不希望行為,但是容易讓動(dòng)物把懲罰和訓(xùn)練行為本身聯(lián)系起來(lái),從而建立條件反射。為了使懲罰有效果,懲罰必須要有即時(shí)性和恒常性,并有一定的力度。要求在每次這種行為出現(xiàn)的時(shí)候都給予實(shí)施,不能有時(shí)懲罰,有時(shí)容忍。這樣會(huì)把動(dòng)物的行為準(zhǔn)則弄混,分辨不清到底什么樣的行為才是我們所要求的??傊?,在實(shí)際訓(xùn)練中要具體問(wèn)題具體分析。只要訓(xùn)練者對(duì)期望的某種行為予以獎(jiǎng)勵(lì),這種行為就會(huì)得到強(qiáng)化,反之就會(huì)消退。若施予懲罰,則會(huì)加快消退的速度。(編輯:郭遠(yuǎn))
參考文獻(xiàn):
[1] Mellen J., Ellis S, D. Kleiman, M. Allen, K. Thompson, and S. Lumpkin. "Animal learning and husbandry training." In Wild Mammals in Captivity, eds[J]. Chicago: University of Chicago Press, 1996, 88-99.
[2] 尚玉昌. 動(dòng)物的經(jīng)典條件反射和操作條件反射學(xué)習(xí)行為[J]. 2005, 40(12): 7-9.
[3] 彭聃齡主編. 普通心理學(xué)[J]. 北京師范大學(xué)出版社, 2001.
[4] 郭志宏. 經(jīng)典性條件反射與操作性條件反射的比較[J]. 內(nèi)蒙古科技與經(jīng)濟(jì), 2005, 101-103.
[5] 章永. 間歇強(qiáng)化程序及其運(yùn)用[J]. 樂(lè)山師范學(xué)院學(xué)報(bào), 2006, 89-92.
[6] Kirtland, J. "Operant definitions of reinforcement and punishment: Getting the jargon right."[J]. Elephant Managers Association Newsletter, 1994, 5(1): 23-25.
[7] Poole, T. "Principles involved in training animals." In Animal Training: A Review and Commentary on Current Practice[J]. Cambridge, U.K.: Universities Federation for Animal Welfare, Potters Bar, 1990.
[8] Kirkwood, J., Kichenside, C., and James, W. "Training zoo animals." In Proceedings of Animal Training Symposium. A Review and Commentary on Current Practices[J]. Cambridge, U.K.: Universities Federation for Animal Welfare, Potters Bar, 1989, 93-99.
[9] Daniel Q. Estep. Two Programs Educating the Public in Animal Learning and Behavior International Journal of Comparative Psychology[J]. 2002, 15, 242-248.