動(dòng)物行為訓(xùn)練的理論基礎(chǔ)

2014-04-29 00:44:03劉赫

中國(guó)動(dòng)物保健 2014年2期

劉赫

摘要：本文闡述了動(dòng)物行為訓(xùn)練的生物學(xué)背景和相應(yīng)的心理學(xué)和神經(jīng)生理學(xué)原理，論述了動(dòng)物四種學(xué)習(xí)方式以及動(dòng)物訓(xùn)練的兩種方法：強(qiáng)化和懲罰。

關(guān)鍵詞：行為訓(xùn)練；條件反射；強(qiáng)化；懲罰

1 生物學(xué)背景和原理

動(dòng)物的行為訓(xùn)練就是一種學(xué)習(xí)行為，動(dòng)物有四種學(xué)習(xí)方式：經(jīng)典性條件反射、操作性條件反射、適應(yīng)和復(fù)雜學(xué)習(xí)[1]。

經(jīng)典性條件反射就是著名的巴甫洛夫條件反射，巴甫洛夫是前蘇聯(lián)著名的生理學(xué)家，曾因?yàn)閷?duì)動(dòng)物消化腺的創(chuàng)造性研究而獲得1904年諾貝爾生理學(xué)獎(jiǎng)。巴甫洛夫?qū)?dòng)物消化腺的研究主要以狗為研究對(duì)象。他與助手在對(duì)狗的研究中發(fā)現(xiàn)，當(dāng)助手給狗食物時(shí)，狗吃到食物，會(huì)分泌很多唾液；此后又發(fā)現(xiàn)狗只要看到食物，就開(kāi)始分泌唾液；再后來(lái)，只要聽(tīng)到助手的腳步聲，狗似乎知道馬上就可以吃到食物，唾液地分泌也開(kāi)始增加。巴甫洛夫系統(tǒng)研究了這種現(xiàn)象，提出了“條件反射”的概念，后人稱之為“經(jīng)典條件反射”[2]。巴甫洛夫認(rèn)為，條件反射形成的條件是無(wú)條件反射：食物吃到嘴里，引起唾液分泌增加，這是自然的生理反應(yīng)，形成后不需要學(xué)習(xí)，這種反應(yīng)叫做無(wú)條件反射；此時(shí)引發(fā)反應(yīng)的刺激是食物，為無(wú)條件刺激，做出的反應(yīng)是無(wú)條件反應(yīng)。另外一種是條件反射：研究助手的腳步聲與狗的唾液分泌增加本來(lái)沒(méi)有必然的聯(lián)系，是一種無(wú)關(guān)刺激，或稱中性刺激；當(dāng)腳步聲與食物同時(shí)、多次重復(fù)后，狗聽(tīng)到腳步聲，唾液分泌就開(kāi)始增加，這時(shí)中性刺激由于與無(wú)條件刺激聯(lián)結(jié)而變成了條件刺激，由此引起的唾液分泌就是條件反應(yīng)[3]。

操作性條件反射是美國(guó)心理學(xué)家斯金納（B.F.Skinner）在本世紀(jì)30年代根據(jù)他所設(shè)計(jì)的實(shí)驗(yàn)研究的結(jié)果提出來(lái)的[2]。斯金納設(shè)計(jì)了一種專用木箱——斯金納箱，箱內(nèi)有一套杠桿裝置。將饑餓的動(dòng)物置于箱內(nèi)，它們?cè)谙鋬?nèi)亂跑、亂咬、亂撞，偶爾跳上杠桿，將杠桿壓下，這時(shí)杠桿帶動(dòng)一個(gè)活門(mén)，從活門(mén)內(nèi)掉出一個(gè)食物小球滾入箱內(nèi)的木槽中，從而取得食物。以后動(dòng)物再次進(jìn)入箱內(nèi)經(jīng)過(guò)亂撞之后按壓了杠桿取得了食物，反復(fù)幾次之后，饑餓的動(dòng)物一進(jìn)入箱內(nèi)，就會(huì)主動(dòng)按壓杠桿取得食物。這樣就在壓杠桿和取食物之間形成了條件反射，斯金納稱它為操作性條件反射。操作性條件反射如以食物為非條件刺激，也可稱為食物運(yùn)動(dòng)性條件反射。將動(dòng)物（如雞）放入實(shí)驗(yàn)箱內(nèi)，當(dāng)它在走動(dòng)中偶然用喙啄在杠桿上時(shí)就喂食，以強(qiáng)化這一動(dòng)作，如此重復(fù)多次，雞就學(xué)會(huì)自動(dòng)啄杠桿而得食。在此基礎(chǔ)上，可以進(jìn)一步訓(xùn)練動(dòng)物只有當(dāng)出現(xiàn)某一特定的信號(hào)（如燈光）后啄杠桿才能得到食物的強(qiáng)化，就形成了以燈光為條件刺激的食物運(yùn)動(dòng)性條件反射。這類條件反射的特點(diǎn)是強(qiáng)化了動(dòng)物必須通過(guò)自己的某種運(yùn)動(dòng)或操作才能得到食物這一關(guān)聯(lián)，所以也稱作操作性條件反射，這是一種更為復(fù)雜的行為[2]。

斯金納的操作性條件反射又稱工具性條件反射，其結(jié)果是規(guī)范或改變動(dòng)物的行為。動(dòng)物通過(guò)自己的某種活動(dòng)或操作得到強(qiáng)化而形成條件反射。動(dòng)物對(duì)環(huán)境做出反應(yīng)，從而得到獎(jiǎng)勵(lì)，動(dòng)物的行為在要求獎(jiǎng)勵(lì)的時(shí)候是一種工具。在操作性條件反射中，動(dòng)物通過(guò)展示特殊行為而受到獎(jiǎng)勵(lì)或避免一個(gè)轉(zhuǎn)移性刺激。例如，動(dòng)物進(jìn)入一個(gè)指定區(qū)域，然后動(dòng)物受到食物獎(jiǎng)勵(lì)。在建立這種關(guān)系后，在下次動(dòng)物更愿意進(jìn)入指定區(qū)域。

適應(yīng)是重復(fù)刺激導(dǎo)致行為減弱或消失的結(jié)果。例如動(dòng)物開(kāi)始可能被巨大的噪音驚嚇，但如果噪音重復(fù)許多次，動(dòng)物對(duì)噪音的反應(yīng)開(kāi)始變小。此時(shí)噪音作為一種刺激，逐漸轉(zhuǎn)變成被忽略的事物。

復(fù)雜學(xué)習(xí)基本上是一種無(wú)所不包的行為?？茖W(xué)家最初認(rèn)為所有的學(xué)習(xí)都能概括為適應(yīng)、典型條件反射和工具性條件反射。然而這三種學(xué)習(xí)形式不能解釋一些觀測(cè)到的學(xué)習(xí)，如有的動(dòng)物通過(guò)觀察其他動(dòng)物學(xué)會(huì)了作某些特殊的行為；或某些隱藏的學(xué)習(xí)，如大鼠第一次探索過(guò)一個(gè)迷宮，當(dāng)再次通過(guò)的時(shí)候其速度會(huì)更快。

2 動(dòng)物行為訓(xùn)練的方法——強(qiáng)化

行為訓(xùn)練的方法主要是強(qiáng)化和懲罰。強(qiáng)化是無(wú)關(guān)刺激和無(wú)條件刺激在時(shí)間上結(jié)合的過(guò)程，包括正強(qiáng)化和負(fù)強(qiáng)化[3]。正強(qiáng)化是使動(dòng)物感到高興或愉快，同時(shí)增加其特殊行為發(fā)生可能性的作用；而負(fù)強(qiáng)化則是使動(dòng)物感到不高興或不愉快，同時(shí)為了消除某些作用而增加其特殊行為發(fā)生可能性的作用。

與之相對(duì)有積極強(qiáng)化物和消極強(qiáng)化物，積極強(qiáng)化物是指能增強(qiáng)該反應(yīng)與反應(yīng)相伴隨的刺激，如水、食物、獎(jiǎng)賞等；所謂消極強(qiáng)化物，是指與反應(yīng)相伴隨的刺激物，從情境中被排除時(shí)可增強(qiáng)該反應(yīng)。例如，將白鼠放進(jìn)一特別箱子中，給予白鼠電擊直至白鼠按壓杠桿，經(jīng)過(guò)幾次強(qiáng)化后，白鼠很快學(xué)會(huì)了壓桿反應(yīng)，以逃避電擊。電擊即是增強(qiáng)壓桿反應(yīng)的消極強(qiáng)化物，其他諸如強(qiáng)光、噪聲、批評(píng)等厭惡性刺激皆屬此類（見(jiàn)圖1）。

強(qiáng)化的程序分為連續(xù)強(qiáng)化和間歇強(qiáng)化，間歇強(qiáng)化一般可分為固定強(qiáng)化和非固定強(qiáng)化兩種，固定強(qiáng)化又分定時(shí)強(qiáng)化和定比強(qiáng)化[4]。定時(shí)強(qiáng)化是指以反應(yīng)時(shí)間而非反應(yīng)數(shù)量為單位來(lái)實(shí)施強(qiáng)化，如每隔3或10min給予一次強(qiáng)化，人類的計(jì)時(shí)工資即是一例。實(shí)驗(yàn)表明，強(qiáng)化的時(shí)間間隔越短，動(dòng)物的反應(yīng)越快，反之亦然。此外，反應(yīng)也隨著接近強(qiáng)化點(diǎn)時(shí)間的長(zhǎng)短而變得或慢或快，即反應(yīng)之初，速度較慢，而接近強(qiáng)化時(shí)間點(diǎn)時(shí)，反應(yīng)則加快。一次強(qiáng)化之后，反應(yīng)重新變慢，開(kāi)始了下一個(gè)循環(huán)。所謂定比強(qiáng)化是指以反應(yīng)的數(shù)量而非時(shí)間為單位來(lái)實(shí)施強(qiáng)化。如設(shè)定白鼠只有壓桿每20次才予以一次強(qiáng)化，人類的計(jì)件工資即是如此。實(shí)驗(yàn)表明，如果強(qiáng)化比率的標(biāo)準(zhǔn)不是高不可攀的話，定比強(qiáng)化下的動(dòng)物反應(yīng)要快于定時(shí)強(qiáng)化下的反應(yīng)。斯金納的研究還指出，如果使用非固定強(qiáng)化，即安排強(qiáng)化的時(shí)間間隔或反應(yīng)次數(shù)不是以固定的標(biāo)準(zhǔn)出現(xiàn)，而采取變異的標(biāo)準(zhǔn)的話，這往往會(huì)克服固定強(qiáng)化的缺陷，而使得反應(yīng)既穩(wěn)定又均勻，而且難以消退。如果將固定強(qiáng)化和非固定強(qiáng)化混合安排使用，則效果非常好[5]（見(jiàn)圖2）。

3 動(dòng)物行為訓(xùn)練的方法——懲罰

懲罰也是行為訓(xùn)練的一個(gè)方法，合理地采用將有助于某些不必要行為的消失或減少[6]。懲罰的目的是為了降低或抑制某種行為的活動(dòng)，并使某種行為消失或減少。通常我們都鼓勵(lì)采用正強(qiáng)化的方法進(jìn)行訓(xùn)練，然而，總用一種方式去實(shí)現(xiàn)行為訓(xùn)練往往達(dá)不到預(yù)期的效果，此時(shí)就要考慮運(yùn)用懲罰的方法來(lái)完成所需要的動(dòng)作。當(dāng)然，我們反對(duì)運(yùn)用體罰或任何對(duì)動(dòng)物身心有傷害的方法，我們這里的懲罰是中止獎(jiǎng)勵(lì)、停止強(qiáng)化、中止行為訓(xùn)練或訓(xùn)練員可以采取走開(kāi)的方法。為了減少不希望的行為，最有效的方法就是停止強(qiáng)化，讓這一行為慢慢消失[7]。特別是在行為訓(xùn)練過(guò)程中動(dòng)物顯示攻擊行為的時(shí)候，訓(xùn)練人員可以采取中止行為訓(xùn)練的方法；或者當(dāng)發(fā)生了動(dòng)物直接的攻擊行為后，訓(xùn)練人員通過(guò)離開(kāi)或走開(kāi)作為對(duì)動(dòng)物的懲罰。通過(guò)采取以上方法都能降低攻擊行為再次發(fā)生的概率。如果發(fā)現(xiàn)用中止行為的方法來(lái)降低攻擊行為需要頻繁地延長(zhǎng)時(shí)間才能達(dá)到效果，那么此時(shí)就應(yīng)該重新評(píng)估以上方法。如果采取中止行為訓(xùn)練后動(dòng)物仍然沒(méi)有降低攻擊的頻率，表明該方法對(duì)這一動(dòng)物已經(jīng)沒(méi)有效果了，需要采用新的技術(shù)來(lái)降低攻擊行為的發(fā)生或重新調(diào)查行為訓(xùn)練的有效性[8]。

此外，要慎重采取其他的懲罰措施，由于實(shí)施懲罰的有效性是有限的，處罰并不能給動(dòng)物恰當(dāng)?shù)男袨?，只能減少不希望行為的發(fā)生率[9]。而且懲罰是有消極影響的，盡管我們的本意是消除或減弱不希望行為，但是容易讓動(dòng)物把懲罰和訓(xùn)練行為本身聯(lián)系起來(lái)，從而建立條件反射。為了使懲罰有效果，懲罰必須要有即時(shí)性和恒常性，并有一定的力度。要求在每次這種行為出現(xiàn)的時(shí)候都給予實(shí)施，不能有時(shí)懲罰，有時(shí)容忍。這樣會(huì)把動(dòng)物的行為準(zhǔn)則弄混，分辨不清到底什么樣的行為才是我們所要求的?？傊?，在實(shí)際訓(xùn)練中要具體問(wèn)題具體分析。只要訓(xùn)練者對(duì)期望的某種行為予以獎(jiǎng)勵(lì)，這種行為就會(huì)得到強(qiáng)化，反之就會(huì)消退。若施予懲罰，則會(huì)加快消退的速度。（編輯：郭遠(yuǎn)）

參考文獻(xiàn)：

[1] Mellen J.， Ellis S， D. Kleiman， M. Allen， K. Thompson， and S. Lumpkin. "Animal learning and husbandry training." In Wild Mammals in Captivity， eds[J]. Chicago： University of Chicago Press， 1996， 88-99.

[2] 尚玉昌. 動(dòng)物的經(jīng)典條件反射和操作條件反射學(xué)習(xí)行為[J]. 2005， 40（12）： 7-9.

[3] 彭聃齡主編. 普通心理學(xué)[J]. 北京師范大學(xué)出版社， 2001.

[4] 郭志宏. 經(jīng)典性條件反射與操作性條件反射的比較[J]. 內(nèi)蒙古科技與經(jīng)濟(jì)， 2005， 101-103.

[5] 章永. 間歇強(qiáng)化程序及其運(yùn)用[J]. 樂(lè)山師范學(xué)院學(xué)報(bào)， 2006， 89-92.

[6] Kirtland， J. "Operant definitions of reinforcement and punishment： Getting the jargon right."[J]. Elephant Managers Association Newsletter， 1994， 5（1）： 23-25.

[7] Poole， T. "Principles involved in training animals." In Animal Training： A Review and Commentary on Current Practice[J]. Cambridge， U.K.： Universities Federation for Animal Welfare， Potters Bar， 1990.

[8] Kirkwood， J.， Kichenside， C.， and James， W. "Training zoo animals." In Proceedings of Animal Training Symposium. A Review and Commentary on Current Practices[J]. Cambridge， U.K.： Universities Federation for Animal Welfare， Potters Bar， 1989， 93-99.

[9] Daniel Q. Estep. Two Programs Educating the Public in Animal Learning and Behavior International Journal of Comparative Psychology[J]. 2002， 15， 242-248.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

動(dòng)物行為訓(xùn)練的理論基礎(chǔ)