基于信念學(xué)習(xí)模型的虛擬博弈實驗研究

2017-03-31 01:45:24何婧

經(jīng)濟師 2016年9期

摘要：信念學(xué)習(xí)模型是博弈論的一個前沿?zé)狳c問題，當(dāng)前研究多數(shù)處于初始階段，國內(nèi)鮮少有實驗驗證該模型。文章將教學(xué)問答環(huán)節(jié)進行博弈化設(shè)計，對虛擬博弈信念學(xué)習(xí)模型進行驗證，實驗數(shù)據(jù)分析顯示：模型收斂于均衡策略。實驗證明了信念學(xué)習(xí)模型的有效性，并對今后構(gòu)建該類模型提出有益的建議。

關(guān)鍵詞：信念學(xué)習(xí) 實驗經(jīng)濟學(xué) 虛擬博弈

中圖分類號：F240 文獻標(biāo)識碼：A

文章編號：1004-4914（2016）09-247-03

一、引言

隨著博弈論在各門學(xué)科中的廣泛使用，個體行為選擇在學(xué)習(xí)中的作用也不斷被學(xué)者們研究。North（1996）將心理學(xué)中個體的認知系統(tǒng)引入到經(jīng)濟模型中，有效解釋了決策中信念及偏好的關(guān)系，并將兩者融合為理性決策的基礎(chǔ)，由此得出結(jié)論：信念是個人行為的準(zhǔn)則，它是影響個人行為選擇的重要因素。他人的認知、行動和信念是構(gòu)建有用模型的先決條件。

隨著重復(fù)博弈研究的不斷加深，經(jīng)濟學(xué)家逐步重視學(xué)習(xí)信念行為，用以解釋當(dāng)重復(fù)整個博弈時行為往往變得更為理性的原因。隨著實驗經(jīng)濟學(xué)家對個體在重復(fù)博弈中的學(xué)習(xí)過程進行研究，信念的形成歸納為：自身學(xué)習(xí)以及外界互動。自身學(xué)習(xí)指自身經(jīng)歷不斷強化使某種行為發(fā)生的概率上升，外界互動指通過觀察別人行為的收益情況進而指導(dǎo)自身行為決策。在此基礎(chǔ)上，Colin F.Camerer（2003）將信念學(xué)習(xí)模型定義為：“假設(shè)參與者根據(jù)過去的事件來更新他們認為別人會如何行動的信念，從而根據(jù)這些信念來決定哪種策略是最優(yōu)的。”信念學(xué)習(xí)模型大致分為三類：信念學(xué)習(xí)模型，強化學(xué)習(xí)模型，經(jīng)歷-加權(quán)吸引模型（章平，2006）。

信念學(xué)習(xí)模型以Fundenberg and Levine（1998）和Cheung and Friedman（1997）的虛擬博弈模型為代表，該理論的基礎(chǔ)是：參與人通過觀察其他參與人在過去各期內(nèi)采取的行動概率，由此做出自身預(yù)期收益最大化概率的行為。信念學(xué)習(xí)模型強調(diào)參與者始終牢記其他參與者以前的所有行動，并且還要求參與者對每一期對手過去的行動賦予相等的權(quán)重，以此來決定自己本輪的行為策略。該模型的觀測經(jīng)歷主要來源于其他參與人過去的經(jīng)歷，即外界互動。強化學(xué)習(xí)模型以Bush-Mosteller Modle（1997）為代表，該理論基礎(chǔ)是：心理學(xué)認為一旦一種行動得到了獎賞，那么個人在未來繼續(xù)做出該行動的概率上升。如果是懲罰則未來做出該行動的概率下降。強化學(xué)習(xí)模型不強調(diào)參與者形成有關(guān)其他參與者可能行動的信念，因為參與者更關(guān)注自己過往行為的獎賞和懲罰，該模型的觀測經(jīng)歷主要來源是自身經(jīng)歷，即自身學(xué)習(xí)。經(jīng)歷-加權(quán)吸引模型以Camerer and Teck Ho（1999）的Experience-Weighted Attraction Modle為代表，將強化學(xué)習(xí)模型和信念學(xué)習(xí)模型相結(jié)合，通過將自身獎懲和觀察其他參與者的支付情況賦予不同的權(quán)重，擬合為吸引力指標(biāo)，參與者對吸引力越敏感采取該行動的概率越大。

綜上，本文通過對教學(xué)提問環(huán)節(jié)進行博弈化設(shè)計對信念學(xué)習(xí)模型進行研究，檢驗在重復(fù)博弈下該模型是否有效？探討行為博弈、信念形成及制度設(shè)計方面的相互關(guān)系。

二、理論模型

在序貫二元決策場景的重復(fù)博弈下，通常假設(shè)對手的行動集合為C（c1，c2···ci···ck），在t輪博弈之中，參與者對于其他參與者選擇行動ci所賦予的信念權(quán)重不斷更新為：

bt（ci）=bt-1（ci）+1 在t期對手選擇行動ci，信念權(quán)重相應(yīng)的增加1bt-1（ci）在t期對手選擇行動ci，信念權(quán)重相應(yīng)的增加1

則在t期，參與者形成的其對手選擇行動ci的概率與信念權(quán)重之間的關(guān)系：

μt（ci）=

在給定其他參與者選擇各種行動的概率的信念下，參與者計算出自己可供選擇的每一個純策略ai（參與者的策略空間為A）的期望支付π（ai/μt），則參與者在t+1期選擇純策略ai的概率為：

P =

同樣地，參與者選擇具有最大概率值的策略為自己的最優(yōu)響應(yīng)。

三、實驗設(shè)計和實施

（一）實驗設(shè)計

實驗在教學(xué)提問環(huán)節(jié)進行博弈化設(shè)計的背景下，通過多次重復(fù)博弈使本次回答問題的學(xué)生在充分了解其他參與者（之前回答問題的學(xué)生）的支付、以及對手（教師）的行動基礎(chǔ)上，來決定自己本輪的行為策略。

所謂教學(xué)提問環(huán)節(jié)的博弈化設(shè)計是指：將每次課堂提問作為一次博弈局，博弈的參與者是老師和學(xué)生，由于課堂提問內(nèi)容和教學(xué)內(nèi)容息息相關(guān)，兩個參與者都能夠充分掌握背景信息，信息對于兩者來說是充分的。實驗的行動是教師讓學(xué)生起來回答問題，教師根據(jù)學(xué)生的回答質(zhì)量，依據(jù)公開透明量化的考核標(biāo)準(zhǔn)對學(xué)生回答進行打分。該分數(shù)作為學(xué)生的支付，最終體現(xiàn)在期末成績中占有一定權(quán)重。為保證博弈的公平性、有效性，實驗過程采用搖號的方式隨機選取同學(xué)起來回答問題。即，在課堂提問出來之后，教師和學(xué)生都不知道誰將起來回答問題。本實驗中的行動次序固定為教師先提問然后隨機選擇學(xué)生回答問題最終依照量化標(biāo)準(zhǔn)打分的序貫博弈，并且相同的博弈局在每次課都會整體重復(fù)出現(xiàn)，在下一周也會重復(fù)出現(xiàn)。因此，學(xué)生有充分長的時間來搜尋對手的行動、其他參與者之前的行動，從而形成信念指導(dǎo)自己的行動。實驗的信念傳遞過程如圖1（見下頁）所示。

實驗的參與者是從課題組老師教授的某一門課程中選取2個班級對教學(xué)提問環(huán)節(jié)進行博弈化設(shè)計教學(xué)，實驗的對比組是另外幾個平行班沿用傳統(tǒng)的教學(xué)提問設(shè)計教學(xué)。

實驗的支付是學(xué)生回答問題獲得相應(yīng)的分數(shù)，最終體現(xiàn)在期末成績中。為保證支付的公平和有效性，試題根據(jù)難度和題型的不同被賦予不同權(quán)重，例如：單選題權(quán)重為0.8，A類簡答題權(quán)重為1，B類簡答題權(quán)重為1.2，A類案例分析題權(quán)重為1.2，B類案例分析題權(quán)重為1.5。為保證學(xué)生對支付的敏感性，按照每次課平均10%的同學(xué)參與博弈的數(shù)量安排每周的實驗次數(shù)。作為重復(fù)博弈，為保證非合作行為的發(fā)生設(shè)計了懲罰策略，促使學(xué)生采取合作策略，最終實現(xiàn)合謀性的均衡結(jié)果。

教師行動集為：處罰、0分、60分、80分、100分。因此，教師行動集的效用為（-1，0，1，2，3）。學(xué)生的行動集為：不回答、答非所問式回答、預(yù)期能力以下式回答、與預(yù)期能力相匹配的回答、超預(yù)期能力的回答。因此，學(xué)生行動集的效用為（-1，0，1，2，3），如表1所示。

從上述策略及收益矩陣不難看出：通過懲罰性策略，學(xué)生一般將采取回答問題的合作策略。本實驗的最佳均衡是學(xué)生充分思考提問內(nèi)容，在現(xiàn)有的評定標(biāo)準(zhǔn)下超預(yù)期能力回答問題，同時教師的教學(xué)效用也達到最大化，教學(xué)效果顯著提高。

（二）實驗實施

為避免學(xué)生沿用大學(xué)課程回答問題的思維慣性，課題組優(yōu)先考慮大一新生為實驗參與者。為更好地進行題目設(shè)置和量化考核，課題組優(yōu)先考慮使用開放性知識點、專業(yè)通識性課程作為樣本，最終選取會計專業(yè)第一期學(xué)期課程《財政與金融》作為實驗樣本。作為一項長期的行為學(xué)實驗，與之前許多論文中在實驗室內(nèi)短時期內(nèi)完成數(shù)輪虛擬博弈的計算機模擬不同，本實驗實施中存在很多的不可控因素和需要剔除的影響因素。因此，本實驗先后進行過兩次大規(guī)模的實施。2014年9月到12月課題組甄選2014級會計專業(yè)2個教學(xué)班進行了初次實驗。經(jīng)過初次實驗，課題組對實驗設(shè)計的細節(jié)進行優(yōu)化，修改了量化評分體系，對數(shù)據(jù)搜集和數(shù)據(jù)可比性進行了完善。2015年9月到12月課題組再次對2015級會計專業(yè)2個教學(xué)班進行了第二次試驗。本文第四部分數(shù)據(jù)分析將主要對第二次實驗的有效樣本數(shù)據(jù)進行分析。

實驗具體實施方案如下：任課教師于第一次課時對受驗班級學(xué)生介紹如下規(guī)則：每節(jié)課將不低于6次提問（每個班級人數(shù)約60人，按照10%的概率隨機抽取人數(shù)進行實驗），采用搖學(xué)號的方式隨機抽選同學(xué)起來回答問題。詳細介紹單選、簡答、案例分析三類提問的量化評分標(biāo)準(zhǔn)、分數(shù)權(quán)重。實驗的前兩個有效周讓學(xué)生熟悉實驗的流程、熟悉實驗的評分規(guī)則。實驗數(shù)據(jù)從第三個有效周開始提取，由于總學(xué)時12周且中途有國家法定節(jié)假日等不可控因素影響，實際提取合計7周的數(shù)據(jù)（包含1周實驗熟悉周）用于分析比較，并且該7周（包含1周實驗熟悉周）的數(shù)據(jù)盡可能做到了提問內(nèi)容基本一致。所謂實驗的有效周，是指受驗的2個班級在本周都同時有課，且教學(xué)進度基本一致。本次實驗獲取樣本數(shù)據(jù)132個，其中有效樣本數(shù)據(jù)84個。

四、實驗結(jié)果分析及啟示

（一）實驗結(jié)果分析

1.一般的信念學(xué)習(xí)模型存在并收斂。通過對實驗有效樣本數(shù)據(jù)進行處理，對第二部分信念學(xué)習(xí)模型的結(jié)論進行驗證。從每周平均分（如圖2所示）和分題型周平均分（如圖3所示）來看，加權(quán)平均分和未加權(quán)平均分均呈收斂趨勢，說明教學(xué)環(huán)節(jié)的博弈化設(shè)計有效并收斂，重復(fù)博弈存在納什均衡。隨著實驗次數(shù)的增加，參與者對其他參與者選擇行為ci的經(jīng)驗愈來愈豐富，自己的最優(yōu)決策bt（ci）不斷優(yōu)化，平均分值隨實驗次數(shù)增加呈穩(wěn)步上升趨勢。說明圖一所示的外界互動對參與者自身信念bt+1（ci）的信念傳遞過程存在，一般的信念學(xué)習(xí)模型存在并有效。

在《財政與金融》課程為期12周的教學(xué)（累積132回合的虛擬博弈），有8人在不同的教學(xué)周（不局限于有效實驗周）中累積2次被隨機抽取參與虛擬博弈，有1人累積3次被隨機抽取參與虛擬博弈，重復(fù)參與人數(shù)占比11%。重復(fù)參與人的次間分差如圖4所示，累積9人中有6人出現(xiàn)明顯的進步，3人保持現(xiàn)狀。說明參與者自身信念bt+1（ci）更新有效率達到67%，強化學(xué)習(xí)模型存在并有效。

2.一般的信念學(xué)習(xí)模型有效性驗證。在一般的信念學(xué)習(xí)模型參與者的預(yù)期支付π（ai/μt）與實際支付的有效性驗證方面，本文通過查詢學(xué)生當(dāng)期期末總評成績排名預(yù)測學(xué)生的預(yù)期支付π（ai/μt）。通常情況下，期末總評成績排名靠前的學(xué)生，其期望支付就越高。結(jié)合往年經(jīng)驗和課堂實際采訪情況，本文將期末總評排名1～10名的同學(xué)期望支付定為85分，11～20名的同學(xué)期望支付定為80分，21～40名的同學(xué)期望支付定為70分，41～60名的同學(xué)期望支付定為60分。處理后整個實驗期望差值情況如圖5所示。在實驗提取的7周數(shù)據(jù)中第1周為實驗熟悉周，第2周起為正式實驗周，在實驗前2周，12位參與者中約40%左右的人支付情況與預(yù)期不一致，出現(xiàn)負支付情況。在其后的2周中，參與者的支付情況與預(yù)期一致的比例穩(wěn)步提升，穩(wěn)步提升至50%以上。從第5個實驗周開始，參與者的超預(yù)期獲得正支付的比例明顯提升，并且正的期望差值數(shù)額不斷擴大，第6和第7周時，90%以上的參與者獲得正支付，且期望差較前幾周擴大。說明一般的信念學(xué)習(xí)模型能有效改進參與者的決策、獲得超額支付。

（二）實驗結(jié)果的啟示

1.信息對稱及制度建設(shè)的重要性。信念是行為互動過程中完全理性決策的主體的主觀概率。完全理性決策的先決條件是信息對稱。在信息不充分的情況下，參與者無法做出完全理性的決策。將2014年不成熟的實驗和2015年的實驗對比來看：評定細節(jié)越詳細、行為決策過程越明晰，參與者（老師）的決策過程信息披露越充分，后續(xù)參與者的表現(xiàn)越好。與2014年相比2015年的本次實驗中，評定信息的公開使學(xué)生回答問題的質(zhì)量明顯提高，對評定細則的詳細講解以及成績評定剖析后學(xué)生的成績有效提高。因此，博弈決策選擇的概率通常與決策過程相關(guān)，特定細節(jié)制度的設(shè)計，將有效引導(dǎo)決策行為，為參與者提供系統(tǒng)分析制度性和結(jié)構(gòu)性變量的理論效用的方法。

2015年實驗結(jié)束后，本課題組進行了滿意度調(diào)查。學(xué)生對該實驗的滿意度為92%，學(xué)生認為實驗有效性的占90%，認為最大收獲是“學(xué)會并掌握答題思路”的占73%，對重要因素的排序分別為：評分細則講解、先手示范、自我表達能力。因此，在一般的信念學(xué)習(xí)模型（虛擬博弈）中，完善的制度和對手在t-1期中的決策過程越明晰，局中參與人學(xué)習(xí)先手經(jīng)驗在t期中行為的bt（ci）權(quán)重越大，做出完全理性決策的主體的主觀概率顯著提高。

2.虛擬博弈信念學(xué)習(xí)模型構(gòu)建的建議。信念學(xué)習(xí)模型主要來自博弈互動實驗的證據(jù)?！靶拍顚W(xué)習(xí)模型”研究的是行為互動中參與者最優(yōu)策略的選擇問題。本實驗通過教學(xué)問答環(huán)節(jié)博弈化設(shè)計模擬該模型，通過實驗充分闡述和論證了虛擬博弈信念學(xué)習(xí)模型的存在性、收斂性、有效性在，此處不在贅述。

常見的基于虛擬博弈信念學(xué)習(xí)模型要求參與者始終牢記另一個參與者以前采取每種策略的相對頻率，從而主觀概率的采取某一策略，達到預(yù)期收益和實際收益的均衡，實現(xiàn)參與者雙方的效用最大化。那么重復(fù)博弈多少次合適？參與者從第幾次開始學(xué)習(xí)效果開始顯現(xiàn)？根據(jù)實驗數(shù)據(jù)來看，周平均成績和分題型平均成績都從第3個有效實驗周波動降低開始呈穩(wěn)態(tài)向上趨勢，說明參與者對于對手的行動經(jīng)驗μt（ci）一般需要學(xué)習(xí)兩期之后開始有效，自身行為策略Pt+1ai自從第3期開始有效，即t≥2時一般信念形成，開始指導(dǎo)參與者行為。因此，在虛擬博弈信念學(xué)習(xí)模型中重復(fù)博弈的次數(shù)應(yīng)該不少于三次。

簡單博弈行為參與者的決策具有較高確定性，但是在行為互動過程較復(fù)雜的博棄中，或者是長期內(nèi)的重復(fù)博弈過程中，參與者出現(xiàn)隨機性、非理性決策的概率大大提高。虛擬博弈信念學(xué)習(xí)模型要求參與者記住前手采取該策略的概率，因此，在虛擬博弈信念學(xué)習(xí)模型構(gòu)建中過往行動人的一方要嚴(yán)格按照博弈制度進行決策和支付，形成穩(wěn)定的、可靠的“選擇頻率”，才有利于參與者形成信念，指導(dǎo)決策。

3.信念權(quán)重設(shè)定的啟示。信念權(quán)重形成于參與者對過往參與者以前采取每種策略的概率和獲得的支付，學(xué)習(xí)過程形成的信念可以有效提高策略上的優(yōu)勢影響最終支付，但是自身能力與最終支付之間的相關(guān)性也不應(yīng)該被忽略。在進行數(shù)據(jù)比較和分析時，要充分強調(diào)預(yù)期支付，對預(yù)期支付進行有效的界定和評估，將最終支付和預(yù)期支付進行比較才能獲得真實、相較客觀的學(xué)習(xí)成果描述。例如，本實驗中對于題目難度的劃分、結(jié)合期末排名對每次博弈結(jié)果的加權(quán)處理等。脫離參與者自身能力一味強調(diào)信念學(xué)習(xí)的效果，實驗將不能更好的還原現(xiàn)實生活中行為決策過程。

信念權(quán)重除了取決于上述條件外，還取決于參與者對支付的敏感程度。重復(fù)博弈過程中，參與者的后向?qū)W習(xí)能力，例如歸納、推理，使得重復(fù)博弈的結(jié)果越來越理性，但是仍然會出現(xiàn)一定比例的與模型預(yù)測相悖的結(jié)果，此時就必需要關(guān)注參與者對支付的敏感程度。在今后的模型構(gòu)建中，應(yīng)對支付結(jié)果的表現(xiàn)形式進行多樣化設(shè)計。參與者的決策行為影響因素眾多，多樣化的支付結(jié)果能更好地還原現(xiàn)實生活情況，更好的模擬決策行為。本實驗中，支付結(jié)果的表現(xiàn)形式較為單一，因此采取懲罰性措施，增加參與者對現(xiàn)有支付的敏感度，降低非理性在行為決策中的干擾。例如，本實驗在2014年的初次實驗早期未設(shè)計懲罰性措施，造成參與者對支付不敏感出現(xiàn)非合作的不理性行為。同時，懲罰性措施在理論上還可以有效避免重復(fù)博弈中常見的合謀性均衡結(jié)果。因此，今后在構(gòu)建該類模型中建議適當(dāng)引入懲罰性措施能有效提高參與者對支付結(jié)果的敏感程度。

4.外界環(huán)境對于實驗的影響。信念的學(xué)習(xí)過程還來源于對外界環(huán)境的界定，外界環(huán)境提供的信息不可忽視。在始終牢記參與者以前采取每種策略的相對頻率的同時，參與者會對信息進行選擇性加工，加強自身認同信息的權(quán)重，弱化不認同信息的權(quán)重，對于那些會有效甄別信息的參與者，其信念的學(xué)習(xí)就好，反之亦然。在信息的甄別過程中，由于參與者始終牢記前手的決策，所以在虛擬博弈信念學(xué)習(xí)模型中容易出現(xiàn)“羊群效應(yīng)”。例如，在2014年和2015年的兩次實驗中，有的受驗班級周平均成績長期一致略微差于對比班級，有的受驗班級間長期存在某種莫名的情緒左右影響到參與者的最終行為決策。個體決策行為除了博弈制度、博弈對手的影響，還存在外部評估的過程。因此，個體行為存在異常決策，如若個性異常行為頻繁出現(xiàn)，實驗者需思考，頻繁非理性決策背后是否存在非公平、非道德、非合法等隱形缺陷存在。因此，在今后的實驗構(gòu)建和實驗數(shù)據(jù)分析中應(yīng)當(dāng)考慮到群體行為對個人決策行為的影響。

[基金項目：四川省教育廳人文社科一般項目（項目編號：15SB0373）。]

參考文獻：

[1] 章平.信念調(diào)整、學(xué)習(xí)行為和均衡收斂的博弈模型研究進展[J].南京社會科學(xué).2009（1）

[2] 章平，戴燕.個體決策與學(xué)習(xí)行為：有限理性建模綜述[J].南開經(jīng)濟研究，2006（3）

[3] Douglas D. Davis ，Charles A. Holt.實驗經(jīng)濟學(xué)[M].北京：中國人民大學(xué)出版社，2013

[4] 科林·凱莫勒.行為博弈（對策略互動的實驗研究）[M].北京：中國人民大學(xué)出版社，2006

[5] C Camerer，T Ho.Experience-Weighted Attraction Learning in Normal Form Games[J].Econometrica，1999（67）

[6] Fudenberg D ， Levine.The Theory of Learning in Games[M].The M.I.T. Press， Cambridge，MA，1998

（作者單位：四川華新現(xiàn)代職業(yè)學(xué)院經(jīng)濟管理系，四川廣播電視大學(xué)高職院四川成都 610045）

（作者簡介：何婧，四川華新現(xiàn)代職業(yè)學(xué)院經(jīng)濟管理系，四川廣播電視大學(xué)高職院講師，經(jīng)濟學(xué)碩士，研究方向：行為博弈、證券投資。）

（責(zé)編：賈偉）

經(jīng)濟師2016年9期

經(jīng)濟師的其它文章: 淺析事業(yè)單位財務(wù)人員的轉(zhuǎn)型定位; 交通警察執(zhí)勤執(zhí)法中應(yīng)對襲警的策略分析; 基于法學(xué)視角的公司治理結(jié)構(gòu)思考; 淺析金融消費者權(quán)益的法律保護; “中國平安訴比利時投資爭端案”相關(guān)問題研究; 地勘單位礦業(yè)開發(fā)的發(fā)展模式探討

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于信念學(xué)習(xí)模型的虛擬博弈實驗研究