衛(wèi)思彤
鞍山市鞍鋼高級(jí)中學(xué)
學(xué)生個(gè)體與監(jiān)考人員間的博弈模型建立
衛(wèi)思彤
鞍山市鞍鋼高級(jí)中學(xué)
本文將運(yùn)用博弈和演化手段,通過(guò)構(gòu)建考生個(gè)體與監(jiān)考人員間的博弈模型,和考生群體在學(xué)校對(duì)監(jiān)考人員采取不同激勵(lì)政策的條件下的演化模型,研究在一定條件下激勵(lì)政策與作弊人數(shù)比例間的關(guān)系。
學(xué)生個(gè)體;監(jiān)考人員;博弈
考試是教學(xué)過(guò)程中的一個(gè)重要環(huán)節(jié),考試作弊現(xiàn)象伴隨著考試制度的出現(xiàn)而出現(xiàn),在各高等院校均有不同程度的存在,且有愈演愈烈的趨勢(shì)。除去考生自身方面的因素,如學(xué)業(yè)外的其它瑣事分散了時(shí)間和精力等,影響考生個(gè)人是否作弊之外,還有另一個(gè)重要的影響因素是監(jiān)考人員(考場(chǎng)老師)對(duì)參與考試的所有考生的統(tǒng)一監(jiān)考策略。具體分析如下:
一方面是學(xué)生個(gè)人與監(jiān)考人員的博弈。作弊在一定條件下會(huì)使考生獲得更高收益,例如得到更高分?jǐn)?shù);同時(shí)也有一定風(fēng)險(xiǎn)被監(jiān)考人員發(fā)現(xiàn)并除以責(zé)罰。作為經(jīng)濟(jì)人,每位考生都將時(shí)刻遵循收益最大化原則做出決策,即自己承擔(dān)最小風(fēng)險(xiǎn)及付出最低成本以獲取最大收益。因此考生是否選擇作弊及選擇使用何種作弊手段將直接被監(jiān)考人員的監(jiān)考策略影響。監(jiān)考人員采取兩種監(jiān)考策略“嚴(yán)格監(jiān)考”與“不嚴(yán)格監(jiān)考”,和考生采取兩種應(yīng)對(duì)策略“作弊”與“不作弊”及“作弊”策略中的三種作弊手段“手機(jī)作弊”“打小抄”“抄同學(xué)”,雙方都不能通過(guò)單獨(dú)改變策略或概率以改善自身的期望得益,因此構(gòu)成混合策略納什均衡,也是該博弈模型的唯一納什均衡解。
另一方面是學(xué)校管理層給予監(jiān)考人員一定激勵(lì)機(jī)制。監(jiān)考人員采取兩種監(jiān)考策略“嚴(yán)格監(jiān)考”與“不嚴(yán)格監(jiān)考”的意愿直接決定于學(xué)校管理層給出的對(duì)激勵(lì)其監(jiān)考嚴(yán)格的機(jī)制,顯然激勵(lì)程度越高或稱為強(qiáng)策略(通常表現(xiàn)在更高的報(bào)酬﹑更優(yōu)的評(píng)級(jí)),監(jiān)考人員“嚴(yán)格監(jiān)考”意愿越強(qiáng)烈即概率越大,考生作弊被發(fā)現(xiàn)風(fēng)險(xiǎn)越高,考生收益下降甚至為負(fù)。激勵(lì)程度越低則恰恰相反。因此單個(gè)考生的作弊決策也間接受學(xué)校管理層制定的激勵(lì)機(jī)制的影響。
1.博弈過(guò)程說(shuō)明
t=0時(shí),學(xué)校管理層給出激勵(lì)政策直接決定監(jiān)考人員收益類型。在這里,假設(shè)學(xué)校采取強(qiáng)激勵(lì)策略的概率為θ,弱激勵(lì)策略的概率為1-θ。因此也可將θ視為激勵(lì)強(qiáng)度,此處θ可視為博弈過(guò)程中的外生變量,它影響模型中其他變量的值,但不受其他變量的影響。則θ可以作為考生與監(jiān)考人員的共同信息,即學(xué)校管理層的激勵(lì)政策完全對(duì)另外兩方公開(kāi)。因此考生能夠確定本場(chǎng)考試中所遇到的監(jiān)考人員是何種收益類型的概率,雖然考生并不能確定監(jiān)考人員的具體收益類型。
t=1時(shí),監(jiān)考人員進(jìn)入考場(chǎng)的同時(shí)向考生給出其監(jiān)考策略“嚴(yán)格”(t1)或“不嚴(yán)格”(t2),此步驟對(duì)應(yīng)的實(shí)際現(xiàn)象是,考生可以在監(jiān)考人員進(jìn)入考場(chǎng)的幾分鐘及考試開(kāi)始不久的短暫時(shí)間內(nèi),通過(guò)對(duì)監(jiān)考人員言語(yǔ)和行為判斷出監(jiān)考人員是否嚴(yán)格。
t=2時(shí),選擇作弊的學(xué)生給出對(duì)應(yīng)的作弊策略:“手機(jī)作弊”(s1),“打小抄”(s2),“抄同學(xué)”(s3),此博弈可進(jìn)行重復(fù)博弈分析,即可在充分多次博弈后得到最佳混合策略。
2.符號(hào)說(shuō)明
表1
3.模型過(guò)程具體分析
t1 t2 V1V2
分析,此時(shí)博弈完成,給出雙方受益矩陣及期望。
3.1 學(xué)生收益矩陣及期望
(1)T=t1,即監(jiān)考人員采取嚴(yán)格策略,又在重復(fù)博弈中,監(jiān)考人員采取嚴(yán)格策略的概率為,則。
(2)T=t2,即監(jiān)考人員采取非嚴(yán)格策略,又在重復(fù)博弈中,監(jiān)考人員采取不嚴(yán)格策略的概率為則學(xué)生收益期望為
3.2 監(jiān)考人員收益矩陣及期望
(1)監(jiān)考人員收益類型為V1,此時(shí)。所以期望為
(2)監(jiān)考人員收益類型為V2,此時(shí)所以期望為
綜上
至此,博弈建立完成。
文章通過(guò)構(gòu)建考生個(gè)體與監(jiān)考人員間的博弈模型,和考生群體在學(xué)校對(duì)監(jiān)考人員采取不同激勵(lì)政策的條件下的演化模型,結(jié)合數(shù)理推到與統(tǒng)計(jì)結(jié)果,經(jīng)過(guò)計(jì)算機(jī)的演化模擬,最終得到作弊人數(shù)N關(guān)于激勵(lì)強(qiáng)度 的關(guān)系。
此結(jié)果對(duì)于學(xué)校的實(shí)際參考意義是:
(1)提供一個(gè)有價(jià)值的,能夠作為參考讓學(xué)校決定控制作弊人數(shù)手段的模型。論文中各項(xiàng)參數(shù)皆可通過(guò)統(tǒng)計(jì)學(xué)方法得到,學(xué)校可以用此模型從管理層面得到控制作弊人數(shù)在一定范圍內(nèi)的最經(jīng)濟(jì)手段。
(2)說(shuō)明學(xué)校需要將激勵(lì)政策強(qiáng)度控制在一定范圍,當(dāng)激勵(lì)政策達(dá)到一定強(qiáng)度時(shí),學(xué)校若繼續(xù)加強(qiáng),只會(huì)造成成本的浪費(fèi)。即模型中激勵(lì)政策的調(diào)節(jié)函數(shù)與橫軸有交點(diǎn)。
[1]于久洪,張劍.基于貝葉斯博弈的銀行貸款定價(jià)研究;統(tǒng)計(jì)與決策,2010,(7)
[2] Gy¨orgy Szab′o, Kinga S. Bod′o, Benjamin Allen, and Martin A. Nowak.Four classes of interactions for evolutionary games; Physical Review E 92, 022820 (2015)