吳怡萍 蔡恒進(jìn)
造假行為的傳播與遏制
——基于進(jìn)化博弈模擬的研究
吳怡萍 蔡恒進(jìn)
借鑒進(jìn)化博弈的思想,一個(gè)新的模型建立起來用以模擬造假行為的傳播過程,以期找到其廣泛傳播的路徑,并尋找遏制的方法。模型賦予了個(gè)體學(xué)習(xí)的能力,結(jié)果顯示懲罰程度對(duì)造假行為的傳播沒有影響,但抽查概率卻是決定性的。為了提高查處的效率,“連帶檢查”機(jī)制被加入到模型中,即對(duì)造假者周圍鄰居進(jìn)行檢查并施以同樣的懲罰。這種機(jī)制能夠在抽取概率為26%時(shí)達(dá)到消除造假者的目的,相比之下,沒有“連帶檢查”時(shí)必須把抽取概率提高到80%才能達(dá)到消除造假者的目的。
進(jìn)化博弈;造假行為;懲罰機(jī)制;連帶檢查
在漫長(zhǎng)的管理進(jìn)化史中,對(duì)“人”的界定是在不斷發(fā)生變化的。自Adam Smith開始,經(jīng)濟(jì)社會(huì)中的“人”被認(rèn)為是“經(jīng)濟(jì)人”,即以完全追求物質(zhì)利益為目的而進(jìn)行經(jīng)濟(jì)活動(dòng)的主體(雷恩·貝德安,2012:164-169)。建立在自利原則上的“經(jīng)濟(jì)人”,擁有完全理性,希望以盡可能少的付出,獲得最大化的收獲,并可以為此不擇手段。之后Herbert Simon指出了完全理性決策只是一種理想模式,因?yàn)槿藗兠鎸?duì)的是一個(gè)復(fù)雜的、不確定的世界,無法獲得完全的信息,同時(shí)人的計(jì)算能力和認(rèn)知能力也是有限的,其所作的決策不可能不受到外界環(huán)境或是情緒的影響,因此無法做到完全理性,而應(yīng)該是“有限理性”(Herbert Simon, 1997:35-37)。從最初的“機(jī)器的操作者”到“擁有智力和感情的機(jī)器”,從“完全理性人”到“有限理性人”。管理者對(duì)“人”的研究越來越多,管理學(xué)的重點(diǎn)也從如何管理機(jī)器、生產(chǎn)線以及生產(chǎn)的流程,轉(zhuǎn)變?yōu)槿绾喂芾砣?Harold Koontz,1980:175-187)。
現(xiàn)實(shí)市場(chǎng)總是處于不完備的狀態(tài),因此交易者的機(jī)會(huì)主義行為會(huì)經(jīng)常發(fā)生。當(dāng)現(xiàn)有工商市場(chǎng)中制度存在缺陷時(shí),交易主體發(fā)現(xiàn)選擇機(jī)會(huì)主義的失信行為有利可圖,一旦這種損人利己行為得不到現(xiàn)有制度的懲罰或懲罰不夠,就會(huì)發(fā)生劣幣驅(qū)逐良幣的效果,引發(fā)更多人不講信用,從而使道德進(jìn)一步滑坡。我們希望借鑒進(jìn)化博弈的思想來對(duì)造假行為的泛濫進(jìn)行定量分析,用計(jì)算機(jī)模擬來研究其傳播途徑,并找到有效遏制方法。
前人在對(duì)這些行為進(jìn)行研究的時(shí)候,往往都是從人的心理、制度的不健全或者管理缺失的角度來進(jìn)行分析(王林燕,2010:214-215)。他們關(guān)注的都是造假者與監(jiān)管機(jī)構(gòu)之間的博弈,這固然可以為監(jiān)管部門提供一定的參考(劉偉兵、王先甲,2009:28-33)(王先甲、劉偉兵,2011:679-686),但是由于造假者都被看作為一個(gè)整體,他們的心理以及造假者行為對(duì)相互的影響則被忽視了。我們的模型研究的就是造假者之間的博弈,這是造假行為傳播的重要影響因素。
(一)進(jìn)化博弈理論
進(jìn)化博弈最早應(yīng)用于生物領(lǐng)域,因其另辟蹊徑的思維模式而給生物進(jìn)化指出了一條新的道路,也使得它的影響力逐漸擴(kuò)大,衍生到各個(gè)行業(yè)中(Trivers R L,1971:35-57)。其中,進(jìn)化博弈思想與社會(huì)科學(xué),尤其是經(jīng)濟(jì)與管理領(lǐng)域的合作,成為跨學(xué)科交叉成功的典范。這種將生態(tài)學(xué)與經(jīng)濟(jì)學(xué)結(jié)合的創(chuàng)新的分析方法,結(jié)合了經(jīng)典博弈理論和社會(huì)學(xué)理論,將有限理性的人作為觀察對(duì)象,利用動(dòng)態(tài)分析方法,把影響人行為的各種因素納入模型之中,來考察群體行為的演化趨勢(shì)。
進(jìn)化博弈思想中比較重要的一條就是互惠理論,其實(shí)質(zhì)就是以犧牲目前的利益為代價(jià),換取以后長(zhǎng)期的利益(Axelrod R,1984:25-28)。這也是生物學(xué)中對(duì)于物種間合作的解釋,它同樣可以被延伸到人的合作中來。前人已經(jīng)對(duì)這種行為進(jìn)行了深入研究,并通過數(shù)學(xué)和計(jì)算機(jī)工具為合作進(jìn)化過程建模。20世紀(jì)80年代,Robert Axelrod完成的計(jì)算機(jī)錦標(biāo)賽被認(rèn)為是最早利用計(jì)算機(jī)模型完成的合作進(jìn)化研究。在這個(gè)錦標(biāo)賽中,Tit-for-Tat策略表現(xiàn)得格外優(yōu)異,成為互惠利他主義的范例(Nowak M A,Sigmund K, 1992:250-253)。這是一種針鋒相對(duì)的策略,即完全跟隨對(duì)方的策略,上回合對(duì)方合作即合作,上回合對(duì)方背叛即背叛。這種策略比較友善,因?yàn)槌跏疾扇〉氖呛献鞯牟呗?而且不會(huì)主動(dòng)背叛對(duì)方,但是當(dāng)遭到背叛的時(shí)候也會(huì)以牙還牙地進(jìn)行報(bào)復(fù),而當(dāng)對(duì)方停止背叛的時(shí)候會(huì)立即原來并繼續(xù)合作。然而這個(gè)策略的容錯(cuò)性很差,突變對(duì)于系統(tǒng)的影響很大,因此Martin Nowak和Karl Sigmund提出了Generous Tit-for-Tat策略,之后又提出了Pavlov策略(Nowak M A,Sigmund K,1993:56-58),這種策略的基本行為機(jī)制是win stay,lose shift(Parkhe,Rosenthal,Chandran,1993:531-539)(Martin Nowak,2006:1560-1563),并通過引入多種概率性策略的不均勻集合,以及突變和選擇到進(jìn)化模擬中來證明Pavlov策略的優(yōu)越性。Martin Nowak和Karl Sigmund證明了在自然環(huán)境下,合作行為可能會(huì)經(jīng)常建立在win stay,lose shift的基礎(chǔ)上。
(二)自我肯定需求理論
關(guān)于假冒偽劣的博弈模擬,前人大多關(guān)注的是造假者與監(jiān)管機(jī)構(gòu)之間的博弈。而我們認(rèn)為,造假者之間也存在博弈。造假行為的模仿、造假行為在生產(chǎn)者之間的傳播,都是研究造假行為發(fā)生所需要關(guān)注的部分。因此,我們首先將模型中的個(gè)體設(shè)定為生產(chǎn)者。
生物領(lǐng)域用合作進(jìn)化的思想來解釋不同物種(Christian Hilbe,Martin A.Nowak,2012:1067),或者不同個(gè)體之間的合作現(xiàn)象(Grilo C,Correia L,2011:109-122)。我們?cè)谔綄ぴ旒傩袨榘l(fā)生原因的過程中,發(fā)現(xiàn)也可以用合作-背叛的模式來進(jìn)行研究。每個(gè)誠信的個(gè)體,在面對(duì)周圍的造假行為時(shí),是會(huì)選擇堅(jiān)守誠信,還是同流合污?他們進(jìn)行選擇的依據(jù)是什么?我們認(rèn)為,人的需求來自于理性與自我肯定。我們依據(jù)人的參照依賴心理特征,排除掉隨機(jī)的和完全非理性的需求之后,將需求分為兩類——理性經(jīng)濟(jì)需求和自我肯定需求(H.J.Cai,2012:1-6)。理性經(jīng)濟(jì)需求是每個(gè)人在其已掌握信息的基礎(chǔ)上做出理性選擇后產(chǎn)生的需求。與之相對(duì)的是自我肯定需求,它是人在理性經(jīng)濟(jì)需求之外的,建立在對(duì)自己的主觀判斷上的需求。我們認(rèn)為,自我肯定需求源于比較,而這種比較一般有兩種:一種是將自己的現(xiàn)在與過去比,另一種是將自己與他人比(H.J.Cai,2011:445-449)。這兩種比較加上人對(duì)自己的肯定而產(chǎn)生了一種不同于理性經(jīng)濟(jì)需求的自我肯定需求。因?yàn)槿耸莾A向于肯定自我的,在面對(duì)選擇時(shí),人更傾向于做出有利于自己的判斷,更傾向于認(rèn)可自己,并期望獲得高出平均水平或超出過去水平的報(bào)酬或認(rèn)可。
將這種比較帶到博弈中,就是學(xué)習(xí)和模仿。個(gè)體不是孤立存在的,周圍個(gè)體的行為會(huì)對(duì)其產(chǎn)生影響。當(dāng)其中一個(gè)個(gè)體選擇造假,例如用質(zhì)量較差的原材料替換原有的材料,就能夠獲得較高的額外收益。排除掉法律和道德的因素,周圍的個(gè)體會(huì)學(xué)習(xí)并模仿,而使得這一行為逐漸向外傳導(dǎo),影響的范圍逐漸擴(kuò)大。不過當(dāng)這一行為逐漸傳播開來,成為系統(tǒng)中大部分個(gè)體的選擇的時(shí)候,額外的收益逐漸減少直至不復(fù)存在。
(一)對(duì)經(jīng)典Pavlov模型的改進(jìn)
R?hl et al.(2011)引入聲譽(yù)機(jī)制,應(yīng)用進(jìn)化博弈模型來研究合作中的欺騙行為.他們?cè)谀P椭袠?gòu)建了三類人——辨別者、背叛者以及欺騙者,每種人再分為聲譽(yù)好的和聲譽(yù)差的兩種,通過模擬他們兩兩交互的重復(fù)博弈,證明了欺騙者的存在對(duì)系統(tǒng)產(chǎn)生有害作用,因?yàn)閷?duì)聲譽(yù)造假可以促進(jìn)基于間接互惠的合作行為(Torsten R?hl,Claudia R?hl,2007)。
我們還原了Pavlov策略,用計(jì)算機(jī)模擬實(shí)現(xiàn)了Pavlov策略的多人多次博弈,結(jié)果發(fā)現(xiàn)這是一種引導(dǎo)合作的策略,不論初始背叛者的比例有多少,最終模型都以全部變?yōu)楹献髡哌_(dá)到穩(wěn)定狀態(tài)。顯然這種策略的模擬結(jié)果與現(xiàn)實(shí)情況不符,所以我們對(duì)其進(jìn)行了改進(jìn):
Pavlov策略以及之前的各種進(jìn)化博弈策略使用的都是一對(duì)一的交易模式(W.H.Press,F.D.Dyson, 2012:109)(A.J.Stewart,J.B.Plotkin,2012:10134-10135),而我們的模型中對(duì)此做了修改,在交互時(shí)依然是一
對(duì)一,但是決策選擇的時(shí)候會(huì)受到周圍個(gè)體的影響。人是社會(huì)性的動(dòng)物,其所作的決策會(huì)受到周圍個(gè)體、環(huán)境的影響。因此我們的假設(shè)為,個(gè)體能夠獲得周圍個(gè)體的信息,但是并不能獲得整個(gè)市場(chǎng)的完全信息,而且個(gè)體在做決策的時(shí)候,會(huì)更多地參照自己周圍的個(gè)體。因此個(gè)體在做決策的時(shí)候,會(huì)將自己的收益與鄰居的收益進(jìn)行比較,以此來選擇之后的決策。這樣每次交互中,每個(gè)個(gè)體所關(guān)注的信息是它周圍這個(gè)小的群體中所有個(gè)體的信息,并且會(huì)對(duì)這些信息進(jìn)行分析和判斷,以此來決定自己下一周期的選擇。每一周期它會(huì)觀察自己周圍個(gè)體的決策和收益,然后學(xué)習(xí)其中獲得收益最高的人?,F(xiàn)實(shí)生活中的信息和選擇,也是依靠這樣的方式,通過周期的演進(jìn)而不斷傳遞出去的。這種心理正是來源于個(gè)體的自我肯定需求。其核心觀點(diǎn)就是個(gè)體的比較,即個(gè)體的滿足感取決于與周圍個(gè)體的比較。如果自身獲得的收益更高,就能獲得更高的滿足感;否則即便絕對(duì)值很高,也不會(huì)獲得滿足。
在R?hl的模型中,個(gè)體決策的改變是通過一系列參數(shù)和方程計(jì)算出來的,包括被抽到的概率、每一周期付出的成本、可能獲得的收益、如果欺騙可能被發(fā)現(xiàn)的概率等等,然而我們認(rèn)為真實(shí)的決策沒有這么復(fù)雜,個(gè)體想要改變策略只是因?yàn)樗吹搅烁玫牟呗?而這種認(rèn)知是通過學(xué)習(xí)和模仿得來的?;谖覀儗?duì)Pavlov策略的改動(dòng),個(gè)體認(rèn)知的范圍擴(kuò)大,其接觸的個(gè)體有多個(gè),而且他做決策的時(shí)候會(huì)對(duì)這些個(gè)體的收益進(jìn)行綜合比較,這就使得較好的決策能夠脫穎而出,而周圍的個(gè)體會(huì)對(duì)這個(gè)決策進(jìn)行學(xué)習(xí)。好的決策通過這個(gè)過程,可以迅速地在系統(tǒng)中傳播出去。當(dāng)然,不好的但是收益高的決策也是一樣,例如造假行為就是一個(gè)典型的例子。
(二)具有學(xué)習(xí)能力的進(jìn)化博弈模型
我們的模擬是分兩步完成的,為了更清晰地探尋造假行為的傳播過程,我們首先在模型中不加入懲罰機(jī)制,只觀察造假行為是如何通過學(xué)習(xí)和模仿在周圍的個(gè)體中傳播開來的。第二步,再在這個(gè)模型的基礎(chǔ)之上,加入懲罰機(jī)制,并與第一步的結(jié)果進(jìn)行對(duì)比,以此來觀察懲罰機(jī)制是如何發(fā)揮作用的。
基于前面提到的修改,我們將這個(gè)新的模型建立在一個(gè)二維平面中,設(shè)定每個(gè)個(gè)體的認(rèn)知范圍是一個(gè)3×3的方格,即他能夠獲取周圍8個(gè)個(gè)體的所有信息,并且對(duì)這8個(gè)個(gè)體采取的決策是一致的。具體到每次交互,個(gè)體的選擇只有不造假或造假。雙方都不造假時(shí),收益為3;都造假時(shí),收益為1;一方造假另一方不造假時(shí),造假者收益為5而不造假者收益為0。決定其下一周期決策的因素不再是其自身單次收益的高低,而是綜合比較周圍8個(gè)個(gè)體的總收益,找出其中收益最高的個(gè)體,選擇它的決策,作為自己下一周期的決策。
具體到模型中,在V*V的二維平面中存在V2個(gè)個(gè)體,每個(gè)個(gè)體i與其周圍的每個(gè)鄰居j進(jìn)行交互。在i與j的交互過程中,i的收益取決于i和j單次博弈的結(jié)果。每個(gè)個(gè)體每一周期對(duì)周圍8個(gè)鄰居的決策是相同的。周期開始時(shí),個(gè)體i對(duì)周圍8個(gè)鄰居的決策參照上一個(gè)周期中自己和8個(gè)鄰居中獲得最多收益的人j,如果j是因?yàn)閷?duì)鄰居造假獲得的收益,那么i在這一個(gè)周期中對(duì)所有鄰居采取造假?zèng)Q策,反之,i對(duì)所有鄰居采取不造假?zèng)Q策。
模型的基本還是囚徒困境。每個(gè)Agent有不造假和造假兩種選擇,如果他們都選擇不造假,則都獲得3的收益;若都選擇造假,則都獲得1的收益;若一人不造假一人造假,則不造假方獲得0的收益而造假方獲得5的收益。而Agent每周期的決策,則是采取上一個(gè)周期周圍獲得最多收益者的選擇。具體流程如圖1所示:
個(gè)體i在周期t對(duì)周圍8個(gè)鄰居采取統(tǒng)一的決策為Si,t,在這個(gè)周期獲得的總收益為Pi,t。除了第一個(gè)周期,每個(gè)個(gè)體的決策是隨機(jī)選取以外,以后的每個(gè)周期t(t>=2),i采取上一個(gè)周期中自己和8
圖1 具有學(xué)習(xí)能力的進(jìn)化博弈算法流程圖
個(gè)鄰居里獲得收益最大的個(gè)體j所采取的決策,即個(gè)體j在t周期的決策:
其中i1,i2,…i8分別表示i的8個(gè)鄰居。當(dāng)個(gè)體i和8個(gè)鄰居中獲得最大收益的人不止一個(gè)時(shí),如果獲得最大收益的人中有采取不造假?zèng)Q策的,那么i這個(gè)周期選擇不造假?zèng)Q策;否則i采取造假?zèng)Q策。
(一)不加懲罰機(jī)制的模擬結(jié)果
在前文模型的基礎(chǔ)上,我們?nèi)=100來進(jìn)行模擬實(shí)驗(yàn)。當(dāng)初始狀態(tài)下所有的個(gè)體都不造假的時(shí)候,模型不會(huì)有任何改變,最后還是都不造假。當(dāng)加入一定數(shù)量的造假者之后,造假的行為開始以不同的程度在整個(gè)系統(tǒng)中傳播出去。在這個(gè)擁有10000個(gè)個(gè)體的系統(tǒng)中,設(shè)定初始造假者比例為0.2%,即初始有約20個(gè)個(gè)體造假時(shí),隨著周期的演進(jìn)造假行為逐漸擴(kuò)散并形成網(wǎng)絡(luò)。從導(dǎo)出的造假者數(shù)量可以看出,到大約50周期時(shí),雖然有個(gè)別的變化,但是整體來看已經(jīng)趨于穩(wěn)定。而這時(shí)的整個(gè)系統(tǒng)中,可以看出造假者依然占少數(shù),如圖2中(4)所顯示的,其中藍(lán)色代表的是不造假者,而綠色是造假者。這時(shí)藍(lán)色的占主導(dǎo),而綠色則只是在其中割裂出一些細(xì)小的網(wǎng)絡(luò)。
圖2 初始造假者比例為0.2%、1%及10%時(shí)的個(gè)體行為演化圖
圖3 兩種模型不同初始造假比例下的最終造假者比例對(duì)比圖
但是當(dāng)我們提高這個(gè)初始比例的時(shí)候,造假者的數(shù)量開始急劇增加。當(dāng)初始造假者的比例為1%時(shí),雖然這個(gè)比例很小,但是造假行為的傳播卻很快。從圖(5)到圖(6),即從第2周期到第6周期,造假行為迅速擴(kuò)散,一半的個(gè)體開始學(xué)習(xí)這一行為。因?yàn)樵诖蟛糠秩瞬辉旒俚那闆r下,少量的造假行為能夠帶來最高的收益,這樣通過模仿傳導(dǎo)出去,使得不造假者紛紛轉(zhuǎn)而選擇造假。系統(tǒng)在第50周期的時(shí)候基本達(dá)到穩(wěn)定狀態(tài),如圖(8)所示,與圖(4)相比,綠色超越了藍(lán)色,數(shù)量更多;而當(dāng)初始造假者的比例為10%時(shí),最終造假的人數(shù)更多,如(12)所示,不造假者只能以一個(gè)個(gè)孤島的形式存在。
接下來我們對(duì)不同初始造假比例下,最終剩余的不造假者進(jìn)行了統(tǒng)計(jì),并且將其與Pavlov策略的結(jié)果進(jìn)行對(duì)比。如下圖所示,Pavlov策略下,初始比例從0到20%,最終的不造假者都是100%。而我們建立的新模型則與之完全不同,當(dāng)初始造假者的比例為1%時(shí),模型穩(wěn)定后不造假者只剩下33.77%,減少了三分之二;而當(dāng)初始比例上升為2%時(shí),最終不造假者剩下18.22%,又減少了一半左右;這個(gè)比例在初始造假者上升為5%時(shí)就已經(jīng)很低了,為8.69%;直到初始造假者為20%時(shí),基本上所有人轉(zhuǎn)化為造假者。
與Pavlov策略相比,我們模型中的個(gè)體能夠獲得更多人的信息(其周圍8個(gè)個(gè)體的信息),這比Pavlov中每個(gè)個(gè)體只關(guān)注自己的交易對(duì)象更為合理;而且,在這個(gè)認(rèn)知范圍擴(kuò)大的進(jìn)化博弈模型中,個(gè)體還能夠?qū)ψ约韩@得的信息進(jìn)行比較和分析,將自己周圍8個(gè)個(gè)體的策略和收益進(jìn)行對(duì)比,從中選擇收益最高的個(gè)人進(jìn)行模仿,這也使得好的策略能夠在系統(tǒng)中傳播出去。當(dāng)然,在這個(gè)模型中,不好的行為,例如能夠獲得短暫高額收益的造假行為,也能夠迅速擴(kuò)散。但是,正是這樣的模擬,才更符合實(shí)際情況。
由這些數(shù)據(jù)我們可以看出,在一個(gè)不造假者的群體中,只要出現(xiàn)造假者,即使數(shù)量很少,也會(huì)立即帶來巨大的影響,即引導(dǎo)大家走向造假。因?yàn)樵诓辉旒俚沫h(huán)境中,最初的造假能夠獲得巨大的收益,這就使得其周圍的人對(duì)其進(jìn)行學(xué)習(xí)。但是當(dāng)造假者大量增加的時(shí)候,造假所帶來的收益也迅速減少。當(dāng)系統(tǒng)中全部為不造假者時(shí),即初始造假者比例為0時(shí),所有個(gè)體一個(gè)周期的收益總和為2.4×105;而當(dāng)這一比例為0.01時(shí),總收益也降低為1.31×105。隨著初始造假者比例的上升,系統(tǒng)中的總收益在逐步降低,直到所有人變成造假者,這時(shí)的總收益是最低的。
(二)加入懲罰機(jī)制的模擬結(jié)果
我們?cè)谇懊娴哪P椭屑尤霊土P機(jī)制。在每個(gè)周期的交易結(jié)束后選取一定概率的生產(chǎn)者進(jìn)行檢查,如果被檢查的生產(chǎn)者這一周期采取了造假的行為,那么會(huì)對(duì)該生產(chǎn)者進(jìn)行懲罰,沒收其一定比例的財(cái)產(chǎn)。其中,抽取生產(chǎn)者的概率叫做監(jiān)管力度p,沒收的財(cái)產(chǎn)比例叫做懲罰力度q。
我們使用的參照組模型為初始造假比例為10%的情況,之前的模擬結(jié)果顯示,穩(wěn)定后其剩余的不造假者數(shù)量只剩下3.99%。而加入懲罰機(jī)制后,如圖1所示,綠色代表造假者,藍(lán)色代表不造假者。當(dāng)抽查概率p設(shè)定為10%時(shí),與不加入懲罰機(jī)制相比,雖然模擬剛開始時(shí)差別不大,但是之后加入懲罰機(jī)制的模擬中藍(lán)色的方塊數(shù)量更多,說明該懲罰機(jī)制是有效果的。由于p取10%時(shí)模型演進(jìn)到5000周期都沒有達(dá)到穩(wěn)定狀態(tài),而是在50周期之后,不造假者的數(shù)量以一個(gè)較低的速率持續(xù)增長(zhǎng)著。所以我們?nèi)∏?00周期的數(shù)據(jù)取平均,作為其最終的不造假者數(shù)量,結(jié)果為6.7%,與不添加懲罰機(jī)制的模擬結(jié)果相比幾乎增加了一倍。
為了進(jìn)一步觀察這種懲罰機(jī)制的作用效果,我們用不同的p值做了多次試驗(yàn),結(jié)果顯示最終的不造假者數(shù)量隨著p的升高而逐漸升高,如圖2中藍(lán)色點(diǎn)所示。當(dāng)p取20%時(shí),懲罰機(jī)制作用更加明顯,這種概率下模型也沒有到達(dá)穩(wěn)定狀態(tài),用前500周期的平均值算得的不造假者比例為又翻了一倍,達(dá)到12.21%;當(dāng)p取50%時(shí),懲罰機(jī)制的效果已經(jīng)非常明顯,在50周期之后基本達(dá)到穩(wěn)定,保持在50%左右。最后,當(dāng)p取80%時(shí),不造假者的數(shù)量最終回升到100%,即造假者不復(fù)存在。
對(duì)于這個(gè)結(jié)果——需要抽查概率達(dá)到80%才能完全杜絕造假行為,我們依然感到不夠滿意。因?yàn)檫@個(gè)概率在現(xiàn)實(shí)生活中是難以達(dá)到的,所以我們對(duì)懲罰的規(guī)則做了一點(diǎn)修改,加入了“連帶檢查”的機(jī)制,即對(duì)于發(fā)現(xiàn)的造假者,同時(shí)對(duì)其周圍8個(gè)人中的造假者也施以同樣的懲罰。具體到模擬中,就是在查到造假者之后,同時(shí)檢查該造假者周圍的鄰居,如果鄰居在這一周期采取了造假的行為,那么也會(huì)對(duì)其沒收相同比例的財(cái)產(chǎn)。這是一種更嚴(yán)格的懲罰,而模擬的結(jié)果也顯示出其更有效果。如圖4所示,第三條代表的是加入了“連帶檢查”的模擬演化圖。同樣以抽查概率為10%,與前面兩種情況相比,第三條的藍(lán)色區(qū)域明顯增加,并且能夠形成較大的片狀連接在一起。這種情況下穩(wěn)定后的不造假者比例達(dá)到26.02%。
通過以上兩種懲罰機(jī)制,以及原有對(duì)照組模型的周期演化圖,可以更明顯看出不同程度懲罰機(jī)制的作用。將每種比例下,不同機(jī)制的模擬結(jié)果放在一張圖中,如圖5所示,能夠更直觀的看出每種機(jī)制的作用效果。這里的每一個(gè)概率下,我們都運(yùn)行了兩種情況,結(jié)果差別不大。
圖4 不加懲罰、加入懲罰(p=10%)以及加入“連帶檢查”(p=10%)三種情況的模擬演化對(duì)比圖
圖5 不同監(jiān)督機(jī)制下的最終不造假者數(shù)量散點(diǎn)圖
圖6 “連帶檢查”機(jī)制中,不同參數(shù)下的最終不造假者數(shù)量散點(diǎn)圖
從上圖中可以看出,加入“連帶檢查”的模型,在抽查概率為26%時(shí)即可以消滅所有的造假者,使最終不造假者比例達(dá)到100%。如圖2所示,相比藍(lán)色的點(diǎn)上漲的速度比較緩慢,紅色的點(diǎn)上漲得非常迅速。當(dāng)p取15%,不造假者的數(shù)量即有52%;當(dāng)p提升到20%時(shí),這時(shí)不造假者已經(jīng)占大多數(shù),達(dá)到73%左右;而當(dāng)p取25%時(shí),幾乎全部轉(zhuǎn)化為不造假者,直至p取26%時(shí),最終的比例達(dá)到100%。
對(duì)于模型的其他參數(shù)——初始造假者的比例、懲罰的力度(q)對(duì)模型的影響我們也做了研究,結(jié)果顯示沒有明顯影響。如下圖6所示,藍(lán)色的點(diǎn)代表的是“連帶檢查”機(jī)制下,其他參數(shù)不變,將懲罰的比例q從50%改為40%的結(jié)果。而圖中黃色的點(diǎn)則代表的是,將初始的造假者比例從10%改為50%的情況。作者還嘗試了其他多種情況,結(jié)果均差異不大。所以可以得出結(jié)論,即其他因素對(duì)造假行為的影響很小。
本文通過對(duì)經(jīng)典的進(jìn)化博弈模型進(jìn)行修改,模擬了造假行為傳播的過程,并將有無懲罰機(jī)制的兩種情況進(jìn)行了對(duì)比,找出了最有效果的懲罰機(jī)制,即“連帶懲罰”。我們?cè)赑avlov模型的基礎(chǔ)上,賦予了個(gè)體學(xué)習(xí)的能力,具體表現(xiàn)為比較周圍鄰居的總收益,然后跟隨收益最高者的選擇。由于個(gè)體在選擇時(shí)會(huì)比較周圍鄰居的上周期收益,選擇其中收益最高者模仿其決策,因此當(dāng)有個(gè)體選擇造假時(shí),能夠獲得較高的額外收益,這一行為能夠通過這一博弈過程迅速向外傳導(dǎo),使得他周圍的個(gè)體都對(duì)他進(jìn)行模仿。結(jié)果顯示,由于具有學(xué)習(xí)能力,因此造假行為的傳播非常迅速。之后在這個(gè)模型之中,我們添加了懲罰機(jī)制,即在每個(gè)周期的交易結(jié)束后選取一定概率的生產(chǎn)者進(jìn)行檢查,如果被檢查的生產(chǎn)者這一周期采取了造假的行為,那么會(huì)對(duì)該生產(chǎn)者進(jìn)行懲罰,沒收其一定比例的財(cái)產(chǎn)。模擬的結(jié)果顯示,抽查的概率是決定性的,造假者的數(shù)量會(huì)隨著這個(gè)概率的增加而逐漸減少。
從管理機(jī)制的角度,我們的模擬結(jié)果為現(xiàn)今的工商執(zhí)法部門提供了數(shù)據(jù)依據(jù)。要查處造假行為,只需要設(shè)定一定的懲罰額度,并盡可能地提高抽查的概率。在實(shí)際的打擊假冒偽劣的行為中,造假行為往往不是單獨(dú)發(fā)生的,造假者也經(jīng)常處于聚集狀態(tài)。對(duì)于查到的造假者,如果能做到不僅僅對(duì)其實(shí)行懲罰,還利用其作為線索繼續(xù)追查,找出其周圍的造假者,不僅能夠提高懲罰的震懾作用,也大大降低了執(zhí)法的成本。
參考文獻(xiàn):
[1] 雷恩·貝德安(2012).管理思想史.北京:中國人民大學(xué)出版社.
[2] 劉偉兵、王先甲(2009).進(jìn)化博弈中多代理人強(qiáng)化學(xué)習(xí)模型.系統(tǒng)工程理論與實(shí)踐,3.
[3] 王林燕(2010).中國經(jīng)濟(jì)社會(huì)誠信缺失現(xiàn)象的文化因素分析——從中國文化誠信觀與西方“經(jīng)濟(jì)人”假設(shè)的角度.河南社會(huì)科學(xué),1.
[4] 王先甲、劉偉兵(2011).有限理性下的進(jìn)化博弈與合作機(jī)制.上海理工大學(xué)學(xué)報(bào),6.
[5] Axelrod R(1984).The Evolution of Cooperation.New York:Basic Books.
[6] A.J.Stewart,J.B.Plotkin(2012).Extortion and Cooperation in the Prisoner’s Dilemma.Proc.Nat.Acad.Sci.USA.
[7] Christian Hilbe,Martin A.Nowak(2012).Karl Sigmund.The Evolution of Extortion in Iterated Prisoner’s Dilemma Games.ar Xiv preprint ar Xiv.
[8] Grilo C,Correia L(2011).Effects ofasynchronism on evolutionary games.Journal of Theoretical Biology.
[9] Harold Koontz(1980).The Management Theory Jungle Revisited.The Academy of Management Review,5.
[10]Herbert Simon(1997).Administrative Behavior.New York:The Free Press.
[11]H.J.Cai(2012).The Historical Context of the Rise of China and the Entry Point of the Transformation of the Development Pattern,Emergence and Transfer of Wealth,2.
[12]H.J.Cai,Yiping Wu(2011).Self-Assertiveness Demands are the Ultimate Cause of Financial Crises,Applied Social Science.Information Engineering Research Institute.
[13]Martin Nowak(2006).Five Rules for the Evolution of Cooperation.Science.
[14]Nowak M A,Sigmund K(1992).Tit for tat in heterogeneous populations.Nature.
[15]Nowak M A,Sigmund K(1993).A strategy of win-stay,lose-shift that out performs tit-for-tat in the Prisoners Dilemma game.Nature.
[16]Parkhe,Rosenthal(1993).Chandran,Prisoner’s dilemma payoff structure in inter firm strategic alliances:an empirical test.OMEGA International Journal of Management Science,5.
[17]Trivers R L(1971).The Evolution of Reciprocal Altruism.The Quarterly Review of Biology,1.
[18]Torsten R?hl,Claudia R?hl(2007).Heinz Georg Schuster,and Arne Traulsen,Impact of fraud on the mean-field dynamics of cooperative social systems,Physical Review,76.
[19]W.H.Press,F.D.Dyson(2012).Iterated Prisoner’s Dilemma contains strategies that dominate any evolutionary opponent.Proc.Nat.Acad.Sci.USA.
■責(zé)任編輯:劉金波
Fraud Propagations and Containments——A Study Based on Evolutionary Game Simulation Model
Wu Yiping(Doctoral Candidate,Wuhan University)
Cai Hengjin(Professor,Wuhan University)
An evolutionary game model is built up to simulate the fraud behaviors and find a way to better contain them. With modifications the classical Pavlov strategy is changed with learning ability.The simulations depict that the punishment degree doesn’t affect much,on the spread of frand behaviors but the checking frequency is a determining factor.To improve efficiency,the“collateral checking”mechanism is adopted to check and punish the frauds as well as the frauds in their neighborhood.The new mechanism shows better result since it can eliminate frauds at the checking percentage of 26%, while it has to be raised to 80%if without“collateral checking”.
evolutionary game;fraud behavior;punishment method;collateral checking
吳怡萍,武漢大學(xué)國際軟件學(xué)院博士生;湖北武漢430079。Email:wuyp1028@gmail.com。蔡恒進(jìn),武漢大學(xué)國際軟件學(xué)院教授,博導(dǎo)。
國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃項(xiàng)目(2011CB302306),武漢大學(xué)研究生自主科研項(xiàng)目(201121601020001)
武漢大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)2014年3期