方孟孟
摘 要:
現(xiàn)實(shí)世界的資源是有限的,而人的需求和欲望卻是無(wú)限的。為了實(shí)現(xiàn)社會(huì)的福利最大化,就需要有效地配置各種經(jīng)濟(jì)資源。然而,在傳統(tǒng)“理性人”的假設(shè)下,自利人為了自身利益而展開爭(zhēng)奪,最終形成的納什均衡結(jié)果,往往陷入“囚徒困境”的無(wú)效率境地,造成資源的無(wú)效配置和浪費(fèi)。為此,試從合作博弈和交易費(fèi)用的視角探討帕累托改進(jìn)的路徑,尋找“囚徒困境”的破解方法,以圖實(shí)現(xiàn)帕累托最優(yōu)結(jié)果。
關(guān)鍵詞:
囚徒困境;帕累托最優(yōu);合作博弈;交易費(fèi)用
中圖分類號(hào):F27
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):16723198(2016)04006803
1 引言
傳統(tǒng)經(jīng)濟(jì)學(xué)中,“理性人”假設(shè)是一切經(jīng)濟(jì)分析的基礎(chǔ),每個(gè)人都是聰明絕頂且自私自利,為實(shí)現(xiàn)自身效用最大而努力。然而,最終的納什均衡解卻往往是無(wú)效率的,不僅沒(méi)有實(shí)現(xiàn)自己的效用最大,也造成社會(huì)福利的損失,出現(xiàn)個(gè)體理性和集體理性之間沖突局面,既不是帕累托最優(yōu),甚至也不是??怂?卡爾多有效的。根據(jù)達(dá)爾文《物種起源》中的論點(diǎn),可以假設(shè):所有的生命個(gè)體在面臨選擇時(shí),都是自私自利的,完全忽視其他個(gè)體的利益,沒(méi)有悲憫之情。但是,即便是這樣的起點(diǎn),也會(huì)有類似于兄弟姐妹的伙伴關(guān)系的出現(xiàn),并且實(shí)現(xiàn)個(gè)體利益和集體利益的協(xié)調(diào)?!扒敉嚼Ь场辈⒎鞘遣豢善瞥哪е洌灰业胶线m的能夠影響參與者收益和行為的有效機(jī)制,就能走出困境的陰霾,實(shí)現(xiàn)帕累托最優(yōu)。同時(shí),應(yīng)該認(rèn)識(shí)到:囚徒困境中的參與者并非是“真正的理性人”,“囚徒困境”只是兩個(gè)自私自利的人“聰明反被聰明誤”的結(jié)局,不是真正的“聰明絕頂”的人所應(yīng)該做出的決策。如果是真正的“理性人”,他們就應(yīng)該掌握博弈論的基本知識(shí),能預(yù)計(jì)到自己的處境,最后兩個(gè)囚徒都會(huì)毫無(wú)顧忌的選擇抵賴,從而實(shí)現(xiàn)另一個(gè)均衡(并不坦白,不坦白)。此外,如果博弈的參與者是利他人或?yàn)榧豪?,也可以有效突破困境?/p>
2 “囚徒困境”模型
“囚徒困境”是博弈論研究中虛構(gòu)的一個(gè)經(jīng)典案例,最早是在20世紀(jì)50年代,由美國(guó)Rand公司的Dresher和Flood采用。在之后,鑒于“囚徒困境”模型在社會(huì)科學(xué)研究方面的作用,普林斯頓大學(xué)的教授Albert Tucker逐漸將它推廣開來(lái)。因此,“囚徒困境”模型成為了博弈論研究的典型案例,尤其在非合作博弈中。
作為簡(jiǎn)單的博弈模型,“囚徒困境”假設(shè)有兩個(gè)嫌疑犯(A和B)被捕,罪名是入室搶劫。根據(jù)各種推理,警察判定他們是有罪的,但是證據(jù)明顯不足。依據(jù)法律規(guī)定,如果他們兩人都對(duì)此緘口不言,最多只能被判入獄1年。為了破案,警察采取分開審訊的辦法,并對(duì)其作出承諾:在其中一人對(duì)搶劫抵賴的情況下,坦白者會(huì)被無(wú)罪釋放,抵賴者入獄10年;在兩人都選擇坦白時(shí),均被判入獄5年。在此情況下,嫌疑犯A和B的處境相同,將他們的可能選擇及結(jié)果歸結(jié)為如圖1所示。
圖1是參與人A和B博弈的矩陣式表述。這里,A和B被隔離審訊。對(duì)于參與人A而言,不論B做出何種決策,相對(duì)不坦白而言,坦白是嚴(yán)格占優(yōu)策略,總會(huì)使其處境變好。作為一個(gè)理性的經(jīng)濟(jì)個(gè)體,A就會(huì)選擇坦白。同理,由于A和B所處的位置對(duì)稱,B也會(huì)選擇坦白。這樣,在理性的抉擇下,A和B兩人都選擇了坦白,各自被罰關(guān)押5年。這時(shí),在給定對(duì)方的策略,任何一方都沒(méi)有動(dòng)力去改變自己的策略,因?yàn)橹灰淖儾呗?,自己的境況就會(huì)變得更差,因而(坦白,坦白)是這個(gè)博弈的納什均衡解。
很容易發(fā)現(xiàn),在這個(gè)博弈中,無(wú)論是對(duì)兩個(gè)囚徒的總體來(lái)講,還是對(duì)他們各自來(lái)講,最佳的結(jié)果都不是同時(shí)坦白各得到-5,因?yàn)槎疾惶拱赘鞯玫?1顯然比都坦白各得-5好得多,其納什均衡解并非是帕累托最優(yōu)的。然而,在不能合謀的情形下,雙方出于個(gè)人理性,都會(huì)選擇最大化自身利益的做法。由于兩個(gè)嫌疑犯都采取不合作手段,最終實(shí)現(xiàn)的結(jié)果只能是對(duì)他們而言最差的。在這個(gè)博弈中,很明顯的出現(xiàn)了個(gè)人理性和集體理性的矛盾對(duì)立:從個(gè)人利益出發(fā),既沒(méi)能實(shí)現(xiàn)個(gè)體的最大利益,也沒(méi)能實(shí)現(xiàn)集體的最大化利益。
3 突破“囚徒困境”
“囚徒困境”的簡(jiǎn)單博弈反映了個(gè)人理性和集體理性的深層次矛盾。它對(duì)于人類行為的預(yù)測(cè)是灰暗的:在個(gè)人理性前提下,自主決策的市場(chǎng)經(jīng)濟(jì)中,最大化個(gè)人利益的目標(biāo)指向常常會(huì)導(dǎo)致合作的失敗。究其根源,主要是該博弈假定博弈方都是完全自利而不顧他人利益的經(jīng)濟(jì)人,并排除了雙方合謀的可能,然而現(xiàn)實(shí)當(dāng)中并非完全如此。只要雙方存在合作的共同利益或者存在有約束力的合作協(xié)議,就有可能實(shí)現(xiàn)帕累托改進(jìn)。
3.1 合作博弈視角
合作博弈主要是指在博弈過(guò)程中存在自愿簽訂但有約束力協(xié)議的博弈。這意味著參與人(疑犯A和B)能夠達(dá)成某種協(xié)議,建立攻守同盟。在此背景下,協(xié)議給參與人提供的激勵(lì)將會(huì)改變疑犯A和B的策略選擇,進(jìn)而影響博弈的結(jié)局。
假定在博弈開始之前,參與者預(yù)期對(duì)方會(huì)屈從背叛的誘惑,因而每個(gè)參與者都要求簽訂一份文件,以保證如果其中一人背叛時(shí),他將被迫支付給其他參與人足夠數(shù)額的貨幣,這個(gè)足夠大的貨幣支付要能夠抵消選擇背叛所帶來(lái)的收益,或者說(shuō)背叛者將受到其他人的嚴(yán)厲報(bào)復(fù)。如果簽訂協(xié)議的激勵(lì)足夠大或報(bào)復(fù)很嚴(yán)重,每個(gè)參與人預(yù)期對(duì)方會(huì)簽訂協(xié)議,并且進(jìn)行合作。這樣,原有的博弈就為新的博弈所替代。在新的博弈中,疑犯A和B的理性選擇就是同時(shí)選擇不坦白,遵守承諾、拒絕背叛。這樣,疑犯A和B的“囚徒困境”也就不會(huì)出現(xiàn),從而實(shí)現(xiàn)帕累托改進(jìn)。
即使雙方?jīng)]能達(dá)成有約束力的協(xié)議,但只要博弈重復(fù)的次數(shù)足夠多,雙方都不知道博弈結(jié)束的確切時(shí)間,仍可能形成合作的局面。這時(shí),可將其看作無(wú)限次重復(fù)博弈,如果雙方都采用這樣的“觸發(fā)策略”:第一階段采取合作策略,在第t階段,如果前t-1階段的結(jié)果都是(合作,合作),則繼續(xù)采用合作,否則將一直采用不合作進(jìn)行報(bào)復(fù)。
易知觸發(fā)策略是納什均衡?,F(xiàn)引入貼現(xiàn)因子δ,來(lái)比較參與人不同策略情形下未來(lái)各期收益的貼現(xiàn)值。首先,有必要假定參與者雙方具有相同貼現(xiàn)因子。這樣,在博弈開始時(shí),若兩人都決定采取合作行為(抵賴),各得到收益-1。在接下來(lái)的博弈中,假如參與者A決定在某個(gè)時(shí)刻選擇了不合作策略(坦白),他將被無(wú)罪釋放而得到收益0。然而,這種選擇必定會(huì)遭到對(duì)手的報(bào)復(fù)性行為,嫌犯B在此后的博弈中,將采取永不合作的策略對(duì)其進(jìn)行懲罰,使得A在隨后的每階段收益均為-5。因此,欲使在B合作時(shí),A同樣選擇合作,需滿足條件:
-(1+δ+δ2+…δn+…)≥0-5δ-5δ2-…-5δn-…
即-11-δ≥-5δ1-δ
解上述不等式,可以得到:δ*≥0.2。
這就是說(shuō),如果δ*≥0.2,給定疑犯B堅(jiān)持觸發(fā)策略并且B沒(méi)有首先選擇不合作,那么A不會(huì)首先選擇不合作,也即雙方都會(huì)選擇合作,從而促使帕累托效率的實(shí)現(xiàn)。
3.2 交易費(fèi)用的視角
交易費(fèi)用源于科斯的兩篇代表作:《企業(yè)的性質(zhì)》和《社會(huì)成本問(wèn)題》。在文章中,科斯闡述了交易費(fèi)用的思想。其體現(xiàn)交易費(fèi)用的理論主要集中在兩方面:一方面是在企業(yè)與市場(chǎng)的相互替代關(guān)系上。由于交易費(fèi)用的普遍存在,使得企業(yè)得以產(chǎn)生;企業(yè)能以內(nèi)部管理來(lái)取代市場(chǎng)交易,也隨之產(chǎn)生了管理費(fèi)用。根據(jù)市場(chǎng)經(jīng)濟(jì)原則,交易總是會(huì)發(fā)生在交易費(fèi)用較低的地方。也即,當(dāng)管理費(fèi)用小于交易費(fèi)用時(shí),交易在企業(yè)內(nèi)部進(jìn)行;反之,交易則在市場(chǎng)進(jìn)行;當(dāng)管理費(fèi)用和交易費(fèi)用相等時(shí),市場(chǎng)和企業(yè)都可進(jìn)行。另一方面是在產(chǎn)權(quán)的界定與交易費(fèi)用的關(guān)系上。這涉及到科斯定理的精髓,也即在零交易費(fèi)用的假設(shè)下,科斯所說(shuō)的市場(chǎng)交易的前提之一便是產(chǎn)權(quán)的界定。而最后的結(jié)果,雖然是產(chǎn)值的最大化,但這往往是與法律判決沒(méi)有關(guān)系的。
在理性經(jīng)濟(jì)人前提和完全信息條件假設(shè)下,只有在制度的運(yùn)行中才會(huì)產(chǎn)生交易費(fèi)用。此外,只要沒(méi)有各種不確定因素的影響,在其他條件不變和已知的情形下,所有為降低交易費(fèi)用所做出的努力,都會(huì)帶來(lái)交易費(fèi)用的降低?;诖私档徒灰踪M(fèi)用模型(如圖2所示)。
x軸表示降低交易費(fèi)用做出的努力,y軸表示交易費(fèi)用,F(xiàn)(x,y)向右下方傾斜表示隨著降低交易費(fèi)用的努力的增多,交易費(fèi)用逐漸降低。
雖然交易費(fèi)用是廣泛存在的,但在既定的制度基礎(chǔ)上,它并不可能無(wú)限大。因此,如交易費(fèi)用模型所示,交易費(fèi)用函數(shù)F(x,y)與坐標(biāo)軸其實(shí)是相交的,點(diǎn)A表示其最大的交易費(fèi)用。然而,由于各種摩擦,零交易費(fèi)用是不存在的,所以函數(shù)F(x,y)只能無(wú)限的接近于X軸,卻不會(huì)與之相交。此外,隨著降低交易費(fèi)用的努力的增多,交易費(fèi)用會(huì)逐漸減少。因此,x與y之間存在負(fù)相關(guān)關(guān)系。
假設(shè)在一個(gè)有限的市場(chǎng)中,不會(huì)有外來(lái)廠商的進(jìn)入或者存在極高的進(jìn)入成本,僅有兩家實(shí)力相當(dāng)生產(chǎn)同質(zhì)商品的廠商甲、乙,假設(shè)廠商甲、乙均為理性經(jīng)濟(jì)人,都以自身利益最大化為目標(biāo),要為自己的商品做廣告。他們之間存在囚徒困境(如圖3所示)。
在圖3的困境中,甲和乙最佳的選擇是雙方都不做廣告獲得(3,3)的最大收益,但是在現(xiàn)實(shí)生活中甲和乙往往會(huì)選擇(2,2)由于有收益4的驅(qū)動(dòng),導(dǎo)致雙方之間即使作出承諾也將是不可信的。
將甲和乙之間為不做廣告進(jìn)行的承諾談判看作是交易,那么該項(xiàng)交易帶來(lái)的交易費(fèi)用主要是談判發(fā)生的交易費(fèi)用NC和道德行為產(chǎn)生的交易費(fèi)用。如圖4所示,若不考慮道德風(fēng)險(xiǎn)的影響,只有在NC>2時(shí)(圖中的AB之間),雙方才會(huì)尋求合作,“囚徒困境”才能破除。
x軸表示降低交易費(fèi)用做出的努力,y軸表示交易費(fèi)用,F(xiàn)(x,y)向右下方傾斜表示隨著降低交易費(fèi)用的努力的增多,交易費(fèi)用逐漸降低。
總之,在現(xiàn)實(shí)的經(jīng)濟(jì)生活當(dāng)中,各種摩擦的存在使得交易費(fèi)用廣泛存在,而理想的零交易費(fèi)用狀態(tài)是不存在的。交易費(fèi)用意味著成本,因此它影響到交易的發(fā)生與否。此外,為實(shí)現(xiàn)利益最大化,盡可能的降低交易費(fèi)用成為多數(shù)情況下的最優(yōu)選擇;但是也有例外。例如在“囚徒困境”模型中,與一般情況相反,為了實(shí)現(xiàn)帕累托改進(jìn)或最優(yōu),應(yīng)當(dāng)適當(dāng)增加交易費(fèi)用。
4 結(jié)語(yǔ)
綜上可知,基于“理性人”的假設(shè),最終往往得到不理想的結(jié)果,致使效率的損失和資源的浪費(fèi)。因?yàn)樵诖思僭O(shè)之下,個(gè)人都變成自私自利的,理性人假設(shè)抹殺了個(gè)人之間的差異甚至是人格,所有人都罔顧集體的利益。然而,如果成功是來(lái)自與其他成功的規(guī)則相互作用的話,這個(gè)成功將孕育更多的成功,而如果成功是靠占失敗者的便宜而得到的,這樣的成功者必將隨著失敗者的淘汰而失去賴以生存的基礎(chǔ),走上一條自我毀滅的道路,最終的結(jié)局只能陷入“囚徒困境”。而唯有自利與利他想?yún)f(xié)調(diào),基于有約束力的協(xié)議的合作協(xié)議或者是交易費(fèi)用的提高,才有助于突破“囚徒困境”,實(shí)現(xiàn)帕累托最優(yōu)。
然而,從另一方面考慮,“囚徒困境”的參與者真的是理性人嗎?根據(jù)假設(shè)他們都聰明絕頂。而囚徒困境的結(jié)果卻是各判5年,實(shí)際上他們可以各判1年。他們自己會(huì)較被判1年好還是被判5年好,他們肯定不會(huì)滿足于被判5年,所以如果囚徒真是“理性人”,他們都會(huì)選擇抵賴,最后的結(jié)果是各判1年。這是從“理性人”的假設(shè)中自然得到的結(jié)論。按照經(jīng)典博弈論的分析,囚徒困境的納什均衡是(坦白,坦白),這顯然違背了“理性人”假設(shè)。這個(gè)結(jié)果實(shí)際上是兩個(gè)自私自利的人“聰明反被聰明誤”的結(jié)局,不是真正的“聰明絕頂”的人所做出的決策。如果是真正的“理性人”,他應(yīng)該掌握博弈論的基本知識(shí),能預(yù)計(jì)到自己的處境,最后兩個(gè)囚徒都會(huì)毫無(wú)顧忌的選擇抵賴。另外從納什均衡的定義出發(fā)也可以得到各判1年的結(jié)果。根據(jù)納什均衡的定義,在囚徒困境博弈中,各判5年不是大家最好的結(jié)果,因?yàn)橛懈玫倪x擇是各判1年。如果在最初有個(gè)攻守同盟,即兩人都不坦白,兩個(gè)“聰明”的囚徒如果能分析所有可能的戰(zhàn)略,他們應(yīng)該不會(huì)打破攻守同盟的協(xié)議,因?yàn)榇蚱乒ナ赝艘馕吨髋?年,執(zhí)行攻守同盟只判1年。所以攻守同盟(抵賴,抵賴)是納什均衡。同時(shí)上述(坦白,坦白)戰(zhàn)略也不符合納什均衡的定義。納什均衡說(shuō)給定別人戰(zhàn)略的情況下,沒(méi)有人有積極性選擇其他的戰(zhàn)略。但納什均衡沒(méi)有說(shuō)別人的戰(zhàn)略是不是可以變。如果雙方最初的同盟是(抵賴,抵賴),大家會(huì)看到如果有一方想法改變,另一方也會(huì)跟著改變,從而使情況進(jìn)展兩步,達(dá)到一個(gè)更壞的結(jié)局各判5年,在這種情況下“理性人”會(huì)想改變同盟戰(zhàn)略嗎?因此,我認(rèn)為根據(jù)納什均衡的定義(抵賴,抵賴)是納什均衡,這是兩個(gè)“真正的理性人”博弈最后達(dá)到的均衡。
同時(shí),個(gè)人是社會(huì)中的個(gè)人,個(gè)人利益的實(shí)現(xiàn)是依托于集體利益的,沒(méi)有集體利益也就沒(méi)有個(gè)人利益的實(shí)現(xiàn),集體利益是個(gè)人利益的前提和基礎(chǔ),促進(jìn)集體利益才能更好地實(shí)現(xiàn)個(gè)人利益。在“囚徒困境”模型中,如果參與者是為己利他甚至是利他的,他們每個(gè)人都輕易會(huì)認(rèn)識(shí)到:只有自己選擇沉默不言時(shí),不管對(duì)方怎樣選擇,都能使同伴的利益最大化。在這樣的邏輯下,兩人都會(huì)選擇對(duì)罪行抵賴,最終均被判入獄1年。此時(shí),個(gè)人最佳選擇與集體最佳選擇達(dá)到一致。如同受到亞當(dāng)·斯密倡導(dǎo)的“看不見(jiàn)的手”原理所指引,每個(gè)囚徒的目的都是利他,卻在集體利益增進(jìn)的同時(shí),個(gè)人利益也得到了保證。
因此,即使是在一個(gè)總是背叛的小人世界,只要有哪怕是很小的一個(gè)合作性群體,合作仍然可以產(chǎn)生,合作一旦在群體中建立,就能保護(hù)自己不受非合作策略的侵入,并不斷的發(fā)展壯大,群體以不可逆轉(zhuǎn)的方式向合作的方向進(jìn)化,并保證帕累托效率的實(shí)現(xiàn)。
參考文獻(xiàn)
[1]胡明光.突破“囚徒困境”:合作是如何可能的[J].新政治學(xué),2010,(01).
[2]王健.囚徒困境的破解—基于Agent的復(fù)雜適應(yīng)系統(tǒng)仿真[J].商場(chǎng)現(xiàn)代化,2011,(08).
[3]黃文平.囚徒困境—沉默權(quán)與人際合作秩序的擴(kuò)展[J].廣東商學(xué)院學(xué)報(bào),2011,(03).
[4]尹晶晶,王朝全.基于交易費(fèi)用理論分析破解囚徒困境[J].經(jīng)濟(jì)研究導(dǎo)刊,2011,(36).
[5]郭洪偉.囚徒困境的均衡辨析[J].技術(shù)經(jīng)濟(jì)與管理研究,2011,(02).
[6]朱富強(qiáng).重新理解合作博弈概念、內(nèi)涵和理性基礎(chǔ)[J].社會(huì)科學(xué)輯刊,2012,(02).
[7]郭佳臻.綜述納什均衡與帕累托最優(yōu)的沖突—囚徒困境[J].現(xiàn)代經(jīng)濟(jì)信息,2011,(24).
[8]謝識(shí)予.經(jīng)濟(jì)博弈論[M].上海:復(fù)旦大學(xué)出版社,2002.