宋貴玉
【摘要】“囚徒困境”是博弈論中的一個經(jīng)典案例,對這個問題的研究涉及經(jīng)濟學(xué)、政治學(xué)、社會學(xué)、哲學(xué)、倫理學(xué)等廣泛的領(lǐng)域。本文通過分析“囚徒困境”及其假設(shè)條件,找出“囚徒困境”的缺陷,進而結(jié)合案例提出擺脫“囚徒困境”的方法。
【關(guān)鍵詞】“囚徒困境”;理性人;信息不對稱;重復(fù)博弈
一、“囚徒困境”的含義及其提出
博弈論是西方經(jīng)濟學(xué)中的重要理論,而“囚徒困境”是博弈論中的一個經(jīng)典案例,人們經(jīng)常運用“囚徒困境”來分析一些實際問題。在現(xiàn)實世界中,“囚徒困境”也是隨處可見,正所謂“你我皆囚徒,何處無困境”。
(一)定義
“囚徒困境”(prisoner's dilemma)是指兩個被捕的囚徒之間的一種特殊博弈,說明為什么甚至在合作對雙方都有利時,保持合作也是困難的①。
(二)提出及其模型分析
1950年,由就職于蘭德公司的梅里·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出相關(guān)困境的理論,后來由顧問艾伯特·塔克(Albert Tucker)以囚徒方式闡述,并命名為“囚徒困境”。
“囚徒困境”是博弈論的經(jīng)典案例,常被用來解釋生活中的一些現(xiàn)象,如公共物品提供不足,壟斷行業(yè)價格同盟的破壞等[2],它的具體內(nèi)容如下:兩個嫌疑犯A、B 合伙作案后被警察抓住,由于缺乏足夠的證據(jù)指證他們所犯的罪行,分別把他們關(guān)在不同的屋子里審訊以防止他們串供。警察分別告訴他們:如果兩個人都認罪坦白,各判八年;如果兩個人都抵賴不坦白,各判一年(或許因證據(jù)不足);如果其中一人坦白另一人抵賴,坦白的被釋放,不坦白的判刑十年(“坦白從寬,抗拒從嚴”)。
在兩個囚犯都是理性人的前提假設(shè)下,囚犯A會進行權(quán)衡抉擇:如果B坦白了,A選擇坦白被判8年,不坦白被判10年,坦白是優(yōu)勢策略;如果B不坦白,A坦白被釋放,不坦白被判1年,同樣對于A來說坦白是優(yōu)勢策略,這樣A就選擇了坦白。囚犯B基于同樣的考慮,也選擇了坦白,兩人都被判8年。易知囚徒雙方都獨立地追求個人利益最大化,坦白成為了兩個囚徒的優(yōu)勢策略,是唯一的納什均衡:(坦白、坦白),其結(jié)果是(- 8,- 8),但是最終卻未能達到帕累托最優(yōu)的集體利益最大化結(jié)果(- 1,- 1)。顯然如果兩個囚徒都抵賴,下場會好于都坦白,兩人只會被判1年而不是8年,即好于納什均衡的情況。兩個囚徒陷入了“求之不得”卻又“身不由己”的困境[3]。
二、“囚徒困境”的缺陷
(一)給定他人的戰(zhàn)略條件不充足
“囚徒困境”這一模型中,給定他人的戰(zhàn)略條件不充足,因為當囚徒A看到對方“抵賴”時囚徒A選擇坦白,實際上囚徒B同時也在考慮這個問題,B想到A選擇坦白,囚徒B就不會選擇“抵賴”,這樣你假設(shè)的“給定他人的戰(zhàn)略”就變了,成了他人的戰(zhàn)略不確定[6]。這個模型雖然是靜態(tài)博弈,但是博弈雙方考慮整個過程時都在模擬對方的選擇,這其中有動態(tài)的成分(你假設(shè)對方抵賴,你選擇坦白,實際對方猜到你選擇坦白,他會改變自己的策略不再抵賴也選擇坦白,最后達到均衡(坦白,坦白),這個決策過程有先后順序,實際上是動態(tài)博弈過程),所以完全按照靜態(tài)博弈方法分析會有問題,導(dǎo)致“囚徒困境”的產(chǎn)生。
(二)博弈雙方并不是真正的理性人
“囚徒困境”博弈模型中個體理性和集體理性的沖突對經(jīng)濟學(xué)的基本假設(shè)——“理性經(jīng)濟人”造成了嚴重挑戰(zhàn)。其實“囚徒困境”中之所以出現(xiàn)個體理性導(dǎo)致了集體的非理性,這種表面的理性沖突是因為囚徒并非真正“理性人”[7]。雙方相互不能猜透對方,從而各自只能采取自己的優(yōu)勢策略。如果是兩個嫌疑人都是理性人,而且都是博弈論專家,他們相互理解對方且確信對方的策略,最后博弈均衡就會變?yōu)椋ǖ仲?,抵賴)。所以說參與人實際上是不完全理性的。
(三)利己主義者的前提不成立
有人認為“囚徒困境”的產(chǎn)生源于利己主義,而在小說《麥琪的禮物》中吉姆和德拉在圣誕節(jié)都想給對方買禮物,因拮據(jù)吉姆賣了心愛的金表,買了漂亮發(fā)卡,德拉賣了心愛的頭發(fā),買了表鏈和表袋。但是失去了頭發(fā)的德拉得到了漂亮發(fā)夾也無法發(fā)揮發(fā)夾的作用,同樣,沒有了金表,吉姆得到的表鏈也變得毫無價值。他們無私利他的選擇卻使兩人的利益受損,可見“囚徒困境”無須受限于利己的假設(shè),只要局中人受非理性因素(感情、信念、同情心等)的影響,就無法避免個體理性和集體理性的矛盾[8]。
三、擺脫“囚徒困境”的途徑
(一)利用強化的力量
當出現(xiàn)“囚徒困境”時,靠囚徒們的自律,并不總是能夠走出困境。一個鮮活的例子是中國彩電企業(yè)首次 “價格聯(lián)盟” 的失敗[9],當不合作有很高的 “利潤” 誘惑時,沒有哪家企業(yè)愿意合作。此時政府可以通過制度、政策、獎懲措施等強化手段約束成員的個人理性與行為,鼓勵和激發(fā)創(chuàng)新與奉獻,通過強化手段的誘發(fā)和約束,加大群體成員進行更具建設(shè)性選擇的酬賞與份量,引發(fā)成員在引入了新的強化因素后做出更具合理性的個人選擇,打破原有利益格局中的納什均衡,建立起更有利于群體進化和群體成員利益的新的“納什均衡”,克服多人“囚徒困境”所帶來的群體內(nèi)耗[10]。
例如當兩家煙草公司——萬寶路與駱駝用廣告來吸引相同的顧客時,它們面臨與“囚徒困境”類似的問題,并且最終走出困境的方法也頗具意義。如果兩家煙草公司都不做廣告,它們瓜分市場。如果兩家公司都做廣告,它們依然瓜分市場,但利潤減少了,因為每家公司都要承擔廣告費用。但如果一家公司做廣告而另一家不做,做廣告的一家就把另一家的顧客吸引走了,不做廣告的一家利潤就會減少。
做廣告是駱駝和萬寶路兩家公司的優(yōu)勢策略,所以兩家公司都選擇了做廣告,但其實兩家企業(yè)都不做廣告,狀況會更好,分別得到40億美元利潤而不僅僅是30億美元利潤。
這種廣告理論的檢驗出現(xiàn)在1971年,當時美國國會通過了禁止在電視上做香煙廣告的法律。另許多觀察者奇怪的是,煙草公司并沒有利用他們在政治上相當大的影響力去反對這項法律。當該法律實施后,香煙廣告減少了,煙草公司的利潤卻增加了。這項法律為煙草公司做了一件它們自己做不到的事:它通過強制禁止實現(xiàn)了低廣告高利潤的合作,成功解決了“囚徒困境”問題。
(二)由外部環(huán)境決定的依存關(guān)系有可能使雙方擺脫囚徒的困境
有時候,由于來自外部環(huán)境的威脅,進行“囚徒困境”博弈的兩個囚徒之間的合作(抵賴、抵賴)可能作為一種受迫性反應(yīng)而出現(xiàn)[11]。還是“囚徒困境”中的兩個囚徒A、B,不同的是這里假設(shè)A、B被抓前一起得罪過一個流氓C,囚徒A、B 都知道若他們同在一起生活,C不敢報復(fù)(可能是A、B 在一起,實力較強,C 斗不過),但若A、B 有一個在監(jiān)獄中,另一個在社會上一定會遭到C 的報復(fù)而得- 2 單位的支付。C 報復(fù)A、B 之一可得到4 單位的支付,不實施報復(fù)可得零單位支付。
此模型用逆向歸納法很容易地解出此兩階段動態(tài)博弈的唯一納什均衡②是:A 抵賴,B 抵賴;C 當A、B 不合作時報復(fù)其中坦白者。均衡結(jié)果是(- 1,- 1,0),均衡時該博弈實際上不會進入第二階段,也即囚徒A、B 不會給C 以報復(fù)的機會[12],這或許可以解釋如下事實:當村民們修公共防水堤時,人們的勞動力供給成了公共物品,當未漲水時,人們懶散、窩工現(xiàn)象嚴重,陷入“囚徒困境”,公共防水堤的質(zhì)量不高;當漲水且岌岌可危時,人們更加齊心合力修建水堤,公共防水堤的質(zhì)量明顯提高,走出了囚徒的困境。以上例子說明:來自外部的競爭壓力會凸顯集體的重要,合作可以作為一個受迫性反應(yīng)出現(xiàn)[13],從而迫使囚徒進行合作而走出困境。
(三)運用“重復(fù)博弈”走出“囚徒困境”
囚徒兩難的困境抓住了人與人之間不信任和需要相互防范背叛這種真實的一面,但是在現(xiàn)實世界里,信任與合作很少達到如此兩難的境地。無論在自然界還是在人類社會,合作都是一種隨處可見的現(xiàn)象。通過無限次重復(fù)博弈,合作的可能性增強,就有可能走出困境。
假定有甲、乙兩個廠商,他們都以追求自身利潤最大化為目的并且不能控制對方的決策。他們簽有100萬元的商品購銷合同。在合同即將履行前,來了一位“倒爺”,分別對這兩個廠商的主要負責人施以小利并游說它們:如甲廠商將商品銷給“倒爺”則甲廠商可獲得120萬的收入,但乙廠商則不得不以更高的價格獲得這些商品從而使得乙廠商獲益減少至60萬;或者如果乙廠商從“倒爺”手中價購入可獲得120萬的收益,但甲廠商則只能低價出售從而使其獲益減少至60萬;或者兩廠商同時違約分別從“倒爺”手中購銷該產(chǎn)品從而使“倒爺”獲取漁翁之利,致雙方獲利都降至80萬。
顯然,如果甲乙雙方做的是“一錘子買賣”[14],對于甲乙廠商來說,他們的優(yōu)勢策略是選擇違約,但實際上如果雙方選擇守約實行合作,將獲得100萬的收益而不僅僅是80萬,雙方陷入“囚徒困境”最終導(dǎo)致資源的浪費和效率的降低。如果甲乙廠商是長期合作伙伴,那么“囚徒困境”就會迎刃而解,因為甲乙廠商會進行多次重復(fù)博霧,產(chǎn)生了新的動力結(jié)構(gòu),違約不再是優(yōu)勢策略。在重復(fù)性“囚徒困境”下,理性博弈者將考慮:如果我拒絕合作,執(zhí)行背叛,為了減少你的損失你也會背叛。如果博弈者不僅關(guān)心眼前收益也關(guān)心未來收益,而且博弈沒有確定的時間限度,被懲罰的威脅似乎足以高到保證每一博弈階段的穩(wěn)定合作。這樣,每個廠商都理性地克制投機行為,進行重復(fù)博弈和長期合作,實現(xiàn)雙方策略上的“合作均衡”和綜合利益最大化,將成為他們的最優(yōu)選擇。每一廠商會努力在重復(fù)博弈中建立起自己的好名聲,減少道德風險,降低交易成本,以較低的邊際成本獲取較高的邊際收益。他們深知,要是欺騙的話最多在博弈中只能占一次便宜,如上表中所示,得到120萬,這比守約的報酬多20萬,但這一欺騙卻帶來了長期的損失。
所以一方面,重復(fù)博弈使得博弈雙方都在更大程度上了解了對方的信息,使得更多的私人信息變?yōu)椴┺碾p方的公共信息。另一方面,重復(fù)博弈使得“一報還一報”式的報復(fù)得以實現(xiàn)?!耙粓筮€一報”[15]式的報復(fù)指的是博弈一方永遠不先背叛對方,而且還會在下一輪中對對手的前一次合作給予回報,但它也會采取背叛的行動來懲罰對手前一次的背叛。這樣囚徒在經(jīng)過多次博弈之后,它們采取合作的態(tài)度逃避法律制裁的可能性就會大大增強,就有可能走出“囚徒困境”。
參考文獻:
[1]曼昆.經(jīng)濟學(xué)原理[M].機械工業(yè)出版社,2003(8).
[2]張維迎.博弈論與信息經(jīng)濟學(xué)[M].上海人民出版社,2004(11).
[3]馮曉明.寡頭壟斷市場競爭下的“囚徒困境”與突破策略[J].合作經(jīng)濟與科技,2011(2).
[4]王玉珍.理性只是對自利最大化的追求嗎[J].經(jīng)濟學(xué)家.2004.(6):84—89.
[5]高鴻業(yè).微觀經(jīng)濟學(xué)(第3 版)[M],中國人民大學(xué)出版社.
[6]郭洪偉.“囚徒困境”的均衡辨析[J].技術(shù)經(jīng)濟與管理研究,2011(2).
[7]崔志軍.淺析“囚徒困境”模型中的“理性”假設(shè)[J].經(jīng)濟研究☆,2011(12).
[8]李伯聰,李軍,關(guān)于”囚徒困境”的幾個問題[J],自然辯證法通訊,1996(4)
[9]陶章華.企業(yè) “競爭—合作” 博弈研究[J].西南交通大學(xué)博士學(xué)位論文(98 級).
[10]曼瑟爾.奧爾森.集體行動的邏輯[M].陳郁等譯.上海:上海人民出版社,1995.13.
[11]朱曉寧,趙爽.“囚徒困境”下的抉擇[J].商業(yè)文化學(xué)術(shù)探討,2007(4)
[12]馬本江,邱菀華.論擺脫“囚徒困境”的途徑[J],生產(chǎn)力研究.,2004(10).
[13]劉輝.人才群體中的“囚徒困境”及其克服[J].中國人才,1999,(1):13-15
[14]代禮忠,翟江濤.重復(fù)博弈的制度安排:走出信用制度建設(shè)“囚徒困境”的必由之路[J],甘肅理論學(xué)刊,2005(5).
[15]周厚虎.運用“重復(fù)博弈”走出“囚徒困境”[J],探索,2011(1).
注釋:
①曼昆的《經(jīng)濟學(xué)原理》里指出“囚徒困境”是兩個被捕的囚徒之間的一種特殊博弈,說明為什么甚至在合作對雙方都有利時,保持合作也是困難的。
②朱曉寧,趙爽.“囚徒困境”下的抉擇[J].商業(yè)文化學(xué)術(shù)探討,2007(4)