“囚徒困境”問(wèn)題探討

2016-10-14 23:39方孟孟

現(xiàn)代商貿(mào)工業(yè) 2016年4期

方孟孟

摘要：

現(xiàn)實(shí)世界的資源是有限的，而人的需求和欲望卻是無(wú)限的。為了實(shí)現(xiàn)社會(huì)的福利最大化，就需要有效地配置各種經(jīng)濟(jì)資源。然而，在傳統(tǒng)“理性人”的假設(shè)下，自利人為了自身利益而展開爭(zhēng)奪，最終形成的納什均衡結(jié)果，往往陷入“囚徒困境”的無(wú)效率境地，造成資源的無(wú)效配置和浪費(fèi)。為此，試從合作博弈和交易費(fèi)用的視角探討帕累托改進(jìn)的路徑，尋找“囚徒困境”的破解方法，以圖實(shí)現(xiàn)帕累托最優(yōu)結(jié)果。

關(guān)鍵詞：

囚徒困境；帕累托最優(yōu)；合作博弈；交易費(fèi)用

中圖分類號(hào)：F27

文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：16723198（2016）04006803

1 引言

傳統(tǒng)經(jīng)濟(jì)學(xué)中，“理性人”假設(shè)是一切經(jīng)濟(jì)分析的基礎(chǔ)，每個(gè)人都是聰明絕頂且自私自利，為實(shí)現(xiàn)自身效用最大而努力。然而，最終的納什均衡解卻往往是無(wú)效率的，不僅沒(méi)有實(shí)現(xiàn)自己的效用最大，也造成社會(huì)福利的損失，出現(xiàn)個(gè)體理性和集體理性之間沖突局面，既不是帕累托最優(yōu)，甚至也不是?？怂?卡爾多有效的。根據(jù)達(dá)爾文《物種起源》中的論點(diǎn)，可以假設(shè)：所有的生命個(gè)體在面臨選擇時(shí)，都是自私自利的，完全忽視其他個(gè)體的利益，沒(méi)有悲憫之情。但是，即便是這樣的起點(diǎn)，也會(huì)有類似于兄弟姐妹的伙伴關(guān)系的出現(xiàn)，并且實(shí)現(xiàn)個(gè)體利益和集體利益的協(xié)調(diào)?！扒敉嚼Ь场辈⒎鞘遣豢善瞥哪е洌灰业胶线m的能夠影響參與者收益和行為的有效機(jī)制，就能走出困境的陰霾，實(shí)現(xiàn)帕累托最優(yōu)。同時(shí)，應(yīng)該認(rèn)識(shí)到：囚徒困境中的參與者并非是“真正的理性人”，“囚徒困境”只是兩個(gè)自私自利的人“聰明反被聰明誤”的結(jié)局，不是真正的“聰明絕頂”的人所應(yīng)該做出的決策。如果是真正的“理性人”，他們就應(yīng)該掌握博弈論的基本知識(shí)，能預(yù)計(jì)到自己的處境，最后兩個(gè)囚徒都會(huì)毫無(wú)顧忌的選擇抵賴，從而實(shí)現(xiàn)另一個(gè)均衡（并不坦白，不坦白）。此外，如果博弈的參與者是利他人或?yàn)榧豪?，也可以有效突破困境?/p>

2 “囚徒困境”模型

“囚徒困境”是博弈論研究中虛構(gòu)的一個(gè)經(jīng)典案例，最早是在20世紀(jì)50年代，由美國(guó)Rand公司的Dresher和Flood采用。在之后，鑒于“囚徒困境”模型在社會(huì)科學(xué)研究方面的作用，普林斯頓大學(xué)的教授Albert Tucker逐漸將它推廣開來(lái)。因此，“囚徒困境”模型成為了博弈論研究的典型案例，尤其在非合作博弈中。

作為簡(jiǎn)單的博弈模型，“囚徒困境”假設(shè)有兩個(gè)嫌疑犯（A和B）被捕，罪名是入室搶劫。根據(jù)各種推理，警察判定他們是有罪的，但是證據(jù)明顯不足。依據(jù)法律規(guī)定，如果他們兩人都對(duì)此緘口不言，最多只能被判入獄1年。為了破案，警察采取分開審訊的辦法，并對(duì)其作出承諾：在其中一人對(duì)搶劫抵賴的情況下，坦白者會(huì)被無(wú)罪釋放，抵賴者入獄10年；在兩人都選擇坦白時(shí)，均被判入獄5年。在此情況下，嫌疑犯A和B的處境相同，將他們的可能選擇及結(jié)果歸結(jié)為如圖1所示。

圖1是參與人A和B博弈的矩陣式表述。這里，A和B被隔離審訊。對(duì)于參與人A而言，不論B做出何種決策，相對(duì)不坦白而言，坦白是嚴(yán)格占優(yōu)策略，總會(huì)使其處境變好。作為一個(gè)理性的經(jīng)濟(jì)個(gè)體，A就會(huì)選擇坦白。同理，由于A和B所處的位置對(duì)稱，B也會(huì)選擇坦白。這樣，在理性的抉擇下，A和B兩人都選擇了坦白，各自被罰關(guān)押5年。這時(shí)，在給定對(duì)方的策略，任何一方都沒(méi)有動(dòng)力去改變自己的策略，因?yàn)橹灰淖儾呗?，自己的境況就會(huì)變得更差，因而（坦白，坦白）是這個(gè)博弈的納什均衡解。

很容易發(fā)現(xiàn)，在這個(gè)博弈中，無(wú)論是對(duì)兩個(gè)囚徒的總體來(lái)講，還是對(duì)他們各自來(lái)講，最佳的結(jié)果都不是同時(shí)坦白各得到-5，因?yàn)槎疾惶拱赘鞯玫?1顯然比都坦白各得-5好得多，其納什均衡解并非是帕累托最優(yōu)的。然而，在不能合謀的情形下，雙方出于個(gè)人理性，都會(huì)選擇最大化自身利益的做法。由于兩個(gè)嫌疑犯都采取不合作手段，最終實(shí)現(xiàn)的結(jié)果只能是對(duì)他們而言最差的。在這個(gè)博弈中，很明顯的出現(xiàn)了個(gè)人理性和集體理性的矛盾對(duì)立：從個(gè)人利益出發(fā)，既沒(méi)能實(shí)現(xiàn)個(gè)體的最大利益，也沒(méi)能實(shí)現(xiàn)集體的最大化利益。

3 突破“囚徒困境”

“囚徒困境”的簡(jiǎn)單博弈反映了個(gè)人理性和集體理性的深層次矛盾。它對(duì)于人類行為的預(yù)測(cè)是灰暗的：在個(gè)人理性前提下，自主決策的市場(chǎng)經(jīng)濟(jì)中，最大化個(gè)人利益的目標(biāo)指向常常會(huì)導(dǎo)致合作的失敗。究其根源，主要是該博弈假定博弈方都是完全自利而不顧他人利益的經(jīng)濟(jì)人，并排除了雙方合謀的可能，然而現(xiàn)實(shí)當(dāng)中并非完全如此。只要雙方存在合作的共同利益或者存在有約束力的合作協(xié)議，就有可能實(shí)現(xiàn)帕累托改進(jìn)。

3.1 合作博弈視角

合作博弈主要是指在博弈過(guò)程中存在自愿簽訂但有約束力協(xié)議的博弈。這意味著參與人（疑犯A和B）能夠達(dá)成某種協(xié)議，建立攻守同盟。在此背景下，協(xié)議給參與人提供的激勵(lì)將會(huì)改變疑犯A和B的策略選擇，進(jìn)而影響博弈的結(jié)局。

假定在博弈開始之前，參與者預(yù)期對(duì)方會(huì)屈從背叛的誘惑，因而每個(gè)參與者都要求簽訂一份文件，以保證如果其中一人背叛時(shí)，他將被迫支付給其他參與人足夠數(shù)額的貨幣，這個(gè)足夠大的貨幣支付要能夠抵消選擇背叛所帶來(lái)的收益，或者說(shuō)背叛者將受到其他人的嚴(yán)厲報(bào)復(fù)。如果簽訂協(xié)議的激勵(lì)足夠大或報(bào)復(fù)很嚴(yán)重，每個(gè)參與人預(yù)期對(duì)方會(huì)簽訂協(xié)議，并且進(jìn)行合作。這樣，原有的博弈就為新的博弈所替代。在新的博弈中，疑犯A和B的理性選擇就是同時(shí)選擇不坦白，遵守承諾、拒絕背叛。這樣，疑犯A和B的“囚徒困境”也就不會(huì)出現(xiàn)，從而實(shí)現(xiàn)帕累托改進(jìn)。

即使雙方?jīng)]能達(dá)成有約束力的協(xié)議，但只要博弈重復(fù)的次數(shù)足夠多，雙方都不知道博弈結(jié)束的確切時(shí)間，仍可能形成合作的局面。這時(shí)，可將其看作無(wú)限次重復(fù)博弈，如果雙方都采用這樣的“觸發(fā)策略”：第一階段采取合作策略，在第t階段，如果前t-1階段的結(jié)果都是（合作，合作），則繼續(xù)采用合作，否則將一直采用不合作進(jìn)行報(bào)復(fù)。

易知觸發(fā)策略是納什均衡?，F(xiàn)引入貼現(xiàn)因子δ，來(lái)比較參與人不同策略情形下未來(lái)各期收益的貼現(xiàn)值。首先，有必要假定參與者雙方具有相同貼現(xiàn)因子。這樣，在博弈開始時(shí)，若兩人都決定采取合作行為（抵賴），各得到收益-1。在接下來(lái)的博弈中，假如參與者A決定在某個(gè)時(shí)刻選擇了不合作策略（坦白），他將被無(wú)罪釋放而得到收益0。然而，這種選擇必定會(huì)遭到對(duì)手的報(bào)復(fù)性行為，嫌犯B在此后的博弈中，將采取永不合作的策略對(duì)其進(jìn)行懲罰，使得A在隨后的每階段收益均為-5。因此，欲使在B合作時(shí)，A同樣選擇合作，需滿足條件：

-（1+δ+δ2+…δn+…）≥0-5δ-5δ2-…-5δn-…

即-11-δ≥-5δ1-δ

解上述不等式，可以得到：δ*≥0.2。

這就是說(shuō)，如果δ*≥0.2，給定疑犯B堅(jiān)持觸發(fā)策略并且B沒(méi)有首先選擇不合作，那么A不會(huì)首先選擇不合作，也即雙方都會(huì)選擇合作，從而促使帕累托效率的實(shí)現(xiàn)。

3.2 交易費(fèi)用的視角

交易費(fèi)用源于科斯的兩篇代表作：《企業(yè)的性質(zhì)》和《社會(huì)成本問(wèn)題》。在文章中，科斯闡述了交易費(fèi)用的思想。其體現(xiàn)交易費(fèi)用的理論主要集中在兩方面：一方面是在企業(yè)與市場(chǎng)的相互替代關(guān)系上。由于交易費(fèi)用的普遍存在，使得企業(yè)得以產(chǎn)生；企業(yè)能以內(nèi)部管理來(lái)取代市場(chǎng)交易，也隨之產(chǎn)生了管理費(fèi)用。根據(jù)市場(chǎng)經(jīng)濟(jì)原則，交易總是會(huì)發(fā)生在交易費(fèi)用較低的地方。也即，當(dāng)管理費(fèi)用小于交易費(fèi)用時(shí)，交易在企業(yè)內(nèi)部進(jìn)行；反之，交易則在市場(chǎng)進(jìn)行；當(dāng)管理費(fèi)用和交易費(fèi)用相等時(shí)，市場(chǎng)和企業(yè)都可進(jìn)行。另一方面是在產(chǎn)權(quán)的界定與交易費(fèi)用的關(guān)系上。這涉及到科斯定理的精髓，也即在零交易費(fèi)用的假設(shè)下，科斯所說(shuō)的市場(chǎng)交易的前提之一便是產(chǎn)權(quán)的界定。而最后的結(jié)果，雖然是產(chǎn)值的最大化，但這往往是與法律判決沒(méi)有關(guān)系的。

在理性經(jīng)濟(jì)人前提和完全信息條件假設(shè)下，只有在制度的運(yùn)行中才會(huì)產(chǎn)生交易費(fèi)用。此外，只要沒(méi)有各種不確定因素的影響，在其他條件不變和已知的情形下，所有為降低交易費(fèi)用所做出的努力，都會(huì)帶來(lái)交易費(fèi)用的降低?；诖私档徒灰踪M(fèi)用模型（如圖2所示）。

x軸表示降低交易費(fèi)用做出的努力，y軸表示交易費(fèi)用，F(xiàn)（x，y）向右下方傾斜表示隨著降低交易費(fèi)用的努力的增多，交易費(fèi)用逐漸降低。

雖然交易費(fèi)用是廣泛存在的，但在既定的制度基礎(chǔ)上，它并不可能無(wú)限大。因此，如交易費(fèi)用模型所示，交易費(fèi)用函數(shù)F（x，y）與坐標(biāo)軸其實(shí)是相交的，點(diǎn)A表示其最大的交易費(fèi)用。然而，由于各種摩擦，零交易費(fèi)用是不存在的，所以函數(shù)F（x，y）只能無(wú)限的接近于X軸，卻不會(huì)與之相交。此外，隨著降低交易費(fèi)用的努力的增多，交易費(fèi)用會(huì)逐漸減少。因此，x與y之間存在負(fù)相關(guān)關(guān)系。

假設(shè)在一個(gè)有限的市場(chǎng)中，不會(huì)有外來(lái)廠商的進(jìn)入或者存在極高的進(jìn)入成本，僅有兩家實(shí)力相當(dāng)生產(chǎn)同質(zhì)商品的廠商甲、乙，假設(shè)廠商甲、乙均為理性經(jīng)濟(jì)人，都以自身利益最大化為目標(biāo)，要為自己的商品做廣告。他們之間存在囚徒困境（如圖3所示）。

在圖3的困境中，甲和乙最佳的選擇是雙方都不做廣告獲得（3，3）的最大收益，但是在現(xiàn)實(shí)生活中甲和乙往往會(huì)選擇（2，2）由于有收益4的驅(qū)動(dòng)，導(dǎo)致雙方之間即使作出承諾也將是不可信的。

將甲和乙之間為不做廣告進(jìn)行的承諾談判看作是交易，那么該項(xiàng)交易帶來(lái)的交易費(fèi)用主要是談判發(fā)生的交易費(fèi)用NC和道德行為產(chǎn)生的交易費(fèi)用。如圖4所示，若不考慮道德風(fēng)險(xiǎn)的影響，只有在NC>2時(shí)（圖中的AB之間），雙方才會(huì)尋求合作，“囚徒困境”才能破除。

總之，在現(xiàn)實(shí)的經(jīng)濟(jì)生活當(dāng)中，各種摩擦的存在使得交易費(fèi)用廣泛存在，而理想的零交易費(fèi)用狀態(tài)是不存在的。交易費(fèi)用意味著成本，因此它影響到交易的發(fā)生與否。此外，為實(shí)現(xiàn)利益最大化，盡可能的降低交易費(fèi)用成為多數(shù)情況下的最優(yōu)選擇；但是也有例外。例如在“囚徒困境”模型中，與一般情況相反，為了實(shí)現(xiàn)帕累托改進(jìn)或最優(yōu)，應(yīng)當(dāng)適當(dāng)增加交易費(fèi)用。

4 結(jié)語(yǔ)

綜上可知，基于“理性人”的假設(shè)，最終往往得到不理想的結(jié)果，致使效率的損失和資源的浪費(fèi)。因?yàn)樵诖思僭O(shè)之下，個(gè)人都變成自私自利的，理性人假設(shè)抹殺了個(gè)人之間的差異甚至是人格，所有人都罔顧集體的利益。然而，如果成功是來(lái)自與其他成功的規(guī)則相互作用的話，這個(gè)成功將孕育更多的成功，而如果成功是靠占失敗者的便宜而得到的，這樣的成功者必將隨著失敗者的淘汰而失去賴以生存的基礎(chǔ)，走上一條自我毀滅的道路，最終的結(jié)局只能陷入“囚徒困境”。而唯有自利與利他想?yún)f(xié)調(diào)，基于有約束力的協(xié)議的合作協(xié)議或者是交易費(fèi)用的提高，才有助于突破“囚徒困境”，實(shí)現(xiàn)帕累托最優(yōu)。

然而，從另一方面考慮，“囚徒困境”的參與者真的是理性人嗎？根據(jù)假設(shè)他們都聰明絕頂。而囚徒困境的結(jié)果卻是各判5年，實(shí)際上他們可以各判1年。他們自己會(huì)較被判1年好還是被判5年好，他們肯定不會(huì)滿足于被判5年，所以如果囚徒真是“理性人”，他們都會(huì)選擇抵賴，最后的結(jié)果是各判1年。這是從“理性人”的假設(shè)中自然得到的結(jié)論。按照經(jīng)典博弈論的分析，囚徒困境的納什均衡是（坦白，坦白），這顯然違背了“理性人”假設(shè)。這個(gè)結(jié)果實(shí)際上是兩個(gè)自私自利的人“聰明反被聰明誤”的結(jié)局，不是真正的“聰明絕頂”的人所做出的決策。如果是真正的“理性人”，他應(yīng)該掌握博弈論的基本知識(shí)，能預(yù)計(jì)到自己的處境，最后兩個(gè)囚徒都會(huì)毫無(wú)顧忌的選擇抵賴。另外從納什均衡的定義出發(fā)也可以得到各判1年的結(jié)果。根據(jù)納什均衡的定義，在囚徒困境博弈中，各判5年不是大家最好的結(jié)果，因?yàn)橛懈玫倪x擇是各判1年。如果在最初有個(gè)攻守同盟，即兩人都不坦白，兩個(gè)“聰明”的囚徒如果能分析所有可能的戰(zhàn)略，他們應(yīng)該不會(huì)打破攻守同盟的協(xié)議，因?yàn)榇蚱乒ナ赝艘馕吨髋?年，執(zhí)行攻守同盟只判1年。所以攻守同盟（抵賴，抵賴）是納什均衡。同時(shí)上述（坦白，坦白）戰(zhàn)略也不符合納什均衡的定義。納什均衡說(shuō)給定別人戰(zhàn)略的情況下，沒(méi)有人有積極性選擇其他的戰(zhàn)略。但納什均衡沒(méi)有說(shuō)別人的戰(zhàn)略是不是可以變。如果雙方最初的同盟是（抵賴，抵賴），大家會(huì)看到如果有一方想法改變，另一方也會(huì)跟著改變，從而使情況進(jìn)展兩步，達(dá)到一個(gè)更壞的結(jié)局各判5年，在這種情況下“理性人”會(huì)想改變同盟戰(zhàn)略嗎？因此，我認(rèn)為根據(jù)納什均衡的定義（抵賴，抵賴）是納什均衡，這是兩個(gè)“真正的理性人”博弈最后達(dá)到的均衡。

同時(shí)，個(gè)人是社會(huì)中的個(gè)人，個(gè)人利益的實(shí)現(xiàn)是依托于集體利益的，沒(méi)有集體利益也就沒(méi)有個(gè)人利益的實(shí)現(xiàn)，集體利益是個(gè)人利益的前提和基礎(chǔ)，促進(jìn)集體利益才能更好地實(shí)現(xiàn)個(gè)人利益。在“囚徒困境”模型中，如果參與者是為己利他甚至是利他的，他們每個(gè)人都輕易會(huì)認(rèn)識(shí)到：只有自己選擇沉默不言時(shí)，不管對(duì)方怎樣選擇，都能使同伴的利益最大化。在這樣的邏輯下，兩人都會(huì)選擇對(duì)罪行抵賴，最終均被判入獄1年。此時(shí)，個(gè)人最佳選擇與集體最佳選擇達(dá)到一致。如同受到亞當(dāng)·斯密倡導(dǎo)的“看不見(jiàn)的手”原理所指引，每個(gè)囚徒的目的都是利他，卻在集體利益增進(jìn)的同時(shí)，個(gè)人利益也得到了保證。

因此，即使是在一個(gè)總是背叛的小人世界，只要有哪怕是很小的一個(gè)合作性群體，合作仍然可以產(chǎn)生，合作一旦在群體中建立，就能保護(hù)自己不受非合作策略的侵入，并不斷的發(fā)展壯大，群體以不可逆轉(zhuǎn)的方式向合作的方向進(jìn)化，并保證帕累托效率的實(shí)現(xiàn)。

參考文獻(xiàn)

[1]胡明光.突破“囚徒困境”：合作是如何可能的[J].新政治學(xué)，2010，（01）.

[2]王健.囚徒困境的破解—基于Agent的復(fù)雜適應(yīng)系統(tǒng)仿真[J].商場(chǎng)現(xiàn)代化，2011，（08）.

[3]黃文平.囚徒困境—沉默權(quán)與人際合作秩序的擴(kuò)展[J].廣東商學(xué)院學(xué)報(bào)，2011，（03）.

[4]尹晶晶，王朝全.基于交易費(fèi)用理論分析破解囚徒困境[J].經(jīng)濟(jì)研究導(dǎo)刊，2011，（36）.

[5]郭洪偉.囚徒困境的均衡辨析[J].技術(shù)經(jīng)濟(jì)與管理研究，2011，（02）.

[6]朱富強(qiáng).重新理解合作博弈概念、內(nèi)涵和理性基礎(chǔ)[J].社會(huì)科學(xué)輯刊，2012，（02）.

[7]郭佳臻.綜述納什均衡與帕累托最優(yōu)的沖突—囚徒困境[J].現(xiàn)代經(jīng)濟(jì)信息，2011，（24）.

[8]謝識(shí)予.經(jīng)濟(jì)博弈論[M].上海：復(fù)旦大學(xué)出版社，2002.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

“囚徒困境”問(wèn)題探討