羅 君 劉軼群 劉敬偉
(1茅臺學院工商管理系 貴州仁懷 564507;2維多利亞大學古斯塔夫森商學院加拿大維多利亞 V8W2Y2)
博弈論,是研究個體間策略性互動行為的理論,又稱互動決策理論.由于社會是由個體(個人或組織)組成的,因此,博弈論已經(jīng)深入到了社會科學的幾乎所有領域,又因其數(shù)理分析的嚴密性,被認為是社會科學的物理學[1].
1944年,由馮·諾依曼和摩根斯坦合著的《博弈論與經(jīng)濟行為》(Theory of Game and Economic Behavioer,by John von Neumann and Oskar Morgenstern,1944)一書的出版,標志著博弈理論的初步形成.博弈論誕生的初期,主要以普林斯頓大學為研究中心,并逐漸擴散開來.博弈論的研究被分為兩大分支:非合作博弈(Non-cooperative Game)與合作博弈(Cooperative Game),1980年代為其成長爆發(fā)期,1994年諾貝爾經(jīng)濟學獎首次頒發(fā)給博弈論研究的奠基人約翰·納什(John F. Nash)、海薩尼(John C. Harsanyi)和澤爾騰(Jr. Reinhard Selten),以表彰他們對非合作博弈均衡所做的開拓性貢獻.其中,納什的貢獻在于納什均衡(Nash Equilibrium),海薩尼的貢獻在于不完全信息下的均衡性,澤爾騰則是對完美均衡(Perfect Equilibrium)作出了貢獻[2].截至2022年度,諾貝爾經(jīng)濟學獎先后9次頒發(fā)給博弈論領域的學者,足見博弈論的魅力.
博弈論的主要研究領域有:①演化博弈論,主要源自梅納德·史密斯和普瑞斯發(fā)表在Nature上的“動物沖突的邏輯”(The Logic of Animal Conflict,J.Maynard Smith and G.R.Price,1973)一文;②行為博弈論(behaviroal game theory),通過考察人類非理性因素,研究參與人的策略選擇問題,有實驗博弈(在實驗室進行的博弈)和實證博弈(在實際情景中進行的博弈;③算法博弈論,算法博弈論融合了計算科學與博弈理論,主要研究領域包括各種均衡的計算及復雜性問題、機制設計(包括在線拍賣、在線廣告)、計算社會選擇等;④組合博弈論(combinatorial game theory)主要研究具有完全信息的序貫博弈;⑤非貝葉斯博弈(non-bayesian games),在放松傳統(tǒng)博弈理論的貝葉斯假設下,探討不確定性下的決策.
參與人i∈{1,2,…,n}有mi個行動策略,令si∈{1,2,…,mi}表示參與人i的選項,參與人i的支付(tradeoff)為ai(s1,s2,…,sn),再令xi=(xi(1),xi(2),…,xi(mi))表示參與人i的策略分布(xi(·)非負且和為1),亦即xi表示參與人i在其mi個行動策略中的概率分配.模型要解決的問題是,如何決定博弈中各個參與人的策略選擇.
納什均衡解(nash equilibrium)與完美均衡解(perfect equilibrium)是非合作博弈的兩個基本解概念.納什均衡解(Nash,1950)是指:任一參與人在知道其他參與人的策略選擇后,并不改變自己的策略選擇;完美均衡解(Selten,1975)是指:在納什均衡解中,那些明顯不會被比下去而有可能被采用的策略,換句話說,有弱劣策略的納什均衡不是完美均衡[3].
2.3.1情侶博弈 又稱性別戰(zhàn)(battle of sexes),Ann和Bob是一對情侶,周末到了,Ann想去聽一場難得的音樂會,而Bob想去看一場同樣難得的足球賽,當然,兩人不想分開,希望能在一起共度美好時光,怎么辦呢?Ann(參與人1)和Bob(參與人2)各有兩個選項:聽音樂會(選項1)和看足球賽(選項2),該博弈的支付矩陣如表1所示.
表1 情侶博弈支付矩陣
從以上博弈支付矩陣來看,如果兩個人一起去聽音樂會,Ann與Bob的效用分別為4,1;如果兩個人一起去看足球賽,其效用分別為1,4;其他不在一起的組合,效用皆為0.
Ann和Bob各自的效用還可以用一個2×2矩陣A和B來分別表示:
該博弈有三個納什均衡解,包括兩個純策略均衡和一個混合策略均衡:(1)x1=(1,0),x2=(1,0).即兩人都去聽音樂會,Ann的效用為4而Bob為1;(2)x1=(0,1),x2=(0,1).即兩人都去看足球賽,Ann的效用為1而Bob為4;(3)x1=(4/5,1/5),x2=(1/5,4/5).即Ann以4/5的概率去聽音樂會,以1/5的概率去看足球賽,而Bob則以1/5的概率去聽音樂會,以4/5的概率去看足球賽,Ann和Bob的效用皆為4/5(=4/5×1/5×4+1/5×4/5×1).這三個納什均衡解同時也是完美均衡解,但完美均衡解并沒有明確告訴Ann和Bob該采用三個解中的哪一個:Ann可以說服Bob一起去聽音樂會,Bob也可以說服Ann一起去看足球賽,或者兩人選擇其實并無效率的混合策略,這需要參與人進一步協(xié)調和溝通.納什均衡解的“唯一性”問題,至今尚未解決.
2.3.2非完美均衡解博弈 考慮如下兩個參與人之間的博弈(各有兩個選項):
該博弈有兩個純策略納什均衡解:(1)x1=(1,0),x2=(1,0);(2)x1=(0,1),x2=(0,1).亦即,兩人都采用選項1,或者兩人都采用選項2,但前者明顯劣于后者,也就是說前者明顯能被后者比下去,因此前者雖然是納什均衡解但不是完美均衡解.
2.3.3斗雞博弈(chicken game) 又稱膽小鬼博弈。兩個參與人,各自駕車在一條道路上沿著路中間高速相向迎面而來,此時雙方各有兩個選項:選項1:避讓(閃到路邊);選項2:不避讓(沿著路中間繼續(xù)高速前行),各自的支付矩陣如下:
矩陣A和B互為對稱矩陣,其中,相互避讓的效用或支付為0(表示互不吃虧),雙方都不避讓的效用或支付為-109(表示兩敗俱傷),己方避讓對方不避讓為-10(表示不滿對方的霸道),己方不避讓對方避讓為1(表示占便宜).該博弈有三個納什均衡解:①己方讓對方不讓;②己方不讓對方讓;③各自以99/100的概率避讓,以1/100的概率不避讓.在面對沖突(比如遭受侵略)時,要讓對方強烈地相信己方會采取“不讓”的策略,對方就越有可能采取“讓”的策略.
2.3.4囚徒困境(prisoner's dilemma)[4]兩個嫌犯(兩個參與人)被警察隔離審訊,他們各自都有兩個選項:選項1:認罪;選項2:不認罪.博弈的支付(表示判刑的時間)矩陣如下:
矩陣A和B互為轉置矩陣,該博弈只有一個納什均衡解:雙方都認罪,各自被判處5年徒刑.雖然雙方都不認罪(各自被判1年)對他們是最好的結果,但如果一方認罪另一方不認罪,不認罪的一方會被加重處罰,而認罪的一方則被免于處罰,因而存在被對方出賣的風險,從理性人的角度出發(fā),都不認罪的選項無法形成納什均衡解,兩嫌犯只有在警察設計的誘因機制下認罪.
核中有多個解時,該如何選擇呢?核仁便是核中的一個公平解.核仁(Schmeidler,1969)所依據(jù)的分配思想,是讓一個群體中最不幸成員的幸福最大化,若有多重選擇時,再使次不幸成員的幸福最大化,以此類推,直到找到一個解[9].這里所指的成員是任一個次級聯(lián)盟(不含大聯(lián)盟及空集),共有2n-2個成員.
夏普利值是指(Shapley,1953)參與人的貢獻以邊際貢獻來衡量,n個參與人共有n!個排列,某個參與人的分配值為其在n!個排列中的平均邊際貢獻[10].在一個排列中,令S(可為空集)表示排在參與人i前面的所有參與人,則參與人i在該排序中的邊際貢獻為v(S∪{i})-v(S).
三家公司擬成立合作研發(fā)中心,其中各個公司(1,2,3)單獨研發(fā),其成本分別為11、8、7;公司1、2合作研發(fā)的成本為14;公司1、3合作研發(fā)的成為為15;公司2、3合作研發(fā)的成本為13;公司1、2、3合作研發(fā)的成本為為20.那么,三家公司應如何公平分擔合作研發(fā)的成本呢?
首先,將該問題表示為3人合作博弈模型:(1)v(φ)=0;(2)v({1})=v({2})=v({3})=0(因為單獨研發(fā)沒有節(jié)省成本);(3)v({1,2})=5(公司1,2合作研發(fā),可節(jié)省成本5(=11+8-14));同理:(4)({1,3})=3;(5)v({2,3})=2;(6)v({1,2,3})=6.
其次,求該博弈的核:該博弈的核為以下不等式組的解集(由六個不等式和一個等式所圍成的區(qū)域,如圖1陰影部分所示):
圖1 合作博弈的核 (不等式組的解集)
再次,求該博弈的核仁:各成員(不包含大聯(lián)盟和空集)的幸福值可以定義為其分配總值減去其聯(lián)盟價值(見表2),因為y1+y2+y3=6,因此由表2可知,成員{1}和成員{2,3}的幸福值之和為4,成員{2}和成員{1,3}的幸福值之和為3,成員{3}和成員{1,2}的幸福值之和為1.最不幸成員為{3}和{1,2}(他們的幸福值之和最小),他們平分其幸福值,各得0.5,故成員{3}新的聯(lián)盟價值為0.5(=0+0.5),而成員{1,2}新的聯(lián)盟價值為5.5(=5+0.5).接下來,將5.5分配給{1,2}中的{1}和{2},此時,{1,3}和{2,3}的幸福值之和為1.5(=6+0.5-5)為最小,因此平分其幸福值,各得0.75,各自新的聯(lián)盟價值分別為3.75(=3+0.75)和2.75(=2+0.75),在已知{3}的聯(lián)盟價值為0.5的條件下,可得{1}和{2}新的聯(lián)盟價值(分配值)分別為3.25(=3.75-0.5)和2.25(=2.75-0.5).由此,可求得該博弈的核仁為(y1,y2,y3)=(3.25,2.25,0.5),進而可以求得三家公司各自的成本分攤分別為7.75(=11-3.25),5.75(=8-2.25)和6.5(=7-0.5).
表2 各成員的幸福值
最后,求該博弈的夏普利值:參與人1、2、3共有六個排列,分別為:123,132,213,231,312,321.他們在這六個排列中的邊際貢獻分別為(0,5,1),(0,3,3),(5,0,1),(4,0,2),(3,3,0),(4,2,0).因此參與人1、2、3的平均邊際貢獻(即夏普利值)分別為:8/3,13/6,7/6.如表3所示.進而,根據(jù)夏普利值的分配邏輯,三家公司各自分攤的成本分別為:25/3(=11-8/3),35/6(=8-13/6)和35/6(=7-7/6).
表3 博弈的夏普利值
目前,博弈論已形成一個相對完備的方法論體系,成為一種強有力的數(shù)理分析工具,并廣泛應用于經(jīng)濟學、管理學、社會學、政治學等社會學科領域[11].由于其多使用復雜的數(shù)學方法構建博弈模型,又被稱為社會科學的物理學.
博弈論有兩個分支:非合作博弈與合作博弈.馮·諾伊曼和摩根斯坦首次提出合作博弈的概念,并對合作博弈進行了大量的討論和研究,而他們對非合作博弈的研究僅介紹了簡單的零和博弈,也就是說,博弈論最先發(fā)端于對合作博弈[12].繼納什之后,學者們對非合作博弈展開了深入細致的研究,取得了豐富的成果,使其成為體系相對完備的一個分支,而合作博弈的研究進展則相對滯后,始終落后于非合作博弈.
當前,在企業(yè)、社會、國家面臨新的競爭與合作關系的背景下,合作博弈由于其側重于合作效率以及公平分配的研究,更加符合新型競合關系的內在要求[13],因此,需要加強對合作博弈理論與應用的探索和研究,為促進企業(yè)、社會、國家之間的協(xié)調與合作作出應有的貢獻.