李 莉
(湖北大學(xué) 哲學(xué)學(xué)院, 湖北 武漢 430062)
從紐科姆難題看決策理論的兩個(gè)原則
李 莉
(湖北大學(xué) 哲學(xué)學(xué)院, 湖北 武漢 430062)
紐科姆難題是一個(gè)與合理行動(dòng)相關(guān)的決策困境問題。處于紐科姆難題決策情形中的決策者,根據(jù)決策理論中的兩個(gè)基本原則——效用最大化原則和占優(yōu)策略原則,得出了完全相反的兩個(gè)結(jié)論,使得決策者無法確定什么才是合理的行動(dòng)。對(duì)此難題,艾爾斯提出了修改最大化效用原則的方案,吉伯德和哈珀則提出了U效用和V效用的解決方案。
紐科姆難題;最大化效用原則;占優(yōu)策略原則
物理學(xué)家威廉·紐科姆(W.Newcomb)在考慮囚徒困境問題的過程中,首先構(gòu)造出紐科姆難題。羅伯特·諾齊克(R.Nozick)了解到這個(gè)難題后,于1969年撰寫了一篇著名的論文《紐科姆難題和決策的兩個(gè)原則》[1],標(biāo)志著紐科姆難題的正式提出。
紐科姆難題體現(xiàn)了作為決策論中最重要且最基本的兩個(gè)原則,也就是最大化效用原則與占優(yōu)原則之間的沖突。諾齊克在《理性的性質(zhì)》一書中談到紐科姆疑難研究之意義時(shí)寫道:“經(jīng)濟(jì)學(xué)家和統(tǒng)計(jì)學(xué)家已經(jīng)發(fā)展出一種有關(guān)合理決策的精心制作的理論,并將其廣泛運(yùn)用到理論與政策研究之中。這是一種具有數(shù)學(xué)嚴(yán)格性的,既強(qiáng)有力而又容易掌握的理論。雖然它作為實(shí)際行為的描述之充分性已受到廣泛質(zhì)疑,它仍然是有關(guān)合理決策所應(yīng)滿足條件之研究中居于支配地位的標(biāo)準(zhǔn)理論。我認(rèn)為,這種標(biāo)準(zhǔn)決策理論需擴(kuò)充到與行為的符號(hào)意義及其他有關(guān)因素的明晰思考相結(jié)合,而關(guān)于當(dāng)前標(biāo)準(zhǔn)理論之不充分性認(rèn)識(shí)的一個(gè)有益入口,是由紐科姆問題提供的?!盵2]
在學(xué)界,紐科姆難題因此引起了廣泛的關(guān)注。紐科姆難題有很多版本,以下采自諾齊克最原始的表述:
假定一個(gè)擁有超能力的生物,他能夠預(yù)測(cè)你的選擇(或者你也可以把它想象成一個(gè)科幻故事,一個(gè)外星來的生物,擁有先進(jìn)的科學(xué)技術(shù),同時(shí)也是非常友好的,等等)。你知道這個(gè)生物過去常常能正確地預(yù)測(cè)出你的選擇(并且,至少到目前為止,對(duì)你的選擇沒有作過錯(cuò)誤的預(yù)測(cè))。此外,你知道這個(gè)生物經(jīng)常正確地預(yù)測(cè)到其他人的選擇,而且其中很多人都處于與你類似的情形中。當(dāng)然,你可以發(fā)揮想象力,把故事講得更長(zhǎng),但要點(diǎn)是:所有的描述都是讓你相信這個(gè)生物對(duì)你的選擇的預(yù)測(cè)都是正確的。
現(xiàn)在有兩個(gè)盒子放在你面前:盒子B1,里面有1 000美元;盒子B2,里面現(xiàn)在是空的。你面臨兩個(gè)選擇:或者只拿走B2,或者同時(shí)拿走兩只盒子。然而對(duì)超級(jí)生物而言,(1)如果你只拿走B2,為了獎(jiǎng)勵(lì)你,他就放100萬美元的獎(jiǎng)金到盒子B2里面;(2)如果你貪心,拿走兩只盒子,他就不往B2里面放錢。以上所有的決策信息你是知道的,并且超級(jí)生物也知道你是知道的,于是超級(jí)生物作出了預(yù)測(cè),然后根據(jù)預(yù)測(cè)決定往B2里面放錢還是不放錢。同時(shí)你也知道這個(gè)超級(jí)生物知道你是知道的,而且盒子里面或者是空的或者有100萬美元,現(xiàn)在請(qǐng)你決定:哪一個(gè)行動(dòng)更為合理:拿走一只盒子,還是兩只盒子?
在紐科姆難題的決策情形中,決策者必須在兩個(gè)可能的行動(dòng)中作出決定,有兩種可能的世界狀態(tài),用t來表示時(shí)間,數(shù)字越大,表示時(shí)間越晚,數(shù)字相同,表示時(shí)間一樣。據(jù)此,諾齊克給出了兩個(gè)相反的但同樣是合理的論證。兩個(gè)不同的原則建議也不同,最大化條件效用的原則建議拿走一只盒子,也就是盒子B2,強(qiáng)占優(yōu)原則建議拿走兩只盒子。
(一)根據(jù)最大化條件效用原則得出“一盒論”的論證。
前提1:如果我在t3時(shí)拿走兩只盒子,預(yù)言家將會(huì)在t1時(shí)以很高的概率預(yù)測(cè)到這些,并且在t2時(shí)不往B2里面放錢,所以我?guī)缀跄艽_定地拿到1 000美元。
前提2:如果我在t3時(shí)拿走B2,預(yù)言家會(huì)在t1時(shí)以很高的概率預(yù)測(cè)到這些,并在t2時(shí)放100萬美元在B2里,所以我?guī)缀跄艽_定地拿到100萬美元。
結(jié)論:因此我應(yīng)當(dāng)拿走B2。
論證過程:令C表示置信度,a1表示拿走兩只盒子,a2表示拿走盒子B2,S1表示盒子里面有100萬美元,S2表示盒子里面沒有錢,表示假定決策者的置信度為:
c(s1|a1)=0.9
c(s1|a2)=0.1
c(s2|a2)=0.9
c(s2|a1)=0.1
并且假定決策者可能收益的效用是與可能的結(jié)果成線性增長(zhǎng),那么可能行動(dòng)a1和a2的條件效用是這樣計(jì)算的,其中CU表示期望效用,a1表示拿走兩只盒子,a2表示拿走盒子B2:
CU(a1)=(0.9)(1 000)+(0.1)(1 001 000)=101 000
CU(a2)=(0.1)(0)+(0.9)(1 000 000)=900 000
因?yàn)镃U(a2)比CU(a1)高,最大化條件效用原則推薦拿走盒子B2。
(二)根據(jù)占優(yōu)原則給出“二盒論”的論證。
前提1:預(yù)言者已經(jīng)在t1時(shí)作出了他的預(yù)言,把100萬美元在t2時(shí)放入了B2中,或者沒放。
前提2:假定預(yù)言者在t2時(shí)在B2中已經(jīng)放入100萬美元,如果我在t3時(shí)拿走兩個(gè)盒子,我得到1 001 000美元,如果我在t3時(shí)拿走B2,我得到100萬美元。
前提3:假定預(yù)言者t2時(shí)在B2中不放錢,如果我在t3時(shí)拿走兩只盒子,那我得到1 000美元;如果我在t3時(shí)拿走兩只盒子,那我得不到錢。
前提4:如果我拿走兩只盒子而不是一只,那么在任何情況下,我都能多得1 000美元
結(jié)論:因此我應(yīng)當(dāng)拿走兩只盒子。
假定對(duì)決策者而言,1 000美元的效用比0美元的效用高,1 001 000的效用比1 000 000的效用高,拿走兩只的盒子行動(dòng)明顯優(yōu)于拿走一只盒子,所以占優(yōu)策略推薦拿走兩只盒子。
這兩個(gè)論證,在同一決策情形中,給出了完全相反的建議。諾齊克認(rèn)為這體現(xiàn)了合理決策行動(dòng)中兩個(gè)決策原則之間的沖突,也就是期望效用最大化原則和占優(yōu)原則之間的沖突。
博弈論及一般決策理論的研究方法一般有兩種:標(biāo)準(zhǔn)化研究方法和描述性研究方法。標(biāo)準(zhǔn)化方法,是探討理想的理性主體的行為,目的是給出關(guān)于人們應(yīng)當(dāng)如何行動(dòng)才是理性的描述。這種標(biāo)準(zhǔn)化研究方法的代表人物有杰弗里(Jeffery)、萊法(Raiffa)、斯基姆斯(skyrms)。標(biāo)準(zhǔn)化研究進(jìn)路,是傳統(tǒng)的研究途徑。
這種進(jìn)路上的決策理論認(rèn)為有兩個(gè)因素決定我們的決策。一是目標(biāo)(或者愿望,或者需要),二是信念。目標(biāo)可以用客觀效用或者主觀價(jià)值來表征,信念則用置信度或者機(jī)會(huì)來表征。令效用的符號(hào)用U(客觀效用是OU),置信度用C,機(jī)會(huì)用Ch表示。決策效用用u(oij)表示。決策的效用排序如下:u1最低,u2較高,unm最高。
在杰弗里看來,對(duì)決策者效用的一個(gè)合理限制是滿足愿望公理:對(duì)任意命題X,Y,如果c(X∩Y)=0,而且c(X∪Y)≠0,那么
對(duì)置信度的限制是要求置信度滿足數(shù)學(xué)概率計(jì)算的公理,也就是克洛莫諾夫公理*也就是:(1)非否定公理:事件A的概率高于或者等于0;(2)標(biāo)準(zhǔn)化公理:事件A和事件非A的合取概率為1;(3)限定添加公理:如果兩個(gè)事件A和B的析取不為空,那么P(AB)=P(A)+P(B))。。這是一個(gè)融貫性要求,一旦違反就會(huì)使決策者產(chǎn)生不融貫的置信度,處于大棄賭情境中。
根據(jù)置信度,可以把決策分為三類:(1)如果決策者給可能行動(dòng)賦予0或者1的置信概率,那么決策者面對(duì)的是確定性決策;(2)如果決策者賦予可能行動(dòng)0 確定性決策中,行動(dòng)方案是有限的,每個(gè)行動(dòng)方案都有一個(gè)確定的結(jié)果,決策者需要做的是對(duì)各個(gè)行動(dòng)方案的結(jié)果進(jìn)行比較,因此,“確定性決策的合理性原則是效用最大化原則,即選擇那個(gè)能使決策者獲得最大效用的行動(dòng)方案”[3]223。 風(fēng)險(xiǎn)型決策和不確定型決策的共同點(diǎn)是,備選的行動(dòng)方案中,至少有一個(gè)方案的可能結(jié)果不止一個(gè),從而使得哪一個(gè)方案具有最大效用也是不確定的。在這種情況下,就需要使用占優(yōu)策略原則。 在風(fēng)險(xiǎn)型決策中,決策者雖然不知道哪種結(jié)果一定出現(xiàn),但是可以知道每種結(jié)果出現(xiàn)的概率。而在不確定型決策問題中,沒有客觀概率可以依據(jù),因此“這是一個(gè)困難大、爭(zhēng)議多的問題,也是主觀貝葉斯派著重研究的問題”[3]224。 下面是決策理論中常用的兩個(gè)原則: (一)效用最大化原則。 根據(jù)薩維奇的觀點(diǎn),決策者的行動(dòng)效用可以用下面的公式來計(jì)算(用U(ai)來指稱可能行動(dòng)的效用): 薩維奇宣稱決策者應(yīng)當(dāng)依據(jù)效用最大化原則:在一個(gè)給定的決策情形D中,決策者X應(yīng)當(dāng)根據(jù)效用最大化來決定是否采取行動(dòng)ai。 杰弗里要求決策者應(yīng)當(dāng)采取最大化條件效用的原則:在給定的決策情形D中,決策者X應(yīng)當(dāng)根據(jù)最大化條件效用的原則采取行動(dòng)ai。 (二)占優(yōu)原則。 決策論中經(jīng)常使用的另一個(gè)相關(guān)原則是占優(yōu)原則。準(zhǔn)確地說,它其實(shí)是兩個(gè)原則:強(qiáng)占優(yōu)原則和弱占優(yōu)原則,不過通常決策理論家不太在意二者之間的差異。 1、強(qiáng)占優(yōu):一個(gè)可能的行動(dòng)ai在所有行動(dòng){a1,a2,…,an}{ai}中強(qiáng)占優(yōu),當(dāng)且僅當(dāng)對(duì)于每一可能世界s1,s2,…,sm狀態(tài),可能行動(dòng)ai的收益效用與其他行動(dòng){a1,a2,…,an}{ai}的收益效用O11,O12,…,Onm相比,是較高的(表示不包含)。 2、強(qiáng)占優(yōu)原則:在一個(gè)給定的決策情形D中,如果有最強(qiáng)的可能行動(dòng)ai,決策者X應(yīng)當(dāng)決定采用最強(qiáng)的可能行動(dòng)ai。 3、弱占優(yōu):一個(gè)可能的行動(dòng)ai在所有行動(dòng){a1,a2,…,an}{ai}中弱占優(yōu),當(dāng)且僅當(dāng)對(duì)于可供考慮的可能世界s1,s2,…,sm,可能行動(dòng)ai的收益效用至少在一種情況下與其他行動(dòng){a1,a2,…,an}{ai}的收益效用O11,O12,…,Onm相比,是較高的(表示不包含),并且相對(duì)于可供考慮的可能世界S1,S2,…,Sm而言,能夠帶來與可能行動(dòng){a1,a2,…,an}{ai}的收益效用O11,O12,…,Onm相等的效用。 4、弱占優(yōu)原則:在給定決策情形D中,如果有可能的弱占優(yōu)行動(dòng)ai,X則應(yīng)當(dāng)采用ai。 艾爾斯認(rèn)為:“紐科姆難題能夠并且也應(yīng)當(dāng)使用修改最大化條件效用的原則來解決?!盵5] 在他看來,紐科姆難題有下面的因果結(jié)構(gòu):一個(gè)共同原因CC(cc1:p1和a1的共同原因,cc2:p2和a2的共同原因);一方面帶來一個(gè)預(yù)言P(P1:預(yù)言拿走兩只盒子,P2:預(yù)言拿走盒子B2),可能的收益±O(S1:B2里沒錢,S2:B2里有100萬美元);另一方面引起某種元素R,可能的行動(dòng)是±A(a1:拿走兩只盒子,a2:拿走B2)。因此,艾爾斯認(rèn)為紐科姆難題的因果結(jié)構(gòu)在從共同原因±CC到可能收益±O之間增加了一個(gè)成員±P。 艾爾斯認(rèn)為,如果決策者相信在預(yù)言和可能行動(dòng)之間有很強(qiáng)的聯(lián)系,決策者就應(yīng)該相信預(yù)言者的成功背后有一個(gè)因果的解釋;如果預(yù)言并沒有帶來可能行動(dòng),他認(rèn)為預(yù)言成功背后唯一的解釋就是預(yù)言和可能行動(dòng)之間具有共同原因。 給定關(guān)于紐科姆難題的情境分析,艾爾斯試圖顯示決策者的信念會(huì)帶來選擇兩個(gè)盒子的解決方案。通過對(duì)條件效用的計(jì)算就可以得出拿走2只盒子的解決方案。 劉易斯批評(píng)說:“艾爾斯的理論只能應(yīng)用于理想的合理決策者?!盵6]他認(rèn)為,如果理性包含艾爾斯所宣稱的自我知識(shí),就有決策者在作出決策之前就知道他們會(huì)怎么做了。此外,還有自我意識(shí)的決策者,他們的決定會(huì)帶來比思想實(shí)驗(yàn)更多的自我知識(shí)。劉易斯問道:為什么我們不問對(duì)部分理性決策者而言,什么決策是理性的,他們的部分理性決策方法是否會(huì)幫助他們找出理性的可能行動(dòng)?此外,在紐科姆難題中,艾爾斯的理論對(duì)部分理性決策者而言,并沒有給出正確的答案。 普萊斯(H.Price)則指出,艾爾斯的辯護(hù)是自指的?!鞍瑺査沟睦硐肜硇詻Q策者不僅要知道他的相關(guān)信念是什么,目標(biāo)是什么,也要知道這些信念和目標(biāo)是否能引導(dǎo)他選擇兩個(gè)盒子。”[7]普萊斯繼續(xù)指出,在艾爾斯的辯護(hù)中,還要回應(yīng)更為嚴(yán)重的問題。對(duì)普萊斯而言,在紐科姆難題中,假定一個(gè)和決定拿走兩只盒子相關(guān)的普遍原因比假定一個(gè)和事實(shí)上拿走兩只盒子的相關(guān)的普遍原因更為自然。 吉伯德和哈珀指出,有兩種預(yù)期效用、兩種獨(dú)立性和兩種占優(yōu)原則。一種預(yù)期效用是根據(jù)反事實(shí)(countfactuals)概率(吉伯德和哈珀所理解的“反事實(shí)”并不要求它的前提一定是假的)而計(jì)算出來的預(yù)期效用,他們稱之為U效用;另一種預(yù)期效用是根據(jù)條件概率計(jì)算出來的預(yù)期效用,稱之為V效用。兩種獨(dú)立性是因果獨(dú)立性和隨機(jī)獨(dú)立性,兩種占優(yōu)原則是有因果獨(dú)立性的占優(yōu)原則和有隨機(jī)獨(dú)立性的占優(yōu)原則。 吉伯德和哈珀說:“如果合理性要求U最大化,則有因果獨(dú)立的占優(yōu)原則適合,如果合理性要求V最大化,則有隨機(jī)獨(dú)立的占優(yōu)原則適合?!盵8]根據(jù)他們的分析和計(jì)算結(jié)果,“一盒選擇”的V效用大于“兩盒選擇”的V效用,而“兩盒選擇”的U效用大于“一盒選擇”的U效用。這與諾齊克的觀點(diǎn)是完全不同的。諾齊克認(rèn)為,紐科姆難題體現(xiàn)了預(yù)期效用最大化原則和占優(yōu)原則之間的沖突,而在吉伯德和哈珀看來,問題在于兩種預(yù)期效用最大化之間的沖突。 U效用是如何測(cè)量的呢?吉伯德和哈珀認(rèn)為,理性的決策是用反事實(shí)條件概率來表示的。根據(jù)ai?→Oj,意思是“如果我要做ai,那么就會(huì)得到Oj”。在決策的時(shí)候,一般說來,決策者如果實(shí)施某種可能行動(dòng)時(shí),他也不能確定地知道會(huì)得到什么結(jié)果,因而會(huì)給這樣的虛擬條件賦予置信度。此時(shí),決策者用效用計(jì)算他的可能收益,于是,一個(gè)可能行動(dòng)的U效用可以用下面的方式來計(jì)算: 根據(jù)吉伯德和哈珀的觀點(diǎn),決策者應(yīng)當(dāng)使用最大化U效用的原則:在給定的決策情形D中,決策者X應(yīng)當(dāng)決定是否用最大化U效用來采取可能行動(dòng)ai。 在紐科姆難題上,吉伯德和哈珀是這樣論證的:最大化V效用建議只拿走盒子B2,因?yàn)樗c杰弗里的最大化條件效用類似,最大化U效用的原則推薦拿走兩只盒子,其論證如下: 假定S1的置信度是μ,S2的置信度是1-μ,因?yàn)閟1和s2都是因果地獨(dú)立于決策者的可能行動(dòng)a1和a2,那么決策者的置信度為: c(a1?→s1)=μ c(a2?→s1)=μ c(a1?→s2)=1-μ c(a2?→s2)=1-μ 因此可能行動(dòng)U效用的計(jì)算導(dǎo)出: U(a1)=c(a1?→s1)μ(1 000)+c(a1?→s2)μ(1 001 000) =1 000μ+(1-μ)1 001 000 =1 001 000-1 000 000μ U(a2)=c(a2?→s1)μ(0)+c(a2?→s2)μ(1 000 000) =μ(0)+(1-μ)1 000 000 =1 000 000-1 000 000μ 因?yàn)閷?duì)每一U而言,U(a1)>U(a2),最大化U效用的原則建議是拿走兩只盒子。 對(duì)于吉伯德和哈珀的反事實(shí)條件理論,其問題在于假如反事實(shí)條件的前件是假的,也就是說,決策者可能相信形如ai?→Oj的反事實(shí)條件可能實(shí)施,也可能不實(shí)施,這種情況下該怎么辦?吉伯德和哈珀的回答是訴諸直覺,這顯然不是一個(gè)令人滿意的答案。 [1] R Nozick.Newcomb’s Problem and Two Principles of Choice in N Rescher[M]//D Davidson,C G Hempel.Essays in Honor of Carl G Hempel.Reidel,Dordrecht,1969:14-146. [2] 張建軍.邏輯悖論研究引論[M].南京:南京大學(xué)出版社,2002:222. [3] 熊立文.現(xiàn)代歸納邏輯的發(fā)展[M].北京:人民出版社,2004:223. [4] R C Jeffrey.The Logic of Decision[M].Chicago,London:The University of Chicago Press,1983:4. [5] E Eells.Rational Decision and Causality[M].Cambridge:Cambridge University Press,1982:206. [6] D Lewis.Causal Decision Theory[J].Australasian Journal of Philosophy 59,1981:10. [7] H Price.Against Causal Decision Theory[J].Synthese 67,1986:204. [8] A Gibbard,W L Harper.Counterfactuals and Two Kinds of Expected Utility[M]//C A Hooker,J J Leach,E F McClennen.Foundations and Applications of Decision Theory:vol.1.Reidel,Dordrecht,1978:125-162. B815 A 1007-8444(2012)05-0613-05 2012-07-07 李莉(1974-),博士,講師,主要從事邏輯哲學(xué)、邏輯應(yīng)用研究。 責(zé)任編輯:王榮江三、如何解決紐科姆難題