萬維鋼
很久以前,美國一家媒體提出了一個(gè)有趣的問題,主持人指著三扇關(guān)著的房門對觀眾說:“每一扇房門后面都有一件東西,其中一扇門后面是汽車,另外兩扇門后面各有一只山羊。你可以隨意打開一扇,后面的東西就歸你了(當(dāng)然你最想得到的是汽車)。”當(dāng)你選定一扇門,如1號(hào)門(但未打開),這時(shí)主持人讓人打開了有山羊的另一扇門,假定是3號(hào)門,然后再給你一次機(jī)會(huì),允許你改變原來的選擇。這時(shí),你為了得到汽車是堅(jiān)持1號(hào)門還是改選2號(hào)門?
當(dāng)問題及答案公諸于眾后引發(fā)了出乎意料的轟動(dòng),大家給出了不盡相同的答案(當(dāng)然正確的答案是唯一的)。此時(shí),無論是1號(hào)門還是2號(hào)門,后面都有可能是汽車,看上去好像每一個(gè)都是一半的幾率,但從主持人的角度看,他不會(huì)讓你輕易就得到汽車,于是打開3號(hào)門來迷惑你,讓你放棄1號(hào)門。由此看出,1號(hào)門后是汽車的幾率會(huì)大一點(diǎn)。
如果能從主持人的話語中判斷出他沒有這種想法,則我們可以這樣思考。將1號(hào)門看成一部分,里面有汽車的概率為0.33,將2號(hào)門和3號(hào)門看成另一部分,里面有汽車的概率為0.67。當(dāng)發(fā)現(xiàn)3號(hào)門里沒有汽車時(shí),則1號(hào)門和2號(hào)門有汽車的概率分別為0.33和0.67。因此,選擇2號(hào)門比較理智。
稍加留意你就會(huì)發(fā)現(xiàn),如果利用概率統(tǒng)計(jì)提供的科學(xué)思維方法就可能大大提高獲勝的幾率。然而對日常生活來說,即使我們掌握了概率計(jì)算方法,也并不等于能真正理解概率。
隨機(jī):偶然錯(cuò)誤不值得深究
概率論最基礎(chǔ)的思想是,有些事情無緣無故就發(fā)生了。這個(gè)思想對我們的世界觀具有顛覆性的意義。古人沒有這個(gè)思想,認(rèn)為發(fā)生的一切事情都是有原因的,甚至都是有目的的,但實(shí)際上真實(shí)世界充滿了不可控的偶然。
如果一個(gè)人考上了好大學(xué),人們會(huì)說這是他努力學(xué)習(xí)的結(jié)果;如果一個(gè)人事業(yè)成功,人們會(huì)說這是他努力工作的結(jié)果。可是如果一個(gè)人中了彩票大獎(jiǎng),這又是為什么呢?答案就是沒有任何原因,這完全是一個(gè)隨機(jī)事件。
如果一個(gè)人總買彩票,他中獎(jiǎng)的概率可能會(huì)比別人大。但是當(dāng)他跟數(shù)千萬人一起面對這特定的一次開獎(jiǎng)的時(shí)候,他不具有任何優(yōu)勢。中獎(jiǎng),既不是他自己有什么努力,也不是“上天”對他有所“垂青”。這是“隨機(jī)”發(fā)生的,你沒有任何辦法左右結(jié)果。
大多數(shù)事情并不是完全的隨機(jī)事件,卻都有一定的隨機(jī)因素。偶然和必然如果結(jié)合在一起,就沒那么容易理解了。
體育比賽是最典型的例子。球隊(duì)贏了球,人人有功;球隊(duì)輸了球,人人有責(zé),里里外外都要進(jìn)行反思。但比賽其實(shí)是充滿偶然的事件,你所能做的只是盡可能地爭取勝利。哪怕你準(zhǔn)備得再好,總有一些因素是不確定的,也就是我們通常說的運(yùn)氣。
理解隨機(jī)性,我們就知道有些事情發(fā)生就發(fā)生了,沒有什么可供解讀的意義。比如現(xiàn)代民航客機(jī)已經(jīng)做得非常安全了,但再完美的交通工具也不可能百分百安全。那你會(huì)因?yàn)檫@極小的事故概率而不坐飛機(jī)嗎?我們只要確定事故概率比其他旅行方式更低就可以了。
一般管理者有個(gè)常見的思維模式,一旦出了事就必須全體反思,制定相關(guān)政策以避免類似事故再次發(fā)生。但極小概率的事故其實(shí)是不值得過度反應(yīng)的,哪怕是因?yàn)閱T工犯了錯(cuò)而引起的也沒必要如此。37signals公司的兩位創(chuàng)始人強(qiáng)調(diào),不要一看到有人犯錯(cuò)就大張旗鼓地制定政策來糾正錯(cuò)誤。那樣只會(huì)把錯(cuò)誤變成永久的傷疤,而且讓公司越來越官僚主義。正確的辦法是告訴犯錯(cuò)的員工這是一個(gè)錯(cuò)誤,然后就完了。
誤差:測量結(jié)果并不是真實(shí)答案
既然絕大多數(shù)事情都同時(shí)包含偶然因素和必然因素,我們自然就想排除偶然去發(fā)現(xiàn)背后的必然。偶然的失敗和成就不值得大驚小怪,我根據(jù)必然因素去做判斷,這總可以吧?
可以,但是你必須理解誤差。歷史上最早的科學(xué)家曾經(jīng)不承認(rèn)實(shí)驗(yàn)可以有誤差,認(rèn)為所有測量都必須是精確的,把任何誤差都?xì)w結(jié)于錯(cuò)誤。后來人們才慢慢意識(shí)到偶然因素永遠(yuǎn)存在,實(shí)驗(yàn)條件再精確也無法完全避免隨機(jī)干擾的影響。所以做科學(xué)實(shí)驗(yàn)往往要測量多次,用取平均值之類的統(tǒng)計(jì)手段來得出結(jié)果。
國際足聯(lián)的世界排名就是根據(jù)各國球隊(duì)多次比賽的成績,然后采用加權(quán)平均的辦法統(tǒng)計(jì)出來的。所以這個(gè)排名就比一兩次比賽的勝負(fù),甚至世界杯賽事的名次更能說明球隊(duì)的實(shí)力。但即便如此,我們也不能說國際足聯(lián)排名就是各個(gè)球隊(duì)的“真實(shí)實(shí)力”。因?yàn)楦麝?duì)畢竟只進(jìn)行了有限的多次比賽,再好的統(tǒng)計(jì)手段,也不可能把所有的偶然因素全部排除。
科學(xué)實(shí)驗(yàn)亦是如此??茖W(xué)家哪怕是測量一個(gè)定義明確的物理參數(shù),也不可能給出最后的“真實(shí)答案”——他們總是會(huì)在測量結(jié)果上加一個(gè)誤差范圍。真實(shí)的答案當(dāng)然只有一個(gè),它可以是這個(gè)誤差范圍內(nèi)的任何一個(gè)數(shù)字,甚至可以是誤差范圍外的一個(gè)數(shù)字。
所以“真實(shí)值”非常不易得,而且科學(xué)實(shí)驗(yàn)是非常理想化的事件。世界上大多數(shù)事情根本沒機(jī)會(huì)進(jìn)行多次測量。如果只能測一次,那我們該怎么解讀這一次測量的結(jié)果呢?根據(jù)以往的經(jīng)驗(yàn),我們可以估計(jì)一個(gè)大致的誤差范圍。
有了誤差的概念,我就要學(xué)會(huì)忽略誤差范圍內(nèi)的任何波動(dòng)。2014年1月,國家統(tǒng)計(jì)局公布了2013年全國居民收入基尼系數(shù)為0.473,新聞報(bào)道說,該數(shù)據(jù)雖較2012年0.474的水平略有回落,但仍顯示居民收入差距較大。這個(gè)“回落”有多大?0.001。從統(tǒng)計(jì)角度來說,這其實(shí)沒什么意義??赡苣愕臏y量誤差就大大超過0.001。
考試成績也是如此,假設(shè)一個(gè)同學(xué)一門學(xué)科考了兩次才過,第一次57分,第二次63分。他說這是略有進(jìn)步,事實(shí)上這不叫進(jìn)步,叫在測量誤差范圍之內(nèi) 。
賭徒謬誤:多次出現(xiàn)的號(hào)碼不會(huì)再出現(xiàn)
假設(shè)你一個(gè)人在賭場賭錢,比如玩老虎機(jī)。你一上來運(yùn)氣就不太好,一連輸了很多把。這時(shí)候你是否會(huì)有一種強(qiáng)烈的感覺,你很快就該贏了呢?
其實(shí)這是一種錯(cuò)覺。賭博開獎(jiǎng)是完全獨(dú)立的隨機(jī)事件,這意味著下一把的結(jié)果跟以前所有的結(jié)果沒有任何聯(lián)系,已經(jīng)發(fā)生了的事情不會(huì)影響未來。舉一個(gè)簡單的例子,假設(shè)瓶子里裝著六個(gè)球,我們把它們分別編為1~6號(hào),每次抽取一個(gè)作為中獎(jiǎng)號(hào)碼。每次抽獎(jiǎng)的時(shí)候,這六個(gè)球被你抽到的機(jī)會(huì)是相等的,都是1/6?,F(xiàn)在假設(shè)前面幾期抽中6號(hào)的次數(shù)比2號(hào)多,那么這一次抽獎(jiǎng)的時(shí)候,你是否就認(rèn)為2號(hào)被抽到的機(jī)會(huì)更大呢?不會(huì)。這些球根本不記得誰曾經(jīng)被抽到過,2號(hào)球也不會(huì)主動(dòng)跑過來讓你抽。它們被抽到的概率仍然都是1/6。
概率論中有一個(gè)“大數(shù)定律”說,如果進(jìn)行足夠多次的抽獎(jiǎng),那么各種不同結(jié)果出現(xiàn)的頻率就會(huì)等于它們的概率——對上面這個(gè)例子來說就是,如果你抽取足夠多次,你得到2號(hào)的結(jié)果數(shù)應(yīng)該和得到6號(hào)的結(jié)果數(shù)大致相等。
但人們常常錯(cuò)誤理解隨機(jī)性和大數(shù)定律,以為隨機(jī)就是均勻。如果過去一段時(shí)間內(nèi)發(fā)生的事情不那么均勻,人們就錯(cuò)誤地以為未來的事情會(huì)盡量往“抹平”的方向走。但大數(shù)定律的工作機(jī)制不是跟過去平衡,而是說如果未來你再進(jìn)行多次抽獎(jiǎng),你會(huì)得到非常多的“2”和“6”,以至于它們此前的一點(diǎn)點(diǎn)差異變得微不足道。
曾經(jīng)有自以為懂概率的人指出,“如果2號(hào)已經(jīng)連續(xù)出現(xiàn)了3期,而6號(hào)也已經(jīng)連續(xù)出現(xiàn)了5期,則下一次中2號(hào)的概率明顯大于6號(hào)”。這其實(shí)是完全錯(cuò)誤的,這就是著名的“賭徒謬誤”,全世界的賭場里每天都有人在不停地犯這個(gè)錯(cuò)誤。
在沒有規(guī)律的地方發(fā)現(xiàn)規(guī)律
理解了隨機(jī)性和獨(dú)立隨機(jī)事件,我們自然就可以得到一個(gè)結(jié)論,那就是獨(dú)立隨機(jī)事件的發(fā)生是沒有規(guī)律和不可預(yù)測的。
“彩票分析學(xué)”是深受彩民喜愛的一門顯學(xué)。這門學(xué)問完全合法地出現(xiàn)在各種報(bào)刊媒體上,認(rèn)為彩票的中獎(jiǎng)號(hào)碼跟股票一樣,存在“走勢”。它使用“雙色歷史號(hào)碼”、“余數(shù)走勢”、“五行碼”等五花八門的數(shù)字曲線,以及“奇偶分析”、“跨度分析”、“大中小分析”等方法,幫助彩民預(yù)測下一期中獎(jiǎng)號(hào)碼。
這些分析跟賭徒謬誤不同。賭徒謬誤是認(rèn)為前面多次出現(xiàn)的號(hào)碼不會(huì)繼續(xù)出現(xiàn),而彩票分析學(xué)是認(rèn)為中獎(jiǎng)號(hào)碼存在“走勢”,也就是多次出現(xiàn)的組合可能會(huì)繼續(xù)出現(xiàn),或者按照這個(gè)趨勢可以預(yù)測出下一個(gè)號(hào)碼。
但是我們知道中獎(jiǎng)號(hào)碼是純粹的隨機(jī)現(xiàn)象,根本沒有規(guī)律。然而明明沒規(guī)律,這些彩票分析師到底是怎么看出規(guī)律的呢?
我上小學(xué)的時(shí)候,有一次數(shù)學(xué)課上講到“素?cái)?shù)”這個(gè)概念。老師列舉素?cái)?shù)時(shí),班上一個(gè)同學(xué)突然非常興奮地舉手說:“我發(fā)現(xiàn)一個(gè)規(guī)律?!彼f,“你看素?cái)?shù)3、5、7、13、17、19……它們的結(jié)尾都是這幾個(gè)數(shù)字?!彼l(fā)現(xiàn)的這個(gè)“規(guī)律”其實(shí)是“除了2以外的素?cái)?shù)都是奇數(shù)”。這的確是一個(gè)“性質(zhì)”,但并不是真正的“規(guī)律”,因?yàn)槟銦o法用它去預(yù)測下一個(gè)素?cái)?shù),比如9和15都是奇數(shù),又符合這個(gè)“規(guī)律”,卻都不是素?cái)?shù)。
人腦很擅長理解規(guī)律,但是很不擅長理解隨機(jī)性。發(fā)現(xiàn)規(guī)律任何時(shí)候都可以幫助我們更好地生存下去,而理解隨機(jī)性卻是只在現(xiàn)代社會(huì)才有意義的一個(gè)技能。
如果數(shù)據(jù)足夠多,我們可以找到任何想要的規(guī)律,比如說圣經(jīng)密碼。有人拿圣經(jīng)做字符串游戲,在特定的位置中尋找能對應(yīng)世界大事的字母組合,并聲稱這是圣經(jīng)對后世的預(yù)言。問題是,這些“預(yù)言”可以完美地解釋已經(jīng)發(fā)生的事情,等到預(yù)測尚未發(fā)生的事情時(shí)就沒有那么好的成績了。
彩票無規(guī)律,圣經(jīng)密碼是無稽之談,那么地震發(fā)生的年份有規(guī)律嗎?
地震不是彩票,并不是完全的隨機(jī)事件。有些地區(qū)地震會(huì)比較頻繁,我們大概可以知道平均每隔多少年就會(huì)發(fā)生一次。但是這樣的“規(guī)律”是非常模糊的,就算是地震高發(fā)區(qū)也有可能連續(xù)好幾年都不地震,不常地震的地區(qū)也可能一年發(fā)生好幾次地震。
可是有一門學(xué)問卻認(rèn)為地震和各種自然災(zāi)害會(huì)嚴(yán)格按照某種數(shù)學(xué)規(guī)律發(fā)生,甚至還用研究數(shù)學(xué)——確切地說是用做數(shù)字游戲的辦法去預(yù)測地震。這個(gè)方法叫做“可公度性理論”。其實(shí)這個(gè)理論跟地震沒有任何關(guān)系,只是簡單地把一些年份數(shù)字進(jìn)行加減組合。
事實(shí)上,就算我們相信冥冥之中有一種神秘機(jī)制在左右地震,這個(gè)機(jī)制可以純粹由數(shù)學(xué)決定而跟地質(zhì)學(xué)無關(guān),“可公度性理論”也是站不住腳的。這個(gè)理論根本就沒有一個(gè)自洽的操作規(guī)則,對一次具體的預(yù)測到底應(yīng)該采用什么數(shù)字組合,非常隨意。
小數(shù)定律:小樣本中的結(jié)果
我們知道,在數(shù)據(jù)足夠多的情況下人們可以找到任何想要的規(guī)律,只要你不在乎這些規(guī)律的嚴(yán)格性和自洽性。那么在數(shù)據(jù)足夠少的情況下又會(huì)如何呢?
人們抱著游戲或者認(rèn)真的態(tài)度總結(jié)了關(guān)于世界杯足球賽的各種“定律”。比如“巴西隊(duì)的禮物”——只要巴西奪冠,下一屆的冠軍就將是主辦大賽的東道主,除非巴西隊(duì)自己將禮物收回,這一定律在2006年被破解。另一個(gè)著名定律“1982軸心定律”——世界杯奪冠球隊(duì)以1982年世界杯為中心呈對稱分布,這個(gè)定律也在2006年被破解?!巴踔污ざ伞薄灰踔污⒓蛹竞筚?,八一隊(duì)就必然獲得總冠軍,這也已被破解。還有一些沒有被破解的定律,比如“凡是獲得了聯(lián)合會(huì)杯或者美洲杯,就別想在下一屆世界杯奪冠”,以及“0∶2落后無人翻盤定律”。
如果你仔細(xì)研究這些定律,你就會(huì)發(fā)現(xiàn)不容易破解的定律其實(shí)都有一定的道理,王治郅和八一隊(duì)都很強(qiáng),0∶2落后的確很難翻盤,而獲得世界杯冠軍是件非常不容易的事情,更別說同時(shí)獲得聯(lián)合會(huì)杯、美洲杯和世界杯。但不容易發(fā)生不等于不會(huì)發(fā)生,它們終究將被破解。那些看似沒有道理的神奇定律,則大多已經(jīng)被破解了,之所以“神奇”,是因?yàn)榧儗偾珊?。世界杯總共才進(jìn)行了二十多屆。只要數(shù)據(jù)足夠少,我們總能發(fā)現(xiàn)一些沒有被破解的“規(guī)律”。
如果數(shù)據(jù)少,隨機(jī)現(xiàn)象可以看上去“很不隨機(jī)”,甚至非常整齊,感覺就好像真的有規(guī)律一樣。
1940年倫敦大轟炸,當(dāng)時(shí)倫敦在德軍V2導(dǎo)彈的攻擊下?lián)p失慘重,報(bào)紙公布出標(biāo)記了所有受到轟炸地點(diǎn)的倫敦地圖之后,人們發(fā)現(xiàn)轟炸點(diǎn)的分布很不均勻。有些地區(qū)反復(fù)受到轟炸,而有些地區(qū)卻毫發(fā)無損。
難道德軍在轟炸倫敦時(shí)故意放過了某些地區(qū)嗎?
對英國軍方來說,這是一件非??植赖氖虑椋?yàn)檫@意味著V2導(dǎo)彈的精度比預(yù)想的要高得多,以至于德軍可以精確選擇轟炸目標(biāo)。然而事后證明V2是一個(gè)精確度相當(dāng)差的實(shí)驗(yàn)性武器,德軍只能大概把它打向倫敦,而根本無法精確控制落點(diǎn)。也就是說倫敦各地區(qū)受到的轟炸完全是隨機(jī)的。一直到1946年,有人從數(shù)學(xué)角度分析了轟炸數(shù)據(jù),把整個(gè)可能受到轟炸的地區(qū)分為576個(gè)小塊,發(fā)現(xiàn)其中229塊沒有受到任何轟炸,而有8個(gè)小塊受到了4 次以上的轟炸。這些數(shù)據(jù)雖然不均勻,但完全符合隨機(jī)分布。實(shí)際上科學(xué)家可以用計(jì)算機(jī)模擬的辦法得到更多“看上去很不隨機(jī)”的隨機(jī)結(jié)果。
然而問題的關(guān)鍵是,隨機(jī)分布不等于均勻分布。人們往往認(rèn)為如果是隨機(jī)的,那就應(yīng)該是均勻的,殊不知這一點(diǎn)僅在樣本總數(shù)非常大的時(shí)候才有效。如果統(tǒng)計(jì)數(shù)字很少,其中就很容易出現(xiàn)特別不均勻的情況。這個(gè)現(xiàn)象被諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主丹尼爾·卡尼曼戲稱為“小數(shù)定律”。
大數(shù)定律是我們從統(tǒng)計(jì)數(shù)字中推測真相的理論基礎(chǔ),是說如果統(tǒng)計(jì)樣本足夠大,那么事物出現(xiàn)的頻率就能無限接近它的理論概率,也就是它的“本性”。所以如果抽樣調(diào)查發(fā)現(xiàn)一個(gè)地區(qū)某種疾病的發(fā)病率較高,我們就可以大致認(rèn)為這個(gè)地區(qū)的這種疾病發(fā)病率真的很高。
而小數(shù)定律說如果樣本不夠大,那么它就會(huì)表現(xiàn)為各種極端情況,而這些情況可能與本性一點(diǎn)關(guān)系都沒有。