吳青
美國加州南部的橙縣博覽會(huì)上,即將開始“群體智慧”預(yù)測(cè)游戲。此舉旨在驗(yàn)證1906年舉行的一項(xiàng)競(jìng)賽一猜猜一頭牛的體重。當(dāng)時(shí)無人猜對(duì)這頭牛的精確體重,但大家所猜數(shù)字的平均值與精確數(shù)字只相差不到1%。這被稱為“群體智慧”。但這只是—個(gè)巧合,還是一個(gè)普遍現(xiàn)象?
這次博覽會(huì)的預(yù)測(cè)內(nèi)容是:罐子里有多少顆糖豆?135人提交了猜測(cè)數(shù),其中最小數(shù)是183,最大數(shù)是12000,平均數(shù)是1522,實(shí)際數(shù)是1676。也就是說,預(yù)測(cè)平均數(shù)與實(shí)際數(shù)相差不到10%。從統(tǒng)計(jì)學(xué)意義上說,數(shù)字預(yù)測(cè)中的群體智慧的確存在。
運(yùn)用統(tǒng)計(jì)學(xué)進(jìn)行預(yù)測(cè)是近數(shù)百年的事。古羅馬人利用鳥的飛行和叫聲來做預(yù)測(cè)。中國殷周時(shí)代的古人通過燒龜殼,由出現(xiàn)的裂紋多少和裂紋走向來預(yù)測(cè)將發(fā)生的事。從幾百年前開始,人類轉(zhuǎn)向運(yùn)用科學(xué)來做預(yù)測(cè),取得了了不起的成績(jī),從海王星、無線電波或黑洞的存在到彗星將來的位置都測(cè)得很準(zhǔn)。而讓這些預(yù)測(cè)取得驚人成功的關(guān)鍵就是統(tǒng)計(jì)學(xué)的運(yùn)用。
統(tǒng)計(jì)學(xué)是一門獨(dú)特的學(xué)科。它不是一門經(jīng)驗(yàn)科學(xué),不是純數(shù)學(xué),也不是哲學(xué),而是做科學(xué)研究所依據(jù)的語言、架構(gòu)和規(guī)則。也就是說,做決策、下結(jié)論和做預(yù)測(cè)都始于統(tǒng)計(jì)學(xué)。而歸根結(jié)底,統(tǒng)計(jì)學(xué)的預(yù)測(cè)能力依賴的是大約500年前的一種創(chuàng)新性見解——隨機(jī)性本身可被概率學(xué)(一門數(shù)學(xué)學(xué)科)馴服。
美國博弈之城拉斯維加斯可謂建立在概率論的基礎(chǔ)上。事實(shí)上,幾百年來數(shù)學(xué)和博弈一直被捆綁在一起。擲骰子的隨機(jī)性根本沒有你想象的那么強(qiáng),博弈也不是什么新鮮事。古希臘人和古埃及人很早就把羊踝骨作為一種原始骰子來用。令人驚訝的是,雖然古希臘人是數(shù)學(xué)的奠基人之一,他們卻根本沒想到要研究概率博弈。
16世紀(jì),意大利數(shù)學(xué)家卡爾達(dá)諾提出:博弈游戲重復(fù)次數(shù)越多,數(shù)學(xué)概率對(duì)博弈結(jié)果的預(yù)測(cè)越準(zhǔn)。后來這被稱為“大數(shù)定律”。大數(shù)定律的例子在日常生活中比比皆是,比如:定義硬幣的正反面,并且向空中拋硬幣;如果只拋幾次,那么硬幣掉下來后正面或反面朝上的次數(shù)明顯更多;但如果拋100次以上,那么正面或反面朝上的次數(shù)很可能差不多各占一半。雖然無法預(yù)測(cè)單次拋硬幣的結(jié)果,但可以預(yù)測(cè)集合行為(拋硬幣100次以上)的結(jié)果,這就是大數(shù)定律在起作用。
事實(shí)上,很多游戲廳就利用了大數(shù)定律。游戲的設(shè)計(jì)目的是讓游戲廳比游戲者多一點(diǎn)點(diǎn)優(yōu)勢(shì)。以美國輪盤游戲?yàn)槔狠啽P上有數(shù)字1~36,其中一半為紅色數(shù),另一半為黑色數(shù)。向其中一種顏色投注一角錢,贏的概率似乎是50%。但輪盤上還有兩個(gè)綠色小孔,如果球落入它們則無論投注紅色還是黑色都輸。正是這種優(yōu)勢(shì)讓游戲廳從長(zhǎng)期來看不會(huì)賠錢。
大數(shù)定律當(dāng)然不只在博弈領(lǐng)域起作用。在籃球賽中,投籃命中率是指命中數(shù)占投籃次數(shù)的比例。但在賽季之初基于較小的數(shù)字進(jìn)行預(yù)測(cè),會(huì)有誤導(dǎo)性。例如,一些不算優(yōu)秀的球員在賽季之初可能有較高的命中率,但這中間存在幸運(yùn)因素,并不表明他們會(huì)一直有高命中率。而一些優(yōu)秀球員可能在賽季之初表現(xiàn)差強(qiáng)人意,但這并不表明他們會(huì)一直表現(xiàn)不佳。也就是說,小樣本可能造成誤導(dǎo),而根據(jù)大樣本做預(yù)測(cè)的準(zhǔn)確度更高。
概率論為預(yù)測(cè)未來打開了一扇新門。概率論的出現(xiàn)是源于法國數(shù)學(xué)家帕斯卡和費(fèi)馬在17世紀(jì)50年代的一系列書信交流,交流內(nèi)容是關(guān)于此前已存在了幾百年的一個(gè)博弈問題。其簡(jiǎn)化形式為:B和P拋硬幣;B選正面,P選反面;五局兩勝;雙方投注金放入獎(jiǎng)池。拋硬幣3次后,B以2比1領(lǐng)先。游戲至此中斷,而問題是:怎樣分配獎(jiǎng)金才公平?所謂公平,是指如果游戲能繼續(xù)進(jìn)行到結(jié)束,那么如何劃分獎(jiǎng)金?
費(fèi)馬提出要想象游戲繼續(xù)下去的可能結(jié)果。為此還要拋兩次硬幣,從而有4種可能的結(jié)果:正面,正面;正面,反面;反面,正面;反面,反面。如果出現(xiàn)前3種情況,B贏。只有出現(xiàn)第4種情況,P才贏。因此費(fèi)馬提出B和P的獎(jiǎng)金分配比例為3:1最合理。費(fèi)馬的突破陛見解就是從數(shù)學(xué)上對(duì)未來進(jìn)行想象。帕斯卡剛開始不接受這個(gè)觀點(diǎn),但最終表示認(rèn)可。
至此,人們意識(shí)到未來并非空白。雖然你不可能確知未來情況,但可能以高精確度計(jì)算事情的可能性。這一重要見解為通往現(xiàn)代世界打開了一扇門。
從股市到保險(xiǎn)再到零售商網(wǎng)絡(luò),我們對(duì)未來的所有預(yù)測(cè)都基于一種理念:有了合適的數(shù)據(jù),未來事件的發(fā)生概率就能被計(jì)算。事實(shí)上.預(yù)測(cè)學(xué)的最大成功之一是天氣預(yù)報(bào)。
2017年的美國颶風(fēng)季非常猛烈,風(fēng)暴頻發(fā),強(qiáng)度以驚人速度遞增,這讓預(yù)報(bào)員強(qiáng)調(diào)風(fēng)暴登陸地點(diǎn)的不確定性。事實(shí)上,在天氣預(yù)報(bào)中,唯一能確定的就是不確定性??茖W(xué)家依賴全球性地面觀測(cè)和計(jì)算機(jī)運(yùn)行方程來做天氣預(yù)報(bào),這一方法的本質(zhì)意味著預(yù)測(cè)的不完美。為盡可能地消除這種不完美,需要更大量數(shù)據(jù)。在美國國家氣象局巴爾的摩一華盛頓辦公署,每天兩次發(fā)送氣象氣球飛越全美。同一時(shí)間,全球各地發(fā)送氣象氣球.它們搭載儀器升人大氣層,每上升大約10米就傳輸讀數(shù)。雖然有其他方法來了解大氣層的垂直情況,但氣象氣球的精度要高得多,這就是科學(xué)家仍然要依靠氣象氣球的原因。
來自巴爾的摩一華盛頓辦公署氣象氣球的數(shù)據(jù),最終被傳到位于美國馬里蘭州大學(xué)帕克分校的美國國家環(huán)境預(yù)測(cè)中心,這里是美國幾乎所有天氣預(yù)報(bào)的起始點(diǎn)。巴爾的摩一華盛頓辦公署氣象氣球數(shù)據(jù)只不過是這里每天數(shù)據(jù)流中的滄海一粟。美國國家氣象局每天從數(shù)萬個(gè)點(diǎn)觀測(cè)所獲大氣層溫度、壓力、風(fēng)速和風(fēng)向等數(shù)據(jù)出發(fā)進(jìn)行模擬。這樣的氣象預(yù)測(cè)是20世紀(jì)數(shù)字預(yù)測(cè)的最大成就之一。
數(shù)字氣象預(yù)報(bào)的第一步,是把從地面到64千米高度的一部分大氣分割成三維格子,這些格子覆蓋全球。第二步,基于持續(xù)不斷涌入國家氣象局的數(shù)十億次測(cè)量數(shù)據(jù),每個(gè)格點(diǎn)被賦予天氣不同方面(溫度、壓力、風(fēng)速和風(fēng)向等)的數(shù)值。接著,流體物理和熱力學(xué)方程式被應(yīng)用到每個(gè)格子。在分析過程中不僅每個(gè)格子的數(shù)值會(huì)變,而且這些改變會(huì)影響相鄰格子的數(shù)值,而相鄰格子又會(huì)影響其他格子。因此,大氣情況隨著時(shí)間在這個(gè)三維空間里持續(xù)演化。
這一方法獲得了驚人的成功??紤]到這種預(yù)報(bào)方法需要對(duì)初始狀態(tài)做出多種假設(shè),因而具有很大的不確定性,這種成功就更了不起。事實(shí)上,初始狀態(tài)相當(dāng)重要。在數(shù)字氣象預(yù)報(bào)初期,看來對(duì)未來很長(zhǎng)時(shí)間的天氣預(yù)報(bào)都會(huì)很準(zhǔn)確,但20世紀(jì)60年代的研究發(fā)現(xiàn):初始狀態(tài)測(cè)量的輕微偏差會(huì)隨時(shí)間放大,導(dǎo)致預(yù)測(cè)精度越來越低。
具有諷刺意味的是,這種對(duì)初始狀況的敏感度表明了一種提高數(shù)字天氣預(yù)測(cè)準(zhǔn)確度的途徑。由于今天的計(jì)算機(jī)性能大大加強(qiáng),因此科學(xué)家可進(jìn)行多次而非一次天氣模擬。在其中每一次模擬,他們微調(diào)初始狀況以反映測(cè)量中的固有差錯(cuò)和預(yù)測(cè)模型本身的不確定性。這一過程被稱為集成預(yù)報(bào)。
最終,氣象學(xué)家借助統(tǒng)計(jì)學(xué)工具來分析天氣預(yù)報(bào),并經(jīng)常使用概率來表述預(yù)報(bào)的不確定性,例如電視臺(tái)氣象預(yù)報(bào)員這樣說:“降雨概率為40%?!爆F(xiàn)在的3天天氣預(yù)報(bào)精確度已經(jīng)和10年前的1天預(yù)報(bào)精確度一樣,而且精確度還會(huì)提高。
和氣象學(xué)的情況一樣,我們對(duì)所有科學(xué)理解的終極測(cè)試就是我們做出精準(zhǔn)預(yù)測(cè)的能力。在更大規(guī)模上,像愛因斯坦廣義相對(duì)論這樣的科學(xué)理論必須做出能被證實(shí)的預(yù)測(cè),才能變得可接受。在此情況下,廣義相對(duì)論在從被提出到長(zhǎng)達(dá)4年后才被接受。當(dāng)時(shí),一次日全食顯示經(jīng)過太陽附近的光線正如廣義相對(duì)論預(yù)測(cè)的那樣被彎曲,這是證明愛因斯坦有關(guān)太陽質(zhì)量會(huì)扭曲時(shí)一空結(jié)構(gòu)(即我們體會(huì)到的引力)的說法正確的第一個(gè)證據(jù)。
事實(shí)上,科學(xué)方法需要假設(shè),這就意味著經(jīng)過仔細(xì)設(shè)計(jì)的實(shí)驗(yàn)產(chǎn)生預(yù)測(cè)結(jié)果,而實(shí)驗(yàn)本身要測(cè)試預(yù)測(cè)說法。驚人的是,直到20世紀(jì)二三十年代,英國科學(xué)家費(fèi)雪才提出了運(yùn)用統(tǒng)計(jì)學(xué)和概率來判斷結(jié)果的實(shí)驗(yàn)設(shè)計(jì)原則。作為例子,他講了一個(gè)故事說,一位女士稱自己能嘗出把牛奶倒進(jìn)茶水里和把茶水倒進(jìn)牛奶里的味道區(qū)別。費(fèi)雪思考用什么方法能測(cè)試她的說法。那么,只給她一杯奶茶行不行?如果這樣,她說對(duì)的概率為50%,當(dāng)然不能因此確信她真有分辨這兩者的技巧。費(fèi)雪提出了一項(xiàng)合理測(cè)試:按照隨機(jī)順序,給她4杯倒入牛奶的茶和4杯倒入茶的牛奶,看她能不能把它們完全正確地分成兩組。
為什么是8杯?因?yàn)檫@會(huì)有70種不同的分組方法,但其中只有1種正確。就算該女士分組正確,也不能“證明”她有特殊能力,但費(fèi)雪可以如此下結(jié)論:因?yàn)槿绻耆坎拢敲此聦?duì)隨機(jī)事件的概率P僅為1.4%(1/70);而當(dāng)她真的分組正確,就是做了一件如果完全靠猜那么很不可能猜對(duì)的事,因此她很可能不是簡(jiǎn)單靠猜,而是真的有能力做對(duì)。
主要?dú)w功于費(fèi)雪,尸值這個(gè)概念在實(shí)驗(yàn)科學(xué)中逐漸得到廣泛應(yīng)用。如果你假設(shè)一個(gè)過程完全隨機(jī)(P值很低),很不可能得到你所得到的數(shù)據(jù),那么你可能會(huì)猜測(cè)這個(gè)過程并非隨機(jī)。因此,你會(huì)探究是什么非隨機(jī)因素在起作用。費(fèi)雪提出了一個(gè)標(biāo)準(zhǔn):只有P值小于5%的實(shí)驗(yàn)結(jié)果才值得調(diào)查。換句話說,如果假定實(shí)驗(yàn)結(jié)果完全是隨機(jī)的,那么實(shí)驗(yàn)20次也不見得能見到一次這樣的結(jié)果。費(fèi)雪稱P值低于5%的結(jié)果“在統(tǒng)計(jì)上顯著”。換句話說,從統(tǒng)計(jì)學(xué)意義上講,這些結(jié)果并非隨機(jī)的概率高于95%。
不難理解,P值越低越好。自從費(fèi)雪時(shí)代以來,P值被包括科學(xué)期刊編審在內(nèi)的許多人用作衡量成功的一把便利標(biāo)尺。為了發(fā)布自己的成功,在職業(yè)提升中獲得籌碼,一些人肆意編撰、篡改實(shí)驗(yàn)數(shù)據(jù)以得到低P值。需要指出的是,P值是一種探查手段,而不是裁判。如果你發(fā)現(xiàn)自己的實(shí)驗(yàn)結(jié)果在統(tǒng)計(jì)上顯著,就意味著那是一個(gè)可以繼續(xù)研究的興趣點(diǎn),而不是說已有定論,無需再研究。
對(duì)P值造假和過度強(qiáng)調(diào)P值的一個(gè)解決辦法.是更大的透明度。越來越多的人在發(fā)表科研成果時(shí)也更詳盡發(fā)布數(shù)據(jù),這樣就越來越難以在統(tǒng)計(jì)上造假,因?yàn)橥袝?huì)說:“把你的數(shù)據(jù)亮出來.讓我看看你是怎么得到結(jié)論的?!?p>