劉泓君
亞裔人會(huì)成為下任美國總統(tǒng)嗎?美國國債會(huì)變得一錢不值嗎?去問問大衛(wèi)·羅斯柴爾德(David Rothschild)吧!
這位微軟紐約研究院研究員在第85屆奧斯卡金像獎(jiǎng)?lì)C獎(jiǎng)之前,通過數(shù)學(xué)建模準(zhǔn)確預(yù)測了本屆24項(xiàng)奧斯卡獎(jiǎng)中的19項(xiàng),在其余5項(xiàng)大獎(jiǎng)的預(yù)測中,其預(yù)測結(jié)果亦與最終獲獎(jiǎng)結(jié)果趨同。
“這是科學(xué)的證明。”在奧斯卡頒獎(jiǎng)結(jié)果揭曉的當(dāng)天晚上,羅斯柴爾德在Twitter上如是說?!拔覀兛衫脢蕵?、體育及政治話題建立各種各樣的預(yù)測模型,以回答更難的問題,并進(jìn)一步推廣到商業(yè)及經(jīng)濟(jì)領(lǐng)域?!绷_斯柴爾德對《環(huán)球企業(yè)家》說。
如此令人瞠目的預(yù)測并非孤例。2012年的美國大選,羅斯柴爾德就成功預(yù)測奧巴馬的當(dāng)選。更令人匪夷所思的是,他居然用1.27億張選票建構(gòu)了一個(gè)變化莫測的總統(tǒng)大選模型,其在51個(gè)選區(qū)中成功預(yù)測50個(gè)選區(qū)的選舉結(jié)果,最終準(zhǔn)確率高達(dá)98%?!拔铱偸菍?shù)據(jù)很感興趣。我一直以來都積極的參與到政治活動(dòng)中?!绷_斯柴爾德對《環(huán)球企業(yè)家》說。
事實(shí)上,羅斯柴爾德的數(shù)據(jù)預(yù)測博客(Predict Wise)已涉及政治、體育、娛樂、經(jīng)濟(jì)等方面的十余種預(yù)測。相比于其他一成不變固定結(jié)果的預(yù)測,該預(yù)測更偏向于根據(jù)事件變化而顯示實(shí)時(shí)結(jié)果的可能性—這是其顛覆傳統(tǒng)預(yù)測模型的秘密所在。羅斯柴爾德會(huì)告訴你,現(xiàn)在邁阿密熱火隊(duì)獲得2013年NBA聯(lián)賽總冠軍的可能性最高,為43.2%。
還想期待什么榜單提前出爐?趕緊把羅斯柴爾德的博客添加在收藏夾里吧!
顛覆者
羅斯柴爾德的預(yù)測工作始于2008年的美國總統(tǒng)大選。當(dāng)時(shí),他找到了一種簡單聚合的方法,并自稱此法可以勝過現(xiàn)在所有的預(yù)測模型。
從美國大選入手源于其對政治的興趣。羅斯柴爾德至今依然清楚地記得,2004年美國總統(tǒng)大選時(shí),其身邊的朋友會(huì)對大選結(jié)果進(jìn)行各種猜測和八卦,各種預(yù)測數(shù)據(jù)會(huì)被廣泛傳播。很多人會(huì)拿著這些完全沒有依據(jù)的數(shù)據(jù)隨意提問,甚至還利用眾包網(wǎng)站尋找答案。為了參與其中,羅斯柴爾德從2006年開始每天關(guān)注此類信息并從事研究,工具之一即是微軟Xbox游戲平臺(tái)。
羅斯柴爾德起初并未想過可借助該平臺(tái)建立自己的民意調(diào)查問卷庫,甚至還能收到數(shù)百萬的反饋結(jié)果。鮮為人知的是,羅斯柴爾德在讀研究生期間,曾苦苦央求一家著名的調(diào)研公司,在其問卷調(diào)查中補(bǔ)充兩個(gè)由其提出的問題。雖然,他最后只拿到了1000份答卷,但這一收獲已令羅斯柴爾德興奮良久。
在美國,預(yù)測總統(tǒng)大選的數(shù)據(jù)機(jī)構(gòu)和個(gè)人不勝枚舉,甚至由此還誕生了一批有影響力的數(shù)學(xué)家,抽樣調(diào)查方法的創(chuàng)始人、著名民意調(diào)查者喬治·蓋洛普(Gallup GeorgeHorace)即是其中的佼佼者。在羅斯柴爾德看來,自從蓋洛普通過在代表性人群中隨機(jī)抽樣來創(chuàng)建高效的數(shù)據(jù)預(yù)測起,收集民意調(diào)查數(shù)據(jù)的方法在過去的75年內(nèi)幾乎沒有什么改變。
羅斯柴爾德顯然是舊傳統(tǒng)的顛覆者。其所建立的數(shù)據(jù)模型在Xbox的幫助下可以打破傳統(tǒng)的研究方法,建立更加經(jīng)濟(jì)有效的數(shù)據(jù)模型。他為這種全新的預(yù)測模型建立了四個(gè)衡量指標(biāo),即相關(guān)性、實(shí)時(shí)性、準(zhǔn)確性、成本效率。
難點(diǎn)之一便是相關(guān)性。例如在選舉中,人們更喜歡討論在全國范圍內(nèi)預(yù)計(jì)為奧巴馬投票的人數(shù)比例,但事實(shí)上這并非大家最關(guān)心的問題,人們希望判斷誰最可能會(huì)贏,而僅憑人數(shù)比例多寡往往難以斷定輸贏。因此,在設(shè)計(jì)問題時(shí),預(yù)測者必須考慮數(shù)據(jù)的相關(guān)性。
實(shí)時(shí)性是指預(yù)測情況是不斷更新的。例如北京時(shí)間下午兩點(diǎn)可能會(huì)發(fā)生重大事件,股市的情況也會(huì)隨之改變。當(dāng)人們看到預(yù)測時(shí),結(jié)果也會(huì)隨著時(shí)間而動(dòng)態(tài)變化—羅斯柴爾德電腦中的預(yù)測界面顯示很像是一張股價(jià)波動(dòng)的K線圖。人們可以在想要的時(shí)間點(diǎn)得到當(dāng)時(shí)的結(jié)果,社交網(wǎng)站的數(shù)據(jù)引入對結(jié)果準(zhǔn)確性影響頗大。
準(zhǔn)確性更加偏重于事件發(fā)生的可能性。例如在奧斯卡最佳導(dǎo)演獎(jiǎng)角逐中,5個(gè)提名候選人均可能得獎(jiǎng)。大家想知道哪個(gè)人得獎(jiǎng)的可能性最接近100%,但預(yù)測結(jié)果顯示可能性各占50%。影響準(zhǔn)確性的三個(gè)關(guān)鍵性指標(biāo)在于錯(cuò)誤有多大(你對每個(gè)獲勝者的獲勝幾率預(yù)測離100%有多遠(yuǎn)),預(yù)測的準(zhǔn)確程度如何(若聲稱80%的可能性,其發(fā)生幾率是否就是80%),以及這一預(yù)測的未來表現(xiàn)如何。
羅斯柴爾德的辦法是選擇成本效益最高的方式。這將確保其準(zhǔn)確預(yù)測其他更多的事。
此類研究的最大難點(diǎn)在于數(shù)據(jù)收集。在樣本采集中,四種不同類型的數(shù)據(jù)顯得頗為重要:投票數(shù)據(jù)、預(yù)測市場數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)、用戶生成數(shù)據(jù)。羅斯柴爾德對數(shù)據(jù)的要求近乎苛刻。他表示,雖然采集新的數(shù)據(jù)源可能會(huì)花上幾個(gè)星期,但這些數(shù)據(jù)若不能令預(yù)測更加高效,他就不會(huì)讓這些數(shù)據(jù)進(jìn)入預(yù)測模型。
別以為這樣就可以預(yù)測奧斯卡獎(jiǎng)了。事實(shí)上,奧斯卡的預(yù)測迥異于政治預(yù)測。因?yàn)橄鄬τ谡螖?shù)據(jù)而言,奧斯卡的原始數(shù)據(jù)非常有限,缺乏投票數(shù)據(jù)后,預(yù)測市場數(shù)據(jù)將更加艱難。另一個(gè)難點(diǎn)在于,奧斯卡共有24個(gè)獎(jiǎng)項(xiàng),共需預(yù)測24個(gè)類別的結(jié)果,獎(jiǎng)項(xiàng)結(jié)果之間又會(huì)相互影響形成所謂的突發(fā)事件。例如最佳影片獎(jiǎng)和最佳改編劇本獎(jiǎng)之間有著強(qiáng)烈的相關(guān)性,所以《林肯》和《逃離德黑蘭》在這兩部影片的獲獎(jiǎng)可能性趨勢波動(dòng)相似。
團(tuán)隊(duì)作戰(zhàn)是羅斯柴爾德的另一個(gè)秘笈。他慶幸沒有與其他的經(jīng)濟(jì)學(xué)家一樣進(jìn)行著枯燥無味的學(xué)術(shù)研究,而是來到了微軟紐約研究院,并與同事優(yōu)勢互補(bǔ)。毫無疑問,在傳統(tǒng)印象中,數(shù)據(jù)預(yù)測似乎是永無止境地面對電腦,宅在辦公室。但對羅斯柴爾德而言,數(shù)據(jù)可以讓他接觸到更多的人。即使在吃午飯的時(shí)候,他也能與同事的隨意討論中,蹦出許多新鮮想法。
一個(gè)可以佐證的案例是他曾需在45天內(nèi)完成75萬次采訪,提出數(shù)百個(gè)問題。如此龐大而繁瑣的數(shù)據(jù)處理令其手足無措。同事聽說后則幫他建立系統(tǒng)自動(dòng)程序,通過編程就能輕松解決困惑。此外,團(tuán)隊(duì)中還有社會(huì)學(xué)家和心理學(xué)家,能夠設(shè)計(jì)真正有效的圖形和計(jì)算機(jī)界面捕捉用戶心理,搜索專家亦會(huì)幫助其研究社交媒體數(shù)據(jù)。羅斯柴爾德甚至可以根據(jù)研究需要,與微軟雷德蒙、北京、班加羅爾等研究院同事合作,隨時(shí)組建團(tuán)隊(duì)。這種輕松的氛圍極易激發(fā)創(chuàng)造力,微軟很多產(chǎn)品均誕生于微軟研究院,例如Bing搜索、Windows 8等。
模型復(fù)制
羅斯柴爾德從事預(yù)測的目的并非只為好玩。
要知道每次美國總統(tǒng)大選,各黨派都會(huì)投入數(shù)十億美元的競選資金。如果有更加經(jīng)濟(jì)的方法提供更加準(zhǔn)確的預(yù)測,就可以更加高效地分配資源,把這批經(jīng)費(fèi)用于最為需要的地方。而對奧斯卡這種娛樂項(xiàng)目的預(yù)測,最大的意義在于令羅斯柴爾德根據(jù)反饋結(jié)果,嘗試不同類型的數(shù)據(jù)建模。
令他興奮的理由是奧斯卡數(shù)據(jù)建模被證明是可擴(kuò)展的。他可以繼續(xù)用此類方法來研究其他問題,例如Windows 8是否會(huì)大賣。此類商業(yè)化應(yīng)用比預(yù)測公眾事件更加復(fù)雜,但亦是其未來的預(yù)測方向之一。雖然羅斯柴爾德并未命中本屆奧斯卡的所有獎(jiǎng)項(xiàng),但他仍然堅(jiān)信自己的數(shù)據(jù)模型是同類中最好的。
“我的目的不僅是更準(zhǔn)確地預(yù)測政治或娛樂事件,而是用這些測試來驗(yàn)證我的模型。這樣我就能繼續(xù)預(yù)測難度更高的商業(yè)和經(jīng)濟(jì)問題?!?羅斯柴爾德對《環(huán)球企業(yè)家》說。
與微軟其他產(chǎn)品的合作,亦是其將研究投入實(shí)踐的方式之一。他曾利用Xbox組織民意調(diào)查,亦曾利用Bing收集民調(diào)數(shù)據(jù)及社交網(wǎng)絡(luò)數(shù)據(jù)。借助微軟云計(jì)算產(chǎn)品Office365的數(shù)據(jù)可視化,羅斯柴爾德的研究成果已被廣泛運(yùn)用?,F(xiàn)在如果想提前知道奧斯卡最佳女主角是誰,不妨通過一款名為“奧斯卡預(yù)測器”的Excel應(yīng)用瞧瞧專業(yè)預(yù)測網(wǎng)站PredictWise的預(yù)測結(jié)果。
上述可能引發(fā)公眾對隱私保密的憂慮。但羅斯柴爾德并不擔(dān)心。他認(rèn)為微軟研究院對用戶隱私有著嚴(yán)格的保護(hù),更重要的是類似于政治、娛樂這類公眾化問題,不會(huì)涉及用戶的私人數(shù)據(jù)。現(xiàn)實(shí)的情況則是羅斯柴爾德??鄲烙诂F(xiàn)有的數(shù)據(jù)資料太多而不知如何選擇,而非數(shù)據(jù)匱乏。
目前大數(shù)據(jù)仍未充分應(yīng)用于回答人們未來所真正關(guān)注的問題,通常只回答過去人們關(guān)心的問題。這是從事此類數(shù)據(jù)預(yù)測最易犯的錯(cuò)誤。社交媒體提供了大量的數(shù)據(jù),但數(shù)據(jù)越多,并不代表其越有用?!暗拇_,數(shù)據(jù)可以回答越來越難的問題,但過程會(huì)比想象中慢很多?!?羅斯柴爾德解釋說。
但顯而易見,上述問題并不會(huì)阻礙羅斯柴爾德探尋大數(shù)據(jù)的準(zhǔn)確性和應(yīng)用范圍。羅斯柴爾德希望回答的是在未來5至10年里,什么形式的數(shù)據(jù)對人們最有價(jià)值。
值得一提的是,精準(zhǔn)數(shù)據(jù)預(yù)測也存在著社會(huì)風(fēng)險(xiǎn),現(xiàn)在并沒有標(biāo)準(zhǔn)答案。未來大數(shù)據(jù)預(yù)測究竟會(huì)朝著更加精準(zhǔn)的方向進(jìn)化,還是像《連線》雜志前主編凱文·凱利(Kevin Kelly)所說的“只是由經(jīng)驗(yàn)規(guī)則引導(dǎo)的有限的前瞻”?一切尚待檢驗(yàn)。