只要能抓住那些依賴數(shù)據(jù)而不是腸胃生活的人,有些事情是可以進行預(yù)測的。
在這個大數(shù)據(jù)的時代,數(shù)據(jù)模型預(yù)測愈發(fā)顯示出其重要性。眾多數(shù)據(jù)專家將數(shù)學模型預(yù)測應(yīng)用到各個角落——預(yù)測總統(tǒng)大選結(jié)果、奧斯卡獲獎名單等等。他們希望通過對這些焦點話題的預(yù)測讓更多的人認識數(shù)據(jù)分析,能夠真正拓展數(shù)據(jù)分析觀念。
曾經(jīng)準確預(yù)報美國大選50個州結(jié)果
去年,紐約微軟研究院計算機專家大衛(wèi)·羅斯切爾德使用了一種多樣式、數(shù)據(jù)導(dǎo)向的模型成功地預(yù)測了美國總統(tǒng)大選。在51個地方選舉結(jié)果中(包括美國50個州和華盛頓特區(qū))羅斯切爾德準確地預(yù)告了50個結(jié)果。
事實證明,羅斯切爾德和其他預(yù)測專家正在有效地利用大規(guī)模數(shù)據(jù)分析,以超過98%的預(yù)測精準度獲取媒體的視線。如同《科技縱覽》雜志的斯蒂文·切利所說:“只要能抓住那些依賴數(shù)據(jù)而不是腸胃生活的人,有些事情是可以進行預(yù)測的?!?/p>
像羅斯切爾德這樣的人,熱衷數(shù)據(jù)分析,他們希望能夠通過努力,不斷延展各種信息整合的可能性。正如他本人曾經(jīng)說過,數(shù)學模型預(yù)測的范圍十分寬廣,只要有因果關(guān)系,有規(guī)律的行業(yè)都可以進行預(yù)測。
最近,羅斯切爾德正投身于新的項目之中,他希望通過用數(shù)據(jù)分析讓人們重新思考“預(yù)測”和“預(yù)報”的概念,并希望這種預(yù)測和預(yù)報能有效地促進今后微軟對產(chǎn)品和服務(wù)的開發(fā)。羅斯切爾德這次成為全球媒體熱點的預(yù)測就是對第85屆電影藝術(shù)與科學院獎——奧斯卡獎評選結(jié)果的推斷。
我們可以在他發(fā)表在PredictWise上的博客中看到其預(yù)測過程和結(jié)果。羅斯切爾德整合了微軟Office團隊的力量以強化這次奧斯卡選票預(yù)測的準確性。通過Excel的工具,他的模型可以實時分析全部24類奧斯卡獎項的結(jié)果。而對羅斯切爾德來講,這其實是他日常工作的一部分。
“我對奧斯卡獲獎結(jié)果的分析跟對其他事情,包括對政治的分析,采用的是同樣的方法?!?羅斯切爾德說:“我尋找最有效的數(shù)據(jù),之后建數(shù)據(jù)顯著模型,模型不能忽略各個年度的任何分析結(jié)果。在獲得‘樣本外檢驗(實際操作)的結(jié)果前,這些模型都會通過歷史數(shù)據(jù)進行測試校訂以確保它們是經(jīng)得起推敲的。這一過程,一向都是艱辛而痛苦的。數(shù)學模型分析需要預(yù)測將來,而不能僅僅證實過去。”
選取有效數(shù)據(jù)需要加入某些哲學判斷
在同一領(lǐng)域,我們可以采用不同的模型。預(yù)測總統(tǒng)競選時,除了羅斯切爾德,還有著名的數(shù)據(jù)預(yù)測達人內(nèi)特·希爾沃,以及埃默里大學助理教授德魯·林策等等。他們使用了不同的模型,均達到了95%以上的準確率。而獲得更可信的預(yù)測結(jié)果則需不斷推演改善模型。
除了模型的質(zhì)量至關(guān)重要之外,北京集奧聚合公司首席技術(shù)官劉國清認為在數(shù)學模型預(yù)測中,獲取數(shù)據(jù)的質(zhì)量和數(shù)量對預(yù)測結(jié)果同樣有決定性的影響。羅斯切爾德本人也這樣說道:“誠然,科學是相近的,但判斷哪些數(shù)據(jù)是最有效的是有所區(qū)別的?!?/p>
你或許覺得預(yù)測奧斯卡獎獲得者比預(yù)測美國總統(tǒng)選舉結(jié)果的數(shù)學模型分析要簡單很多??偨y(tǒng)選舉變化莫測,1.27億張的選票,錯綜復(fù)雜,勝利可能命懸一線;而奧斯卡評選團只有6000多的選票。事實上,奧斯卡獎評選的數(shù)據(jù)的差異性非常明顯??偨y(tǒng)選舉時僅一個州就會有3萬人的民調(diào)數(shù)據(jù),找出其中共性建立分析模型則容易些,而在其他行業(yè)或其他預(yù)測中這是很難實現(xiàn)的。
羅斯切爾德通常關(guān)注四種數(shù)據(jù):民意調(diào)查、預(yù)測市場、基礎(chǔ)數(shù)據(jù)以及用戶產(chǎn)生數(shù)據(jù)。他說:“在做政治預(yù)測分析的時候,我使用基礎(chǔ)數(shù)據(jù),比如過去的選舉結(jié)果、候選人以及經(jīng)濟指數(shù),以勾畫出一個大致的范圍結(jié)構(gòu)。之后,我會轉(zhuǎn)向預(yù)測市場和民調(diào)的數(shù)據(jù)以吸收獲取關(guān)于選舉更多的信息。2012的總統(tǒng)大選我沒怎么使用用戶產(chǎn)生數(shù)據(jù),但在微軟Xbox LIVE這一產(chǎn)品的分析中,用戶數(shù)據(jù)是至關(guān)重要的。用戶數(shù)據(jù)的實時性能夠幫我們更好地分析這種大的產(chǎn)品項目。”
在選取有效數(shù)據(jù)時,有時需要加入某些哲學判斷,希沃爾曾經(jīng)說過:“面對一堆數(shù)據(jù)時,我們經(jīng)常處理得很糟糕。擁有更多的信息并不意味著我們能更好地預(yù)測?!笔聦嵣?,現(xiàn)在的數(shù)據(jù)不僅僅是數(shù)字。
羅斯切爾德在做奧斯卡分析的時候沒有民意調(diào)查和基礎(chǔ)數(shù)據(jù),票房結(jié)果和電影評分在數(shù)據(jù)分析中用處不大。因此他更多關(guān)注的是調(diào)查市場,這些數(shù)據(jù)非常堅實,而同時他也引入了用戶產(chǎn)生數(shù)據(jù),這讓他更好地在電影、獎項類別中找到相關(guān)性。比如判斷電影《林肯》能獲得在多少個獎項中獲勝等等。
打造出獨立于某一領(lǐng)域的分析方法
聽羅斯切爾德講述他如何實現(xiàn)奧斯卡獲獎結(jié)果預(yù)測這類項目令人獲益匪淺。他說:“當我開始新的項目時,我要考慮幾個關(guān)鍵的事情以做出有效的推測?!?/p>
“第一,我會判斷是什么最相關(guān)的預(yù)測。以奧斯卡為例,我關(guān)注的是所有24個獎項的獲獎可能性,同時關(guān)注重點影片獲得不同獎項的潛力?!?/p>
“第二,所有的預(yù)測都要隨時更新。這點對數(shù)據(jù)研究預(yù)測分析非常重要,要分析從初始判斷到最終結(jié)果中發(fā)生的各種事件、各種影響因素。而奧斯卡頒獎之前的幾次電影評選就是這種具有影響力的事件?!?/p>
“最后,為確保預(yù)測的準確性,要利用同一領(lǐng)域內(nèi)的歷史數(shù)據(jù)不斷調(diào)整推進模型。值得強調(diào)的是,我們的目的是要打造出獨立于某一領(lǐng)域的分析方法,以確保其延展性。這次奧斯卡的分析對微軟、學術(shù)界或其他行業(yè)都非常有價值,它會引導(dǎo)出更多有效的預(yù)測方法,從而自由地應(yīng)用到各個領(lǐng)域?!?/p>