就其屬性來說,政治分析不過是平平無奇的數(shù)據(jù)分析,希爾沃不過是綜合已有的民調(diào)結(jié)果。然而,希爾沃建模分析的關(guān)鍵卻在于如何衡量某一數(shù)據(jù)的重要性。
他在2008年美國大選中曾準(zhǔn)確預(yù)測了49個(gè)州的選舉結(jié)果,而2012年的美國大選,他則準(zhǔn)確預(yù)測了全部50個(gè)州的選舉結(jié)果。34歲的內(nèi)特·希爾沃憑著自己的數(shù)學(xué)模型打敗了所有時(shí)政記者、政黨媒體顧問和政治評論員。美國公眾沸騰了,媒體稱他為超級極客、“算法之神”,并認(rèn)為其成功讓所有書呆子揚(yáng)眉吐氣。
準(zhǔn)確預(yù)測美大選結(jié)果
??內(nèi)特·希爾沃可以說是超級政治明星,他知道自己在說什么。在美國人看來,權(quán)威專家一直是擁有合適的發(fā)型、潔白的牙齒或者符合保守派觀點(diǎn)的人。希爾沃完全不符合這些條件,他有的只是數(shù)據(jù),許許多多的數(shù)據(jù),而美國總統(tǒng)大選之夜證實(shí)了這些數(shù)據(jù)的準(zhǔn)確性。
??投票前,許多評論家都認(rèn)為無法預(yù)計(jì)哪方會獲勝。他們預(yù)計(jì)本次選舉,兩名候選人的得票率將不相上下。但事實(shí)并非如此。結(jié)果證明羅姆尼和奧巴馬完全不是旗鼓相當(dāng),正如希爾沃幾個(gè)月來的預(yù)測。在大選日當(dāng)天,他預(yù)測奧巴馬將有90.9%的可能獲得大半選舉人投票,如果按州計(jì)算,他準(zhǔn)確預(yù)測了所有州的選舉結(jié)果。
??“你們知道誰是今晚(選舉開票夜)的贏家嗎?”美國微軟全國廣播公司節(jié)目新聞主播自問自答,“是內(nèi)特·希爾沃?!?/p>
“算法之神”受到狂熱追捧
推特瞬間沸騰了,各大博客網(wǎng)站也為希爾沃沸騰了。希爾沃的處女作——《信號和噪音:預(yù)測學(xué)的藝術(shù)與科學(xué)》銷量一夜間增長800%,排到了暢銷榜第二位。媒體一致認(rèn)為本次大選預(yù)測的成功并不只是希爾沃個(gè)人的勝利,它還使所有書呆子都揚(yáng)眉吐氣。希爾沃憑他的數(shù)學(xué)模型打敗了所有時(shí)政記者、政黨媒體顧問和政治評論員。
希爾沃謙遜而不招搖,當(dāng)他低著頭拖著步子走進(jìn)屋里,他似乎對自己被采訪而感到尷尬。“整個(gè)事情變得有點(diǎn)瘋狂,”他說。但他并不認(rèn)為這種狂熱與他有關(guān),“我仿佛具有這種象征性力量,然而人們對我所做事情的推崇遠(yuǎn)超了我所應(yīng)得的。我必須首先說明大家應(yīng)該知道兼聽則明,而不是把某個(gè)人的意見當(dāng)成神諭?!?/p>
然而,這忠告似乎來得有點(diǎn)晚了。大選后的第二天當(dāng)他出現(xiàn)在《每日秀》脫口秀節(jié)目時(shí),節(jié)目主持人喬恩·斯圖爾特稱他為“算法之神”,但他的成功故事同時(shí)也是個(gè)“屌絲逆襲”的故事。
選舉前的數(shù)周,他的批評者們(大多數(shù)是不滿他預(yù)測奧巴馬將獲勝的保守派們)不僅攻擊了他的預(yù)測方法,還對他進(jìn)行了人身攻擊。UnSkewedPolls.com的迪安·錢伯斯召集人們抵制希爾沃的“巫術(shù)數(shù)據(jù)”,宣稱他神志不清并嘲諷他是個(gè)矮小瘦弱的娘娘腔。
不過從某些角度來說,人們的奉承似乎更難以應(yīng)付?!胺畛械脑捵屛腋械骄o張,因?yàn)槲掖_定我們將會出錯(cuò)?!边@里的“我們”指的是他在2007年設(shè)立的提供以數(shù)據(jù)為主的時(shí)政分析的博客“FiveThirtyEight”(因538張選舉人票總數(shù)得名)。
用數(shù)學(xué)模型分析棒球
希爾沃一直是數(shù)據(jù)的愛好者?!拔乙恢倍急蝗朔Q作書呆子?!彼錾谠诿苄?,家鄉(xiāng)的棒球隊(duì)底特律猛虎在他6歲的時(shí)候贏得了美國職業(yè)棒球全國錦標(biāo)賽的冠軍,而他也是在那個(gè)時(shí)候接觸了各種統(tǒng)計(jì)數(shù)據(jù)并愛上了數(shù)據(jù)。
從芝加哥大學(xué)獲得經(jīng)濟(jì)學(xué)學(xué)位后,他在專門提供審計(jì)、稅務(wù)和咨詢等服務(wù)的畢馬威公司當(dāng)了4年顧問,接著,他開始迷上了網(wǎng)絡(luò)撲克。那時(shí)候許多玩網(wǎng)絡(luò)撲克的人對撲克并沒有很多了解,而他卻能從他們手中贏錢,這些錢足夠讓他辭掉工作靠玩撲克養(yǎng)活自己。
撲克就像希爾沃生命中的天然磁石,不僅教會了他抓住機(jī)遇,還使他明白機(jī)遇在人生中扮演怎樣的角色?!巴鎿淇藢ξ叶允亲詈玫挠?xùn)練,我從中學(xué)會了怎樣衡量新信息的作用,怎樣辨別信息的重要性。我們的直覺在分析信息方面并不是十分在行,我們總是傾向于高估新信息的重要性。”
希爾沃說:“技巧和運(yùn)氣間存在著微妙而又模糊的關(guān)聯(lián)。贏錢的時(shí)候是因?yàn)榕萍己眠€是運(yùn)氣好?你永遠(yuǎn)也不知道?!毕栁止浪闼约寒?dāng)時(shí)從網(wǎng)絡(luò)賭博中贏了有大概40萬美元,這些錢足夠他去追求他另一項(xiàng)愛好——棒球。棒球這項(xiàng)體育運(yùn)動(dòng)正在不斷地改變中,而希爾沃是最早發(fā)現(xiàn)這項(xiàng)運(yùn)動(dòng)有數(shù)據(jù)導(dǎo)向潛在可能性的少數(shù)人之一。他后來建立了Pecota網(wǎng)站,該網(wǎng)站建模分析預(yù)測美國職業(yè)棒球大聯(lián)盟運(yùn)動(dòng)員的職業(yè)前景,后來他又把該網(wǎng)站賣給了《棒球簡介》。
棒球預(yù)測就像一場保守的情報(bào)員與善于分析數(shù)據(jù)的新成員之間的斗爭,這場斗爭后來被邁克爾·路易斯在暢銷書《點(diǎn)球成金》中記錄了下來,后來布拉德·皮特主演了同名電影。2007年,希爾沃開始尋找新的契機(jī)。
信息多不意味更好地預(yù)測
“我當(dāng)時(shí)在尋找像棒球分析那樣的、有龐大的數(shù)據(jù)庫而且鮮有競爭者的新領(lǐng)域,就在那個(gè)時(shí)候我找到了政治這個(gè)領(lǐng)域?!逼鸪酰褂霉P名“Poblano”。幾個(gè)月后,他開始使用真名。
希爾沃覺得自己當(dāng)時(shí)將已有的數(shù)據(jù)套用貝葉斯理論,如此一來他將“小有優(yōu)勢”。美國政治領(lǐng)域原本就充斥著許多數(shù)據(jù),而他所使用的貝葉斯理論也不是什么尖端科技。英國神父貝葉斯于18世紀(jì)初發(fā)現(xiàn)了計(jì)算有條件的事件發(fā)生可能性的貝葉斯理論。
希爾沃后來表示同意批評者的觀點(diǎn)。他甚至不是唯一一個(gè)使用貝葉斯理論分析選情的人,其他分析師也同樣有不錯(cuò)的準(zhǔn)確度。就其屬性來說,政治分析不過是平平無奇的數(shù)據(jù)分析,希爾沃不過是綜合已有的民調(diào)結(jié)果。然而,希爾沃建模分析的關(guān)鍵卻在于如何衡量某一數(shù)據(jù)的重要性。這些數(shù)據(jù)在歷史上有何作用,又有怎樣的偏向性,還有什么別的信息可以借鑒?
“如果你表現(xiàn)良好,偶爾會得到獨(dú)家消息,但這不過是許多既得利益間的游戲。我盡量回避和兩邊的競選團(tuán)隊(duì)打交道,因?yàn)樗麄兯o的信息大都是干擾性的噪音。”
希爾沃正在尋找下一個(gè)目標(biāo)——一個(gè)擁有許多數(shù)據(jù)卻沒有太多競爭對手的領(lǐng)域。他認(rèn)為經(jīng)濟(jì)新聞是一個(gè)不錯(cuò)的選擇,而地方政府選舉則是“難以預(yù)測”。
希爾沃在成功預(yù)測了2008年美國大選結(jié)果后簽下了一份價(jià)值70萬美元的出版合約。但當(dāng)時(shí)沒有人能料到他會有多大的成就。不過,當(dāng)時(shí)就連希爾沃自己也不知道這本書會有什么樣的反響。
“我當(dāng)時(shí)以為這本書會像是介紹婚介網(wǎng)站那樣運(yùn)作之類的書籍。這本書的確也提到了這些內(nèi)容,但是更多的是介紹這當(dāng)中的哲學(xué)原理。這本書是關(guān)于客觀性和現(xiàn)實(shí)的主觀性的交集。面對一堆數(shù)據(jù)時(shí),我們經(jīng)常處理得很糟糕。擁有更多信息并不意味著我們能更好地預(yù)測?!?/p>
文/摘自《南方都市報(bào)》
拿數(shù)據(jù)模型預(yù)測未來有多準(zhǔn)?
大衛(wèi)·羅斯切爾德(David Rothschild)
微軟研究院計(jì)算機(jī)專家
不只是大選這樣的政治領(lǐng)域,數(shù)學(xué)模型預(yù)測的范圍十分寬廣。應(yīng)該說,只要是有因果關(guān)系、有規(guī)律的行業(yè)都可以進(jìn)行預(yù)測。比如股票,如今已經(jīng)有通過數(shù)學(xué)模型預(yù)測某只股票漲跌,來進(jìn)行推薦。當(dāng)然彩票不行,因?yàn)樗请S機(jī)的。
在今年第85屆奧斯卡獎(jiǎng)揭曉之前,我開發(fā)了一款名為“奧斯卡預(yù)測器”的數(shù)學(xué)模型,它是Excel形式的,通過對奧斯卡入圍影片相關(guān)數(shù)據(jù)的分析,預(yù)測最終獎(jiǎng)項(xiàng)屬誰。與預(yù)測總統(tǒng)選舉結(jié)果相比,有人認(rèn)為預(yù)測奧斯卡獎(jiǎng)比大選容易得多,因?yàn)楹笳呱婕吧蟽|張選票,而奧斯卡評委人員僅幾千。其實(shí)預(yù)測奧斯卡獎(jiǎng)的方法和預(yù)測其他事情是完全一致的。技術(shù)是相同的,而數(shù)據(jù)預(yù)測所需要的有效信息卻各有各的不同。
在我的預(yù)測中,最佳影片是《逃離德黑蘭》,它的獲獎(jiǎng)概率是93.6%,而最佳導(dǎo)演是史蒂芬·斯皮爾伯格,最佳男演員是丹尼爾·劉易斯,最佳女演員是詹妮弗·勞倫斯。
德魯·林策(Drew Linzer)
埃默里(Emory)大學(xué)政治科學(xué)系助理教授
不僅希爾沃,在美國大選之前很多統(tǒng)計(jì)學(xué)者和分析師都加入了預(yù)測的隊(duì)伍,我也是如此。我開了一個(gè)名叫Votamatic的網(wǎng)站,在總統(tǒng)選舉階段我都在網(wǎng)站上發(fā)布預(yù)測信息。從去年六月開始,我建立的數(shù)學(xué)模型就一直以95%的確定性顯示奧巴馬獲勝。
我的模型與希爾沃的很不一樣。事實(shí)上,由于人們思維方式的差異,雖然使用的算法可能都是神經(jīng)網(wǎng)絡(luò)或貝葉斯等,但是算法組合形成的模型會很不同,有時(shí)結(jié)果也相距甚遠(yuǎn)。我的模型主要使用了三個(gè)因素:一個(gè)是去年前幾個(gè)月的GDP增長率,這些信息來自經(jīng)濟(jì)分析局,是公開的,政府每年都會更新。二是現(xiàn)任總統(tǒng)的支持率,來自民意調(diào)查,也是公開的。最后一個(gè)是總統(tǒng)黨派的執(zhí)政屆數(shù),這個(gè)數(shù)據(jù)主要體現(xiàn)選民對執(zhí)政黨的厭倦程度,每個(gè)人都能算出來。把這三項(xiàng)公開有效的數(shù)據(jù)結(jié)合起來,就能得到選舉結(jié)果的預(yù)測。結(jié)果證明,我的預(yù)測很準(zhǔn)確。
劉國清
北京集奧聚合公司首席技術(shù)官
在數(shù)學(xué)模型預(yù)測中,除了科學(xué)家建立模型的質(zhì)量至關(guān)重要之外,獲取數(shù)據(jù)的質(zhì)量和數(shù)量也對預(yù)測結(jié)果有決定性影響。美國大選預(yù)測中,有兩個(gè)數(shù)據(jù)源:線上和線下。前者以臉書等社交網(wǎng)絡(luò)為主。而后者則需要很大的數(shù)據(jù)采集團(tuán)隊(duì),既要做民調(diào),又要讓民主黨、共和黨在各前期社區(qū)的代表進(jìn)行前期本地民意預(yù)測。據(jù)悉,僅在俄亥俄一州,就有近3萬人進(jìn)行了民調(diào)。無疑,這在一般行業(yè)、一般性預(yù)測中是很難實(shí)現(xiàn)的。
一直以來,制約數(shù)據(jù)模型預(yù)測的最大因素就是數(shù)據(jù)源的獲取,如何得到大樣本的有效數(shù)據(jù)是個(gè)大問題。隨著互聯(lián)網(wǎng)的發(fā)展,大數(shù)據(jù)時(shí)代已經(jīng)到來,數(shù)據(jù)獲取問題得到了很好的解決。不過,互聯(lián)網(wǎng)發(fā)展已經(jīng)有很多年了,為什么前些年數(shù)據(jù)模型預(yù)測困難呢?很大程度上,前些年的互聯(lián)網(wǎng)應(yīng)用更關(guān)注信息傳遞,而現(xiàn)在,如此大規(guī)模的信息,使得分析人士開始思考哪些信息能提煉出對本行業(yè)有用的預(yù)測,數(shù)學(xué)模型預(yù)測開始興起。
史寧中
東北師范大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院教授
數(shù)學(xué)模型預(yù)測的重要技術(shù)是概率統(tǒng)計(jì)學(xué)。對于統(tǒng)計(jì)學(xué)而言,重要的不是畫統(tǒng)計(jì)圖、求平均數(shù)等技能的學(xué)習(xí),而是發(fā)展數(shù)據(jù)分析觀念。應(yīng)該說,統(tǒng)計(jì)學(xué)是數(shù)據(jù)分析的科學(xué)和藝術(shù)。在這個(gè)大數(shù)據(jù)時(shí)代,數(shù)據(jù)的概念也在不斷擴(kuò)充。事實(shí)上,現(xiàn)在的數(shù)據(jù)不僅僅是數(shù)字,圖是數(shù)據(jù)、語句也是數(shù)據(jù)。比如,人們在網(wǎng)上經(jīng)常用百度、谷歌來進(jìn)行檢索,百度、谷歌是用統(tǒng)計(jì)的方法來進(jìn)行語句檢索,此時(shí)統(tǒng)計(jì)處理的是語句,我們把這些都叫做數(shù)據(jù)。
在去年美國總統(tǒng)大選中,數(shù)學(xué)模型預(yù)測的實(shí)質(zhì)就是通過社會輿論,獲得對民主黨、共和黨候選人的評價(jià),它與以往最大的不同點(diǎn)就是用數(shù)字形式來衡量民意。然而,民意是通過語言表達(dá)的,并非數(shù)字形式,這就需要將語意量化為數(shù)字,再將這個(gè)數(shù)字通過概率統(tǒng)計(jì)、代數(shù)模型、離散數(shù)學(xué)等方法來衡量民意,以此來支持決策,對未來投入有所預(yù)期。