這幾年,大數(shù)據(jù)(big data)的“出鏡率”頗高。連帶著,“數(shù)據(jù)科學(xué)家”(data scientist)成為了新的高薪一族。人氣、財氣的提升也帶動了士氣,有人開始高估大數(shù)據(jù)的神通,仿佛只要積累了足夠多的數(shù)據(jù),請“數(shù)據(jù)科學(xué)家”們坐在電腦前——就像福爾摩斯坐在太師椅上——敲一通鍵盤,各種問題就都能迎刃而解了。
大數(shù)據(jù)真有如此神通嗎?回顧一段小歷史對我們也許不無啟示。
那是在1936年,美國共和黨人艾爾弗·蘭登(Alfred Landon)與民主黨人富蘭克林·羅斯福(Franklin D. Roosevelt)競選總統(tǒng)。當(dāng)時很有影響力的《文摘》雜志(The Literary Digest)決定搞一次超大規(guī)模的民意調(diào)查,調(diào)查人數(shù)高達(dá)1,000萬,約為當(dāng)時選民總數(shù)的1/4,最終收到的回復(fù)約有240萬份,對于民意調(diào)查來說可謂是“大數(shù)據(jù)”——事實上,哪怕在今天,一些全國性民意調(diào)查的調(diào)查對象也只有幾千。通過對這組“大數(shù)據(jù)”的分析,《文摘》雜志預(yù)測蘭登將以55%比41%的顯著優(yōu)勢獲勝。但不久后揭曉的真正結(jié)果卻是羅斯福以61%比37%的優(yōu)勢大勝?!段恼冯s志的“大數(shù)據(jù)”遭到了慘敗。
當(dāng)然,那是陳年舊事了。240萬份回復(fù)作為民意調(diào)查是超大規(guī)模的,從數(shù)據(jù)角度講,以今天的標(biāo)準(zhǔn)來衡量卻實在小得可憐。不過,今天的“大”在幾十年后也未必不會如昔日的“小”一樣可憐。那段小歷史的真正啟示在于:數(shù)據(jù)已大到了統(tǒng)計誤差可以忽略的地步,結(jié)果卻錯得離譜。這種類型的錯誤對于大數(shù)據(jù)是一種警示。
現(xiàn)在讓我們回到當(dāng)代。2008年8月,大數(shù)據(jù)“成功偶像”之一的谷歌(Google)公司領(lǐng)銜在《自然》(Nature)雜志上發(fā)表論文,推介了一個如今被稱為“谷歌流感趨勢”(Google Flu Trends)的系統(tǒng)。這一系統(tǒng)能利用互聯(lián)網(wǎng)上有關(guān)流感的搜索的數(shù)量和分布來估計各地區(qū)流感類疾病的患者數(shù)目。谷歌表示,這一系統(tǒng)給出的估計不僅比美國疾病控制與預(yù)防中心(Centers for Disease Control and Prevention——簡稱CDC)的數(shù)據(jù)更快速,而且還有“不依賴于理論”(theory-free)的特點。
但是,這個一度引起轟動的系統(tǒng)經(jīng)過幾年的運行后,卻引人注目地演示了大數(shù)據(jù)可能帶來的陷阱。
2013年2月,《自然》雜志資深記者巴特勒(Declan Butler)發(fā)表了一篇題為“當(dāng)谷歌弄錯了流感”(When Google got flu wrong)的文章,指出“谷歌流感趨勢”對2012年底美國流感類疾病患者數(shù)目的估計比美國疾病控制與預(yù)防中心給出的數(shù)據(jù)高了約一倍。不僅如此,“谷歌流感趨勢”在2008-2009年間對瑞士、德國、比利時等國的流感類疾病患者數(shù)目的估計也都失過準(zhǔn)。
大數(shù)據(jù)在這些例子中為什么會失敗呢?人們很快找到了原因。比如《文摘》雜志對1936年美國總統(tǒng)競選預(yù)測的失敗,是因為該雜志的調(diào)查對象是從汽車注冊資料及電話簿中選取的,而汽車及電話在當(dāng)時的美國尚未普及,使得由此選出的調(diào)查對象缺乏代表性。而谷歌對2012年底美國流感類疾病患者數(shù)目的估計失敗,則是因為媒體對那段時間的美國流感類疾病作了渲染,使得很多非患者也進(jìn)行了有關(guān)流感的搜索,從而干擾了“谷歌流感趨勢”的估計。在統(tǒng)計學(xué)中,這被稱為系統(tǒng)誤差(systematic error),只要存在這種誤差,數(shù)據(jù)量再大也無濟(jì)于事。
當(dāng)然,原因一旦找到,對結(jié)果進(jìn)行修正也就不無可能了。比如在有關(guān)流感的搜索中,來自患者的搜索往往隨疫情的爆發(fā)而迅速增加,隨疫情的緩慢結(jié)束而緩慢降低,呈現(xiàn)出前后的不對稱,而媒體渲染引來的非患者的搜索則前后比較對稱。利用這一區(qū)別,原則上可對結(jié)果進(jìn)行校正。
但另一方面,原因之所以很快找到,是因為失敗已成事實,從而有了明確的分析對象,在千變?nèi)f化的大數(shù)據(jù)分析中要想每次都“先發(fā)制人”地避免失敗卻是極其困難的。比如大數(shù)據(jù)分析對數(shù)據(jù)間的相關(guān)性情有獨鐘,其所津津樂道的“不依賴于理論”的特點卻在很大程度上排斥了對相關(guān)性的價值進(jìn)行甄別——就如知名技術(shù)類刊物《連線》(Wired)雜志的主編安德森(Chris Anderson)曾經(jīng)宣稱的:“只要有足夠多數(shù)據(jù),數(shù)字自己就能說話”(with enough data, the numbers speak for themselves)。數(shù)字也許是能說話,但說出的未必都是有價值的話。事實上,未經(jīng)甄別的相關(guān)性可謂處處是陷阱。比如2006-2011年間,美國的犯罪率和微軟IE瀏覽器的市場占有率就明顯相關(guān)(同步下降),但卻是毫無價值的相關(guān)性——這是紐約大學(xué)(New York University)計算機教授戴維斯(Ernest Davis)舉出的例子。在統(tǒng)計學(xué)中,這是所謂“相關(guān)性不蘊含因果性”(correlation does not imply causation)的一個例子。
無論是系統(tǒng)誤差還是“相關(guān)性不蘊含因果性”,大數(shù)據(jù)的這些陷阱其實都是統(tǒng)計學(xué)家們熟知的。只不過,太急于趕路時,人們有時會忘掉曾經(jīng)走過的路。
(摘編自盧昌海個人主頁)