大數(shù)據(jù)的陷阱

2015-06-11 10:55:27盧昌海

中學(xué)語文(學(xué)生版) 2015年6期

這幾年，大數(shù)據(jù)（big data）的“出鏡率”頗高。連帶著，“數(shù)據(jù)科學(xué)家”（data scientist）成為了新的高薪一族。人氣、財氣的提升也帶動了士氣，有人開始高估大數(shù)據(jù)的神通，仿佛只要積累了足夠多的數(shù)據(jù)，請“數(shù)據(jù)科學(xué)家”們坐在電腦前——就像福爾摩斯坐在太師椅上——敲一通鍵盤，各種問題就都能迎刃而解了。

大數(shù)據(jù)真有如此神通嗎？回顧一段小歷史對我們也許不無啟示。

那是在1936年，美國共和黨人艾爾弗·蘭登（Alfred Landon）與民主黨人富蘭克林·羅斯福（Franklin D. Roosevelt）競選總統(tǒng)。當(dāng)時很有影響力的《文摘》雜志（The Literary Digest）決定搞一次超大規(guī)模的民意調(diào)查，調(diào)查人數(shù)高達(dá)1，000萬，約為當(dāng)時選民總數(shù)的1/4，最終收到的回復(fù)約有240萬份，對于民意調(diào)查來說可謂是“大數(shù)據(jù)”——事實上，哪怕在今天，一些全國性民意調(diào)查的調(diào)查對象也只有幾千。通過對這組“大數(shù)據(jù)”的分析，《文摘》雜志預(yù)測蘭登將以55%比41%的顯著優(yōu)勢獲勝。但不久后揭曉的真正結(jié)果卻是羅斯福以61%比37%的優(yōu)勢大勝?！段恼冯s志的“大數(shù)據(jù)”遭到了慘敗。

當(dāng)然，那是陳年舊事了。240萬份回復(fù)作為民意調(diào)查是超大規(guī)模的，從數(shù)據(jù)角度講，以今天的標(biāo)準(zhǔn)來衡量卻實在小得可憐。不過，今天的“大”在幾十年后也未必不會如昔日的“小”一樣可憐。那段小歷史的真正啟示在于：數(shù)據(jù)已大到了統(tǒng)計誤差可以忽略的地步，結(jié)果卻錯得離譜。這種類型的錯誤對于大數(shù)據(jù)是一種警示。

現(xiàn)在讓我們回到當(dāng)代。2008年8月，大數(shù)據(jù)“成功偶像”之一的谷歌（Google）公司領(lǐng)銜在《自然》（Nature）雜志上發(fā)表論文，推介了一個如今被稱為“谷歌流感趨勢”（Google Flu Trends）的系統(tǒng)。這一系統(tǒng)能利用互聯(lián)網(wǎng)上有關(guān)流感的搜索的數(shù)量和分布來估計各地區(qū)流感類疾病的患者數(shù)目。谷歌表示，這一系統(tǒng)給出的估計不僅比美國疾病控制與預(yù)防中心（Centers for Disease Control and Prevention——簡稱CDC）的數(shù)據(jù)更快速，而且還有“不依賴于理論”（theory-free）的特點。

但是，這個一度引起轟動的系統(tǒng)經(jīng)過幾年的運行后，卻引人注目地演示了大數(shù)據(jù)可能帶來的陷阱。

2013年2月，《自然》雜志資深記者巴特勒（Declan Butler）發(fā)表了一篇題為“當(dāng)谷歌弄錯了流感”（When Google got flu wrong）的文章，指出“谷歌流感趨勢”對2012年底美國流感類疾病患者數(shù)目的估計比美國疾病控制與預(yù)防中心給出的數(shù)據(jù)高了約一倍。不僅如此，“谷歌流感趨勢”在2008-2009年間對瑞士、德國、比利時等國的流感類疾病患者數(shù)目的估計也都失過準(zhǔn)。

大數(shù)據(jù)在這些例子中為什么會失敗呢？人們很快找到了原因。比如《文摘》雜志對1936年美國總統(tǒng)競選預(yù)測的失敗，是因為該雜志的調(diào)查對象是從汽車注冊資料及電話簿中選取的，而汽車及電話在當(dāng)時的美國尚未普及，使得由此選出的調(diào)查對象缺乏代表性。而谷歌對2012年底美國流感類疾病患者數(shù)目的估計失敗，則是因為媒體對那段時間的美國流感類疾病作了渲染，使得很多非患者也進(jìn)行了有關(guān)流感的搜索，從而干擾了“谷歌流感趨勢”的估計。在統(tǒng)計學(xué)中，這被稱為系統(tǒng)誤差（systematic error），只要存在這種誤差，數(shù)據(jù)量再大也無濟(jì)于事。

當(dāng)然，原因一旦找到，對結(jié)果進(jìn)行修正也就不無可能了。比如在有關(guān)流感的搜索中，來自患者的搜索往往隨疫情的爆發(fā)而迅速增加，隨疫情的緩慢結(jié)束而緩慢降低，呈現(xiàn)出前后的不對稱，而媒體渲染引來的非患者的搜索則前后比較對稱。利用這一區(qū)別，原則上可對結(jié)果進(jìn)行校正。

但另一方面，原因之所以很快找到，是因為失敗已成事實，從而有了明確的分析對象，在千變?nèi)f化的大數(shù)據(jù)分析中要想每次都“先發(fā)制人”地避免失敗卻是極其困難的。比如大數(shù)據(jù)分析對數(shù)據(jù)間的相關(guān)性情有獨鐘，其所津津樂道的“不依賴于理論”的特點卻在很大程度上排斥了對相關(guān)性的價值進(jìn)行甄別——就如知名技術(shù)類刊物《連線》（Wired）雜志的主編安德森（Chris Anderson）曾經(jīng)宣稱的：“只要有足夠多數(shù)據(jù)，數(shù)字自己就能說話”（with enough data， the numbers speak for themselves）。數(shù)字也許是能說話，但說出的未必都是有價值的話。事實上，未經(jīng)甄別的相關(guān)性可謂處處是陷阱。比如2006-2011年間，美國的犯罪率和微軟IE瀏覽器的市場占有率就明顯相關(guān)（同步下降），但卻是毫無價值的相關(guān)性——這是紐約大學(xué)（New York University）計算機教授戴維斯（Ernest Davis）舉出的例子。在統(tǒng)計學(xué)中，這是所謂“相關(guān)性不蘊含因果性”（correlation does not imply causation）的一個例子。

無論是系統(tǒng)誤差還是“相關(guān)性不蘊含因果性”，大數(shù)據(jù)的這些陷阱其實都是統(tǒng)計學(xué)家們熟知的。只不過，太急于趕路時，人們有時會忘掉曾經(jīng)走過的路。

（摘編自盧昌海個人主頁）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

大數(shù)據(jù)的陷阱