国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)的陷阱

2015-06-11 10:55:27盧昌海
中學(xué)語文(學(xué)生版) 2015年6期
關(guān)鍵詞:數(shù)目陷阱流感

這幾年,大數(shù)據(jù)(big data)的“出鏡率”頗高。連帶著,“數(shù)據(jù)科學(xué)家”(data scientist)成為了新的高薪一族。人氣、財氣的提升也帶動了士氣,有人開始高估大數(shù)據(jù)的神通,仿佛只要積累了足夠多的數(shù)據(jù),請“數(shù)據(jù)科學(xué)家”們坐在電腦前——就像福爾摩斯坐在太師椅上——敲一通鍵盤,各種問題就都能迎刃而解了。

大數(shù)據(jù)真有如此神通嗎?回顧一段小歷史對我們也許不無啟示。

那是在1936年,美國共和黨人艾爾弗·蘭登(Alfred Landon)與民主黨人富蘭克林·羅斯福(Franklin D. Roosevelt)競選總統(tǒng)。當(dāng)時很有影響力的《文摘》雜志(The Literary Digest)決定搞一次超大規(guī)模的民意調(diào)查,調(diào)查人數(shù)高達(dá)1,000萬,約為當(dāng)時選民總數(shù)的1/4,最終收到的回復(fù)約有240萬份,對于民意調(diào)查來說可謂是“大數(shù)據(jù)”——事實上,哪怕在今天,一些全國性民意調(diào)查的調(diào)查對象也只有幾千。通過對這組“大數(shù)據(jù)”的分析,《文摘》雜志預(yù)測蘭登將以55%比41%的顯著優(yōu)勢獲勝。但不久后揭曉的真正結(jié)果卻是羅斯福以61%比37%的優(yōu)勢大勝?!段恼冯s志的“大數(shù)據(jù)”遭到了慘敗。

當(dāng)然,那是陳年舊事了。240萬份回復(fù)作為民意調(diào)查是超大規(guī)模的,從數(shù)據(jù)角度講,以今天的標(biāo)準(zhǔn)來衡量卻實在小得可憐。不過,今天的“大”在幾十年后也未必不會如昔日的“小”一樣可憐。那段小歷史的真正啟示在于:數(shù)據(jù)已大到了統(tǒng)計誤差可以忽略的地步,結(jié)果卻錯得離譜。這種類型的錯誤對于大數(shù)據(jù)是一種警示。

現(xiàn)在讓我們回到當(dāng)代。2008年8月,大數(shù)據(jù)“成功偶像”之一的谷歌(Google)公司領(lǐng)銜在《自然》(Nature)雜志上發(fā)表論文,推介了一個如今被稱為“谷歌流感趨勢”(Google Flu Trends)的系統(tǒng)。這一系統(tǒng)能利用互聯(lián)網(wǎng)上有關(guān)流感的搜索的數(shù)量和分布來估計各地區(qū)流感類疾病的患者數(shù)目。谷歌表示,這一系統(tǒng)給出的估計不僅比美國疾病控制與預(yù)防中心(Centers for Disease Control and Prevention——簡稱CDC)的數(shù)據(jù)更快速,而且還有“不依賴于理論”(theory-free)的特點。

但是,這個一度引起轟動的系統(tǒng)經(jīng)過幾年的運行后,卻引人注目地演示了大數(shù)據(jù)可能帶來的陷阱。

2013年2月,《自然》雜志資深記者巴特勒(Declan Butler)發(fā)表了一篇題為“當(dāng)谷歌弄錯了流感”(When Google got flu wrong)的文章,指出“谷歌流感趨勢”對2012年底美國流感類疾病患者數(shù)目的估計比美國疾病控制與預(yù)防中心給出的數(shù)據(jù)高了約一倍。不僅如此,“谷歌流感趨勢”在2008-2009年間對瑞士、德國、比利時等國的流感類疾病患者數(shù)目的估計也都失過準(zhǔn)。

大數(shù)據(jù)在這些例子中為什么會失敗呢?人們很快找到了原因。比如《文摘》雜志對1936年美國總統(tǒng)競選預(yù)測的失敗,是因為該雜志的調(diào)查對象是從汽車注冊資料及電話簿中選取的,而汽車及電話在當(dāng)時的美國尚未普及,使得由此選出的調(diào)查對象缺乏代表性。而谷歌對2012年底美國流感類疾病患者數(shù)目的估計失敗,則是因為媒體對那段時間的美國流感類疾病作了渲染,使得很多非患者也進(jìn)行了有關(guān)流感的搜索,從而干擾了“谷歌流感趨勢”的估計。在統(tǒng)計學(xué)中,這被稱為系統(tǒng)誤差(systematic error),只要存在這種誤差,數(shù)據(jù)量再大也無濟(jì)于事。

當(dāng)然,原因一旦找到,對結(jié)果進(jìn)行修正也就不無可能了。比如在有關(guān)流感的搜索中,來自患者的搜索往往隨疫情的爆發(fā)而迅速增加,隨疫情的緩慢結(jié)束而緩慢降低,呈現(xiàn)出前后的不對稱,而媒體渲染引來的非患者的搜索則前后比較對稱。利用這一區(qū)別,原則上可對結(jié)果進(jìn)行校正。

但另一方面,原因之所以很快找到,是因為失敗已成事實,從而有了明確的分析對象,在千變?nèi)f化的大數(shù)據(jù)分析中要想每次都“先發(fā)制人”地避免失敗卻是極其困難的。比如大數(shù)據(jù)分析對數(shù)據(jù)間的相關(guān)性情有獨鐘,其所津津樂道的“不依賴于理論”的特點卻在很大程度上排斥了對相關(guān)性的價值進(jìn)行甄別——就如知名技術(shù)類刊物《連線》(Wired)雜志的主編安德森(Chris Anderson)曾經(jīng)宣稱的:“只要有足夠多數(shù)據(jù),數(shù)字自己就能說話”(with enough data, the numbers speak for themselves)。數(shù)字也許是能說話,但說出的未必都是有價值的話。事實上,未經(jīng)甄別的相關(guān)性可謂處處是陷阱。比如2006-2011年間,美國的犯罪率和微軟IE瀏覽器的市場占有率就明顯相關(guān)(同步下降),但卻是毫無價值的相關(guān)性——這是紐約大學(xué)(New York University)計算機教授戴維斯(Ernest Davis)舉出的例子。在統(tǒng)計學(xué)中,這是所謂“相關(guān)性不蘊含因果性”(correlation does not imply causation)的一個例子。

無論是系統(tǒng)誤差還是“相關(guān)性不蘊含因果性”,大數(shù)據(jù)的這些陷阱其實都是統(tǒng)計學(xué)家們熟知的。只不過,太急于趕路時,人們有時會忘掉曾經(jīng)走過的路。

(摘編自盧昌海個人主頁)

猜你喜歡
數(shù)目陷阱流感
有機物“同分異構(gòu)體”數(shù)目的判斷方法
冬春流感高發(fā) 加強防治最重要
陷阱
秋季謹(jǐn)防牛流感
《哲對寧諾爾》方劑數(shù)目統(tǒng)計研究
牧場里的馬
陷阱2
陷阱1
豬流感病的預(yù)防與治療
甜蜜的陷阱
蓬莱市| 泌阳县| 叙永县| 红原县| 遂溪县| 丽水市| 广灵县| 商水县| 安塞县| 永顺县| 英吉沙县| 乾安县| 衡南县| 天柱县| 库车县| 维西| 昌吉市| 阿拉善右旗| 淮南市| 额济纳旗| 河西区| 普定县| 洪江市| 东乡县| 佳木斯市| 娱乐| 达州市| 陆丰市| 通化县| 固阳县| 镇原县| 抚松县| 兴文县| 霍林郭勒市| 定西市| 普兰店市| 县级市| 岢岚县| 出国| 陇川县| 江油市|