大數(shù)據(jù):還是大錯誤?
五年前,谷歌的一個研究小組在全球頂級的科學(xué)雜志《自然》上宣布了一個令人矚目的成果。該小組可以追蹤美國境內(nèi)流感的傳播趨勢,而這一結(jié)果不依賴于任何醫(yī)療檢查。他們的追蹤速度甚至比美國疾控中心(CDC)要快得多。谷歌的追蹤結(jié)果只有一天的延時,而CDC則需要匯總大量醫(yī)師的診斷結(jié)果才能得到一張傳播趨勢圖,延時超過一周。谷歌能算得這么快,是因?yàn)樗麄儼l(fā)現(xiàn)當(dāng)人們出現(xiàn)流感癥狀的時候,往往會跑到網(wǎng)絡(luò)上搜索一些相關(guān)的內(nèi)容。
“谷歌流感趨勢”不僅快捷、準(zhǔn)確、成本低廉,而且沒有使用什么理論。谷歌流感趨勢的成功,很快就成為了商業(yè)、技術(shù)和科學(xué)領(lǐng)域中最新趨勢的象征。興奮的媒體記者們不停地在問,谷歌給我們帶來了什么新的科技?
然而在“大數(shù)據(jù)”里,大多數(shù)公司感興趣的是所謂的“現(xiàn)實(shí)數(shù)據(jù)”,諸如網(wǎng)頁搜索記錄、信用卡消費(fèi)記錄和移動電話與附近基站的通信記錄等。谷歌流感趨勢就是基于這樣的現(xiàn)實(shí)數(shù)據(jù)。甚至這類數(shù)據(jù)比對撞機(jī)的數(shù)據(jù)規(guī)模還要大(如Facebook),更重要的是雖然這類數(shù)據(jù)的規(guī)模很大,但卻相對容易采集。它們往往是由于不同的用途被搜集起來并雜亂地堆積在一起,而且可以實(shí)時地更新。人們的通信、娛樂以及商務(wù)活動都已經(jīng)轉(zhuǎn)移到互聯(lián)網(wǎng)上,互聯(lián)網(wǎng)也已經(jīng)進(jìn)入我們的手機(jī)、汽車甚至是眼鏡。因此人們的整個生活都可以被記錄和數(shù)字化,這些在十年前都是無法想象的。
大數(shù)據(jù)的鼓吹者們提出了4個令人興奮的論斷,每一個都能從谷歌流感趨勢的成功中印證: 第一,數(shù)據(jù)分析可以生成驚人準(zhǔn)確的結(jié)果;第二,因?yàn)槊恳粋€數(shù)據(jù)點(diǎn)都可以被捕捉到,所以可以徹底淘汰過去那種抽樣統(tǒng)計(jì)的方法;第三,不用再尋找現(xiàn)象背后的原因,我們只需要知道兩者之間有統(tǒng)計(jì)相關(guān)性就行了;第四, 不再需要科學(xué)的或者統(tǒng)計(jì)的模型。
不幸的是,上述信條都是極端樂觀和過于簡化了。在谷歌、Facebook和亞馬遜這些公司不斷通過人們所產(chǎn)生的數(shù)據(jù)來理解我們生活的過程中,現(xiàn)實(shí)數(shù)據(jù)支撐起了新互聯(lián)網(wǎng)經(jīng)濟(jì)。愛德華·斯諾登揭露了美國政府?dāng)?shù)據(jù)監(jiān)聽的規(guī)模和范圍,很顯然安全部門同樣癡迷從我們的日常數(shù)據(jù)中挖掘點(diǎn)什么東西出來。
雖然大數(shù)據(jù)在科學(xué)家、企業(yè)家和政府眼里看起來充滿希望,但如果忽略了一些以前所熟知的統(tǒng)計(jì)學(xué)中的教訓(xùn),大數(shù)據(jù)可能注定會讓我們失望。 劍橋大學(xué)Spiegelhalter教授曾說到:“大數(shù)據(jù)中有大量的小數(shù)據(jù)問題。這些問題不會隨著數(shù)據(jù)量的增大而消失,它們只會更加突出?!?/p>
在那篇關(guān)于谷歌流感趨勢預(yù)測的文章發(fā)表4年以后,新的一期《自然雜志消息》報(bào)道了一則壞消息:在最近的一次流感爆發(fā)中谷歌流感趨勢不起作用了。這個工具曾經(jīng)可靠地運(yùn)作了十幾個冬天,在海量數(shù)據(jù)分析和不需要理論模型的條件下提供了快速和準(zhǔn)確的流感爆發(fā)趨勢。然而這一次它迷路了,谷歌的模型顯示這一次的流感爆發(fā)非常嚴(yán)重,疾控中心在慢慢匯總各地?cái)?shù)據(jù)以后,卻發(fā)現(xiàn)谷歌的預(yù)測結(jié)果比實(shí)際情況夸大了幾乎一倍。
這種不需要任何理論的純粹的相關(guān)性分析方法,其結(jié)果難免是脆弱的。谷歌將使用新的數(shù)據(jù)再次校準(zhǔn)流感趨勢這個產(chǎn)品,重新來過。
我們再回頭來看看大數(shù)據(jù)的4個基礎(chǔ)信條。其一,如果簡單地忽略掉那些反面的數(shù)據(jù),比如Target的懷孕預(yù)測算法,那么很容易就會過高地估計(jì)算法的精確度。其二,如果在一個固定不變的環(huán)境里做預(yù)測,可以認(rèn)為因果關(guān)系不再重要。而當(dāng)我們處在一個變化的世界中,或者是我們自己就想要改變這個環(huán)境,這種想法就很危險(xiǎn)了。其三,“N=所有”,以及采樣偏差無關(guān)緊要,這些前提在絕大多數(shù)的實(shí)際情況下都是不成立的。最后,當(dāng)數(shù)據(jù)里的假象遠(yuǎn)遠(yuǎn)超過真相的時候,還持有“數(shù)據(jù)足夠大的時候,就可以自己說出結(jié)論了”這種觀點(diǎn)就顯得太過天真。
大數(shù)據(jù)已經(jīng)到來,但它并沒有帶來新的真理?,F(xiàn)在的挑戰(zhàn)是要吸取統(tǒng)計(jì)學(xué)中老的教訓(xùn),在比以前大得多的數(shù)據(jù)規(guī)模下去解決新的問題、獲取新的答案。
(來源:FT Magazine 編譯:紀(jì)元)