2009年,Google的工程師在《自然》雜志上發(fā)表了一篇論文,解釋了Google為什么能夠預(yù)測冬季流感的傳播——甚至在疾病控制與預(yù)防中心之前發(fā)出預(yù)警。這并非由于疾控中心效率低下。從人們感染流感到就醫(yī)、再到醫(yī)生報告、最后數(shù)據(jù)匯總,加起來至少有兩周時間的滯后,這對一種新的流感病毒來說后果是致命的。Google的方法是通過觀察人們在網(wǎng)上的搜索記錄來預(yù)測流感,他們發(fā)現(xiàn)45條檢索詞條的組合,用特定數(shù)學(xué)模型處理后,其結(jié)果與美國疾控中心流感歷史紀(jì)錄的相關(guān)性高達(dá)97%,而且判斷非常及時。
接下來的事情就是歷史了——幾個星期后,令人聞之色變的甲型H1N1流感爆發(fā)時,與習(xí)慣性滯后的官方數(shù)據(jù)相比,Google成為了一個更及時有效的風(fēng)向標(biāo)。
這個故事,不過是大數(shù)據(jù)時代的前傳。大數(shù)據(jù)是人類文明史上前所未有的工具:通過對海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價值的產(chǎn)品和服務(wù),或深刻的洞見。
人類利用數(shù)據(jù)已有漫長的歷史,從某種意義上說,在此之前的歷史可稱為“小數(shù)據(jù)時代”。因為缺乏對完整數(shù)據(jù)采集、存儲及處理的能力,隨機(jī)采樣分析法應(yīng)運(yùn)而生。采樣的目的就是用最少的數(shù)據(jù)得到最多的信息,但當(dāng)我們獲得海量數(shù)據(jù),甚至樣本=總體的時候,采樣分析的固有缺陷就暴露了。這就好比傳統(tǒng)相機(jī)只能記錄部分光,Lytro相機(jī)可以記錄整個光場里所有的光,具體生成什么樣的照片可以在拍攝后根據(jù)需要決定。在大數(shù)據(jù)的Lytro相機(jī)面前,之前的聚焦等攝影技術(shù)只是浮云。
大數(shù)據(jù)時代,人們的思維方式也將發(fā)生變革。沃爾瑪?shù)皳榫褪且粋€例子。沃爾瑪曾對歷史交易數(shù)據(jù)進(jìn)行分析,這個數(shù)據(jù)庫包羅萬象:每個顧客購物時間、清單、消費(fèi)額,甚至購物當(dāng)天的天氣。分析發(fā)現(xiàn):每當(dāng)季節(jié)性颶風(fēng)來臨之前,手電筒和蛋撻的銷量會同時增加。因此,現(xiàn)在每次颶風(fēng)前,沃爾瑪都會把蛋撻擺在颶風(fēng)用品的旁邊。為什么是蛋撻,而不是其他食品?這無從得知,也不重要。知道是什么(相關(guān)關(guān)系)就夠了,沒有必要知道為什么(因果關(guān)系)。這就是本書作者提出的一個充滿爭議的觀點:建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測是大數(shù)據(jù)的核心。有人進(jìn)一步提出,用一系列的因果關(guān)系來驗證各種猜想的傳統(tǒng)研究范式已經(jīng)不實用了,它被無需理論指導(dǎo)的純粹的相關(guān)關(guān)系研究所取代,大數(shù)據(jù)時代意味著“理論的終結(jié)”。上述觀點如此激進(jìn),連本書中文譯者都忍不住表態(tài)反對。
說到譯者,《大數(shù)據(jù)時代》的翻譯可圈可點。中譯本的出版和英文原版完全同步已是難能可貴,更令人驚喜的是,除了翻譯正文外,譯者周濤加入了大量的譯者注,為中文讀者補(bǔ)充了很多參考資料。譯者注遠(yuǎn)遠(yuǎn)超過作者注,在當(dāng)今翻譯出版界可謂罕見。
大數(shù)據(jù)是如此耀眼,有時候會讓人忽略了它的局限。在書中最后一章,作者意味深長地引用了喬布斯的例子。喬布斯推出ipod、iphone和ipad靠的不是數(shù)據(jù),而是直覺。當(dāng)記者問喬布斯,蘋果在推出ipad之前做了多少市場調(diào)研時,他那個著名的回答是這樣的:“沒做!消費(fèi)者沒義務(wù)去了解自己想要什么?!奔词故窃诖髷?shù)據(jù)時代,也有不依賴于數(shù)據(jù)的事物——比如卓越的才華。
(文/王一州 制圖/文耀)