大數(shù)據(jù)的核心就是預(yù)測(cè),它把數(shù)學(xué)算法運(yùn)用到海量的數(shù)據(jù)上來(lái),預(yù)測(cè)人們的行為模式以及事件發(fā)生的可能性。通過(guò)大數(shù)據(jù)分析,當(dāng)當(dāng)網(wǎng)可以幫我們推薦想要的書(shū),百度可以為關(guān)聯(lián)網(wǎng)站排序,微信可以猜出我們認(rèn)識(shí)誰(shuí)。當(dāng)然,同樣的技術(shù)也可以運(yùn)用到疾病診斷、推薦治療措施,甚至是識(shí)別潛在犯罪分子上。大數(shù)據(jù)已經(jīng)成為新發(fā)明和新服務(wù)的源泉,而更多的改變正蓄勢(shì)待發(fā)。
《紙牌屋》成功的秘密
《紙牌屋》是2013年美國(guó)最火的電視連續(xù)劇之一。它雖然有大牌導(dǎo)演加大牌演員的豪華陣容,但是在尋找投資時(shí)卻遇上了難題。以往電視劇的主創(chuàng)者都會(huì)至少做出一兩集的樣片,以提供投資依據(jù),但這次,他們除了提供一個(gè)劇名外,沒(méi)提供一點(diǎn)樣片,結(jié)果沒(méi)有一家電視臺(tái)敢冒風(fēng)險(xiǎn)投資。
這時(shí),一家公司卻作出一個(gè)驚人的決定,它不僅向這部電視劇投資一億美元(幾乎是美國(guó)一般電視劇價(jià)錢的兩倍),而且史無(wú)前例地作出了要拍足兩季的承諾。更驚人的是,這家公司既不是電視臺(tái),也不是電影公司,而是一家類似于中國(guó)的土豆或優(yōu)酷這樣的在線視頻播放網(wǎng)站——奈飛(Netflix)。
令電視業(yè)巨頭們困惑的是,影視投資向來(lái)充滿風(fēng)險(xiǎn),收視率、票房的可預(yù)測(cè)性一直很低,而奈飛只是一個(gè)普通的視頻播放網(wǎng)站,既沒(méi)有拍攝經(jīng)驗(yàn),也不能很好地為影片的質(zhì)量把關(guān),它為何敢于在不看樣片的情況下進(jìn)行如此大筆的投資呢?
其實(shí)奈飛和傳統(tǒng)電視業(yè)的關(guān)注點(diǎn)并無(wú)不同,都是看電視劇的內(nèi)容能否引起觀眾的共鳴。只不過(guò),傳統(tǒng)方式是通過(guò)看樣片來(lái)決定,而奈飛依賴的是該網(wǎng)站3000萬(wàn)名用戶的收看習(xí)慣和偏好所組成的龐大的數(shù)據(jù)群。
用戶只要登錄奈飛的網(wǎng)站,對(duì)某一個(gè)視頻的每一次點(diǎn)擊、播放、暫停、快進(jìn)、回放,看了幾分鐘就關(guān)掉視頻,或者停了一段時(shí)間又重新打開(kāi),這些“事件”都被奈飛記錄下來(lái)并進(jìn)行匯總分析。奈飛每天有700名工程師對(duì)用戶3000萬(wàn)次的播放動(dòng)作、400萬(wàn)次的評(píng)級(jí)、300萬(wàn)次的搜索進(jìn)行縝密的數(shù)學(xué)計(jì)算,對(duì)視頻觀看時(shí)間以及所使用的設(shè)備進(jìn)行分析挖掘,并以此策劃節(jié)目。
奈飛或許并不能準(zhǔn)確知道每名用戶點(diǎn)擊暫停按鈕的個(gè)人原因,但如果有足夠多的人在整段視頻中的同一個(gè)地方做了相同的舉動(dòng),那么數(shù)據(jù)分析就開(kāi)始顯出意義了。通過(guò)挖掘數(shù)據(jù),奈飛不僅知道用戶星期天晚上比星期一下午更愛(ài)看恐怖片,也能知道用戶更喜歡用平板電腦觀看視頻,以及哪些地方的人更喜歡在星期天下午用平板電腦觀看。奈飛甚至能夠記錄哪些用戶在一集節(jié)目結(jié)束演職員表開(kāi)始滾動(dòng)時(shí)就關(guān)閉了視頻。結(jié)果就是,奈飛比觀眾自身還要清楚他們的觀影喜好。
《紙牌屋》并非個(gè)案,時(shí)至今日,數(shù)據(jù)已經(jīng)像洪流一樣在全球的政治、經(jīng)濟(jì)生活中奔騰,很多政府部門、企業(yè)都已經(jīng)在嘗試用大數(shù)據(jù)來(lái)進(jìn)行決策和管理。2012年1月瑞士達(dá)沃斯世界經(jīng)濟(jì)論壇的一份報(bào)告指出,大數(shù)據(jù)的價(jià)值堪比石油或黃金。
數(shù)據(jù)讓行為更有針對(duì)性
沃爾瑪擁有世界上數(shù)一數(shù)二的數(shù)據(jù)倉(cāng)庫(kù),也是最早應(yīng)用數(shù)據(jù)挖掘技術(shù)的企業(yè)之一。在一次例行的數(shù)據(jù)分析之后,研究人員發(fā)現(xiàn):跟尿布一起搭配購(gòu)買最多的商品竟是啤酒。尿布和啤酒聽(tīng)起來(lái)風(fēng)馬牛不相及,這種關(guān)聯(lián)性著實(shí)令人費(fèi)解。經(jīng)過(guò)跟蹤調(diào)查,研究人員終于發(fā)現(xiàn)了這種聯(lián)系背后的原因:一些年輕的爸爸經(jīng)常要到超市去購(gòu)買嬰兒尿布,有30%~40%的爸爸會(huì)順便買點(diǎn)啤酒犒勞自己。沃爾瑪隨后對(duì)啤酒和尿布進(jìn)行了捆綁銷售,不出意料,銷售量雙雙增加。
有些公司在做數(shù)據(jù)挖掘時(shí)還發(fā)現(xiàn),聽(tīng)過(guò)羅大佑現(xiàn)場(chǎng)演唱會(huì)的人,對(duì)上海大眾某款汽車的興趣度比其他人高出30%。經(jīng)過(guò)分析,這款汽車的受眾是35歲左右,希望提高生活品質(zhì)的居家型男性,這和羅大佑演唱會(huì)的受眾非常一致。
谷歌有一個(gè)名為“谷歌流感趨勢(shì)”的工具,它可以通過(guò)跟蹤搜索詞來(lái)判斷全美地區(qū)的流感情況。如果諸如溫度計(jì)、流感癥狀、胸悶等關(guān)鍵詞出現(xiàn)的搜索頻率很高,谷歌系統(tǒng)就會(huì)進(jìn)行跟蹤分析,創(chuàng)建地區(qū)流感地圖。其結(jié)果與美國(guó)疾病防控中心的報(bào)告大體一致。
有了這些分析,商家就可以找到潛在的客戶,根據(jù)他們的特點(diǎn)和喜好制訂有針對(duì)性的營(yíng)銷方案,促進(jìn)交易的完成。
這種方式不僅對(duì)于企業(yè)是有效的。2011年7月29日,美國(guó)國(guó)會(huì)為是否提高國(guó)家債務(wù)上限進(jìn)行了激烈辯論。奧巴馬一天內(nèi)連續(xù)發(fā)出十多個(gè)推特,要求他的粉絲采取行動(dòng),向議員施壓。但當(dāng)天晚上,奧巴馬卻發(fā)現(xiàn)自己的推特流失了三萬(wàn)多名粉絲。經(jīng)過(guò)調(diào)查后,奧巴馬發(fā)現(xiàn),原因就在于很多人對(duì)這個(gè)話題并不感興趣,他們認(rèn)為總統(tǒng)在給他們發(fā)送垃圾信息。2012年奧巴馬宣布再次參選總統(tǒng)后,立即重新改版了他的個(gè)人網(wǎng)站,全力提高數(shù)據(jù)分析能力,使其能夠充分了解不同選民的關(guān)注點(diǎn)。
思維的革命
大數(shù)據(jù)時(shí)代,我們不僅擁有更多更全的數(shù)據(jù),而且對(duì)數(shù)據(jù)本身的理解也發(fā)生了革命性的變化,這一變化顛覆了千百年來(lái)人類的思維慣例。
在過(guò)去一百多年里,統(tǒng)計(jì)學(xué)家一般是采用抽樣分析,用少量數(shù)據(jù)說(shuō)明問(wèn)題。因?yàn)槟菚r(shí)還不具備采集、儲(chǔ)存和處理海量數(shù)據(jù)的手段,是“小數(shù)據(jù)”時(shí)代。對(duì)“小數(shù)據(jù)”而言,最基本、最重要的要求就是減少錯(cuò)誤,保證質(zhì)量。因?yàn)槭占男畔⒘勘容^少,一點(diǎn)細(xì)微的錯(cuò)誤就有可能影響整個(gè)結(jié)果的準(zhǔn)確性。
然而,到了大數(shù)據(jù)時(shí)代,隨著數(shù)據(jù)量的大幅增加,一些錯(cuò)誤的數(shù)據(jù)也會(huì)混進(jìn)數(shù)據(jù)庫(kù),這是無(wú)法避免的。假設(shè)你要測(cè)量一個(gè)葡萄園的溫度,如果整個(gè)葡萄園只有一個(gè)溫度測(cè)量?jī)x,那你就必須確保這個(gè)測(cè)試儀是精確的,而且能夠一直工作。但是,如果每棵葡萄樹(shù)都有一個(gè)測(cè)量?jī)x,我們就沒(méi)辦法保證每個(gè)測(cè)量數(shù)字都是精確的,有些測(cè)試的數(shù)據(jù)可能會(huì)是錯(cuò)誤的。不過(guò)沒(méi)關(guān)系,眾多的讀數(shù)合起來(lái)就可以提供一個(gè)更加準(zhǔn)確的結(jié)果。
擁有了大數(shù)據(jù),我們不再需要對(duì)一個(gè)現(xiàn)象刨根問(wèn)底,只要掌握大體的發(fā)展方向即可。這不僅表現(xiàn)在精確度上,更表現(xiàn)在對(duì)因果關(guān)系的理解上。尋找因果關(guān)系是人類長(zhǎng)久以來(lái)的習(xí)慣,我們常常喜歡問(wèn)“事情為什么這樣,而不是那樣”,以便對(duì)癥下藥。但到了大數(shù)據(jù)時(shí)代,追求因果關(guān)系耗費(fèi)太大,用途卻不大。如果A和B經(jīng)常一起發(fā)生,我們只需要注意到如果B發(fā)生了,就可以預(yù)測(cè)A也發(fā)生了,而不必考慮事情發(fā)生的原因。比如,你要經(jīng)過(guò)一條經(jīng)常堵車的高速公路,我能告訴你這條路什么時(shí)候會(huì)堵;當(dāng)你堵在路上時(shí),我會(huì)告訴你什么時(shí)候會(huì)通;但我不會(huì)告訴你為什么會(huì)這樣,因?yàn)槲乙膊恢馈?/p>
相關(guān)關(guān)系也許不能準(zhǔn)確地告知我們某件事情為何會(huì)發(fā)生,但是它會(huì)提醒我們這件事情正在發(fā)生。在許多情況下,這種提醒的幫助已經(jīng)足夠大了。如果電子醫(yī)療記錄顯示橙汁和阿司匹林的特定組合可以治療癌癥,那么,能夠治療的原因就沒(méi)有這種治療方法本身來(lái)得重要。
(摘自《大科技·百科新說(shuō)》2013年第9期)