陳永東
2014年春運(yùn)期間,百度公司推出了“百度遷徙”項(xiàng)目,其全稱是“百度地圖春運(yùn)人口遷徙大數(shù)據(jù)”。這一大數(shù)據(jù)可視化項(xiàng)目可以提供人口遷徙、實(shí)時(shí)航班、機(jī)場熱度及車站熱度等四大板塊。通過百度遷徙動(dòng)態(tài)圖,我們能直觀地了解遷入人口的來源和遷出人口的去向。
這個(gè)功能利用的是百度地圖的LBS(基于位置的服務(wù))大數(shù)據(jù)技術(shù),并采用動(dòng)態(tài)可視化呈現(xiàn)方式。它不僅可以為政府部門科學(xué)決策提供新的觀察視角和方法工具,同時(shí)還可以為公眾提供近距離接觸大數(shù)據(jù)的機(jī)會。
無獨(dú)有偶。2014年歲末,360瀏覽器也利用大數(shù)據(jù)平臺推出了“中國人還鄉(xiāng)地圖”。2015年春節(jié)期間,360安全中心還利用大數(shù)據(jù)推出了“中國網(wǎng)絡(luò)騙子地圖”,人們可據(jù)此查看全國各地的惡意網(wǎng)站攔截次數(shù)及騷擾電話排行榜。
還有更神奇的故事。一次,美國明尼蘇達(dá)州一家名為塔吉特的大賣場被一位中年男子投訴,他指控塔吉特亂彈琴,居然將嬰兒產(chǎn)品優(yōu)惠券寄給他還是高中生的女兒。但沒多久,該男子卻主動(dòng)致電道歉,因?yàn)榻?jīng)他逼問,女兒承認(rèn)自己確實(shí)懷孕了。其實(shí),塔吉特百貨之所以能夠如此精準(zhǔn)地選定這名高中生投送特需商品廣告,靠的就是大數(shù)據(jù)分析。塔吉特的數(shù)據(jù)分析團(tuán)隊(duì)在查看準(zhǔn)媽媽們的消費(fèi)記錄之后,找出了20多種關(guān)聯(lián)物,通過這些關(guān)聯(lián)物對顧客進(jìn)行“懷孕趨勢”預(yù)測,并寄送相應(yīng)的優(yōu)惠券,為消費(fèi)推波助瀾。
實(shí)際上,看似神秘的大數(shù)據(jù),可能你平時(shí)就曾遇到過,只不過你可能不知道那就是大數(shù)據(jù)的應(yīng)用。例如,你可能剛在某個(gè)購物網(wǎng)站查找或購買了某件商品,然后訪問另一個(gè)網(wǎng)頁時(shí),就有相關(guān)的商品廣告推送給你。這被稱為RTB(Real Time Bidding,實(shí)時(shí)競標(biāo))廣告,其背后就是由大數(shù)據(jù)支撐的。
大數(shù)據(jù)的定義與特點(diǎn)
有人問:究竟什么是大數(shù)據(jù)?美國咨詢界的翹楚麥肯錫咨詢公司對大數(shù)據(jù)的定義是:“大數(shù)據(jù)”(Big Data)是指其大小超出了典型數(shù)據(jù)庫軟件的采集、存儲、管理和分析等能力的數(shù)據(jù)集合。高德納咨詢公司對大數(shù)據(jù)的定義是:需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
“信息資產(chǎn)”的提法,將大數(shù)據(jù)提升到一個(gè)高度,也意味著大數(shù)據(jù)是一座“寶藏”。鑒于大數(shù)據(jù)應(yīng)用的巨大潛力,目前已經(jīng)出現(xiàn)了“數(shù)據(jù)科學(xué)”(Data Science)這一研究分支。甚至,阿里巴巴等公司提出要由IT轉(zhuǎn)向DT(Data Technology)。
其實(shí),多數(shù)人對于大數(shù)據(jù)4V特點(diǎn)中的“Value”,是有理解偏差的。Value指的不是大數(shù)據(jù)價(jià)值高,而是大數(shù)據(jù)中有價(jià)值的信息比例(即密度)并不高。想要搜尋有效信息猶如大海撈針,沙里淘金。
此外,大數(shù)據(jù)顛覆了傳統(tǒng)的統(tǒng)計(jì)工作。過去統(tǒng)計(jì)中常用抽樣調(diào)查法,而大數(shù)據(jù)則天生就是全樣數(shù)據(jù)分析。
大數(shù)據(jù)的魅力何在
為何全世界都這么關(guān)注大數(shù)據(jù)?它主要的魅力源于其廣泛的用途與巨大的價(jià)值,既有商業(yè)用途,又有城市服務(wù)價(jià)值,甚至可以預(yù)防自然災(zāi)害及犯罪行為。
2015年央視“3·15晚會”上曾經(jīng)曝光不少汽車4S店“小病大修”。其實(shí),如果充分利用大數(shù)據(jù),加上提高服務(wù)意識,這一問題就可能比較好地解決,甚至大數(shù)據(jù)還可以救我們一命。方法是在你的汽車各主要部件上安裝相應(yīng)的芯片或傳感器,通過這些遍布全車的傳感器就可以收集車輛運(yùn)行信息并形成基于大數(shù)據(jù)的預(yù)測性分析系統(tǒng)。這樣,在你的汽車關(guān)鍵部件發(fā)生問題之前,它們就會提前向你或4S店或汽車制造商報(bào)警。此舉不僅可以避免店大欺客,而且還對保護(hù)駕乘者的生命安全大有裨益。
事實(shí)上,美國的UPS快遞公司早在2000年就利用這種預(yù)測性分析系統(tǒng)來檢測其遍布全美的6萬多輛車的實(shí)時(shí)車況,以便及時(shí)進(jìn)行防御性修理,此舉大大降低了維修成本。
更有趣的是,大數(shù)據(jù)還曾預(yù)測過美國總統(tǒng)大選結(jié)果,以及奧斯卡各個(gè)獎(jiǎng)項(xiàng)的歸屬。在2012年美國總統(tǒng)選舉中,微軟研究院的David Rothschild就曾使用大數(shù)據(jù)模型,準(zhǔn)確預(yù)測了美國51個(gè)選區(qū)中50個(gè)地區(qū)的投票結(jié)果,準(zhǔn)確率高達(dá)98%。之后,他又通過大數(shù)據(jù)分析,對第85屆奧斯卡各獎(jiǎng)項(xiàng)的歸屬進(jìn)行了預(yù)測,除誤報(bào)最佳導(dǎo)演得主外,其他獎(jiǎng)項(xiàng)全部命中。
大數(shù)據(jù)的商業(yè)用途
大數(shù)據(jù)的商業(yè)用途廣泛,因?yàn)樗梢詭椭碳腋玫亓私庥脩舻呐d趣與消費(fèi)習(xí)慣,從而達(dá)到投其所好或有效改善服務(wù)的目的。
文中之前提到的RTB廣告,就是建立在利用大數(shù)據(jù)了解用戶購買需求前提下的一種精準(zhǔn)信息推送。為了達(dá)到這種精準(zhǔn),通常需要至少三方平臺角色:一是SSP(Supply Side Platform,服務(wù)方平臺,指可提供RTB廣告放置位置的網(wǎng)站);二是DSP(Demand Side Platform,需求方平臺,指接洽RTB廣告投放商的機(jī)構(gòu));三是AD Exchange(廣告交換中心)。
當(dāng)用戶登錄SSP一類的網(wǎng)站時(shí),DSP及AD Exchange立刻就知道誰登錄了,然后DSP就開始從AD Exchange那里提取用戶的基本信息及動(dòng)態(tài)購買習(xí)慣。如果你喜歡購買體育用品,那么就讓若干個(gè)體育用品廣告投放商進(jìn)行實(shí)時(shí)自動(dòng)競標(biāo),誰出的廣告費(fèi)用多,誰的廣告就會出現(xiàn)在你登錄的網(wǎng)站上。這一切只發(fā)生在100~200毫秒的時(shí)間里,所以你根本感覺不出來幕后這一套復(fù)雜的運(yùn)行過程。不同的人登錄同一個(gè)網(wǎng)站,看到的可能是不同的廣告,因?yàn)樗麄兊呐d趣與購買習(xí)慣可能大不同。
如果能在產(chǎn)品生產(chǎn)之前就了解潛在用戶的主要特征,以及他們對產(chǎn)品的期待,那么商家就可以投其所好。例如,Netflix在投拍《紙牌屋》之前,即通過大數(shù)據(jù)分析掌握了潛在觀眾最喜歡的導(dǎo)演與演員,結(jié)果果然捕獲了觀眾的心。
當(dāng)然,也有人擔(dān)心商家、廣告商及RTB廣告的各方會不會侵犯用戶的隱私。的確,這是一個(gè)問題,目前已經(jīng)引起各方的重視,相關(guān)的規(guī)范正在行業(yè)內(nèi)部制定與實(shí)施中。
大數(shù)據(jù)已經(jīng)在許多行業(yè)中大行其道,也有更多的行業(yè)意識到大數(shù)據(jù)的巨大潛力。許多過去沒想到或無法得到的指標(biāo)或規(guī)律,都可能會在大數(shù)據(jù)的支撐下被發(fā)現(xiàn)。大數(shù)據(jù)大有可為!