孫泠
提起數(shù)據(jù)挖掘,你馬上會條件反射般想到“啤酒和尿布”?
20年前,沃爾瑪通過對一年多的原始交易數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)啤酒和尿布的銷量具有一定的正相關(guān),原來美國的媽媽們經(jīng)常囑咐她們的丈夫下班以后為孩子買尿布,而丈夫在買完尿布之后順手買回自己愛喝的啤酒……
別傻了,這是商學(xué)院流傳出的教材案例,真假莫辯,更何況沃爾瑪自己從來沒有正式承認(rèn)過他們通過數(shù)據(jù)挖掘和分析發(fā)現(xiàn)了年輕爸爸們的“順手購”習(xí)慣。不過,如今沃爾瑪正在試圖重新“發(fā)明”零售業(yè)。
太陽冉冉升起。美國本土的4000多家沃爾瑪商店、沃爾瑪購物中心和山姆會員店隨著第一縷陽光從東向西的照射,開始了一天的忙碌。
東部時間9:00,顧客首先涌進(jìn)了位于美國東岸新澤西州Newark市郊的沃爾瑪購物廣場。
東部時間9:32,東部沃爾瑪營業(yè)半小時中收集的暢銷商品信息,被快速傳遞到位于中部的德克薩斯州休斯頓市郊的沃爾瑪購物廣場,此時是中部時間8:32。
中部時間8:39,休斯敦沃爾瑪?shù)墓と死瞄_門前的20分鐘,迅速碼放今天的暢銷商品。
……
太平洋時間8:41,位于加州舊金山市郊的沃爾瑪員工拿到的是綜合了前面三個時區(qū)的當(dāng)天最暢銷商品名單。此時已經(jīng)是東部時間中午12點了。
利用從東到西的時差,沃爾瑪創(chuàng)造了“一小時”內(nèi)的數(shù)據(jù)利用奇跡。在這里,數(shù)據(jù)并非躺在數(shù)據(jù)庫里等待靜態(tài)分析,而是如潮水一般,跟隨太陽的走向漫過北美大陸。
從上世紀(jì)80年代起,沃爾瑪就擁有了自己的商用衛(wèi)星系統(tǒng),并建立了世界上最大的民用數(shù)據(jù)庫之一,這正是支撐沃爾瑪占主導(dǎo)地位的核心優(yōu)勢之一。在沃爾瑪IT大廈墻上,創(chuàng)始人山姆沃爾頓寫道:沒有不斷的IT投資就不會有沃爾瑪?shù)某砷L。
沃爾瑪實驗室全球電子商務(wù)總監(jiān)斯蒂芬奧沙利文最近表示,沃爾瑪正著手將全球10個網(wǎng)站整合成一個,同時將前期試點的10節(jié)點Hadoop擴(kuò)展到250個節(jié)點,沃爾瑪甚至還計劃開發(fā)遷移數(shù)據(jù)所需的大數(shù)據(jù)工具并開放其源代碼。這意味著它們的大數(shù)據(jù)引擎已經(jīng)完成預(yù)熱,準(zhǔn)備開足馬力從過去難以利用的大數(shù)據(jù)中淘到金礦。
事實上,當(dāng)沃爾瑪投入巨資開發(fā)大數(shù)據(jù)工具并推動其技術(shù)發(fā)展的時候,我們發(fā)現(xiàn)對大數(shù)據(jù)最熱心的企業(yè)不是IT廠商,如IBM、甲骨文等,而是能直接從大數(shù)據(jù)中獲益的傳統(tǒng)企業(yè),他們已經(jīng)迫不及待,甚至跑到了工廠廠商的前面。
在此之前,沃爾瑪曾進(jìn)行了一系列的收購。包括3億美元收購的Kosmix(沃爾瑪實驗室前身)、OneRiot、Small Society、Social Calenda、Set Direction、Grabble等多家中小型創(chuàng)業(yè)公司。這些創(chuàng)業(yè)公司無一例外的要么精于數(shù)據(jù)挖掘和各種算法、要么在移動社交領(lǐng)域有其專長,這些都是沃爾瑪全面開展社交媒體和移動應(yīng)用大數(shù)據(jù)分析的鋪墊。
沃爾瑪通過Hadoop和其他開源工具分析來自Twitter、Facebook、Foursquare等社交媒體的數(shù)據(jù)源,同時開發(fā)了自己的專有技術(shù)Muppet。對基于FourSquare的簽到數(shù)據(jù),Muppet能實時分析哪家店在黑色星期五的客流量最大。
通過社交基因庫和數(shù)據(jù)分析技術(shù),沃爾瑪不但能夠追蹤社交媒體中對地點、用戶和產(chǎn)品的提及信息,從而優(yōu)化其選貨和備貨的準(zhǔn)確性,還能分析產(chǎn)品、用戶、品牌之間的關(guān)聯(lián),進(jìn)行更有針對性的線上和線下店面的產(chǎn)品推薦。
在社交口碑對消費(fèi)者決策影響力越來越大的今天,對大數(shù)據(jù)卓越的處理能力被看做是企業(yè)在交互時代的必備能力,而通過社交媒體分析深入了解消費(fèi)行為和消費(fèi)心理,已經(jīng)成為企業(yè)為消費(fèi)者提供全新消費(fèi)體驗的必由之路。
15年前,西方科幻小說的主題以SPIME(SPACE+TIME,時空)為主,而現(xiàn)在的每一個人都是終端、都是數(shù)據(jù)采集和發(fā)布的媒介、都是時空交互的結(jié)合體——只要帶著手機(jī),隨時隨地都能找到你。
“Gartner預(yù)測,到2013年,會有33%的商業(yè)智能數(shù)據(jù)來自手持設(shè)備。我覺得Gartner低估了移動在消費(fèi)領(lǐng)域的發(fā)展?jié)摿?,這個數(shù)字應(yīng)該翻一倍……我估計在66%左右?!弊鳛門eradata公司的CTO,寶立明(Stephen Brobst)還是奧巴馬總統(tǒng)委員會的科學(xué)技術(shù)顧問,在加入Teradata之前,他先后創(chuàng)立了三家與數(shù)據(jù)庫以及商業(yè)智能相關(guān)的公司。
10年前,當(dāng)企業(yè)級IT應(yīng)用的重心轉(zhuǎn)向集中式巨型架構(gòu),中間件平臺成為企業(yè)級應(yīng)用的關(guān)鍵,寶立明也曾為數(shù)據(jù)庫的邊緣化而黯然,當(dāng)時的企業(yè)級IT系統(tǒng)封閉而龐大,追求的目標(biāo)是生產(chǎn)、交易數(shù)據(jù)在其中的順暢流轉(zhuǎn)。
今天,企業(yè)的邊界正在消失,各種終端成為采集和發(fā)布信息的媒介。過去的數(shù)據(jù)大多來自企業(yè)內(nèi)部的交易記錄,而現(xiàn)在的企業(yè)數(shù)據(jù)更多的來自防火墻之外。比“66%的商業(yè)智能數(shù)據(jù)來自手持設(shè)備”更嚇人的,是“90%的數(shù)據(jù)是非結(jié)構(gòu)化的,而不是結(jié)構(gòu)化的交易數(shù)據(jù)”。
在企業(yè)內(nèi)部,數(shù)據(jù)從原來為少數(shù)決策者服務(wù)的商業(yè)智能,變成能夠直接指導(dǎo)消費(fèi)者行為的消費(fèi)智能。目前,直接使用沃爾瑪數(shù)據(jù)倉庫的人數(shù)已經(jīng)超過沃爾瑪自己的員工數(shù),原因是其數(shù)據(jù)鏈條向消費(fèi)者和供應(yīng)商兩端延伸,使得更多的人直接在沃爾瑪?shù)臄?shù)據(jù)倉庫中尋找自己需要的數(shù)據(jù)。
如今,采集和發(fā)布數(shù)據(jù)的終端甚至包括一塊電表。2009~2012年間,美國SCE公司為南加州的500萬名用戶安裝了智能電表,這些電表每隔10~60分鐘就會采集一次住宅和商業(yè)客戶的能耗數(shù)據(jù),并在當(dāng)天對這些信息進(jìn)行計費(fèi)和分析。由于電力價格在峰值和谷底時相差很大,用戶也可以設(shè)定提示,到達(dá)設(shè)定的數(shù)額就提示用戶家里能耗過高。
也許你會問:什么樣的科學(xué)怪人才會分析自己的能源消費(fèi)?但是親,在南加州,電力能源的消費(fèi)很貴,有時候甚至?xí)^一個家庭養(yǎng)車的成本。
用戶可以像選擇信用卡額度一樣,選擇限制自己能源消費(fèi)的額度;對電力公司來說,用戶主動選擇深夜開動洗衣機(jī)同樣是好事一件,因為電網(wǎng)在波峰時段承受的壓力被降低了。
數(shù)據(jù)正在成為公司除有形資產(chǎn)、人力資本之外的又一資產(chǎn),利用數(shù)據(jù)的水平將區(qū)分每個行業(yè)的勝者與輸家,是企業(yè)的的最大資源之一。