陳禹安
自“大數(shù)據(jù)”成為熱門以來,幾乎一夜之間,很多公司都開始標榜自己“具備強大的數(shù)據(jù)挖掘能力”。但實際上,大數(shù)據(jù)正值萌芽期,所謂的大數(shù)據(jù)應用遠遠沒有到達“神乎其神”的程度。
4月21日,亞馬遜中國與新華網(wǎng)聯(lián)合開展“2016全民閱讀調(diào)查”,通過覆蓋全國500多個城市、11800多位受訪用戶的數(shù)據(jù)調(diào)查,并結合多年來對中國市場的深入研究以及讀者在線消費行為的分析,發(fā)布了一份調(diào)查報告。
不過,這份報告的結論卻難有說服力。比如,70后愛讀生活和少兒類圖書,80后對經(jīng)管以及孕產(chǎn)育兒類書籍情有獨鐘。
不同年齡段的讀者在題材選擇上確實會有所不同,但著重突出70后對于生活類和少兒類圖書的熱愛,與身邊的現(xiàn)實情形相差較大。70后中年紀最大的已經(jīng)46歲、最小的37歲,這一頭一尾的差別顯然不能用“愛讀生活和少兒類圖書”來統(tǒng)一。
而且,70后確實可能買少兒類圖書,但未必就是“愛讀”。
顯然,亞馬遜對于數(shù)據(jù)的解讀太過粗疏,也經(jīng)不起推敲。而導致這一結果的原因可能是調(diào)查樣本偏差,也可能是數(shù)據(jù)在采集時就已經(jīng)被污染。
前者是調(diào)查方式的問題,如是后者,則與“數(shù)據(jù)身份歸屬”密切相關,因為無論是通過亞馬遜網(wǎng)站還是kindle采集的信息,都可能無法精準認證。
在互聯(lián)網(wǎng)技術支撐下,數(shù)據(jù)采集已經(jīng)不是什么難題,但針對任何數(shù)據(jù)的分析、評估、研判乃至具體的應用,首先就要明確數(shù)據(jù)的身份歸屬。
也就是說,某一組數(shù)據(jù)到底是由哪一個具體的鮮活個體產(chǎn)生的。
如果數(shù)據(jù)不是由某個確定的單一個體產(chǎn)生的,顯然就無法依據(jù)這種被污染了的數(shù)據(jù)來做出正確的分析,合理的判斷。
這個問題看似簡單,但在現(xiàn)實場景中卻存在著至少兩類數(shù)據(jù)身份歸屬不明的情形。
第一類是數(shù)據(jù)身份錯位。
基于互聯(lián)網(wǎng)技術的商業(yè)應用,往往需要用戶在使用之前進行注冊。
比如,使用Uber、滴滴打車等APP,用戶必須將自己的一些身份信息填寫上傳,才能正常使用。而后臺則根據(jù)這些身份信息,進行對應身份的數(shù)據(jù)分析與挖掘。
但是,因為互聯(lián)網(wǎng)新技術存在著學習門檻,并不是所有有意成為用戶的人都能輕松克服學習的阻抗,只能請求他人幫助或代勞。
記得一次使用Uber叫車服務時,我從手機端看到的信息是一位年輕的女司機,但隨后的電話溝通卻表明是一位年長的男性。等上車進行交談后,才知道這是女兒為了讓退休在家的父親有事可做而注冊了Uber司機賬號,但她是用自己的身份而不是父親的身份注冊。這就造成了數(shù)據(jù)身份錯位。
如果Uber以此賬號來認證這一數(shù)據(jù)身份的行為,就可能出現(xiàn)偏差。
舉一個極端的例子,當這位女士作為乘客享用Uber服務的同時,她(實際上是她的父親,但后臺系統(tǒng)卻無法自動識別)又作為司機在為別的乘客提供Uber服務。
還有一種情形,施以援手者盡管也是以被幫助者本人的身份信息注冊的,但還是有可能夾雜了部分自己的信息。
比如,2015年“雙十二”時,支付寶為了增加用戶,與線下3萬家超市便利店合作,凡使用支付寶支付的,全線五折,50元封頂。
這一優(yōu)惠力度對那些高度價格敏感者(大媽大伯們)的誘惑力不言而喻,但他們大多從來沒有使用過支付寶。
于是,在活動現(xiàn)場,就出現(xiàn)了超市或便利店的收銀員幫助他們下載、安裝、注冊支付寶APP而排長隊的場景。
為了盡快完成,收銀員們并不會完全按照大伯大媽的真實身份信息注冊,而是潦草完成,能略則略,或是直接將某個默認的選擇用之于所有人。這樣的數(shù)據(jù)身份顯然是有瑕疵的。
第二類是數(shù)據(jù)身份共享。
浙江義烏一位經(jīng)商的趙先生,為了方便女兒玩手機,把12歲女兒樂樂的指紋也加入了手機開鎖密碼。不料,樂樂在父親手機里的一款社交K歌APP上聽歌時,竟然在3天內(nèi)打賞出去16萬人民幣。
對于這款APP來說,如果開展后臺數(shù)據(jù)統(tǒng)計分析,一定會將打賞行為視為趙先生本人所為,卻不知道這是她年幼的女兒共享了趙先生的數(shù)據(jù)身份所致。
再以我的親身經(jīng)歷為例。我的孩子有段時間在一個培訓機構補課,中午需要自行解決午餐。于是,用我的身份信息資料以及信用卡注冊的支付寶就成了孩子的支付工具。孩子除了支付中午的外賣之外,也會用支付寶在淘寶上購買一些她所喜歡的小東西。如果將一個小孩的購物行為歸結到大人身上,豈不是張冠李戴?
中國人的個人邊界意識較之于西方人是十分淡漠的。在各種親密關系中,這類數(shù)據(jù)身份共享是一種常態(tài)。諸如丈夫請妻子用自己的淘寶賬號購物,員工用自己的私人賬號為公家采購都是符合中國國情的。但數(shù)據(jù)身份的共享卻為后續(xù)的大數(shù)據(jù)處理帶來了極大麻煩。
這又是另一類型的大數(shù)據(jù)污染。
大數(shù)據(jù)的應用顯然是向著精準預測的方向演進的。據(jù)悉,電商巨頭亞馬遜已經(jīng)申請了預測式發(fā)貨的新專利。亞馬遜會根據(jù)某個用戶之前的訂單、商品搜索記錄、愿望清單、購物車、甚至包括用戶的鼠標在某件商品上懸停的時間等數(shù)據(jù),預測用戶的購物習慣,從而在他實際下單前便將包裹發(fā)出。
顯然,亞馬遜的這一大數(shù)據(jù)應用是建立在歷史數(shù)據(jù)的高純凈度的前提之下的。
如果歷史數(shù)據(jù)因為數(shù)據(jù)身份錯位或共享而被污染,所謂的“用戶畫像”就是失真的,也就不可能成為數(shù)據(jù)分析與預測決策的依據(jù)。
從這個角度來說,要想徹底杜絕大數(shù)據(jù)污染,必須把好“數(shù)據(jù)身份認證關”。這才是大數(shù)據(jù)應用之基。
做不好這項基礎工作的互聯(lián)網(wǎng)公司,就不要急著奢談“強大的數(shù)據(jù)挖掘能力”。而消費者們也要保持清醒,不要輕易相信那些所謂的“大數(shù)據(jù)奇跡”。