魏武揮
對(duì)于廣告來說,從浪費(fèi)50%到浪費(fèi)49%,都是很值得去投入的事。建立在相關(guān)性而非因果上的大數(shù)據(jù)營銷,不可能讓廣告主從此不再浪費(fèi)廣告,它只能做到:浪費(fèi)得少一點(diǎn)。
國內(nèi)有一家民營航空公司,會(huì)員不下數(shù)百萬,會(huì)員的一個(gè)重要信息是郵箱地址。另外,微博賬號(hào)申請(qǐng)也需要一個(gè)郵箱地址。
通常來說,同一個(gè)郵箱地址意味著航空公司里的會(huì)員和微博里的會(huì)員,應(yīng)該是同一個(gè)人。公司做了一個(gè)篩選,合并出10萬個(gè)用戶來。
然后一家第三方公司的數(shù)據(jù)部門介入,主要任務(wù)是看這10萬會(huì)員的微博用戶,在社會(huì)化媒體上的行為,比如“說”些什么,比如喜歡介入什么樣的話題去轉(zhuǎn)發(fā)評(píng)論,比如喜歡關(guān)注什么樣的商業(yè)賬號(hào)等。研究這類事的原因在于:這個(gè)航空公司很想知道它在社會(huì)化媒體上發(fā)起什么樣的活動(dòng)(以及活動(dòng)所配備的禮品刺激)會(huì)吸引到這10萬會(huì)員參加,成為earned media。
是相關(guān)性而非因果
這個(gè)案例并非嚴(yán)格意義上的大數(shù)據(jù),因?yàn)閿?shù)據(jù)還是不夠海量。不過,它的原理和大數(shù)據(jù)營銷有關(guān):尋求相關(guān)性。
相關(guān)性不是因果,很難得出這樣的結(jié)論:因?yàn)榻?jīng)常坐某某航空公司的班機(jī),所以喜歡參與某某活動(dòng)(反過來也不成立)。但這兩個(gè)變量之間,從普遍意義上講,存在一定的關(guān)聯(lián)。這個(gè)道理就像穿紅襪子和炒股票的關(guān)系,或許有一定的關(guān)聯(lián)系數(shù),但絕不是因果關(guān)系。相關(guān)搞成了因果,差不多和“迷信”就沒有區(qū)別了。
商業(yè)應(yīng)用上,其實(shí)不太需要拼命挖掘因果。你只要知道坐該航空公司班機(jī)和參加特定活動(dòng)之間存在一定概率就行了,至于究竟是為什么,可以暫時(shí)忽略。對(duì)于營銷業(yè)者而言,這個(gè)概率哪怕能提高10%,都是不小的成效。
但問題在于,很多人把相關(guān)等同于因果,這樣的做法會(huì)形成很有些誤導(dǎo)性的結(jié)論。比如說,當(dāng)在這10萬用戶中發(fā)現(xiàn),他們特別喜歡某類活動(dòng),這個(gè)結(jié)論是不具有推廣性質(zhì)的。再新增5萬航空公司微博用戶時(shí),你很難把上述結(jié)論也放他們頭上。因?yàn)檫@里面沒有因果關(guān)系。要確認(rèn)因果關(guān)系,必須經(jīng)過一個(gè)很復(fù)雜的觀察和思考過程,排除所謂“隱性變量”。這不是那么簡單的做一些數(shù)據(jù)分析就可以的。相關(guān)性是因果的前提,但不等于因果。
于是,大數(shù)據(jù)出現(xiàn)了。
大數(shù)據(jù)尋求的是海量數(shù)據(jù),海量到什么份上?就是全樣本。全樣本和抽樣顯然是不同的。過去的研究,由于操作性的關(guān)系,很難做到全樣本,需要去抽樣。抽樣的科學(xué)做法是“隨機(jī)”——不過這一點(diǎn)聽著容易,做起來相當(dāng)困難。
大數(shù)據(jù)首先不是抽樣,它獲得的數(shù)據(jù)是全體樣本數(shù)據(jù),其次它不是在讓用戶回答問題,而是實(shí)打?qū)嵉厝カ@取用戶的“行為”。用戶聲稱對(duì)某活動(dòng)會(huì)有興趣和用戶是否參加了某活動(dòng),顯然后者更能說明問題。
最重要的一點(diǎn)在于,大數(shù)據(jù)分析和抽樣分析的核心區(qū)別在于:前者是動(dòng)態(tài)的,后者是靜態(tài)的。
前文提到,隨機(jī)抽樣方法成本很高,故而它很難每天都去做一次,事實(shí)上,為某個(gè)特定的問題一個(gè)月乃至一個(gè)季度做一次隨機(jī)抽樣,都很難實(shí)施。于是,一個(gè)隨機(jī)抽樣所形成的結(jié)論,其實(shí)是靜態(tài)的,它只能說明在做那次調(diào)研時(shí)的一些相關(guān)性。當(dāng)有新的用戶(樣本)加入時(shí),很難再說明過去的相關(guān)性是否能夠成立,除非,你能找到真正排除了各種隱形變量后的因果關(guān)系。
如果試圖減少成本去做非隨機(jī)抽樣,那么,它的結(jié)論就更沒有推廣意義。當(dāng)新用戶加入后,非隨機(jī)抽樣的結(jié)論基本不能適用。
但大數(shù)據(jù)的分析卻是動(dòng)態(tài)的,每秒都有可能產(chǎn)生一個(gè)新的結(jié)論。讓我們用最常見的亞馬遜購物頁面上的“購買此商品的顧客也同時(shí)購買”來舉例。
這個(gè)部分里的商品是活動(dòng)的,由于新購買的產(chǎn)生,會(huì)導(dǎo)致這個(gè)模塊里的商品可能會(huì)產(chǎn)生變化。不過,這個(gè)模塊也有可能是導(dǎo)致商品集中化購買的重要原因:用戶看到了這個(gè)模塊里推薦的商品而產(chǎn)生購買的可能是很大的(也許他本來就沒有任何購買的念頭,甚至連這個(gè)商品都不曉得)。
大數(shù)據(jù)處理的方式不是探幽細(xì)究型的,挖空心思去想究竟原因?yàn)楹螞]有這個(gè)必要,不過拿出一些結(jié)論來演繹也是會(huì)鬧笑話的:比如吃海參有助于提高智商。大數(shù)據(jù)其實(shí)不需要做什么演繹,它的任務(wù)只是讓你在某一時(shí)刻能做到提升成功率的事,哪怕只有1%。量一大,1%都是極其可觀的。
是動(dòng)態(tài)的非靜態(tài)
回到航空公司的具體案例來。10萬同時(shí)擁有航空公司會(huì)員和微博會(huì)員的人,并非隨機(jī)抽樣而得,故而這10萬人對(duì)于整體數(shù)百萬航空公司會(huì)員而言,沒有代表性。但我們的目標(biāo)不是想尋求坐這家航空公司班機(jī)的人和參與某網(wǎng)絡(luò)活動(dòng)的因果關(guān)系,我們只是想提升一下參與活動(dòng)概率并希望看到更多人會(huì)去轉(zhuǎn)發(fā)某個(gè)活動(dòng)罷了。故而,10萬微博用戶,夠了。
在某一個(gè)時(shí)點(diǎn),跑了一下數(shù)據(jù),大致能看到一些相關(guān)性,于是我們開始設(shè)計(jì)某種活動(dòng),并有針對(duì)性地讓這10萬微博用戶知道,這次獲得的參與度和轉(zhuǎn)發(fā)率,比毫無數(shù)據(jù)支撐背景下的胡亂策劃,成功率應(yīng)該會(huì)高一點(diǎn)。同樣的人力投入,得到了相對(duì)較高效果,這就是數(shù)據(jù)分析的好處。
過了三個(gè)月后,又有需要策劃的活動(dòng),注意,這一次依然需要再跑一次數(shù)據(jù)。因?yàn)闃颖究赡懿恢?0萬了,也許15萬,也可能運(yùn)氣不好有2萬微博用戶已經(jīng)“死亡”,只剩8萬。另外一個(gè)可能是有某些新的外部變量加入,比如出來一種新的商品讓很多人趨之若鶩。這個(gè)時(shí)候拿上一次的數(shù)據(jù)來指導(dǎo)策劃,又是盲人騎瞎馬,夜半臨深淵了。
不同時(shí)點(diǎn),不同目標(biāo)的活動(dòng),都需要再次跑數(shù)據(jù),這可能是大數(shù)據(jù)分析的麻煩之處。
更宏大一點(diǎn)的就是真正意義上的“大數(shù)據(jù)”了。阿里巴巴并購新浪微博,這件事從商業(yè)邏輯上講,一個(gè)是中國最大的消費(fèi)平臺(tái),一個(gè)是中國最大的碎片化言論平臺(tái),兩者數(shù)據(jù)的合并,是頗能挖出更多的相關(guān)性來。
當(dāng)你發(fā)表一條微博時(shí),忽然配套出來了一條廣告。是的,你很煩,感覺又被騷擾了。但從商業(yè)角度而言,如果你過去的煩是一萬次廣告推送才會(huì)有一次點(diǎn)擊,現(xiàn)在變成九千次推送就有一次點(diǎn)擊,都是了不得的進(jìn)步。一萬次為什么會(huì)變成九千次?因?yàn)橐粋€(gè)人的言論和他的消費(fèi)傾向,的確是存在一定相關(guān)性的。
廣告圈里一句名言:我知道我的廣告浪費(fèi)了一半,但我不知道浪費(fèi)了哪一半。對(duì)于廣告來說,從浪費(fèi)50%到浪費(fèi)49%,都是很值得去投入的事。建立在相關(guān)性而非因果上的大數(shù)據(jù)營銷,不可能讓廣告主從此不再浪費(fèi)廣告,它只能做到:浪費(fèi)得少一點(diǎn)。
這就夠了。