孫曉博
中國(guó)傳媒大學(xué)廣告學(xué)院,北京 100024
?
淺析大數(shù)據(jù)的商業(yè)應(yīng)用與問(wèn)題
孫曉博
中國(guó)傳媒大學(xué)廣告學(xué)院,北京 100024
如今大數(shù)據(jù)的商業(yè)應(yīng)用主要集中在行為標(biāo)簽、智能推薦、管理系統(tǒng)、數(shù)據(jù)整理與展示以及廣告檢測(cè)智能系統(tǒng)等,國(guó)內(nèi)外大量企業(yè)都已經(jīng)開(kāi)始或準(zhǔn)備開(kāi)始利用大數(shù)據(jù)創(chuàng)造新的利潤(rùn)增長(zhǎng)點(diǎn)。雖然大數(shù)據(jù)在商業(yè)應(yīng)用中擁有巨大潛力,但是其在應(yīng)用中也存在一些需要思考的問(wèn)題,包括計(jì)算速度制約全數(shù)據(jù)計(jì)算、海量數(shù)據(jù)的假規(guī)律風(fēng)險(xiǎn)、斷裂數(shù)據(jù)和封閉數(shù)據(jù)以及缺失數(shù)據(jù)。在肯定大數(shù)據(jù)應(yīng)用的進(jìn)步和成果的同時(shí),只有思辨地看到大數(shù)據(jù)應(yīng)用過(guò)程中還存在的誤區(qū),正視當(dāng)下需要思考和解決的問(wèn)題,才能更清晰地理解大數(shù)據(jù)應(yīng)用的商業(yè)邏輯以及局限。
大數(shù)據(jù);商業(yè)應(yīng)用;應(yīng)用誤區(qū)
2008年7月,O’Reilly Media出版了《Beautiful Data》,同年9月《Nature》刊登了“大數(shù)據(jù)”專輯,微軟出版了《第四范式—數(shù)據(jù)密集的科學(xué)發(fā)現(xiàn)》,①首次提出了大數(shù)據(jù)的概念。大數(shù)據(jù)實(shí)際上指的是巨量數(shù)據(jù),即無(wú)法通過(guò)傳統(tǒng)的主流的工具在合理的時(shí)間內(nèi)進(jìn)行提取,整理,分析,并得出有價(jià)值的有指導(dǎo)的信息。IBM將大數(shù)據(jù)的特點(diǎn)總結(jié)為3V:數(shù)據(jù)量大(Volume),種類多(Variety),Velocity(速度快)。在此基礎(chǔ)上,還有人提出另一個(gè)“v”,就是價(jià)值高(Value)。數(shù)據(jù)量如此巨大,如果沒(méi)有科學(xué)地進(jìn)行分析和篩選,那就只能是“白噪聲”,如何在如此“海量”的數(shù)據(jù)里面篩選出有用的信息本身就是一個(gè)在智能信息傳播領(lǐng)域的重要研究課題。本文希望通過(guò)分析當(dāng)前大數(shù)據(jù)在商業(yè)當(dāng)中的應(yīng)用現(xiàn)狀找出其中存在的問(wèn)題。
如今大數(shù)據(jù)在商業(yè)中的應(yīng)用主要是集中在行為標(biāo)簽、智能推薦、客戶管理系統(tǒng)CRM、推廣監(jiān)測(cè)質(zhì)量評(píng)估與防作弊、數(shù)據(jù)整理與展現(xiàn)、廣告監(jiān)測(cè)智能系統(tǒng)等方面。其中有以下幾個(gè)方面的應(yīng)用備受關(guān)注。
首先是智能推薦。決策樹(shù)(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過(guò)構(gòu)成決策樹(shù)來(lái)求取凈現(xiàn)值的期望值大于等于零的概率,評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法,它代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。②以今日頭條為例,它根據(jù)用戶登錄方式的區(qū)別,有2種推薦信息的方式。一種是用戶選擇作為游客身份登陸,今日頭條會(huì)根據(jù)合作媒體的熱點(diǎn)推進(jìn)進(jìn)行推送,隨著用戶的使用和頻次增加,之后的新聞推送會(huì)針對(duì)用戶更有針對(duì)性;另一種是用戶選擇通過(guò)微信、微博或者QQ等方式登陸,今日頭條由此獲取用戶的基本數(shù)據(jù),推薦用戶感興趣的消息,并且在對(duì)新聞消息進(jìn)行評(píng)論的時(shí)候,用戶可以看到自己朋友的評(píng)論,從另一方面增加用戶的互動(dòng)性和親切感,增加了品牌效應(yīng)。這一個(gè)方面的應(yīng)用在一定程度上改變了過(guò)去的大眾傳播模式,開(kāi)創(chuàng)了一個(gè)新的傳播方式,也是精準(zhǔn)傳播的基礎(chǔ)。
第二個(gè)重要應(yīng)用是客戶管理系統(tǒng)CRM。其中的用戶生命周期管理CLM包含客戶獲取、保留、提升價(jià)值等整個(gè)周期的管理。CLM可以通過(guò)預(yù)測(cè)用戶流失機(jī)會(huì),并自動(dòng)推廣活動(dòng)來(lái)實(shí)施。生命周期數(shù)據(jù)分析:首先在客戶的獲取期,首先是潛在客戶識(shí)別,在這個(gè)階段,應(yīng)該判斷客戶的購(gòu)買意向,分析、預(yù)測(cè)潛在市場(chǎng)的規(guī)模及變化,開(kāi)展“拉新”;然后在客戶的提升期,分析在網(wǎng)客戶的業(yè)務(wù)使用情況,了解價(jià)值提升的瓶頸;在客戶的成熟期,分析、跟蹤成熟客戶的忠實(shí)度及深度需求,包括對(duì)新業(yè)務(wù)的需求,會(huì)用到關(guān)聯(lián)性交叉銷售、客戶分群渠道評(píng)估,從而實(shí)施營(yíng)銷策略來(lái)實(shí)現(xiàn)品牌引導(dǎo),在客戶的衰退期,分析、監(jiān)控用戶的使用量變化,需要進(jìn)行客戶流失預(yù)警、客戶關(guān)懷回流和精準(zhǔn)營(yíng)銷,密切了解競(jìng)爭(zhēng)態(tài)勢(shì),制定針對(duì)性營(yíng)銷舉措。
第三是在推廣渠道質(zhì)量評(píng)估與防作弊方面。作為廣告主,選擇讓廣告效用性價(jià)比最高的廣告位是極為重要的,于是大數(shù)據(jù)成為一個(gè)良好的工具。在大數(shù)據(jù)的支持下實(shí)現(xiàn)了常用的互聯(lián)網(wǎng)廣告付費(fèi)機(jī)制CPC、CPS等。當(dāng)然,還做到了更加實(shí)時(shí)的RTB廣告,它在每一個(gè)廣告展示曝光的基礎(chǔ)上進(jìn)行競(jìng)價(jià),就是為一個(gè)出現(xiàn)的PV進(jìn)行一次展現(xiàn)競(jìng)價(jià),出價(jià)高的廣告將被這個(gè)PV看到。③CPC廣告按照每次點(diǎn)擊付費(fèi),如今互聯(lián)網(wǎng)廣告的類型中有80%是CPC廣告。大數(shù)據(jù)還可以幫助解決點(diǎn)擊作弊的預(yù)防與檢測(cè)。爬蟲(chóng)程序以及機(jī)器人作弊程序的泛濫將會(huì)使廣告主被錯(cuò)誤的指標(biāo)所影響做出錯(cuò)誤的決定?;钴S用戶行為判斷是指用戶使用應(yīng)用時(shí),像不像一個(gè)正常的用戶,主要是通過(guò)用戶使用各功能模塊的占比和使用時(shí)長(zhǎng)來(lái)衡量的,包括:點(diǎn)擊率、留存率、整體活躍用戶、活躍用戶行為形狀、集中度和其他產(chǎn)品特有屬性。這些在大數(shù)據(jù)應(yīng)用之前是很難實(shí)現(xiàn)的。
其他方面的大數(shù)據(jù)應(yīng)用在商業(yè)領(lǐng)域廣泛地展開(kāi),已經(jīng)出現(xiàn)了許多成功的案例。在國(guó)外,大數(shù)據(jù)的應(yīng)用已經(jīng)在超市商場(chǎng)里廣泛應(yīng)用起來(lái)。英國(guó)的Tesco采用的是抽樣試驗(yàn)分析、大數(shù)據(jù)推送的方式,只要你進(jìn)行了完整的消費(fèi),他就會(huì)根據(jù)你的消費(fèi)進(jìn)行準(zhǔn)確的廣告推送。又比如時(shí)尚購(gòu)物品牌ZARA,可以結(jié)合陪伴購(gòu)物和監(jiān)視器視頻數(shù)據(jù)來(lái)獲得許多有用的信息,如在某一件衣服面前的駐留時(shí)間和頻次,以便能夠更好地為當(dāng)?shù)乜蛻籼峁└酉矚g的服裝款式和制定更加理想的店內(nèi)購(gòu)物路線設(shè)計(jì)。在國(guó)內(nèi),大數(shù)據(jù)也在商場(chǎng)開(kāi)始應(yīng)用。如劉德寰的國(guó)內(nèi)手機(jī)市場(chǎng)數(shù)據(jù)分析等等。另外,在國(guó)內(nèi)互聯(lián)網(wǎng)企業(yè)巨頭百度、騰訊、阿里巴巴在大數(shù)據(jù)的應(yīng)用方面也是各有千秋,各有優(yōu)勢(shì)。這些陸續(xù)增加的應(yīng)用顯示出數(shù)據(jù)的常用時(shí)代將拉開(kāi)帷幕,因此我們亟需注意大數(shù)據(jù)商用當(dāng)中的問(wèn)題所在。
一方面,大數(shù)據(jù)應(yīng)用自身在技術(shù)上仍然存在著各種各樣的問(wèn)題。
第一類問(wèn)題是標(biāo)簽錯(cuò)誤,僅僅依靠標(biāo)簽抓取的信息有時(shí)候是偏頗不可靠的。標(biāo)簽的設(shè)定往往源于用戶的瀏覽記錄,所以可能會(huì)彈出并不是當(dāng)前使用者所關(guān)注的信息。例如當(dāng)筆者登錄淘寶時(shí),經(jīng)常看到很多關(guān)于中老年寬大衣服的推薦,其實(shí)源于雙11筆者的母親要求筆者查找一些她需要的厚褲子。這種錯(cuò)誤是因?yàn)橄到y(tǒng)把對(duì)我們的標(biāo)簽中某些屬性定義錯(cuò)了,給我們推送了錯(cuò)誤的信息,沒(méi)有達(dá)到精準(zhǔn)投放的效果。
第二類問(wèn)題是算法的缺陷。常見(jiàn)的聚類分析算法有:層次聚類算法,其對(duì)給定的數(shù)據(jù)對(duì)象集合進(jìn)行層次分解,改進(jìn)的層次聚類算法有:BIRCH,CURE和Chameleon等;基于劃分的方法,比如K-MEANS;基于密度的聚類算法,比如:DBSCAN,DENCLUE。比如推送冰箱廣告給采購(gòu)買冰箱的用戶,讓用戶再次購(gòu)買消耗度較小的產(chǎn)品,這樣的廣告推送無(wú)效,且易讓人反感。
第三類嚴(yán)重的問(wèn)題是目前的大數(shù)據(jù)應(yīng)用缺少深度分析。大數(shù)據(jù)時(shí)代最不缺少的就是數(shù)據(jù),可是如何在海量的數(shù)據(jù)中發(fā)掘有用的信息或者說(shuō)發(fā)現(xiàn)知識(shí)是亟需解決的重要問(wèn)題。在算法中要考慮先驗(yàn)知識(shí),相似性量度等問(wèn)題,這些都需要人工定出,只有這樣才能做到在傳統(tǒng)統(tǒng)計(jì)學(xué)與大數(shù)據(jù)、以及智能分析的基礎(chǔ)上得出相對(duì)準(zhǔn)確的決策。
另一方面的大數(shù)據(jù)應(yīng)用問(wèn)題則是人為問(wèn)題。人們對(duì)大數(shù)據(jù)的認(rèn)知和理解上也存在著偏差。
首先,人們?nèi)菀酌ば糯髷?shù)據(jù)的準(zhǔn)確性,其實(shí)海量數(shù)據(jù)也會(huì)呈現(xiàn)出許多假規(guī)律。很多人都知道著名的Google預(yù)測(cè)流感的案例:在甲型H1N1流感爆發(fā)的前幾周,Google的工程師們把5000多條美國(guó)人最頻繁檢索的詞條和美國(guó)疾控中心在2003年至2008年間季節(jié)性流感時(shí)期的數(shù)據(jù)進(jìn)行了比較。④他們的預(yù)測(cè)與官方數(shù)據(jù)的相關(guān)性高達(dá)97%。但是后面的測(cè)試卻越來(lái)越亂,很不準(zhǔn)確,這其實(shí)就是因?yàn)榇髷?shù)據(jù)是重相關(guān)關(guān)系。如果在感冒發(fā)生的時(shí)期,還有一場(chǎng)重要的賽事,或者重大的演唱會(huì),會(huì)有很多人去搜索這些關(guān)鍵詞,這樣搜索賽事和演唱會(huì)就構(gòu)成了感冒預(yù)測(cè)的關(guān)鍵詞,而其實(shí)他們并沒(méi)有關(guān)系。海量數(shù)據(jù)必然含有海量噪聲,如果建模的錯(cuò)誤或算法的優(yōu)化等問(wèn)題,就會(huì)出現(xiàn)全數(shù)據(jù)全相關(guān)的情況,事事都相關(guān)。
其次,人們?nèi)菀酌ば糯髷?shù)據(jù)的全面性,目前許多所謂的大數(shù)據(jù)只是斷裂數(shù)據(jù)和封閉數(shù)據(jù),所以任一封閉數(shù)據(jù)集上的信息種類并不夠豐富。網(wǎng)絡(luò)上其實(shí)數(shù)據(jù)是斷裂的,比如在淘寶上的數(shù)據(jù)只會(huì)被阿里巴巴的系統(tǒng)保存,在百度上搜索的數(shù)據(jù)也只會(huì)被百度保存,同樣的還有騰訊。為什么會(huì)出現(xiàn)這樣的情況,其實(shí)就是由于商業(yè)造成的。雖然現(xiàn)在有了大數(shù)據(jù)交易平臺(tái),但是對(duì)這樣矛盾的又有極其明確的競(jìng)爭(zhēng)關(guān)系的巨頭們,想用戶數(shù)據(jù)這樣重要的大數(shù)據(jù)是絕對(duì)不會(huì)交易的。美國(guó)為了連接這樣的斷鏈和封閉的數(shù)據(jù),在他的公共健康系統(tǒng)的基礎(chǔ)上建立一片“大云”,這片云由所有醫(yī)院公用,這樣最高地提高了效率,但是這是因?yàn)橛烧?fù)責(zé)主導(dǎo),才可能實(shí)現(xiàn),而在商業(yè)上因?yàn)槔娴呐潘?,建設(shè)真正的大數(shù)據(jù)數(shù)據(jù)庫(kù)還有很長(zhǎng)的路要走。
無(wú)論是公共事業(yè)上,還是商業(yè)上對(duì)大數(shù)據(jù)應(yīng)用的各種挖掘和嘗試,都取得了很多矚目的成就,但是我們需要注意的是在大數(shù)據(jù)的應(yīng)用當(dāng)中仍然存在許多需要克服的問(wèn)題。大數(shù)據(jù)在商業(yè)應(yīng)用中得到追捧,一方面它確實(shí)創(chuàng)造很多商業(yè)奇效,可是另一方面,我們也要冷靜地看到因?yàn)樯虡I(yè)利益,商家們都希望大數(shù)據(jù)成為他們新的資本,贏得客戶的信任,從而在很多時(shí)候忽視大數(shù)據(jù)的不足。因此我們?cè)谘芯慨?dāng)中應(yīng)該更加思辨地看待大數(shù)據(jù),一部分看到它發(fā)展的勢(shì)頭,一方面也要清楚認(rèn)識(shí)到它的不足。
[ 注 釋 ]
①王樹(shù)良,丁剛毅,鐘鳴.大數(shù)據(jù)下的空間數(shù)據(jù)挖掘思考.中國(guó)電子科學(xué)研究院學(xué)報(bào),2013,2(1).
②決策樹(shù).百度百科,http://baike.baidu.com/item/%E5%86%B3%E7%AD%96%E6%A0%91.
③雪鷹傳奇.電商大數(shù)據(jù)[M].電子工業(yè)出版社,2014,3:101.
④[英]維克托.邁爾-舍恩伯格,肯尼思.庫(kù)克耶,著,周濤,譯.大數(shù)據(jù)時(shí)代[M].浙江人民出版社,2013,1:3.
孫曉博(1986-),男,天津人,博士研究生,中國(guó)傳媒大學(xué)廣告學(xué)院,從事新媒體產(chǎn)業(yè)研究。
F832.33;TP
A
1006-0049-(2017)12-0007-02