陳志競,梁伯瀚
(中國電信股份有限公司廣東研究院 廣州 510630)
數(shù)據(jù)挖掘助力精細(xì)化流量經(jīng)營
陳志競,梁伯瀚
(中國電信股份有限公司廣東研究院 廣州 510630)
移動(dòng)互聯(lián)網(wǎng)時(shí)代,移動(dòng)數(shù)據(jù)流量正以前所未有的速度在增長,電信運(yùn)營商面臨著增量不增收、流量套餐滲透率不高、自有移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)推廣難等問題。本文結(jié)合電信運(yùn)營商的實(shí)際案例,介紹運(yùn)用協(xié)同式過濾、社交網(wǎng)絡(luò)分析、決策樹等數(shù)據(jù)挖掘技術(shù)在流量套餐精確營銷、移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)個(gè)性化推薦等流量經(jīng)營重點(diǎn)工作中的應(yīng)用和效果。
流量經(jīng)營;數(shù)據(jù)挖掘;協(xié)同式過濾;社交網(wǎng)絡(luò)分析;決策樹
2011年全國電信主營業(yè)務(wù)增長10%,同期GDP增速為9.2%,全球電信業(yè)的增速也已整體落后于GDP的增速,電信行業(yè)增速緩慢已經(jīng)成為現(xiàn)實(shí),如何尋求新增長是電信運(yùn)營商共同關(guān)心的問題。隨著3G網(wǎng)絡(luò)應(yīng)用的發(fā)展和智能手機(jī)的普及,電信運(yùn)營商流量收入不斷提升,成為它們的收入增長點(diǎn)和主要的收入來源,如近兩年日本NTT DoCoMo和軟銀兩家運(yùn)營商的數(shù)據(jù)收入占比均已超過50%。國內(nèi)電信運(yùn)營商開始越來越重視流量經(jīng)營,各種評(píng)價(jià)流量經(jīng)營健康度的指標(biāo),如總流量、戶均流量、流量活躍率、流量ARPU等,都已紛紛被納入國內(nèi)電信運(yùn)營商的年度考核目標(biāo)中。
區(qū)別于傳統(tǒng)的話務(wù)量經(jīng)營,電信運(yùn)營商的流量經(jīng)營面臨著幾方面的挑戰(zhàn)。首先,流量激增導(dǎo)致流量與收益剪刀差“增量不增收”的挑戰(zhàn),電信運(yùn)營商均承受極大的網(wǎng)絡(luò)流量激增壓力,以AT&T 2007-2010年為例,移動(dòng)數(shù)據(jù)流量增長了8 000%,移動(dòng)用戶數(shù)量增長了54%,移動(dòng)業(yè)務(wù)收入僅增長了52%。其次,電信運(yùn)營商的產(chǎn)業(yè)地位受到挑戰(zhàn),并有邊緣化的趨勢,移動(dòng)互聯(lián)網(wǎng)產(chǎn)業(yè)鏈的各個(gè)環(huán)節(jié)目前都在發(fā)展把握用戶資源的能力,電信運(yùn)營商距離用戶最近的優(yōu)勢已經(jīng)逐漸喪失,同時(shí)網(wǎng)絡(luò)、計(jì)費(fèi)等能力方面的優(yōu)勢也正在受到更大的挑戰(zhàn)。雖然國內(nèi)電信運(yùn)營商做了大量的努力,包括成立移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)運(yùn)營基地,終端預(yù)置自有移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù),但自有業(yè)務(wù)使用率普遍不高。因此,無論電信運(yùn)營商希望在管道層面實(shí)現(xiàn)收入增長,還是在內(nèi)容、應(yīng)用、服務(wù)等層面獲得新增長,都迫切需要加強(qiáng)用戶流量行為洞察,通過精細(xì)化流量經(jīng)營的手段貫徹其智能通道和綜合平臺(tái)的移動(dòng)互聯(lián)網(wǎng)戰(zhàn)略。
然而,精細(xì)化流量經(jīng)營對(duì)數(shù)據(jù)挖掘技術(shù)提出了新的要求。一方面,原始數(shù)據(jù)品類增多,收集難度增大,除了運(yùn)營商計(jì)費(fèi)平臺(tái)的流量詳單以外,很多移動(dòng)互聯(lián)網(wǎng)內(nèi)容應(yīng)用和訪問行為都是非結(jié)構(gòu)化數(shù)據(jù),需要借助各種類似日志采集、URL 探測、深度包檢測(deep packet inspection,DPI)和文本挖掘的創(chuàng)新數(shù)據(jù)分析處理方法。另一方面,隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,用戶行為從個(gè)人需求向社群需求發(fā)展,挖掘技術(shù)熱點(diǎn)方向也隨之改變,如社交網(wǎng)絡(luò)分析(social network analysis,SNA)成為熱點(diǎn)研究方向。最后,對(duì)行為分析的實(shí)時(shí)數(shù)據(jù)應(yīng)用要求也在不斷提高,很多個(gè)性化推薦都要求基于當(dāng)前行為做出最能適應(yīng)用戶當(dāng)前需求的實(shí)時(shí)推薦,需要借助類似基于用戶(user-based)和基于產(chǎn)品(item-based)的各種協(xié)同式過濾算法。
現(xiàn)階段,國內(nèi)電信運(yùn)營商精細(xì)化流量經(jīng)營的主要舉措是開展?jié)摿τ脩舻尼槍?duì)性營銷活動(dòng),培育高流量用戶。其中的針對(duì)性營銷活動(dòng)主要包括流量套餐的精確營銷、智能機(jī)升級(jí)銷售、移動(dòng)互聯(lián)網(wǎng)應(yīng)用的推薦使用等。運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)海量電信客戶數(shù)據(jù)的分析可以幫助運(yùn)營商提高精細(xì)化流量經(jīng)營的效率,基于當(dāng)前的數(shù)據(jù)條件和應(yīng)用需求,筆者曾協(xié)助中國電信股份有限公司廣東分公司做了一些精細(xì)化流量經(jīng)營的實(shí)踐與應(yīng)用,根據(jù)挖掘分析所用的數(shù)據(jù)品類,主要可以劃分為基于用戶消費(fèi)行為數(shù)據(jù)的精細(xì)化流量經(jīng)營和基于終端信息數(shù)據(jù)的精細(xì)化流量經(jīng)營。
在移動(dòng)互聯(lián)網(wǎng)時(shí)代,用戶需求越來越呈現(xiàn)個(gè)性化和多樣化,流量經(jīng)營如果可以在充分了解客戶需求的基礎(chǔ)上,以合適的方式為目標(biāo)用戶提供差異化產(chǎn)品滿足其移動(dòng)互聯(lián)網(wǎng)需求,則可以有效地實(shí)現(xiàn)擴(kuò)大流量用戶規(guī)模、提升用戶流量價(jià)值等目標(biāo)。
移動(dòng)互聯(lián)網(wǎng)用戶興趣愛好分析主要是通過分析用戶的網(wǎng)絡(luò)使用偏好,對(duì)用戶進(jìn)行分類,建立用戶偏好屬性特征標(biāo)簽,再結(jié)合用戶的基本資料、消費(fèi)情況、業(yè)務(wù)訂購情況等信息,篩選出特定業(yè)務(wù)的營銷客戶群,將合適的業(yè)務(wù)推薦給合適的用戶。如圖1所示,客戶偏好屬性特征可以劃分為商務(wù)理財(cái)偏好型、資訊生活偏好型、游戲娛樂偏好型、音樂偏好型等,進(jìn)而可以對(duì)移動(dòng)互聯(lián)網(wǎng)應(yīng)用進(jìn)行梳理,形成相應(yīng)的主題應(yīng)用,如可以對(duì)應(yīng)構(gòu)建音樂偏好、資訊偏好、娛樂偏好、商務(wù)偏好四大類應(yīng)用,對(duì)相應(yīng)用戶進(jìn)行主動(dòng)推薦。
根據(jù)數(shù)據(jù)采集的方式不同,在實(shí)際開展興趣愛好的分析過程中采用了兩種不同的分析方法。
第一種是從系統(tǒng)獲取每個(gè)用戶訪問移動(dòng)互聯(lián)網(wǎng)頁面對(duì)應(yīng)的頁面URL,從中識(shí)別出關(guān)鍵的網(wǎng)站信息,從而分析出用戶上網(wǎng)的行為習(xí)慣,并結(jié)合收入、賬戶、其他產(chǎn)品的使用行為等進(jìn)行用戶細(xì)分。這種方法的前提是要預(yù)先建立并維護(hù)URL數(shù)據(jù)的分類目錄,有可能某些網(wǎng)站的URL需要識(shí)別到第二級(jí)甚至更多級(jí)目錄,由于互聯(lián)網(wǎng)頁面的豐富繁多且更新變化頻密,分類目錄的維系工作對(duì)分析人員而言是一大挑戰(zhàn)。
第二種分析方法則是從系統(tǒng)獲取用戶在搜索引擎所輸入的關(guān)鍵詞內(nèi)容,分析用戶的內(nèi)容愛好,再結(jié)合其他用戶收入、背景信息等對(duì)用戶進(jìn)行分類。這種分析方法的優(yōu)點(diǎn)在于對(duì)用戶偏好內(nèi)容的分類目錄整理維護(hù)較為輕松,缺點(diǎn)是獲取的信息量比頁面URL分析方法要片面一些,因?yàn)樗荒懿蹲降绞褂盟阉饕娴挠脩粜畔ⅰ?/p>
通過分析用戶的興趣愛好,并結(jié)合用戶的業(yè)務(wù)使用情況,投其所好地進(jìn)行針對(duì)性的營銷,事前可以先確定用戶群,從而有效提高營銷成功率,降低成本,避免傳統(tǒng)營銷方式費(fèi)時(shí)費(fèi)力的成本、極易造成用戶的反感等問題。
對(duì)比傳統(tǒng)電信業(yè)務(wù),移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)具有品類多、生命周期短、更新速度快、上線時(shí)間快等特點(diǎn),采用協(xié)同式過濾(collaborative filter)技術(shù)可以建立多業(yè)務(wù)通用的目標(biāo)用戶識(shí)別模型,能有效滿足移動(dòng)互聯(lián)網(wǎng)時(shí)代流量經(jīng)營的要求。
協(xié)同過濾技術(shù)的原理是為每個(gè)用戶計(jì)算尋找其 “鄰居”相似用戶,從用戶的話音行為/價(jià)值、增值業(yè)務(wù)行為/價(jià)值和客戶信息等基礎(chǔ)通信特征出發(fā),通過計(jì)算目標(biāo)用戶和其他用戶之間的相似性,根據(jù)相似度大小計(jì)算出每個(gè)用戶的“鄰居”用戶集合。簡單來說,就是把用戶分成了成千上萬的群,每個(gè)群里面的用戶都是足夠相似的,具備類似的通信行為特征,可以認(rèn)為他們是同一類人。
根據(jù)流量經(jīng)營的具體需要,通過兩種不同的方式開展針對(duì)性營銷活動(dòng)。一種是針對(duì)業(yè)務(wù)或流量套餐尋找潛在目標(biāo)用戶,該業(yè)務(wù)現(xiàn)有用戶的所有鄰居用戶都可以視作該業(yè)務(wù)的潛在目標(biāo)用戶。另一種方式是對(duì)單個(gè)用戶開展差異化的流量提升關(guān)懷,統(tǒng)計(jì)每個(gè)用戶鄰居用戶的移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)的使用情況,向該用戶推薦其鄰居使用頻率高的業(yè)務(wù)或流量套餐。
通過實(shí)踐驗(yàn)證,在某地開展的流量套餐營銷過程中,設(shè)計(jì)了協(xié)同式過濾模型提供名單和隨機(jī)方式兩個(gè)組分別進(jìn)行營銷,結(jié)果發(fā)現(xiàn),采用協(xié)同式過濾名單的營銷響應(yīng)率達(dá)到21.6%,是隨機(jī)方式的2.1倍,如圖2所示。
需要說明的一點(diǎn)是,為提高該業(yè)務(wù)潛在目標(biāo)用戶清單的準(zhǔn)確性,在使用協(xié)同式過濾技術(shù)提取到的潛在目標(biāo)客戶清單的基礎(chǔ)上,還可以應(yīng)用業(yè)務(wù)規(guī)則過濾的方法,將潛在目標(biāo)用戶進(jìn)行二次篩選和過濾,形成最后的目標(biāo)用戶清單。關(guān)于業(yè)務(wù)規(guī)則過濾的內(nèi)容,筆者在2010年第9期《電信科學(xué)》上發(fā)表的《3G移動(dòng)增值業(yè)務(wù)全程精確營銷實(shí)踐》一文中已詳細(xì)描述,在此不作贅述。
隨著社交媒體工具(如微博等)的迅速發(fā)展,社交網(wǎng)絡(luò)分析已經(jīng)成為數(shù)據(jù)挖掘業(yè)界關(guān)注的熱點(diǎn)。社交網(wǎng)絡(luò)分析研究的對(duì)象是個(gè)體之間的關(guān)系。對(duì)電信運(yùn)營商而言,用戶之間相互通過電話和短信所發(fā)生的聯(lián)系,某種意義上代表了他們的社交圈關(guān)系。因此,如何通過研究電信用戶的社交圈關(guān)系,更好地了解用戶的消費(fèi)行為和需求特征,為用戶提供更好的服務(wù),是電信運(yùn)營商開展社交網(wǎng)絡(luò)分析的初衷。電信用戶社交網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
社交網(wǎng)絡(luò)分析在現(xiàn)階段比較成熟的算法主要有兩大類:一類是用戶分群算法;一類是擴(kuò)散分析算法。前者主要是根據(jù)社交關(guān)系把網(wǎng)絡(luò)劃分切割成若干個(gè)群體,并計(jì)算顯示各個(gè)用戶在社交網(wǎng)絡(luò)中的角色,這些角色包括意見領(lǐng)袖、跟隨者、傳播者等;后者是通過建立影響力擴(kuò)散模型,描述用戶在社交網(wǎng)絡(luò)中受其他用戶的影響程度。
在流量經(jīng)營實(shí)踐應(yīng)用中,社交網(wǎng)絡(luò)分析也有兩個(gè)方向:一個(gè)是抓住意見領(lǐng)袖、傳播者等角色用戶,利用他們?cè)谏缃痪W(wǎng)絡(luò)中的特殊身份,開展針對(duì)性的營銷活動(dòng);一個(gè)是基于擴(kuò)散力分析模型,計(jì)算現(xiàn)有用戶對(duì)周邊用戶的影響力,為移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)尋找潛在目標(biāo)用戶。在電信網(wǎng)絡(luò)中,擴(kuò)散力分析可以看作在給定了一些用戶原始狀態(tài)信息,經(jīng)過一段時(shí)間后,所有用戶受到該狀態(tài)用戶的擴(kuò)散影響。例如,已知一批用戶流失,根據(jù)其之前在電信網(wǎng)絡(luò)通話或/和短信構(gòu)成的社會(huì)網(wǎng)絡(luò)關(guān)系,計(jì)算其他用戶在一定時(shí)間后也流失的可能性。
為了驗(yàn)證社交網(wǎng)絡(luò)分析模型的效果,筆者所在的項(xiàng)目團(tuán)隊(duì)選取了擴(kuò)散力分析模型對(duì)流量套餐營銷做實(shí)證。通過選取某地2011年8-9月通話清單建立的社交網(wǎng)絡(luò)擴(kuò)散力分析模型,并選定期間已有流量套餐用戶作為擴(kuò)散源,統(tǒng)計(jì)其他用戶受他們影響的擴(kuò)散得分。10月底的數(shù)據(jù)顯示,擴(kuò)散得分排名較高的前10%用戶使用流量套餐的比例為2.51%,而流量套餐的總體新增比例僅為0.95%,由此可推斷,擴(kuò)散力分析模型輸出的潛在目標(biāo)用戶名單具備更高的營銷成功率。
手機(jī)終端作為用戶使用移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)的載體,是流量經(jīng)營不可忽視的重要組成部分。終端信息數(shù)據(jù)主要包括手機(jī)終端的產(chǎn)品信息、功能信息和位置信息等。需要說明的是,在實(shí)際營銷應(yīng)用過程中,終端信息往往是作為基礎(chǔ)數(shù)據(jù),要與其他系統(tǒng)聯(lián)動(dòng)才能體現(xiàn)其價(jià)值。
為更好地了解高流量用戶的終端選用偏好,有必要開展終端特征與用戶流量價(jià)值的關(guān)聯(lián)關(guān)系挖掘,其中終端特征包括操作系統(tǒng)、內(nèi)存大小、外觀設(shè)計(jì)、價(jià)格檔次、電池容量等。分析的前期需要通過系統(tǒng)獲取到所有用戶的終端特征信息,并提取每個(gè)用戶的流量使用情況后關(guān)聯(lián)形成用戶級(jí)的數(shù)據(jù)寬表。
項(xiàng)目實(shí)踐中,筆者采用了C5.0決策樹模型進(jìn)行關(guān)聯(lián)關(guān)系挖掘,將用戶手機(jī)上網(wǎng)流量作為目標(biāo)變量,篩選了11個(gè)終端參數(shù)變量作為輸入變量。模型結(jié)果顯示,根據(jù)變量對(duì)手機(jī)上網(wǎng)流量的區(qū)隔力,終端參數(shù)變量按照重要性排序分別為屏幕尺寸、攝像頭像素、重量、觸摸屏類型、分辨率、待機(jī)類型、AP主頻、RAM大小、WLAN功能、待機(jī)時(shí)間、手機(jī)價(jià)格。同時(shí),模型輸出了有實(shí)用意義的關(guān)聯(lián)規(guī)則,如圖4所示,再對(duì)原始規(guī)則做進(jìn)一步的提煉后得到兩條關(guān)鍵的高流量用戶規(guī)則,一個(gè)是屏幕尺寸在3.5英寸及以上,另一個(gè)是屏幕尺寸在3.5英寸以下,但具備WLAN功能且重量較輕者。根據(jù)模型輸出的規(guī)則,一方面可以指導(dǎo)運(yùn)營商終端的采購策略,另一方面可以對(duì)符合規(guī)則的低流量用戶進(jìn)行針對(duì)性的營銷活動(dòng)。
用戶更換手機(jī)終端對(duì)運(yùn)營流量經(jīng)營而言是個(gè)重要的時(shí)間機(jī)會(huì),通過實(shí)時(shí)獲取用戶的新終端信息,一方面可以基于新終端相對(duì)舊終端的新功能有針對(duì)性地推薦業(yè)務(wù),如一非智能手機(jī)用戶更換了一款智能手機(jī),運(yùn)營商即可對(duì)用戶推薦一些常用的移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)客戶端,如微博、手機(jī)證券等給用戶安裝使用;另一方面,可以預(yù)先分析每款終端用戶群的移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)使用特征,在用戶更換使用某款終端時(shí),按照該款終端的用戶使用習(xí)慣,給用戶推薦尚未訂購的業(yè)務(wù)。
基于終端位置信息的數(shù)據(jù)挖掘的前景一直被業(yè)界看好,但目前國內(nèi)運(yùn)營商在這方面的應(yīng)用實(shí)踐還不多,是下一步研究的一個(gè)方向。
Help of Data Mining for Delicate Traffic Operation
Chen Zhijing,Liang Bohan
(Guangdong Research Institute of China Telecom Co.,Ltd.,Guangzhou 510630,China)
In the era of mobile internet,mobile data traffic is growing at an unprecedented rate.The telecom operators are facing problems,such as great increase in data traffic but not in income,the penetration of traffic packages is not high,the promotion of its own mobile internet applications is difficult,and so on.This paper is based on the actual case of the telecom operators,and it introduces the use and effect of collaborative filtering,social network analysis,decision tree data mining technology in traffic operation.
traffic operation,data mining,collaborative filtering,social network analysis,decision tree
2012-06-10)