畢佳佳
(安徽職業(yè)技術學院信息工程學院,合肥 230011)
隨著移動互聯(lián)網(wǎng)時代的到來,移動用戶每天都會產(chǎn)生大量的網(wǎng)絡數(shù)據(jù)。這些數(shù)據(jù)中隱藏著很高的價值,對于商家而言,如何從大量的數(shù)據(jù)中挖掘出有價值的信息,提高其商業(yè)價值,是一個具有意義的挑戰(zhàn)。對于運營商而言,語音收入正在大幅度下降,但其擁有大量的客戶群體,每個用戶每天都會產(chǎn)生大量的行為數(shù)據(jù),這些數(shù)據(jù)都會存儲在運營商的系統(tǒng)數(shù)據(jù)庫中。運營商可以根據(jù)不同的業(yè)務數(shù)據(jù),從不同的運營方向挖掘用戶的不同價值,提高運營商自身的利益及競爭力。因此,如何在經(jīng)營過程中將用戶數(shù)據(jù)變現(xiàn),提高經(jīng)營價值是其核心問題。
移動用戶上網(wǎng)時的行為表現(xiàn)往往會具有一般的規(guī)律性,運營商可根據(jù)用戶的不同規(guī)律性,有針對性地進行精準營銷。針對移動用戶的上網(wǎng)行為數(shù)據(jù)進行挖掘,挖掘出不同用戶的不同規(guī)律,分析用戶的上網(wǎng)偏好,給用戶打上偏好標簽,為后期精準化營銷奠定基礎。
本文使用某運營商業(yè)務系統(tǒng)的用戶行為數(shù)據(jù),結(jié)合對各網(wǎng)站及社交媒體進行爬取的數(shù)據(jù)進行解析,經(jīng)過數(shù)據(jù)處理以后,使用聚類算法K-means 對用戶在互聯(lián)網(wǎng)上的行為偏好進行挖掘。
為了精確地分析移動用戶的互聯(lián)網(wǎng)偏好,豐富分析使用的數(shù)據(jù)類型和規(guī)模,本文利用當下流行的爬蟲技術,結(jié)合容器化及智能化手段,完成各類網(wǎng)站及社交媒體信息的爬取,為上層應用提供基礎數(shù)據(jù)支撐能力。爬蟲技術包括微信及微博爬蟲、規(guī)則爬蟲、自動化爬蟲、定制爬蟲等,涵蓋的信源類型包括新聞、論壇、微博、微信、博客、商機、商家等。本文通過爬蟲技術采集了9 萬條url 信息,同時建立了URL/UA配置庫。
本文采用基于DPI技術,結(jié)合URL/UA 配置庫,對用戶上網(wǎng)日志數(shù)據(jù)進行解析。DPI是一種深度報文解析技術,可解析用戶網(wǎng)站訪問及app使用情況。本文通過該技術從爬取的用戶上網(wǎng)日志數(shù)據(jù)中解析出16 萬款App,涵蓋了金融、購物、游戲、娛樂、閱讀等800大類信息。通過對網(wǎng)頁內(nèi)容解析后,從9 萬條url 信息中識別出圖書、視頻、音樂、資訊、商品等類型數(shù)據(jù)。
將用戶上網(wǎng)的數(shù)據(jù)解析后,與其通信行為數(shù)據(jù)進行關聯(lián)匯總,形成用于挖掘用戶行為偏好的初始數(shù)據(jù)。數(shù)據(jù)見表1,主要包括性別、年齡基本信息,上網(wǎng)時間、流量、套餐、ARPU等通信行為數(shù)據(jù),以及從上網(wǎng)數(shù)據(jù)中解析的應用名稱、應用分類1級、2級等信息。
通過對表1進行數(shù)據(jù)挖掘,分析用戶上網(wǎng)影響因素,從而細分用戶群體,為精細化營銷奠定基礎。
表1 用戶行為偏好分析初始數(shù)據(jù)
為了方便快速地對用戶行為數(shù)據(jù)進行分析,提供有效的決策支撐,需要對數(shù)據(jù)進行預處理,提高數(shù)據(jù)的質(zhì)量,保證挖掘的效果。
首先對初始數(shù)據(jù)按照以下經(jīng)驗規(guī)則進行粗粒度的分類,形成訓練樣本。
(1)將按照年齡層次劃分以下四部分:小于20 為少年,20~30 為青年,30~50 為中年,大于50為老年。
(2)將上網(wǎng)時間按照時間段劃分為以下五個部分:9:00 之前為上班途中,9:00~12:00為上午,12:00~17:00為下午,17:00~19:00為下班歸途,19:00~24:00為晚上。
(3)根據(jù)上網(wǎng)日期可劃分為工作日、節(jié)假日、周末三種類別。
(4)將ARPU 大于200 元劃分為高消費用戶。
(5)按照上網(wǎng)天數(shù)劃分:1~10 號為上旬,10~20為中旬,20~30為下旬。
(6)按照流量劃分:0~100 M 為低流量用戶,100 M~2 G為中流量用戶,大于2 G為高流量用戶。
經(jīng)過預處理后數(shù)據(jù)如表2所示,由“性別”、“年齡”、“上網(wǎng)日期”、“上網(wǎng)時間段”、“日期類型”、“流量”、“應用名稱”、“應用分類1 級”、“應用分類2 級”、“套餐”、“ARPU”11 個特征構成。其中,“ARPU”值為運營商每月從用戶身上所獲取的利潤。
表2 上網(wǎng)記錄預處理后的數(shù)據(jù)
聚類是一種無監(jiān)督的學習算法,根據(jù)“物以類聚”的思想將數(shù)據(jù)對象按照相似性進行分類,使得同一組內(nèi)的數(shù)據(jù)對象之間的距離盡可能地小,組間數(shù)據(jù)對象之間的距離盡可能地大。
本文采用基于劃分的聚類算法K-means 對用戶行為數(shù)據(jù)進行挖掘。K-means 算法簡潔高效,原理簡單、易于實現(xiàn),運行效率快,可適用于大規(guī)模的數(shù)據(jù)挖掘。K-means 的基本思想是把數(shù)據(jù)集劃分為個簇,每個簇內(nèi)部的樣本數(shù)據(jù)之間都非常的相似,而不同簇之間的樣本數(shù)據(jù)之間差異性很大。K-means 算法聚類的過程以圖1 為例,該示例將用戶的Arpu 和流量兩個特征聚成2組。
圖1 K-means聚類過程示例
步驟如下:
(1)確定=2,將用戶聚成兩組;
(2)任選兩個數(shù)據(jù)作為初始聚類中心點,如圖1中第二個子圖中的圓形數(shù)據(jù)點;
(3)分別計算剩余數(shù)據(jù)對象與兩個初始聚類中心點的距離,距離哪個中心點近,就指派到哪個簇中,最終形成兩組初始的簇;
(4)根據(jù)劃分的兩個簇內(nèi)數(shù)據(jù),分別計算兩個簇內(nèi)樣本數(shù)據(jù)的特征均值,來更新兩個聚類中心點;
(5)重復步驟(3),直到聚類中心點不再發(fā)生變化或變化很小,或者人工設置迭代次數(shù),提前終止迭代更新。
通過K-means 算法將用戶行為數(shù)據(jù)的不同特征聚成不同的類別。根據(jù)聚類中心結(jié)果的特點,結(jié)合專家經(jīng)驗,給用戶打上不同的標簽。通過實驗分析發(fā)現(xiàn),“客戶興趣”概念的標簽可能是“游戲愛好者”、“閱讀愛好者”或者“視頻愛好者”,“游戲愛好者”的游戲偏好可能是“王者榮耀”,用戶上網(wǎng)的時間段集中在19:00~24:00。用戶更喜歡在周末或放假期間觀看視頻;通過ARPU 值對用戶的消費等級進行評估;通過上網(wǎng)天數(shù)觀察用戶為高頻次、中頻次或低頻次活躍用戶。這些實驗結(jié)果分析用來進一步指導產(chǎn)品的實際運營工作。
本文首先采用DPI 技術實現(xiàn)對移動用戶上網(wǎng)日志數(shù)據(jù)進行解析,再結(jié)合用戶基本通信信息,形成用于挖掘偏好的初始數(shù)據(jù)。為了提高數(shù)據(jù)質(zhì)量,對初始數(shù)據(jù)進行了預處理,對處理后的數(shù)據(jù)采用聚類的算法將用戶分成不同的類型,挖掘用戶的偏好標簽,為進一步指導產(chǎn)品的運營工作提供了支撐。