白魚秀+鄭歡歡
摘 要:隨著移動通信業(yè)務的發(fā)展,移動系統(tǒng)積累了大量的客戶業(yè)務數(shù)據(jù),急需發(fā)現(xiàn)各種業(yè)務之間蘊含的內(nèi)在關(guān)系,為企業(yè)管理者提供決策支持。提出采用CRISP-DM模型,對移動GRPS業(yè)務進行關(guān)聯(lián)規(guī)則挖掘,挖掘出GPRS業(yè)務之間的關(guān)聯(lián)關(guān)系。實驗結(jié)果表明,挖掘結(jié)果能發(fā)現(xiàn)潛在的高交叉GPRS業(yè)務。移動營銷人員可以根據(jù)該挖掘結(jié)果對GPRS業(yè)務進行捆綁銷售,獲得更多利潤。
關(guān)鍵詞:CRISP-DM;關(guān)聯(lián)規(guī)則;GPRS;移動通信
中圖分類號:TP302 文獻標識碼:A 文章編號:2095-1302(2017)03-00-03
0 引 言
隨著移動互聯(lián)網(wǎng)的發(fā)展,人們的生活方式發(fā)生了翻天覆地的變化。越來越多的人通過移動互聯(lián)網(wǎng)處理生活中的各個方面,如查找資訊、衣食住行、溝通娛樂、處理工作等[1]。移動業(yè)務維度多,數(shù)據(jù)量大,關(guān)系復雜[2]。GPRS業(yè)務是移動運營商價值鏈中最重要的組成部分之一,是移動運營商在移動基本業(yè)務(話音業(yè)務)的基礎上,針對市場需求開通的可供用戶選擇的智能化業(yè)務[3]。中國移動在其GPRS網(wǎng)絡上推出了彩信、WAP、手機錢包等一系列移動業(yè)務,市場需求極大且前景廣闊。因此各運營商都在積極尋找GPRS業(yè)務方面的殺手級策略,試圖以GPRS業(yè)務應用作為發(fā)展契機,確立市場地位。
但移動GPRS業(yè)務市場占有率不高,帶來的利潤相當微薄,很多客戶都不了解相關(guān)GPRS業(yè)務,導致GPRS業(yè)務的開展工作也不到位。所以必須充分利用移動的海量數(shù)據(jù),運用關(guān)聯(lián)規(guī)則挖掘方法,挖掘出GPRS業(yè)務之間的關(guān)聯(lián)關(guān)系,將數(shù)據(jù)轉(zhuǎn)換成有價值的信息和知識,更好地向客戶提供GPRS服務,發(fā)現(xiàn)更多商機,讓企業(yè)在競爭中處于不敗之地。
1 CRISP-DM數(shù)據(jù)挖掘模型
CRISP-DM(Cross Industry Standard Process for Data Mining,CRISP-DM)模型自提出以來,已逐漸發(fā)展成為指導數(shù)據(jù)挖掘活動的標準。CRISP-DM模型包括商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準備、建立模型、模型評估和模型部署[4],包含了數(shù)據(jù)挖掘的全過程。
CRISP-DM模型如圖1所示。CRISP-DM模型定義了六個階段來指導數(shù)據(jù)挖掘過程,但該順序并非一成不變,在實際操作中,根據(jù)每一個環(huán)節(jié)所產(chǎn)生的結(jié)果來確認要執(zhí)行的階段或特定環(huán)節(jié),有可能導致循環(huán)往復的情況出現(xiàn)[5]。數(shù)據(jù)挖掘是一個以數(shù)據(jù)為中心,循序漸進的螺旋式數(shù)據(jù)探索過程[6]。
商業(yè)理解階段的任務是明確項目的商業(yè)目標。只有對商業(yè)目標充分理解后,才能將有效的商業(yè)問題轉(zhuǎn)化為數(shù)據(jù)挖掘解決的問題,并最終將結(jié)果轉(zhuǎn)化為商業(yè)解決方案[7]。
數(shù)據(jù)理解階段,首先收集原始數(shù)據(jù),然后對數(shù)據(jù)作初步分析[8],熟悉數(shù)據(jù)的特征,識別數(shù)據(jù)的質(zhì)量問題,發(fā)現(xiàn)數(shù)據(jù)庫中各表之間的聯(lián)系,完成數(shù)據(jù)探索。
數(shù)據(jù)準備階段需要對表、記錄和屬性等數(shù)據(jù)做選擇、清洗、重建、合并等工作。這一步驟一般需要反復進行,直至篩選出最終的數(shù)據(jù)集[9]。
建立模型階段是數(shù)據(jù)挖掘中的一個重要過程,需要根據(jù)分析目標選出和應用合適的模型技術(shù),調(diào)整最佳模型參數(shù)。最后通過樣本建立模型對模型進行評估。
模型評估階段旨在徹底評估模型,對整個建模的流程進行梳理,確保模型可以完成業(yè)務目標。若發(fā)現(xiàn)有重要業(yè)務問題沒有考慮周全,甚至還需要返回之前的步驟對挖掘過程重新定義[10,11]。
模型部署階段是客戶用建立的模型去解決實際中遇到的問題,并根據(jù)需求進行監(jiān)督、維持、產(chǎn)生最終報表、重新評估模型等過程。
2 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是由R.Agrawal[12]等人于1993年提出的,是數(shù)據(jù)挖掘的重要內(nèi)容之一。它側(cè)重于確定數(shù)據(jù)中不同領域之間的關(guān)系,即從事務數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫中找出滿足事先給定最小支持度和最小置信度的多個域之間的依賴關(guān)系。關(guān)聯(lián)規(guī)則強度通過支持度和置信度度量[13]。支持度為規(guī)則中所有項在事務中出現(xiàn)的頻度,表示在整個數(shù)據(jù)庫的重要性,置信度規(guī)則中左邊的項(集)的出現(xiàn)暗示右邊的項(集)出現(xiàn)的頻度,反映其可靠程度。只有支持度和置信度均較高的關(guān)聯(lián)規(guī)則才是用戶感興趣的、有用的關(guān)聯(lián)規(guī)則[14]。
關(guān)聯(lián)規(guī)則作為數(shù)據(jù)挖掘領域的一項關(guān)鍵技術(shù),主要用來發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中令人感興趣的聯(lián)系。沃爾瑪超市對其顧客的購物行為進行購物分析,發(fā)現(xiàn)了“啤酒和尿布”的關(guān)系。零售業(yè)利用此規(guī)則,幫助他們發(fā)現(xiàn)新的交叉銷售機會[15]。除購物籃外,關(guān)聯(lián)規(guī)則也可以應用到其他領域,如生物信息學、藥物治療和提高網(wǎng)絡響應速度等方面。
3 基于CRISP-DM 模型GPRS業(yè)務關(guān)聯(lián)規(guī)則應用分析
將CRISP-DM模型應用于移動GPRS業(yè)務的數(shù)據(jù)挖掘中,以移動的GPRS業(yè)務為分析對象,運用關(guān)聯(lián)規(guī)則Apriori算法來挖掘出GPRS業(yè)務之間的關(guān)系。GPRS業(yè)務挖掘過程如圖2所示。
3.1 商業(yè)理解
根據(jù)移動GPRS業(yè)務使用總流量少,使用人數(shù)不多等問題,必須開展GPRS營銷策略,推動GPRS業(yè)務的發(fā)展使用。目前,移動公司主推手機視頻、手機游戲、Mobile Market業(yè)務和手機閱讀四項GPRS業(yè)務,因此要挖掘出客戶特征與這四項業(yè)務之間的關(guān)聯(lián)關(guān)系。從而發(fā)現(xiàn)支持GPRS業(yè)務交叉銷售的候選業(yè)務和潛在的客戶群體,對特定客戶群推薦GPRS業(yè)務,以進一步提升客戶保有率和滿意度。
3.2 數(shù)據(jù)理解
確定了數(shù)據(jù)挖掘需要解決的問題后,首先收集原始數(shù)據(jù),充分熟悉各表中的屬性內(nèi)容和各表之間的關(guān)系與結(jié)構(gòu),確定數(shù)據(jù)支持數(shù)學建模的可行性。
本文從移動數(shù)據(jù)庫部分數(shù)據(jù)表中抽取如下數(shù)據(jù)信息:
(1)個人信息表:客戶姓名、手機號、客戶屬性、性別、出生日期、聯(lián)系地址、證件號碼、開戶日期、地區(qū)編號、付費方式、銷戶日期等。
(2)話單數(shù)據(jù)表:手機號、呼叫類型、對方號碼、通話開始時間、通話時長、地區(qū)號、對方所在區(qū)號、漫游類型、長途類型、長途分組、IP電話類型、業(yè)務類型等。
(3)賬單信息:手機號、賬單開始日期、結(jié)束日期、賬單總金額、月租費、月租功能費、滯納金、最后付費日期、銷賬日期、積分情況等。
(4)GPRS業(yè)務:終端管理(DM)、快訊(DCD)、widget平臺、手機報、航信通、手機錢包、手機視頻業(yè)務、12530WAP門戶、彩信相冊WAP訪問、音樂隨身聽、中央音樂平臺全曲下載平臺、手機醫(yī)療、手機閱讀、掌上營業(yè)廳、手機電視MBBMS、網(wǎng)信平臺試點、手機飛信WAP網(wǎng)站、飛信、WAP統(tǒng)一門戶、號簿管家、條碼識別、Mobile Market業(yè)務、車e行及手機導航、游戲業(yè)務。
移動數(shù)據(jù)庫中數(shù)據(jù)表紛繁復雜,而且很多屬性都不是挖掘目標所需要的。根據(jù)GPRS業(yè)務挖掘目標,深入分析了移動數(shù)據(jù)庫中與此次挖掘相關(guān)的18張表,最終在11張表中完成屬性探索,確定了10個與此次挖掘主題相關(guān)的屬性集。
{客戶品牌(attr_name),客戶年齡(age),在網(wǎng)時長(tenure),性別(sex),三個月平均消費額(all_charge),三個月平均數(shù)據(jù)業(yè)務費(data_charge),手機視頻(flash),手機閱讀(reader),手機游戲(game),Mobile Market業(yè)務}
用戶品牌中“1”代表全球通品牌,“2”代表神州行品牌,“3”代表動感地帶品牌。入網(wǎng)時長單位為月。
上述確定的10個屬性中的6個客戶特征屬性與客戶是否使用GPRS業(yè)務密切相關(guān),這6個屬性的信息基本可以描述一類客戶群的特征。因此選取這6個屬性作為分析GPRS客戶特征的關(guān)鍵屬性。
3.3 數(shù)據(jù)準備
數(shù)據(jù)準備主要在建模前完成對數(shù)據(jù)的清洗和預處理工作,它在數(shù)據(jù)挖掘中起著至關(guān)重要的作用,因為數(shù)據(jù)的質(zhì)量直接影響最終數(shù)據(jù)挖掘的結(jié)果。本次挖掘從移動數(shù)據(jù)庫中抽取1,2,3月份的數(shù)據(jù),并以3月份的數(shù)據(jù)為基準,把3月份的數(shù)據(jù)作為樣本集,1,2,3月份的數(shù)據(jù)作為母本,對比樣本集中各屬性的分布與母本的分布,確定分布相一致,最終將3月份的數(shù)據(jù)作為本次關(guān)聯(lián)規(guī)則挖掘的基本數(shù)據(jù)。但直接抽取的原始數(shù)據(jù)通常是不完整、有噪聲和冗余的,不適合直接用來進行數(shù)據(jù)挖掘,所以需要對這些數(shù)據(jù)集進行預處理。主要完成以下幾方面的處理:
(1)缺失值處理。例如客戶年齡,因為很多客戶在辦理業(yè)務時不愿意透露自己的年齡,經(jīng)常隨意填寫或者不填。但移動辦理業(yè)務必須提供自己的身份證號碼,所以通過客戶的身份證號碼使用SQL語句修正客戶的年齡屬性,這樣客戶年齡屬性的正確率就可以提升到百分之八九十左右??蛻舻男詣e屬性也可以通過客戶的身份證號碼來修正。對于屬性較為重要但含有較多缺失值的數(shù)據(jù),可通過已知數(shù)據(jù)精確計算或用通過統(tǒng)計得到的數(shù)據(jù)替換當前丟失的數(shù)據(jù),均值替代缺失值;當屬性不重要且含有很多缺失值時,忽略該屬性;當屬性有少量缺失值時可以刪除帶有缺失值的記錄。
(2)異常值處理。異常值為重復記錄,不正確的屬性值。應直接刪除停機客戶、通話時長為負值的記錄。
(3)數(shù)據(jù)簡約處理。由于原始數(shù)據(jù)缺乏統(tǒng)一的標準和定義,所以存在大量冗余屬性,冗余屬性是指一個屬性可以從其他屬性中推演出來。例如入網(wǎng)時間和在網(wǎng)時長,顯然在網(wǎng)時長可以通過入網(wǎng)時長推算出來。
(4)衍生屬性處理。在數(shù)據(jù)理解階段選取的10個字段中,產(chǎn)生2個衍生變量,即三個月平均消費額,三個月平均數(shù)據(jù)業(yè)務費。
(5)數(shù)據(jù)集成處理。將數(shù)據(jù)庫中多個數(shù)據(jù)表中的數(shù)據(jù)進行合并處理,整合存放到一個一致的數(shù)據(jù)表中。
由于移動公司一個月提取的數(shù)據(jù)量有31萬左右,數(shù)據(jù)量過于龐大,從算法的效率考慮,采用隨機采樣原則。最終確定了一個含有10維8 000條記錄的數(shù)據(jù)集,10維屬性即為圖3所確定的屬性。部分數(shù)據(jù)集如圖3所示。
3.4 建立模型
數(shù)據(jù)挖掘建模就是從歷史數(shù)據(jù)和結(jié)果中找出深層的關(guān)系和規(guī)律。使用數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則Apriori算法對數(shù)據(jù)準備階段產(chǎn)生的對象數(shù)據(jù)集進行挖掘。
針對手機視頻,手機閱讀,Mobile Market業(yè)務和游戲業(yè)務,設定最小支持度min_sup=10%,最小置信度min_conf=50%,運用Apriori算法挖掘這四種業(yè)務之間的關(guān)聯(lián)性。最終得到的部分挖掘結(jié)果如表1所列。
從挖掘結(jié)果中可以發(fā)現(xiàn)GPRS業(yè)務之間有趣的關(guān)聯(lián)關(guān)系,同時使用手機視頻和手機閱讀的客戶占總客戶的18%,同時使用這兩種業(yè)務的客戶占使用手機視頻客戶的85%。由此說明,手機視頻業(yè)務和手機閱讀業(yè)務之間的關(guān)聯(lián)強度比較大,喜歡手機視頻業(yè)務的客戶也比較喜歡手機閱讀業(yè)務。
3.5 評估模型
模型結(jié)果產(chǎn)生后,要對模型結(jié)果反映的數(shù)據(jù)關(guān)系進行科學的分析與評估,為此對上述關(guān)聯(lián)規(guī)則挖掘得到的模型進行全面評估。采用4月份的數(shù)據(jù)來檢驗模型,若檢驗后得到一致的挖掘結(jié)果,則說明建立的模型得到的結(jié)果符合實際客觀規(guī)律。在此基礎上,由移動領域的專家對該模型的有效性進行了評價,證明該模型具有很好的可行性。
3.6 模型發(fā)布
建立的數(shù)學模型不僅要通過指定樣本檢驗,還要通過應用問題的結(jié)果評估,即將模型應用到實踐活動中,對模型的挖掘結(jié)果展開應用,從而有效促進解決實際問題的決策工作。
通過分析可以看出,基于關(guān)聯(lián)規(guī)則的GPRS業(yè)務數(shù)據(jù)挖掘主要是從業(yè)務角度發(fā)現(xiàn)各業(yè)務之間的關(guān)系。通過挖掘結(jié)果發(fā)現(xiàn)潛在的高交叉GPRS業(yè)務,將模型挖掘結(jié)果導出為報表文件,幫助營銷策劃人員開展精準營銷活動。
可以開展的營銷策略:
(1)短信電話營銷。根據(jù)挖掘結(jié)果向已開通某一業(yè)務的客戶主動推薦另一種關(guān)聯(lián)強度比較高的業(yè)務,引導其開通相關(guān)聯(lián)的業(yè)務。
(2)業(yè)務捆綁銷售。根據(jù)挖掘結(jié)果、業(yè)務之間的關(guān)聯(lián)關(guān)系,設計出相應的業(yè)務捆綁銷售套餐,從而促進業(yè)務的開展使用。
4 結(jié) 語
本文使用CRISP-DM模型進行GPRS業(yè)務數(shù)據(jù)挖掘,證明了方法的可行性和實用性,并得到了GPRS業(yè)務之間的關(guān)聯(lián)關(guān)系,對營銷實踐和營銷策劃起到重要的指導和輔助決策作用。該挖掘結(jié)果模型已應用于某移動公司的GPRS業(yè)務營銷。實際應用表明,該挖掘結(jié)果具有較好的實用性,推動了市場GPRS業(yè)務的需求與發(fā)展,對移動領域的發(fā)展具有較為重要的現(xiàn)實意義。
參考文獻
[1]海天電商金融研究中心.一本書讀懂移動大數(shù)據(jù)商業(yè)營銷[M].北京:清華大學出版社,2016.
[2]鄢兵安.電信行業(yè)海量用戶數(shù)據(jù)稽核方法及系統(tǒng)研究[J].攀枝花學院學報,2014(5):97-99.
[3]童建飛.數(shù)據(jù)挖掘在電信移動客戶行為分析中的應用研究[D].南昌:南昌大學,2010.
[4]武森,程鍇,陳鳳潔.聚類分析在電信客戶細分中的應用[J].技術(shù)經(jīng)濟與管理研究,2008,156(1):10-12.
[5]任謙.基于Clementine軟件的電信客戶流失分析及預警[D].北京:北京郵電大學,2012.
[6]薛薇.基于SPSS Modeler 數(shù)據(jù)挖掘方法及應用 (第二版)[M].北京:電子工業(yè)出版社,2014.
[7]李佳林,徐亮.建立CRISP-DM模型分析移動用戶離網(wǎng)情況[J].通信企業(yè)管理,2016(6):72-74.
[8]郭鑫.基于CRISP-DM的流程可視化數(shù)據(jù)挖掘工具的研究與實現(xiàn)[D].上海:東華大學,2009.
[9]華苗苗.利用CRISP_DM模型規(guī)范企業(yè)兩化融合過程中的數(shù)據(jù)開發(fā)利用[J].中國高新技術(shù)企業(yè),2015(21) :29-30.
[10]紀希禹.數(shù)據(jù)挖掘技術(shù)應用實例[M].北京:機械工業(yè)出版社,2009.
[11]宋凱,王開祥.關(guān)聯(lián)規(guī)則在電信業(yè)務交叉銷售中的應用[J].沈陽理工大學學報,2015,34(4):75-79,83.
[12] Rakesh Agrawal,Tomasz Imielinski, Arran Swami.Mining association rules between sets of items in large database[C].In: Proceedings of ACM SIGMOD Conference on Management of Data. Washington,D.C,1993:207-216.
[13]駱凡,彭艷兵.一種基于apiori算法改進的knn文本分類方法[J].電子設計工程,2016,24(7):1-3.
[14]王愛平,王占鳳,陶嗣干,等.數(shù)據(jù)挖掘中常用關(guān)聯(lián)規(guī)則挖掘算法[J].計算機技術(shù)與發(fā)展,2010,20(4):105-108.
[15]張震.論數(shù)據(jù)挖掘技術(shù)在公共危機管理系統(tǒng)中的應用[D].長春:吉林大學,2005.