吳興蛟+吳晟+周海河+劉光榕
摘 要:為了解決數(shù)據(jù)高維、海量導致聚類算法處理效果不佳的問題,提出將流形學習理論引入客戶關(guān)系管理進行聚類研究。為了較好的分析客戶價值,在Kmeans聚類的基礎(chǔ)上引入流形學習理論。客戶價值分析一般包含數(shù)據(jù)的抽取、探索以及預處理、模型建立幾個步驟。在模型建立過程中一般采用Kmeans聚類實現(xiàn)。使用流形學習的譜聚類來替代Kmeans聚類。使用泰迪杯數(shù)據(jù)挖掘大賽中的數(shù)據(jù)進行試驗,通過實驗的雷達圖可以看出,譜聚類與Kmeans聚類具有相似的分類構(gòu)成。同時對于分類后的數(shù)據(jù)進行規(guī)約并繪制散點圖,比較后發(fā)現(xiàn),譜聚類后的數(shù)據(jù)類間相似度比Kmeans高,表明將流形學習方法引入客戶價值分析,對于聚類穩(wěn)定性有一定改善。
關(guān)鍵詞:客戶關(guān)系管理;流形學習;Kmeans聚類;雷達圖;客戶價值分析
DOIDOI:10.11907/rjdk.172314
中圖分類號:TP319
文獻標識碼:A 文章編號:1672-7800(2018)002-0136-04
0 引言
客戶管理通常通過構(gòu)建客戶關(guān)系管理系統(tǒng)進行維護[1]??蛻絷P(guān)系管理一般用來進行客戶與企業(yè)的關(guān)系維持,企業(yè)與客戶的供需推廣。使用客戶關(guān)系管理可以預防用戶流失,也是一種衡量用戶服務程度的科學有效方式。在大數(shù)據(jù)背景下,隨著數(shù)據(jù)挖掘技術(shù)的成熟,使用有效的挖掘手段,從有價值的客戶中尋找高價值客戶群成為一種降低企業(yè)成本,實現(xiàn)高效益的有效手段。數(shù)據(jù)挖掘關(guān)鍵技術(shù)是聚類算法,一般采用kmeans算法進行客戶群聚類,但現(xiàn)行的kmeans聚類對于高維、海量數(shù)據(jù)聚類有一定缺陷。
為了改善這一缺點,本文將流形學習引入,替代之前的Kmeans聚類,從而實現(xiàn)在高維海量數(shù)據(jù)下對客戶進行聚類。聚類算法研究有基于層次、基于分割、基于密度、基于網(wǎng)格和基于模型五個方面[2-4]。引入流形學習不僅解決了高維數(shù)據(jù)處理的難題,也極大簡化了非線性數(shù)據(jù)的處理。
引入流形學習對客戶關(guān)系進行分析與研究,是一種新的改善聚類算法的嘗試,也是一種運用流形學習算法的新方式。
1 相關(guān)理論
1.1 客戶群體聚類分析
企業(yè)用戶數(shù)據(jù)源或數(shù)據(jù)庫中存有的那些用戶消費數(shù)據(jù)是一種無形財富,按用戶的不同屬性(年齡、性別、收入、交易特點)細分為不同群體的過程就是所謂的客戶群體聚類。一般來說,對那些業(yè)務產(chǎn)品以及業(yè)務需求相似的一類群體,會分為同一個群組用戶。換言之,不同的群體之間具有不同的特點,通過客戶細分,企業(yè)就能將繁雜的人員進行匯總,將用戶群體分為固定的幾類。公司決策層就能制定不同的營銷策略以實現(xiàn)高回報的營銷推廣。相關(guān)研究如陳鳳潔[5]運用聚類技術(shù)建立了客戶細分模型,對電信行業(yè)客戶細分進行了實例驗證及研究。一種多因素分析(MFA)的多準則聚類技術(shù)被Abascal等[6]運用于某電信公司的客戶細分模型構(gòu)建。
使用Clementine[7]、SPSS等數(shù)據(jù)挖掘軟件進行管理較多。根據(jù)產(chǎn)生的模型或數(shù)據(jù)建立合理的用戶細分預測模型[8],利用數(shù)據(jù)挖掘聚類技術(shù)進行應用推廣[9]。
1.2 流形學習
流形聚類是解決高維大數(shù)據(jù)問題的算法,近幾年不斷被優(yōu)化,已日漸完善,算法有ISOMAP、LLE[10]、拉普拉斯算子特征映射(Laplacian eigenmaps)[11]、最大方差展開(MVU)[12-14]、局部切空間分析(LTSA)[15-16]等。其中比較典型的是譜聚類算法,譜聚類就是使用樣本間的相似度進行樣本分組的一種方式。
譜聚類[17-18]步驟:①計算每個數(shù)據(jù)節(jié)點與其余數(shù)據(jù)節(jié)點的相關(guān)系數(shù),構(gòu)建相似度矩陣;②將相似度矩陣進行拉普拉斯矩陣構(gòu)建,然后將構(gòu)建的矩陣歸一化;③生成最大的k個特征值和對應的特征向量;④將特征向量使用Kmeans方法聚類。
2 模型建立
對客戶關(guān)系進行聚類分析的步驟如圖1所示。
2.1 數(shù)據(jù)抽取
抽取一定時間段內(nèi)的數(shù)據(jù)作為分析觀測窗口。
2.2 數(shù)據(jù)探索及預處理
對抽取數(shù)據(jù)的缺失值分析與異常值分析,得出數(shù)據(jù)規(guī)律及數(shù)據(jù)異常值的過程稱為數(shù)據(jù)探索。數(shù)據(jù)清洗、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換為其主要過程。
對不符合邏輯的值、空值或者異常值進行清除,是數(shù)據(jù)清洗的必須步驟。對于不相干數(shù)據(jù)、冗余數(shù)據(jù)乃至弱相關(guān)數(shù)據(jù)的篩選屬于屬性規(guī)約工作。不同的數(shù)據(jù)有不同的問題,使用數(shù)據(jù)變換將數(shù)據(jù)轉(zhuǎn)變?yōu)樾枰臄?shù)據(jù)樣式才能作為挖掘模型的數(shù)據(jù)源。一般采用的變換方式是在指標范圍內(nèi)進行數(shù)據(jù)標準化,那些跨越數(shù)量級較大的數(shù)據(jù)容易出現(xiàn)峰值誤差,難以用圖示描述,為消除取值范圍內(nèi)的數(shù)據(jù)差異則采用數(shù)據(jù)標準化。假設(shè)一組長度為N的數(shù)據(jù)x,其平均值為u,使用式(1)進行數(shù)據(jù)標準化:
2.3 模型建立
模型采用譜聚類算法替代kmeans算法對數(shù)據(jù)集進行聚類。
譜聚類算法必須先進行相似矩陣構(gòu)建,將不同維數(shù)或不同構(gòu)型的數(shù)據(jù)進行處理,得到新的n階方陣。在此一般采用矩陣的特征值或結(jié)合矩陣的使用特性構(gòu)建新的方陣。
譜圖理論作為譜聚類方法的基礎(chǔ)方法[19],其基本思想是構(gòu)建一個樣本作為定點,樣本間相似度作為帶權(quán)邊的圖,從而將樣本的聚類問題巧妙轉(zhuǎn)化為圖的分割問題,將問題變成尋找組成邊權(quán)重較低,同時組內(nèi)邊權(quán)重較高的圖分割的一種方法。與傳統(tǒng)的聚類相比,該方法不受聚類形狀的約束,能在任何幾何形狀上進行聚類,同時能收斂于全局,得到全局最優(yōu)解[20]??筛鶕?jù)式(2)構(gòu)造聚類相似矩陣。
(5)計算矩陣L的歸一化矩陣E的k個最大特征值及對應的特征向量,形成一個N×K的特征矩陣,記為Q。
(6)使用Kmeans聚類處理特征矩陣Q,處理后就會獲得一個N維向量C。這個向量對應的舉證W就是最終的聚類結(jié)果。endprint
3 實例驗證
采用泰迪杯數(shù)據(jù)挖掘大賽航空公司客戶數(shù)據(jù),實驗數(shù)據(jù)量為6 000條。使用識別客戶價值的RFM模型[21],指標是最近消費時間間隔、消費頻率、消費金額。采用張良均MATLAB數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[22]一書中的LRFMC模型,并與書中的Kmeans聚類結(jié)果作對比。在原文基礎(chǔ)上增加日期差轉(zhuǎn)化為月份方法,以及繪制雷達圖方法。其中日期差轉(zhuǎn)化為月份得到:
3.1 數(shù)據(jù)抽取
抽取的數(shù)據(jù)包含會員卡號、入會時間、性別、年齡、會員卡等級、工作城市、工作省份、工作國家、觀測窗口結(jié)束時間、觀測窗口乘機積分、飛行公里數(shù)、飛行次數(shù)、飛行時間、乘機時間間隔、平均折扣等44個屬性。
3.2 數(shù)據(jù)探索分析
主要是數(shù)據(jù)缺失值及異常值的探索,分析數(shù)據(jù)的空值及個別數(shù)量為0的無效值。
3.3 數(shù)據(jù)預處理
探索后的數(shù)據(jù)主要出現(xiàn)兩個不合格記錄,一個是票價為空的記錄,另一個是飛行公里數(shù)大于0而票價為0的記錄。
根據(jù)LRFMC模型規(guī)定,使用會員入會時間距離觀測窗口結(jié)束月份L,客戶最后一次乘坐飛機距離觀測窗口月份R,在觀測窗口內(nèi)乘坐飛機次數(shù)F,在觀測窗口內(nèi)累計飛行里程M,在觀測窗口內(nèi)對應折扣系數(shù)平均值C進行分析。由此取其中6列作為原始數(shù)據(jù)。其中除L為式(6)計算所得,其余均為數(shù)據(jù)給出。
得到的數(shù)據(jù)由于最大值與最小值相差甚遠,所以采用式(1)進行規(guī)約,得到ZL,ZR,ZF,ZM,ZC。
3.4 模型構(gòu)建
基于規(guī)約后,對數(shù)據(jù)進行Kmeans聚類以及譜聚類。
3.5 模型對比
聚類中心結(jié)果見表1。
將以上聚類中心在雷達圖上描繪,得到如圖2的直觀圖例。
可以得到表2的Kmeans聚類雷達圖極值。
從圖3可以得到表3、表4。
4 實驗結(jié)果與分析
將聚類后的聚類標簽代入原數(shù)據(jù),得到一組帶聚類標簽的數(shù)據(jù)。使用式(7)進行數(shù)據(jù)的歸一化,求和后得到一個表征數(shù),根據(jù)表征數(shù)進行繪圖。
采用Excel繪圖,每次類別結(jié)束后插入一個固定值-12作為聚類區(qū)分值。分別繪制Kmeans聚類散點圖(見圖4)及譜聚類散點圖(見圖5),從繪制出的散點圖可以看出聚類的穩(wěn)定性。
Kmeans聚類結(jié)果第1類為1-1 808;第2類為1 810-2 496;第3類為2 498-3 669;第4類為3 671-3 980;第5類為3 982-6 000。
譜聚類結(jié)果第1類為1-1 638;第2類為1 640-2 299;第3類為2 301-4 967;第4類為4 969-5 755;第5類為5 757-6 000。
對比兩個聚類散點圖可以看出,譜聚類得出的聚類結(jié)果單獨的點比較少,類間關(guān)系較為緊密,類間間隔較為明顯。
5 結(jié)語
海量、高維數(shù)據(jù)的處理成為難點。海量數(shù)據(jù)的產(chǎn)生對傳統(tǒng)的處理算法提出了新要求。改進算法可從算法替換以及改進設(shè)備兩方面入手。
將流形學習理論引入客戶關(guān)系管理,從聚類的雷達圖得到評判依據(jù),聚類效果無太大差別。從相同類別間的關(guān)系來看,譜聚類形成的聚類類別之間的差異性更低,這樣能得到較好結(jié)果,說明將流形學習運用到客戶關(guān)系管理可行。
參考文獻:
[1] 呂廷杰,尹濤,王琦.客戶關(guān)系管理與主題分析[M].北京:人民郵電出版社,2002.
[2] 張偉,劉勇國,彭軍,等.數(shù)據(jù)挖掘發(fā)展研究[J].計算機科學,2001(7):79-94.
[3] 張紅云,劉向東,段曉東,等.數(shù)據(jù)挖掘中聚類算法比較研究[J].計算機應用與軟件,2003(2):5-77.
[4] 楊小兵.聚類分析中若干關(guān)鍵技術(shù)的研究[D].杭州:浙江大學,2005.
[5] 陳鳳潔.電信客戶細分方法及應用[J].科技和產(chǎn)業(yè),2005,5(11):10-12.
[6] E ABASCAL, I GARCIA LAUTRE, F MANOR.Data mining in a bicriteria clustering problem[J]. European Journal of Operational Research,2005(3):1-12.
[7] XIANG M, SHI WR, JIANG CJ, et al. Energy efficient clustering algorithm for maximizing lifetime of wireless sensor networks[J]. AEU-Intl Journal of Electronic and Communication,2010,64(4):289-298.
[8] O YOUNIS, S FAHMY. HEED: a hybrid_id, energy-efficient distributed clustering approach for ad hoc sensor networks[J]. IEEE Transaction on Mobile Computing,2004,3(4):366-379.
[9] DUHAM M H. Data mining introductory and advanced topics[M].Pearson Education,2003.
[10] L K SAUL, S T ROWEIS.Think globally, fit locally: unsupervised learning of low dimensional manifold [J]. Journal of Machine Learning Research,2003(4):119-155.endprint
[11] M BELKIN, P NIYOGI. Laplacian eigenmaps for dimensionality reduction and data representation [J]. Neural Computation,2003,15(6):1373-1396.
[12] K Q WEINBERGER, L K SAUL. Unsupervised learning of image manifolds by semidefinite programming[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR-04), vol.2, Washington D.C.,2004:988-995.
[13] K Q WEINBERGER, L K SAUL. An introduction to nonlinear dimensionality reduction by maximum variance unfolding[C]. In Proceedings of the Twenty First National Conference on Artificial Intelligence (AAAI-06), Boston,MA,2006.
[14] K Q WEINBERGER, L K SAUL. Unsupervised learning of image manifolds by semidefinite programming [J]. International Journal of Computer Vision,2006,70(1):77-90.
[15] Z Y ZHANG, H Y ZHA.Principal manifolds and nonlinear dimensionality reduction via tangent space alignment[J]. SIAM Journal of Scientific Computing,2004,26(1):313-338.
[16] 張振躍,查宏遠.線性低秩逼近與非線性降維[J].中國科學:A輯數(shù)學,2005,35(3):372-285.
[17] R VIDAL. Subspace clustering[J]. IEEE Signal Processing Magazine,2011,28(2):52-68.
[18] J SHI, J MALIK.Normalized cuts and image segmentation[J]. IEEE Transactions Pattern Analysis Machine Intelligence,2000,22(8):888-905.
[19] 王勇.基于流形學習的聚類與聚類方法及其應用研究[D].長沙:國防科學技術(shù)大學,2011.
[20] Y WANG, Y JIANG, Y WU, et al. Spectral clustering on multiple manifolds[J]. IEEE Transactions on Neural Networks,2012,2(7):1149-1161.
[21] 羅亮生,張文欣.基于常旅客數(shù)據(jù)庫的航空公司客戶細分方法研究[J].現(xiàn)代商業(yè),2008(23):54-55.
[22] 張良均,楊坦,肖剛,等.MATLAB數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M].北京:機械工業(yè)出版社,2015:167-168.endprint