国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LRFMC模型的客戶價值數(shù)據(jù)挖掘方案

2021-03-22 02:56楊雄徐鑫榮
電腦知識與技術(shù) 2021年6期
關(guān)鍵詞:聚類分析數(shù)據(jù)挖掘

楊雄 徐鑫榮

摘要:人工成本永遠是企業(yè)運營預(yù)算的重中之重,數(shù)據(jù)挖掘可以有效發(fā)現(xiàn)數(shù)據(jù)中包含的客戶價值,提供不同客戶群體的針對性服務(wù),合理布局和提高現(xiàn)有客服人員的資源效率?;赗FM模型提出了LRFMC客戶價值評價模型,通過對比特征值的權(quán)重,利用K-means聚類算法,將客戶群體按不同特征進行分類,根據(jù)客戶價值等級,針對高價值優(yōu)質(zhì)用戶和低價值潛在用戶展開數(shù)據(jù)分析。

關(guān)鍵詞:客戶價值;聚類分析;LRFMC模型;數(shù)據(jù)挖掘

中圖分類號:TP311? ? ? ? 文獻標(biāo)識碼:A

文章編號:1009-3044(2021)06-0022-04

數(shù)據(jù)挖掘終極目標(biāo)是為了發(fā)現(xiàn)數(shù)據(jù)更多的價值,在大數(shù)據(jù)時代下[1],不單單只是將數(shù)據(jù)的量提升到一個前所未有的地步,還將數(shù)據(jù)的時效性進一步地延長了,數(shù)據(jù)之間已經(jīng)不再是最開始的因果關(guān)系,而是潛藏著彼此之間重要的相關(guān)性[2]。換句話說,數(shù)據(jù)挖掘的真正目的不單單是挖掘數(shù)據(jù)的現(xiàn)有特征,而是通過分析關(guān)聯(lián)性,探索出更深層次的價值,從而為企業(yè)帶來利潤。作為商業(yè)數(shù)據(jù)的挖掘,不單單需要優(yōu)質(zhì)的算法,還需要一些貼近業(yè)務(wù)的數(shù)據(jù)模型。從算法的完善到整個模型的建立,現(xiàn)階段的數(shù)據(jù)挖掘,也從對數(shù)據(jù)本身和算法的關(guān)注,逐漸變成了對整個業(yè)務(wù)模型的關(guān)注,數(shù)據(jù)挖掘的核心也不單單只是對算法的追求,還包括了數(shù)據(jù)模型的建立和數(shù)據(jù)的應(yīng)用[3]。

在目前數(shù)據(jù)研究領(lǐng)域[4],雖然數(shù)據(jù)挖掘已經(jīng)是一個熱門話題,但很難在中小型企業(yè)真正地實施起來,更多的是在為大型企業(yè)或者政府機關(guān)服務(wù)[5]。其根本原因在于中小型企業(yè)的數(shù)據(jù)挖掘成本永遠是經(jīng)營預(yù)算的重中之重。一個好的模型與算法,可以提高客服人員的效率,提高他們面對客戶的有效性。利用將客戶分群所得出的結(jié)果,將高質(zhì)量客戶從客戶群中分離出來,使客服能夠針對性地提供高質(zhì)量服務(wù)[6,7]。而對低價值的潛在用戶進行分析,思考是公司服務(wù)問題還是客戶本身問題,從而可以更好地做出經(jīng)營策略的改變。本文使用LRFMC客戶價值評價模型和k-means聚類算法,利用開源數(shù)據(jù)分析高質(zhì)量用戶和低質(zhì)量用戶的特征構(gòu)成,為企業(yè)決策層提供有針對性的參考建議,從而提高企業(yè)工作效率和降低運營成本[8,9]。

1 客戶價值RFM模型

研究客戶價值的模型有很多,而最常見的應(yīng)該就是RFM模型。RFM模型主要是來評價客戶這兩方面:客戶本身價值和他所能帶來的價值。該模型通過一個客戶的近期消費行為(Recency)、購買行為的頻率(Frequency)以及消費的能力(Monetary)這三項的指標(biāo)來說明該客戶對企業(yè)的價值影響。

1.1 RFM模型關(guān)鍵特征介紹

(1)特征R說明

R(Recency) 指的是客戶在離數(shù)據(jù)統(tǒng)計的截止日期前最近一次消費的時間間隔。在該模型中,如果最近一次的消費時間與截止的時間間隔越短,那么就意味著用戶對現(xiàn)在的服務(wù)或者商品比較感興趣。最近一次的消費時間與截止時間的間隔不僅僅為確定客戶的消費群體提供的依據(jù),還可以看出企業(yè)的發(fā)展趨勢,如果距離最近一次消費時間很近的客戶在增加,那么就說明客戶來往的頻率很高,這也從側(cè)面反映了企業(yè)的趨勢是在穩(wěn)定增長。反之,如果最近一次消費的時間與截止時間越長,那么就說明客戶來企業(yè)消費的次數(shù)越來越少,也就說明企業(yè)在流失客戶。

(2)特征F說明

F(Frequency)指的是在統(tǒng)計的時間段內(nèi)作為客戶他所消費的次數(shù)。很顯然,假如一個客戶的消費頻率越高,那么就能從側(cè)面說明這個客戶對企業(yè)的滿意度越高,他對企業(yè)的質(zhì)量也就越高,而作為服務(wù)業(yè)來說,增加客戶的消費頻率也是增加營業(yè)額最有效的手段,同時還能為企業(yè)搶奪競爭對手的市場。所以企業(yè)要在消費頻率下降的時候,要推出促銷活動,來增加消費。

(3)特征M說明

M(Monetary)指的是客戶在統(tǒng)計的段時間內(nèi)消費金額的多少?;旧蠈τ谄髽I(yè)來講,如果一個客戶消費的越多,那么就說明作為單個客戶的消費能力也就越強。企業(yè)里最常說的二八法則,通常意義就是百分之20的客戶貢獻了企業(yè)百分之八十的銷售額。而這些用戶,也是企業(yè)在進行營銷活動時不得不特殊照顧的群體,尤其在商家資源預(yù)算不足時,這類群體更是應(yīng)該挽留和重點照顧的對象。

在傳統(tǒng)的RFM模型中,離截止統(tǒng)計時間最近的一次消費時間間隔,消費頻率以及消費金額的多少都是評價客戶價值最重要的特征,其中離截止統(tǒng)計時間最近一次消費時間的間隔是最有力的特征。

1.2 RFM模型結(jié)果解讀

RFM因為包含3個特征,所以此處選擇使用三維坐標(biāo)系來進行解讀。如圖1所示橫軸表示Recency,縱軸表示Frequency,豎軸表示Monetary,每個軸一般使用5級表示程度,1為最小,5為最大。在這里需要特別說明的是,在x軸上,R越大,那么這類客戶離截止統(tǒng)計時間最近一次消費時間的間隔越短,該用戶的價值在這一維度上也就越高。將每個軸上劃分為5個等級,等同于將客戶劃分成5*5*5=125種類型。在圖1中,左上方角的客戶R,F(xiàn),M特征取值為1,5,5,說明這類客戶在最近一段時間內(nèi)沒有消費,因為R值最小。原因可能包括客戶對當(dāng)前服務(wù)的不滿,或者其他商家的活動更多,導(dǎo)致該類客戶的流失,而這一類用戶的價值恰恰是最高的,在表現(xiàn)出人數(shù)降低時,就應(yīng)該引起企業(yè)的警覺。F如果越高,則說明客戶很活躍,經(jīng)常進行消費;消費金額M越高,則說明該用戶擁有很高的消費能力,也應(yīng)該值得商家重視。同樣,如果客戶的R,F(xiàn),M這三個特征最高,如都取5,5,5,那么就說明無論從哪個方面來講該用戶都是最優(yōu)質(zhì)的用戶,即該用戶近期進行了消費,消費頻率高而且消費金額也大。這樣的用戶是企業(yè)利益最主要的貢獻者,需要被重點關(guān)注和維護。

2 LRFMC模型的設(shè)計

雖然在衡量客戶價值時,已經(jīng)提出了RFM模型,其中消費金額M直接反映了在統(tǒng)計時間內(nèi)客戶在該企業(yè)消費的情況。但在運輸行業(yè)比如航空產(chǎn)業(yè)、快遞產(chǎn)業(yè)中,消費金額M受到運輸距離、艙位等級等各種因素的影響,而且即使客戶消費金額一樣,對運輸類公司而言,所帶來的價值也是不一樣的,因為需要考慮到該客戶運輸距離的長短,是否經(jīng)常消費,艙位等級或運輸保單高低等因素。本文模型采用的數(shù)據(jù)集是一家航空公司的客戶數(shù)據(jù),其觀測窗口的時間寬度為兩年,該數(shù)據(jù)集總共有62988條客戶檔案信息和乘坐航班的記錄,數(shù)據(jù)特征如表格1所示,主要由三個部分組成,第一部分是客戶的基本信息,第二部分是客戶的乘機信息,第三部分保存的是客戶積分信息。

LRFMC模型選擇客戶在特定時間段內(nèi)積累的飛行里程M和客戶在特定時間段內(nèi)乘坐艙位所對應(yīng)的折扣系數(shù)的平均值C兩個特征來代替RFM模型的消費金額M。此外,在LRFMC模型中我們又增加了客戶關(guān)系長度L。改進后LRFMC模型的5個特征構(gòu)建過程具體如下所述:

(1)第一個特征是L。L是客戶加入會員的時間到統(tǒng)計截止時間的間隔,單位是月份,其中LOAD_TIME代表觀測窗口的結(jié)束時間,F(xiàn)FP_DATE代表入會時間,如公式1所示:

L=LOAD_TIME-FFP_DATE? ? ? ? ? ? ? ? ? ? ? (1)

(2)第二個特征是R,即LAST_TO_END。這里的R與傳統(tǒng)RFM模型里的R其實含義相同,指的都是客戶最后一次消費時間到統(tǒng)計截止時間的間隔,在航空公司里就是指客戶最后一次乘機時間到統(tǒng)計時間間隔了多久,單位是月份,如公式2所示:

R=LAST_TO_END? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)

(3)第三個特征是F,即FLIGHT_COUNT。F在傳統(tǒng)RFM模型中,指的是消費頻率,在航空公司的實際業(yè)務(wù)里,指客戶在觀測窗口時間內(nèi)所乘機的次數(shù)。單位是次數(shù),如公式3所示:

F=FLIGHT_COUNT? ? ? ? ? ? ? ? ? ? ?(3)

(4)第四個特征是M,即SEG_KM_SUM。在RFM模型中M是客戶的消費金額,而在本文里結(jié)合航空公司的實際業(yè)務(wù),M是客戶在觀測時間窗口內(nèi)的總飛行里程。單位是千米,計算公式如4:

M=SEG_KM_SUM? ? ? ? ? ? ? ? ? ?(4)

(5)第五個特征是C,即AVG_DISCOUNT。傳統(tǒng)客戶價值RFM模型里沒有該特征,在航空公司數(shù)據(jù)集中,C是指在觀測窗口時間內(nèi)客戶乘坐艙位的折扣系數(shù)。無單位,計算公式如5:

C=AVG_DISCOUNT? ? ? ? ? ? ? ? ? ?(5)

3 基于LRFMC模型的客戶價值聚類分析

聚類分析就是通過對數(shù)據(jù)集所表現(xiàn)出的特征,根據(jù)需求將數(shù)據(jù)特征相似的數(shù)據(jù)分為一組,并不斷進行迭代操作,直到各個數(shù)據(jù)組間的數(shù)據(jù)到質(zhì)心的位置不再有變化。本文結(jié)合了LRFMC模型的五個特征來將數(shù)據(jù)合理的劃分為5個組別,因此在k-means算法中選擇初始聚類種子數(shù)為5。通過k-means聚類算法隨機選擇5個數(shù)據(jù)作為質(zhì)心,迭代計算每個數(shù)據(jù)到質(zhì)心的距離,并根據(jù)距離遠近來調(diào)節(jié)質(zhì)心距離和給數(shù)據(jù)集分組,直到數(shù)據(jù)的位置不再發(fā)生變化。

3.1 散點圖的聚類分析

散點圖最適合在二維空間里對數(shù)據(jù)集進行可視化,因為它能夠直觀的表示出聚類后每一個樣本數(shù)據(jù)的在空間的分布情況,也能夠很容易看到每一個聚類中心所處的位置。選取R語言stats庫中的K-Means函數(shù)將處理后的數(shù)據(jù)集進行k-means聚類分析,選取特征M和特征F分別作為橫坐標(biāo)及縱坐標(biāo),結(jié)果如圖2所示:

可以發(fā)現(xiàn)由于樣本數(shù)量過多,散點圖分布過于密集,而且散點圖只能展示二維平面下的數(shù)據(jù)分布情況,比較各個特征的大小就極為不方便??紤]到所選取可視化方案要能夠從多維度展示數(shù)據(jù)的結(jié)果,而且能夠清晰地比較出每個數(shù)據(jù)特征之間的差異,本文采取了可以從多個維度展現(xiàn)出多變量特征情況的雷達圖。

3.2 雷達圖的聚類分析

雷達圖可以從多維度來分析和構(gòu)建數(shù)據(jù)集的聚類結(jié)果,并且將這些數(shù)據(jù)利用比率表示出來,填寫到一張可以展示出其中每個特征比率關(guān)系的等比例圖形上。本文選用的是R語言內(nèi)置庫fmsb的radarchart函數(shù),代碼如圖3所示:

在代碼中,我們首先導(dǎo)入了fmsb函數(shù)庫,然后使用apply函數(shù),取出每個特征下的最大最小值,并使用date.frame函數(shù)構(gòu)建了新的數(shù)據(jù)集。在radarchart函數(shù)的使用中,第一個參數(shù)填入的是數(shù)據(jù),在后面的參數(shù)中,我們指定了每個軸的段數(shù)為5,字體大小為1,線寬為1,雷達圖效果如圖4:

從雷達圖的展示效果上看,我們很容易就發(fā)現(xiàn)各個客戶群的特征情況。而且每個客戶群都有屬于自己的顏色和線條類型,比起之前的散點圖,我們更直觀地感受到不同群體間的特征差異。 結(jié)合雷達圖展示的特征,我們很容易得出這樣的結(jié)果,如客戶群1的L特征最大,以此類推,得到各個客戶群的特征表整理如表2所示。

我們根據(jù)每個客戶群的不同特征表現(xiàn),定義每個客戶群的重要程度。

(1)重要保持客戶:該一類客戶的特征是,折扣系數(shù)C較高,即代表乘坐航班的艙位等級較高,且距離最后一次統(tǒng)計時間長度低,飛行次數(shù)F或者飛行里程M較高。這些特征都說明了這類客戶對公司的貢獻是占主體的,也是最值得重視和資源傾斜的。

(2)重要發(fā)展客戶:該類客戶的特征是,平均折扣系數(shù)C較高,但距離最后一次統(tǒng)計時間長度R較低,但飛行次數(shù)F或者總飛行里程M較低。這類客戶目前看似價值不大,但只要公司能夠加以引導(dǎo),那么在接下來的時間中,很有可能成為重要保持客戶。

(3)重要挽留客戶:該類客戶的特征是,平均折扣系數(shù)C,飛行次數(shù)F或者總飛行里程M較高,但是距最后一次統(tǒng)計時間長度R較高或者乘坐頻率F較小。這類客戶變化較大,所以要重點聯(lián)系。

(4)一般客戶與低價值客戶:該類客戶的特征是,平均折扣系數(shù)C很低,最近乘機距最后一次統(tǒng)計時間長度R高,飛行次數(shù)F和總飛行里程M都很低,會員入會時間短。

經(jīng)過分析后,給出的客戶群價值排名如表3所示。

4 總結(jié)與展望

本文針對當(dāng)前企業(yè)客戶價值的挖掘分析不足,提出了一種基于LRFMC的客戶價值評價方法。該方法不同于已有客戶價值RFM評估模型只考慮客戶的消費額度、消費頻率、消費時間間隔等參數(shù);而是同時考慮了客戶關(guān)系時間和消費折扣系數(shù)2個屬性,引入LRFMC模型和雷達圖來提高客戶群體特征值的表述效果。實驗結(jié)果證明相對于傳統(tǒng)二維散點圖的聚類分析評估方法,采用本文提出的方法能夠更有效地對客戶群體進行分類和更細粒度地對客戶群體特征進行有效區(qū)分。由于該模型是建立在歷史數(shù)據(jù)上的,所以為了確保模型的穩(wěn)定性,需要積攢足夠數(shù)據(jù)后,更新運行模型結(jié)果。并且由于沒有正確的基準(zhǔn)值作為參考,每次運行后都需要做后續(xù)的觀察與監(jiān)測,若增量數(shù)據(jù)的實際情況與判斷的結(jié)果變化差異過大,就應(yīng)查看變化原因,改進模型或者針對客戶做出一些業(yè)務(wù)上的調(diào)整。

參考文獻:

[1] 孟小峰, 慈祥, 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 計算機研究與發(fā)展, 2013(50): 146-169.

[2] Güden S, Gursoy U T. Online Shopping Customer Data Analysis by Using Association Rules and Cluster Analysis[J]. Lecture Notes in Computer Science, 2013, 7987:127-136.

[3] Held F P, Blyth F, Gnjidic D, et al. Association Rules Analysis of Comorbidity and Multimorbidity: The Concord Health and Aging in Men Project[J]. Journals of Gerontology, 2015, 71(5):217-223.

[4] 李健, 王小蒙. 基于R語言的數(shù)據(jù)挖掘工具的設(shè)計[J]. 內(nèi)蒙古科技與經(jīng)濟, 2017(24):58-59.

[5] 普拉迪帕塔·米什拉.R語言數(shù)據(jù)挖掘:實用項目解析[M].機械工業(yè)出版社,2017:110-135

[6] 羅亮生, 張文欣. 基于客戶價值的航空公司客戶關(guān)系管理策略[J]. 企業(yè)經(jīng)濟,2008(12): 20-22.

[7] 陳慧敏. 云計算模式在客戶關(guān)系管理系統(tǒng)中的應(yīng)用[J]. 現(xiàn)代商貿(mào)管理, 2013(8):160-161.

[8] 耿向華. 數(shù)據(jù)挖掘在旅游商務(wù)系統(tǒng)中的應(yīng)用研究 [J]. 魅力中國 ,2013,5(27):287-288.

[9] 郭良. 基于數(shù)據(jù)挖掘技術(shù)的客戶信息分析 [D]. 上海:華東師范大學(xué),2015.

【通聯(lián)編輯:王力】

猜你喜歡
聚類分析數(shù)據(jù)挖掘
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
基于GPGPU的離散數(shù)據(jù)挖掘研究