黃 巍,劉 峰
(1.中國鐵路北京局集團(tuán)有限公司 北京鐵路客戶服務(wù)中心,北京 100860;2.中國國家鐵路集團(tuán)有限 公司 客運(yùn)部,北京 100844)
2017年12月20日鐵路部門正式推出“中國鐵路暢行常旅客計(jì)劃”,強(qiáng)麗霞[1]認(rèn)為鐵路部門出臺“中國鐵路暢行常旅客計(jì)劃”意味著鐵路正式邁入以忠誠計(jì)劃為平臺的客戶關(guān)系管理新領(lǐng)域。丁楊軍等[2]認(rèn)為客戶關(guān)系管理是保持企業(yè)健康可持續(xù)發(fā)展的關(guān)鍵,通過搭建數(shù)據(jù)分析模型對客戶消費(fèi)行為進(jìn)行分類,制定精準(zhǔn)營銷策略,進(jìn)而實(shí)現(xiàn)企業(yè)利潤最大化。丁曉銀等[3]認(rèn)為在大數(shù)據(jù)技術(shù)蓬勃發(fā)展的今天,機(jī)器學(xué)習(xí)、人工智能、數(shù)據(jù)挖掘、語義分析等技術(shù)已經(jīng)廣泛應(yīng)用于客戶價(jià)值分析領(lǐng)域中。張浩然[4]認(rèn)為企業(yè)利用大數(shù)據(jù)技術(shù)對已有客戶信息數(shù)據(jù)進(jìn)行分析,應(yīng)用多種數(shù)據(jù)分析算法挖掘客戶對企業(yè)的價(jià)值,運(yùn)用數(shù)據(jù)分析結(jié)果改善企業(yè)營銷方式、降本增效、提高利潤是企業(yè)發(fā)展的重中之重。
國內(nèi)外大量技術(shù)和理論文獻(xiàn)廣泛論述了使用數(shù)據(jù)挖掘技術(shù)分析客戶消費(fèi)行為數(shù)據(jù),幫助企業(yè)依據(jù)客戶分類價(jià)值制定相應(yīng)的營銷策略。劉朝華[5]認(rèn)為數(shù)據(jù)挖掘技術(shù)可以應(yīng)用到以客戶為中心的企業(yè)決策、分類分析和客戶管理的各個(gè)不同領(lǐng)域和階段,如客戶群體分類分析、交叉銷售、客戶盈利能力預(yù)測分析和客戶滿意度分析等方面。徐曉敏等[6]綜合應(yīng)用RFM模型和K-means聚類算法對客戶交易數(shù)據(jù)進(jìn)行挖掘,結(jié)合客戶全生命周期各階段特點(diǎn),給出不同客戶在不同階段價(jià)值提升的相應(yīng)策略。羅亮生等[7]通過改進(jìn)RFM模型分析航空運(yùn)輸企業(yè)會(huì)員價(jià)值。劉婷婷等[8]使用LRFMC指標(biāo)模型和K-means聚類算法挖掘航空公司會(huì)員出行數(shù)據(jù),為航空公司針對不同客戶采取個(gè)性化的營銷方案提供科學(xué)依據(jù)。
在參考上述文獻(xiàn)的基礎(chǔ)上,從數(shù)據(jù)挖掘的角度出發(fā),結(jié)合“中國鐵路暢行常旅客計(jì)劃”會(huì)員出行數(shù)據(jù)特點(diǎn),通過改進(jìn)傳統(tǒng)RFM模型,構(gòu)建RFMICT會(huì)員價(jià)值評價(jià)模型,運(yùn)用K-means聚類算法,聚類出具有類似特征的客戶類型,針對各類型客戶的典型特征進(jìn)行會(huì)員價(jià)值判斷,對生成的會(huì)員價(jià)值分析結(jié)果進(jìn)行可視化應(yīng)用分析,為鐵路運(yùn)輸企業(yè)提出分類會(huì)員個(gè)性化營銷建議。
RFM模型首先于1994 年由 Hughes 提出[9]。RFM模型由最近消費(fèi)時(shí)間間隔(Recency,R)、消費(fèi)頻率(Frequency,F(xiàn))及消費(fèi)金額(Monetary,M) 3個(gè)指標(biāo)組成。最近消費(fèi)時(shí)間間隔(R)表示客戶距觀測日最近一次消費(fèi)時(shí)間間隔,消費(fèi)頻率(F)表示在觀測期間內(nèi)客戶消費(fèi)總次數(shù),消費(fèi)金額(M)表示在觀測期內(nèi)客戶消費(fèi)總金額。在3個(gè)指標(biāo)變量基礎(chǔ)上再細(xì)分2類,便在R,F(xiàn),M維度上產(chǎn)生了8類客戶,客戶價(jià)值模型如圖1所示。
圖1 客戶價(jià)值模型Fig.1 Customer value model
單純的RFM模型并不適用于鐵路會(huì)員價(jià)值分析。例如,2個(gè)會(huì)員在觀測期間內(nèi)消費(fèi)同樣的金額,其中一個(gè)只購買二等座、出行距離遠(yuǎn);另一個(gè)只購買商務(wù)座,出行距離近。二者的購買力水平和服務(wù)需求存在明顯差異,對于鐵路運(yùn)輸企業(yè)來說,二者會(huì)員價(jià)值和提供服務(wù)的成本也相差較大。因此,需要在RFM模型基礎(chǔ)上增加平均乘車間隔(I)、客戶關(guān)系長度(C)和客單價(jià)(T) 3個(gè)指標(biāo)來彌補(bǔ)RFM模型缺陷,構(gòu)建RFMICT模型評價(jià)指標(biāo),綜合評價(jià)會(huì)員價(jià)值。
RFMICT模型指標(biāo)包括以下參數(shù):消費(fèi)間隔(R)表示會(huì)員最后一次乘車的日期距離觀測截止日期的天數(shù),d;消費(fèi)頻率(F)表示會(huì)員初次乘車日期至觀測日期間的總乘車次數(shù),次;消費(fèi)金額(M)表示會(huì)員初次乘車日期至觀測日期間的總票價(jià),元;平均乘車間隔(I)表示會(huì)員在觀測期間內(nèi)每次乘車間隔的平均值,d;客戶關(guān)系長度(C)表示會(huì)員入會(huì)時(shí)間長短,d;客單價(jià)(T)表示會(huì)員在觀測期內(nèi)每次購票均價(jià),元。通過上述6個(gè)指標(biāo)便可以綜合性地評價(jià)鐵路會(huì)員消費(fèi)行為價(jià)值。例如,會(huì)員總消費(fèi)金額多、消費(fèi)頻率低、平均乘車間隔長、客單價(jià)高,說明會(huì)員出行基本選擇高等級席別,會(huì)員更在意鐵路運(yùn)輸企業(yè)提供的服務(wù)品質(zhì);會(huì)員總消費(fèi)金額多、消費(fèi)頻率多、平均乘車間隔短、客單價(jià)低,說明會(huì)員基本選擇鐵路出行,對鐵路運(yùn)輸企業(yè)忠誠度高,會(huì)員更在意積分累積和兌換等活動(dòng)政策。由此可見,上述6個(gè)指標(biāo)可以綜合評價(jià)鐵路會(huì)員價(jià)值,精細(xì)劃分客戶價(jià)值。
在確定了屬性指標(biāo)以后,就需要根據(jù)屬性劃分類別,研究采取大數(shù)據(jù)聚類分析中應(yīng)用最為廣泛的一種聚類算法——K-means聚類算法。K-means聚類計(jì)算過程是:在所有數(shù)據(jù)中隨機(jī)選取K(K≥2)個(gè)點(diǎn)作為初始聚類中心,計(jì)算所有數(shù)據(jù)與K個(gè)聚類中心的歐式距離,將距離聚類中心較近的點(diǎn)聚為一類,得到K個(gè)簇[10];再次計(jì)算K個(gè)簇的聚類中心,比較新舊聚類中心是否相同,不斷重復(fù)這一過程,直到前后2次聚類中心相同時(shí)停止。
確定K值的大小是K-means聚類算法是否準(zhǔn)確的關(guān)鍵,研究采用手肘法確定最佳K值。手肘法是通過觀察誤差平方和大小來選擇K-means聚類K值的一種算法,其算法計(jì)算原理為:隨著聚類數(shù)K值的增大,聚類劃分會(huì)更加精細(xì),隨著每個(gè)簇的聚合程度逐漸提高,其誤差平方和(SSE)會(huì)逐漸減小;當(dāng)K值小于真實(shí)聚類數(shù)時(shí),SSE對應(yīng)的曲線斜率下降幅度會(huì)很大,而當(dāng)K值與真實(shí)聚類數(shù)相等時(shí),SSE對應(yīng)的曲線斜率下降幅度會(huì)驟緩,K與SSE會(huì)形成一個(gè)類似于手肘形狀的折線圖,而“肘部”對應(yīng)的K值則為當(dāng)前聚類數(shù)據(jù)集的真實(shí)聚類數(shù)。但該方法也存在一個(gè)問題,即在應(yīng)用于某個(gè)具體的數(shù)據(jù)集時(shí),會(huì)出現(xiàn)不明顯的“肘點(diǎn)”,此時(shí)K值的確定就會(huì)出現(xiàn)較大的偏差,進(jìn)而影響最終的聚類結(jié)果[11]。
為了解決手肘法存在的問題,研究采用輪廓系數(shù)法進(jìn)行輔助判斷。輪廓系數(shù)法是通過計(jì)算分離度與內(nèi)聚度來評價(jià)聚類效果好壞的一種算法,其計(jì)算方法原理為:分別計(jì)算聚類簇中每個(gè)向量的輪廓系數(shù),系數(shù)的取值范圍為[-1,1],取值越接近于1說明聚類效果越好;將簇內(nèi)所有輪廓系數(shù)求平均得到每個(gè)聚類的輪廓系數(shù),最終通過選擇輪廓系數(shù)最大值來確定最佳K值。鑒于上述2種算法的特點(diǎn),研究采取手肘法和輪廓系數(shù)相結(jié)合的方法確定最佳K值。
1.4.1 數(shù)據(jù)抽樣理論
在數(shù)據(jù)分析模型和聚類算法確定以后,采用統(tǒng)計(jì)學(xué)概率抽樣的簡單隨機(jī)抽樣方法,樣本數(shù)量依據(jù)社會(huì)科學(xué)領(lǐng)域普遍采用的樣本容量范圍[12]。即當(dāng)調(diào)查范圍為地區(qū)性調(diào)查時(shí),選取樣本量為500 ~ 1 000個(gè);調(diào)查范圍為全國性調(diào)查時(shí),選取樣本量為1 500 ~ 3 000個(gè);被調(diào)查總體規(guī)模1萬至10萬人時(shí),抽樣比例為1.5% ~ 3%;被調(diào)查總體規(guī)模10萬人以上時(shí),抽樣比例為1%以下。根據(jù)上述樣本量抽取標(biāo)準(zhǔn),確定抽取樣本數(shù)量為5 000個(gè)。隨機(jī)抽取5 000名鐵路會(huì)員自2018年1月1日—2019年11月31日的所有乘車記錄,共102 013條數(shù)據(jù),包括會(huì)員ID、會(huì)員等級、會(huì)員激活日期、性別、出生年份、乘車日期、票價(jià)共7個(gè)特征屬性,上述抽樣數(shù)據(jù)中不存在空值和異常值等情況。
1.4.2 數(shù)據(jù)標(biāo)準(zhǔn)化理論
從上述抽取數(shù)據(jù)的7個(gè)特征屬性上看,各屬性在量綱和取值范圍上存在較大差異,如果直接運(yùn)用數(shù)據(jù)進(jìn)行建模運(yùn)算的話,會(huì)造成類似于票價(jià)這種數(shù)值較大的特征屬性占據(jù)較大的權(quán)重,為了消除權(quán)重因素影響數(shù)據(jù)分析的最終結(jié)果,需對樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。數(shù)據(jù)標(biāo)準(zhǔn)化常見的方法有最小最大標(biāo)準(zhǔn)化、零均值標(biāo)準(zhǔn)化和小數(shù)定標(biāo)標(biāo)準(zhǔn)化等。研究按照RFMICT模型,提取對應(yīng)特征屬性并進(jìn)行數(shù)據(jù)探索后,決定采用零均值標(biāo)準(zhǔn)化,也稱標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,對6個(gè)評價(jià)指標(biāo)數(shù)據(jù)采取標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理,以提高K-means聚類算法結(jié)果的準(zhǔn)確性。
按照K-means聚類算法、手肘法和輪廓系數(shù)法編寫程序?qū)﹁F路會(huì)員數(shù)據(jù)進(jìn)行聚類分析,數(shù)據(jù)分析程序自動(dòng)生成K值分析圖如圖2所示。由圖2可見,當(dāng)K值為4時(shí)出現(xiàn)明顯拐點(diǎn)(肘部),當(dāng)K值為6時(shí)輪廓系數(shù)值最大,綜合判斷當(dāng)K值為6時(shí)分類效果為最佳,得到各類別聚類中心和數(shù)目結(jié)果如表1所示。
圖2 K值分析圖Fig.2 K value analysis
根據(jù)表1繪制客戶出行特征分析雷達(dá)圖如圖3所示。
表1 各類別聚類中心和數(shù)目結(jié)果Tab.1 Clustering centers and numbers by category
圖3 客戶出行特征分析雷達(dá)圖Fig.3 Radar chart of customer travel characteristics
由圖3可知:①類別0,即雷達(dá)圖中第2簇人群(黃色曲線),該類會(huì)員入會(huì)時(shí)間較長,觀測期內(nèi)總消費(fèi)金額和總消費(fèi)頻率略高,消費(fèi)間隔和平均乘車間隔居中,但客單價(jià)較低,對鐵路運(yùn)輸企業(yè)忠誠度一般,屬于游離客戶群體,會(huì)員價(jià)值分類屬于挽留型客戶;②類別1,即雷達(dá)圖中第6簇人群(褐色曲線),該類會(huì)員入會(huì)時(shí)間最長,消費(fèi)間隔最短,總消費(fèi)頻率最高,總消費(fèi)金額最多,雖然客單價(jià)不是最高,但是對鐵路運(yùn)輸企業(yè)貢獻(xiàn)最大,屬于最忠誠的客戶群體,會(huì)員價(jià)值分類屬于高價(jià)值客戶;③類別2,即雷達(dá)圖中第4簇人群(紅色曲線),該類會(huì)員入會(huì)時(shí)間較長,消費(fèi)間隔最長,總消費(fèi)頻率和總消費(fèi)金額都很低,屬于很久沒有選擇鐵路出行,接近流失狀態(tài)的客戶群體,會(huì)員價(jià)值分類屬于接近流失型客戶;④類別3,即雷達(dá)圖中第1簇人群(藍(lán)色曲線),該類會(huì)員因入會(huì)時(shí)間最短,因此所有屬性均為最低,屬于以新會(huì)員為主的新客戶群體,會(huì)員價(jià)值屬于培養(yǎng)型客戶;⑤類別4,即雷達(dá)圖中第3簇人群(綠色曲線),該類會(huì)員平均乘車間隔最長,其他屬性均處于較低位置,屬于偶爾選擇鐵路出行的客戶群體,會(huì)員價(jià)值屬于一般價(jià)值客戶;⑥類別5,即雷達(dá)圖中第5簇人群(紫色曲線),該類會(huì)員入會(huì)時(shí)間不長,總消費(fèi)頻率和總消費(fèi)金額略低,但客單價(jià)最高,屬于存在潛在價(jià)值的客戶群體,會(huì)員價(jià)值屬于發(fā)展型客戶。
通過K-means聚類算法將會(huì)員分為6類,根據(jù)各類別會(huì)員人數(shù)占比繪制客戶價(jià)值分布表如表2所示。將各類別會(huì)員劃分為高價(jià)值客戶、發(fā)展型客戶、培養(yǎng)型客戶、挽留型客戶、一般價(jià)值客戶與接近流失型客戶,并根據(jù)各客戶類型特點(diǎn)提出針對性建議。
表2 客戶價(jià)值分布表Tab.2 Customer value distribution
(1)高價(jià)值客戶。最忠誠的客戶群體,占比最少,僅為0.4%,建議鐵路運(yùn)輸企業(yè)在現(xiàn)有服務(wù)基礎(chǔ)上推出個(gè)性化服務(wù),如專屬客戶經(jīng)理、行程規(guī)劃設(shè)計(jì)、優(yōu)先消費(fèi)和乘車體驗(yàn),滿足客戶的差異化、個(gè)性化需求,為企業(yè)創(chuàng)造更多經(jīng)濟(jì)價(jià)值。
(2)發(fā)展型客戶。潛在價(jià)值最大的客戶群體,占比6.3%,建議鐵路運(yùn)輸企業(yè)推出僅限此類客戶群體的營銷活動(dòng),如積分可兌換部分熱門車次、積分兌換優(yōu)惠折扣、指定期間內(nèi)乘車多倍積分累積等,通過精準(zhǔn)營銷,鼓勵(lì)該類客戶群體多消費(fèi)多積分,促使其向高價(jià)值客戶轉(zhuǎn)變。
(3)培養(yǎng)型客戶。以新會(huì)員為主的客戶群體,占比36.4%,建議鐵路運(yùn)輸企業(yè)推出培養(yǎng)此類客戶群體忠誠度的營銷活動(dòng),如有償發(fā)放站車計(jì)次服務(wù)卡,按照站車服務(wù)的內(nèi)容、次數(shù)和有效期不同設(shè)定服務(wù)卡金額,會(huì)員消費(fèi)金額按照一定比例轉(zhuǎn)化為活動(dòng)積分存入會(huì)員賬戶,積分可用于兌換車票或參與其他會(huì)員活動(dòng),增加其對“鐵路暢行”品牌的忠誠度。
(4)挽留型客戶。游離狀態(tài)的客戶群體,占比22.3%,建議鐵路運(yùn)輸企業(yè)加強(qiáng)與此類會(huì)員的溝通與維系,如通過手機(jī)APP對此類會(huì)員推送其主要出行線路的購票優(yōu)惠活動(dòng)、指定期間內(nèi)乘車多倍積分累積活動(dòng)、邀請參加預(yù)約接送站、優(yōu)先進(jìn)出站等一次性體驗(yàn)服務(wù),建立企業(yè)與會(huì)員雙向互動(dòng)交流的機(jī)制,促使此類會(huì)員群體向發(fā)展型會(huì)員轉(zhuǎn)變。
(5)一般價(jià)值客戶。偶爾選擇鐵路出行的客戶群體,占比20.5%,建議鐵路運(yùn)輸企業(yè)增加“鐵路暢行”品牌在此類客戶群體中的曝光頻率,如通過手機(jī)APP或短信在節(jié)假日、會(huì)員生日發(fā)祝福語,邀請參加客戶服務(wù)滿意度調(diào)查等,增強(qiáng)此類客戶群體對“鐵路暢行”品牌的認(rèn)知。
(6)接近流失型客戶。入會(huì)時(shí)間和消費(fèi)間隔都長的客戶群體,占比14.1%,建議鐵路運(yùn)輸企業(yè)建立會(huì)員流失預(yù)測模型,對此類客戶流失進(jìn)行預(yù)測和分析,發(fā)現(xiàn)流失會(huì)員的行為規(guī)律,制定相應(yīng)解決措施,改善流失趨勢。
研究探索了一種如何在海量會(huì)員出行數(shù)據(jù)中,利用數(shù)據(jù)挖掘技術(shù)搭建模型,聚類會(huì)員消費(fèi)行為規(guī)律,分析會(huì)員價(jià)值類型的方法。提出適用于鐵路行業(yè)的RFMICT會(huì)員價(jià)值評價(jià)模型,該模型應(yīng)用于實(shí)際脫敏數(shù)據(jù)后,能夠有效對具有相同消費(fèi)行為的會(huì)員進(jìn)行聚類,通過對模型的聚類結(jié)果綜合分析,得到了較為理想的會(huì)員價(jià)值分析結(jié)論,證明該模型能夠?yàn)殍F路運(yùn)輸企業(yè)的客戶關(guān)系管理和客運(yùn)營銷分析提供參考。研究提出的RFMICT會(huì)員價(jià)值評價(jià)模型仍有需要改進(jìn)的空間,如研究所抽取的樣本數(shù)據(jù)并未出現(xiàn)空值、異常值等數(shù)據(jù)不規(guī)范的情況,因此未考慮當(dāng)數(shù)據(jù)存在上述問題時(shí)的處理技術(shù);在評價(jià)指標(biāo)的選擇方面,僅僅依照工作經(jīng)驗(yàn)選取了自認(rèn)為最為相關(guān)的評價(jià)指標(biāo)開展了聚類分析和研究,對引入其他可能存在相關(guān)性的指標(biāo)并搭建多種評價(jià)模型,綜合對比各種模型分類結(jié)果的優(yōu)劣性方面仍需進(jìn)一步深入研究;研究中發(fā)現(xiàn)存在一定比例的接近流失型客戶,如何選擇數(shù)據(jù)屬性搭建流失預(yù)測模型,挽回接近流失的會(huì)員,降低鐵路運(yùn)輸企業(yè)客戶流失率將是接下來研究的主要方向。