陳倩舒,方曉平 (中南大學(xué),湖南 長沙 410075)
CHEN Qianshu,FANG Xiaoping (Central South University,Changsha 410075,China)
隨著宏觀經(jīng)濟穩(wěn)定增長和消費升級下的電子商務(wù)發(fā)展,物流行業(yè)得以迅猛發(fā)展,同時行業(yè)之間的競爭也日益激烈。許多企業(yè)已從以產(chǎn)品為中心轉(zhuǎn)變?yōu)橐钥蛻魹橹行牡臓I銷策略,客戶關(guān)系管理成為企業(yè)管理的關(guān)鍵部分??蛻絷P(guān)系管理的核心問題是對不同類型的客戶進行價值分類,采用不同的定制化營銷策略,更好地服務(wù)顧客,以最大限度地實現(xiàn)企業(yè)的效益。由于表征客戶價值的特征信息的多維化,增加了客戶關(guān)系管理的難度。隨著大數(shù)據(jù)時代的來臨,大數(shù)據(jù)的商業(yè)價值已經(jīng)顯現(xiàn)出來,大數(shù)據(jù)與挖掘技術(shù)為企業(yè)處理海量客戶數(shù)據(jù)與企業(yè)的經(jīng)營決策提供了積極的幫助。
RFM(Recency,Frequency,Monetary)模型是由Hughes AM于1994年提出的一種在企業(yè)角度方面考慮的可較全面分析客戶一般購買行為的客戶價值模型[1],模型包括3種指標(biāo):近度及額度分別表示最近的上次消費時間離樣本數(shù)據(jù)截止日的時間距離、研究期限內(nèi)(樣本的時間跨度)的消費次數(shù)和消費總金額。消費近度越小,表示客戶在近段時間內(nèi)有消費行為,并且消費近度越小和消費頻率越大,表示客戶忠誠度較高,下一次消費可能性較大;額度是企業(yè)衡量客戶利益價值的直接標(biāo)準(zhǔn),額度越大說明客戶價值越高。Stahl H K(2003)提出一種多元行為特征分析,RFM模型及修正模型,來判斷客戶價值[2]。Fader P S(2005)通過提出“等值”曲線模型,將具有不同歷史行為,但未來價值相似的客戶聚集在一條等值線上,證明了RFM模型可擬合傳統(tǒng)現(xiàn)金流CLV模型[3]。一方面,現(xiàn)代營銷表明,從企業(yè)角度來看的客戶價值更高的是頻率和額度更大的客戶群,這類客戶在未來的時間段內(nèi)很有可能產(chǎn)生消費行為,具有較高的預(yù)測效果;另一方面,RFM模型計算所需的客戶消費數(shù)據(jù)簡單易得且模型計算方便,在企業(yè)實踐應(yīng)用中較為普遍。因此,企業(yè)可以使用RFM模型測量客戶價值,并使用RFM模型指標(biāo)對客戶進行分類。RFM模型計算客戶價值公式如下所示:
在大多數(shù)的RFM模型應(yīng)用時,識別客戶價值時各指標(biāo)的權(quán)重相同,評估模型的關(guān)鍵在指標(biāo)和權(quán)重兩個方面。在近度、頻率和額度3個因素中,近度和頻率是描述客戶行為的指標(biāo)。有研究表明近度、頻率是忠誠度的良好指針,如Stone B(2008)、Wu J和Lin Z(2005)發(fā)現(xiàn)在信用卡消費領(lǐng)域,近度和頻率對客戶下一次消費有重要影響,因而給予近度最高權(quán)重,頻率、額度最小[4-5]。然而這并不表示額度不重要,畢竟從消費額度可以判斷客戶的交易規(guī)模與意愿。如果針對一個非高頻率、非消費型行業(yè),或者客戶分層不是特別明顯的行業(yè),則又另當(dāng)別論了。所以很多學(xué)者認為還是應(yīng)當(dāng)根據(jù)行業(yè)競爭性、客戶類型(機構(gòu)還是消費者)以及客戶的一致性等特點設(shè)定指標(biāo)權(quán)重。所以有學(xué)者認為三者必須結(jié)合、不可偏廢才具有更好的判斷價值,如Hughes AM(2005)就認為在同一問題研究時,各指標(biāo)對企業(yè)判斷客戶價值而言地位同等重要,故各指標(biāo)權(quán)重可設(shè)為相同[1]。林盛、肖旭(2006)建議采用AHP方法與專家咨詢法相結(jié)合確定指標(biāo)權(quán)重以便更好地考慮評估對象的具體情況[6]。學(xué)術(shù)界對各指標(biāo)權(quán)重意見不一,是考慮到具體問題應(yīng)當(dāng)具體分析。因此在實際情況下,在識別物流客戶價值時,應(yīng)考慮指標(biāo)權(quán)重對物流客戶的價值的影響程度,本文應(yīng)用層次分析法確定指標(biāo)權(quán)重。
利用RFM模型對客戶進行細分有兩類方法,第一類是加權(quán)求和獲得價值評判值,再分段劃分類別。設(shè)置指標(biāo)權(quán)重,使權(quán)重與RFM模型各指標(biāo)的計算結(jié)果相乘得到各指標(biāo)的加權(quán)指標(biāo)值,讓最終的加權(quán)指標(biāo)值相加以獲得RFM指標(biāo)的總值,最后設(shè)置閾值以獲得客戶分類結(jié)果,并且大于閾值的為高價值客戶,小于閾值的為低價值客戶[4]。第二類是使用Sung(1998)提出的自組織特征映射網(wǎng)絡(luò)(SOM)來對客戶RFM指標(biāo)進行分類,將每個客戶的RFM各指標(biāo)值與RFM各指標(biāo)平均值進行比較[7],可得到2*2*2=8種分類結(jié)果,其分類表示如表1和圖1所示:
表1 依據(jù)RFM模型指標(biāo)客戶分類結(jié)果
圖1 RFM模型分析
RFM模型是計算客戶價值并進行客戶細分的重要方法,使企業(yè)和客戶能夠相互進行個性化與精準(zhǔn)化的管理服務(wù),并且RFM模型能夠使企業(yè)快速的計算出客戶的潛在價值及客戶的生命周期價值。
面對不斷增長的客戶群,數(shù)據(jù)挖掘技術(shù)在客戶管理方面的應(yīng)用日趨增加[8]。其中,聚類分析方法是一種屬于非監(jiān)督型(unsupervised)機器學(xué)習(xí)的數(shù)據(jù)挖掘方法,這種分析方法適用于較大數(shù)據(jù)樣本和較多變量分析的任務(wù)[9]。聚類分析是以分類對象的具體特征為依據(jù)進行劃分,在數(shù)據(jù)樣本間的差異性和相似的基礎(chǔ)上進行分組,使同一組之間的數(shù)據(jù)樣本盡可能相似,不同組內(nèi)的數(shù)據(jù)樣本盡可能有差異,劃分的原則是組內(nèi)樣本最細、組外距離最大化,如圖2所示:
聚類分析是進行客戶細分的一個重要手段,因此在使用RFM模型時,有必要進行聚類分析[10]。聚類作為獨立的工具獲得數(shù)據(jù)分布情況,可作為其他算法的預(yù)處理步驟,簡化計算工作,提高分析效率[11],其中K-means聚類算法常于客戶細分。綜上,本文在基于RFM模型的基礎(chǔ)上利用K-means聚類算法對物流客戶進行細分識別。
圖2 聚類分析建模原理
由于與客戶在物流企業(yè)消費的行為方式,關(guān)于客戶的消費信息的基礎(chǔ)數(shù)據(jù)較容易獲得??蛻粝M數(shù)據(jù)源自于企業(yè)A,全部數(shù)據(jù)都將進行脫敏處理,企業(yè)和客戶的信息不會泄露。企業(yè)A客戶歷史消費數(shù)據(jù)是2018年1~4月國內(nèi)31個大區(qū)的營業(yè)數(shù)據(jù),一共2 674 258條。每條數(shù)據(jù)包含44個屬性,包括客戶編號、購買時間、購買區(qū)域、發(fā)貨區(qū)域、發(fā)貨日期、消費額及運輸重量等。
因為企業(yè)在登記、保存客戶消費數(shù)據(jù)時可能小部分客戶消費數(shù)據(jù)存儲不完整,導(dǎo)致物流企業(yè)采集的數(shù)據(jù)不一致、重復(fù)及不規(guī)則等質(zhì)量不高問題,最終使處理后的結(jié)果有偏差。所以為了確保后續(xù)計算步驟正確,有必要在使用RFM模型和K-means聚類算法之前預(yù)處理客戶消費數(shù)據(jù)。數(shù)據(jù)預(yù)處理主要包含數(shù)據(jù)清洗、指標(biāo)規(guī)約、數(shù)據(jù)變換這3個方面的過程。
(1) 數(shù)據(jù)清洗
據(jù)統(tǒng)計,企業(yè)的數(shù)據(jù)一般存在1%~30%的誤差,忽略數(shù)據(jù)質(zhì)量問題易導(dǎo)致研究結(jié)果錯誤[12]。由于企業(yè)在輸入客戶消費信息時存在錯誤的地方,因此數(shù)據(jù)中存在無效值和缺失值,需要使用數(shù)據(jù)清洗技術(shù)來適當(dāng)?shù)奶幚怼芭K數(shù)據(jù)”,數(shù)據(jù)清洗是按照一定的規(guī)則對數(shù)據(jù)進行再一次查看和校正的過程,主要是用于刪除重復(fù)數(shù)據(jù)、校正已有的錯誤及保證數(shù)據(jù)的一致性。
在企業(yè)A的2 674 258條客戶歷史消費記錄中,有525 815位客戶只有1次消費記錄,將其定義為偶然客戶,不列入分析。本文主要對有2次及2次以上有效消費記錄的客戶的2 148 443條記錄進行分析,占企業(yè)A原始數(shù)據(jù)的80.34%。
選擇與RFMS模型指標(biāo)相關(guān)的客戶編號、購買時間、消費額3個屬性并刪除與其弱相關(guān)或冗余的屬性。在清洗數(shù)據(jù)發(fā)現(xiàn)此物流企業(yè)在采集客戶消費數(shù)據(jù)時存在小部分的缺失值,由于原始數(shù)據(jù)量大,且只存在291條異常數(shù)據(jù),對研究影響不大,本文予以剔除處理。具體剔除操作規(guī)則如下:
①剔除客戶編號、購買時間與消費額為空的數(shù)據(jù);
②剔除“*”和“—”等無效字符的記錄。
(2) 指標(biāo)規(guī)約
利用清洗好的企業(yè)A的客戶歷史消費數(shù)據(jù),根據(jù)客戶編號、購買時間與消費額3個屬性計算每位客戶的R指標(biāo)、F指標(biāo)及M指標(biāo)原始值:
R:以天為單位,計算2018年1~4月各個客戶最后一次購買日期至2018年5月1日的天數(shù),為R指標(biāo)值;
F:在2017年1~4月這一時間段內(nèi)客戶消費的總次數(shù),為F指標(biāo)值;
M:在2017年1~4月這一時間段內(nèi)客戶消費的總金額,為M指標(biāo)值。
經(jīng)過指標(biāo)規(guī)約后的數(shù)據(jù)如表2所示:
(3) 數(shù)據(jù)變換
通過指標(biāo)規(guī)約后,對每個指標(biāo)的數(shù)據(jù)分布情況進行分析,其數(shù)據(jù)的取值范圍如表3所示。從表3中數(shù)據(jù)可以發(fā)現(xiàn),R指標(biāo)、F指標(biāo)及M指標(biāo)取值范圍數(shù)據(jù)差異較大。
表2 物流企業(yè)的RFM模型指標(biāo)規(guī)約
表3 RFMS模型特征取值范圍
在利用K-means聚類算法分析數(shù)據(jù)之前,一般需要將數(shù)據(jù)進行標(biāo)準(zhǔn)化變換,數(shù)據(jù)變換是指需要將數(shù)據(jù)轉(zhuǎn)換成“適當(dāng)?shù)摹备袷?,以適應(yīng)挖掘任務(wù)及算法的需要。上述標(biāo)準(zhǔn)化處理之后,將原始數(shù)據(jù)均轉(zhuǎn)換為無量綱化指標(biāo)評估值,即各指標(biāo)值都處于相同的數(shù)量級別,進行綜合評估分析。
考慮到RFMS模型各特征的計量單位對聚類分析產(chǎn)生差異化影響,為消除數(shù)量級帶來的影響,因此對RFMS模型中各特征值進行Z分數(shù)(Z—score)標(biāo)準(zhǔn)化變換。在以上討論的界定下,R、F及M標(biāo)準(zhǔn)化變換計算公式如式(2)~式(4)所示:指R、F及M的團體平均數(shù);σR、σF、σM及指R、F及M的標(biāo)準(zhǔn)差。
對數(shù)據(jù)進行Z-score標(biāo)準(zhǔn)化變換后,得到284 125位客戶的RFM模型各指標(biāo)變換計算大小如表4所示:
其中:T指樣本數(shù)據(jù)截止日;Ti指客戶上一次消費日;Mid指客戶i在區(qū)域d消費額度
根據(jù)本文對R、F及M這3項指標(biāo)權(quán)重的確定,邀請業(yè)內(nèi)5位資深人士參與打分。首先對R、F及M這3項指標(biāo)的重要程度進行兩兩比較,依據(jù)這5位資深人士的打分情況結(jié)果,得出以下的判斷矩陣A如表5所示:
表4 客戶RFMS模型特征計算結(jié)果
表5 指標(biāo)判斷矩陣
判斷矩陣A通過一致性檢驗后得到RFM模型中各指標(biāo)R、F及M權(quán)重分別為:wR=0.13;wF=0.23;wM=0.64。
用K-means聚類算法中的有效性檢驗數(shù)發(fā)現(xiàn),K=3時,聚類效果最佳,相應(yīng)的聚類結(jié)果如表6所示。根據(jù)SOM對客戶RFM指標(biāo)進行分類,第1類屬于一般價值客戶,第2類屬于一般發(fā)展客戶,第3類屬于重要保持客戶。
表6 聚類結(jié)果
隨著物流行業(yè)的市場不斷擴大與發(fā)展,物流企業(yè)的發(fā)展前景也愈加廣闊,機遇與挑戰(zhàn)并存。在物流行業(yè)激烈競爭的背景下,客戶對物流服務(wù)商的服務(wù)質(zhì)量要求也與日俱增,同時物流企業(yè)的發(fā)展離不開精細化的操作運營和管理。因此,根據(jù)客戶對企業(yè)的價值進行細分,挖掘企業(yè)的核心消費者,從而制定符合企業(yè)戰(zhàn)略的營銷與管理方法,最終提升客戶對企業(yè)服務(wù)的滿意度,保證企業(yè)的利潤率最大化,提高在物流行業(yè)的競爭力。