侯毓
(湖北中煙工業(yè)有限責(zé)任公司信息中心,湖北 武漢 430040)
2020年4月9日,中共中央、國務(wù)院發(fā)布《關(guān)于構(gòu)建更加完善的要素市場化配置體制機(jī)制的意見》,正式將數(shù)據(jù)納入生產(chǎn)要素范圍,數(shù)據(jù)資源的重要性已不言而喻。對(duì)于煙草行業(yè)而言,目前中國煙民大概3.5億人,全國注冊(cè)零售戶1 286萬戶。2019年,全年行業(yè)訂單2.28億份,交易明細(xì)記錄73.59億條。煙草行業(yè)有如此大體量數(shù)據(jù),應(yīng)積極探索識(shí)別不同零售戶的潛在價(jià)值以實(shí)現(xiàn)卷煙資源的合理配置以及營銷物資的合理投放。
1956年,Wendell R. Smith提 出 市 場 細(xì) 分理論,針對(duì)不同客戶群體實(shí)行差異化營銷[1]。通過對(duì)4 998戶柳州市轄區(qū)持證卷煙零售戶開展?jié)M意度調(diào)查,梁娟等研究發(fā)現(xiàn)零售戶對(duì)客戶服務(wù)和市場管理的滿意度較高,但對(duì)盈利情況、貨源供應(yīng)政策、月度商定總量、卷煙品質(zhì)的豐富性、零售戶分檔公平性等的滿意度較低[2]。煙草公司現(xiàn)行的營銷策略是根據(jù)“購進(jìn)數(shù)量”“購進(jìn)金額”“購進(jìn)品規(guī)數(shù)”三個(gè)維度,通過權(quán)重附分值的方法進(jìn)行月度滾動(dòng)式分檔管理。由于貨源投放依賴分檔結(jié)果,缺乏靈活性,面對(duì)市場環(huán)境的變化難以快速調(diào)整投放策略,貨源投放不精準(zhǔn)。面對(duì)卷煙消費(fèi)的升級(jí)不能及時(shí)響應(yīng),導(dǎo)致零售戶所處檔位與其實(shí)際銷售能力不匹配,許多零售戶對(duì)現(xiàn)有的檔位劃分結(jié)果不滿意[3]。
各學(xué)者試圖利用數(shù)據(jù)挖掘技術(shù)尋找更為科學(xué)的方法,如姚龍飛基于RFM模型構(gòu)建用戶畫像標(biāo)簽,通過云模型聚類算法將湖南省某地市零售戶劃分為重要保留客戶、重要發(fā)展客戶、重要挽留客戶、低價(jià)值客戶四大類[4];周旭以“客戶為中心”,基于Hadoop大數(shù)據(jù)平臺(tái),利用FCM模糊聚類算法構(gòu)建客戶價(jià)值模型,將全國零售戶劃分為五大類[5];鄧基剛等基于K-means聚類將12 357個(gè)客戶劃分為VIP客戶、重要客戶、普通客戶、小客戶四大類[6]。
文章以RFM模型和K-means算法為理論基礎(chǔ),從實(shí)際業(yè)務(wù)出發(fā),將方法論與業(yè)務(wù)實(shí)踐深度融合,以融合后的實(shí)際結(jié)果為依據(jù)劃分零售戶類別,并進(jìn)行相應(yīng)的價(jià)值挖掘,相比傳統(tǒng)的理論導(dǎo)向更有實(shí)踐意義。
RFM模型由美國數(shù)據(jù)庫營銷研究所Arthur Hughes提出,是一種被廣泛應(yīng)用的經(jīng)典的精細(xì)化運(yùn)營方法,是衡量客戶當(dāng)前價(jià)值和潛在價(jià)值的重要工具和手段。該模型由觀察期內(nèi)客戶最近一次消費(fèi)時(shí)間到當(dāng)前時(shí)間的間隔R(Recency)、消費(fèi)頻次F(Frequency)、消費(fèi)總金額M(Monetary)三項(xiàng)指標(biāo)構(gòu)成。
聚類分析是數(shù)據(jù)挖掘中研究分類問題的一種重要的統(tǒng)計(jì)分析方法,屬于機(jī)器學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)。K-means聚類是聚類算法中的一種常用算法,也是數(shù)據(jù)挖掘中的十大經(jīng)典算法之一,其核心思想是通過計(jì)算樣本點(diǎn)至類中心的距離劃分k個(gè)類別,找出使組內(nèi)距離平方和總和D最小的類別進(jìn)行劃分,即求解最優(yōu)化問題[7]。
就煙草行業(yè)某省級(jí)工業(yè)公司而言,對(duì)于行業(yè)零售戶訂單數(shù)據(jù),傳統(tǒng)數(shù)據(jù)庫存儲(chǔ)數(shù)據(jù)量5~6T,日均處理數(shù)據(jù)量5億~6億條,處理時(shí)間少則1小時(shí)、多則8小時(shí),甚至出現(xiàn)崩潰狀態(tài)。利用內(nèi)存計(jì)算、高效索引、執(zhí)行優(yōu)化和高度容錯(cuò)的大數(shù)據(jù)技術(shù),可以滿足海量訂單數(shù)據(jù)對(duì)數(shù)據(jù)庫存儲(chǔ)和處理的需求,處理時(shí)間僅需要10分鐘。將數(shù)據(jù)庫中的訂單主表與零售戶維度表進(jìn)行左連接,抽取湖北省某地市全年零售戶所有卷煙的訂單數(shù)據(jù),共計(jì)零售戶38 567戶、訂單162.99萬份,涉及的字段如表1所示。
表1 零售戶相關(guān)分析字段
數(shù)據(jù)收集完成后,需要進(jìn)行數(shù)據(jù)質(zhì)量檢查。研究范圍內(nèi)的數(shù)據(jù)未出現(xiàn)數(shù)據(jù)缺失、格式不統(tǒng)一、數(shù)據(jù)不規(guī)范、重復(fù)記錄等問題,原因在于行業(yè)訂單下行數(shù)據(jù)進(jìn)入大數(shù)據(jù)平臺(tái)時(shí),平臺(tái)會(huì)開展相關(guān)數(shù)據(jù)清洗工作,清洗后的數(shù)據(jù)質(zhì)量相對(duì)較高。
1.構(gòu)建RFM指標(biāo)
R:先找出某年1月1日至12月31日,各零售戶的最近一次訂購日期,然后以年度商業(yè)公司準(zhǔn)予的最后一次訂購日期12月31日為基準(zhǔn),計(jì)算各零售戶最近一次訂購日期到12月31日的間隔天數(shù),即各零售戶的R值,單位:天。
F:一次訂單僅對(duì)應(yīng)一個(gè)編號(hào),故訂單編號(hào)唯一。計(jì)算1月1日至12月31日,各零售戶不同訂單編號(hào)總數(shù),即各零售戶的F值,單位:次。
M:1月1日至12月31日,各零售戶訂購金額總和,即各零售戶的M值,單位:元。
利用R語言構(gòu)建RFM模型,樣本量共計(jì)38 567個(gè)。
2.剔除異常值
根據(jù)卷煙管控的特殊性質(zhì),最近一次訂購間隔和年度訂購次數(shù)一般不會(huì)出現(xiàn)極端情況,而訂購總金額可能會(huì)因?yàn)椴煌闶蹜舻牟煌?jīng)營狀況出現(xiàn)極端差異,須對(duì)M值進(jìn)行異常值檢查。通過R語言繪制的箱形圖,一個(gè)樣本M值存在異常。經(jīng)查實(shí),該零售戶是一家大型便利店,推測該零售戶可能是特殊客戶,故研究不將該零售戶納入樣本范圍,剔除后樣本量為35 863個(gè)。
3.數(shù)據(jù)標(biāo)準(zhǔn)化
為消除不同量綱對(duì)后續(xù)聚類分析產(chǎn)生的影響,需要對(duì)R、F、M進(jìn)行標(biāo)準(zhǔn)化。文章采用Z-Score方法進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,具體換算過程:
利用R語言中的scale函數(shù)實(shí)現(xiàn)Z-Score標(biāo)準(zhǔn)化。
K-means算法需要事先確定k值,利用R語言繪制組內(nèi)距離平方和隨k值變化的折線圖,可以看到k的最優(yōu)值為5,也就是說整個(gè)樣本分為5類是最合適的。
利用R語言進(jìn)行K-means聚類建模,得到不同角度的三維聚類效果如表2所示??梢钥吹剑w劃分結(jié)果較為理想。
表2 聚類模型的各類中心值
映射到原數(shù)據(jù)的各類中心值如表3所示,結(jié)合實(shí)際業(yè)務(wù)對(duì)5類零售戶進(jìn)行精準(zhǔn)定位。根據(jù)某年該地市實(shí)際訂煙情況看,全年訂購周期共計(jì)53期,下面針對(duì)表3進(jìn)行定位分析。
表3 映射到原數(shù)據(jù)的各類中心信息表
第1類:最近一次訂購時(shí)間平均間隔為7.22天,平均每戶訂購50.93次,屬于高頻戶;平均每戶年訂購金額次于第3類,優(yōu)于其他類。該類零售戶經(jīng)營狀況不錯(cuò),通過一定的營銷手段或激勵(lì)措施,有望進(jìn)一步增強(qiáng)銷售能力,故文章將該類定位為潛力客戶。
第2類:最近一次訂購時(shí)間平均間隔為6.58天,說明最近一次訂購周期內(nèi)該類零售戶正常訂煙;平均每戶訂購52.05次,說明該類零售戶在整年每個(gè)訂煙周期內(nèi)均未缺席;平均每戶年訂購金額達(dá)到百萬以上,是所有類別中訂購金額最高的一類。該類零售戶經(jīng)營狀況最好,銷售能力最強(qiáng),故文章將該類定位為優(yōu)質(zhì)客戶。
第4類:最近一次訂購時(shí)間平均間隔為8.49天,與其他4類相比,屬于中等水平,故文章將該類定位為一般客戶。
第5類:最近一次訂購時(shí)間平均間隔達(dá)到132.28天,說明該類零售戶有4個(gè)多月沒有訂購行為,相對(duì)應(yīng)的平均每戶訂購次數(shù)較少。該類零售戶可能對(duì)卷煙市場經(jīng)營形勢不看好,處于流失狀態(tài),故文章將該類定位為流失客戶。
商業(yè)公司對(duì)每一規(guī)格投放的數(shù)量有嚴(yán)格限制。零售戶根據(jù)需求下單時(shí),實(shí)際能夠訂購的數(shù)量最多只能與商業(yè)公司提供的上限一致,不一定能滿足需求,用需求滿足率=訂購量/需求量來衡量供需情況。各類客戶需求滿足情況如表4所示,從中可以看出,整體需求滿足率在60%上下,供遠(yuǎn)小于求,市場供需不平衡較為明顯,但從“吸煙有害健康”的角度來說,供給側(cè)嚴(yán)格控量符合國家行業(yè)稍緊平衡和垂直管控政策。
表4 各類客戶需求滿足情況
1.不同業(yè)態(tài)下的分布差異
不同業(yè)態(tài)類型下的客戶分布存在差異,如表5所示。
表5 不同業(yè)態(tài)類型下的客戶分布情況
根據(jù)零售戶店鋪的經(jīng)營范圍,業(yè)態(tài)類型分為食雜店、便利店、煙酒店、商場、娛樂服務(wù)及其他6種??v向看,食雜店在所有業(yè)態(tài)類型中占到了3/4以上,說明該地市卷煙銷售大部分集中在食雜店,這是符合實(shí)際情況的,食雜店俗稱“小賣部”,隨處可見。從百分比角度看,便利店、食雜店中的各類客戶占比情況一致——一般客戶>潛力客戶>新/擬流失客戶>優(yōu)質(zhì)客戶>流失客戶;商場的一般客戶、潛力客戶居多,優(yōu)質(zhì)客戶尚可;娛樂服務(wù)店中一般客戶、新/擬流失客戶比重較高,流失客戶在所有業(yè)態(tài)類型中比率最高,說明娛樂服務(wù)店的客戶在所有業(yè)態(tài)中最易流失;其他業(yè)態(tài)中一般客戶居多,也是6大業(yè)態(tài)類型里一般客戶比重最大的一類。
2.不同規(guī)模下的客戶分布
不同規(guī)模,客戶分布也不同,如表6所示。
表6 不同規(guī)模的客戶分布情況
零售戶經(jīng)營規(guī)模分大、中、小3種類型。縱向看,該地市零售戶67%以上都是中型,大型和小型各占一角。橫向看,優(yōu)質(zhì)客戶集中于大型,中型稍多,可謂是小型零售戶里的鳳毛麟角;潛力客戶大多存在于大、中型,中型比大型多;一般客戶、流失客戶、新/擬流失客戶均以中型居多,小型其次,大型最少。大型規(guī)模的潛力客戶最多,占一半以上,優(yōu)質(zhì)客戶排名第二,新/擬流失客戶、流失客戶相較中、小型零售戶最少;中型規(guī)模的客戶排名是一般客戶第一、潛力客戶第二、新/擬流失客戶第三、流失客戶第四、優(yōu)質(zhì)客戶第五;小型規(guī)模的零售戶也以一般客戶居多,因投資成本低,新/擬流失客戶及流失客戶比重都比大、中型高,優(yōu)質(zhì)客戶和潛力客戶自然就極少。
文章依托大數(shù)據(jù)平臺(tái),收集了湖北省某地市的零售戶38 567戶、訂單162.99萬份。經(jīng)過構(gòu)造RFM指標(biāo)、剔除無效零售戶、剔除異常值等數(shù)據(jù)處理后,得到樣本35 863個(gè)。通過R語言實(shí)現(xiàn)的K-means聚類建模,將分析樣本劃分為較為理想的5大類,并結(jié)合年度該地市的實(shí)際訂煙情況,實(shí)現(xiàn)了5大類的精準(zhǔn)定位,分別是優(yōu)質(zhì)客戶、潛力客戶、一般客戶、流失客戶、新/擬流失客戶,繼而比較貼合實(shí)際地分析了不同客戶群體的經(jīng)濟(jì)價(jià)值、供需情況、分布差異(包括業(yè)態(tài)差異、規(guī)模差異),為卷煙資源的合理配置以及營銷物資的合理投放提供了一定的參考,也為后續(xù)更細(xì)粒度地?cái)?shù)據(jù)挖掘,比如零售戶對(duì)卷煙規(guī)格的偏好分析等,奠定了良好基礎(chǔ)。