錢 超,楊 孟,耿 健,許宏科
(1.長安大學電子與控制工程學院,西安710064;2.陜西高速公路電子收費有限公司,西安710021)
電子不停車收費(Electronic Toll Collection,ETC)系統(tǒng)可降低車輛通行時間和能源消耗,同時又可節(jié)約基建和運營成本,因而成為世界各國大力推崇的先進支付方式.截至2017年2月底,我國29個ETC聯(lián)網(wǎng)省份(西藏、海南除外)累計建成ETC專用車道14 285條,ETC客戶數(shù)達到4 767.44萬,交易量日均810萬筆,占高速公路通行量的31.17%[1].
自20世紀90年代以來,以客戶為中心的管理理念促使客戶關系管理(Customer Relationship Management,CRM)受到廣泛重視[2-3].客戶細分通過對不同集合的客戶分別進行有效評估,達到合理分配服務資源、精準實施服務策略的目的,為充分獲取客戶價值提供了理論和方法指導.
目前關于CRM的研究主要集中于電信服務[4]、能源供應[5]和零售[6]等行業(yè).近年來交通運輸行業(yè)也開展了航空、鐵路和軌道交通客戶細分方法的研究,如Wei提出并設計了一種基于蟻群聚類的航空客戶細分系統(tǒng)[7];Teichert等在分析航空旅客偏好行為數(shù)據(jù)的基礎上提出一種航空客戶細分方法[8];Chiang提出一種航空公司有價值旅客挖掘模型,并根據(jù)關聯(lián)規(guī)則為客戶匹配最優(yōu)的營銷策略[9];潘玲玲在聚類算法并行化基礎上建立了一種航空旅客細分模型[10];張斌等研究了基于K-means聚類算法的鐵路貨運客戶細分方法[11];帥斌等應用改進的RFM模型實現(xiàn)了鐵路快捷貨運客戶細分,分析了每一類客戶的行為特征、價值及不同的營銷策略[12];鐘雁等應用K-means聚類和貝葉斯分類器對鐵路貨票數(shù)據(jù)進行挖掘,實現(xiàn)了鐵路貨運客戶的細分和判別[13];鄒慶茹等利用城市軌道自動售檢票(AFC)系統(tǒng)數(shù)據(jù)對乘客進行分類,為低峰折扣票價制定和評價提供方法支持[14].
在ETC乃至整個高速公路客戶管理領域,目前研究主要集中于提升服務滿意度[15]、防逃費[16]等方面.在全國已建成較為完善的ETC基礎設施的背景下,如何深度分析ETC系統(tǒng)海量數(shù)據(jù),獲取ETC客戶的通行特征,從而達到挖掘客戶潛力、提升客戶價值、實現(xiàn)精確營銷的目的,是ETC推廣應用中面臨的重要問題.本文研究目標是應用大數(shù)據(jù)技術建立一種基于車輛通行特征的ETC客戶細分方法,為制定ETC客戶分級費率優(yōu)惠、提高ETC客戶規(guī)模和支付比例提供理論依據(jù).
客戶細分是以客戶消費需求為出發(fā)點,根據(jù)客戶購買行為的差異性,把客戶總體劃分為類似性消費群體的過程[17].依據(jù)客戶行為,Arthur Hughes提出基于近度(Recency,R)、頻度(Frequency,F)和值度(Monetary,M)的RFM客戶細分模型得到廣泛應用[18].其中,R表示客戶最近一次購買的時間有多遠,F(xiàn)表示客戶在最近一段時間內(nèi)購買的次數(shù),M表示客戶在最近一段時間內(nèi)購買的金額.
高速公路ETC收費數(shù)據(jù)記錄了車輛通行的各類信息,包括ETC卡號、出入收費站的時間、車型、車種及消費情況等,具體數(shù)據(jù)格式如表1所示.
表1 ETC收費數(shù)據(jù)格式Table 1 ETC data format
每條ETC數(shù)據(jù)代表了ETC客戶的1次出行消費記錄,通過數(shù)據(jù)聚集可對ETC客戶年度消費情況進行匯總.結合RFM模型,將ETC客戶細分指標定義為最近消費間隔、年通行頻次和年消費金額等3類,如表2所示.
表2 ETC客戶細分指標Table 2 Segmentation index of ETC customer
按ETC卡號對ETC客戶的消費記錄進行聚集,對年通行頻次為F的ETC客戶,其最近消費間隔R和年消費金額M的指標計算方法為
式中:Tset表示一個指定的時間;TF_out表示車輛在統(tǒng)計年中第F次消費時間(ETC出口時間);Si表示車輛第i次通行的消費金額.
由上述ETC客戶細分指標體系,得到RFM指標的三維狀態(tài)空間.ETC客戶聚類是根據(jù)空間中樣本分布,將距離相近的樣本劃歸成一類,從而得到多類別ETC客戶的劃分方法.
基于劃分(Partitioning-Based)的聚類方法,如K-means和K-medoids,其計算復雜度高,僅適用于小型數(shù)據(jù)集.圍繞中心點劃分(Partitioning Around Medoids,PAM)采用迭代、貪心的方法實現(xiàn)K-medoids算法,即通過設置最大迭代次數(shù),在迭代過程中基于貪心策略來選擇使得聚類質(zhì)量最高的劃分,其應用同樣也受限于數(shù)據(jù)規(guī)模[19].鑒于此,Kaufman等提出一種改進的PAM算法——CLARA(ClusteringLARgeApplications)算 法.CLARA算法不考慮整個數(shù)據(jù)集,而是每次抽取一部分樣本使用PAM算法,經(jīng)過反復抽樣,比較多組樣本最優(yōu)中心點,最后以最好的聚類結果輸出,因而解決了PAM算法在處理數(shù)據(jù)量較大問題時的計算瓶頸[20].
利用CLARA算法進行ETC客戶聚類分析的過程如圖1所示.
圖1 CLARA算法Fig.1 CLARA algorithm
ETC客戶聚類分析完成后,每個ETC客戶被賦予一個特定的分類標簽.決策樹分析則以聚類產(chǎn)生的分類標簽為規(guī)則,通過一定的學習算法,尋找數(shù)據(jù)與分類規(guī)則之間的對應關系.沿決策樹根節(jié)點到樹中每個葉子節(jié)點的路徑,決策樹可以轉(zhuǎn)換成IF-THEN分類規(guī)則.
常用的決策樹算法有迭代的二分器(Iterative Dichotomiser,ID3)、C4.5及分類回歸樹(Classification And Regression Trees,CART)算法.相較于其他決策樹算法,CART算法采用二叉樹模型代替了多叉樹,以基尼指數(shù)(Gini Index)來代替信息增益比,簡化了基于信息論的熵模型的同時仍保留了熵模型的優(yōu)點,運算效率較高[21].本文采用CART算法對ETC客戶細分規(guī)則進行學習,具體過程如圖2所示.
圖2 CART算法Fig.2 CART algorithm
生成決策樹過程中,使用基尼指數(shù)來選擇劃分指標,其計算方法為
式中:pi表示D中樣本點屬于i類的概率;k表示D中樣本中類別數(shù).
子集劃分后,數(shù)據(jù)集D的基尼指數(shù)為
式中:D1、D2表示劃分的子集;Gini(D)越小表示數(shù)據(jù)集D的不純度越低.
應用ETC客戶聚類分析與細分規(guī)則提取算法建立ETC客戶細分模型,其建模過程主要包含以下3個部分:
(1)數(shù)據(jù)預處理與指標提取.
對ETC原始收費數(shù)據(jù)進行清洗并從中提取ETC客戶指標;設置指標閾值,優(yōu)選數(shù)據(jù)子集,得到ETC客戶指標數(shù)據(jù)集.
(2)ETC客戶聚類.
對ETC客戶指標數(shù)據(jù)集進行聚類分析,得到ETC客戶聚類結果.
(3)ETC客戶細分規(guī)則提取
應用CART算法對ETC客戶指標數(shù)據(jù)與聚類結果進行學習,得到ETC客戶細分規(guī)則決策樹,根據(jù)細分規(guī)則最終得到ETC客戶星級評定結果.
ETC客戶細分建模流程如圖3所示.
本文以陜西省2014年小型客車(7座及以下)ETC數(shù)據(jù)為基礎,數(shù)據(jù)量共3 100余萬條.首先對數(shù)據(jù)進行清洗,刪除與主題不相關的車輛數(shù)據(jù)(如免費車輛)和異常通行數(shù)據(jù)(如入口時間大于出口時間).然后提取得到324 585組ETC客戶細分指標數(shù)據(jù),如表3所示,其中指定時間Tset=“2015-1-2 00:00:00”.
圖3 ETC客戶細分建模流程Fig.3 Modeling process of ETC customer segmentation
表3 ETC客戶細分指標提取結果(部分)Table 3 Extraction results of ETC customersegmentation indexes
ETC客戶細分指標的概率密度分布情況如圖4(a)~圖4(c)所示.進一步分析可知,距指定時間90天(2 160 h)內(nèi)有消費記錄的ETC客戶約占85%;年通行低于6次的ETC客戶約占13.3%;年消費金額小于200元的ETC客戶約占18.6%,而年消費金額大于12 000元的ETC客戶約占0.77%.
圖4 ETC客戶細分指標的分布Fig.4 Distribution of ETC customer segmentation indexes
為優(yōu)選數(shù)據(jù)子集提高聚類分析的準確性,過濾掉通行頻次過低和消費金額極值的ETC客戶,過濾規(guī)則為:(F<6)?(M<200)?(M>12 000).最終得到255 316組ETC客戶指標數(shù)據(jù),形成ETC客戶指標數(shù)據(jù)集.
鑒于指標數(shù)據(jù)集較大,為更清晰展示“年通行頻次”與“年消費金額”之間的關系,隨機抽樣2%客戶(5 106組)繪制“年通行頻次—年消費金額”散點圖,如圖5所示.由圖5可知,ETC車輛平均單次消費金額均大于或等于5元(M=5F虛線上方),符合陜西省高速公路收費按“5元取整”的規(guī)則,表明數(shù)據(jù)預處理完成了對異常通行數(shù)據(jù)的清洗.
圖5 “年通行頻次—年消費金額”抽樣數(shù)據(jù)散點圖Fig.5 Scatter plot of“Frequency-Monetary”(sample data)
根據(jù)平均輪廓系數(shù)原則[22]確定ETC客戶指標數(shù)據(jù)集的最佳聚類個數(shù)k=3.考慮到預處理階段過濾掉部分ETC客戶,故ETC客戶指標數(shù)據(jù)集中3類客戶分別用C2、C3和C4表示,(F<6)?(M<200)和(M>12 000)的客戶分別用C1和C5表示.由于數(shù)據(jù)量龐大,K-means和PAM等算法均無法實現(xiàn)ETC客戶全樣本數(shù)據(jù)聚類.CLARA算法中,抽樣次數(shù)(samples)和抽樣個數(shù)(sampsize)越大,聚類結果越精確,但相應計算開銷也越大.分別設置不同參數(shù)組合對ETC客戶指標數(shù)據(jù)集進行迭代計算,得到的ETC客戶聚類中心與計算耗時對比結果如表4所示.
表4 不同參數(shù)組合下聚類中心計算結果Table 4 Calculation results of clustering medoids under different combined parameters.
由表4可知,隨著samples和sampsize的增大,聚類中心計算結果趨于一致.綜合考慮ETC客戶數(shù)據(jù)規(guī)模和時效性,CLARA算法中按每次2%(sampsize=5 000)隨機抽樣10次對ETC客戶指標數(shù)據(jù)進行聚類,得到ETC客戶所屬類別.
以指標數(shù)據(jù)集中R、F和M指標為預測變量,以客戶類別為響應變量,結合CART算法生成C2、C3和C4客戶細分決策樹,如圖6所示.
ETC客戶細分決策樹共包含6個葉子節(jié)點,節(jié)點第1行表示該節(jié)點數(shù)據(jù)子集(ETC客戶)最終所屬客戶類別,第2行表示該節(jié)點數(shù)據(jù)子集分屬C2、C3或C4類別的概率,第3行表示該節(jié)點ETC客戶所占比例.根據(jù)圖6中各子節(jié)點分裂規(guī)則提取得到C2、C3和C4客戶細分規(guī)則,同時納入C1和C5過濾規(guī)則,最終形成ETC客戶IF-THEN細分規(guī)則如表5所示.
根據(jù)ETC客戶細分規(guī)則,對全部ETC客戶進行細分,C1~C5分別對應不同星級客戶.匯總各星級客戶數(shù)和總消費金額如表6所示.
圖6 ETC客戶細分決策樹Fig.6 Decision tree of ETC customer segmentation
表5 ETC客戶細分規(guī)則Table 5 Segmentation rules of ETC customer
表6 ETC客戶細分結果Table 6 Star-rating results of ETC customer
由表6可知,2014年陜西省324 585組ETC客戶共計通行2 313萬余次,通行總消費約5.46億元,按現(xiàn)行95折優(yōu)惠費率,實際ETC路費收入約5.19億元.其中,一星級客戶占比20.57%,實際路費貢獻率僅為1.33%,未來對此類客戶需加大宣傳引導,提高ETC使用率;二星級客戶占比8.15%,實際路費貢獻率為4.71%,未來需重點培育此類客戶群,激發(fā)ETC使用潛力;三、四星級客戶占比分別為49.42%和21.09%,合計路費貢獻率超85%,是ETC系統(tǒng)的主要客戶,未來可考慮分別給予額外的費率優(yōu)惠,提升客戶自我價值;五星級客戶占比僅為0.77%,但卻貢獻率了7.6%的路費收入,此類客戶是ETC系統(tǒng)的重點客戶,未來可考慮給予較大的費率優(yōu)惠,同時需重點跟蹤此類客戶對ETC系統(tǒng)的使用感受,提高ETC系統(tǒng)服務質(zhì)量.
本文應用大數(shù)據(jù)技術,提出一種高速公路ETC客戶細分方法,該方法利用ETC收費數(shù)據(jù)提取ETC客戶細分指標,基于CLARA算法實現(xiàn)ETC客戶的聚類分析,采用CART算法提取ETC客戶細分規(guī)則.本文結合實例設計了ETC客戶星級評定方法,分析了ETC客戶通行特征和服務策略,可為高速公路運營管理單位探索ETC客戶精準營銷和分級費率優(yōu)惠提供創(chuàng)新思路,同時對進一步提高ETC客戶規(guī)模和支付比例,增強客戶對ETC系統(tǒng)的依賴性與好感度等方面具有重要的應用價值.
本文基于RFM模型定義了ETC客戶細分指標體系,未來可根據(jù)星級評定業(yè)務需求,定義新的細分指標并調(diào)整各指標權重,以期星級劃分結果更加符合“金字塔模型[23]”.由于不同車型收費標準、使用性質(zhì)等存在差異,本文僅對小型客車(7座及以下)ETC客戶進行了細分研究,對其他車型ETC客戶可參考本文方法并結合具體通行特征展開細分方法研究.