曲浩
(方正證券股份有限公司 北京 100020)
近年來,隨著社會經(jīng)濟(jì)的不斷發(fā)展,各類金融企業(yè)不斷涌現(xiàn),證券行業(yè)的競爭壓力越來越大。在此背景下,相比獲取新客戶,老客戶流失問題更需要得到證券公司的關(guān)注,因為挽留現(xiàn)有客戶的成本比吸引新客戶的成本低很多(夏國恩,2010)。因此,對于證券公司來說,在想辦法吸引新客戶的同時,也應(yīng)盡力避免客戶流失,對有流失征兆的客戶進(jìn)行提前干預(yù),這對提高公司競爭力有重要的戰(zhàn)略意義。此外,企業(yè)數(shù)據(jù)庫中儲存著海量的客戶信息和客戶行為等數(shù)據(jù),如果能夠充分利用這些數(shù)據(jù),從中挖掘有價值的信息,進(jìn)而建立科學(xué)的客戶流失預(yù)警模型來指導(dǎo)業(yè)務(wù),將會大大提升公司的服務(wù)和管理水平。為了有效解決客戶流失預(yù)警問題,企業(yè)可通過基于大數(shù)據(jù)的策略設(shè)計和建立模型,從數(shù)據(jù)中挖掘流失客戶的主要特征,并準(zhǔn)確定位流失客戶群體,實現(xiàn)對客戶流失行為的監(jiān)控和預(yù)警,盡可能地挽留客戶,避免由客戶流失造成的利潤損失。
國內(nèi)許多學(xué)者曾對客戶流失問題進(jìn)行了研究,現(xiàn)有研究主要集中在探討電信行業(yè)客戶流失的原因。例如,周靜等(2017)著眼于客戶流失影響因素研究,運用社交網(wǎng)絡(luò)分析方法,通過構(gòu)造與網(wǎng)絡(luò)結(jié)構(gòu)相關(guān)的變量進(jìn)行影響因素探討,運用邏輯回歸方法構(gòu)建客戶流失預(yù)警模型。李季等(2020)利用某移動通信公司的客戶消費數(shù)據(jù)和個性化營銷實驗,分析了客戶在使用運營商的服務(wù)過程中,服務(wù)與需求之間的匹配程度及客戶投入行為與客戶流失之間的關(guān)系。此外,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,也有學(xué)者通過深度卷積神經(jīng)網(wǎng)絡(luò)的方法了解客戶流失的原因。相比電信行業(yè)研究的如火如荼,證券行業(yè)的客戶流失研究相對較少。鄭宇晨和呂王勇(2016)從賬戶周轉(zhuǎn)率、投資收益等反映客戶交易情況的指標(biāo)出發(fā),采用K均值聚類獲取客戶流失狀態(tài),再通過逐步回歸方法進(jìn)行變量篩選,最終建立logistic客戶流失預(yù)警模型。舒宏和李雙宏(2021)基于大數(shù)據(jù)技術(shù),深入挖掘客戶的證券業(yè)務(wù)數(shù)據(jù)和行為數(shù)據(jù),建立客戶畫像,進(jìn)而融合大數(shù)據(jù)和人工智能技術(shù),提出客戶流失預(yù)測模型和實現(xiàn)步驟 。
通過文獻(xiàn)回顧可以看出,對客戶流失預(yù)警的研究大多是在海量業(yè)務(wù)數(shù)據(jù)的基礎(chǔ)上,采用聚類、回歸等統(tǒng)計方法和機器學(xué)習(xí)模型進(jìn)行數(shù)據(jù)挖掘和預(yù)測。雖然該領(lǐng)域的研究成果頗豐,但目前相關(guān)研究多集中在電信行業(yè),而關(guān)于證券行業(yè)客戶流失問題的探索不但數(shù)量少,而且多圍繞客戶管理方面的宏觀理論,結(jié)論以方法論的建議為主,并未產(chǎn)出可落地的預(yù)警體系應(yīng)用于業(yè)務(wù)中。本文以某券商A的客戶作為研究對象,結(jié)合業(yè)務(wù)背景,對大量真實數(shù)據(jù)進(jìn)行分析探索,在得出研究結(jié)論的同時,將模型結(jié)果落地為一套代碼,使本文的研究內(nèi)容在具有理論意義的同時,還有很高的實用價值。
本文的最終目標(biāo)是基于客戶數(shù)據(jù)建立一套流失預(yù)警體系,能夠?qū)證券公司的客戶流失行為進(jìn)行監(jiān)控和預(yù)警。整個研究框架可分為三大模塊:變量挖掘、模型建立和模型應(yīng)用。
首先,變量挖掘部分包含潛在流失人群篩選及因變量和自變量的確定。根據(jù)A證券公司的業(yè)務(wù)要求,潛在流失人群的判定標(biāo)準(zhǔn)為若T-1時刻的凈資產(chǎn)大于等于5000元,且T時刻凈資產(chǎn)小于5000元,則判定該客戶在T時刻是潛在流失人群。該客戶將被持續(xù)觀察60個自然日,如果在此期間該客戶一直保持凈資產(chǎn)持續(xù)低于5000元,則該客戶在第T+60時刻被判定為流失客戶。再基于A證券公司數(shù)據(jù)庫導(dǎo)出的客戶個人信息表、資產(chǎn)負(fù)債表、交易量表、傭金表、委托表、行為服產(chǎn)盈利表、回訪情況表多源數(shù)據(jù)構(gòu)建重要影響因素。
其次,在模型建立部分,由于上一步驟計算出的自變量數(shù)目較多,考慮到計算效率和模型的穩(wěn)定性,本文將結(jié)合業(yè)務(wù)知識和BIC變量選擇方法選取部分穩(wěn)定有效的特征用于最終建模?;谶壿嫽貧w模型,確定訓(xùn)練集和測試集的時間對應(yīng)關(guān)系,再利用實際數(shù)據(jù)構(gòu)造訓(xùn)練集和測試集并進(jìn)行建模,并對模型的效果利用AUC指標(biāo)進(jìn)行評估。
最后,通過模型預(yù)測出每天的流失預(yù)警名單,進(jìn)而將這些名單發(fā)布給前端業(yè)務(wù)人員,讓業(yè)務(wù)人員對名單上的客戶進(jìn)行及時挽回。此外,本模型還可以輸出每個客戶的流失概率,據(jù)此劃分人群的流失風(fēng)險等級,使業(yè)務(wù)人員可以對不同風(fēng)險的客戶采取不同的干預(yù)策略,有助于對客戶的精細(xì)化管理和運營。
本文使用的問題來自A證券公司經(jīng)脫敏后的業(yè)務(wù)數(shù)據(jù),時間跨度為2020年7月—2021年7月,涵蓋大約12萬名用戶,涉及9張客戶信息表共112個原始字段。由于商業(yè)信息保密的原則,我們無法在本文中公布這些原始數(shù)據(jù)字段,但在后續(xù)建模中會匯報最終用于建模的變量。
以2021年5月2日的所有用戶為例進(jìn)行說明,該批用戶的觀察期為包括5月2日在內(nèi)的未來60天,即2021年5月2日—6月30日。對每個用戶,記錄其在觀察期內(nèi)的凈資產(chǎn)情況,若60天內(nèi)每天的凈資產(chǎn)均小于5000元,那么該用戶便被標(biāo)為“流失”。因此,對于2021年5月2日的待觀察用戶,通過60天的觀察期,可在2021年7月1日得到其流失情況。
(2)潛在流失人群定義。如果直接對所有用戶進(jìn)行流失預(yù)測,涉及的群體非常龐大,為提高預(yù)警工作的效率,本文對每天的所有客戶都先從中篩選出部分潛在流失人群,這部分潛在流失人群相對其他人群來說具有較高的潛在流失風(fēng)險。再對這部分人群進(jìn)行預(yù)警建模,從中找出真正流失的客戶,判斷的標(biāo)準(zhǔn)是客戶在觀察期前是否已經(jīng)表現(xiàn)出一些流失跡象。
結(jié)合公司的業(yè)務(wù)實踐,我們以凈資產(chǎn)的變化作為判斷依據(jù),對于第T日的第i個客戶,若其在第T-1日凈資產(chǎn)大于等于5000,并且第T日凈資產(chǎn)小于5000,那么認(rèn)為他屬于第T日的潛在流失人群。仍以2021年5月2日的數(shù)據(jù)為例進(jìn)行說明:對2021年5月2日的每個用戶記錄其在2021年5月1日的凈資產(chǎn)和2021年5月2日的凈資產(chǎn),若5月1日凈資產(chǎn)大于等于5000元,且5月2日凈資產(chǎn)小于5000元,便將其納入5月2日的潛在流失人群名單中。之后便以這一名單上的用戶作為研究對象,繼續(xù)觀察60個自然日,判斷其最終的流失標(biāo)簽。通過這種方法,每天都能篩選出一批潛在流失人群,這部分潛在流失預(yù)警人群也是后續(xù)建立流失預(yù)警模型的數(shù)據(jù)基礎(chǔ)。
(3)自變量時間節(jié)點的確定。明確了如何篩選研究對象、如何計算流失標(biāo)簽后,接下來需要確定建模過程中自變量所需數(shù)據(jù)的時間范圍。本文建模的核心思想是利用用戶的歷史信息對未來狀態(tài)進(jìn)行預(yù)測,即生成某日人群的自變量時利用的是該日之前一段時間的數(shù)據(jù)。用于生成自變量的時間段的長度需要合理定義,如果時間段太短,就會使得自變量信息提取不充分,難以準(zhǔn)確預(yù)測未來情況;如果時間段太長,用到的數(shù)據(jù)太過久遠(yuǎn),那么對預(yù)測未來的參考價值就不大,甚至可能造成干擾。本文結(jié)合A證券公司業(yè)務(wù)情況最終認(rèn)為,30天是一個合理的時間長度。因此,對于第T日的第i個用戶,將利用其在第T-30日至第T-1日的數(shù)據(jù)生成自變量。仍然以5月2日篩選出的潛在流失人群為例,這部分人在之前30天(即4月2日-5月1日)內(nèi)的數(shù)據(jù)情況就是生成X的時間跨度,后續(xù)將利用這一時間段內(nèi)的數(shù)據(jù)對自變量進(jìn)行計算。
由于用戶每天都有一個流失狀態(tài)標(biāo)簽,一個直觀的辦法是采用逐日建立模型對客戶流失狀態(tài)進(jìn)行預(yù)測。但由于日模型更新迭代的頻率較快,且只使用一天的數(shù)據(jù),如果當(dāng)天的樣本量較小,日模型的預(yù)測效果就會受到影響。因此,為了增加模型的穩(wěn)定性,本文嘗試建立7個交易日模型(簡稱周模型),7個交易日周模型以7個交易日的數(shù)據(jù)為訓(xùn)練集。
表1為7個交易日周模型在2021年4月15日和4月28日兩組數(shù)據(jù)上的擬合結(jié)果。由表1可知,除了“總交易次數(shù)均值”在4月28日的模型中不顯著之外,其他自變量在兩個模型中均是顯著的,且顯著程度較高。此外,從系數(shù)結(jié)果可以看到,兩個在不同日期建立的模型系數(shù)有相同的方向和相近的大小,說明選出的11個自變量在客戶流失概率刻畫過程中的作用較為穩(wěn)定。從模型評估結(jié)果來看,4月15日周模型的AUC為0.846,精確率為66.4%,召回率為86.5%;4月28日周模型的AUC為0.822,精確率為72%,召回率為82.7%。由此可以看出,周模型具有一定的穩(wěn)定性,且預(yù)測能力已經(jīng)達(dá)到了較高水平。
綜上所述,模型產(chǎn)生的一個重大應(yīng)用價值就是基于流失風(fēng)險的人群進(jìn)行細(xì)分。具體做法如下:本文對客戶的流失狀態(tài)進(jìn)行預(yù)測,根據(jù)模型預(yù)測出的流失概率將客戶等量劃分為10類。其中,前10%的客戶有最高的預(yù)測流失概率,10%~20%的客戶有次高的預(yù)測流失概率,以此類推。為了驗證模型效果,可以計算每類客戶的實際流失率,對比發(fā)現(xiàn),擁有較高預(yù)測流失率人群的實際流失率也相對較高,特別是“前10%”和“10%~20%”的客戶實際流失率分別高達(dá)92.43%和92.70%。因此,可以根據(jù)模型給出的預(yù)測流失概率對客戶劃分不同的流失風(fēng)險等級,如“高流失風(fēng)險”“中等流失風(fēng)險”和“低流失風(fēng)險”,并在實際業(yè)務(wù)中根據(jù)風(fēng)險等級對客戶應(yīng)用不同的挽回策略。
該研究結(jié)果將在兩個層面對A證券公司的業(yè)務(wù)系統(tǒng)實現(xiàn)支持:從策略支持的角度,本文最終將提供一套完整的客戶流失因子影響度分析及客戶流失預(yù)警邏輯體系。從技術(shù)支持的角度,本文最終將提供一套高效、穩(wěn)定的程序代碼,包含流失因子分析、流失預(yù)警及策略分析等部分,以便A證券公司的開發(fā)人員進(jìn)行后期開發(fā)、部署和應(yīng)用。