李云菊 牛貴敏
摘? 要: 采用數(shù)據(jù)挖掘手段,基于某銀行零售業(yè)的數(shù)據(jù),分析了客戶的投資偏好。采用CART決策樹進行特征篩選,發(fā)現(xiàn)客戶群體年齡大于30歲,資產(chǎn)處于5萬以上且工作穩(wěn)定的保守型客戶更傾向于購買銀行基金產(chǎn)品。此外,還構(gòu)建了邏輯回歸模型對客戶購買基金的概率進行預(yù)測。結(jié)果表明,通過數(shù)據(jù)挖掘相關(guān)方法所篩選得到的客戶群體有更高的購買概率,因此極大地提高了銀行從業(yè)人員的工作效率。
關(guān)鍵詞: 特征篩選; 數(shù)據(jù)挖掘; 決策樹; 邏輯回歸; 基金預(yù)測
Abstract: Using data mining method, based on the data of a bank's retail trade, this paper analyzes customers' investment preferences. Using CART decision tree for feature selection, it is found that conservative customers with age over 30, assets over 50,000 and stable work are more inclined to buy bank fund products. In addition, a logistic regression model is also constructed to predict the probability of customers purchasing funds. The results show that the customer groups screened by data mining have higher purchase probability, so it greatly improves the work efficiency of the bank employees.
0 引言
隨著5G技術(shù)的不斷普及應(yīng)用,數(shù)據(jù)規(guī)模增長趨勢加劇,在看似繁雜無序的數(shù)據(jù)背后,往往隱藏著具有價值的信息或知識,其對我們的生產(chǎn)生活具有積極的指導(dǎo)意義。因此從海量的、不完全的、有噪聲的數(shù)據(jù)中可以抽象出人們未知但又潛在的具有實際意義的信息,即通過數(shù)據(jù)挖掘的方式對海量數(shù)據(jù)進行精細化加工,用機器學(xué)習的方式挖掘出數(shù)據(jù)間的關(guān)系,用人們易于理解的方式呈現(xiàn),有助于人們更好的進行生活生產(chǎn)活動[1]。對于企業(yè)而言,用數(shù)據(jù)挖掘的方式對客戶有關(guān)數(shù)據(jù)進行分析,有助于企業(yè)更好的了解客戶行為,順應(yīng)市場變化,調(diào)整營銷策略,縮減營銷成本。
此外,隨著互聯(lián)網(wǎng)“快時代”的到來以及人們消費升級,人們在選擇消費目標或者投資目標產(chǎn)品時愿意花費的時間比以前更短,因此,對于各行各業(yè)來說采取更加便捷、簡單、個性化的營銷推薦方式,選擇真正符合客戶心理需求的服務(wù)才能贏得客戶的青睞,對于銀行業(yè)來說也不例外。為適應(yīng)這種發(fā)展趨勢,提高再本行業(yè)內(nèi)的競爭力,銀行業(yè)應(yīng)加快轉(zhuǎn)變“廣撒網(wǎng)”“大概率”的傳統(tǒng)營銷方式,由產(chǎn)品導(dǎo)向轉(zhuǎn)為客戶導(dǎo)向,從而形成以“互聯(lián)網(wǎng)+”為依托,以“數(shù)據(jù)驅(qū)動”為關(guān)鍵理念的創(chuàng)新“新零售”模式。通過數(shù)據(jù)挖掘發(fā)現(xiàn)客戶群體特征,對潛在的客戶進行有效預(yù)測并為其提供更及時有針對性的服務(wù)。
具有相似特征的客戶,往往會有相似的行為方式。因此在“新零售”模式下,發(fā)現(xiàn)客戶群體的主要特征是重要前提。通過訓(xùn)練機器學(xué)習模型可以從海量的歷史數(shù)據(jù)中“學(xué)”到客戶特征,從而形成“客戶畫像”從多維度來識別客戶群體,有利于企業(yè)進一步的整合銷售渠道與銷售產(chǎn)品類型,合理規(guī)劃營銷策略,在諸如“廣告推送”的營銷手段中有針對性的發(fā)送到目標客戶手中[2]。此外在選擇營銷客戶對象時,利用機器學(xué)習模型對客戶購買情況做出有效的預(yù)測,也能在保證營銷效果的基礎(chǔ)上降低營銷成本,提高營銷效率。
因此,在大數(shù)據(jù)時代下,基于銀行業(yè)零售客戶大量的歷史數(shù)據(jù),挖掘數(shù)據(jù)所隱含的有價值信息,可以對客戶群體特征以及購買基金產(chǎn)品的概率進行預(yù)測。本文的分析重點是運用機器學(xué)習模型對銀行零售業(yè)中基金產(chǎn)品用戶進行特征提取并對新用戶購買基金的概率進行有效預(yù)測。
1 數(shù)據(jù)挖掘算法
數(shù)據(jù)挖掘當前采用的技術(shù)主要包括分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征分析等,在數(shù)據(jù)挖掘過程中根據(jù)不同分析目標選擇不同的手段進行模型構(gòu)建。其中分類是數(shù)據(jù)挖掘最常采用的分析方式之一,分類算法包括決策樹、邏輯回歸、隨機森林、貝葉斯網(wǎng)絡(luò)、支持向量機等[3]。本文采用分類算法中的決策樹算法對購買基金的客戶群體特征進行提取,并用邏輯回歸算法對新客戶購買基金的概率進行預(yù)測。模型參數(shù)的確定均采用網(wǎng)格搜索算法進行參數(shù)尋優(yōu),來保證模型的訓(xùn)練效果。
1.1 CART決策樹算法
決策樹(Descision Tree)作為一種典型的監(jiān)督式學(xué)習主要用來解決分類問題,通過對數(shù)據(jù)的分類迭代,最終形成特征屬性與最終類別之間的樹形結(jié)構(gòu)。決策樹的樹形結(jié)構(gòu)包括三類節(jié)點,分別是問題最初所在位置的根節(jié)點,問題的結(jié)論即最終所屬類別的葉子節(jié)點以及在根節(jié)點和葉子節(jié)點之間的節(jié)點為中間節(jié)點。
決策樹根據(jù)不同的最優(yōu)劃分屬性方式可以分為ID3、C4.5、CART等,與ID3、C4.5相比,CART采用基尼系數(shù)(公式1)決定最優(yōu)劃分屬性[4],并采用二分遞歸分割方式構(gòu)建決策樹,使得CART既可以解決分類問題也可用作解決回歸問題,此外CART決策樹還支持連續(xù)值的處理且適合數(shù)據(jù)復(fù)雜,變量多的數(shù)據(jù),因此CART決策樹相較于ID3、C4.5來說應(yīng)用更為廣泛。
由于整個決策樹的構(gòu)建過程理論清晰,可以將訓(xùn)練得到的決策樹模型以二叉樹的方式進行輸出,最終形成的決策樹結(jié)構(gòu)具有很好的可讀性,因此決策樹作為一種白盒模型除了用于分類之外也可用于特征提取。在本文中CART決策樹用于購買基金客戶特征的提取。
1.2 邏輯回歸算法
與常見的回歸模型不同,邏輯回歸(Logistic Regression)是一種概率模型用于預(yù)測分類因變量的概率,采用Sigmod函數(shù)(圖1)作為判別函數(shù),圖1所示的S形曲線形象的解釋了概率和自變量之間的關(guān)系,對于常見的二分類問題,通過輸入未知類別對象的屬性特征序列得到對象所處的類別,并通過區(qū)間分布對類別進行區(qū)分,即如果Y值大于等于0.5,則判定為正樣本,如果Y值小于0.5,則判定為負樣本[5]。在本文我們探討的是新客戶是否購買基金為典型的二分類問題,因此,我們將構(gòu)建邏輯回歸模型對客戶購買基金的情況進行預(yù)測。
1.3 網(wǎng)格搜索算法
機器學(xué)習的主要任務(wù)包括分類和回歸兩種,而機器學(xué)習模型構(gòu)建的關(guān)鍵是各類參數(shù)的設(shè)置,其直接影響著模型的分類或回歸效果,因此若僅僅依靠個人經(jīng)驗確定模型參數(shù)將是一項費時費力的工作。“網(wǎng)格搜索法”(Grid_Search)是一種暴力窮舉搜索的方法,即在所有的候選的參數(shù)選擇中,通過遍歷給定的參數(shù)的組合并通過交叉驗證的方式來嘗試每一種可能性,并返回最優(yōu)模型下的參數(shù)取值,從而進行模型優(yōu)化[6]。本文中CART決策樹以及邏輯回歸模型的參數(shù)均通過網(wǎng)格搜索方法進行參數(shù)尋優(yōu)。
2 算法在銀行零售業(yè)的應(yīng)用
數(shù)據(jù)挖掘的應(yīng)用渠道非常廣泛,就銀行業(yè)來說,它應(yīng)用于銀行客戶管理生命周期的各個階段,如獲取客戶、保留客戶和優(yōu)化客戶服務(wù)等等過程之中。而基金業(yè)務(wù)對于提高銀行綜合收益起到了舉足輕重的作用,但由于獲取客戶難度高導(dǎo)致的基金業(yè)務(wù)難做成為銀行業(yè)的痛點。因此本文針對銀行業(yè)內(nèi)普遍存在的這一難題通過數(shù)據(jù)挖掘方式進行改善。
本文的研究過程如圖2所示,主要包括三部分,其中第一部分介紹了數(shù)據(jù)集的來源以及數(shù)據(jù)集的預(yù)處理過程;第二部分采用CART決策樹進行基金購買客戶群體的特征提取;第三部分則在以上2部分的基礎(chǔ)上用邏輯回歸進行新客戶購買基金的概率進行科學(xué)預(yù)測。
2.1 數(shù)據(jù)集介紹以及數(shù)據(jù)預(yù)處理
本文研究的數(shù)據(jù)集來自于某銀行零售部門的客戶數(shù)據(jù)(已經(jīng)過嚴格脫敏),共計105780條有效數(shù)據(jù),其中特征屬性包含客戶基本信息、使用渠道、客戶評價和資產(chǎn)負債這4大類別,共計17維度,其中基金購買狀態(tài)為標簽列,具體數(shù)據(jù)集的特征屬性描述如表1所示。
為了方便模型訓(xùn)練和實驗結(jié)果的歸納,本文將連續(xù)型變量即“年齡”與“資產(chǎn)量(月日均)”這兩個特征屬性進行如表2所示的離散化處理。其中“年齡”劃分標準依據(jù)數(shù)據(jù)分布特點,“資產(chǎn)量(月日均)”的離散化標準為銀行業(yè)內(nèi)對客戶資金段的劃分標準。將零售客戶數(shù)據(jù)集進行數(shù)據(jù)去重等數(shù)據(jù)集清洗工作后,得到總計37360條數(shù)據(jù)。
2.2 CART決策樹進行特征提取
基于零售客戶數(shù)據(jù)集,采用CART決策樹,以“基金購買狀態(tài)”為標簽列,根據(jù)CART決策樹算法所訓(xùn)練的決策樹模型對數(shù)據(jù)集中除“基金購買”標簽列的16維數(shù)據(jù)特征進行進一步的特征篩選,進而得到實際與客戶基金購買結(jié)果相關(guān)的因素。
實驗結(jié)果得到影響客戶基金購買的相關(guān)的特征為包括“資產(chǎn)數(shù)量(月日均)”,“年齡”,“性別”,“職業(yè)”,“婚姻狀況”,“代發(fā)簽約狀態(tài)”,“信用卡簽約狀態(tài)”,“微信銀行簽約狀態(tài)”,“其他理財產(chǎn)品數(shù)量”共計9維特征屬性。進一步的我們發(fā)現(xiàn),大于30歲的資產(chǎn)月日均在5萬以上具有穩(wěn)定工作且消費為“保守型”的客戶與其他銀行客戶相比,更傾向于購買基金理財產(chǎn)品,其中信用卡簽約狀態(tài)為未簽約的客戶我們認為其消費類型為“保守型”。
2.3 邏輯回歸進行基金購買情況預(yù)測
基于CART決策樹模型所得到的特征篩選結(jié)果,即在“資產(chǎn)量(月日均)”等9維特征屬性以及“基金購買狀態(tài)”這一標簽列的基礎(chǔ)上,采用邏輯回歸(Logistic Regression)算法訓(xùn)練基金購買預(yù)測模型,對新客戶購買基金的可能性進行預(yù)測。并將最終預(yù)測結(jié)果映射為0—1的之間的概率值,且數(shù)值越大,表明客戶購買基金的可能性越大,即當映射的概率值為1時,邏輯回歸模型將判定用戶購買基金產(chǎn)品的可能性為100%。
本文采用留出法對模型進行評估,其中數(shù)據(jù)集的70%作為訓(xùn)練集進行邏輯回歸模型訓(xùn)練,數(shù)據(jù)集的30%作為測試集來測試模型效果。模型參數(shù),用網(wǎng)格搜索法進行參數(shù)尋優(yōu)來確定。
由于本文實驗?zāi)康氖窃诒U峡蛻纛A(yù)測準確率的同時盡可能多的發(fā)現(xiàn)基金客戶,為此我們在選擇模型參數(shù)時犧牲了部分準確率(Precision)來得到更高的查全率(Recall)。最終基于零售客戶數(shù)據(jù)集訓(xùn)練所得到的基因購買邏輯回歸預(yù)測模型在測試集上的準確率達到70%,查全率為75%,F(xiàn)1值(F-Measure)為70%。
3 結(jié)束語
大數(shù)據(jù)產(chǎn)業(yè)鏈的驅(qū)動下的數(shù)據(jù)分析與數(shù)據(jù)挖掘作為其中的一個重要環(huán)節(jié)對于加強產(chǎn)業(yè)與信息服務(wù)之間的聯(lián)系,促進產(chǎn)業(yè)發(fā)展具有十分積極的作用。本文基于銀行業(yè)零售基金購買情況的數(shù)據(jù)集,通過CART決策樹進行特征提取,我們發(fā)現(xiàn)客戶群體符合年齡在30歲以上,資產(chǎn)處于5萬以上且工作穩(wěn)定的“保守型”客戶更傾向于購買基金,另外,基于訓(xùn)練得到的邏輯回歸模型,可以對客戶購買基金的可能性進行有效的預(yù)測。本文為銀行業(yè)基金理財產(chǎn)品精準營銷提供了科學(xué)有效的方法,實驗結(jié)果表明,通過數(shù)據(jù)挖掘方法得到的客戶比隨機進行基金產(chǎn)品營銷更準確方便,此法極大地減少了銀行從業(yè)人員的工作量,提高了銀行從業(yè)人員決策的準確性。
參考文獻(References):
[1] 邵峰晶.數(shù)據(jù)挖掘原理與算法[M].中國水利水電出版社,2003.
[2] 趙飛鴻.基于金融類客戶畫像的二分K均值算法分析研究與應(yīng)用[D].中國科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院),2016.
[3] Han J, Micheline K. Data mining: concepts and techniques[J]. 2006.5(4):1-18
[4] 周志華.機器學(xué)習[J].航空港,2018.2:94-94
[5] 李平,戴月明,王艷.基于混合卡方統(tǒng)計量與邏輯回歸的文本情感分析[J].計算機工程,2017.12:198-202,208
[6] 劉道文,忽海娜.基于網(wǎng)格搜索支持向量機的網(wǎng)絡(luò)流量預(yù)測[J].計算機應(yīng)用與軟件,2012.29(11):191-192,253