国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)算法的商業(yè)銀行精準(zhǔn)營(yíng)銷模型研究

2020-05-20 16:08金錚
關(guān)鍵詞:隨機(jī)森林精準(zhǔn)營(yíng)銷機(jī)器學(xué)習(xí)

金錚

摘 要:本文意在通過(guò)機(jī)器學(xué)習(xí)算法對(duì)銀行零售數(shù)據(jù)進(jìn)行深度挖掘,探索傳統(tǒng)商業(yè)銀行基于機(jī)器學(xué)習(xí)模型構(gòu)建精準(zhǔn)營(yíng)銷策略的切入點(diǎn)。本文使用商業(yè)銀行數(shù)據(jù)分別構(gòu)建基于邏輯回歸算法和隨機(jī)森林算法的理財(cái)產(chǎn)品響應(yīng)預(yù)測(cè)模型,并進(jìn)行結(jié)果對(duì)比分析,得出經(jīng)過(guò)梯度下降優(yōu)化后的邏輯回歸模型效果更好的結(jié)論。并將此模型預(yù)測(cè)結(jié)果應(yīng)用于實(shí)際理財(cái)產(chǎn)品營(yíng)銷中,為改變傳統(tǒng)商業(yè)銀行營(yíng)銷思路、提升營(yíng)銷精準(zhǔn)度提供幫助。

關(guān)鍵詞:機(jī)器學(xué)習(xí);商業(yè)銀行;精準(zhǔn)營(yíng)銷;邏輯回歸;隨機(jī)森林

在數(shù)據(jù)爆炸式增長(zhǎng)、新興技術(shù)層出不窮的互聯(lián)網(wǎng)時(shí)代,互聯(lián)網(wǎng)金融迅速崛起,金融業(yè)競(jìng)爭(zhēng)愈發(fā)激烈。隨著營(yíng)銷模式的轉(zhuǎn)變、客戶個(gè)性化需求的增多,銀行業(yè)意識(shí)到,傳統(tǒng)的數(shù)據(jù)分析已無(wú)法充分挖掘數(shù)據(jù)的價(jià)值,也無(wú)法滿足現(xiàn)有營(yíng)銷訴求。各銀行紛紛組建專業(yè)的數(shù)據(jù)團(tuán)隊(duì),開(kāi)始嘗試通過(guò)機(jī)器學(xué)習(xí)等手段進(jìn)行數(shù)據(jù)分析挖掘,從而通過(guò)技術(shù)手段驅(qū)動(dòng)業(yè)務(wù)運(yùn)營(yíng)。在此背景下,基于機(jī)器學(xué)習(xí)算法的精準(zhǔn)營(yíng)銷在國(guó)內(nèi)銀行業(yè)快速興起。

一、精準(zhǔn)營(yíng)銷是商業(yè)銀行發(fā)展的必備要素

商業(yè)銀行零售業(yè)務(wù)的業(yè)務(wù)種類繁多、客戶量龐大,依靠傳統(tǒng)營(yíng)銷經(jīng)驗(yàn)很難找到大量的精準(zhǔn)目標(biāo)客戶。故通過(guò)數(shù)據(jù)分析、機(jī)器學(xué)習(xí)模型等方法進(jìn)行海量精準(zhǔn)客戶篩選,從而提升投入產(chǎn)出比成為精準(zhǔn)營(yíng)銷的關(guān)鍵。

近年來(lái),國(guó)內(nèi)銀行業(yè)開(kāi)展的基于機(jī)器學(xué)習(xí)算法的精準(zhǔn)營(yíng)銷試點(diǎn)工作也取得了初步成效:某國(guó)有銀行分別完成了客戶精準(zhǔn)營(yíng)銷主題9項(xiàng)功能、產(chǎn)品精準(zhǔn)營(yíng)銷主題16項(xiàng)功能的全行推廣;某股份制銀行通過(guò)精準(zhǔn)營(yíng)銷不僅實(shí)現(xiàn)了對(duì)3000多萬(wàn)大零售客戶的集中運(yùn)營(yíng)管理(含信用卡客戶)、為超過(guò)400萬(wàn)的貴賓客戶提供個(gè)性化的服務(wù),同時(shí)還節(jié)省了超過(guò)500萬(wàn)的營(yíng)銷成本,最終完成了零售業(yè)務(wù)的二次轉(zhuǎn)型升級(jí);某股份制銀行基于精準(zhǔn)營(yíng)銷模型結(jié)果為客戶推薦產(chǎn)品,推廣支行的客戶金融資產(chǎn)總額、理財(cái)余額等指標(biāo)均有顯著提升,同時(shí)該行為客戶搭建的流失預(yù)測(cè)模型,其前30%分位數(shù)提升2.45倍,模型總體預(yù)測(cè)效果較為理想。

雖然國(guó)內(nèi)銀行業(yè)已有一些可借鑒的精準(zhǔn)營(yíng)銷成功實(shí)踐經(jīng)驗(yàn),各商業(yè)銀行沉淀的大量客戶數(shù)據(jù)也是一個(gè)亟待挖掘的巨大寶庫(kù),但是由于不同銀行的客戶數(shù)據(jù)結(jié)構(gòu)不同,模型也無(wú)法復(fù)用。因此我們?nèi)孕柙阢y行業(yè)基于機(jī)器學(xué)習(xí)算法的精準(zhǔn)營(yíng)銷道路上秉承“智能化、標(biāo)準(zhǔn)化、自動(dòng)化、規(guī)?;钡脑瓌t不斷進(jìn)行探索。

二、基于機(jī)器學(xué)習(xí)算法的理財(cái)產(chǎn)品響應(yīng)預(yù)測(cè)模型

(一)業(yè)務(wù)需求理解與解析

在互聯(lián)網(wǎng)金融時(shí)代,隨著客戶對(duì)金融知識(shí)的理解不斷提升、對(duì)資產(chǎn)管理的意識(shí)不斷加強(qiáng)、對(duì)產(chǎn)品的要求不斷提高,理財(cái)成為商業(yè)銀行營(yíng)銷的重要產(chǎn)品類型。為了更好、更精準(zhǔn)的為客戶提供個(gè)性化產(chǎn)品服務(wù),本文針對(duì)某商業(yè)銀行的理財(cái)產(chǎn)品構(gòu)建基于機(jī)器學(xué)習(xí)算法的產(chǎn)品響應(yīng)預(yù)測(cè)模型。通過(guò)觀察零售客戶購(gòu)買該類理財(cái)產(chǎn)品的行為特征,對(duì)未來(lái)1個(gè)月客戶購(gòu)買該類理財(cái)產(chǎn)品的可能性進(jìn)行預(yù)測(cè),并將模型預(yù)測(cè)結(jié)果應(yīng)用于實(shí)際產(chǎn)品營(yíng)銷中,為一線業(yè)務(wù)人員降低營(yíng)銷成本、提升營(yíng)銷效益提供有力支撐。

(二)數(shù)據(jù)搜集與整理

數(shù)據(jù)為某商業(yè)銀行零售客戶脫敏數(shù)據(jù),具有真實(shí)性與可靠性?;诒敬尉珳?zhǔn)營(yíng)銷理財(cái)產(chǎn)品響應(yīng)預(yù)測(cè)模型的具體需求,結(jié)合業(yè)務(wù)知識(shí)判定,構(gòu)建分類預(yù)測(cè)模型。獲取模型目標(biāo)變量的業(yè)務(wù)含義,即客戶未來(lái)1個(gè)月是否購(gòu)買該類理財(cái)產(chǎn)品,并進(jìn)行數(shù)據(jù)加工處理。本次搜集并提取的建模所需數(shù)據(jù)寬表包含:自變量237個(gè),因變量1個(gè),客戶數(shù)據(jù)661198條。

(三)數(shù)據(jù)探索與分析

基于數(shù)據(jù)寬表,輸出各自變量的描述性統(tǒng)計(jì)分析結(jié)果,如:自變量TRANSFER_AMT_6的數(shù)據(jù)量為82405、均值為278335.36、標(biāo)準(zhǔn)差為3129411.02、最小值為0、下四分位為0、中位數(shù)為300、上四分位為47100、最大值為470000000,并結(jié)合業(yè)務(wù)知識(shí)對(duì)自變量進(jìn)行基礎(chǔ)處理,如:錯(cuò)誤值檢驗(yàn)、缺失值檢驗(yàn)、異常值檢驗(yàn)等。完成基礎(chǔ)數(shù)據(jù)處理后,一方面需要對(duì)數(shù)據(jù)進(jìn)行去量綱化,即數(shù)據(jù)標(biāo)準(zhǔn)化,消除不同變量間的量綱,減少因量綱不同造成的誤差;另一方面為了避免模型結(jié)果過(guò)擬合,需要將數(shù)據(jù)抽樣劃分為訓(xùn)練集和測(cè)試集,劃分比例為7:3,其中訓(xùn)練集是用來(lái)對(duì)模型進(jìn)行擬合的數(shù)據(jù)樣本,測(cè)試集是用來(lái)評(píng)估最終模型泛化能力的數(shù)據(jù)樣本。

(四)特征選擇

樣本數(shù)據(jù)中的特征(即自變量)過(guò)多,需要運(yùn)用統(tǒng)計(jì)知識(shí)結(jié)合業(yè)務(wù)知識(shí)對(duì)特征進(jìn)行篩選,達(dá)到減少特征數(shù)量(降維)、減少模型過(guò)擬合、提高模型泛化能力的目的。特征選擇一般分為以下幾種方式。

1.刪除單一值占比過(guò)大的特征,如某特征值的單一值占比達(dá)到95%以上,則認(rèn)為這個(gè)特征作用不大,需人工刪除;

2.利用卡方檢驗(yàn)篩選變量,檢驗(yàn)定性自變量與定性因變量的相關(guān)關(guān)系,當(dāng)P值小于0.05時(shí),表示自變量分布與因變量分布有顯著差異,需保留該變量,否則刪除;

3.利用變量IV值篩選變量,對(duì)變量進(jìn)行WOE轉(zhuǎn)換,計(jì)算變量IV值并設(shè)置閾值,保留變量IV值大于0.1的變量;

4.對(duì)變量進(jìn)行多重共線性檢驗(yàn),計(jì)算變量的方差膨脹因子VIF值,保留VIF值小于10的變量;

5.利用PCA進(jìn)行降維,經(jīng)過(guò)反復(fù)驗(yàn)證,在模型效果不下降的前提下,盡量減少變量個(gè)數(shù),最終保留30個(gè)變量作為入模變量。將經(jīng)過(guò)以上特征選擇方法進(jìn)行篩選后的自變量與因變量重新加工形成新的數(shù)據(jù)寬表進(jìn)行建模。

三、構(gòu)建基于邏輯回歸算法的預(yù)測(cè)模型

客戶是否購(gòu)買理財(cái)產(chǎn)品的模型采用二元邏輯回歸模型。邏輯回歸(Logistic Regression)是用于處理因變量為分類變量的回歸問(wèn)題,因變量用P表示概率,P的取值范圍是:0≤P≤1。需要對(duì)P進(jìn)行邏輯變換:logit(P)=ln(P/1-P),即可得到邏輯回歸的表達(dá)式為:

P=1/1+e-(Θ0+Θ1X1+Θ2X2+…+ΘnXn)

其中X1,X2,…,Xn分別代表上述特征篩選之后的自變量;Θ0,Θ1,…,Θn分別代表各自變量X的系數(shù),即模型參數(shù)。利用statsmodels中的函數(shù)結(jié)合數(shù)據(jù)得到邏輯回歸模型的參數(shù),最終得到的結(jié)果,如:AUM_M_AD_woe的P值為0.000、FIN_EXPIRE_NUM_M_woe的P值為0.000、SAVDEPT_AMT_M_woe的P值為0.743、TRANSFER_AMT_6_woe的P值為0.036、PRODUCT_NM_woe的P值為0.000等30個(gè)入模變量。其中有些變量的P值大于0.05,即表示變量不顯著,需進(jìn)行刪除處理。從原有的30個(gè)變量中刪除5個(gè)變量(如:SAVDEPT_AMT_M_woe的P值為0.743),還剩顯著變量25個(gè)。

此時(shí)得到的模型參數(shù)并不是最優(yōu)的,需使用最小損失化函數(shù)對(duì)參數(shù)進(jìn)行最優(yōu)化調(diào)整。本文使用梯度下降法對(duì)模型損失函數(shù)進(jìn)行最優(yōu)化。梯度下降法的原理是通過(guò)迭代,找到目標(biāo)函數(shù)的最小值或收斂到最小值,基本公式為:

Θi=Θi -η( ?J(Θ0,Θ1,…,Θn)/ ?Θi)

其中,η為學(xué)習(xí)率,即每次迭代的步長(zhǎng);J(Θ0,Θ1,…,Θn)是損失函數(shù)。

J(Θ0,Θ1,…,Θn)= ∑N i=1(hΘ(xi 0+xi 1+…+xi n)-yi)2/2N

其中xi 0=1。

Θi=Θi -η(∑N i=1(hΘ(xj 0+xj 1+…+xj n)-yj)xj i/N)

在實(shí)際模型建設(shè)過(guò)程之中,步長(zhǎng)η太大會(huì)導(dǎo)致迭代過(guò)快,甚至可能錯(cuò)過(guò)最優(yōu)解;步長(zhǎng)η太小,迭代速度太慢,導(dǎo)致很長(zhǎng)時(shí)間算法都無(wú)法結(jié)束。

經(jīng)過(guò)梯度下降的邏輯回歸模型的結(jié)果指標(biāo)為:KS=0.712,AUC=0.922。

構(gòu)建基于隨機(jī)森林算法的預(yù)測(cè)模型

隨機(jī)森林由Leo Breiman提出,通過(guò)bootstrap重采樣技術(shù)從原始訓(xùn)練樣本集M中有放回的重復(fù)隨機(jī)抽取n個(gè)樣本,生成新的訓(xùn)練樣本集合后,根據(jù)自助樣本集生成n個(gè)分類樹(shù)組成隨機(jī)森林,新數(shù)據(jù)的分類結(jié)果根據(jù)分類樹(shù)投票多少形成的分?jǐn)?shù)來(lái)決定。具體的實(shí)現(xiàn)過(guò)程如下:

1)原始訓(xùn)練集為M,應(yīng)用自助法有放回的隨機(jī)抽取n個(gè)新的自助樣本集,并由此構(gòu)建k棵分類樹(shù),每次未被抽取到的樣本組成了n個(gè)袋外數(shù)據(jù);

2)假設(shè)有a個(gè)變量,則在每棵樹(shù)的每個(gè)節(jié)點(diǎn)處隨機(jī)抽取b個(gè)變量,并在b中選擇一個(gè)最具分類能力的變量,變量分類的閾值通過(guò)檢查每個(gè)分類點(diǎn)來(lái)確定;

3)每棵樹(shù)最大限度的生長(zhǎng),而不做任何的修剪;

4)將生成的多棵分類樹(shù)組成隨機(jī)森林,并用隨機(jī)森林分類器對(duì)新數(shù)據(jù)進(jìn)行判別、分類,分類結(jié)果根據(jù)分類器的投票多少來(lái)決定。

使用隨機(jī)森林模型對(duì)該數(shù)據(jù)進(jìn)行建模,模型結(jié)果的指標(biāo)為:KS=0.512,AUC=0.756。

四、邏輯回歸模型與隨機(jī)森林模型結(jié)果對(duì)比分析

通過(guò)對(duì)比兩種模型的結(jié)果可以發(fā)現(xiàn),隨機(jī)森林模型的KS和AUC值顯著低于經(jīng)過(guò)梯度下降的邏輯回歸模型的相應(yīng)指標(biāo),故從該商業(yè)銀行的數(shù)據(jù)情況來(lái)看,經(jīng)過(guò)梯度下降優(yōu)化后的邏輯回歸模型效果更好。

基于機(jī)器學(xué)習(xí)算法的精準(zhǔn)營(yíng)銷在商業(yè)銀行領(lǐng)域的挑戰(zhàn)。雖然隨著新技術(shù)的不斷興起,基于機(jī)器學(xué)習(xí)算法模型的精準(zhǔn)營(yíng)銷在商業(yè)銀行領(lǐng)域受到青睞,但是在實(shí)際搭建及應(yīng)用過(guò)程中仍會(huì)遇到一些挑戰(zhàn)。

從數(shù)據(jù)層面,商業(yè)銀行的數(shù)據(jù)基本上是結(jié)構(gòu)化數(shù)據(jù),相較互聯(lián)網(wǎng)金融公司而言,在非結(jié)構(gòu)化數(shù)據(jù)方面比較欠缺,搭建模型時(shí)可能會(huì)出現(xiàn)數(shù)據(jù)不夠豐富,模型結(jié)果片面等情況;

從模型層面,篩選變量或者搭建模型的過(guò)程中,如果只單純以數(shù)據(jù)及算法產(chǎn)生的結(jié)果來(lái)評(píng)估變量、模型的好壞,而脫離了業(yè)務(wù)知識(shí)及業(yè)務(wù)發(fā)展的實(shí)際情況,即使模型效果指標(biāo)再漂亮對(duì)實(shí)際業(yè)務(wù)也是無(wú)意義的。因此建模人員對(duì)銀行業(yè)基礎(chǔ)業(yè)務(wù)的理解、對(duì)數(shù)據(jù)含義的解讀及應(yīng)用能力就顯得尤為重要;

從應(yīng)用層面,精準(zhǔn)營(yíng)銷模型的好壞除了數(shù)據(jù)、算法等模型本身涉及的方面外,一線業(yè)務(wù)人員是否相信、是否不折不扣的按模型結(jié)果進(jìn)行落地,以及營(yíng)銷技巧的使用是否得當(dāng)?shù)榷紩?huì)對(duì)模型的推廣、迭代以及評(píng)價(jià)造成影響,因此業(yè)務(wù)人員的配合與反饋十分關(guān)鍵。

參考文獻(xiàn):

[1]賈俊平.統(tǒng)計(jì)學(xué)(第7版)[M].中國(guó)人民大學(xué)出版社,2018.

[2]王芳.基于機(jī)器學(xué)習(xí)理論的電商用戶行為研究[D].北京:物資學(xué)院,2018.

[3]張毅.數(shù)據(jù)為王顛覆營(yíng)銷:移動(dòng)時(shí)代的大數(shù)據(jù)精準(zhǔn)營(yíng)銷.人民郵電出版社,2017.

[4]林慶鵬.基于大數(shù)據(jù)挖掘的精準(zhǔn)營(yíng)銷策略研究[D].蘭州:理工大學(xué),2016.

[5]劉力銀.基于邏輯回歸的推薦技術(shù)研究及應(yīng)用[D].成都:電子科技大學(xué),2013.

猜你喜歡
隨機(jī)森林精準(zhǔn)營(yíng)銷機(jī)器學(xué)習(xí)
隨機(jī)森林在棉蚜蟲(chóng)害等級(jí)預(yù)測(cè)中的應(yīng)用
基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
淺談大數(shù)據(jù)時(shí)代的精準(zhǔn)營(yíng)銷
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
場(chǎng)景:大數(shù)據(jù)挖掘的新標(biāo)準(zhǔn)
基于支持向量機(jī)的金融數(shù)據(jù)分析研究