国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于信息熵的商業(yè)銀行客戶畫像屬性約簡研究

2022-02-24 00:47張宇敬王柳齊曉娜許美玲王蕾
關(guān)鍵詞:婚姻狀況粗糙集信息熵

張宇敬,王柳,齊曉娜,許美玲,王蕾

(河北金融學(xué)院 信息工程與計算機(jī)學(xué)院,河北 保定 071000)

隨著大數(shù)據(jù)、云計算和人工智能等技術(shù)的不斷發(fā)展以及中國投資顧客群結(jié)構(gòu)的變化,如何通過新技術(shù)、新工具設(shè)計個性化的資產(chǎn)管理服務(wù)是商業(yè)銀行等資產(chǎn)管理行業(yè)在未來的市場競爭中致勝的重要一環(huán).智能投顧作為人工智能在財富管理領(lǐng)域的重要應(yīng)用,近年來受到廣泛關(guān)注.智能投顧的概念于2002年首次被提出,將傳統(tǒng)上由人工提供的理財顧問服務(wù)轉(zhuǎn)變?yōu)槭褂镁哂腥斯ぶ悄艿挠嬎銠C(jī)程序系統(tǒng),它可以根據(jù)客戶自身的理財需求,通過一系列的算法和產(chǎn)品搭建起數(shù)據(jù)模型[1],其先進(jìn)性在于能夠針對投資者的不同風(fēng)險偏好、預(yù)期收益,對其進(jìn)行資產(chǎn)畫像并形成個性化的資產(chǎn)配置方案,提供差異化服務(wù).

智能投顧的基礎(chǔ)在于提升數(shù)據(jù)挖掘能力,對投資者進(jìn)行精準(zhǔn)畫像.商業(yè)銀行有客戶的基本信息和許多交易運(yùn)營數(shù)據(jù),這些可靠的內(nèi)部數(shù)據(jù)可以真實(shí)客觀地反映客戶的一些特性[2],基于銀行可靠的數(shù)據(jù)構(gòu)建以業(yè)務(wù)需求為核心、具有實(shí)踐應(yīng)用意義的體系、清晰客觀可讀的客戶畫像,能夠有效驅(qū)動精準(zhǔn)營銷.近年來,國內(nèi)外學(xué)者針對客戶畫像提出了不同的聚類算法并取得了一定成果,但銀行類數(shù)據(jù)維度較高,客戶畫像的數(shù)據(jù)維度并不是越多越好,面對高維的復(fù)雜的銀行類客戶數(shù)據(jù),往往需要進(jìn)行屬性約簡提取數(shù)據(jù)中重要的特征,并摒棄掉無用的特征.通過屬性約簡將模型從較多的維度空間通過空間映射變成較少的維度,可以改善變量間關(guān)系或減少計算量[3].目前,屬性約簡利用粗糙集、粒計算、形式概念分析和智能算法等方法進(jìn)行,多種屬性約簡算法的融合研究是屬性約簡算法的發(fā)展趨勢[4].張晨等[5]在研究多屬性評價決策時引入信息熵的概念,并建立了中國的商業(yè)銀行操作風(fēng)險的多屬性評價方法.王曼怡等[6]基于信息熵的中國的銀行同業(yè)業(yè)務(wù)流動性風(fēng)險研究,確定了外部經(jīng)濟(jì)環(huán)境、內(nèi)部資源整合、社會融資需求和金融監(jiān)管政策為4個主要考量因素.杜光輝等[7]將粗糙集理論應(yīng)用到商業(yè)銀行的整體風(fēng)險評價研究中,對16家上市銀行的實(shí)證研究,建立風(fēng)險評估體系.文獻(xiàn)[8-11]等分別將粗糙集與不同類別的信息熵相結(jié)合進(jìn)行屬性約簡和特征選擇,完成指標(biāo)構(gòu)建.基于粗糙集理論和信息熵進(jìn)行銀行數(shù)據(jù)的屬性約簡并不是很普遍.故而本文基于粗糙集理論和信息熵對構(gòu)建客戶畫像模型的屬性進(jìn)行約簡,從高維數(shù)據(jù)中有效篩選出關(guān)鍵屬性,這對將客戶信息進(jìn)一步準(zhǔn)確的數(shù)據(jù)化有重要意義.

1 使用聚類分析對客戶畫像

1.1 客戶畫像概述

客戶畫像本質(zhì)是將客戶的特征進(jìn)行標(biāo)簽化,并收集與分析客戶的屬性信息,利用數(shù)學(xué)模型將客戶信息進(jìn)行歸納總結(jié),形成“源于數(shù)據(jù)、高于數(shù)據(jù)”的客戶標(biāo)簽[12],客觀真實(shí)地描繪客戶.研究客戶畫像的目的在于能夠以數(shù)據(jù)化思維方式思考,并用數(shù)據(jù)的手段幫助許多行業(yè)進(jìn)行精準(zhǔn)營銷.除此之外,企業(yè)使用數(shù)據(jù)分析結(jié)果可以進(jìn)一步優(yōu)化用戶體驗(yàn),拓展商業(yè)模式.

客戶是商業(yè)銀行經(jīng)營活動的基礎(chǔ),但銀行客戶相關(guān)信息較多且復(fù)雜,客戶管理存在一定困難.將龐大的客戶信息數(shù)據(jù)化,使用機(jī)器學(xué)習(xí)技術(shù)對客戶數(shù)據(jù)深度分析,利用客戶畫像系統(tǒng)管理客戶,將客戶進(jìn)行有效的細(xì)分,了解到不同客戶的不同需求,能夠調(diào)整發(fā)展戰(zhàn)略,提高銀行的工作效率,增加其在行業(yè)競爭力.

1.2 K-means聚類算法

對客戶畫像的研究中,使用較廣泛的是聚類算法.聚類是數(shù)據(jù)挖掘中的一種主要技術(shù)手段,它的主要思想是把一組個體按照相似性歸納為若干類別,聚類的目的是使同一類中個體間的相似度高于其他類的對象[13].本文選擇基于劃分的聚類方法K-means聚類算法,該算法需要提前指定類簇數(shù)目即K值,然后通過不斷循環(huán)迭代將數(shù)據(jù)進(jìn)行分組,算法簡單,適用性廣,運(yùn)算速度快,并且可以通過分析類簇中心點(diǎn)來觀測各類簇數(shù)據(jù)的特點(diǎn).以下為該算法的具體描述:

輸入 數(shù)據(jù)集D,劃分簇的數(shù)目K

輸出K個簇的集合

1)隨機(jī)初始化K個簇類中心

2)repeat

3) for 數(shù)據(jù)集中的每個對象i

5) end for

6) for 每個類簇j

8) end for

9)until 收斂

K-means算法首先選擇初始類簇中心點(diǎn),然后對于數(shù)據(jù)集中的每個樣本計算其到類簇中心點(diǎn)的距離,并根據(jù)距離將樣本劃分到相應(yīng)類簇,每輪迭代完成之后重新更新類簇中心點(diǎn),直到收斂(如類簇中心點(diǎn)不再改變).該算法對初始類簇中心點(diǎn)的選擇有較高的依賴性,并且容易求得局部最優(yōu)解,因此,應(yīng)該進(jìn)行多次實(shí)驗(yàn),取最優(yōu)的聚類結(jié)果.

2 基于粗糙集理論及信息熵的屬性約簡

2.1 粗糙集的基本概念

波蘭數(shù)學(xué)家Pawlak于1982年提出粗糙集理論[14],它從上近似集和下近似集的角度描述系統(tǒng)的不確定性,是一種處理不精確及不確定性數(shù)據(jù)的數(shù)學(xué)方法.粗糙集在數(shù)據(jù)的決策、模式識別和機(jī)器學(xué)習(xí)等領(lǐng)域得到了廣泛應(yīng)用.下面簡要介紹一下粗糙集理論的相關(guān)知識.

信息系統(tǒng)與決策表:信息系統(tǒng)即用來表示粗糙集理論所研究的對象的數(shù)據(jù)表(即屬性-值表).

定義1[15]假設(shè)S=(U,A,V,f)為一個信息系統(tǒng)(知識表達(dá)系統(tǒng)),其中

U是對象的非空有限集合,稱為論域;

A是屬性的非空有限集合,A=C∪D,C∩D=?,C為條件屬性集,D為決策屬性集,決策表是具有決策屬性集和條件屬性集的信息系統(tǒng);

V=Uα∈AVα,Vα是屬性a的值域;

f:U×A→V稱為信息函數(shù),它為對象的每一個屬性都有一個相應(yīng)的信息值.

對于每個屬性子集B?A,定義不可辨的二元關(guān)系IND(B)={(x,y)∈U×U|?r∈B,r(x)=r(y)}.當(dāng)IND(B)為一個等價關(guān)系RB時,RB將論域劃分為若干個等價類,記為U/RB={[X]B|x∈U}.簡記為U/B.

上近似集與下近似集:在粗糙集理論中,任何一個不確定集都可以用下近似集和上近似集來逼近,2個集合的定義如下.

定義2[15]給定一個信息系統(tǒng)S=(U,A,V,f),R是系統(tǒng)S上的一個等價關(guān)系,對于?X?U,定義X的R的下近似集和R的上近似集分別為

R(X)=∪{Y∈U/R|Y?X}={X∈U|[X]R?X},

屬性約簡和核:屬性約簡既能保證決策表具有正確分類能力,也能去除不必要的信息[16].

定義3[15]給定一個信息系統(tǒng)S=(U,A,V,f),A=C∪D.對?α∈C,如果有

1)U/(C-{a})=U/C,則稱a為不必要屬性(冗余屬性);

2)U/(C-{a})≠U/C,則稱a為必要屬性.

若P?C,如果滿足:

1)U/P=U/C,

2)?α∈P,U/(P-{A})≠U/C,

則稱P是C的一個約簡.

C中所有必要屬性的集合稱為C的核,記成core(C)[17].容易證明core(C)=∩red(C),其中red(C)表示C的所有約簡.核包含在所有的約簡之中,可以作為所有約簡的計算基礎(chǔ),并且作為知識最重要部分的集合,在約簡過程中核是不能夠忽略的.

2.2 基于信息熵的屬性約簡

信息熵是總體不確定性度量的一種方式,它是表示數(shù)據(jù)的統(tǒng)計特征[18-20].將粗糙集理論中的信息和知識建立關(guān)系,從信息熵的角度對屬性進(jìn)行約簡,并最終獲得高效的屬性.

定義4設(shè)U是一個論域,P和Q為論域U上的2個等價關(guān)系族(即知識),X、Y分別為P和Q在U上的劃分,其中U/IND(P)={X1,X2,…,Xn};U/IND(Q)={Y1,Y2,…,Ym},則P、Q在U的子集上的概率分布定義如下:

定義5[15]屬性集合P的熵為

定義6[15]屬性集合P相對于屬性集合Q的條件熵為

P和Q的互信息為

I(P,Q)=H(Q)-H(Q|P).

屬性約簡的目的在于找到對于決策結(jié)果影響更大、更重要的條件屬性,必須考慮條件屬性和決策屬性兩者的互信息.核作為知識最重要部分的集合,包含在所有相對簡約之中,因此本文將核作為求屬性約簡的起點(diǎn),在此基礎(chǔ)之上逐步添加重要程度較大的屬性,直到達(dá)到屬性簡約的終止條件.在這里,為了表達(dá)各個屬性之間的重要程度,使用屬性引起的互信息量的增量表示,定義屬性的重要性如下:

定義7設(shè)T=(U,C∪D)為一個決策表,R?C且對于任意屬性a∈C-R的重要性定義為

SGF(α,R,D)=H(D|R)-H(D|R∪{α}).

若R=?,則SGF(α,R,D)=H(D)-H(D|α)即為屬性a與決策D的互信息.

SGF(α,R,D)的值越大,表示在已知屬性的基礎(chǔ)上增加屬性a后,對決策結(jié)果的影響更大,即屬性a對決策結(jié)果D更重要.

本文提出的屬性約簡算法描述如下.

輸入 決策表T=U,C∪D,其中U為論域,C和D分別為條件屬性集和決策屬性集.

輸出 條件屬性集C的約簡R.

Step1 計算條件屬性集C相對于決策屬性集D的核core=core(C).

Step2 計算C與D的互信息I(C,D).

Step3 令R=core,重復(fù):

1)對每個屬性a∈C-R,計算SGF(α,R,D).

2)選擇使SGF(α,R,D)達(dá)到最大的屬性a,若有許多屬性可以同時使SGF(α,R,D)達(dá)到最大值,那么應(yīng)該選擇與R屬性組合數(shù)最少的屬性記作a,令R=R∪{α}.

3)若I(R,D)=I(C,D),Step4;否則1).

Step4 輸出R.

3 實(shí)驗(yàn)及結(jié)果

3.1 數(shù)據(jù)描述及預(yù)處理

本文的研究數(shù)據(jù)來源于某商業(yè)銀行的真實(shí)客戶數(shù)據(jù),包括描述個人基本特征的人口屬性(如性別、年齡、婚姻狀況、子女?dāng)?shù)目),描述客戶收入情況及支付能力的信用屬性(如受教育程度、職業(yè)、職務(wù)、工作單位性質(zhì)、年收入、居住房屋類型、信用卡額度、累計逾期期數(shù)、月均存款、違約次數(shù)),描述客戶消費(fèi)習(xí)慣及偏好的消費(fèi)屬性(車貸筆數(shù)、房貸筆數(shù)、個人常用流水6個月以內(nèi)均值及標(biāo)準(zhǔn)差),經(jīng)過脫敏處理后特征總維度為69,樣本數(shù)量4 521.

原始銀行客戶數(shù)據(jù)維度很高,模型訓(xùn)練難度及訓(xùn)練開銷極大,且字符串類型數(shù)據(jù)過多,在建立模型之前首先對數(shù)據(jù)進(jìn)行以下預(yù)處理操作.

1)數(shù)據(jù)歸約:指在基本保持?jǐn)?shù)據(jù)“原貌”的前提下,最大限度的化簡數(shù)據(jù)集.首先進(jìn)行維度規(guī)約,選取年齡(Age)、婚姻狀況(Marital)、受教育程度(Education)、職業(yè)(Job)、違約情況(Default)、年收入(Year-income)、住房貸款情況(Housing)、個人貸款(Loan)情況等8個屬性進(jìn)行聚類.其次進(jìn)行概念分層,將年齡分為少年、青年、中年、老年.

2)數(shù)據(jù)規(guī)范化:把屬性值按比例縮放至特定區(qū)間,如[0,1].本文使用的數(shù)據(jù)集中,年收入最高90 000 000,最低為0,平均值為654 699,將平均值設(shè)為閾值,收入高于平均值的都設(shè)為3,低于平均值的轉(zhuǎn)化到[0,3)內(nèi).

3)數(shù)據(jù)類型轉(zhuǎn)換:將字符串類型的數(shù)據(jù)轉(zhuǎn)換為數(shù)值型,方便K-means聚類距離計算.如婚姻狀況,離異轉(zhuǎn)換為0,單身轉(zhuǎn)換為1,已婚轉(zhuǎn)換為2.

各變量的處理情況如表1所示.

表1 各變量處理對照表Tab.1 List of each variable

3.2 K-means聚類結(jié)果

使用K-means算法將客戶分為3類,圖1選取部分樣本點(diǎn)進(jìn)行了展示(展示結(jié)果為principal component analysis即PCA降維之后的數(shù)據(jù)),白色標(biāo)記部分代表3個類別的類簇中心點(diǎn).以下針對3類客戶進(jìn)行特征分析.

圖1 聚類結(jié)果(PCA降維后的數(shù)據(jù))Fig.1 Clustering results(Data after PCA dimension reduction)

第1類客戶定義為潛力客戶,其類簇中心點(diǎn)的特征如表2所示,該類型客戶年齡在25歲左右,工作多為學(xué)生或職場新人,婚姻狀況處于未婚單身狀態(tài),暫時還沒有房貸壓力,有個人貸款且年收入較少.該類型的客戶現(xiàn)階段對于銀行的貢獻(xiàn)比較小,但是該類型的客戶發(fā)展空間較大,可針對其推薦風(fēng)險較小的固定收益理財產(chǎn)品,該類型的客戶在未來可逐漸上升優(yōu)質(zhì)客戶.

第2類客戶定義為一般價值客戶,其類簇中心點(diǎn)的特征如表3所示,該類型的客戶的年齡處于45歲左右,生活穩(wěn)定收入中等的已婚人士,房貸和個人貸款壓力較小,該類型的客戶為銀行的一般類型的客戶,有一定的貢獻(xiàn)值,但大多數(shù)偏向于保守型,更傾向于投資保守型、風(fēng)險謹(jǐn)慎型的理財產(chǎn)品.應(yīng)重點(diǎn)培養(yǎng)該類型客戶的忠誠度,避免客戶流失.

表2 第1類客戶Tab.2 First class customers

表3 第2類客戶Tab.3 Second type of customers

第3類劃分為優(yōu)質(zhì)類型客戶,其類簇中心點(diǎn)的特征如表4所示,該類型的客戶的年齡處于35歲左右,婚姻穩(wěn)定,學(xué)歷較高,事業(yè)處于上升期且收入較高,該類型的客戶投資理財產(chǎn)品可能性較大,且風(fēng)險承受能力和新事物的接受能力較強(qiáng),對銀行的貢獻(xiàn)度較大,是銀行重點(diǎn)關(guān)注的價值較高的客戶.在理財產(chǎn)品的推薦方案中可適當(dāng)推薦風(fēng)險型較高、收益率較大類型的理財產(chǎn)品.

表4 第3類客戶Tab.4 Third category of customers

3.3 屬性約簡

針對聚類之后的數(shù)據(jù),確定年齡和職業(yè)為核屬性,即R0={年齡,職業(yè)},條件屬性為C={年齡、婚姻狀況、受教育程度、職業(yè)、違約情況、年收入、住房貸款情況、個人貸款情況},決策屬性為D={第1類客戶,第2類客戶,第3類客戶}.按照本文提出的屬性約簡算法計算其他6個屬性的重要性,以婚姻狀況為例:

1)根據(jù)聚類結(jié)果第1類客戶樣本數(shù)1 886、第2類客戶樣本數(shù)1 305、第3類客戶樣本數(shù)1 330,根據(jù)定義5決策屬性的信息熵為

2)根據(jù)定義6,決策屬性相對于核屬性的條件熵為

H(D|R0)=0.76.

3)根據(jù)定義6,決策屬性相對于屬性集合CU{婚姻狀況}條件熵為

H(D|R0∪{婚姻狀況})=0.11.

4)根據(jù)定義6,屬性婚姻狀況的重要性為

SGF(婚姻狀況,R0,D)=H(D|R0)-H(D|R0∪{婚姻狀況})=0.65.

依次計算其他屬性的重要性,屬性重要性計算結(jié)果如表5所示.

表5 屬性重要性計算結(jié)果Tab.5 Significance of attribute

因?yàn)镮(R0∪{婚姻狀況,受教育程度},D)=I(C,D)所以得出約簡后的條件屬性為年齡、職業(yè)、婚姻狀況、受教育程度.

4 結(jié)語

目前,客戶畫像技術(shù)已成為各行業(yè)的研究熱點(diǎn),但商業(yè)銀行客戶數(shù)據(jù)維度較高,如何從高維數(shù)據(jù)中篩選出有效屬性,對準(zhǔn)確地進(jìn)行客戶畫像分析有重要意義.本文提出了基于信息熵的屬性約簡算法,將其應(yīng)用于真實(shí)的商業(yè)銀行客戶數(shù)據(jù).首先根據(jù)條件信息熵約簡選出年齡、婚姻狀況、受教育程度、職業(yè)、違約情況、年收入、住房貸款情況、個人貸款這8個重要屬性,然后對這8個屬性進(jìn)行聚類分析,根據(jù)聚類結(jié)果使用信息熵屬性約簡法對商業(yè)銀行客戶畫像屬性進(jìn)行約簡,得出年齡、職業(yè)、婚姻狀況、受教育程度4個屬性,實(shí)驗(yàn)結(jié)果表明本文提出的算法有效、可行.

猜你喜歡
婚姻狀況粗糙集信息熵
基于隸屬函數(shù)的模糊覆蓋粗糙集新模型
基于信息熵可信度的測試點(diǎn)選擇方法研究
局部雙量化模糊粗糙集
近似邊界精度信息熵的屬性約簡
從《日耳曼尼亞志》看日耳曼人的婚姻狀況
韓男性對婚姻狀況更滿意
基于信息熵的承運(yùn)船舶短重風(fēng)險度量與檢驗(yàn)監(jiān)管策略研究
基于粗集決策規(guī)則性質(zhì)的研究
一種基于改進(jìn)的層次分析法的教師教學(xué)質(zhì)量評價模型
信息熵及其在中醫(yī)“證癥”關(guān)聯(lián)中的應(yīng)用研究
南部县| 湖北省| 永靖县| 探索| 镇宁| 潜江市| 锦州市| 陕西省| 普格县| 淮北市| 绍兴县| 奉节县| 兴和县| 神木县| 车险| 集安市| 筠连县| 沿河| 安达市| 武鸣县| 高雄县| 正蓝旗| 农安县| 微山县| 开鲁县| 武陟县| 玉林市| 元朗区| 海原县| 达尔| 海口市| 修水县| 英超| 济源市| 桐乡市| 河北省| 乳山市| 楚雄市| 吴旗县| 丰台区| 商洛市|