孫 穎,楊君慧
(西安工業(yè)大學(xué) 理學(xué)院,西安710021)
由于信用卡能給銀行帶來很高的利潤,國內(nèi)外各大商業(yè)銀行受信用卡業(yè)務(wù)的高額利潤和市場空間吸引,都開始增加了該部分的投入,但是高利潤也伴隨著高風(fēng)險[1].如何更好地對信用卡申請人進(jìn)行識別和判斷,提高銀行預(yù)防和抵抗信用卡風(fēng)險的能力,是所有發(fā)卡機(jī)構(gòu)迫切需要解決的問題.信用度,是指從社會信譽(yù)、經(jīng)濟(jì)狀況、商品交易的履約情況等方面反映出來的發(fā)卡對象的遵約守信程度.信用度評估對發(fā)卡機(jī)構(gòu)來講,是一項非常重要的任務(wù).一個人的社會信用度直接關(guān)系到他申請和使用信用卡的狀況[1].如何對信用卡申請的資產(chǎn)信用評估,統(tǒng)計學(xué)方法主要包括非參數(shù)模型分類樹方法、判別分析和參數(shù)模型Logistic回歸[2].隨著電子商務(wù)的發(fā)展,信用卡的使用者和交易量迅速增加,導(dǎo)致信息量急劇擴(kuò)大僅憑個人經(jīng)驗(yàn)已經(jīng)很難有效的做出正確的判斷,而判別分析所做的假設(shè)條件又常常無法滿足.Logistic回歸模型在這一點(diǎn)上,具有簡單易懂,模型的解釋強(qiáng)的優(yōu)點(diǎn)(模型的結(jié)果可以產(chǎn)生一個評分卡,易于被實(shí)際部門工作人員理解和實(shí)施).因此在信用度評估上得到了廣泛的應(yīng)用.而分類樹模型具有較好的穩(wěn)健性和邏輯性[3].本文將通過統(tǒng)計學(xué)中參數(shù)方法Logistic回歸和非參數(shù)方法分類樹建立模型.
Logistic回歸又稱Logistic回歸分析,主要在流行病學(xué)中應(yīng)用較多,Logistic回歸的主要用途:①尋找某一疾病的危險因素;②根據(jù)模型,預(yù)測在不同的自變量情況下,發(fā)生某病或某種情況的概率有多大.如果已經(jīng)建立了Logistic回歸模型,則可以利用計算機(jī)教學(xué)軟件,通過迭代計算最大似然估計的方法,得到相關(guān)的系數(shù).
Logistic回歸與多重線性回歸實(shí)際上有很多相同之處.最大的區(qū)別就在他們的因變量不同,其他的基本都差不多.正是因?yàn)槿绱?,這兩種回歸可以歸于同一個家族,即廣義線性模型 (generalized Linear Model).Logistic回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋.所以實(shí)際中最為常用的就是二分類的logistic回歸,也是文中要使用的回歸模型.在很多實(shí)際應(yīng)用中,由于模型不能適用多元線性回歸模型 (比如獨(dú)立變量不符合正態(tài)分布等),那么Logistic回歸分析就很好的彌補(bǔ)了這一方面.在二項Logistic回歸分析中,如果我們讓y=1代表一個結(jié)果,y=0代表另一個結(jié)果,y是滿足二項分布的,那么Logistic回歸模型規(guī)定為
其中:β0,β1,…βk是未知的多元Logistic回歸系數(shù).對系數(shù)有一個解釋為
Logistic模型在以上的意義是幾率的乘法
即[基本事件的幾率]*[由于 X1的因素]*…*[由于Xk的因素]
決策樹是用二叉樹圖來表示處理邏輯的一種工具.可以直觀、清晰地表達(dá)加工的邏輯要求.特別適合于判斷因素比較少、邏輯組合關(guān)系不復(fù)雜的情況.決策樹提供了一種展示類似在什么條件下會得到什么值這類規(guī)則的方法.決策樹中最上面的節(jié)點(diǎn)稱為根節(jié)點(diǎn),是整個決策樹的開始.每個分支要么是一個新的決策節(jié)點(diǎn),要么是樹的結(jié)尾,稱為葉子.在沿著決策樹從上到下的過程中,在每個節(jié)點(diǎn)都會遇到一個問題,每個節(jié)點(diǎn)上問題的不同回答導(dǎo)致不同的分支,最后會到達(dá)一個葉子節(jié)點(diǎn).這個過程就是利用決策樹進(jìn)行分類的過程,利用幾個變量 (每個變量對應(yīng)一個問題)來判斷所屬的類別(最后每個葉子會對應(yīng)一個類別).建立決策樹的過程,即樹的生長過程是不斷的把數(shù)據(jù)進(jìn)行切分的過程,每次切分對應(yīng)一個問題,也對應(yīng)著一個節(jié)點(diǎn).對每個切分都要求分成的組之間的“差異”最大.決策樹的這種易于理解性對數(shù)據(jù)挖掘的使用者來說是一個顯著的優(yōu)點(diǎn).然而決策樹的這種明確性可能帶來誤導(dǎo).比如,決策樹每個節(jié)點(diǎn)對應(yīng)分割的定義都是非常明確毫不含糊的,但在實(shí)際生活中這種明確可能帶來麻煩.
建立一顆決策樹可能只要對數(shù)據(jù)庫進(jìn)行幾遍掃描之后就能完成,這也意味著需要的計算資源較少,而且可以很容易的處理包含很多預(yù)測變量的情況,因此決策樹模型可以建立得很快,并適合應(yīng)用到大量的數(shù)據(jù)上.
對最終要拿給人看的決策樹來說,在建立過程中讓其生長的太枝繁葉茂是沒有必要的,這樣既降低了樹的可理解性和可用性,同時也使決策樹本身對歷史數(shù)據(jù)的依賴性增大,也就是說這棵決策樹對歷史數(shù)據(jù)可能非常準(zhǔn)確,一旦應(yīng)用到新的數(shù)據(jù)時準(zhǔn)確性卻急劇下降,我們稱這種情況為訓(xùn)練過度.為了使得到的決策樹所蘊(yùn)含的規(guī)則具有普遍意義,必須防止訓(xùn)練過度,同時也減少了訓(xùn)練的時間.因此需要有一種方法能在適當(dāng)?shù)臅r候停止樹的生長.常用的方法是設(shè)定決策樹的最大高度(層數(shù))來限制樹的生長.還有一種方法是設(shè)定每個節(jié)點(diǎn)必須包含的最少記錄數(shù),當(dāng)節(jié)點(diǎn)中記錄的個數(shù)小于這個數(shù)值時就停止分割.決策樹中最重要的就是對最大區(qū)分度屬性的選擇方法,通常認(rèn)為,有最高信息增益的屬性是給定數(shù)據(jù)集合中最高區(qū)分度的屬性,通過計算信息增益,可以得到屬性的排序.
信息增益的定義為
接受者操作特性曲線(Receiver Operating Characteristic,ROC),又稱為感受性曲線.得此名的原因在于曲線上各點(diǎn)反映著相同的感受性,他們都是對同一信號刺激的反應(yīng),只不過是在幾種不同的判定標(biāo)準(zhǔn)下所得的結(jié)果而已.接受者操作特性曲線就是以虛驚概率為橫軸,擊中概率為縱軸所組成的坐標(biāo)圖,和被試在特定刺激條件下由于采用不同的判斷標(biāo)準(zhǔn)得出的不同結(jié)果畫出的曲線.
ROC曲線具有以下屬性:①β的改變獨(dú)立于d′的變化,考察β值變化對p(y/SN)和p(y/N)的影響時發(fā)現(xiàn),當(dāng)β接近無窮大時,虛驚概率幾乎為0,即噪音全當(dāng)成信號接受.而當(dāng)β從接近0到無窮大漸變的過程中,將形成一條完整的ROC曲線,曲線在某一處達(dá)到最佳的標(biāo)準(zhǔn)βOPT.②ROC曲線的曲率反應(yīng)敏感性指標(biāo) d′,對角線代表p(y/SN)=P(y/N),即被試者的辨別力d′為0,ROC曲線離這條線愈遠(yuǎn),表示被試者辨別力愈強(qiáng),d′的值就愈大.由上可知,d′的變化使ROC曲線形成一個曲線簇,而β的變化體現(xiàn)在這一曲線簇中的某一條曲線上不同點(diǎn)的變化.此外,如果將ROC曲線的坐標(biāo)軸變?yōu)閆分?jǐn)?shù)坐標(biāo),將看到ROC曲線從曲線形態(tài)變?yōu)橹本€形態(tài).這種坐標(biāo)變換可以用來驗(yàn)證信號檢測論一個重要假設(shè),即方差齊性假設(shè).本文中將通過ROC曲線的性質(zhì)來對模型的性能作出評價.
文中使用一個在信用評分領(lǐng)域非常有名的免費(fèi)數(shù)據(jù)集 German Credit Data Set,可以在 UCI Machine Learning Repository找到.
對數(shù)據(jù)進(jìn)行預(yù)處理,將評估結(jié)果轉(zhuǎn)化為二項分布,定義(0,1)中GOOD=0.即在數(shù)據(jù)中確定的好用戶用0來表示,而危險用戶則為1.之后將這組數(shù)據(jù)隨機(jī)抽取了550個事件,組成實(shí)驗(yàn)組,并選取Account,Duration,History,Amount,Saving,Employment,Income,Personal,Property,Age,Installment和Job作為探索變量.
通過統(tǒng)計產(chǎn)品與服務(wù)解決方案(Statistical Product and Service Solutions,SPSS)軟件中 Binary Logistic Regression方法求解:將數(shù)據(jù)中的信用度評估結(jié)果作為Dependent 12個屬性作為Covariates;由于數(shù)據(jù)有112個變量,為了得到簡單并有代表性的回歸方程,選擇向后變量加入,向前變量剔出的方法,在 Method中選擇Forward Conditional.要求軟件輸出預(yù)測概率和分組結(jié)果Probabilities&Group Membership;標(biāo)準(zhǔn)檢驗(yàn)值為0.05,置信區(qū)間為95% ,并輸出 HOSM ERLEMESHOW 檢驗(yàn)[4].
在逐步將每個變量放入模型之前,采用得分檢驗(yàn)方法,檢驗(yàn)?zāi)骋粋€自變量與因變量之間有無關(guān)系.有結(jié)果可見,Checking,Account,Duration,History,Credit,Amount,Savings,Property 在0.05檢驗(yàn)水平下與評估客戶的分類有著顯著的統(tǒng)計學(xué)意義.這也說明對客戶 的信用度評價中,用戶的還款能力以及還款意向占有很重要的因素.而個人的婚姻居住職業(yè)等情況對最后結(jié)果影響的統(tǒng)計學(xué)意義較小.
同時可以得到檢驗(yàn)值P,優(yōu)勢比OR(分析疾病與暴露因素聯(lián)系程度的指標(biāo))以及95%的置信區(qū)間.可以通過回歸方程對試驗(yàn)組中的數(shù)據(jù)進(jìn)行計算,從而得到他們的預(yù)測概率,并通過預(yù)測概率來分組,實(shí)現(xiàn)Logistic回歸模型對信用度的評估.這一步驟可以在SPSS的Save選項中要求輸出.由每個自變量可獲得對應(yīng)的優(yōu)勢比OR值.例如Duration的OR值為1.065,在其他變量取值固定的情況下,Duration每增加一個月,相應(yīng)的客戶信用度評估優(yōu)勢比增加自然對數(shù)值為1.065,也就是說隨著Duration的時間增加,客戶的信用度將增高,這也符合實(shí)際意義.
由此可得到最后預(yù)測結(jié)果.正確率84.5%,靈敏度為90.9% ,特異率為69.7% .由此可以看出建立的Logistic回歸模型對信用度的預(yù)測準(zhǔn)確率還是很高的,550個事件中,有465的用戶都能被準(zhǔn)確的判斷.對本來是資格客戶,但是被評為危險客戶的有35人,誤判率為9.1% .本來是危險客戶,被分類為資格客戶的有50人,漏判率為30.3%.此模型可以基本滿足實(shí)際操作的需要,通過得到的預(yù)測違約概率Probabilities(OUTCOME=1)來對客戶進(jìn)行分組,實(shí)現(xiàn)信用度的評估[5].
通過SPSS中Classify Tree來得到?jīng)Q策樹模型:使用信用等級做因變量Dependent,所有屬性作為協(xié)變量,由于在2.2中Logistic回歸模型計算的是客戶違約的預(yù)測概率,為了保持一致,在分類中同樣把目標(biāo)定為BAD;為了得到簡單的模型以便于解釋,我們減少父節(jié)點(diǎn)和子節(jié)點(diǎn)的個數(shù)為20和10;同時要求SPSS輸出預(yù)測概率,預(yù)測分組和樹形圖.在使用CHAID算法時,活期帳戶Checking Account是模型的最佳預(yù)測因子.在低存款(Account=1)的節(jié)點(diǎn)上,存款Property成為另一個預(yù)測因子,在存款 (Account=2)的節(jié)點(diǎn)上,Duration成為了他的預(yù)測分子,并且在Duration>42的時候終止.通過這種邏輯,分類樹在CHAID算法下產(chǎn)生了6個預(yù)測因素[6].
實(shí)際上為得到更準(zhǔn)確地分類,可減少每個節(jié)點(diǎn)含有的信息數(shù)量得到更精確的分類.比如當(dāng)設(shè)置節(jié)點(diǎn)數(shù)量為10和5時,會輸出分類更加準(zhǔn)確的決策樹.但是降低了樹的可理解性和可用性,同時也使決策樹本身對歷史數(shù)據(jù)的依賴性增大.
通過Logistic回歸模型和分類樹模型,分別對同一組實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了信用度評估,得到結(jié)論為
1)Logistic回歸模型和決策樹模型對信用度評估都有較好預(yù)測性,準(zhǔn)確率都很高.然而特異率對危險用戶判斷的準(zhǔn)確率對銀行來說有更大的意義(將危險客戶預(yù)測為資格用戶會給銀行帶來更大的損失 ),盡管分類樹模型的總體預(yù)測正確率要低于Logistic回歸模型,但是在特異率的表現(xiàn)上卻更加突出,更值得信賴.
2)作為參數(shù)方法的Logistic回歸模型可以得到一個回歸方程,用于預(yù)測新加入的數(shù)據(jù)的違約概率,相比于分類樹模型,更容易操作.但是分類樹方法在加入型的事件后預(yù)測準(zhǔn)確率將降低,這表明分類樹模型對現(xiàn)有數(shù)據(jù)的依賴性很大.
3)分類樹模型的ROC曲線更加平滑,這說明決策樹模型在穩(wěn)健性上更有優(yōu)勢.
4)作為非參數(shù)方法的分類樹模型有很強(qiáng)的邏輯性,不需要概率分布,輸出結(jié)果明確,清晰.且假設(shè)條件少,易于建立,在很多情況下都能使用.
通過統(tǒng)計學(xué)對數(shù)據(jù)分析并預(yù)測是一門在實(shí)際中應(yīng)用廣泛的學(xué)科,在很多領(lǐng)域中也取得了成功.隨著市場經(jīng)濟(jì)在全球的推廣,競爭日益激烈.信貸結(jié)構(gòu)都面臨著更大的風(fēng)險,有效地評估客戶的可信度必然成為趨勢和提高信貸機(jī)構(gòu)經(jīng)濟(jì)效益的有效途徑.對客戶的信用評估是一項具有發(fā)展前景的領(lǐng)域.本文針對統(tǒng)計學(xué)中Logistic回歸和分類樹這兩種參數(shù)和非參數(shù)方法,對數(shù)據(jù)進(jìn)行預(yù)測,根據(jù)輸出的結(jié)果比較,這兩種模型都是可行有效的并都有著各自的優(yōu)點(diǎn),在實(shí)際操作中應(yīng)因地制宜,善于把握兩種方法的優(yōu)勢,得到更有價值的結(jié)果.
[1] 吳喜之.統(tǒng)計學(xué):從數(shù)據(jù)到結(jié)論 [M].北京:中國統(tǒng)計出版社,2009.WU Xi-zhi.Statistics:From Data to Conclusion[M].Beijing:China Statistics Press,2009.(in Chinese)
[2] 何曉群.多元統(tǒng)計分析 [M].北京:中國人民出版社,2004.HE Xiao-qun.Multivariate Statistical Analysis[M].Beijing:People’s Publishing of China,2004.(in Chinese)
[3] 方兆本等.消費(fèi)者信用評估分析綜述[J].系統(tǒng)工程,2001,19(6):9;FANG Zhao-ben.Analysis of Consumer Credit Evaluation[J].Systems Engineering,2001,19(6):9.(in Chinese)
[4] 王濟(jì)川.Logistic回歸模型方法與應(yīng)用[M].北京:高等教育出版社,2001.WANG Ji-chuan.Logistic Regression Model Method and Application[M].Beijing:Higher Education Press,2001.(in Chinese)
[5] 任康,李剛.Logistic回歸模型在判別分析中的應(yīng)用[J].統(tǒng)計與信息論壇,2007,22(6):71.REN Kang,LI Gang.Application of Logistic Regression Model in Distinguishing[J].Statistics and Information Forum,2007,22(6):71.(in Chinese)
[6] 謝遠(yuǎn)濤,楊娟.Logistic與分類樹模型變量篩選的比較——基于信用卡郵寄業(yè)務(wù)響應(yīng)率分析[J].統(tǒng)計與信息論壇,2011,26(6):96.XIE Yuan-tao,YANG Juan.Comparative Analysis of Logistic Regression and Tree Models—Based on Response Ration of Credit Mail Statistics &Information Forum,2011,26(6):96.(in Chinese)