自動(dòng)實(shí)時(shí)按揭風(fēng)險(xiǎn)早期預(yù)警模型的開(kāi)發(fā)

2014-05-30 01:31蔡哲皓

中國(guó)外資·下半月 2014年4期

蔡哲皓

1 引言

近年來(lái)，中國(guó)的經(jīng)濟(jì)實(shí)力迅猛增長(zhǎng)。然而，一些基本經(jīng)濟(jì)制度仍不完善，信用體系就是非常重要的一環(huán)。有資料說(shuō)，在被稱(chēng)為“史上最嚴(yán)厲”的房地產(chǎn)調(diào)控中，我國(guó)溫州房?jī)r(jià)不再繼續(xù)瘋漲，部分炒房者手中的房子開(kāi)始貶值，有的溫州投資者不但血本無(wú)歸，甚至還欠上巨額債務(wù)，一些炒房者選擇了違約甚至“跑路”。還有文章預(yù)測(cè)，房?jī)r(jià)開(kāi)始下跌，壞賬將一波一波襲來(lái)，然后進(jìn)入惡性循環(huán)。

融機(jī)構(gòu)面對(duì)日益激烈的競(jìng)爭(zhēng)和不斷增長(zhǎng)的壓力，為增加收益，他們需要尋求更有效的方式來(lái)吸引新的信譽(yù)良好的客戶(hù)，并在同一時(shí)間，控制風(fēng)險(xiǎn)和損失。

因此，本課題的目的是開(kāi)發(fā)一個(gè)自動(dòng)和實(shí)時(shí)房貸風(fēng)險(xiǎn)模型以提供拖欠的早期預(yù)警。隨著這種模式的實(shí)施，達(dá)到風(fēng)險(xiǎn)警戒線（如拖欠可能性為50%）的賬戶(hù)將被抽出來(lái)，顯示在報(bào)告中，金融機(jī)構(gòu)可以早期采取適當(dāng)措施，防止損失。

本模型運(yùn)用統(tǒng)計(jì)手段能夠高效準(zhǔn)確地篩查出絕大部分的違約人群，及時(shí)給貸款部門(mén)提出預(yù)警。

2 方法

2.1 數(shù)據(jù)

本文用于模型開(kāi)發(fā)和驗(yàn)證的數(shù)據(jù)來(lái)源為某金融機(jī)構(gòu)2005年至2010年數(shù)萬(wàn)條客戶(hù)貸款數(shù)據(jù)。每年的數(shù)據(jù)包括客戶(hù)貸款申請(qǐng)數(shù)據(jù)和客戶(hù)表現(xiàn)數(shù)據(jù)。貸款申請(qǐng)數(shù)據(jù)包含的變量有信用評(píng)分，是否是首次購(gòu)房者，職業(yè)狀況，貸款與價(jià)值比率，債務(wù)與收入比率，利率，貸款用途，貸款期限等。客戶(hù)表現(xiàn)數(shù)據(jù)包含的變量有貸款拖欠狀況，貸款期限，現(xiàn)行利率，等等共35個(gè)。

另外，2005至2010年宏觀經(jīng)濟(jì)指數(shù)如GDP，失業(yè)率，居民消費(fèi)價(jià)格指數(shù)，通貨膨脹指數(shù)等也用于預(yù)測(cè)拖欠。

2.2原理

2.2.1 邏輯回歸模型的開(kāi)發(fā)原理

邏輯回歸是一種統(tǒng)計(jì)模型，它針對(duì)因變量是二分變量（即是=1；否=0），而自變量可以是分類(lèi)的或連續(xù)的，用于預(yù)測(cè)離散結(jié)果。

本文以拖欠狀況作為因變量開(kāi)發(fā)邏輯回歸模型（如果該帳戶(hù)付款已逾期超過(guò)30天，它被認(rèn)為是拖欠= 1，否則拖欠=0）。自變量包括客戶(hù)貸款申請(qǐng)和表現(xiàn)數(shù)據(jù)中所包含的若干變量。

邏輯回歸模型可用下列公式表示：

其中P值是直接的拖欠可能性（概率），1-P是不拖欠的概率。ln（P/1-P）是拖欠可能性的logit（即事件發(fā)生比的自然對(duì)數(shù)）而不是直接的拖欠可能性P。 β0是常數(shù)， β1到βN是回歸系數(shù)，X 1到X n是自變量，即為貸款申請(qǐng)數(shù)據(jù)包含的自變量和客戶(hù)表現(xiàn)數(shù)據(jù)包含的變量。βN系數(shù)表示了拖欠可能性的ln（P/1-P）和自變量的線性關(guān)系，通過(guò)計(jì)算 ln（ P/1-P）可推算出拖欠的概率P。開(kāi)發(fā)本預(yù)測(cè)模型所用的統(tǒng)計(jì)分析軟件是SAS 9.2版，逐步回歸添加變量分析。在這項(xiàng)研究中 p值（P value）< 0.05才可添加新變量。

得到邏輯回歸模型公式后，把建模數(shù)據(jù)帶進(jìn)模型，得到結(jié)果，并將預(yù)測(cè)的拖欠可能性按順序排列并分成10組，計(jì)算柯?tīng)柲缏宸?- 斯米爾諾夫值（ Kolmogorov-Smirnov簡(jiǎn)稱(chēng)KS）（KS是最常用的評(píng)估二分變量結(jié)果模型的預(yù)測(cè)能力，如好與壞，響應(yīng)與不響應(yīng)，拖欠與不拖欠等。KS的范圍理論值從0到100，但一般模型的KS是20到70 ，它是累積事件發(fā)生的百分比和累積事件不發(fā)生的百分比的差的絕對(duì)值。最大KS用來(lái)衡量模型的分離能力。KS值越高，預(yù)測(cè)能力越強(qiáng)。）。最終做出增益圖。

2.2.2模型的驗(yàn)證原理

將驗(yàn)證數(shù)據(jù)帶入建立的邏輯回歸模型，將預(yù)測(cè)的拖欠可能性按順序排列并分成10組，計(jì)算KS值，并做出增益圖。如果驗(yàn)證數(shù)據(jù)的KS接近建模數(shù)據(jù)的KS，則該模型被認(rèn)為是穩(wěn)定的。

3 數(shù)據(jù)分析與結(jié)果

3.1單因素分析

3.1.1連續(xù)變量描述性統(tǒng)計(jì)

表1 連續(xù)變量的描述性分析（2005年數(shù)據(jù)）

說(shuō)明：行數(shù) - 所有數(shù)據(jù)的行數(shù) 缺失值行數(shù) - 變量值有缺失的行數(shù)。

3.1.2分類(lèi)變量描述性統(tǒng)計(jì)

對(duì)分類(lèi)變量，分析每個(gè)變量值出現(xiàn)的頻數(shù)和百分比，并總結(jié)列于表2中。

表2 分類(lèi)變量的頻率分析

3.1.3數(shù)據(jù)清理

要建立一個(gè)有效的模型，數(shù)據(jù)質(zhì)量是非常重要的。對(duì)于連續(xù)變量，有缺失值的數(shù)據(jù)行會(huì)被除去，根據(jù)表1的描述性統(tǒng)計(jì)，沒(méi)有異常值。缺失值因只占總數(shù)據(jù)量的2.5%則從分析數(shù)據(jù)中除去，。

對(duì)于分類(lèi)變量，因?yàn)槿笔е悼赡艽硪欢ǖ男袨槟Ｊ?。在本課題中，采用新的方法處理缺失數(shù)據(jù)。有缺失值的數(shù)據(jù)行被視為變量的一種可能值，將其重新定義成一個(gè)新的變量。

例如，對(duì)于變量“first_home_buyer_flag（是否第一次買(mǎi)房），3種可能值是“是”，“否”和缺失。帶有缺失值的數(shù)據(jù)行約占10 %，刪除它們是不適合的。所以，變量“是否第一次購(gòu)房”就被重新分成3個(gè)新變量：

新變量1 ，fhb _yes（是第一次購(gòu)房），如果是“是”，則數(shù)值被編碼為1 ，否則編碼為0；

新變量2，fhb _no（不是第一次購(gòu)房），如果是“否”，則數(shù)值被編碼為1，否則編碼為0；

新變量3，fhb_miss（第一次買(mǎi)房值缺失），如變量的值為缺失，則數(shù)值被編碼為1，否則編碼為0 。

3.2雙變量分析

雙變量分析是評(píng)估某一自變量是否可成為因變量的預(yù)測(cè)因子。

本課題使用KS值來(lái)評(píng)估自變量因子的預(yù)測(cè)能力。其目的是為了在不影響概率測(cè)算精準(zhǔn)度的情況下使得邏輯回歸分析中的變量大大減少，從而 “節(jié)約”變量和運(yùn)算。表3列出了某些自變量的KS 值。

雙變量分析結(jié)果表明， FICO信用評(píng)分，債務(wù)與收入比率及貸款目的等變量用于預(yù)測(cè)拖欠可能性是最有效的預(yù)測(cè)自變量。

3.3模型開(kāi)發(fā) - 建模數(shù)據(jù)的回歸

把2005年的29，225行建模數(shù)據(jù)帶入邏輯回歸計(jì)算中，獲得系數(shù)值β。進(jìn)而就可得到ln（ P / （ 1 -P）所滿足的關(guān)系式（見(jiàn)后）。

建模數(shù)據(jù)的拖欠回歸分析結(jié)果列于表4 。

在這個(gè)課題中，模型開(kāi)發(fā)的最大KS是31。表明該模型能有效地分離拖欠的賬戶(hù)和按期付款的賬戶(hù)。

3.4模型驗(yàn)證 - 驗(yàn)證數(shù)據(jù)的邏輯回歸分析

將留作驗(yàn)證的2006年的19，484個(gè)未進(jìn)行分析的數(shù)據(jù)，用于邏輯回歸模型中進(jìn)行驗(yàn)證。最后，該模型的 KS值被統(tǒng)計(jì)計(jì)算（表6）。模型驗(yàn)證的最大KS是33，非常接近建模的KS ，表明模型穩(wěn)定。

4 討論

4.1邏輯回歸模型結(jié)果及系數(shù)解釋

根據(jù)表4中所列，預(yù)測(cè)拖欠的模型為：

ln（ P/1-P）=5.7069-0.0119×FICO分?jǐn)?shù)+0.0142×債務(wù)對(duì)收入比率+ 0.0144 ×貸款價(jià)值比+0.1774×不是首次購(gòu)房者-0.2153×購(gòu)房自用-0.1606×貸款用于購(gòu)房+0.155×貸款用于融資

所列參數(shù)的系數(shù)為正表明增加拖欠可能性，系數(shù)為負(fù)則表示減少拖欠可能。

4.2綜合評(píng)價(jià)模型

邏輯回歸模型與一般多元線性回歸模型不同。所有的分析均建立在二項(xiàng)分布的基礎(chǔ)上。也正是基于此，系數(shù)及模型檢驗(yàn)要用似然比檢驗(yàn)和沃爾德等檢驗(yàn)。本模型經(jīng)由似然比和沃爾德測(cè)試檢驗(yàn)。所有測(cè)試表明P值均< 0.0001 ，表明在本研究中所獲得的邏輯回歸模型比截距模型更有效。

通過(guò)對(duì)所建模型進(jìn)行擬合優(yōu)度測(cè)試，得出結(jié)論：本模型擬合數(shù)據(jù)良好。

4.3驗(yàn)證預(yù)測(cè)概率

一個(gè)常用的方法之一是將模型的增益圖表和驗(yàn)證模型的增益圖表相比較。圖1是建模數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集的增益圖。這兩條曲線幾乎重疊，表明該模型是相對(duì)穩(wěn)定的。另一方面在圖1中還可以看到，如果我們篩選10%的賬戶(hù)，該模型將檢測(cè)會(huì)找到拖欠賬戶(hù)的22%。而根據(jù)隨機(jī)效應(yīng)（d45線），如果我們隨機(jī)抽取10%的賬戶(hù)，只能將拖欠帳戶(hù)的10%檢測(cè)到。同樣，如果我們篩選30%的賬戶(hù)，該模型將檢測(cè)會(huì)找到拖欠賬戶(hù)的53%。而根據(jù)隨機(jī)效應(yīng)（d45線），如果我們隨機(jī)抽取30%的賬戶(hù)，只能將拖欠帳戶(hù)的30%檢測(cè)到。由此得出本模型提升了檢測(cè)概率。

5 模型的改進(jìn) - 宏觀經(jīng)濟(jì)指數(shù)用于預(yù)測(cè)拖欠

將2005至2010年宏觀經(jīng)濟(jì)指數(shù)，如失業(yè)率，居民消費(fèi)價(jià)格指數(shù)，通貨膨脹指數(shù)等和所在年份的客戶(hù)數(shù)據(jù)合并，創(chuàng)建一個(gè)新的數(shù)據(jù)行用于預(yù)測(cè)拖欠。數(shù)據(jù)隨機(jī)分成2份，60%用于建立模型，40%用于驗(yàn)證模型。

5.1 基本模型（不包括宏觀經(jīng)濟(jì)指數(shù)）的建立

將表4中所有的有預(yù)測(cè)能力的變量用于基本模型。將建模數(shù)據(jù)進(jìn)行邏輯回歸計(jì)算，得出預(yù)測(cè)拖欠概率的基本模型為：

ln（ P/1-P）=6.9205-0.01517×FICO分?jǐn)?shù)+ 0.0199×債務(wù)對(duì)收入比率+ 0.0204×貸款價(jià)值比+0.4629×不是首次購(gòu)房者-0.2328×購(gòu)房自用+0.2644×購(gòu)房用于投資-0.2020×貸款用于購(gòu)房+0.2915×貸款用于融資

再對(duì)此模型計(jì)算KS值，得到最大KS為 41，表明模型預(yù)測(cè)能力強(qiáng)。

5.2 改進(jìn)模型（包括宏觀經(jīng)濟(jì)指數(shù)）的建立

經(jīng)變量相關(guān)性分析，失業(yè)率和居民消費(fèi)價(jià)格指數(shù)有明顯的相關(guān)性，因此在建模中保留失業(yè)率，GDP和通貨膨脹指數(shù)

預(yù)測(cè)拖欠的改進(jìn)模型（加入宏觀經(jīng)濟(jì)指數(shù)）為：

ln（ P/1-P）=8.1187-0.01316×FICO分?jǐn)?shù)+0.0163×債務(wù)對(duì)收入比率+0.0180×貸款價(jià)值比-0.2745×首次購(gòu)房選項(xiàng)缺失-0.2180×購(gòu)房自用+0.2169×購(gòu)房用于投資-0.3267×貸款用于購(gòu)房+0.1756×貸款用于融資-0.3128×失業(yè)率- 0.0179×通貨膨脹指數(shù)

改進(jìn)模型的KS為44. 和基本模型相比（KS為41），增加宏觀經(jīng)濟(jì)指數(shù)加強(qiáng)了模型預(yù)測(cè)拖欠的能力。

上述模型說(shuō)明：

- 失業(yè)率提高可能降低拖欠可能性，這是由于失業(yè)率對(duì)貸款拖欠有滯后作用。在此模型中采用2005-2010年數(shù)據(jù)，滯后現(xiàn)象還沒(méi)有充分觀察到。通貨膨脹指數(shù)提高可能降低拖欠可能性。 GDP對(duì)預(yù)測(cè)拖欠可能性沒(méi)有顯著意義。

5.3 改進(jìn)模型（包括宏觀經(jīng)濟(jì)指數(shù)）的驗(yàn)證

將驗(yàn)證數(shù)據(jù)帶入改進(jìn)模型進(jìn)行驗(yàn)證，并計(jì)算KS。得出模型驗(yàn)證的最大KS是44，非常接近建模的KS ，表明模型穩(wěn)定。

6 結(jié)論

在這個(gè)課題中，對(duì)房屋貸款2005至2010年的客戶(hù)的申請(qǐng)和表現(xiàn)數(shù)據(jù)進(jìn)行了分析，制定一個(gè)預(yù)測(cè)模型來(lái)預(yù)測(cè)拖欠付款的可能性。并用不同年份的數(shù)據(jù)對(duì)該模型進(jìn)行驗(yàn)證.得出結(jié)論：該模型是穩(wěn)定的。因此模型具備長(zhǎng)期使用價(jià)值，而且預(yù)測(cè)性強(qiáng)。

此外，通過(guò)對(duì)模型的改進(jìn)，用05到10年數(shù)據(jù)并將一些宏觀經(jīng)濟(jì)變量添加到模型中。與基本模型（無(wú)宏觀經(jīng)濟(jì)變量）相比，KS由41增長(zhǎng)為44，說(shuō)明數(shù)據(jù)年份跨度加大和添加宏觀變量可以提高好壞賬戶(hù)的分離能力，使預(yù)測(cè)更為精確。

綜上所述，本模型可以通過(guò)金融機(jī)構(gòu)來(lái)實(shí)現(xiàn)早期階段自動(dòng)檢測(cè)拖欠帳戶(hù)。當(dāng)模型實(shí)施時(shí)，一個(gè)定時(shí)器被設(shè)置在操作系統(tǒng)如Unix上，進(jìn)行通宵自動(dòng)運(yùn)行的程序，每天早上提交拖欠概率較高的賬戶(hù)的風(fēng)險(xiǎn)報(bào)告。以便在早期階段的采取相應(yīng)措施，以防止經(jīng)濟(jì)損失。

在未來(lái)的研究中，還可以將更多的有預(yù)測(cè)拖欠能力的變量添加到模型中，如個(gè)人資產(chǎn)，就業(yè)狀況，婚姻狀況等，此外，其他一些宏觀經(jīng)濟(jì)變量，也可以添加到模型中，如消費(fèi)者信心指數(shù)，汽油的價(jià)格等，這些變量可以提高模型的分離能力，使預(yù)測(cè)更為精確。

參考文獻(xiàn)：

[1] Peng， C. J.， Lee， K. L.， Ingersoll， G. M. An Introduction to Logistic Regression Analysis and Reporting. The Journal of Educational Research， 96（1）， 3-14.

[2]Tabachnick， B.， and Fidell， L. Using Multivariate Statistics （4th Ed.）. Needham Heights， MA： Allyn & Bacon， 2001.

[3]StatSoft， Electronic Statistics Textbook， http：//www.statsoft.com/textbook/stathome.html. http：//www.statsoft.com/textbook/stathome.html.

[4] Stokes， M.， Davis， C. S. Categorical Data Analysis Using the SAS System， SAS Institute Inc.， 1995.

[5]Raymond Anderson. The Credit Scoring Toolkit： Theory and Practice for Retail Credit Risk Management and Decision Automation. Oxford University Press， USA， 2007.8

[6]王濟(jì)川，郭志剛，logistic回歸模型---方法與應(yīng)用，高等教育出版社 2001

（責(zé)任編輯：羅亦成）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

自動(dòng)實(shí)時(shí)按揭風(fēng)險(xiǎn)早期預(yù)警模型的開(kāi)發(fā)