蔡哲皓
1 引言
近年來(lái),中國(guó)的經(jīng)濟(jì)實(shí)力迅猛增長(zhǎng)。然而,一些基本經(jīng)濟(jì)制度仍不完善,信用體系就是非常重要的一環(huán)。有資料說(shuō),在被稱(chēng)為“史上最嚴(yán)厲”的房地產(chǎn)調(diào)控中,我國(guó)溫州房?jī)r(jià)不再繼續(xù)瘋漲,部分炒房者手中的房子開(kāi)始貶值,有的溫州投資者不但血本無(wú)歸,甚至還欠上巨額債務(wù),一些炒房者選擇了違約甚至“跑路”。還有文章預(yù)測(cè),房?jī)r(jià)開(kāi)始下跌,壞賬將一波一波襲來(lái),然后進(jìn)入惡性循環(huán)。
融機(jī)構(gòu)面對(duì)日益激烈的競(jìng)爭(zhēng)和不斷增長(zhǎng)的壓力,為增加收益,他們需要尋求更有效的方式來(lái)吸引新的信譽(yù)良好的客戶(hù),并在同一時(shí)間,控制風(fēng)險(xiǎn)和損失。
因此,本課題的目的是開(kāi)發(fā)一個(gè)自動(dòng)和實(shí)時(shí)房貸風(fēng)險(xiǎn)模型以提供拖欠的早期預(yù)警。隨著這種模式的實(shí)施,達(dá)到風(fēng)險(xiǎn)警戒線(如拖欠可能性為50%)的賬戶(hù)將被抽出來(lái),顯示在報(bào)告中,金融機(jī)構(gòu)可以早期采取適當(dāng)措施,防止損失。
本模型運(yùn)用統(tǒng)計(jì)手段能夠高效準(zhǔn)確地篩查出絕大部分的違約人群,及時(shí)給貸款部門(mén)提出預(yù)警 。
2 方法
2.1 數(shù)據(jù)
本文用于模型開(kāi)發(fā)和驗(yàn)證的數(shù)據(jù)來(lái)源為某金融機(jī)構(gòu)2005年至2010年數(shù)萬(wàn)條客戶(hù)貸款數(shù)據(jù)。每年的數(shù)據(jù)包括客戶(hù)貸款申請(qǐng)數(shù)據(jù)和客戶(hù)表現(xiàn)數(shù)據(jù)。貸款申請(qǐng)數(shù)據(jù)包含的變量有信用評(píng)分,是否是首次購(gòu)房者,職業(yè)狀況,貸款與價(jià)值比率,債務(wù)與收入比率,利率,貸款用途,貸款期限等。客戶(hù)表現(xiàn)數(shù)據(jù)包含的變量有貸款拖欠狀況,貸款期限,現(xiàn)行利率,等等共35個(gè)。
另外,2005至2010年宏觀經(jīng)濟(jì)指數(shù)如GDP,失業(yè)率,居民消費(fèi)價(jià)格指數(shù),通貨膨脹指數(shù)等也用于預(yù)測(cè)拖欠。
2.2原理
2.2.1 邏輯回歸模型的開(kāi)發(fā)原理
邏輯回歸是一種統(tǒng)計(jì)模型,它針對(duì)因變量是二分變量(即是=1;否=0),而自變量可以是分類(lèi)的或連續(xù)的,用于預(yù)測(cè)離散結(jié)果。
本文以拖欠狀況作為因變量開(kāi)發(fā)邏輯回歸模型(如果該帳戶(hù)付款已逾期超過(guò)30天,它被認(rèn)為是拖欠= 1,否則拖欠=0)。自變量包括客戶(hù)貸款申請(qǐng)和表現(xiàn)數(shù)據(jù)中所包含的若干變量。
邏輯回歸模型可用下列公式表示:
其中P值是直接的拖欠可能性(概率),1-P是不拖欠的概率。ln(P/1-P)是拖欠可能性的logit(即事件發(fā)生比的自然對(duì)數(shù))而不是直接的拖欠可能性P。 β0是常數(shù), β1到βN是回歸系數(shù),X 1到X n是自變量,即為貸款申請(qǐng)數(shù)據(jù)包含的自變量和客戶(hù)表現(xiàn)數(shù)據(jù)包含的變量。βN系數(shù)表示了拖欠可能性的ln(P/1-P)和自變量的線性關(guān)系,通過(guò)計(jì)算 ln( P/1-P)可推算出拖欠的概率P。 開(kāi)發(fā)本預(yù)測(cè)模型所用的統(tǒng)計(jì)分析軟件是SAS 9.2版,逐步回歸添加變量分析。在這項(xiàng)研究中 p值(P value)< 0.05才可添加新變量。
得到邏輯回歸模型公式后,把建模數(shù)據(jù)帶進(jìn)模型,得到結(jié)果,并將預(yù)測(cè)的拖欠可能性按順序排列并分成10組, 計(jì)算柯?tīng)柲缏宸?- 斯米爾諾夫值( Kolmogorov-Smirnov簡(jiǎn)稱(chēng)KS)(KS是最常用的評(píng)估二分變量結(jié)果模型的預(yù)測(cè)能力,如好與壞,響應(yīng)與不響應(yīng),拖欠與不拖欠等。KS的范圍理論值從0到100,但一般模型的KS是20到70 ,它是累積事件發(fā)生的百分比和累積事件不發(fā)生的百分比的差的絕對(duì)值 。最大KS用來(lái)衡量模型的分離能力。KS值越高,預(yù)測(cè)能力越強(qiáng)。)。最終做出增益圖。
2.2.2模型的驗(yàn)證原理
將驗(yàn)證數(shù)據(jù)帶入建立的邏輯回歸模型,將預(yù)測(cè)的拖欠可能性按順序排列并分成10組, 計(jì)算KS值,并做出增益圖。如果驗(yàn)證數(shù)據(jù)的KS接近建模數(shù)據(jù)的KS,則該模型被認(rèn)為是穩(wěn)定的。
3 數(shù)據(jù)分析與結(jié)果
3.1單因素分析
3.1.1連續(xù)變量描述性統(tǒng)計(jì)
表1 連續(xù)變量的描述性分析(2005年數(shù)據(jù))
說(shuō)明:行數(shù) - 所有數(shù)據(jù)的行數(shù) 缺失值行數(shù) - 變量值有缺失的行數(shù)。
3.1.2分類(lèi)變量描述性統(tǒng)計(jì)
對(duì)分類(lèi)變量,分析每個(gè)變量值出現(xiàn)的頻數(shù)和百分比,并總結(jié)列于表2中。
表2 分類(lèi)變量的頻率分析
3.1.3數(shù)據(jù)清理
要建立一個(gè)有效的模型,數(shù)據(jù)質(zhì)量是非常重要的。對(duì)于連續(xù)變量,有缺失值的數(shù)據(jù)行會(huì)被除去,根據(jù)表1的描述性統(tǒng)計(jì),沒(méi)有異常值。缺失值因只占總數(shù)據(jù)量的2.5%則從分析數(shù)據(jù)中除去,。
對(duì)于分類(lèi)變量,因?yàn)槿笔е悼赡艽硪欢ǖ男袨槟J?。在本課題中,采用新的方法處理缺失數(shù)據(jù)。有缺失值的數(shù)據(jù)行被視為變量的一種可能值,將其重新定義成一個(gè)新的變量。
例如,對(duì)于變量“first_home_buyer_flag(是否第一次買(mǎi)房),3種可能值是“是”,“否”和缺失。帶有缺失值的數(shù)據(jù)行約占10 %,刪除它們是不適合的。所以,變量“是否第一次購(gòu)房”就被重新分成3個(gè)新變量:
新變量1 ,fhb _yes(是第一次購(gòu)房),如果是“是”,則數(shù)值被編碼為1 ,否則編碼為0;
新變量2,fhb _no(不是第一次購(gòu)房),如果是“否”,則數(shù)值被編碼為1,否則編碼為0;
新變量3,fhb_miss(第一次買(mǎi)房值缺失),如變量的值為缺失,則數(shù)值被編碼為1,否則編碼為0 。
3.2雙變量分析
雙變量分析是評(píng)估某一自變量是否可成為因變量的預(yù)測(cè)因子。
本課題使用KS值來(lái)評(píng)估自變量因子的預(yù)測(cè)能力。其目的是為了在不影響概率測(cè)算精準(zhǔn)度的情況下使得邏輯回歸分析中的變量大大減少,從而 “節(jié)約”變量和運(yùn)算。表3列出了某些自變量的KS 值。
雙變量分析結(jié)果表明, FICO信用評(píng)分,債務(wù)與收入比率及貸款目的等變量用于預(yù)測(cè)拖欠可能性是最有效的預(yù)測(cè)自變量。
3.3模型開(kāi)發(fā) - 建模數(shù)據(jù)的回歸
把2005年的29,225行建模數(shù)據(jù)帶入邏輯回歸計(jì)算中,獲得系數(shù)值β。進(jìn)而就可得到ln( P / ( 1 -P)所滿足的關(guān)系式(見(jiàn)后)。
建模數(shù)據(jù)的拖欠回歸分析結(jié)果列于表4 。
在這個(gè)課題中,模型開(kāi)發(fā)的最大KS是31。表明該模型能有效地分離拖欠的賬戶(hù)和按期付款的賬戶(hù)。
3.4模型驗(yàn)證 - 驗(yàn)證數(shù)據(jù)的邏輯回歸分析
將留作驗(yàn)證的2006年的19,484個(gè)未進(jìn)行分析的數(shù)據(jù),用于邏輯回歸模型中進(jìn)行驗(yàn)證。最后,該模型的 KS值被統(tǒng)計(jì)計(jì)算(表6)。模型驗(yàn)證的最大KS是33, 非常接近建模的KS ,表明模型穩(wěn)定。
4 討論
4.1邏輯回歸模型結(jié)果及系數(shù)解釋
根據(jù)表4中所列,預(yù)測(cè)拖欠的模型為:
ln( P/1-P)=5.7069-0.0119×FICO分?jǐn)?shù)+0.0142×債務(wù)對(duì)收入比率+ 0.0144 ×貸款價(jià)值比+0.1774×不是首次購(gòu)房者-0.2153×購(gòu)房自用-0.1606×貸款用于購(gòu)房+0.155×貸款用于融資
所列參數(shù)的系數(shù)為正表明增加拖欠可能性,系數(shù)為負(fù)則表示減少拖欠可能。
4.2綜合評(píng)價(jià)模型
邏輯回歸模型 與一般多元線性回歸模型不同。所有的分析均建立在二項(xiàng)分布的基礎(chǔ)上。 也正是基于此,系數(shù)及模型檢驗(yàn)要用似然比檢驗(yàn)和沃爾德等檢驗(yàn)。本模型經(jīng)由似然比和沃爾德測(cè)試檢驗(yàn)。所有測(cè)試表明P值均< 0.0001 ,表明在本研究中所獲得的邏輯回歸模型比截距模型更有效。
通過(guò)對(duì)所建模型進(jìn)行擬合優(yōu)度測(cè)試,得出結(jié)論:本模型擬合數(shù)據(jù)良好。
4.3驗(yàn)證預(yù)測(cè)概率
一個(gè)常用的方法之一是將模型的增益圖表和驗(yàn)證模型的增益圖表相比較。圖1是建模數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集的增益圖。這兩條曲線幾乎重疊,表明該模型是相對(duì)穩(wěn)定的。另一方面在圖1中還可以看到,如果我們篩選10%的賬戶(hù),該模型將檢測(cè)會(huì)找到拖欠賬戶(hù)的22%。而根據(jù)隨機(jī)效應(yīng)(d45線),如果我們隨機(jī)抽取10%的賬戶(hù),只能將拖欠帳戶(hù)的10%檢測(cè)到。同樣,如果我們篩選30%的賬戶(hù),該模型將檢測(cè)會(huì)找到拖欠賬戶(hù)的53%。而根據(jù)隨機(jī)效應(yīng)(d45線),如果我們隨機(jī)抽取30%的賬戶(hù),只能將拖欠帳戶(hù)的30%檢測(cè)到。由此得出本模型提升了檢測(cè)概率。
5 模型的改進(jìn) - 宏觀經(jīng)濟(jì)指數(shù)用于預(yù)測(cè)拖欠
將2005至2010年宏觀經(jīng)濟(jì)指數(shù),如失業(yè)率,居民消費(fèi)價(jià)格指數(shù),通貨膨脹指數(shù)等和所在年份的客戶(hù)數(shù)據(jù)合并,創(chuàng)建一個(gè)新的數(shù)據(jù)行用于預(yù)測(cè)拖欠。數(shù)據(jù)隨機(jī)分成2份,60%用于建立模型,40%用于驗(yàn)證模型。
5.1 基本模型(不包括宏觀經(jīng)濟(jì)指數(shù))的建立
將表4中所有的有預(yù)測(cè)能力的變量用于基本模型。將建模數(shù)據(jù)進(jìn)行邏輯回歸計(jì)算,得出預(yù)測(cè)拖欠概率的基本模型為:
ln( P/1-P)=6.9205-0.01517×FICO分?jǐn)?shù)+ 0.0199×債務(wù)對(duì)收入比率+ 0.0204×貸款價(jià)值比+0.4629×不是首次購(gòu)房者-0.2328×購(gòu)房自用+0.2644×購(gòu)房用于投資-0.2020×貸款用于購(gòu)房+0.2915×貸款用于融資
再對(duì)此模型計(jì)算KS值,得到最大KS為 41,表明模型預(yù)測(cè)能力強(qiáng)。
5.2 改進(jìn)模型(包括宏觀經(jīng)濟(jì)指數(shù))的建立
經(jīng)變量相關(guān)性分析,失業(yè)率和居民消費(fèi)價(jià)格指數(shù)有明顯的相關(guān)性,因此在建模中保留失業(yè)率,GDP和通貨膨脹指數(shù)
預(yù)測(cè)拖欠的改進(jìn)模型(加入宏觀經(jīng)濟(jì)指數(shù))為:
ln( P/1-P)=8.1187-0.01316×FICO分?jǐn)?shù)+0.0163×債務(wù)對(duì)收入比率+0.0180×貸款價(jià)值比-0.2745×首次購(gòu)房選項(xiàng)缺失-0.2180×購(gòu)房自用+0.2169×購(gòu)房用于投資-0.3267×貸款用于購(gòu)房+0.1756×貸款用于融資-0.3128×失業(yè)率- 0.0179×通貨膨脹指數(shù)
改進(jìn)模型的KS為44. 和基本模型相比(KS為41),增加宏觀經(jīng)濟(jì)指數(shù)加強(qiáng)了模型預(yù)測(cè)拖欠的能力。
上述模型說(shuō)明:
- 失業(yè)率提高可能降低拖欠可能性,這是由于失業(yè)率對(duì)貸款拖欠有滯后作用。在此模型中采用2005-2010年數(shù)據(jù),滯后現(xiàn)象還沒(méi)有充分觀察到。 通貨膨脹指數(shù)提高可能降低拖欠可能性。 GDP對(duì)預(yù)測(cè)拖欠可能性沒(méi)有顯著意義。
5.3 改進(jìn)模型(包括宏觀經(jīng)濟(jì)指數(shù))的驗(yàn)證
將驗(yàn)證數(shù)據(jù)帶入改進(jìn)模型進(jìn)行驗(yàn)證,并計(jì)算KS。得出模型驗(yàn)證的最大KS是44, 非常接近建模的KS ,表明模型穩(wěn)定。
6 結(jié)論
在這個(gè)課題中,對(duì)房屋貸款2005至2010年的客戶(hù)的申請(qǐng)和表現(xiàn)數(shù)據(jù)進(jìn)行了分析,制定一個(gè)預(yù)測(cè)模型來(lái)預(yù)測(cè)拖欠付款的可能性。并用不同年份的數(shù)據(jù)對(duì)該模型進(jìn)行驗(yàn)證.得出結(jié)論:該模型是穩(wěn)定的。因此模型具備長(zhǎng)期使用價(jià)值,而且預(yù)測(cè)性強(qiáng)。
此外,通過(guò)對(duì)模型的改進(jìn),用05到10年數(shù)據(jù)并將一些宏觀經(jīng)濟(jì)變量添加到模型中。與基本模型(無(wú)宏觀經(jīng)濟(jì)變量)相比,KS由41增長(zhǎng)為44,說(shuō)明數(shù)據(jù)年份跨度加大和添加宏觀變量可以提高好壞賬戶(hù)的分離能力,使預(yù)測(cè)更為精確。
綜上所述,本模型可以通過(guò)金融機(jī)構(gòu)來(lái)實(shí)現(xiàn)早期階段自動(dòng)檢測(cè)拖欠帳戶(hù)。當(dāng)模型實(shí)施時(shí),一個(gè)定時(shí)器被設(shè)置在操作系統(tǒng)如Unix上,進(jìn)行通宵自動(dòng)運(yùn)行的程序,每天早上提交拖欠概率較高的賬戶(hù)的風(fēng)險(xiǎn)報(bào)告。以便在早期階段的采取相應(yīng)措施,以防止經(jīng)濟(jì)損失。
在未來(lái)的研究中,還可以將更多的有預(yù)測(cè)拖欠能力的變量添加到模型中,如個(gè)人資產(chǎn),就業(yè)狀況,婚姻狀況等,此外,其他一些宏觀經(jīng)濟(jì)變量,也可以添加到模型中,如消費(fèi)者信心指數(shù),汽油的價(jià)格等,這些變量可以提高模型的分離能力,使預(yù)測(cè)更為精確。
參考文獻(xiàn):
[1] Peng, C. J., Lee, K. L., Ingersoll, G. M. An Introduction to Logistic Regression Analysis and Reporting. The Journal of Educational Research, 96(1), 3-14.
[2]Tabachnick, B., and Fidell, L. Using Multivariate Statistics (4th Ed.). Needham Heights, MA: Allyn & Bacon, 2001.
[3]StatSoft, Electronic Statistics Textbook, http://www.statsoft.com/textbook/stathome.html. http://www.statsoft.com/textbook/stathome.html.
[4] Stokes, M., Davis, C. S. Categorical Data Analysis Using the SAS System, SAS Institute Inc., 1995.
[5]Raymond Anderson. The Credit Scoring Toolkit: Theory and Practice for Retail Credit Risk Management and Decision Automation. Oxford University Press, USA, 2007.8
[6]王濟(jì)川,郭志剛,logistic回歸模型---方法與應(yīng)用,高等教育出版社 2001
(責(zé)任編輯:羅亦成)