Lasso-Cox模型在個人信用風險評估中的應用

2021-02-07 07:33李淑錦嵇曉佳

資源開發(fā)與市場 2021年2期

李淑錦，嵇曉佳

（杭州電子科技大學經濟學院，浙江杭州310018）

1 文獻綜述

國內外學者關于信用風險評估的研究主要集中于探討影響借貸違約行為的因素、風險評估的模型選擇及應用方面。

在個人借貸違約行為的影響因素研究方面，學者們發(fā)現(xiàn)有內外部因素之分，也可以表現(xiàn)為硬信息和軟信息兩個方面。傅彥銘、臧敦剛、戚名鈺［1］基于借款人的信用等級、申請的貸款金額、期限、利率、收入等因素研究了對個人借款者信用風險的影響；李思瑤、王積田、柳立超［2］則考慮借款者的信用等級、收入水平、學歷和所處地區(qū)等因素對個人借款者違約的影響；李延喜、孫大同、賽騫［3］基于個人借款者的特征，如年齡、學歷、借款金額等指標來判別其是否會影響違約的風險；王浩名、馬樹才［4］通過對借款人的信用等級、FICO 分數(shù)等級、負債與收入比等因素研究了對違約概率的影響；王冬一、華迎、朱峻萱［5］在個人財務狀況、房產車產、收入、學歷等基本信息的基礎上，加入社會關系來動態(tài)評估個人借款者的違約風險。除借款者個人特征，信用等級等方面數(shù)據(jù)會包含一些信用風險信息，借款者的消費行為和宏觀層面因素也會對其違約行為產生影響。王正位、周從意、廖理等［6］研究表明，高頻的消費行為所蘊含的信息能提高對借款者風險的識別效率；遲國泰、張亞京、石寶峰［7］研究發(fā)現(xiàn)，宏觀經濟因素對個體借款者的還款情況存在影響，實證結果表明景氣指數(shù)、居民消費價格指數(shù)、城市人均可支配收入對其未來違約狀態(tài)的影響是顯著的。

在信用風險評估模型研究方面，有靜態(tài)和動態(tài)模型之分，代表性的靜態(tài)評估模型包括判別分析法和Logistic 回歸方法等。如，方匡南、章貴軍、張惠穎［8］研究發(fā)現(xiàn)，Logistic 回歸模型在我國信用風險研究中具有更強的應用性和一定的代表性。SVM、隨機森林、BP 神經網絡、決策樹［9-12］等靜態(tài)評估模型也被運用到信用風險研究中，并取得了一定的研究成果。靜態(tài)評估模型只能分析借款者在特定時間段內的違約概率，不能評估特定時點上的違約風險，而動態(tài)評估模型卻可以。最常用的動態(tài)評估模型是生存分析模型，其中最具代表性的是成比例Cox 模型。Narain B［13］第一次將生存分析方法運用到信用評估中；Banasik J、Crook J N、Thomas L C［14］在前人研究的基礎上發(fā)現(xiàn)，普通的靜態(tài)評估模型如Logistic 回歸與Cox 方法相比具有很好的評估效果；Stepanova M、Thomas L C［15］運用Cox模型預測了個人借款者的違約概率；鄧麗純、杜偉勇［16］運用Cox 模型預測了上市公司財務危機；劉忻梅、丁研、段羽中［17］運用Cox PH模型篩選了影響上市公司信用風險的財務指標。

綜上所述，在個人借款者的信用風險評估中，最重要的是建立信用風險評估指標體系和選擇合適的評估方法，學者們在研究過程中主要使用Logistic、SVM、決策樹等靜態(tài)方法進行實證研究。這些模型各有優(yōu)缺點，如Logistic回歸模型是較為經典的一個傳統(tǒng)預測模型，具有高穩(wěn)定性、高可解釋性、建模難度低的特點，但導致欠擬合現(xiàn)象；SVM 適用小樣本，且能處理非線性模型，但對大樣本處理結果較差，且穩(wěn)定性較低；決策樹作為大數(shù)據(jù)處理問題的一個新模型，具有預測精度高、數(shù)據(jù)要求低、概率圖解釋清晰的特點，但也具有穩(wěn)定性差，且僅用于離散變量的特性。這些靜態(tài)方法的缺點是只能判別個人借款者在一定的期限內是否違約，卻無法評估借款者什么時候違約。

本文的研究目的在于不僅發(fā)現(xiàn)影響個人借款者違約的重要影響因素，而且同時定量分析個人借款者在什么時刻違約。與傳統(tǒng)的靜態(tài)評估方法相比較，生存分析方法具有兩個方面優(yōu)勢：一是生存分析可有效利用刪失（Censored，本文特指在研究期間未發(fā)生違約的樣本）數(shù)據(jù)；二是擴展的生存分析模型可納入時間變量，且預估每個時點個人借款者違約的可能性。

從學者們的研究中可以發(fā)現(xiàn)，在評估個人借款違約時，選取的評估指標會對最終的評估結果產生很大的影響。在眾多的特征信息中如何篩選出準確的、能反映個人信用風險的有效指標，成為建立信用風險評估指標體系的關鍵所在。常用的篩選方法有主成分分析法、Lasso方法等。方匡南、章貴軍、張惠穎［8］研究表明，Lasso方法篩選的預測變量較向前逐步回歸和向后逐步回歸法都能獲得更好的預測結果，因此本文擬采用Lasso方法建立有效的個人借款者信用風險的評估指標。

向暉［18］曾將單一模型和混合模型進行對比，發(fā)現(xiàn)混合模型的預測精度、穩(wěn)健性、解釋性等均優(yōu)于單一模型。Lasso 和生存分析模型的特點具有以下兩個特點：一是Lasso和生存分析模型具有一定的互補性，生存分析易造成欠擬合問題，而Lasso 正好能解決多重共線性和擬合問題；二是兩個模型都可以解決非線性問題，且二者對數(shù)據(jù)的假設要求條件均較低。因此，將Lasso和生存分析模型相結合構建新的評估方法，可大大提高模型的預測精度和模型的整體可解釋性，為信用評估模型和評估指標的運用提供了新思路。

2 研究方法

2.1 Cox 模型

生存分析常被用于醫(yī)學實驗中不同變量對被研究個體生存狀態(tài)的影響，也就是在變量發(fā)生變化時，對個體生存時間的影響。信用風險研究中，生存狀態(tài)的轉變主要依據(jù)借款者是否發(fā)生違約，因此“T”特指從借款者完成借款的時間起點到發(fā)生違約事件所經歷的月數(shù)。通常事件的生存特征由生存函數(shù)、危險函數(shù)和概率密度函數(shù)體現(xiàn)，本文運用生存分析方法研究在一定時期內借款者違約的影響因素，并給出相應的風險函數(shù)和風險概率，以發(fā)現(xiàn)個人借款者的“生存特征”。

生存函數(shù)：生存函數(shù)又稱“累計生存率”，是指在t時刻企業(yè)個體的累計存活概率，一般用函數(shù)S（t）表示，數(shù)學形式為：

式中，T為個人借款者從籌資成功到發(fā)生違約情況所經歷的月數(shù)；F（t）指個體生存時間T 的分布函數(shù)。

f（t）為概率密度，通常被用來衡量某個隨機變量在任意一個確定的時間點附近取值的可能性，函數(shù)表達式為：

h（t）為危險函數(shù)，又被稱為“風險函數(shù)”，是指個體在t時刻是未違約的，但在下一瞬間t+Δt（Δt→0）會發(fā)生違約的可能性，采用危險函數(shù)h（t）表示：

由定義可知，生存函數(shù)S（t）和危險函數(shù)h（t）可以轉換，計算公式為：

生存分析中有各種風險函數(shù)表示方法，本文主要采用Cox 模型。Cox 模型為半?yún)?shù)模型，模型中有一部分的結構是已知的，需要估計參數(shù)，而另外一部分結構未知。因此，Cox 模型一部分取決于估計的β值，另一部分則由依據(jù)時間t，但與協(xié)變量無關的基礎風險函數(shù)h0（t）決定，表達式為：

式中，h0（t）為基準風險函數(shù)，是指當解釋變量為0 時個人借款者發(fā)生違約風險的概率；X（t）是包含了以下元素的解釋變量：m個借款人特征指標x1，x2，…，xm，包括基本情況、工作情況、資產情況和信用情況；n個借款信息xm+1，xm+2，…，xm+n指標，這些指標是不隨時間變化的；s 個動態(tài)的宏觀經濟指標y1（t），y2（t），…，ys（t），這些指標是動態(tài)的，為時間依存變量，隨著時間變化而變化。本文中，若協(xié)變量不考慮宏觀經濟指標，該模型是Cox PH 模型；若協(xié)變量考慮宏觀經濟指標yi（t），則該模型就是擴展Cox模型。β1，β2，…，βp是模型通過極大似然函數(shù)和訓練集數(shù)據(jù)估計得出的回歸系數(shù)［19］：

因此，每個借款人在任何時刻，以及任何一段時間的違約概率可以通過公式（1）和（5）獲得［21］。

Cox模型參數(shù)估計中帶有懲罰項的偏似然函數(shù)形式如下：

式中，ln（β）為擴展的Cox 模型的對數(shù)偏似然函數(shù)。

2.2 Lasso - Cox模型

由于大數(shù)據(jù)具有數(shù)據(jù)量大、存在冗余變量的特點，因此本文首先采用基于偏似然估計原理的Lasso方法對借款者違約的評估指標進行篩選。首先，充分考慮各自變量與因變量之間的關系，合理界定信用風險評估指標對因變量是否存在顯著影響；然后，基于所選出的特征自變量利用擴展的Cox 預測進行預測，定量分析個人借款者的違約特征。

為提高變量選擇的效果，需對λ參數(shù)進行調整，本文采用十折交叉驗證方法來確定調和參數(shù)λ。交叉驗證法首先把數(shù)據(jù)分成數(shù)量大致相等的K 份，對于第k份數(shù)據(jù)，用其他K - 1 份的數(shù)據(jù)擬合模型fk，然后計算當fk用于預測第k 份數(shù)據(jù)時的預測誤差。令k ＝1，2，…，K，重復上述過程，最后匯總K 個模型的預測誤差。實踐中常令K ＝10，即十折交叉驗證。十折交叉驗證的預測誤差表示為：

式中，k（i）是表示N 個樣本中觀測i 屬于第k（k ＝1，2，…，K）份數(shù)據(jù)的指示函數(shù)；fk表示使用剔除第k份數(shù)據(jù)后擬合的模型。

假定擬合了一組含有調和參數(shù)的模型表示為fk（x，λ），定義為：

那么，CV（f，λ）就是一條隨λ的變化而變化的檢驗誤差曲線，找到使其最小的λ，就是Lasso- Cox 回歸模型的調和參數(shù)：

在經過十折交叉驗證得出估計的^λ值后，根據(jù)公式（9）得出βLasso的估計值，根據(jù)公式（5）得出被觀察樣本在t時刻發(fā)生違約的概率，即：

3 評估指標選擇及數(shù)據(jù)來源

3.1 評估指標選擇

李杰、劉露、Chao - Hsien Chu［24］對個人信用風險的研究發(fā)現(xiàn)，個人借款者的基本情況、資產情況、工作情況、信用情況和借款信息均會對其未來的違約狀況產生影響。本文構建了信用風險評估指標體系（表1）。從表1 可見，評估指標的數(shù)據(jù)分為數(shù)值型數(shù)據(jù)和非數(shù)值型數(shù)據(jù)，數(shù)值型數(shù)據(jù)的賦值為實際值，而連續(xù)的字符（如婚姻狀況）通常分為“波段”，然后將每個“波段”替換為二進制虛擬變量。

表1 信用風險評估指標體系及其處理方式

在評估個人借款者違約風險時考慮宏觀經濟變量可提高信用評估模型對違約率的預測準確性［25］，本文將居民消費指數(shù)（CPI）、經濟景氣指數(shù)（ECI）、失業(yè)率（URI）、國房景氣指數(shù)（CERCI）等納入信用風險評估指標體系。CPI 反映了通貨膨脹程度和宏觀經濟對職工實際工資產生的影響，居民的實際收入影響其還款的壓力；ECI 能夠直接地表示宏觀經濟的景氣程度；URI 反映了失業(yè)率，URI 高，意味著經濟情況不景氣、失業(yè)人數(shù)多，借款者中會有一部分面臨失業(yè)的壓力而影響還款情況；CERCI 綜合反映了全國房地產業(yè)運行的景氣狀況，該指標的上漲可能是某些房產擁有者財富增加而降低違約風險，或者增加另外一些準備買房或背負房貸的借款者的還款壓力而增加違約風險，因此該指標對個人借款者信用風險的影響是不確定的。

3.2 數(shù)據(jù)來源及處理

基于個人信用卡還款數(shù)據(jù)的不可得性，因此本文選取P2P平臺上的個人借款數(shù)據(jù)，通過Python 爬蟲獲取來自于我國P2P網絡借貸平臺中處于領軍企業(yè)的“人人貸”的數(shù)據(jù)。數(shù)據(jù)集中了1，048，575 個樣本，其中未違約人數(shù)1，035，133 人、違約人數(shù)13，442人?；跀?shù)據(jù)可非自然分布的研究結論［26］，本文將對樣本數(shù)據(jù)進行了1 ∶1 的平衡處理。在違約案例13，442組的基礎上，隨機篩選13，442組非違約樣本對數(shù)據(jù)進行平衡處理。數(shù)據(jù)的描述性統(tǒng)計具體見表2。

表2 樣本的描述性統(tǒng)計

4 實證研究

本文采用十折交叉驗證，在違約案例13，442 樣本的基礎上，隨機篩選了13，442 個非違約樣本進行研究。其中十分之一的數(shù)據(jù)，即隨機選擇1344 個違約樣本和1344 個非違約樣本組成測試集，其他的12，098 個違約和12，098 個未違約樣本隨機均勻分布在9 個訓練集中，利用訓練集的數(shù)據(jù)進行Lasso變量選擇和模型的參數(shù)估計。

4.1 Lasso評估指標選擇

本文首先對16 個靜態(tài)指標進行了相關性檢驗，具體結果見表3。從表3 可見，一些指標間存在著近0.7698 的高度線性相關性。若不進行降維處理，不僅會降低模型的運行效率，也會使實證結果出現(xiàn)過擬合現(xiàn)象，影響模型的精確度，因此本文對指標進行篩選。

Lasso模型是通過構造懲罰函數(shù)來達到精簡模型的效果，會將一些呈現(xiàn)共線性或者與因變量沒有相關性的冗余變量通過將其回歸系數(shù)設置為0 的方式剔除，保留自變量子集簡練且收縮的優(yōu)點。基于此，本文首先通過Lasso篩選出對違約狀況影響顯著的協(xié)變量指標，再應用Cox 回歸模型對借款者的違約風險進行擬合，建立違約預測模型，然后利用訓練集的數(shù)據(jù)擬合出Alpha和Lasso 回歸系數(shù)的關系（圖1）。從圖1 可見，在Alpha 取值在10-5和10-3之間時，模型自變量的系數(shù)趨于穩(wěn)定。而模型需要確定具體的調和參數(shù)，即最小的λ值來使得模型的篩選誤差最小，因此還是需要借助十折交叉檢驗方法，即公式（12）來確定最小的λ值?；谧钚〉恼{和參數(shù)值，模型最終篩選了7 個信用風險評估指標，分別是：信用分數(shù)、信用等級、年齡、利率、借款期限、剩余期限和收入。

表3 各信用風險評估指標的相關關系

圖1 Alpha和Lasso回歸系數(shù)的關系

4.2 Cox PH模型的參數(shù)估計及其檢驗

根據(jù)Lasso模型篩選的7 個變量，在不考慮宏觀經濟變量的情況下，利用公式（6）得到的參數(shù)估計值（表4）。

表4 Lasso- Cox PH模型的參數(shù)估計

從表4 可見，7 個變量均通過了顯著水平為5%的顯著性檢驗（其中6 個變量通過了1%的顯著性檢驗）。信用分數(shù)、信用等級、年齡、利率、借款期限對違約的影響是負相關的，剩余期限與違約呈正相關，與預期一致。收入水平與違約狀態(tài)呈正相關，是由于樣本群的收入大部分集中于中低收入，因此違約概率被稀釋，導致高收入違約概率反而升高。

在考慮利用生存分析模型時，應首先確定該模型是否適合信用風險評估的問題。這是由于模型的應用存在某些假設前提或者某些特性，這些情況都有可能使得模型與相關數(shù)據(jù)之間不匹配，因此應首先檢驗模型對數(shù)據(jù)的適應性。許多方法都可以達到檢驗模型對數(shù)據(jù)適應性的目的，本文通過似然比檢驗，檢驗結果見表5。

表5 Lasso- Cox模型的Omnibus檢驗

表5 中，原假設為H0：βi＝0，備擇假設為H1：存在βi≠0。結果顯示，模型整體的Sig. ＝0.000 ＜0.05，應拒絕原假設，接受備擇假設，即對模型總體檢驗有顯著意義。也就是說，存在至少一個偏回歸系數(shù)不為零的因素，因此可利用該模型對數(shù)據(jù)做進一步分析。

4.3 Cox 模型的參數(shù)估計

前人的研究表明，宏觀經濟情況可在一定程度上影響借款者的違約概率。而擴展的Cox 模型（Extended Cox model）是有時間依賴的模型，能很好地結合宏觀動態(tài)變量進行研究。加入宏觀變量后的評估指標共有11 個變量（表6），均通過顯著水平為1%的顯著性檢驗。信用分數(shù)、信用等級、利率、借款期限、剩余月數(shù)、收入、經濟景氣指數(shù)、國房景氣指數(shù)對違約的影響呈負相關，年齡、失業(yè)率、居民消費指數(shù)與違約呈正相關。其中，信用分數(shù)、信用等級、利率、借款期限、收入、國房景氣指數(shù)、失業(yè)率與違約率的關系是符合預期的，剩余月數(shù)與違約率在此時與違約率呈正相關，則可能與宏觀經濟因素有關，如宏觀政策的利好消息，會使得居民的實際收入上漲，進而降低違約率。居民消費指數(shù)與違約率的關系主要與通貨膨脹有關，在本文中與違約率呈現(xiàn)正相關則說明通貨膨脹使貨幣的購買力降低，增加借款人的還款壓力進而增加違約可能性。

表6 加入宏觀變量后Lasso- Cox 模型的回歸系數(shù)及其顯著性

Cox 模型與相關數(shù)據(jù)之間的匹配程度結果見表7。從表7 可見，模型整體的顯著性為0.000，小于1%，因此拒絕原假設，接受備擇假設，即對模型總體檢驗有顯著意義。也就是說，存在至少一個偏回歸系數(shù)不為零的因素，可以使用該模型對相關數(shù)據(jù)進行進一步分析。

表7 加入宏觀因素后Lasso- Cox模型系數(shù)的Omnibus檢驗

4.4 預測結果分析

在預測分析中，模型有可能將優(yōu)質借款人誤判為劣質借款人，或者將劣質借款人誤判成優(yōu)質借款者，這都會影響到優(yōu)質借款者的權益或者侵害投資者的相關權益，因此第一類錯誤率和第二類錯誤率與模型的預測效果息息相關。其中，第一類型錯誤是優(yōu)質借款人被模型誤判為劣質借款人，第二類型錯誤表示有違約風險的劣質借款人被識別為沒有違約風險的優(yōu)質借款人。在不考慮宏觀因素影響的情況下，Logistic、Cox PH 和Lasso- Cox PH 模型各個模型的預測結果見表8。從表8 可見，與Logistic 回歸模型相比，Cox PH 模型的預測精確度總體上高達91.11%，遠遠高于Logistic 模型；而Cox PH 模型和Lasso- Cox PH 模型相比，通過Lasso 對冗余變量進行篩選，Lasso- Cox 模型精度大于將全部指標都納入模型的Cox模型，且經過Lasso處理后模型的第一類錯誤率和第二類錯誤率均大大下降。Lasso - Cox模型犯第一類錯誤的概率僅有1.41%，犯第二類錯誤的概率也由Cox PH模型的9.6%下降至7.07%，說明利用Lasso方法進行變量處理是必要的。

表8 Logistic回歸、Cox PH和Lasso- Cox PH模型在不含宏觀變量時的預測結果

Logistic 回歸、擴展的Cox 和Lasso - Cox 模型在含宏觀變量時的預測結果見表9。因為Logistic模型為靜態(tài)回歸模型，為了同步考慮宏觀變量對其評估結果的影響，根據(jù)每一筆借款數(shù)據(jù)的起始借款日期的宏觀月度數(shù)據(jù)納入模型，以一個靜態(tài)的樣本來進行實證建模的。而Cox 模型、Lasso - Cox 模型則是借助整個借款期間的宏觀月度數(shù)據(jù)來進行動態(tài)建模。從表9 可見，無論是經典的Logistic 模型，還是Cox模型、Lasso - Cox 模型，加入宏觀變量后其預測準確度都有一定程度的提升。Logistic模型和Cox模型相比，總體來說Cox模型呈現(xiàn)更高的準確度，因此Cox模型在判斷個人借款者是否違約具有更好的表現(xiàn)。而Cox 模型與Lasso - Cox 相比，可以看出經過Lasso變量選擇后的Lasso - Cox 模型的預測效果具有更好的提升。在Lasso處理變量后，模型的第一類錯誤率和第二類錯誤率均下降了，尤其是Lasso -Cox的第二類錯誤率接近于0，模型的優(yōu)度得到進一步提升。

表9 Logistic回歸、Cox PH和Lasso- Cox PH在含宏觀變量時的預測結果

5 結論與討論

本文利用“人人貸”平臺借款者的借款數(shù)據(jù)和個人信息建立信用風險評估指標體系，并采用不同的模型進行模擬實驗，對Lasso- Cox 模型和Cox 模型、Cox模型和Logistic模型對“人人貸”借款者的違約概率進行了評估，預測結果表明Cox 模型的預測準確率高于Logistic模型的預測準確率。將Lasso 模型和Cox模型結合構造的Lasso- Cox 模型，通過Lasso 模型首先將評估指標進行篩選，再利用Cox 模型進行評估，得到95.76%的預測準確率，預測精度大幅度提升。將動態(tài)的宏觀變量也納入到評估指標中，結果發(fā)現(xiàn)在加入4 個宏觀變量后，各模型的預測效果均有了很好的提升，其中Lasso- Cox 模型的預測準確度高達98.88%。

主要結論：①動態(tài)的Cox 模型在信用風險評估中預測精度更高。在評估指標一致時，Logistic 模型的第一類錯誤率和第二類錯誤率均高于Cox 模型，而Cox模型能將不同時間點的違約狀況考慮進模型，根據(jù)不同時間點的基準生存函數(shù)得到不同時間點的生存率，因此預測精度更高。②Lasso 方法能很好地識別信用風險評估指標中的重要變量。對于P2P個人借款者來說，他們的信息是高維度的，正因為存在著數(shù)十個相關指標，因此有些變量的相關性就很高，出現(xiàn)過擬合現(xiàn)象而降低了模型的精確性。因此，經過Lasso模型對變量進行篩選后的Cox 模型預測精度遠遠高于不進行指標處理的Cox 模型。③宏觀變量是個人借款者信用風險的影響因素，有助于提升信用風險評估模型的預測精度。加入宏觀變量的模型預測結果都得到了提升，在考慮宏觀變量的條件下，Lasso - Cox 模型預測準確率高達98.88%，這無疑是一個更加有效的評估結果，也在一定程度上說明宏觀變量能夠增加信用風險評估的準確性，并進一步說明該類變量在個人信用風險評估中的影響因素。

本文對個人信用風險評估方面的貢獻表現(xiàn)在兩個方面：一是在建立我國個人借款者的信用風險評估指標時引入了動態(tài)的宏觀經濟指標；二是借鑒Lasso模型和Cox 模型的優(yōu)點，創(chuàng)建了新的Lasso -Cox模型。研究結果表明，Lasso- Cox 模型大幅提高了個人借款者信用風險評估的精度。不足之處在于，由于銀行信用卡信息的保密性，本文只能選擇P2P平臺的數(shù)據(jù)來進行個人借款者違約風險的預測，數(shù)據(jù)來源受限。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡