盛國敏,莊 健
(1.中國農(nóng)業(yè)銀行 天長市支行,安徽 天長 239300;2.安徽工業(yè)大學(xué) 商學(xué)院,安徽 馬鞍山 243000)
基于復(fù)合多層 RBF網(wǎng)絡(luò)的組合預(yù)測的研究
——以商業(yè)銀行農(nóng)村信貸為例
盛國敏1,莊 健2
(1.中國農(nóng)業(yè)銀行 天長市支行,安徽 天長 239300;2.安徽工業(yè)大學(xué) 商學(xué)院,安徽 馬鞍山 243000)
為了解決多元線性回歸和 logistic 回歸在預(yù)測中的精度不高問題,運(yùn)用組合預(yù)測的思想,提出通過開發(fā)運(yùn)用復(fù)合多層 RBF 神經(jīng)網(wǎng)絡(luò)將多元線性回歸和 logistic 回歸組合的預(yù)測方法,并應(yīng)用于商業(yè)銀行的個(gè)人信用評估中,其結(jié)果表明組合預(yù)測方法能夠獲得比單層 RBF 網(wǎng)絡(luò)法和單一回歸方法更高的預(yù)測精度。
多元線性回歸;logistic 回歸;復(fù)合多層 RBF 神經(jīng)網(wǎng)絡(luò);組合預(yù)測;個(gè)人信用評估
信用伴隨人們一生,是一生積累的信任度和誠信度的體現(xiàn)。在商品交換等經(jīng)濟(jì)活動中,它是一種價(jià)值的運(yùn)動,是整個(gè)市場經(jīng)濟(jì)發(fā)展的基石。 在我國,信用已經(jīng)是人們立信他人的基礎(chǔ),是社會經(jīng)濟(jì)活動的“身份證”。 我國信用基礎(chǔ)建設(shè)發(fā)展緩慢,尤其是個(gè)人信用額度預(yù)測體系建設(shè)很不完善,失信違約事件時(shí)常發(fā)生已成為當(dāng)前市場經(jīng)濟(jì)發(fā)展的基本特征,阻礙著我國消費(fèi)經(jīng)濟(jì)的快速發(fā)展。
在 很 多 發(fā) 達(dá) 國 家 中 ,個(gè) 人 信 用 評 估 方 法[1]已 經(jīng) 發(fā)展到成熟地步。除各種統(tǒng)計(jì)方法外,人工智能技術(shù)如神經(jīng)網(wǎng)絡(luò)、專家系統(tǒng)、分類樹以及遺傳算法也得到了廣泛的重視。雖然現(xiàn)在已經(jīng)有很多高新技術(shù)工具和各類軟件在商業(yè)經(jīng)濟(jì)中加以使用,但是由于我國個(gè)人信用體系建設(shè)的較晚,已有的信用評價(jià)機(jī)制發(fā)展相對落后,在評估方法的精確度方面不盡人意。因此本文試圖通過構(gòu)建新的復(fù)合多層 RBF 神經(jīng)網(wǎng)絡(luò)來評估個(gè)人信用,為解決上述問題進(jìn)行的嘗試。
徑 向 基 函 數(shù) 網(wǎng) 絡(luò)[2]是 一 種 性 能 優(yōu) 良 的 前 饋 型 網(wǎng)絡(luò),具有不存在局部最優(yōu)解和學(xué)習(xí)速度快的優(yōu)點(diǎn),因此被廣泛應(yīng)用到各個(gè)領(lǐng)域。徑向基函數(shù)網(wǎng)絡(luò)自提出以后,發(fā)展了許多算法,這些算法大都旨在改進(jìn)中心的選取,寬度系數(shù)的確定,徑向基函數(shù)個(gè)數(shù)的確定方法 和減少 計(jì) 算量,具 體 見文獻(xiàn)[3-8]。
個(gè)人信用評估可以被看作是模型識別中的異類分類問題——通過歷史上不同類別的 (信用好和信用不好)的若干樣本,從調(diào)研的樣本中提取、分析其規(guī)律,建立數(shù)學(xué)模型,然后用于新樣本的判斷。 直觀地說,就是將個(gè)人信用的評估轉(zhuǎn)化為各種指標(biāo)體系的量化問題——貸款申請者最后能否還本付息取決于其個(gè)人基本的經(jīng)濟(jì)和信用狀況。目前個(gè)人信用評價(jià)機(jī)制主要有多元判別分析法等數(shù)學(xué)模型方法和神經(jīng)網(wǎng)絡(luò)法等人工智能方法。
從總體上說,這些模型均可以統(tǒng)一為分類問題,就是按照歷史數(shù)據(jù)建立判別模式,將新的需要分類的樣本數(shù)據(jù)代入,得到一個(gè)輸出值,從而確定樣本的分類。這些方法可以說是信用評估過程中的主流方法,得到了廣泛的應(yīng)用,但應(yīng)該說不同的方法都存在一定的問題,如多元判別分析模型是根據(jù)特定樣本數(shù)據(jù)建立的,一個(gè)地方建立的模型不一定適合其他地方,還要求樣本滿足正態(tài)分布、協(xié)方差等過于嚴(yán)格的前提條件,并且模型有用性比較差。 而 RBF 神經(jīng)網(wǎng)絡(luò)也存在隱層神經(jīng)元個(gè)數(shù)難以確定,各層核函數(shù)的中心不能很好分配在恰當(dāng)?shù)奈恢蒙系葐栴}。從信息論的角度來看,每一種預(yù)測方法都包含其特殊的信息,即便是相對比較差的預(yù)測方法,也一定會包含著其他的方法所不具有的獨(dú)特信息。因此,為了盡可能多的利用全部有效信息,可以采用一定的方法和手段對不同的方法進(jìn)行組合,這就是所謂的組合預(yù)測[9]。
這里選取個(gè)人信用評估過程中應(yīng)用比較成熟、效果比較明顯的線性回歸和 logistic 回歸方法,通過基于復(fù)合多層 RBF 神經(jīng)網(wǎng)絡(luò)構(gòu)建的組合預(yù)測模型,希望將復(fù)合多層 RBF 神經(jīng)網(wǎng)絡(luò)的高精度和線性回歸、logistic 回歸方法的高穩(wěn)健性有效結(jié)合,并克服各自的缺點(diǎn)。
1.1 多層 RBF 網(wǎng)絡(luò)中的聚類算法
構(gòu)建第一層的輸出網(wǎng)絡(luò)。程序中輸入樣本X為
和它們所對應(yīng)的期望輸出值是
做增廣樣本為
這里 α1>0。 再用 K-mean 法將
分成 m1個(gè)聚類
這樣得到 m1個(gè)樣本聚類
把每個(gè)聚類的均值作為聚類中心,即
于是網(wǎng)絡(luò)第一層表達(dá)式為
這里
表示權(quán)重,使用最小二乘法計(jì)算,使下列擬合殘差平方和
聚類時(shí),我們采用了增廣樣本。這樣得到的聚類
其中包含我們期望輸出的信息,可以得到采用增廣樣本的徑向基函數(shù)網(wǎng)絡(luò)的精度高很多。 α1的取值不同,得到的聚類不同,網(wǎng)絡(luò)的精度也不同,所以 α1也是一個(gè)需要優(yōu)化的參數(shù)。
構(gòu)建第二層的輸出網(wǎng)絡(luò)。首先計(jì)算第一層網(wǎng)絡(luò)的擬合誤差
然后把輸入樣本與前一層的誤差項(xiàng)組合在一起,得到增廣樣本
這里 α2>1。
然后再用 K-mean 法將
分成 m2個(gè)聚類
再 令 寬 度 系 數(shù) 為 d1, 其 中為 聚 類的 樣 本 方差,而 d2是有待優(yōu)化的參數(shù)。
于是第二層網(wǎng)絡(luò)的輸出函數(shù)為
各個(gè)聚類的中心為
這樣得到了 m2個(gè)新的樣本聚類
可以得到第二層網(wǎng)絡(luò)的加權(quán)系數(shù)的值。 若取 λ=0,則 W2為普通最小二乘法;若取 λ>0,則 W2為正則最小二乘法。
這樣得到了一個(gè)更精確的模型
需要說明的是,在增廣樣本
受到擬合殘差的影響就小,所得到的函數(shù) f2(X)對殘差的抵消作用就小。 α2也是要優(yōu)化的。
循環(huán)往復(fù)計(jì)算每一層網(wǎng)絡(luò),把每一層網(wǎng)絡(luò)相加,最后可以構(gòu)建一個(gè)高精度的徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)。
1.2 復(fù)合多層 RBF 網(wǎng)絡(luò)構(gòu)建原理
在上述聚類算法中,函數(shù)在每一個(gè)聚類上的值用一個(gè)徑向基函數(shù)來逼近。這樣網(wǎng)絡(luò)的逼近精度是有局限的。 于是,做出改進(jìn),將一個(gè)聚類中的每個(gè)樣本都看成一個(gè)徑向基函數(shù)的中心,一個(gè)樣本對應(yīng)一個(gè)徑向基函數(shù)。對每個(gè)聚類,我們構(gòu)建一個(gè)子 RBF 網(wǎng)絡(luò),每個(gè)徑向基函數(shù)的中心就是這個(gè)聚類中樣本。
設(shè) Ck是一個(gè)聚類,Ck中的樣本記為
于是這個(gè)子 RBF網(wǎng)絡(luò)為
其中
記權(quán)重向量為
定義殘差平方和
若 λk>0,則得正則最小二乘解
若令 λk=0,采用廣義逆矩陣法,得最小二乘解
其中
子網(wǎng)絡(luò)的 GCV 計(jì)算公式如下:
其中,
子網(wǎng)絡(luò)的參數(shù) dk和 ap的優(yōu)化是使 GCV 最小。
再把得到的所有這些子網(wǎng)絡(luò)整合起來。設(shè)共有K個(gè)子網(wǎng)絡(luò),整個(gè)網(wǎng)絡(luò)就是輸出的加權(quán)和
當(dāng) X取遍所有的樣本時(shí),得到
令
于是就得到了 的最小二乘解,
這樣整個(gè)網(wǎng)絡(luò)構(gòu)建完畢。
文中選取的輸入變量包括 10 項(xiàng), 用 xi表示;輸出變量 1 項(xiàng),用 y 表示。 具體如表 1。
文中采用某商業(yè)銀行的個(gè)人貸款數(shù)據(jù)。為保證數(shù)據(jù)的普遍性進(jìn)行再選擇,目的是調(diào)整 y=0 和 y=1的數(shù)據(jù)選擇比例。由于整體樣本數(shù)據(jù)數(shù)量大,數(shù)據(jù)結(jié)構(gòu)比較多樣,差異比較大,因此采取分層抽樣的方法,先依照是否給予貸款將整體分成為兩份,然后從每一組中隨機(jī)抽取 400 個(gè)樣本, 從而使兩者之比近似為 1∶1。 最終得到 850 個(gè)數(shù)據(jù),其中訓(xùn)練學(xué)習(xí)數(shù)據(jù)包括 420 個(gè)樣本;其余 430 個(gè)樣本構(gòu)成檢驗(yàn)數(shù)據(jù),用于單一模型的訓(xùn)練學(xué)習(xí)和檢驗(yàn)。最后用單一模型的結(jié)果計(jì)算作為組合模型的輸入變量。
表1 輸入變量和輸出變量
3.1 多元線性規(guī)劃模型
建立因變量y 對自變量 xi的線性回歸模型方程為:
在建立理論回歸模型方程后,利用已有的訓(xùn)練數(shù)據(jù),使用 Stata 軟件進(jìn)行計(jì)算。 在本文中,采用顯著性逐級檢驗(yàn)分析進(jìn)行多元線性回歸分析,結(jié)果自變量x1,x3,x6,x9通過了顯著性檢驗(yàn),得到的回歸方程為:
從上述模型可以看出,能否獲得貸款y與模型中自變量 x1,x3,x6,x9聯(lián)系相對較大。 并且通過方程可以看出與自變量 x3,x9為正線性相關(guān)的關(guān)系;與x1,x6,為負(fù)線性相關(guān)的關(guān)系。 通過 Stata 統(tǒng)計(jì)軟件中的 z檢驗(yàn)和 t檢驗(yàn)對方程的系數(shù)和方程整體的顯著性進(jìn)行檢驗(yàn),結(jié)果均顯著成立,表明方程建立成功。
3.2 Logistic 回歸模型
建 立因變 量 y 對自 變量 xi的 logistic 回歸模型方程為:
從模型可以看出:貸款能否取得y也是與模型中的自變量 x1,x3,x6,x9聯(lián)系相對較大。 該模型的樣本決定系數(shù) R2為 0.82,取得了很好的擬合效果。
3.3 復(fù)合多層 RBF 網(wǎng)絡(luò)組合模型
組合模型的基本原理如下:
yt(t=1,2, … ,n) 表 示 實(shí) 際 觀 察 值 ;yit(i=1,2, … ,m;t=1,2,… n)表 示 第 i 種 方 法 的 預(yù) 測 值 ;則 eit=yt-yit(i=1,2,…m;t=1,2,…n)表示第 i種預(yù)測方法對第 t個(gè)數(shù)據(jù)進(jìn)行預(yù)測時(shí)的誤差。
若用m種方法進(jìn)行組合預(yù)測,設(shè)各預(yù)測方法的系數(shù)分別為 k1,k2,…,km,km,滿足
本文中把誤差平方和 RSS 最小作為評定組合預(yù)測模型最優(yōu)的標(biāo)準(zhǔn),既求 k1,k2,…,km-1,km,使取得最小值。 其中均方根誤差 RMSE,平均絕對誤差MAE也在本文中列出作為比較。 根據(jù)多元函數(shù)求極值的方法,用 Q 分別對(i=1,2,…,m)求導(dǎo),求 得駐點(diǎn)(使取得極小值的點(diǎn))。 再加上限制方程 k1+ k2+…+km-1,km=1。 就可解得的 k1,k2,…,km-1,km。
本文選定神經(jīng)網(wǎng)絡(luò)核函數(shù)第一層個(gè)數(shù)為 40,以后各層為 120 個(gè)。 在訓(xùn)練的過程中依據(jù)網(wǎng)絡(luò)層數(shù)從少到多的變化,觀察誤差的變化,學(xué)習(xí)速率會很明顯的優(yōu)于單層徑向基函數(shù)網(wǎng)絡(luò)。 在復(fù)合多層 RBF 網(wǎng)絡(luò)設(shè)計(jì)的過程中,關(guān)鍵是增加網(wǎng)絡(luò)層數(shù)。隨著徑向基函數(shù)網(wǎng)絡(luò)層數(shù)的不斷增加,每一層網(wǎng)絡(luò)對前一層網(wǎng)絡(luò)的誤差進(jìn)行擬合,這樣使得神經(jīng)網(wǎng)絡(luò)的誤差降到一定的程度,最終使得多元實(shí)函數(shù)和 Logstic 模型組合預(yù)測的步長和精度大大提高。 當(dāng)預(yù)測步長達(dá)到 32時(shí),預(yù)測誤差超過控制線 0.03。 本文訓(xùn)練的誤差變化情況如圖1。
圖1 復(fù)合多層 RBF神經(jīng)網(wǎng)絡(luò)訓(xùn)練誤差曲線
表2 復(fù)合多層 RBF網(wǎng)絡(luò)每一層的訓(xùn)練誤差
表3 復(fù)合多層 RBF網(wǎng)絡(luò)的預(yù)測結(jié)果
由表2和表3可知,復(fù)合多層徑向基函數(shù)網(wǎng)絡(luò)的訓(xùn)練層數(shù)達(dá)到 7 層,訓(xùn)練誤差達(dá)到 8.1944e-13,預(yù)測誤差達(dá)到 7.8981e-14,實(shí)現(xiàn)了訓(xùn)練的目的。
通過構(gòu)建的復(fù)合多層徑向基函數(shù)網(wǎng)絡(luò),對預(yù)測精度的比較,來評價(jià)所構(gòu)建的3個(gè)個(gè)人信用評估模型。 為了保持?jǐn)?shù)據(jù)的一致性,本文選擇 3個(gè)模型中均使用的后 430 個(gè),模型的預(yù)測結(jié)果作為評定的基礎(chǔ)。需要說明的是前2種方法在判定貸款者的類型的時(shí)候,是以 0.5 作為臨界值的,即將預(yù)測值大于等于 0.5稱為信用好,反之則認(rèn)為信用不好。比較結(jié)果見表 4。
表4 3種個(gè)人信用評估方法的預(yù)測精度的比較
由表4可以看出,基于復(fù)合多層徑向基函數(shù)網(wǎng)絡(luò)的多元線性回歸和 Logistic 回歸的組合預(yù)測模型,預(yù)測準(zhǔn)確率遠(yuǎn)比2個(gè)單一模型的準(zhǔn)確率高很多。在實(shí)際操作過程中,要盡量避免將無法按期償還貸款者當(dāng)成能夠按期償還貸款者發(fā)放貸款,這樣會導(dǎo)致壞賬的形成。復(fù)合多層徑向基函數(shù)網(wǎng)絡(luò)組合預(yù)測模型將犯此錯(cuò)誤的概率由多元線性回歸模型的 7.2%和 Logistic 回歸模型的 6.7%和單層徑向基函數(shù)網(wǎng)絡(luò)組合模型的 6.2%,降低到 4.3%。 這在實(shí)際操作過程中規(guī)避信用風(fēng)險(xiǎn)具有更大的實(shí)際意義。
上述結(jié)果足以表明,復(fù)合多層徑向基函數(shù)網(wǎng)絡(luò)組合預(yù)測模型,更加優(yōu)于多元線性回歸和 Logistic 回歸模型,組合預(yù)測可以作為個(gè)人信用評估的可供選擇的更為精確的方法。
[1]石慶焱,靳云匯.多種個(gè)人信用評分模型在中國應(yīng)用的比較研究[J].統(tǒng)計(jì)研究,2004,20(6):43-47.
[2]Moody J,Darken C.Fast learning in networks of locallytuned processing units.Neural Computation[J].1989,16(1): 281-294.
[3]Chen S,Cowan CFN.and Grant PM.Orthogonal least squares learning algorithm for radial basis function networks[J].IEEE Transactions on Neural Networks,1991,2(2):302-309.
[4]Chen S,Cheng ES,Ai Kadhimi,K.Regularized least squares learning algorithm for constructing radial basis function networks [J].International Journal of Control,1996,64 (5):829-837.
[5]Guang-bin H,Saratchandran P,Sundararajan N.A generalized growing and pruning RBF (GGAP-RBF)neural network for function approximation [J].IEEE Transactionson Neural Network,2005,16(1):57-67.
[6]Broomhead DS,Lowe D.Multi-variable functional interpolation and adaptive networks.[J].Complex System,1988,2(2): 321-335.
[7]王凌,鄭大鐘.徑向基 函數(shù)神經(jīng)網(wǎng) 絡(luò) 結(jié) 構(gòu) 的 混 合 優(yōu) 化 策 略[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,1999,39(7):50-53.
[8]陳政,楊天奇.基于 RBF 神經(jīng)網(wǎng)絡(luò)的股票市場預(yù) 測[J].計(jì)算 機(jī)應(yīng)用與軟件,2010,27(6):108-110.
[9]王春峰,萬海暉,張維.組合預(yù)測在商業(yè)銀行信用風(fēng)險(xiǎn)評估中的應(yīng)用[J].管理工程學(xué)報(bào),1999,13(1):5-10.
責(zé)任編輯:胡德明
Research on Composite Prediction Based on Composite Multilayer RBF Neural Network——Taking Rural Credit in Commercial Banks As an Example
Sheng Guomin1,Zhuang Jian2
(1.Tianchang Branch,Agricultural Bank of China,Tianchang 239300,China; 2.School of Business,Anhui University of Technology,Ma'anshan 243032,China)
For solving the problem that the multiple linear regression and logistic regression are not highly accurate in prediction and with the idea of combination prediction,the prediction method of combining multivariate linear regression and logistic regression by developing and using composite multi-layer RBF neural network is proposed and applied to personal credit evaluation of commercial banks.The results show that the combination forecasting method can obtain higher prediction accuracy than single RBF network method and regression method.
multiple linear regression;logistic regression;compound multilayer RBF neural network; combination forecasting;personal credit evaluation
O241
:A
:1672-447X(2017)03-0014-05
2016-12-28
盛國敏(1989-),安徽天長人,中國農(nóng)業(yè)銀行安徽滁州天長市支行經(jīng)濟(jì)師,研究方向?yàn)闄C(jī)器學(xué)習(xí)及應(yīng)用;
莊?。?957-),上海人,安徽工業(yè)大學(xué)商學(xué)院博士研究員,研究方向?yàn)闄C(jī)器學(xué)習(xí)。