陳朝暉,胡玉芳
(福州大學管理學院,福建 福州 350002)
隨著我國金融領域開放程度的加深,銀行業(yè)所面臨的經(jīng)營環(huán)境更加不確定。設計適合我國實際情況的銀行風險預警模型,避免危機的爆發(fā)或降低危機的破壞性,具有重要的理論與現(xiàn)實意義。
自20世紀80年代開始,以統(tǒng)計學習理論為基礎的小樣本、非線性機器學習方法,即支持向量機(SVM)越來越受到研究者的青睞。
國外對SVM的預測效果進行了大量的研究。SHIN等[1]采用SVM方法對公司破產(chǎn)風險進行預測,并將其與BP神經(jīng)網(wǎng)絡方法進行比較,結果顯示:當訓練樣本比較小時,SVM的預測精度和總體效率都比 BP神經(jīng)網(wǎng)絡高。CHEN等[2]采用SVMs、BP神經(jīng)網(wǎng)絡及Logit回歸方法構建了銀行風險預警模型,結果顯示SVMs模型的預測效果和準確率遠遠高于其他兩個模型。BOYACIOGLU等[3]以土耳其被儲蓄存款保險基金接管的銀行為樣本,對神經(jīng)網(wǎng)絡、支持向量機和多元統(tǒng)計預警模型進行了比較分析,結果顯示,SVMs具有較好的預警效果,預測準確率達到90.9%。
國內(nèi)對SVM的應用主要體現(xiàn)在對銀行信貸風險的識別與分類上。余晨曦等[4]將支持向量機的非線性分類器應用到貸款違約的判別中,構建了基于支持向量機的我國商業(yè)銀行信用風險度量模型,并將結果與多元線性判別分析的結果進行了對比。結果顯示,支持向量機在對貸款違約的判別中有很好的判別效果。吳沖等[5]建立基于模糊積分的支持向量機集成方法對商業(yè)銀行信用風險進行了五級分類,評估結果表明,該評價方法具有科學、簡潔、預測精度高等特點,且模型的結構與方法應用前景廣闊。類似的研究還有汪曉玲[6]、成洪靜[7]等。以上SVM 方法下的風險識別大多只針對銀行的單項風險,而在銀行綜合風險研究中的應用較少,筆者將采用SVM方法來構建我國商業(yè)銀行綜合風險預警模型。
對于兩類模型識別問題,學習的目的是構造一個決策函數(shù)(分類線或分類面),使訓練樣本中的正、負兩類樣本分別位于該線或平面的兩側。然而,滿足條件的線性決策函數(shù)存在無數(shù)條劃分直線,如圖1所示。
基于此,VAPNIK提出了間隔最大化原則。如圖2所示,H為最優(yōu)分類線,H1、H2分別是由樣本中離最優(yōu)分類線最近的樣本(支持向量)所決定且平行于最優(yōu)分類線的直線,二者之間的距離即為分類間隔,H與H1、H2的距離等于1/2分類間隔。間隔最大化原則是指尋求使分類間隔達到最大的最優(yōu)分類線(面)。
SVM是從線性可分情況下的最優(yōu)分類面發(fā)展而來的。設二類線性可分樣本集(Xi,yi),X∈Rd,i=1,2,…,n,yi∈{1,-1}的決策函數(shù)為:
圖1 決策函數(shù)存在無數(shù)條劃分直線
圖2 間隔最大化原則圖
對判別函數(shù)f(X)=(WXi)+b進行歸一化,使所有樣本都滿足即離最優(yōu)分類面最近的樣本其中,H1:WXi+b=1,H2:WXi+b=-1,(WXi)+b=0為最優(yōu)劃分超平面的方程。由此,兩類樣本的分類間隔為2/‖W‖。依據(jù)VAPNIK的間隔最大化原則,可以把問題歸結為求解如下二次凸規(guī)劃問題:
根據(jù)KKT約束條件αiyi(WXi)+b-1=0,將上述問題轉化為對偶規(guī)劃問題,可以解出最優(yōu)解α*及對應的w*和b*,進而求得最優(yōu)超平面決策函數(shù):
對于線性不可分的函數(shù)集,可以通過引入松弛變量ξi(≥0)加以修正。ξi為樣本Xi偏離所屬類別邊界的距離,該值越大偏差也就越大;C為懲罰系數(shù),表示對錯分的懲罰力度。類似地,可求如下凸規(guī)劃問題及相應的決策函數(shù):
對于非線性模式識別問題,SVM通過非線性映射把樣本空間映射到一個高維特征空間,使原來的非線性問題在特征空間中變?yōu)榫€性問題,從而在高維特征空間中用線性支持向量機解決樣本空間中的非線性分類問題。被積函數(shù)乘上一個二元函數(shù)再做積分,其結果為一個新的函數(shù):
其中,λi、ψi(x)分別為核 K(x,y)的特征值和特征向量。作原樣本空間X到特征空間F(由Mercer核的特征函數(shù)構成的函數(shù)集)的非線性映射φ為:
原線性可分函數(shù)中的 x和 xi用 φ(x)和φ(xi)替換,可在特征空間F中應用線性支持向量機求其最優(yōu)超平面決策函數(shù):
根據(jù)Mercer定理,可化簡為:
比較常見的Mercer核有多項式核函數(shù)K(x,xi)= [(xxi)+1]q、徑向基核函數(shù)及 Sigmoid核函數(shù),K(x,xi)=tan h[v(xTxi)+c]等。
SVM是一種性能優(yōu)良的二元分類器,但在實際問題中,多數(shù)待識別的模式是多類別的。對于多類劃分問題,可通過構建多個SVM分類器的方法將其轉化為多個二分類問題加以識別。主要的SVM多類劃分方法有一對多、一對一及有向無環(huán)圖,其中,一對一方法應用最為廣泛,且穩(wěn)定性和準確率較高,因此選用該方法來識別銀行風險類別?;舅悸肥?選取K類中的任意兩類樣本來訓練SVM子分類器,訓練產(chǎn)生K(K-1)/2個SVM子分類器;將所要分類的數(shù)據(jù)分別輸入這K(K-1)/2個子分類器中測試,并記錄其在各個分類器中被分入的類別;最后累積計算其被分入各類的次數(shù),累積次數(shù)最多的類別即為該數(shù)據(jù)所屬的類別。
從宏、微觀的角度選取指標構建商業(yè)銀行風險預警體系,各指標預警區(qū)間的劃分主要參照國際標準、我國監(jiān)管部門的相關規(guī)定,以及對已有專家、學者研究成果的整理。具體指標及相應閾值的確定如表1所示。
表1 我國商業(yè)銀行風險預警指標體系[8-9]
其中,管理效率指標采用數(shù)據(jù)包絡分析(data envelopment analysis,DEA)方法進行計算[10]。以固定資產(chǎn)、員工人數(shù)和存款總額作為投入變量,以利潤總額和貸款總額作為產(chǎn)出變量,將來自2001至2009年末上市銀行年度數(shù)據(jù),剔除缺失值后的樣本總量為81。其中,各樣本的宏觀指標數(shù)據(jù)主要摘自中國統(tǒng)計年鑒和中國金融統(tǒng)計年鑒,微觀數(shù)據(jù)來自上市銀行年度報表。這81個樣本的投入、產(chǎn)出指標用DEAP軟件計算出來的效率值分布情況如表2所示。
表2 我國商業(yè)銀行管理效率指標值分布情況
在樣本銀行效率值中,最大值為1.000,最小值為0.656,平均值為0.877。筆者以平均值作為區(qū)分銀行是否處于風險區(qū)間的閾值,效率值小于平均值的為風險銀行,效率值大于平均值、小于1.000的為基本安全銀行,而效率值等于1.000的為安全銀行。最后,所有樣本當中,12個樣本的管理效率指標值處于安全區(qū)間,31個處于基本安全區(qū)間,38個處于風險區(qū)間。
實際所選各指標與風險大小之間可能存在3種關系:指標值越大,風險越大;指標值越小,風險越大;指標值在某一區(qū)間內(nèi)銀行處于安全狀態(tài),而指標值越偏離這一區(qū)間,對應的風險越大。為了根據(jù)各銀行風險綜合得分的大小對銀行進行風險歸類,需要統(tǒng)一各指標與風險的變動方向,即指標值越大,風險越大。對各類指標的同趨化處理結果及處理后指標的預警閾值如表3所示。
此外,為了消除不同指標變量的量綱差異對實證結果可靠性的影響,先對數(shù)據(jù)進行歸一化處理,將各指標的取值范圍限定在[0,1]之間。歸一化處理采用的是最大最小值法。
將原樣本劃分為兩大類:以2009年前的樣本數(shù)據(jù)(67個)來構建SVM模型,同時,用所構建的SVM模型對2009年的銀行(14個)風險類別進行預測。首先需要運用主成分分析法計算2009年前樣本數(shù)據(jù)的風險綜合得分,據(jù)此劃分各年度各銀行所處的風險級別。Bartlett's檢驗的Sig.值顯著為0,拒絕了相關矩陣是單位陣的假設,即變量間具有較強的相關性;KMO統(tǒng)計量為0.523,表明這些變量間存在著一定程度的信息重疊,適合采用主成分分析法。
表3 商業(yè)銀行風險預警指標的同趨化處理結果
樣本的前7個主成分基本保持了原來15個變量的信息,累積方差貢獻率達到86.02%(大于85%),故提取這7個主成分為計算銀行風險綜合得分的基礎。求出7個主成分的因子得分F1、F2、F3、F4、F5、F6和 F7,并以旋轉后各因子的方差貢獻率占這7個因子方差貢獻率之和的比例為權重進行加權匯總計算銀行的綜合風險得分F。其中,由基本安全閾值與風險閾值構成的虛擬基本安全銀行與風險警戒銀行的風險綜合得分如表4所示。
當某綜合風險得分F≤基本安全值時,該銀行處于安全區(qū)間;當基本安全值<F≤警戒值時,處于基本安全區(qū)間;而當F>警戒值時,處于風險區(qū)間,依次將各銀行歸入安全、基本安全及風險3個區(qū)間。最終獲得5個安全樣本,42個基本安全樣本和20個風險樣本。
3.4.1 預降維處理
由于樣本容量僅為67,而每一個樣本為15維指標,這種小樣本、高維度數(shù)據(jù)會影響到學習機的識別準確率和運行效率。因此,在模型構建之前,應先對樣本數(shù)據(jù)進行降維預處理。在保證降維后的指標對原始指標具有至少90%解釋力的前提下實施降維,降維后的指標維度與其解釋力之間的關系如圖3所示。
表4 虛擬安全銀行與風險銀行綜合得分
圖3 降維后的指標維度與其解釋力的關系
由圖3可看出,僅需保留前7個維度指標就可達到對原15維指標90%以上的解釋力,SVM模型的輸入變量是各樣本的這7維指標值。
3.4.2 核函數(shù)的選擇及參數(shù)的優(yōu)化
核函數(shù)是實現(xiàn)SVM算法中將問題由輸入空間映射到高維空間的關鍵因素,不同核函數(shù)采用不同的支持向量機算法,其形式與參數(shù)決定了分類器的類型和復雜程度。由于RBF核函數(shù)中只有一個參數(shù)g是可調節(jié)的,模型的運算難度大為降低;同時,已有研究表明,RBF核函數(shù)在大多情況都優(yōu)于其他函數(shù),具有較強的通用性。因此,選用RBF作為SVM分類核函數(shù)。
在確定了核函數(shù)之后,需要確定SVM模型中的兩個重要參數(shù):懲罰因子C和RBF核函數(shù)參數(shù)g。所采用的參數(shù)優(yōu)化方法為K次交叉驗證法,其基本思路是:把訓練樣本集分成K份大小一樣的子集,取其中的一個子集為測試集,而將其余的K-1個子集合并作為訓練集,用該測試子集去檢驗訓練集上訓練分類器的精度;如此依次循環(huán),直至每一個子集都被測試一次,訓練和測試分別進行K次;同時,設定參數(shù)C與g的變化范圍和每次變化的步徑大小,對每組變化的(C,g)分別完成如上的K次循環(huán);最后,選取交叉驗證準確率最高的分類器所對應的(C,g)作為最優(yōu)的參數(shù)值。
尋優(yōu)的結果顯示:交叉驗證準確率最高為84.905 7%,所對應的最小 C值為138,g值為0.088 4,它們即為所構建SVM模型的參數(shù)值。
3.4.3 模型檢驗及預測結果分析
選定了核函數(shù)和模型參數(shù)后,根據(jù)相應的具體參數(shù)采用“一對一”方法來構建SVM銀行風險預警模型,并對其準確率進行驗證。模型訓練結果顯示:在14個預測樣本中,有13個都得到了正確的歸類,預測精確率達到92.86%。以上是對2009年前的樣本進行一次隨機抽樣得到的訓練樣本和測試樣本的實證結果,為了克服隨機性對SVM模型的影響,對原樣本進行了多次隨機抽樣,構建多個基于不同隨機訓練樣本與測試樣本的SVM模型,觀察其測試準確率是否有較大差異?;?0次隨機抽樣的SVM預測準確度分別為:92.86%、78.57%、92.86%、84.62%、92.86%、92.86%、84.62%、84.62%、84.62%、83.33%?;?0次隨機抽樣所構建的SVM模型對測試樣本的分類預測準確度的均值為87.18%。由此可見,采用SVM構建的模型對于非線性關系和小樣本模型具有較高的預測準確度,在銀行風險預警中具有較好的預警效果。因此,接下來以2009年前的所有樣本來訓練、構建銀行風險預警模型,并用該模型對2009年綜合風險狀況未知的14家上市銀行的風險狀況作出預測,預測結果如表5所示。
表5 采用SVM構建的模型對2009年14家上市銀行風險預測表
筆者采用SVM方法構建了我國商業(yè)銀行綜合風險預警模型,預警結果顯示,2009年我國銀行業(yè)總體風險狀況并不樂觀,在14家上市銀行中有8家處于風險區(qū)域,6家基本安全,而沒有一家是完全安全的。除宏觀因素外,銀行的盈利能力、風險管理水平等也是評判其綜合風險大小的基礎,各風險指標與綜合風險間的關系是非線性的,并不能直接看出它們貢獻的大小,但對照各預測樣本的指標值與風險分類結果可以大致看出,模型的預測結果對識別銀行風險狀況具有一定的參考價值。
[1] SHIN K S,LEE T S,KIM H.An application of support vectormachines in bankruptcy prediction model[J].Expert Systems with Applications,2005(28):127 -135.
[2] CHEN W H,SHIH J Y.Astudy of Taiwan's issuer credit rationg systems using support vector machines[J].Expert Systems with Applications,2006(30):427 -435.
[3] BOYACIOGLU M A,KARA Y.Predicting bank financial failures using neural networks,support vector machines and multivariate statistical methods:a comparative analysis in the sample of savings deposit insurance fund transferred banks in Turkey[J].Expert Systems with Applications,2009(36):3355 -3366.
[4] 余晨曦,梁瀟.基于支持向量機的商業(yè)銀行信用風險度量模型[J].計算機與數(shù)字工程,2008,36(11):10 -14.
[5] 吳沖,夏晗.基于五級分類支持向量機集成的商業(yè)銀行信用風險評估模型研究[J].預測,2009,28(4):57-61.
[6] 汪曉玲.基于SVM的銀行客戶個人信用評估研究[D].西安:西北工業(yè)大學圖書館,2007.
[7] 成洪靜.基于SVM的銀行信貸風險評估模型研究[D].太原:太原科技大學圖書館,2008.
[8] 王嵐.開放條件下商業(yè)銀行風險預警指標體系[D].鄭州:河南大學圖書館,2009.
[9] 孫小琰,沈悅,亓莉.開放條件下我國銀行安全預警指標體系研究[J].管理世界,2007(9):150-151.
[10] 包艷霞.我國上市商業(yè)銀行X效率的實證分析[D].重慶:西南大學圖書館,2009.