国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

互聯(lián)網(wǎng)金融個(gè)人信用風(fēng)險(xiǎn)評(píng)估的指標(biāo)選擇方法

2019-12-30 01:43曾鳴謝佳
時(shí)代金融 2019年33期
關(guān)鍵詞:主成分分析法信用風(fēng)險(xiǎn)互聯(lián)網(wǎng)金融

曾鳴 謝佳

摘要:完善的個(gè)人信用風(fēng)險(xiǎn)評(píng)估體系是降低信用風(fēng)險(xiǎn)的決定性因素,而風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)的構(gòu)建是信用評(píng)估的基礎(chǔ)。本文選取Prosper.com網(wǎng)貸平臺(tái)2005年至2014年間部分信貸數(shù)據(jù)進(jìn)行實(shí)證,研究了主成分分析法(PCA)在篩選信用評(píng)估指標(biāo)上的應(yīng)用,在此基礎(chǔ)上結(jié)合支持向量機(jī)(SUM)技術(shù),建立評(píng)估模型進(jìn)行驗(yàn)證。結(jié)果表明,采用主成分分析法可以有效地剔除無關(guān)變量和冗余變量,提高互聯(lián)網(wǎng)金融個(gè)人信用評(píng)估的預(yù)測(cè)精度。

關(guān)鍵詞:互聯(lián)網(wǎng)金融? 信用風(fēng)險(xiǎn)? 個(gè)人信用評(píng)估? 主成分分析法

一、引言

隨著國(guó)民信用消費(fèi)需求的不斷上升,互聯(lián)網(wǎng)技術(shù)的不斷更新,互聯(lián)網(wǎng)金融行業(yè)得到了飛速的發(fā)展。互聯(lián)網(wǎng)金融行業(yè)在模式不斷豐富、規(guī)模不斷擴(kuò)大的同時(shí),也面臨著諸多亟待解決的問題。由于在客戶群體的選擇和產(chǎn)品類型的定位上與傳統(tǒng)商業(yè)銀行存在巨大差異,同時(shí)缺乏有效的客戶信用評(píng)估體系,互聯(lián)網(wǎng)金融平臺(tái)面臨比傳統(tǒng)銀行更高的交易對(duì)手違約風(fēng)險(xiǎn),這一現(xiàn)象嚴(yán)重阻礙了互聯(lián)網(wǎng)金融個(gè)人信貸業(yè)務(wù)的發(fā)展。

如今產(chǎn)生個(gè)人信用數(shù)據(jù)的各類電商平臺(tái)、社交平臺(tái)的數(shù)量不斷增加,信用數(shù)據(jù)的規(guī)模呈現(xiàn)爆炸式增長(zhǎng),不同于標(biāo)準(zhǔn)的經(jīng)過財(cái)務(wù)核實(shí)的銀行數(shù)據(jù),互聯(lián)網(wǎng)的信用數(shù)據(jù)是非標(biāo)準(zhǔn)化的,個(gè)人信用風(fēng)險(xiǎn)也呈現(xiàn)出不同的特點(diǎn),信息不對(duì)稱現(xiàn)象更加明顯。個(gè)人信用風(fēng)險(xiǎn)的評(píng)估大致經(jīng)過數(shù)據(jù)清洗、輸入變量的生成和建模進(jìn)行風(fēng)險(xiǎn)評(píng)估這樣幾個(gè)階段,無論是傳統(tǒng)的信用風(fēng)險(xiǎn)評(píng)估還是基于互聯(lián)網(wǎng)大數(shù)據(jù)的信用風(fēng)險(xiǎn)評(píng)估,輸入變量的質(zhì)量都會(huì)直接影響風(fēng)險(xiǎn)評(píng)估模型的預(yù)測(cè)效果。由于傳統(tǒng)信貸和互聯(lián)網(wǎng)金融的數(shù)據(jù)特征不同,互聯(lián)網(wǎng)金融的數(shù)據(jù)覆蓋維度廣且數(shù)據(jù)較為稀疏,單項(xiàng)數(shù)據(jù)的信用評(píng)估價(jià)值密度較低,單變量的風(fēng)險(xiǎn)區(qū)分能力較弱[1],因而基于大數(shù)據(jù)的信用評(píng)估指標(biāo)也會(huì)有所不同。對(duì)輸入的評(píng)估指標(biāo)進(jìn)行有效篩選,可以減少模型訓(xùn)練時(shí)間和數(shù)據(jù)搜集成本,提高模型預(yù)測(cè)精度,構(gòu)建有效的互聯(lián)網(wǎng)金融信用風(fēng)險(xiǎn)評(píng)估體系。

二、互聯(lián)網(wǎng)金融平臺(tái)信用風(fēng)險(xiǎn)評(píng)估指標(biāo)體系的現(xiàn)狀

大部分互聯(lián)網(wǎng)金融平臺(tái)的大數(shù)據(jù)應(yīng)用得并不成熟,借款人的電商購(gòu)買記錄,社交網(wǎng)絡(luò)信息等數(shù)據(jù)來源的匱乏,會(huì)給互聯(lián)網(wǎng)金融平臺(tái)的信用評(píng)價(jià)帶來嚴(yán)重的滯后和誤判。很少有平臺(tái)在信用風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)中完全涵蓋了借款人的職業(yè)信息、電商數(shù)據(jù)、線下行為數(shù)據(jù)、征信數(shù)據(jù)等指標(biāo)。

國(guó)內(nèi)的互聯(lián)網(wǎng)金融平臺(tái)指標(biāo)體系的設(shè)計(jì)主要參考了國(guó)外平臺(tái)的信用評(píng)估指標(biāo)體系,如FICO評(píng)分模型和Prosper指標(biāo)體系,評(píng)估大類基本一致,主要分為用戶的基本信息、工作信息、歷史交易信息、償還貸款能力信息、借款信息等。在一級(jí)指標(biāo)上主要繼承傳統(tǒng)商業(yè)銀行和國(guó)外網(wǎng)貸平臺(tái)的指標(biāo)體系,但在二級(jí)指標(biāo)如所在城市類型、工作年限、房產(chǎn)情況、社交媒體活躍度、社交關(guān)系密度等方面,側(cè)重點(diǎn)各不相同。

國(guó)外互聯(lián)網(wǎng)金融平臺(tái)的信用評(píng)估指標(biāo)體系則不局限于借款人的基本信息和歷史借貸信息,普遍比國(guó)內(nèi)研究者更關(guān)注借款人與借貸平臺(tái)直接相關(guān)的借款信息:如在該借貸平臺(tái)的貸款金額、所獲貸款年利率、還款期限以及逾期金額等指標(biāo)。在個(gè)人基本信息方面,對(duì)性別、婚姻狀況、學(xué)歷和工作行業(yè)的關(guān)注不高,相對(duì)更關(guān)注工資范圍、是否有房、居住地、年齡、職業(yè)、照片等。對(duì)項(xiàng)目投資人數(shù)、社交媒體文本描述狀況、平臺(tái)注冊(cè)時(shí)長(zhǎng)等關(guān)注度較低。

三、個(gè)人信用風(fēng)險(xiǎn)評(píng)估指標(biāo)的PCA篩選方法

由于互聯(lián)網(wǎng)金融信用風(fēng)險(xiǎn)涉及的指標(biāo)眾多,部分指標(biāo)之間呈現(xiàn)出較高的關(guān)聯(lián)性,容易引起數(shù)據(jù)冗余問題,影響評(píng)估效果,因此需要對(duì)評(píng)估指標(biāo)進(jìn)行降維處理。本文采用主成分分析法對(duì)評(píng)估模型的指標(biāo)進(jìn)行降維篩選。

主成分分析法通過觀察原指標(biāo)集合之間的內(nèi)容結(jié)構(gòu)關(guān)系,將原本相互之間具有一定相關(guān)性的眾多指標(biāo)重新組合成一個(gè)新的、互不相關(guān)的指標(biāo)集合。對(duì)于一個(gè)特征矩陣來說,通過將其對(duì)角化產(chǎn)生特征根及特征向量,將其在標(biāo)準(zhǔn)正交基上投影,該特征向量方向上的投影長(zhǎng)度就對(duì)應(yīng)到其特征值,特征數(shù)值越大說明對(duì)應(yīng)的特征向量所攜帶原有數(shù)據(jù)的信息越多,通常在特征篩選過程中,選擇特征值累計(jì)貢獻(xiàn)率85%的指標(biāo)就能滿足大多數(shù)研究的需求。主成分分析法的優(yōu)點(diǎn)在于得到的新的綜合指標(biāo)之間相互獨(dú)立,減少數(shù)據(jù)冗余,且權(quán)數(shù)的計(jì)算基于數(shù)據(jù)分析得到的指標(biāo)內(nèi)部結(jié)構(gòu)關(guān)系,不受主觀因素干擾。

四、數(shù)據(jù)選取及實(shí)證分析

文中數(shù)據(jù)來自Prosper Loan Data數(shù)據(jù)集,使用MARLAB軟件進(jìn)行實(shí)驗(yàn),首先對(duì)所獲得數(shù)據(jù)進(jìn)行預(yù)處理,然后利用主成分分析方法篩選數(shù)據(jù)指標(biāo),確定最終輸入模型的變量,最后采用粒子群算法優(yōu)化的支持向量機(jī)模型(PSO-SVM)進(jìn)行驗(yàn)證。

(一)數(shù)據(jù)預(yù)處理

1.數(shù)據(jù)清洗。本文采集美國(guó)Prosper.com平臺(tái)2005年至2014年間部分信貸數(shù)據(jù),數(shù)據(jù)集包含11萬余條原始記錄,首先對(duì)數(shù)據(jù)進(jìn)行清洗,一是無意義字段的舍棄,如原始數(shù)據(jù)中部分管理識(shí)別符號(hào)的變量,以及關(guān)于貸款申請(qǐng)、批準(zhǔn)日期、規(guī)定的還款日期等對(duì)于本次研究沒有任何意義的字段。二是缺失數(shù)據(jù)的處理,對(duì)缺失值達(dá)到一半以上、嚴(yán)重影響了數(shù)據(jù)真實(shí)性的字段進(jìn)行了直接剔除。對(duì)于缺失率較小的數(shù)據(jù)進(jìn)行補(bǔ)齊,連續(xù)型數(shù)據(jù)用中位數(shù)補(bǔ)齊,對(duì)離散型數(shù)值變量使用眾數(shù)補(bǔ)齊。三是噪聲數(shù)據(jù)的處理,為對(duì)整個(gè)數(shù)據(jù)表進(jìn)行了遍歷,通過將數(shù)據(jù)值與標(biāo)準(zhǔn)數(shù)據(jù)的對(duì)比,找出噪聲數(shù)據(jù),并用眾數(shù)對(duì)其進(jìn)行替換。

在對(duì)原始數(shù)據(jù)集進(jìn)行以上一系列操作后,數(shù)據(jù)集剩余指標(biāo)51個(gè),其中輸入變量指標(biāo)50個(gè),輸出變量指標(biāo)1個(gè)。如表1所示:

2.數(shù)據(jù)賦值。一是對(duì)輸入變量的賦值:

借款人信息特征中包含定量信息和定性信息,對(duì)定性信息需要在數(shù)據(jù)準(zhǔn)備過程中做離散化處理。對(duì)定性數(shù)據(jù)分別取0和1。

二是對(duì)輸出變量的賦值:

在Prosper數(shù)據(jù)集中,借款人的借款狀態(tài)共有12種,為實(shí)現(xiàn)SVM二分類效果,實(shí)驗(yàn)前需要將輸出變量轉(zhuǎn)化為1或-1的狀態(tài)。由于無法判斷處于“Current(正常還款中)”狀態(tài)的貸款最終會(huì)不會(huì)違約,所以在研究時(shí),將狀態(tài)為Current的樣本進(jìn)行了刪除;同理,“Cancelled(交易取消)” 的數(shù)據(jù)也進(jìn)行刪除。

從風(fēng)險(xiǎn)發(fā)生的可能性出發(fā),筆者把剩余10類數(shù)據(jù)歸為兩個(gè)大類:第一大類“good”(只包含Completed、Final_Payment_In_Progress兩種數(shù)據(jù));第二大類“bad”(包含Defaulted、Chargedoff和所有的Past Due,共8種數(shù)據(jù))。將“good”和“bad”兩個(gè)類的數(shù)據(jù)分別編碼為1和-1。

3.數(shù)據(jù)標(biāo)準(zhǔn)化。由于數(shù)據(jù)集各個(gè)特征值的區(qū)間范圍和數(shù)據(jù)綱量不同,為了避免因數(shù)據(jù)差異過大對(duì)預(yù)測(cè)結(jié)果產(chǎn)生干擾,影響模型性能,本文選擇將數(shù)據(jù)歸一到[0,1],采用的歸一化公式如下式:

(1)

其中,X'∈[0,1]表示數(shù)據(jù)歸一化后的結(jié)果,X表示數(shù)據(jù)原始值,和分別表示X所在數(shù)據(jù)列中的最小值和最大值。

4.數(shù)據(jù)縮減。經(jīng)過上述一系列處理后,原數(shù)據(jù)集還剩下共43878條數(shù)據(jù),其中守約樣本39730條,違約樣本4148條,守約樣本與違約樣本比例為9.58 :1。本文按照與原始數(shù)據(jù)結(jié)構(gòu)分布接近的9:1選取比例進(jìn)行分層隨機(jī)抽樣,得到包含5000條樣本的實(shí)證數(shù)據(jù)集,其中包括4500條守約樣本和500條違約樣本。

(二) 基于主成分分析的指標(biāo)篩選

在經(jīng)過清洗后個(gè)人信用指標(biāo)仍然還有50個(gè),較多的特征數(shù)雖然注重了指標(biāo)的多樣化,但冗余指標(biāo)會(huì)直接影響模型的評(píng)估效率和分類效果。因此使用主成分分析(Principal Component Analysis,PCA)方法進(jìn)行指標(biāo)篩選,一般情況下,在選擇主成分時(shí)只需要所選擇的主成分滿足累加方差貢獻(xiàn)值達(dá)到85%即可。

首先,將獲得的新數(shù)據(jù)集中的所有數(shù)據(jù)特征匯總到一個(gè)1000*50維的特征矩陣?yán)铮⑼ㄟ^對(duì)這個(gè)特征矩陣進(jìn)行計(jì)算得到一個(gè)50*50的特征相關(guān)矩陣:

R=? ?(2)

其中rij代表各個(gè)特征之間的相關(guān)系數(shù),計(jì)算公式如下式:

(3)

在得到相關(guān)系數(shù)矩陣后,在MATLAB中調(diào)用pcacov函數(shù)根據(jù)相關(guān)系數(shù)做主成分分析矩陣,計(jì)算出相關(guān)系數(shù)矩陣的特征值向量和主成分貢獻(xiàn)率,最后將這些特征值向量和主成分貢獻(xiàn)值降序排列,計(jì)算得到主成分的累計(jì)貢獻(xiàn)值,得到的主成分提取結(jié)果如表2所示。

經(jīng)過篩選,前21個(gè)變量累計(jì)方差貢獻(xiàn)率已經(jīng)超過了85%,對(duì)已得到的主成分列表進(jìn)行反歸一,由此得到經(jīng)過主成分分析后被提取出的輸入變量特征,最終確定的21個(gè)變量如表3:

(三)PSO-SVM建模分析

為了驗(yàn)證本文提出的篩選方法的有效性,采用PSO算法對(duì)SVM進(jìn)行優(yōu)化,建立PSO-SVM模型進(jìn)行驗(yàn)證。PSO-SVM模型選擇已被證明具有較強(qiáng)的非線性映射能力的RBF核函數(shù),在參數(shù)的優(yōu)化上,利用PSO對(duì)全局和個(gè)體的搜索能力來尋找最優(yōu)的C和σ。本文選用模型的整體分類精度以及第一類誤判率、第二類誤判率來對(duì)模型的分類效果進(jìn)行評(píng)價(jià)。

(四)實(shí)證結(jié)果

將處理后的Prosper數(shù)據(jù)按照7:3的比例劃分為包含3500樣本的訓(xùn)練數(shù)據(jù)和包含1500樣本的測(cè)試數(shù)據(jù)。其中,訓(xùn)練樣本中,守約客戶(類別標(biāo)簽為“1”)樣本3150條,違約客戶(類別標(biāo)簽為“-1”)樣本350條;測(cè)試樣本中,守約客戶樣本1350條,違約客戶樣本150條。

PSO-SVM模型對(duì)測(cè)試樣本分類結(jié)果如表5所示,測(cè)試樣本數(shù)據(jù)量為1500,預(yù)測(cè)正確的樣本有1394個(gè),將守約客戶判斷正確的準(zhǔn)確率為93.111%,將違約客戶判斷正確的準(zhǔn)確率為91.333%。模型分類準(zhǔn)確率結(jié)果匯總至表4。

評(píng)價(jià)指標(biāo) PSO-SVM

第一類誤判率 93/1350 (6.889%)

第二類誤判率 13/150 (8.667%)

總體分類精度 1394/1500 (92.933%)

從表4結(jié)果可見,采用主成分分析法篩選變量進(jìn)行模型測(cè)試,第一類誤判率6.889%;第二類誤判率8.667%;模型整體分類準(zhǔn)確率為92.933% (1394/1500) 。實(shí)驗(yàn)結(jié)果表明PCA能夠提高SVM模型的整體預(yù)測(cè)精度,對(duì)降低模型的第一類誤判率和第二類誤判率都具有較明顯的效果。

五、結(jié)論

在評(píng)估互聯(lián)網(wǎng)金融個(gè)人信用風(fēng)險(xiǎn)時(shí),評(píng)估指標(biāo)的選取和模型構(gòu)建應(yīng)當(dāng)考慮互聯(lián)網(wǎng)金融的數(shù)據(jù)來源和數(shù)據(jù)特征。主成分分析法對(duì)于減少數(shù)據(jù)冗余,降低數(shù)據(jù)維度,保留原有指標(biāo)內(nèi)部結(jié)構(gòu)關(guān)系方面具有明顯的優(yōu)點(diǎn),在互聯(lián)網(wǎng)金融信用風(fēng)險(xiǎn)評(píng)估的指標(biāo)選擇上具有較好的適用性。如果能有效地運(yùn)用定量的科學(xué)的方法從數(shù)據(jù)中選擇判別性好、冗余低的特征集,將為構(gòu)建合理有效的信用風(fēng)險(xiǎn)評(píng)估體系提供重要的依據(jù)。這也將是今后學(xué)者們不斷探索和深入研究的課題。

在前文的個(gè)人信用評(píng)估指標(biāo)變量的PCA提取結(jié)果中可以看到,Porsper的評(píng)價(jià)指標(biāo)中并沒有國(guó)內(nèi)金融機(jī)構(gòu)在進(jìn)行信用評(píng)估時(shí)普遍關(guān)注的一些指標(biāo),如性別、年齡、婚姻狀況、教育背景等人口描述性特征。比起個(gè)人基本情況,Porsper平臺(tái)更關(guān)注借款人的信用數(shù)據(jù),以及與平臺(tái)產(chǎn)品相關(guān)的信息包括產(chǎn)品類型、貸款利率、還款期限等。方差貢獻(xiàn)率排在前幾位的特征值是借款人在Prosper平臺(tái)的信用評(píng)分、過去7年的違約次數(shù)、信用等級(jí)、信用卡信用總額以及每月貸款支付等。而國(guó)內(nèi)金融機(jī)構(gòu)普遍較為關(guān)注上述人口描述性特征,特別是對(duì)借款人履約能力有較大關(guān)聯(lián)的家庭穩(wěn)定情況和工作具體情況。由此可見國(guó)內(nèi)外金融機(jī)構(gòu)在指標(biāo)選取時(shí)側(cè)重點(diǎn)有較大差異,有研究者認(rèn)為這種差異的產(chǎn)生主要是受到各國(guó)人文歷史和傳統(tǒng)文化的影響。這些人口描述性特征的判別性如何需要進(jìn)一步的實(shí)證檢驗(yàn)。

參考文獻(xiàn):

[1]朱良平.基于大數(shù)據(jù)的信用風(fēng)險(xiǎn)評(píng)分模型辨析[J].中國(guó)金融電腦,2016(3).

[2]Fritz S and Hosemann D.Restructuring the Credit Process:Behavior Scoring for Deutsche Bank' s German.Corporates [J].International Journal of Intelligent Systems in Accounting ,F(xiàn)inance &management ,2000.9 :9 -21 .

[3]Joos P ,Banhoof L,Ooghe H ,and Sierens N .Credit classification:A comparison of logit models and decision trees[ A].10th European Conference on Machine Learning ,Workshop notes:Application of machine learning and data mining in finance[ C].TU Chemnitz,Germany :1998 :59-70.54-56.

[4]Hand DJ and henley WE.Statistical Classification Methods in Consumer Credit Scoring :A Review[ J].Journal of the Royal Statistical Society ,1997,Series A 160(3):523-541 .

[5]肖曼君,歐緣媛,李穎.我國(guó)P2P 網(wǎng)絡(luò)借貸信用風(fēng)險(xiǎn)影響因素研究——基于排序選擇模型的實(shí)證分析[J].財(cái)經(jīng)理論與實(shí)踐(雙月刊),2015,36(1):2-7.

基金項(xiàng)目:本文受到成都理工大學(xué)哲學(xué)社科基金項(xiàng)目“基于金融科技創(chuàng)新的金融風(fēng)控模型的應(yīng)用研究”(項(xiàng)目編號(hào)YJ2017-JX005)的資助。

(謝佳為成都理工大學(xué)管理科學(xué)學(xué)院碩士研究生;曾鳴為成都理工大學(xué)管理科學(xué)學(xué)院副教授)

猜你喜歡
主成分分析法信用風(fēng)險(xiǎn)互聯(lián)網(wǎng)金融
淺析我國(guó)商業(yè)銀行信用風(fēng)險(xiǎn)管理
中國(guó)裝備制造業(yè)階段競(jìng)爭(zhēng)力研究
陜西省各地區(qū)人力資本水平綜合評(píng)價(jià)與分析
京東商城電子商務(wù)信用風(fēng)險(xiǎn)防范策略
個(gè)人信用風(fēng)險(xiǎn)評(píng)分的指標(biāo)選擇研究
信用風(fēng)險(xiǎn)的誘發(fā)成因及對(duì)策思考
礼泉县| 邢台县| 新邵县| 岐山县| 乐陵市| 莫力| 黄石市| 冀州市| 永顺县| 叶城县| 鹰潭市| 阳新县| 嘉黎县| 宣威市| 岚皋县| 甘德县| 渑池县| 浦北县| 金塔县| 贡觉县| 信丰县| 芜湖县| 浦东新区| 安新县| 贵阳市| 锦州市| 大宁县| 宁夏| 富顺县| 封丘县| 图们市| 三都| 防城港市| 富川| 集安市| 冕宁县| 两当县| 杂多县| 历史| 景洪市| 绵阳市|