張昶 李曉峰 任媛媛
摘要:隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,P2P互聯(lián)網(wǎng)金融平臺催生了大量的理財(cái)和借貸行為。但由于互聯(lián)網(wǎng)兩端存在著信息不對稱性,會產(chǎn)生大量的借貸信用風(fēng)險(xiǎn)問題。本文利用國內(nèi)某大型互聯(lián)網(wǎng)金融平臺的借貸數(shù)據(jù),基于數(shù)據(jù)挖掘的思路和方法,對數(shù)據(jù)進(jìn)行了預(yù)處理、挖掘建模以及結(jié)果的分析,主要通過決策樹算法找到借貸違約人的普遍特征,挖掘出隱藏在數(shù)據(jù)背后的知識和模式,并提出互聯(lián)網(wǎng)金融平臺的借貸風(fēng)險(xiǎn)治理方案,降低了信息不對稱性,優(yōu)化互聯(lián)網(wǎng)金融平臺的資源配置。
Abstract: With the rapid development of network technology, a large number of financial management and lending behaviors have been happened on peer-to-peer Internet financial platforms. However, due to the information asymmetry at both sides of the Internet, a large number of loan credit risk problems will arise. Based on the thoughts and methods of data mining, this paper uses the loan data of large Internet financial platforms in China to do data pre-process, model mining and results analysis. The decision tree algorithm is used here to find general characteristics of loan defaulters,and the knowledge and patterns hidden behind the data are mined. The loan risk management scheme of Internet financial platform is proposed, which can reduce the information asymmetry and optimize the resource allocation of Internet financial platform.
關(guān)鍵詞:P2P互聯(lián)網(wǎng)金融平臺;信息不對稱性;借貸信用風(fēng)險(xiǎn);數(shù)據(jù)挖掘;決策樹算法
Key words: peer-to-peer Internet financial platform;information asymmetry;loan credit risk;data mining;decision tree algorithm
中圖分類號:F724.6;F832.2 ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文章編號:1006-4311(2019)08-0148-04
1 ?研究背景及意義
1.1 研究背景
近年來,傳統(tǒng)的金融業(yè)在技術(shù)和商務(wù)模式上發(fā)生了巨大的變化,各種基于互聯(lián)網(wǎng)的金融平臺正在不斷涌現(xiàn)出來,產(chǎn)生了大量的基于互聯(lián)網(wǎng)兩端的理財(cái)和借貸行為,這在很大程度上改變了人們的生活和消費(fèi)模式?;ヂ?lián)網(wǎng)金融市場的交易成本大大低于傳統(tǒng)金融市場的交易成本,這部分可觀的交易成本一方面彌補(bǔ)資金供給者更多的收益,另一方面也可以為互聯(lián)網(wǎng)企業(yè)帶來豐厚的利潤。但是由于現(xiàn)實(shí)世界中理性人的機(jī)會主義行為,平臺會出現(xiàn)信息不對稱、道德風(fēng)險(xiǎn)、監(jiān)管和信用機(jī)制等問題,從而導(dǎo)致互聯(lián)網(wǎng)金融平臺產(chǎn)生較大的信用風(fēng)險(xiǎn)。
基于此,相關(guān)學(xué)者進(jìn)行了研究。一些學(xué)者基于信息不對稱原理提出平臺的運(yùn)行機(jī)制建議(生蕾,2016)。所謂信息不對稱,即對于某些信息來說,一些參與人擁有,但另一些參與人不擁有或不完全擁有(張維迎,1996),如在互聯(lián)網(wǎng)金融平臺,借貸人與平臺管理方之間存在著較為明顯的違約信息不對稱。也有學(xué)者通過研究制度經(jīng)濟(jì)學(xué)中交易費(fèi)用成本來分析平臺的根源機(jī)制與運(yùn)行機(jī)理,并提出治理方法(劉威,2016)。而在國外的相關(guān)研究中,一些學(xué)者提到了從大數(shù)據(jù)的視角分析互聯(lián)網(wǎng)金融的客戶行為與風(fēng)險(xiǎn)策略問題(Adair Morse,2015)。
可以看到,國內(nèi)對于平臺治理的研究更多的是以機(jī)制體制的經(jīng)濟(jì)學(xué)為切入點(diǎn),進(jìn)行策略性研究,研究結(jié)果理論依據(jù)較為單薄。國外雖然運(yùn)用到數(shù)據(jù)挖掘的思路研究風(fēng)險(xiǎn)防患與客戶行為,但是并沒有具體數(shù)據(jù)挖掘方法的應(yīng)用研究。所以,與該研究相關(guān)的內(nèi)容并不多。
1.2 研究意義
數(shù)據(jù)挖掘的方法(CC Wu,2016)可以用于從大量的數(shù)據(jù)中尋找潛在的知識和模式,利用該方法可以有效降低違約風(fēng)險(xiǎn)。決策樹分類、支持向量機(jī)及人工神經(jīng)網(wǎng)絡(luò)等算法均可以用于發(fā)現(xiàn)預(yù)測型的知識和模式,并控制其精度。
該研究基于互聯(lián)網(wǎng)金融平臺產(chǎn)生的大量業(yè)務(wù)數(shù)據(jù),利用數(shù)據(jù)挖掘的方法有效分析了平臺產(chǎn)生的信用風(fēng)險(xiǎn)問題。通過數(shù)據(jù)挖掘中高效的數(shù)據(jù)預(yù)處理及數(shù)據(jù)挖掘算法來處理和分析數(shù)據(jù),可以有效的挖掘出隱藏在數(shù)據(jù)背后的知識和模式,達(dá)到自動預(yù)測風(fēng)險(xiǎn)人群、指導(dǎo)企業(yè)建設(shè)智能化互聯(lián)網(wǎng)金融平臺的目的。
更為深入的,該研究為互聯(lián)網(wǎng)金融企業(yè)的借貸風(fēng)險(xiǎn)防控,客戶的行為模式預(yù)測提供相關(guān)決策,為互聯(lián)網(wǎng)金融企業(yè)監(jiān)管機(jī)制和運(yùn)作模式的創(chuàng)新提供思路。最終為企業(yè)創(chuàng)建新的商業(yè)增長點(diǎn),并實(shí)現(xiàn)社會、互聯(lián)網(wǎng)金融企業(yè)和借貸兩側(cè)的共贏模式。所以運(yùn)用數(shù)據(jù)挖掘的方法研究互聯(lián)網(wǎng)金融借貸的風(fēng)險(xiǎn)防控和客戶行為模式具有較大的現(xiàn)實(shí)意義。
2 ?平臺數(shù)據(jù)預(yù)處理研究
該研究主要分析互聯(lián)網(wǎng)金融平臺借貸數(shù)據(jù)中有可能對是否違約產(chǎn)生影響的字段,如借貸人本身的一些特征字段,包括年齡、收入、學(xué)歷、婚姻狀況、性別、從事工作、工作時間、子女情況、所在公司性質(zhì)等;除此之外還包括貸款人的借貸信息相關(guān)字段,如債務(wù)占收比、月還款金額、貸款本金及還款期數(shù)等。由于這些數(shù)據(jù)來自于不同的互聯(lián)網(wǎng)金融平臺,數(shù)據(jù)真實(shí)且屬性豐富,所以在進(jìn)行數(shù)據(jù)挖掘前應(yīng)進(jìn)行數(shù)據(jù)清洗、泛化、字段重要性選擇等相關(guān)的數(shù)據(jù)預(yù)處理工作,使數(shù)據(jù)變得規(guī)整并具備較強(qiáng)的可挖掘性。
2.1 數(shù)據(jù)的清洗
基于該互聯(lián)網(wǎng)金融平臺的數(shù)據(jù)質(zhì)量及挖掘要求,該數(shù)據(jù)清洗的研究可分為無效數(shù)據(jù)刪除及缺失數(shù)據(jù)填補(bǔ)。
該研究首先通過一些規(guī)則的設(shè)計(jì)去除掉無效數(shù)據(jù),這里主要面對的是借貸人的虛假數(shù)據(jù)填報(bào),由于許多互聯(lián)網(wǎng)金融平臺并沒有十分細(xì)化的監(jiān)管和審核機(jī)制,導(dǎo)致許多借貸人戶在網(wǎng)上填報(bào)一些無效信息。如:在年齡字段出現(xiàn)小于小于10歲或大于100歲的借貸人;從事工作日期早于出生日期;年齡小于10歲卻顯示有子女等問題。由于這些問題數(shù)據(jù)的數(shù)據(jù)量較小,所以這里采用了設(shè)定啟發(fā)式的規(guī)則進(jìn)行篩選并統(tǒng)一刪除的方法進(jìn)行處理。
其次,數(shù)據(jù)集會出現(xiàn)一些關(guān)鍵字段的數(shù)據(jù)值空缺的問題。這里采用兩種不同的方法進(jìn)行處理:空缺數(shù)據(jù)為數(shù)值型,如年齡、收入、貸款本金等,這里采用利用平均值或同類別均值的方法來進(jìn)行數(shù)據(jù)的填補(bǔ);若空缺數(shù)據(jù)為非數(shù)值型,如公司性質(zhì)、學(xué)歷、性別等,這里采用決策樹或貝葉斯歸納的方法進(jìn)行填補(bǔ),力求把最有可能出現(xiàn)的值填補(bǔ)進(jìn)空缺處。
2.2 數(shù)據(jù)的泛化
該互聯(lián)網(wǎng)金融平臺數(shù)據(jù)中,大部分字段中的數(shù)據(jù)都是連續(xù)的數(shù)據(jù)值,即使一些非數(shù)值型的數(shù)據(jù)也會出現(xiàn)較為連續(xù)的字段值,如在從事工作這一字段中,就包括上百種不同的工作類別。而對于決策樹算法來說,更期望于獲得較為離散的數(shù)據(jù)值,由此可以更為概括性的以樹形結(jié)構(gòu)的方法對數(shù)據(jù)進(jìn)行分類并對知識進(jìn)行歸納。
所以這里根據(jù)不同的標(biāo)準(zhǔn)和規(guī)則、以定量和定性的思路進(jìn)行了連續(xù)數(shù)據(jù)值的離散化處理,使數(shù)據(jù)粒度變大。在不同的字段中,分別依照現(xiàn)實(shí)世界的特征、固定寬度的分箱以及分位數(shù)處理等方法,根據(jù)字段的特征把數(shù)據(jù)進(jìn)行了范化的處理,使各字段均具備了較強(qiáng)的概括性和可挖掘性。
2.3 字段重要性選擇
在該數(shù)據(jù)集中,對違約可能產(chǎn)生影響的字段較多,但如果這些字段均參與到?jīng)Q策樹的建模過程中,會使得一棵樹的分支節(jié)點(diǎn)過多或過度生長,使最終得到的知識和模式過于分散,無法進(jìn)行概括性的總結(jié)。所以這里采用PCA主成分分析的方法對不同的字段進(jìn)行了重要性的選擇,這里主要利用正交變換,將其分量相關(guān)的原隨機(jī)向量轉(zhuǎn)化成其分量不相關(guān)的新隨機(jī)向量,即將原來的字段重新組合成一組新的線性無關(guān)的幾個綜合字段,同時根據(jù)挖掘需求從中取出幾個較少的卻盡可能多地反映原有信息的字段,由此,對該數(shù)據(jù)集進(jìn)行合理的降維。在該數(shù)據(jù)集中經(jīng)過主成分分析,可以得到在決策樹建模中主要使用的字段為歷史違約情況、還款期數(shù)、剩余借貸金額、借貸人債務(wù)占收比、性別、工作時長、學(xué)歷、婚姻及子女狀況。
3 ?數(shù)據(jù)挖掘分析
3.1 基于單一字段的統(tǒng)計(jì)分析
該互聯(lián)網(wǎng)金融平臺數(shù)據(jù)經(jīng)過數(shù)據(jù)預(yù)處理,各字段已經(jīng)變得較為規(guī)整,在建模前,可以進(jìn)行一些簡單的數(shù)據(jù)統(tǒng)計(jì)分析,即基于單個字段的違約分析,由此,可以得到違約人的一些特征模式。這里選取了一些與借貸人本身相關(guān)的字段進(jìn)行分析,如圖1所示。
通過性別的字段值在違約中的占比可以看到目前互聯(lián)網(wǎng)金融借貸平臺的主要借款人還是以男性為主;子女狀況字段則顯示無子女的違約情況遠(yuǎn)大于有子女的違約情況,這說明有子女的借貸人會考慮到家庭和責(zé)任等因素,違約成本較高,而無子女的則沒有任何負(fù)擔(dān),只需要考慮自己的經(jīng)濟(jì)情況;通過年齡字段可以發(fā)現(xiàn)30歲以下的借款人幾乎占整個原始數(shù)據(jù)的百分之七十,說明互聯(lián)網(wǎng)金融平臺的違約風(fēng)險(xiǎn)主要發(fā)生在年輕人中;而工作時間字段則印證了這一觀點(diǎn),工作時長在5年內(nèi)的占違約總數(shù)的90%以上,從這一結(jié)果也可以看到資歷較淺、收入不高的員工更容易通過借貸平臺來滿足自己的經(jīng)濟(jì)需求,這種提前消費(fèi)的做法也就容易導(dǎo)致了違約行為的發(fā)生。
通過單一字段的簡單統(tǒng)計(jì)分析,我們可以簡單概括出一些違約人的特征信息,但是更為細(xì)化的、基于多個字段的復(fù)合作用如何對違約行為產(chǎn)生影響,則需要通過數(shù)據(jù)挖掘的算法進(jìn)行建模分析。
3.2 基于決策樹算法的建模分析
決策樹算法以信息論原理為基礎(chǔ),利用信息增益尋找數(shù)據(jù)庫中具有最大信息量的屬性建立決策樹。這里信息增益是指期望信息或者信息熵的有效減少量。使用信息增益作為判斷屬性選擇的度量,描述了當(dāng)確定該屬性后對待分類對象不確定性的信息變化程度。選擇具有最高信息增益的屬性作為當(dāng)前節(jié)點(diǎn)的劃分屬性,能使得判定一個未知對象類別時所需的屬性最少,并找到一棵簡單的樹(谷斌,2014)。
這里設(shè)S是訓(xùn)練樣本的集合,其中每個樣本的類標(biāo)號都是已知的。假定有m個類,集合S中類別Ci的記錄個數(shù)是Ni個,i=l,…,m。
設(shè)屬性A具有值{a1,…,av},屬性A可以用來對S進(jìn)行分組,將S分為子集S1,…,Sv,其中Sj包含S中值為aj的那些樣本。設(shè)Sj包含類Ci的Sij個樣本。則將S劃分為m個類的信息熵或期望信息為
其中,pi為S中的樣本屬于第i類Ci的概率。當(dāng)樣本屬于每個類的概率相等時,上述的熵取到最大值。而當(dāng)所有樣本屬于同一個類時,S的熵為0,也就是沒有不確定性。其他情況的熵介于兩者之間。
熵值反映了對樣本集合S分類的不確定性,也是對樣本分類的期望信息。熵值越小,劃分的純度越高,對樣本分類的不確定性越低。一個屬性的信息增益,就是用這個屬性對樣本分類而導(dǎo)致的熵的期望值下降。
Gain(S,A)是指因知道屬性A的值后導(dǎo)致的熵的期望壓縮。Gain(S,A)越大,說明選擇測試屬性A對分類提供的信息越多,該算法就是在每個節(jié)點(diǎn)選擇信息增益Gain(S,A)最大的屬性作為測試屬性(Jiaweihan,2008)。決策樹算法主要學(xué)習(xí)過程如圖2所示。
該研究基于決策樹的思想,以預(yù)處理后的數(shù)據(jù)為基礎(chǔ),選取歷史違約情況、還款期數(shù)、剩余借貸金額、借貸人債務(wù)占收比、性別、工作時長、學(xué)歷、婚姻及子女狀況作為輸入字段進(jìn)行建模,并把所有數(shù)據(jù)進(jìn)行訓(xùn)練集和測試集的劃分,在訓(xùn)練集中構(gòu)建決策模型,并把結(jié)果帶入測試集中進(jìn)行精度分析,該研究分別選取ID3、C4.5、C5.0、C&R及CHAID等不同的決策樹進(jìn)行精度及運(yùn)行速度的比較,結(jié)果如表1所示。
所以這里選用C5.0決策樹對數(shù)據(jù)處理的結(jié)果進(jìn)行解釋分析,決策樹顯示了違約人的一些特征,概括如下:
①若借貸人存在歷史違約情況,那么其違約的可能性會很大,若借貸人不存在違約歷史,且還款期數(shù)大于2期,期借貸違約的風(fēng)險(xiǎn)則會較低。
②若借貸人不存在歷史違約情況,且其為女性,并以還款2期,則違約風(fēng)險(xiǎn)較低。
③若借貸人不存在歷史違約情況,并以還款2期,但剩余還款金額較高,則其存在較高的違約風(fēng)險(xiǎn)。
④若借貸人不存在歷史違約情況,并以還款2期,但其債務(wù)占收比高于30%,則違約風(fēng)險(xiǎn)較低;但是在相同的情況下若其債務(wù)占收比低于10%且剩余還款金額較少,則其違約風(fēng)險(xiǎn)較高。
⑤若借貸人不存在歷史違約情況,并以還款2期,同時剩余還款金額較少且債務(wù)占收比為10%-30%,那么與借貸人本身相關(guān)的信息將會對違約產(chǎn)生作用:學(xué)歷在本科以上存在較低的違約風(fēng)險(xiǎn),工作時間在五年以上存在較低的違約風(fēng)險(xiǎn),有子女存在較低的違約風(fēng)險(xiǎn),而學(xué)歷在大專以下或無子女的借貸人則存在較高的違約風(fēng)險(xiǎn)。
⑥若借貸人不存在歷史違約情況,并以還款2期,同時剩余還款金額較少且債務(wù)占收比為高于30%,則婚姻狀況為已婚的違約風(fēng)險(xiǎn)較低,而婚姻狀況為未婚或離異的違約風(fēng)險(xiǎn)較高。
4 ?互聯(lián)網(wǎng)金融平臺風(fēng)險(xiǎn)治理
由上述研究可以看到,基于大量互聯(lián)網(wǎng)金融平臺的借貸業(yè)務(wù)數(shù)據(jù),利用數(shù)據(jù)挖掘的方法可以對借貸人的違約情況進(jìn)行精確的分析,概括出違約人的相關(guān)特征,這可以為互聯(lián)網(wǎng)金融平臺的違約風(fēng)險(xiǎn)治理提供理論依據(jù)?;谠撗芯浚脚_的治理方案可從以下幾方面進(jìn)行考慮:
①互聯(lián)網(wǎng)金融平臺需進(jìn)一步細(xì)化借貸人的信息填報(bào),并審核其真實(shí)性,由此增強(qiáng)監(jiān)管力度,提高借貸門檻。同時,這可以在很大程度上豐富數(shù)據(jù)挖掘所需的字段,使數(shù)據(jù)建模在更為有價(jià)值的、更為真實(shí)的數(shù)據(jù)基礎(chǔ)之上。平臺可通過建立動態(tài)的、有效的網(wǎng)絡(luò)個人信用檔案來細(xì)化借貸人的相關(guān)信息,并使自己的信息系統(tǒng)與官方認(rèn)定的公共征信服務(wù)平臺進(jìn)行對接,能夠更為有效的審核每個借貸人填寫的相關(guān)信息,使其數(shù)據(jù)真實(shí)可信。
②互聯(lián)網(wǎng)金融行業(yè)需進(jìn)一步加強(qiáng)信息化建設(shè),研究信息和數(shù)據(jù)的標(biāo)準(zhǔn)化方案,使各個不同平臺的系統(tǒng)能夠進(jìn)行實(shí)時的、有效的互聯(lián)互通,是借貸人的信息和數(shù)據(jù)在不同平臺中最大程度上進(jìn)行共享,并通過數(shù)據(jù)挖掘?qū)A拷栀J業(yè)務(wù)數(shù)據(jù)進(jìn)行分析和處理,降低信息的不確定性,減少單個平臺可能出現(xiàn)的信息孤島問題,優(yōu)化互聯(lián)網(wǎng)金融平臺整體資源配置。
③完善互聯(lián)網(wǎng)金融體系的配套措施,研究不同的風(fēng)險(xiǎn)控制體系。隨著互聯(lián)網(wǎng)金融業(yè)務(wù)的不斷發(fā)展,國家層面應(yīng)出臺更為細(xì)化的法律法規(guī)體系進(jìn)行監(jiān)管,并集中建立數(shù)據(jù)分析中心對可能產(chǎn)生的風(fēng)險(xiǎn)進(jìn)行統(tǒng)一把控,并建立統(tǒng)一的互聯(lián)網(wǎng)金融信息披露平臺進(jìn)行信息發(fā)布。除此之外,各平臺也可以通過不同的方法分散違約帶來的風(fēng)險(xiǎn)。如可以與保險(xiǎn)公司合作通過數(shù)據(jù)分析設(shè)計(jì)不同的網(wǎng)貸保險(xiǎn)類的理財(cái)產(chǎn)品,或建立專門的保險(xiǎn)賠付基金制度等,完善并豐富互聯(lián)網(wǎng)金融產(chǎn)業(yè)鏈,使市場更為健康地發(fā)展。
參考文獻(xiàn):
[1]生蕾.信息不對稱與互聯(lián)網(wǎng)金融發(fā)展[J].征信,2015(12):15-18.
[2]張維迎.博弈論與信息經(jīng)濟(jì)學(xué)[M].上海:上海人民出版社,1996.
[3]劉威.互聯(lián)網(wǎng)金融系統(tǒng)下的交易成本——基于新制度經(jīng)濟(jì)學(xué)的研究[J].時代金融,2016(35):49-50.
[4]Adair Morse. Peer-to-Peer Crowdfunding: Information and the Potential for Disruption in Consumer Lending[J]. Annual Review of Financial Economics, 2015(6): 463-482.
[5]CC Wu. Decision tree induction with a constrained number of leaf nodes[J]. Applied Intelligence, 2016, 45:1-13.
[6]谷斌,耿科明,張昶.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)崉?wù)[M].北京:北京郵電大學(xué)出版社,2014.
[7]Jiaweihan,MiehelineKambe.數(shù)據(jù)挖掘概念和技術(shù)[M].機(jī)械工業(yè)出版社,2008:56-60.
[8]李志強(qiáng).基于交易成本理論的互聯(lián)網(wǎng)金融與中小企業(yè)融資關(guān)系研究[J].上海經(jīng)濟(jì)研究,2015(3):32-36.
[9]謝平,鄒傳偉,劉海二.互聯(lián)網(wǎng)金融的基礎(chǔ)理論[J].金融研究,2015(8):4-12.
[10]鐘向群.探索互聯(lián)網(wǎng)金融新模式[J].中國金融,2013(24):45-46.
[11]劉瀾飚,沈鑫,郭步超.互聯(lián)網(wǎng)金融發(fā)展及其對傳統(tǒng)金融模式的影響探討[J].經(jīng)濟(jì)學(xué)動態(tài),2013(8):73-83.
[12]汪煒,鄭揚(yáng)揚(yáng).互聯(lián)網(wǎng)金融發(fā)展的理論基礎(chǔ)[J].經(jīng)濟(jì)問題探索,2016(6):120-176.
[13]G Lee, U Yun and KM Lee.Analysis of tree-based uncertain frequent pattern mining techniques without pattern losses[J].Journal of Supercomputing, 2016, 72:1-23.
[14]Yeo, Benjamin and Delvin Grant, Predicting service industry performance using decision tree analysis[J].International Journal of Information Management, 2018, 38: 288-300.