国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

軟信息有助于預(yù)測小微企業(yè)信用風(fēng)險
——來自中國P2P平臺的證據(jù)

2021-11-16 02:21:38李艷萍
宿州學(xué)院學(xué)報 2021年10期
關(guān)鍵詞:信用風(fēng)險借款小微

李艷萍,武 浩

1.安徽農(nóng)業(yè)大學(xué)經(jīng)濟(jì)技術(shù)學(xué)院,安徽合肥,230013;2.合肥工業(yè)大學(xué)管理學(xué)院,安徽合肥,230009

在金融科技領(lǐng)域,P2P網(wǎng)絡(luò)借貸是一種重要的金融創(chuàng)新模式,它為資金需求與供給雙方提供了一個在線匹配與信息交換的服務(wù)平臺。P2P平臺的出現(xiàn)為小微企業(yè)(SMEs)提供了新的融資渠道,同時在一定程度上解決了融資難與融資貴的問題[1-2]。然而,學(xué)者Zhu[3]與封思賢等[4]認(rèn)為P2P平臺參與者往往信用水平不高且難以提供更多的信用信息,加大了信息不對稱程度,造成了信用評價的困難。如何準(zhǔn)確評價與預(yù)測小微企業(yè)信用風(fēng)險,成為亟待解決的關(guān)鍵問題。

在大數(shù)據(jù)時代,軟信息受到越來越多的關(guān)注。Liberti等[5]認(rèn)為有些信息是難以用具體的數(shù)字分?jǐn)?shù)概括的,需要結(jié)合上下文分析的信息才稱為軟信息。在P2P網(wǎng)貸中,軟信息通常以文本形式進(jìn)行交流,主要包括意見、計劃、經(jīng)濟(jì)預(yù)測、借款人的面部特征以及借款申請的文本描述等。一些研究將財務(wù)信息定義為硬信息,將非財務(wù)信息定義為軟信息[5-9]。

目前,軟信息在P2P網(wǎng)貸中獲得了成功應(yīng)用[10-12]。第一,軟信息可以反映借款人的信用風(fēng)險,預(yù)測借款成功率[13-15]。第二,軟信息對違約概率也有較好的預(yù)測作用[16-17]。如Ge等[18]使用一個結(jié)合了流行社交媒體網(wǎng)站數(shù)據(jù)的獨特數(shù)據(jù)集,發(fā)現(xiàn)借款人對其社交媒體賬戶和社交媒體活動的自我披露可以成功預(yù)測違約概率。Gao等[19]發(fā)現(xiàn)借款申請說明的可讀性和其中包含的積極情緒也與違約概率有關(guān)。Dorfleitner等[20]通過對比歐洲的兩個P2P平臺,發(fā)現(xiàn)在借款項目描述中提供了關(guān)于教育信息的借款人往往具有更低的違約概率。

軟信息的內(nèi)容往往是非結(jié)構(gòu)化的,傳統(tǒng)方法不能有效地處理。故Blei等[21]提出了潛在狄利克雷分配(LDA)主題模型,用于識別文檔中的主題并挖掘語料庫中隱藏的信息。到目前為止,LDA分析已被廣泛應(yīng)用于主題聚合、非結(jié)構(gòu)化文本信息提取、特征選擇等場景中。其中,情感分析就是一種主要的軟信息分析方法,被廣泛用于分析語篇中的態(tài)度、情感和評價,并使用情緒分析從借款人的自我報告中提取特征,并基于這些特征和金融特征分析借款人的信用風(fēng)險。也可以應(yīng)用情緒分析構(gòu)建了情緒指數(shù),發(fā)現(xiàn)負(fù)面情緒與借款成功率呈負(fù)相關(guān)。為此,本文基于LDA分析與機(jī)器學(xué)習(xí)模型,選取中國P2P平臺上852家借款企業(yè)的真實交易數(shù)據(jù)進(jìn)行實證分析,深入挖掘借款項目描述軟信息并考察其對網(wǎng)絡(luò)借貸信用風(fēng)險預(yù)測能力。

1 LDA主題模型

LDA主題模型是一個三層貝葉斯概率模型[21],包括詞、主題和文檔三層結(jié)構(gòu)。它屬于無監(jiān)督學(xué)習(xí),可用于識別隱藏在大規(guī)模文檔集合或語料庫中的主題信息。為更好地處理P2P網(wǎng)貸文本信息,研究引入LDA主題模型,提取相應(yīng)軟信息特征。假設(shè)有K個主題,M個文檔,每個文檔有N個單詞,文檔中的主題服從參數(shù)為α的狄利克萊分布,主題中的單詞服從參數(shù)為β的狄利克萊分布。LDA模型包括以下步驟:

步驟1:從M中選擇一個文檔d;

步驟2:從狄里克萊特分布Dir(α)中抽樣一個主題分布θd;

步驟3:根據(jù)采樣的主題分布θd隨機(jī)選擇一個主題Zdi;

步驟4:從先前選擇的主題Zdi的多項式分布φzdi中隨機(jī)選擇文檔d中的第i個單詞的單詞wi。

本文在上述步驟中選擇了一種常見的Gibbs采樣方法,并給出了圖1中可視化處理過程。

圖1 LDA主題模型的提取過程

2 數(shù)據(jù)、變量及描述性統(tǒng)計

2.1 樣本數(shù)據(jù)

在中國的P2P網(wǎng)貸中,小微企業(yè)的借貸信息非常稀少。本文對比了網(wǎng)絡(luò)借貸市場的76個平臺,根據(jù)這些平臺的綜合實力和透明度選擇研究對象,最終選定了為中小企業(yè)提供金融服務(wù)的P2P網(wǎng)貸平臺“融金寶”。數(shù)據(jù)集來自兩個渠道:第一,平臺網(wǎng)站(https://www.rjb777.com/);第二,定期發(fā)布借款企業(yè)還款狀態(tài)的微信官方賬號。本文使用R包“Rselenium”從網(wǎng)站上收集了從2016年3月7日到2019年3月15日期間的樣本,包括了1 459家企業(yè)的借款信息。然后,本文剔除了那些不能確定是否違約的借款企業(yè),最終獲得852家公司借款信息作為研究樣本。

2.2 軟特征提取

在訓(xùn)練LDA主題模型之前,需要確定一個重要的參數(shù),即主題數(shù)量。本文從2到20個主題的數(shù)量中得到了19個主題分類結(jié)果,并檢查提取的主題是否包含定義明確的相關(guān)詞。結(jié)合語言模型和主觀判斷,選擇了最優(yōu)的7個主題:投資、工廠、材料、日用品、工程、銷售和創(chuàng)新。表1顯示了每個主題下出現(xiàn)頻率最高的單詞。在確定主題后,LDA主題模型會輸出每一項文本被歸類為7個主題的概率(本文實證分析使用的軟特征是每個借款企業(yè)的項目描述屬于7個主題的概率)。

表1 從借款項目描述中提取的軟特征

2.3 描述性統(tǒng)計

除了上述七個軟信息特征外,本文還考慮了另外七個解釋變量:注冊資本、員工人數(shù)、借款金額、借款利率、借款期限和注冊地點、成立年限。響應(yīng)變量為違約,當(dāng)借款企業(yè)違反合同約定拒不支付本息時,響應(yīng)變量被標(biāo)記為1(發(fā)生違約),否則被標(biāo)記為0(未違約),所有變量的描述性統(tǒng)計結(jié)果見表2。

表2 變量的描述性統(tǒng)計

表2中可以看出,違約企業(yè)的比例只占總樣本的8%,一方面表示違約發(fā)生概率并不高;另一方面使得在訓(xùn)練時更多關(guān)注未違約企業(yè)的特征,可能會影響模型分類的準(zhǔn)確性。這是一個典型的非平衡數(shù)據(jù)的二分類問題,本文在數(shù)據(jù)處理中引入多種重采樣方法解決非平衡問題,以進(jìn)一步提高模型的預(yù)測能力。

3 實證研究

3.1 軟特征的分類效果

將特征集劃分為三類:硬特征集、軟特征集和硬-軟特征集,同時考慮三種流行的機(jī)器學(xué)習(xí)模型,即L1-Logit、支持向量機(jī)(SVM)和隨機(jī)森林(RF)。隨機(jī)選取80%觀測值作為訓(xùn)練集進(jìn)行模型訓(xùn)練,其余的觀測值則作為測試集進(jìn)行模型測試。此外,本文通過ROC曲線下方的面積大小(AUC)、準(zhǔn)確率(ACC)、綜合評價(F1-MEASURE,簡記F1)和召回率(RECALL)等指標(biāo)對模型性能進(jìn)行評估。

對于三種預(yù)測模型,本文采用5折交叉驗證(CV)在訓(xùn)練集上選擇最優(yōu)參數(shù),如L1-logit的λ、SVM的gamma和RF的tree。對于特定特征集上的每個模型,本文在每次實驗中將5折交叉驗證得到的五個AUC進(jìn)行平均后,選擇平均AUC最高的參數(shù)作為最優(yōu)參數(shù)。然后,將擁有最優(yōu)參數(shù)的模型應(yīng)用于測試集中,計算出所有的評價指標(biāo)。重復(fù)該過程50次,統(tǒng)計模型分類結(jié)果見表3。

表3 非平衡樣本下軟特征預(yù)測表現(xiàn)

注:(1)表中報告的結(jié)果為50次試驗后的平均結(jié)果;(2)括號內(nèi)展示實驗結(jié)果的標(biāo)準(zhǔn)差。下同。

表3反映了L1-Logit、SVM和RF在50次重復(fù)實驗后在不同特征集上的分類性能??傮w而言,三種預(yù)測模型在硬-軟特征集上取得了最佳違約預(yù)測效果,在12個實驗(12=3個模型×4個評價指標(biāo))中,其預(yù)測效果有8次優(yōu)于其他兩個特征集。對于AUC指標(biāo),相比較其他特征集,硬-軟特征集在所有的模型中獲得最佳的表現(xiàn)。加入軟特征后,AUC和Recall兩種指標(biāo)呈現(xiàn)上升趨勢,如在RF中,分別增加到0.880和0.820。雖然加入軟特征集后,ACC和F1-MEASURE在RF中沒有明顯改進(jìn),但在L1-Logit和SVM中,當(dāng)考慮到軟特征時,兩項指標(biāo)均有所提升。實證結(jié)果充分說明軟信息有助于預(yù)測違約概率,它可以作為硬特征的有效補充,用于準(zhǔn)確評估企業(yè)信用風(fēng)險。

3.2 基于重采樣方法的分類效果

在二分類問題中,當(dāng)一類的比例超出另一類的比例很多時,就會出現(xiàn)非平衡數(shù)據(jù)問題,常出現(xiàn)在欺詐檢測、風(fēng)險管理等領(lǐng)域。非平衡數(shù)據(jù)問題導(dǎo)致模型對少數(shù)類缺乏關(guān)注,從而影響分類效果。為此,本文引入三種常用的重采樣方法:隨機(jī)過采樣(簡稱ROS)、隨機(jī)欠采樣(簡稱RUS)與隨機(jī)過欠采樣(簡稱ROUS)。除額外的重采樣過程外,其余建模過程沒有變化,在硬-軟特征集上模型結(jié)果見表4。可以看出,在解決了非平衡數(shù)據(jù)問題之后,可以提高預(yù)測效果,其中ROS方法顯著提高了模型的預(yù)測能力,ROU方法也有較好的表現(xiàn)。

表4 非平衡樣本與平衡樣本下硬-軟特征集預(yù)測表現(xiàn)

以上結(jié)果再次證明,本文構(gòu)造的包含軟信息在內(nèi)的特征變量是有效的,能夠準(zhǔn)確預(yù)測小微企業(yè)的信用風(fēng)險。此外,在利用非平衡數(shù)據(jù)評價小微企業(yè)信用風(fēng)險時,可以選擇合適的重采樣方法,進(jìn)一步提高預(yù)測效果。

3.3 基于軟特征的信用風(fēng)險分析

為了進(jìn)一步說明各軟特征對借款企業(yè)信用風(fēng)險的影響,對全樣本進(jìn)行Logit回歸(見表5)。以7個硬特征為控制變量,按先后順序或同時加入軟特征,模型的響應(yīng)變量為違約。特別地,由于7個軟特征的概率和為1,為了避免多重共線性的問題,在模型8中,移除了一個軟特征。

表5 Logit回歸結(jié)果

注:(1)*,**,和***分別表示在10%,5%,1%水平下顯著。(2)括號內(nèi)展示Z統(tǒng)計量。

由表5可知,盡管調(diào)整R2并不算高,但眾多軟信息特征都存在統(tǒng)計上的顯著性。進(jìn)一步,在模型8中,投資在5%的水平上顯著,而日用品在10%的水平上顯著。至于工程,在模型8中不顯著,但在模型5中處于10%水平下顯著。在這三個變量中,工程的系數(shù)為正,表明借款人的項目描述中包含的關(guān)于工程的信息越多,違約概率越高;而投資和日用品的系數(shù)為負(fù),關(guān)于投資和日用品的信息意味著借款企業(yè)違約的概率較低??傊?,軟信息可以幫助篩選違約企業(yè)、預(yù)測信用風(fēng)險,從而維護(hù)投資人的利益,促進(jìn)P2P網(wǎng)貸健康發(fā)展。

4 結(jié)論與啟示

本文以P2P網(wǎng)貸為研究對象,綜合運用LDA主題分析、機(jī)器學(xué)習(xí)模型與Logit回歸,選取中國P2P平臺上852家借款企業(yè)的真實交易數(shù)據(jù),實證考察了借款項目描述軟信息對小微企業(yè)信用風(fēng)險的預(yù)測能力。實證結(jié)果表明,軟信息特征能夠有效識別違約企業(yè),有助于分析違約行為,預(yù)測企業(yè)違約概率。當(dāng)借款企業(yè)提供的借款項目描述與工程有關(guān)時,則該企業(yè)違約的可能性較大;如果借款項目描述與投資和日用品有關(guān),則違約的可能性較小。實證結(jié)果具有較好的管理學(xué)啟示:第一,P2P平臺應(yīng)該規(guī)范軟信息發(fā)布,減輕金融科技中的信息不對稱程度,降低信用風(fēng)險發(fā)生的概率;第二,小微企業(yè)應(yīng)該積極發(fā)布借款項目描述,以獲得市場的支持,解決融資難與融資貴問題;第三,投資者可以從借款項目描述中進(jìn)行特征分析,識別出可能違約的企業(yè),以避免投資風(fēng)險。

猜你喜歡
信用風(fēng)險借款小微
小微課大應(yīng)用
借款捆綁婚姻關(guān)系致訴訟
不一樣的借款保證人
中東鐵路與三喇嘛借款
小微企業(yè)借款人
淺析我國商業(yè)銀行信用風(fēng)險管理
京東商城電子商務(wù)信用風(fēng)險防范策略
小微企業(yè)經(jīng)營者思想動態(tài)調(diào)查
個人信用風(fēng)險評分的指標(biāo)選擇研究
解決小微金融機(jī)構(gòu)的風(fēng)控難題
田东县| 稻城县| 融水| 高邑县| 革吉县| 海丰县| 江油市| 太仆寺旗| 秦安县| 蒙阴县| 兴文县| 定兴县| 滨州市| 根河市| 肥东县| 昆明市| 尉犁县| 东海县| 长沙县| 雷波县| 香格里拉县| 乌拉特后旗| 靖宇县| 崇州市| 色达县| 桂东县| 双峰县| 泰宁县| 延吉市| 得荣县| 繁昌县| 英吉沙县| 武威市| 杭锦后旗| 双流县| 宝坻区| 宁阳县| 沐川县| 涿鹿县| 三河市| 怀安县|