国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

證據(jù)權(quán)重方法在企業(yè)信用風(fēng)險(xiǎn)評(píng)估應(yīng)用

2020-02-22 06:52危明鑄沈鳳山袁峰麥偉杰
科技創(chuàng)新導(dǎo)報(bào) 2020年29期
關(guān)鍵詞:企業(yè)信用信用風(fēng)險(xiǎn)

危明鑄 沈鳳山 袁峰 麥偉杰

摘? 要:本文以廣東省各個(gè)行政部門(mén)的企業(yè)數(shù)據(jù)為基礎(chǔ),研究了證據(jù)權(quán)重在企業(yè)信用風(fēng)險(xiǎn)等級(jí)評(píng)估中的應(yīng)用,并且根據(jù)國(guó)家“企業(yè)信用風(fēng)險(xiǎn)分類(lèi)評(píng)價(jià)標(biāo)準(zhǔn)”系統(tǒng)建立了企業(yè)信用評(píng)價(jià)指標(biāo),成功地將證據(jù)權(quán)重邏輯回歸算法應(yīng)用到真實(shí)的企業(yè)信用數(shù)據(jù)集,建立企業(yè)信用風(fēng)險(xiǎn)評(píng)估模型,使得監(jiān)管部門(mén)能夠準(zhǔn)確地掌握企業(yè)的信用情況。通過(guò)與經(jīng)典的邏輯算法比較,驗(yàn)證了該方法的有效性。

關(guān)鍵詞:證據(jù)權(quán)重? 邏輯回歸? 信用風(fēng)險(xiǎn)? 企業(yè)信用

中圖分類(lèi)號(hào):O212? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? 文章編號(hào):1674-098X(2020)10(b)-0137-07

Abstract: Based on the enterprise data of various administrative departments in Guangdong Province, this paper studies the application of weight of evidence in the assessment of enterprise credit risk levels, and establishes enterprise credit evaluation indicators based on the national "Enterprise Credit Risk Classification and Evaluation Standards". The weight-of-evidence logistic regression algorithm is applied to real enterprise credit data sets to establish enterprise credit risk assessment model, enabling regulators to accurately grasp the enterprise credit situation. Compared with the classical logic algorithm, the validity of the method is verified.

Key Words: Weight of evidence; Logistic regression; Credit risk; Credit of enterprise

企業(yè)信用是市場(chǎng)經(jīng)濟(jì)的產(chǎn)物,是對(duì)各類(lèi)市場(chǎng)參與主體履行相應(yīng)經(jīng)濟(jì)契約的能力及其企業(yè)整體的可信程度所進(jìn)行的一種綜合分析和測(cè)定,是企業(yè)的一項(xiàng)重要無(wú)形資產(chǎn)。隨著市場(chǎng)主體“寬進(jìn)嚴(yán)管”改革的不斷深入,國(guó)務(wù)院相繼頒發(fā)了《國(guó)務(wù)院辦公廳關(guān)于推廣隨機(jī)抽查規(guī)范事中事后監(jiān)管的通知》(國(guó)辦發(fā)[2015]58號(hào))[1]、《國(guó)務(wù)院關(guān)于“先照后證”改革后加強(qiáng)事中事后監(jiān)管的意見(jiàn)》(國(guó)發(fā)[2015]62號(hào))[2]和《國(guó)務(wù)院關(guān)于印發(fā)2016年推進(jìn)簡(jiǎn)政放權(quán)放管結(jié)合優(yōu)化服務(wù)改革工作要點(diǎn)的通知》(國(guó)發(fā)[2016]30號(hào))[3]等相關(guān)文件,企業(yè)信用在社會(huì)經(jīng)營(yíng)活動(dòng)中變成一個(gè)有效的“身份證”,塑造了一個(gè)企業(yè)在社會(huì)的面目和形象。

針對(duì)目前市場(chǎng)主體規(guī)模龐大、難以把握重點(diǎn)監(jiān)管對(duì)象、雙隨機(jī)抽查的靶向性不強(qiáng)等不足,有些學(xué)者已經(jīng)發(fā)表了自己的研究成果。Odom等人[4]早在1990年把人工神經(jīng)網(wǎng)絡(luò)應(yīng)用到企業(yè)信用風(fēng)險(xiǎn)評(píng)估上,并將其與經(jīng)典的多元回歸分析比較,實(shí)驗(yàn)表明人工神經(jīng)網(wǎng)絡(luò)具有更優(yōu)越的性能;Prinzie等人把邏輯回歸(Logistic)引入隨機(jī)森林算法并對(duì)其進(jìn)行優(yōu)化以及改進(jìn),然后將改進(jìn)的算法應(yīng)用于預(yù)測(cè)公司的信用風(fēng)險(xiǎn)[5];Lin F等人研究隨機(jī)森林與KMV模型結(jié)合,提出將違約距離作為隨機(jī)森林的輸入,實(shí)驗(yàn)表明對(duì)企業(yè)信用風(fēng)險(xiǎn)預(yù)測(cè)性能更有效[6];Traskin等人利用隨機(jī)森林具有篩選重要變量的特征,提出將其應(yīng)用在保險(xiǎn)公司償付判別中[7];吳麗麗運(yùn)用Logistic回歸模型深入探討了我國(guó)商業(yè)銀行信用風(fēng)險(xiǎn)監(jiān)管的問(wèn)題[8];郭玉華根據(jù)微型企業(yè)的特征,運(yùn)用Logit模型進(jìn)行實(shí)證分析,銀行可以借助該模型對(duì)微企的信用風(fēng)險(xiǎn)進(jìn)行評(píng)估[9];方匡南,范新妍等人指出傳統(tǒng)的Logistic回歸建立企業(yè)運(yùn)行風(fēng)險(xiǎn)預(yù)警模型效果不夠好,提出了基于網(wǎng)絡(luò)結(jié)構(gòu)關(guān)系的Logistic模型[10];楊俊等人使用Gradient Boosting算法對(duì)中國(guó)建設(shè)銀行上海分行的企業(yè)貸款客戶數(shù)據(jù)建立模型,并和邏輯回歸以及專家規(guī)則進(jìn)行橫向比較,結(jié)果表明Gradient Boosting算法的模型要優(yōu)于另外兩種模型[11];熊正得等人利用因子分析法對(duì)深滬A股上市的制造企業(yè)財(cái)務(wù)數(shù)據(jù)構(gòu)建風(fēng)險(xiǎn)評(píng)價(jià)體系,并在違約測(cè)度階段應(yīng)用Logistic回歸對(duì)不同組樣本進(jìn)行測(cè)度[12];劉丹等人使用證據(jù)權(quán)重、逐步回歸對(duì)信用評(píng)價(jià)指標(biāo)進(jìn)行篩選,構(gòu)建一套具有區(qū)分違約能力的信用風(fēng)險(xiǎn)模型[13];劉麗君、韓靜磊等人運(yùn)用WOE法評(píng)估了生活垃圾焚燒廠固化飛灰中重金屬的非致癌健康風(fēng)險(xiǎn),并將其與傳統(tǒng)的非致癌健康風(fēng)險(xiǎn)評(píng)價(jià)方法進(jìn)行比較[14];趙雅迪等人通過(guò)信息值(information value,Ⅳ)及證據(jù)權(quán)重轉(zhuǎn)化(weight of evidence,WOE)結(jié)合邏輯回歸算法構(gòu)建用電客戶電費(fèi)風(fēng)險(xiǎn)預(yù)測(cè)模型[15];陳超等人采用卡方分箱法和WOE編碼判別確定影響轉(zhuǎn)爐理想終點(diǎn)目標(biāo)的關(guān)鍵工藝參數(shù),并且運(yùn)用邏輯回歸算法對(duì)編碼后數(shù)據(jù)構(gòu)建的轉(zhuǎn)爐操作工藝評(píng)價(jià)模型[16];危明鑄等人在企業(yè)信用風(fēng)險(xiǎn)預(yù)測(cè)上綜合運(yùn)用了各種機(jī)器學(xué)習(xí)算法比較各種方法的優(yōu)缺點(diǎn)[17]。

本文對(duì)過(guò)去一定時(shí)期(如1年)出現(xiàn)過(guò)信用風(fēng)險(xiǎn)事件(如偷稅、行政處罰等)的企業(yè)數(shù)據(jù)集,根據(jù)國(guó)家“企業(yè)信用風(fēng)險(xiǎn)分類(lèi)評(píng)價(jià)標(biāo)準(zhǔn)”系統(tǒng)建立企業(yè)信用評(píng)價(jià)指標(biāo)體系。應(yīng)用機(jī)器學(xué)習(xí)方法預(yù)處理評(píng)價(jià)指標(biāo)數(shù)據(jù)集,如特征選擇(information value,IV)、缺失值處理、異常值處理,并將評(píng)價(jià)指標(biāo)以證據(jù)權(quán)重(Weight of Evidence,WOE)編碼方式離散化形成woe數(shù)據(jù)集,之后結(jié)合邏輯回歸算法學(xué)習(xí)企業(yè)過(guò)去發(fā)生信用風(fēng)險(xiǎn)事件與否的規(guī)律,建模企業(yè)信用風(fēng)險(xiǎn)評(píng)分模型。

1? 相關(guān)技術(shù)

1.1 邏輯回歸

邏輯回歸(Logistic regression)是一種比較流行的二分類(lèi)的機(jī)器學(xué)習(xí)算法。例如,探討企業(yè)信用風(fēng)險(xiǎn)與那些變量有關(guān),可將企業(yè)數(shù)據(jù)集標(biāo)記為兩組,假設(shè)存在信用風(fēng)險(xiǎn)的一組企業(yè)標(biāo)記為1,那么沒(méi)有信用風(fēng)險(xiǎn)的一組為0,并用Y表示響應(yīng)變量,X表示自變量,邏輯回歸用(1)式表達(dá):

上面(8)式即為邏輯回歸的最后表達(dá)式,且有:,即與變量X為線性關(guān)系,而(9)式可以通過(guò)最大似然估計(jì)及梯度上升法[18]求解。

1.2 信息價(jià)值和證據(jù)權(quán)重

信息價(jià)值(Information Value,IV)是訓(xùn)練模型之前所提取的有效的信息量,亦即提取有用的變量信息作為建模。當(dāng)經(jīng)典的邏輯回歸算法用于自變量多的企業(yè)數(shù)據(jù)建立分類(lèi)模型時(shí),經(jīng)常存在諸多不足。譬如變量共線比較敏感、很難擬合真實(shí)的數(shù)據(jù)分布,因此需要對(duì)自變量進(jìn)行特征篩選,因此引入信息價(jià)值。

IV可以根據(jù)量化指標(biāo)的大小來(lái)衡量自變量的預(yù)測(cè)能力,它基于信息熵作為測(cè)量單位。信息熵用來(lái)描述“一個(gè)系統(tǒng)的混亂程度”,通常是度量樣本集合純度的一種指標(biāo)。所謂“純”,就是讓分類(lèi)器的一個(gè)分支擁有相同的屬性。當(dāng)熵為1時(shí),表示企業(yè)數(shù)據(jù)中某個(gè)變量趨于一個(gè)分段,此時(shí)信息價(jià)值IV較小;當(dāng)熵為0時(shí),表示企業(yè)數(shù)據(jù)中某個(gè)變量存在多個(gè)分段,此時(shí)信息價(jià)值IV較大。

設(shè)X是x個(gè)企業(yè)數(shù)據(jù)樣本的集合,具有個(gè)不同的連續(xù)變量,其概率密度函數(shù)為,它的信息熵表示如下[19]:

(10)式中E表示數(shù)學(xué)期望。

由于信息熵能夠精確地描述企業(yè)信用有風(fēng)險(xiǎn)與無(wú)風(fēng)險(xiǎn)樣本分布,本文將其引入企業(yè)信用風(fēng)險(xiǎn)評(píng)估中。對(duì)于給定的變量x,按照企業(yè)數(shù)據(jù)集將其分成兩部分,對(duì)應(yīng)有信用風(fēng)險(xiǎn)的數(shù)據(jù)密度概率為,對(duì)應(yīng)無(wú)信用風(fēng)險(xiǎn)的數(shù)據(jù)密度概率為,即IV值由有信用風(fēng)險(xiǎn)的數(shù)據(jù)分布與無(wú)信用風(fēng)險(xiǎn)的數(shù)據(jù)分布之比的信息熵加上無(wú)信用風(fēng)險(xiǎn)的數(shù)據(jù)分布與有信用風(fēng)險(xiǎn)的數(shù)據(jù)分布之比的信息熵[20]:

(13)式表明WOE為企業(yè)無(wú)信用風(fēng)險(xiǎn)概率與企業(yè)有信用風(fēng)險(xiǎn)概率之比取自然對(duì)數(shù)。到此,可以將(12)、(13)式寫(xiě)在一起,得到IV與WOE的關(guān)系式:

在企業(yè)信用風(fēng)險(xiǎn)評(píng)估模型中,我們需要選擇具有好的預(yù)測(cè)能力變量,即要求信息價(jià)值值大。值越大,說(shuō)明該變量對(duì)無(wú)信用風(fēng)險(xiǎn)的企業(yè)與有信用風(fēng)險(xiǎn)企業(yè)的區(qū)分度越大。從(14)關(guān)系式中可知,為了使得較大,必須保證該變量的WOE與分布函數(shù)具有一致性,亦即WOE與企業(yè)的數(shù)據(jù)分布單調(diào)一致,否則需要根據(jù)實(shí)際業(yè)務(wù)中的情況進(jìn)行具體的分析。

2? 建模與過(guò)程

本文的企業(yè)信用風(fēng)險(xiǎn)評(píng)估使用評(píng)分卡的方式建立模型。評(píng)分卡是當(dāng)前運(yùn)用比較廣泛的信用風(fēng)險(xiǎn)評(píng)價(jià)方法,其原理是將評(píng)價(jià)指標(biāo)以證據(jù)權(quán)重(WOE)編碼方式離散化之后,再運(yùn)用邏輯回歸進(jìn)行模型訓(xùn)練。該方法的特點(diǎn)為可解釋性強(qiáng),模型結(jié)果穩(wěn)定。

整個(gè)建模過(guò)程包括數(shù)據(jù)獲取和整合、目標(biāo)確定和訓(xùn)練窗口選擇、變量分段并計(jì)算信息價(jià)值、模型訓(xùn)練及模型評(píng)價(jià)。

2.1 數(shù)據(jù)獲取和整合

根據(jù)企業(yè)該領(lǐng)域的特殊性,文本在建模中抽取以下三類(lèi)變量:

(1)原始變量。這些變量從數(shù)據(jù)庫(kù)中提取,概括了基本情況、各類(lèi)原始明細(xì)等。通常來(lái)說(shuō),這些變量易于理解,但往往不是對(duì)模型最有效的;

(2)衍生業(yè)務(wù)指標(biāo)。這些字段來(lái)源于原始變量,有明確業(yè)務(wù)含義(如企業(yè)過(guò)去3年被投訴舉報(bào)數(shù)量),這些變量通常比原始變量有更好地預(yù)測(cè)能力,也是評(píng)分卡最常用指標(biāo)。然而,這些數(shù)據(jù)通常不自然存在于數(shù)據(jù)庫(kù)中,需要在實(shí)施階段通過(guò)計(jì)算得到;

(3)衍生模型指標(biāo)。這些變量由分析人員對(duì)原始數(shù)據(jù)進(jìn)行多層轉(zhuǎn)換和計(jì)算,通常由其他模型計(jì)算得出(如輿情風(fēng)險(xiǎn)指數(shù)),這些變量的預(yù)測(cè)能力一般是很好的,但和衍生業(yè)務(wù)指標(biāo)相比,最大的區(qū)別在于缺少簡(jiǎn)單清晰的業(yè)務(wù)含義,由模型高度抽象后計(jì)算得出。

2.2 目標(biāo)確定和訓(xùn)練窗口選擇

針對(duì)過(guò)去出現(xiàn)過(guò)信用風(fēng)險(xiǎn)事件的企業(yè),其目標(biāo)變量標(biāo)記為1,過(guò)去未出現(xiàn)過(guò)信用風(fēng)險(xiǎn)事件的企業(yè),其目標(biāo)變量標(biāo)記為0。

評(píng)分卡模型是用特定時(shí)間段的數(shù)據(jù)訓(xùn)練的,這個(gè)特定時(shí)間段被稱為建模窗口。選用窗口過(guò)短,企業(yè)數(shù)據(jù)在短期內(nèi)波動(dòng)頻繁,容易引起模型預(yù)測(cè)結(jié)果的偏差,窗口過(guò)長(zhǎng)則模型對(duì)企業(yè)及周?chē)h(huán)境的反應(yīng)容易產(chǎn)生滯后現(xiàn)象。本文以1年為上限,即模型將預(yù)測(cè)企業(yè)在未來(lái)一年內(nèi)是否發(fā)生信用風(fēng)險(xiǎn)事件的概率。

2.3 變量分段并計(jì)算信息價(jià)值

實(shí)際的企業(yè)信用風(fēng)險(xiǎn)數(shù)據(jù)集中變量有兩種情況,分別是定性變量和定量變量。

對(duì)于類(lèi)別變量,已分好段,直接計(jì)算IV值;對(duì)于連續(xù)變量和離散變量,假設(shè)將變量X2分成K段,我們需要尋找K-1分點(diǎn)使得WOE與該變量保持單調(diào)性。必須注意的是變量X2可能有多種劃分保證這種單調(diào)性,這時(shí)我們選取IV的最大值作為最優(yōu)分箱結(jié)果。

分段后,設(shè)PBK、PGK分別表示變量X2第K段對(duì)應(yīng)目標(biāo)變量為1(有信用風(fēng)險(xiǎn))和0(無(wú)信用風(fēng)險(xiǎn))的比例, 由(13)、(14)式得到:

其中,

有了每個(gè)分段的WOEK后,變量X2的信息價(jià)值的定義如下:

計(jì)算完IV后,根據(jù)實(shí)際企業(yè)業(yè)務(wù)情況,選擇IV≥0.01的變量入模,因?yàn)镮V在0.01以下的變量幾乎毫無(wú)預(yù)測(cè)能力,可舍棄。

2.4 模型訓(xùn)練

模型的理論基礎(chǔ)為邏輯回歸算法,計(jì)算模型事件發(fā)生(本文y=1,即出現(xiàn)過(guò)信用風(fēng)險(xiǎn)事件)的概率,有(8)式展開(kāi)得:

這里,表示截距,為邏輯回歸中的系數(shù),由最大似然法(ML)求解,為原始變量經(jīng)轉(zhuǎn)換后的WOE值。

模型開(kāi)始訓(xùn)練時(shí),通常會(huì)選擇用逐步回歸對(duì)變量持續(xù)進(jìn)行篩選,每一步都移入對(duì)模型預(yù)測(cè)能力有幫助的變量,同時(shí)移除對(duì)模型無(wú)增益的變量。

除了模型本身對(duì)變量的選擇外,還考慮其它因素對(duì)變量進(jìn)行選擇,如下幾項(xiàng):

(1)變量獨(dú)立:即共線問(wèn)題。回歸中的多重共線性是一個(gè)當(dāng)模型中一些預(yù)測(cè)變量與其他預(yù)測(cè)變量高度相關(guān)時(shí)發(fā)生的條件。嚴(yán)重的多重共線性可能會(huì)產(chǎn)生問(wèn)題,因?yàn)樗梢栽龃蠡貧w系數(shù)的方差,使它們變得不穩(wěn)定。

(2)變量一致性:即變量訓(xùn)練出來(lái)的參數(shù)正負(fù)性,和變量與目標(biāo)變量的相關(guān)系數(shù)正負(fù)性必須一致,否則說(shuō)明變量有偏差,需剔除;

(3)變量可解釋性:即變量及其變化趨勢(shì)是可以被業(yè)務(wù)理解和使用的,而不是完全黑盒不可解釋,或者變量趨勢(shì)無(wú)業(yè)務(wù)含義。

2.5 模型評(píng)價(jià)

模型性能的好壞決定其在實(shí)際中的應(yīng)用效果,良好的模型會(huì)真實(shí)地反映出企業(yè)的發(fā)展趨勢(shì)。本文采用“柯?tīng)柲缏宸?斯米爾諾夫曲線”和“受試者工作特征”對(duì)企業(yè)信用風(fēng)險(xiǎn)模型進(jìn)行性能評(píng)價(jià)。

(1)柯?tīng)柲缏宸?斯米爾諾夫曲線(Kolmogorov-Smirnov,K-S):將總體樣本進(jìn)行n等分(通常選用較大數(shù)值,如1000),并按模型計(jì)算出的違約概率降序排序,計(jì)算每一等分中信用風(fēng)險(xiǎn)事件發(fā)生的累計(jì)百分比(Bad)和信用風(fēng)險(xiǎn)事件未發(fā)生的累計(jì)百分比(Good),繪制出兩者的差異,驗(yàn)證兩者的一致性。

(2)受試者工作特征(Receiver Operating Characteristic,ROC)曲線:通過(guò)在0到1之間改變用于創(chuàng)建混淆矩陣(Confusion Matrix)的臨界值,繪制Sensitivity(靈敏度)與1-Specificity(1-特殊度)曲線。ROC曲線下的面積為AUC統(tǒng)計(jì)量,一般認(rèn)為AUC統(tǒng)計(jì)量≥0.75時(shí),建立的模型具有較好的預(yù)測(cè)能力。

3? 實(shí)例分析

3.1 數(shù)據(jù)說(shuō)明與指標(biāo)體系

本節(jié)先根據(jù)“國(guó)家‘互聯(lián)網(wǎng)+監(jiān)管系統(tǒng)企業(yè)信用風(fēng)險(xiǎn)分類(lèi)評(píng)價(jià)標(biāo)準(zhǔn)”建立企業(yè)信用風(fēng)險(xiǎn)指標(biāo)體系,再?gòu)膹V東省各個(gè)行政部門(mén)獲取過(guò)去一年內(nèi)的企業(yè)有關(guān)數(shù)據(jù)集共1000條記錄。我們隨機(jī)選擇700條記錄作為模型訓(xùn)練集;剩余300條記錄作為測(cè)試集,用來(lái)驗(yàn)證模型的性能及有效性。其數(shù)據(jù)格式與指標(biāo)體系分別如表1、表2所示。

3.2 前期工作

對(duì)1000條企業(yè)信用記錄,鑒于每條記錄擁有51個(gè)變量,可以考慮在建模前對(duì)了進(jìn)行一些預(yù)處理工作。如下是實(shí)例分析前對(duì)數(shù)據(jù)集進(jìn)行的預(yù)處理說(shuō)明。

(1)變量的相同率:指的是某個(gè)數(shù)據(jù)集中某個(gè)變量的值有多少個(gè)是相同的。高度一致的變量值包含的信息量少,無(wú)法區(qū)分各條記錄的差異,因此會(huì)導(dǎo)致該變量對(duì)模型的建立不起作用。本文定義變量的相同率閾值identical_limit0.9,高于0.9的變量直接刪除;

(2)缺失值:這是數(shù)據(jù)挖掘建模中不可避免的步驟,造成數(shù)據(jù)缺失的原因是多方面的,文本根據(jù)企業(yè)業(yè)務(wù)情況,某變量的缺失率閾值missing_limit0.8,高于0.8的變量直接刪除,其余用到如圖1的方式處理。

3.3 結(jié)果分析

實(shí)例分別運(yùn)用經(jīng)典邏輯回歸及證據(jù)權(quán)重邏輯回歸對(duì)企業(yè)信用風(fēng)險(xiǎn)數(shù)據(jù)集建模,并在訓(xùn)練集、測(cè)試集采用(Kolmogorov-Smirnov,K-S)、(Receiver Operating Characteristic,ROC)曲線檢驗(yàn)?zāi)P偷挠行浴?/p>

圖2、圖3為證據(jù)權(quán)重邏輯回歸法在訓(xùn)練集、測(cè)試集的K-S、ROC曲線圖。其中,圖中的虛線為訓(xùn)練集、測(cè)試集的Good數(shù)據(jù)(企業(yè)無(wú)信用風(fēng)險(xiǎn))與Bad(企業(yè)有信用風(fēng)險(xiǎn))的累積概率分布,其意義表示兩個(gè)分布函數(shù)是否有差異,用p值衡量,并設(shè)置顯著水平為λ=0.05。這里,模型在訓(xùn)練集、測(cè)試集均有,說(shuō)明兩者來(lái)自同一分布。此外,K-S值越大模型性能越好,而模型在訓(xùn)練集、測(cè)試集中分別有K-S=0.5541、K-S=0.5404,查看表3的參考值可知,模型具有非常好的分辨力能。再者,模型在訓(xùn)練集、測(cè)試集的ROC曲線都有不錯(cuò)的表現(xiàn),由其與橫坐標(biāo)圍成的圖形面積值分別為AUC=0.8279、AUC=0.8097,均大于0.75,說(shuō)明模型的二分類(lèi)性能良好。最后,我們根據(jù)二分類(lèi)的混合矩陣分析模型在預(yù)測(cè)陰性(文本為‘無(wú)信用風(fēng)險(xiǎn)企業(yè))和陽(yáng)性(文本為‘有信用風(fēng)險(xiǎn)企業(yè))的單側(cè)能力,模型的混合矩陣如表4、表5所示。從表中看到模型在訓(xùn)練集中識(shí)別“有信用風(fēng)險(xiǎn)”的記錄能力為88.1%,201條‘有風(fēng)險(xiǎn)的記錄只有24條記錄被錯(cuò)誤預(yù)測(cè)為‘無(wú)風(fēng)險(xiǎn);在測(cè)試集中識(shí)別“有信用風(fēng)險(xiǎn)”的記錄能力為83.0%,87條‘有風(fēng)險(xiǎn)的記錄只有14條記錄被錯(cuò)誤預(yù)測(cè)為‘無(wú)風(fēng)險(xiǎn);同時(shí),模型在上述數(shù)據(jù)集的整體準(zhǔn)確率分別為85.6%、82.5%。

圖4、圖5為經(jīng)典邏輯回歸算法在訓(xùn)練集、測(cè)試集的K-S、ROC曲線圖,其在訓(xùn)練集和測(cè)試集K-S的值分別為0.5225、0.4306;ROC中的AUC值分別為0.8387、0.7667,很明顯經(jīng)典邏輯算法在訓(xùn)練集上有過(guò)擬合現(xiàn)象。

不論從K-S值或ROC中的AUC值比較,實(shí)例證明帶證據(jù)權(quán)重邏輯回歸法在企業(yè)信用風(fēng)險(xiǎn)模型評(píng)估中顯然由于經(jīng)典的邏輯回歸算法。

4? 結(jié)語(yǔ)

本文基于廣東省有關(guān)行政部門(mén)的真實(shí)企業(yè)數(shù)據(jù),應(yīng)用證據(jù)權(quán)重邏輯回歸對(duì)其進(jìn)行信用風(fēng)險(xiǎn)建模。通過(guò)對(duì)模型的K-S值和ROC中AUC值作了深入分析,并與經(jīng)典的邏輯回歸做比較,實(shí)例驗(yàn)證了帶證據(jù)權(quán)重邏輯回歸法在預(yù)測(cè)企業(yè)信用方面的有效性。展望未來(lái),我們會(huì)應(yīng)用決策樹(shù)算法的信息增益結(jié)合證據(jù)權(quán)重再次探討它們?cè)谄髽I(yè)信用風(fēng)險(xiǎn)評(píng)估中的效果,然后做一個(gè)全面的分析、歸納。

參考文獻(xiàn)

[1] 國(guó)務(wù)院辦公廳關(guān)于推廣隨機(jī)抽查規(guī)范事中事后監(jiān)管的通知[EB/OL].http://www.gov.cn/zhengce/content/2015-08/05/content_10051.htm.

[2] 國(guó)務(wù)院關(guān)于“先照后證”改革后加強(qiáng)事中事后監(jiān)管的意見(jiàn)[EB/OL].http://www.gov.cn/zhengce/content/2015-11/03/content_10263.htm.

[3] 國(guó)務(wù)院關(guān)于印發(fā)2016年推進(jìn)簡(jiǎn)政放權(quán)放管結(jié)合優(yōu)化服務(wù)改革工作要點(diǎn)的通知[EB/OL].http://www.gov.cn/zhengce/content/2016-05/24/content_5076241.htm.

[4] Odom M D,Sharda R.A neural network model for bankruptcy prediction[C]// IJCNN International Joint Conference on Neural Networks.IEEE, 1990:163-168.

[5] Prinzie A,Poel D V D. Random forest for multiclass classification: random multinomial logit[J]. Working Papers of Faculty of Economics & Business Administration Ghent University Belgium, 2008,34(3):1721-1732.

[6] Yeh C C, Lin F, Hsu C Y. A hybrid KMV model, random forests and rough set theory approach for credit rating[J]. Knowledge-Based Systems, 2012, 33(3):166-172.

[7] Kartasheva A V, Traskin M. Insurers insolvency prediction using random forest classification[J]. Social Science Electronic Publishing, 2013, 10(3): 16-62.

[8] 吳麗麗. 基于Logistic回歸模型的商業(yè)銀行信用風(fēng)險(xiǎn)管理研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2007.

[9] 郭玉華. 微型企業(yè)信用風(fēng)險(xiǎn)評(píng)估——基于Logit模型的分析[J]. 經(jīng)濟(jì)論壇,2011(11):213-216.

[10] 方匡南,范新妍,馬雙鴿.基于網(wǎng)絡(luò)結(jié)構(gòu)Logistic模型的企業(yè)信用風(fēng)險(xiǎn)預(yù)警[J].統(tǒng)計(jì)研究,2016,33(4):50-55.

[11] 楊俊,夏晨琦.基于Gradient Boosting算法的小企業(yè)信用風(fēng)險(xiǎn)評(píng)估[J].浙江金融,2017(9):44-50.

[12] 熊正德,張帆,熊一鵬.引入WFCM算法能提高信用違約測(cè)度模型準(zhǔn)確率嗎?——以滬深A(yù)股制造業(yè)上市公司為樣本的實(shí)證研究[J]. 財(cái)經(jīng)理論與實(shí)踐,2018(1):147-153.

[13] 基于WOE-Probit逐步回歸的信用指標(biāo)組合篩選模型及應(yīng)用[J]. 管理科學(xué),2018,48(2):76-87.

[14] 劉麗君,韓靜磊,錢(qián)益斌,等.利用靶器官毒性劑量法(TTD)和證據(jù)權(quán)重分析法(WOE) 評(píng)估固化飛灰中重金屬非致癌健康風(fēng)險(xiǎn)[J]. 環(huán)境化學(xué),2019,38(5):1014-1020.

[15]趙雅迪,吳釗,李慶兵,等.電費(fèi)回收風(fēng)險(xiǎn)預(yù)測(cè)的大數(shù)據(jù)方法應(yīng)用[J]. 電信科學(xué),2019,35(2):125-133.

[16] 陳超,王楠,于海洋,等.基于卡方分箱法和邏輯回歸算法的轉(zhuǎn)爐操作工藝評(píng)價(jià)模型[J]. 材料與冶金學(xué)報(bào),2019,18(2):87-91.

[17] 危明鑄,麥偉杰,袁峰,等.基于機(jī)器學(xué)習(xí)企業(yè)運(yùn)行風(fēng)險(xiǎn)研究[J]. 軟件,2019,40(8):29-37.

[18] H?rdleW, Sperlich S, et al. Nonparametric and semiparametric models[M]. Berlin: Springer, 2004:145-165.

[19] Siddiqi N. Credit risk scorecards[M]. John Wiley & Sons, 2006: 70-125.

[20] Good I J. Weight of evidence: a brief survey[J]. Bayesian statistics. North Holland, Amsterdam 1983, 2: 249-269.

猜你喜歡
企業(yè)信用信用風(fēng)險(xiǎn)
揚(yáng)州市穩(wěn)步推進(jìn)安全生產(chǎn)領(lǐng)域企業(yè)信用修復(fù)
泰州市推行企業(yè)信用修復(fù)全鏈條服務(wù)模式
“涉軍”企業(yè)信用評(píng)價(jià)擴(kuò)大試點(diǎn)工作即將啟動(dòng)
影響企業(yè)信用政策制定的因素分析
“涉軍”企業(yè)信用評(píng)論擴(kuò)大試點(diǎn)工作即將啟動(dòng)
淺析我國(guó)商業(yè)銀行信用風(fēng)險(xiǎn)管理
京東商城電子商務(wù)信用風(fēng)險(xiǎn)防范策略
PPP項(xiàng)目發(fā)行中期票據(jù)的可能性與信用風(fēng)險(xiǎn)分析
個(gè)人信用風(fēng)險(xiǎn)評(píng)分的指標(biāo)選擇研究
上市公司信用風(fēng)險(xiǎn)測(cè)度的不確定性DE-KMV模型
那坡县| 正镶白旗| 马关县| 凭祥市| 永定县| 香港 | 贵德县| 北京市| 邹城市| 呈贡县| 安平县| 团风县| 华阴市| 博乐市| 屏东县| 临桂县| 尼玛县| 鄂托克前旗| 太湖县| 清水河县| 潍坊市| 邯郸市| 师宗县| 德州市| 滦平县| 乐东| 凤凰县| 新巴尔虎左旗| 都兰县| 如皋市| 日土县| 新竹县| 全南县| 永靖县| 五台县| 铅山县| 茶陵县| 宜章县| 泰顺县| 塔河县| 宝山区|