牟 剛,袁先智
(同濟(jì)大學(xué)數(shù)學(xué)系,上海200092)
大數(shù)據(jù)架構(gòu)下企業(yè)內(nèi)部信用評級的實證研究
牟 剛,袁先智*
(同濟(jì)大學(xué)數(shù)學(xué)系,上海200092)
研究了大數(shù)據(jù)背景下企業(yè)高級量化分析的方案,并針對某企業(yè)內(nèi)部的信用評級案例進(jìn)行了實證研究.通過考慮企業(yè)業(yè)務(wù),信息技術(shù)和數(shù)學(xué)模型三方面的整合,提出了全新的企業(yè)高級量化分析平臺,把大數(shù)據(jù)和大計算有機(jī)的結(jié)合起來.在這個平臺上結(jié)合實際數(shù)據(jù),使用邏輯回歸模型進(jìn)行了信用評級.新的評級模型很好的區(qū)分了不同客戶的資信好壞.研究發(fā)現(xiàn),模型選擇和元模型庫的建立對于企業(yè)高級量化分析工作至關(guān)重要.
信用評級;Logistic回歸;大數(shù)據(jù);金融模型
從2010年以來,“大數(shù)據(jù)”成為全球非常流行的一個關(guān)鍵詞,原因在于大數(shù)據(jù)框架是革命性工具可以滿足層出不窮的業(yè)界需求.McAfee等[1]關(guān)于大數(shù)據(jù)對管理帶來了革命性挑戰(zhàn)的討論.另外,魏偉[2]也討論了基于大數(shù)據(jù)背景下銀行業(yè)面對互聯(lián)網(wǎng)金融挑戰(zhàn)的應(yīng)對策略思考,最近李平等[3]也對目前互聯(lián)網(wǎng)金融的發(fā)展與研究進(jìn)行了綜述討論.本文的目的基于作者過去幾年從學(xué)術(shù)理論研究和業(yè)界實踐經(jīng)驗兩方面對大數(shù)據(jù)的理解,結(jié)合企業(yè)現(xiàn)狀提出了全新的大數(shù)據(jù)架構(gòu),并結(jié)合具體的企業(yè)信用業(yè)評級案例,使用Logistic回歸進(jìn)行實際應(yīng)用.整個過程整合了企業(yè)的業(yè)務(wù),信息技術(shù)和數(shù)學(xué)模型三個方面的能力,探索了一條從實際問題出發(fā),并結(jié)合大數(shù)據(jù),應(yīng)用數(shù)學(xué)模型的解決管理問題的新思路.試圖把成熟的金融模型應(yīng)用到實際的企業(yè)數(shù)據(jù)中,從而結(jié)合模型和數(shù)據(jù)的雙重價值.研究發(fā)現(xiàn),實踐中復(fù)雜的模型在應(yīng)用中可能出現(xiàn)難以解釋和描述實際問題的情況.因此建議從簡單模型入手,逐漸增加需要考慮的因子,建立更復(fù)雜的模型,從而在實踐中更具可行性.
1.1 大數(shù)據(jù)的定義和應(yīng)用
大數(shù)據(jù)是一個特別流行的術(shù)語,它通常指的是任意一個很大很復(fù)雜的數(shù)據(jù)集,規(guī)模大到不能用傳統(tǒng)軟件在合理時間內(nèi)進(jìn)行抽取,轉(zhuǎn)化,分析,存儲,處理和可視化等操作.通常大數(shù)據(jù)具有“4v”的特點,分別是數(shù)據(jù)量大(volume),數(shù)據(jù)增長的速度高(velocity),數(shù)據(jù)來源多樣(variety)和數(shù)據(jù)的真實性(veracity).目前對于大數(shù)據(jù)的基本理解是TB或者PB級別的數(shù)據(jù)就是大數(shù)據(jù).目前主流的大數(shù)據(jù)實現(xiàn)平臺是基于Google 2004年發(fā)表的MapReduce算法.目前Apache的Hadoop是這一算法的開源實現(xiàn).Spark是MapReduce算法的另外一種實現(xiàn),相對于Hadoop它使用了大量的內(nèi)存計算,同時提供了流數(shù)據(jù)處理,圖算法和機(jī)器學(xué)習(xí)的包.需要注意到的是,大數(shù)據(jù)當(dāng)前更多的是應(yīng)用于互聯(lián)網(wǎng)搜索和社交網(wǎng)絡(luò),而企業(yè)中的業(yè)務(wù)數(shù)據(jù),更多的是結(jié)構(gòu)化的數(shù)據(jù).如何建立有效的大數(shù)據(jù)架構(gòu),借鑒現(xiàn)有的數(shù)學(xué)模型,應(yīng)用于企業(yè)管理,是當(dāng)前面臨的挑戰(zhàn).
1.2 大數(shù)據(jù)在企業(yè)中應(yīng)用的解讀
大數(shù)據(jù)在企業(yè)應(yīng)用中需要關(guān)注四個方面:1)如何應(yīng)對結(jié)構(gòu)化和非結(jié)構(gòu)化的海量數(shù)據(jù)抽取,轉(zhuǎn)換和裝載(ETL)并生成相應(yīng)的匯總/報表,2)如何對海量數(shù)據(jù)進(jìn)行高效的科學(xué)計算,3)如何把數(shù)據(jù)密集和計算密集的應(yīng)用有機(jī)的結(jié)合起來建立使用的模型以及4)如何將分析的結(jié)果通過可視化的工具展現(xiàn).目前在企業(yè)中,對于1)和4)有很多應(yīng)用和實踐,而對于中間兩點,缺乏相應(yīng)的技術(shù)和模型.高校/科研院所在2)和3)有很多前沿研究,但是對于其他兩點,缺乏相關(guān)的工程化經(jīng)驗和數(shù)據(jù).從這個角度來說,企業(yè)和高校/科研院所具有很高的互補性.
銀行有很多成熟的風(fēng)險管理和定價模型,這些模型在應(yīng)用的時候往往碰到數(shù)據(jù)不夠,參數(shù)難以估計的問題.即使有數(shù)據(jù),也往往來自于企業(yè)提供的報表,評級公司的評級,各種行業(yè)報告數(shù)據(jù)等.數(shù)據(jù)的準(zhǔn)確性和可靠性值得商榷.這也是直接導(dǎo)致模型的結(jié)果和實際的結(jié)果偏差比較大的一個主要原因.在大數(shù)據(jù)的背景下,使用已經(jīng)收集的真實歷史數(shù)據(jù)來動態(tài)實時估計模型的參數(shù)進(jìn)行計算,是解決現(xiàn)有金融數(shù)據(jù)/模型失真的一個關(guān)鍵.既使用企業(yè)的真實數(shù)據(jù),套用成熟的金融模型,解答業(yè)務(wù)提出的問題.
一般而言,數(shù)據(jù)的數(shù)據(jù)量在Terabyte和Petabyte之間可以稱為大數(shù)據(jù),一個典型的,10萬人左右的全球五百強(qiáng)企業(yè)的數(shù)據(jù)量在16 PB級別,其中管理/運營所產(chǎn)生的數(shù)據(jù)量在4 PB左右.
數(shù)據(jù)的多樣性是指不同類型的數(shù)據(jù),包括了結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù).典型的數(shù)據(jù)類型包括ERP系統(tǒng)的歷史數(shù)據(jù)和用于智能化工業(yè)生產(chǎn)的傳感器數(shù)據(jù)等,除此之外,文本,微博,音頻,視頻及日志等也作為數(shù)據(jù)的來源.
數(shù)據(jù)的速度是另外一個話題,實時性會完全改變業(yè)務(wù)的模式和決策的結(jié)果.傳統(tǒng)的企業(yè)數(shù)據(jù)倉庫,往往由于性能限制,只能給出隔天的分析結(jié)果.實時的分析結(jié)果,可以幫助決策者做出即時決定,扁平化組織,將組織現(xiàn)狀透明化,這些都對業(yè)務(wù)產(chǎn)生新的價值.
數(shù)據(jù)的真實性對于模型的準(zhǔn)確性至關(guān)重要,甄別數(shù)據(jù)真實性,最關(guān)鍵的判別標(biāo)準(zhǔn)之一是數(shù)據(jù)是客觀收集還是被動填寫.客觀收集意味著在真實交易過程中得到的數(shù)據(jù),或者在被收集人不知道情況下采集的數(shù)據(jù).在這一過程中,數(shù)據(jù)不確定性是可以接受的,通過數(shù)據(jù)質(zhì)量驗證過程可以保證數(shù)據(jù)的準(zhǔn)確性,在需要的情況下可以進(jìn)行數(shù)據(jù)的校準(zhǔn).人為填寫的數(shù)據(jù)受心理,環(huán)境,時間,地點等多重因素的共同干擾,往往不能真實的反應(yīng)實際的業(yè)務(wù)情況.
落實大數(shù)據(jù)概念所需關(guān)注重點是通過適當(dāng)?shù)募軜?gòu),配合企業(yè)現(xiàn)有IT應(yīng)用,建立相應(yīng)的數(shù)學(xué)模型庫.
基于如上的大數(shù)據(jù)概念,結(jié)合當(dāng)前某企業(yè)的實際情況,提出新的企業(yè)大數(shù)據(jù)架構(gòu).這一架構(gòu)分為數(shù)據(jù)層,模型實現(xiàn)層和展示層三個部分.數(shù)據(jù)層主要是通過數(shù)據(jù)的結(jié)構(gòu)和收集,體現(xiàn)業(yè)務(wù)人員對于業(yè)務(wù)的理解;模型實現(xiàn)層通過統(tǒng)計分析平臺和CPU/GPU混合高性能計算平臺來實現(xiàn)數(shù)學(xué)模型庫,體現(xiàn)了分析人員數(shù)學(xué)模型的構(gòu)建能力;而展現(xiàn)層,則通過的J2EE Web服務(wù)將內(nèi)嵌在工業(yè)標(biāo)準(zhǔn)HTML5的可視化圖表在筆記本/平板電腦/手機(jī)等設(shè)備上展示出來,體現(xiàn)了IT人員的實施能力.而其中的核心就是通過最新的SAP HANA的內(nèi)存數(shù)據(jù)庫將業(yè)務(wù),數(shù)學(xué)模型和IT緊密結(jié)合在一起.
將現(xiàn)有的傳統(tǒng)ERP數(shù)據(jù)實時的通過Sybase Replication Server復(fù)制到HANA內(nèi)存數(shù)據(jù)庫中.這個復(fù)制不單是抽取某一個ERP系統(tǒng)的數(shù)據(jù)而是將企業(yè)全球各個地區(qū)的數(shù)據(jù)實時復(fù)制,從而達(dá)到企業(yè)運營管理透明的目的.在這一過程中,最關(guān)鍵是主數(shù)據(jù)的管理.在企業(yè)實踐中,往往從最小的公共子集開始拓展,定義元數(shù)據(jù),通過數(shù)據(jù)總線把元數(shù)據(jù)同步到各個ERP系統(tǒng)的實例中.通過這個步驟,增加企業(yè)運營的透明度,同時在企業(yè)中提倡數(shù)據(jù)民主的概念,即數(shù)據(jù)是企業(yè)的共有財產(chǎn),而非企業(yè)某個地區(qū)或部門的私有財產(chǎn).
將現(xiàn)有的企業(yè)中其它系統(tǒng)的數(shù)據(jù),業(yè)務(wù)人員使用的類似于Excel表/Access數(shù)據(jù)庫等本地數(shù)據(jù)庫中的數(shù)據(jù),通過HANA的Data Service導(dǎo)入HANA數(shù)據(jù)庫.將存儲在Hadoop/Spark平臺上的超大數(shù)據(jù)集,使用MapReduce等方法,提取數(shù)字特征,將統(tǒng)計/匯總結(jié)果作為結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入HANA數(shù)據(jù)庫. Hadoop和Spark平臺在這一過程中也擔(dān)任了把計算帶到數(shù)據(jù)中的角色.
數(shù)據(jù)層通過對數(shù)據(jù)結(jié)構(gòu)的理解,獲取模型所需的各種原始數(shù)據(jù).值得一提的是,載入的除了企業(yè)私有的各種類型的數(shù)據(jù)之外,也包括公開的信息,如Internet上通過爬蟲搜索到的各種信息和公共的信息,如政府提供的氣象部門,工商部門和疾控中心等所擁有的可以作為公共信息發(fā)布的數(shù)據(jù).這些數(shù)據(jù)往往都存放在Hadoop平臺中,通過Data Service傳輸?shù)紿ANA數(shù)據(jù)庫.
通過數(shù)據(jù)理解了業(yè)務(wù)流程以后,使用數(shù)學(xué)模型,給出業(yè)務(wù)洞察.目前統(tǒng)計分析和統(tǒng)計學(xué)習(xí)是企業(yè)中使用最多的數(shù)學(xué)工具,除此之外,針對生產(chǎn)制造和財務(wù)管理的最優(yōu)化問題,針對物流網(wǎng)絡(luò)的圖論的問題也在企業(yè)實踐中經(jīng)常碰到.特別想指出,企業(yè)管理有很多倒向隨機(jī)微分方程的一類問題,例如,把每個月的銷售額看成股票價格,假設(shè)其遵循幾何布朗運動,把銷售的業(yè)績目標(biāo)作為行權(quán)價,則員工獎金的計算和亞式期權(quán)的計算是一樣的.可以使用亞式期權(quán)的定價模型來計算相關(guān)的管理問題.相應(yīng)的可以考慮其它金融風(fēng)險和定價模型,對于管理問題使用企業(yè)內(nèi)外部數(shù)據(jù)進(jìn)行解答.數(shù)學(xué)模型庫通過SVN等工具進(jìn)行版本控制,使用知識管理工具進(jìn)行發(fā)布,幫助企業(yè)建立數(shù)學(xué)能力.這個模型庫包括了針對企業(yè)管理人員的基本概念,針對分析人員的模型應(yīng)用和針對建模人員的模型推導(dǎo)過程.
內(nèi)存數(shù)據(jù)庫是整個架構(gòu)的核心和結(jié)合點.內(nèi)存數(shù)據(jù)庫(IMDB)是一種將數(shù)據(jù)放在內(nèi)存中直接操作的數(shù)據(jù)庫,相對于存放在外部存儲器中的數(shù)據(jù)庫,內(nèi)存的數(shù)據(jù)讀寫速度要高出幾個數(shù)量級,將數(shù)據(jù)保存在內(nèi)存中相比從磁盤上訪問能夠極大地提高應(yīng)用的性能.它最大的特點是傳統(tǒng)關(guān)系型數(shù)據(jù)庫(RDBMS)里表的存儲方式從行存儲變?yōu)榱写鎯?列存儲往往應(yīng)用表里一列的數(shù)據(jù)冗余度來大幅壓縮數(shù)據(jù),求和,平均等聚集的計算在列上操作效率非常高.可以說內(nèi)存數(shù)據(jù)庫天生就是為統(tǒng)計計算而準(zhǔn)備的.SAP HANA(high-performance analytic appliance)是一個軟硬件結(jié)合體,是內(nèi)存數(shù)據(jù)庫的一個實現(xiàn).它提供高性能的數(shù)據(jù)查詢功能,用戶可以直接對大量實時業(yè)務(wù)數(shù)據(jù)進(jìn)行查詢和分析,而不需要對業(yè)務(wù)數(shù)據(jù)進(jìn)行建模,聚合等.用戶拿到的是一個裝有預(yù)配置軟件的設(shè)備.它基于內(nèi)存計算技術(shù)的高性能實時數(shù)據(jù)計算平臺,是全球一個發(fā)布商用的基于內(nèi)存計算的產(chǎn)品.通過構(gòu)建一個1 TB的HANA平臺,作為大數(shù)據(jù)的分析平臺,匯總數(shù)據(jù)層的各個數(shù)據(jù)源. HANA平臺中通過R存儲過程來實現(xiàn)模型.
算法的并行計算是通過CPU/GPU混合的高性能計算平臺實現(xiàn)的.由于散熱,功耗以及材料的物理特性極限,通過不斷增加晶體管密度來提高單個處理器的運算能力可能性越來越低.多核技術(shù),多CPU的并行處理技術(shù)和異構(gòu)多核集成技術(shù)(CPU與GPU的組合)已經(jīng)成為提高計算性能的主流途徑.在企業(yè)中,往往重視數(shù)據(jù)密集型的問題,而隨著大數(shù)據(jù)不斷深入,出現(xiàn)了越來越多的計算密集型的問題.而基于Nvidia CUDA編程模式的CPU/GPU混合架構(gòu)的Tesla K40(很快將推出K80)平臺是目前最先進(jìn)的平臺之一.它有2 880個處理器,單精度計算高達(dá)4.29 TFLOPS.使用R語言回歸,估計出來的模型參數(shù),通過C語言的擴(kuò)展編程CUDA進(jìn)行實現(xiàn)模型,利用并行化算法,通過MPI進(jìn)行通訊,達(dá)到集群計算的目的.這個架構(gòu)對于企業(yè)管理中最常用方法之一的蒙特卡羅法的加速,具有非常好的效果.
計算結(jié)果通過Java JBoss應(yīng)用服務(wù)器,使用Spring MVC框架,采用Web方式,通過HTML5,展現(xiàn)數(shù)據(jù)分析結(jié)果.Spring MVC使用基本的JavaBean來完成以前只可能由EJB完成的事情,可以提供簡單性,可測試和松耦合的Java解決方案.
使用開源的D3js框架來進(jìn)行數(shù)據(jù)可視化,幫助用戶理解分析的結(jié)果.D3js是一個基于數(shù)據(jù)操作文檔JavaScript庫.D3通過使用HTML,SVG和CSS提供動態(tài)的可視化效果.D3允許綁定任何數(shù)據(jù)到DOM對象模型,然后應(yīng)用數(shù)據(jù)驅(qū)動轉(zhuǎn)換到文檔.例如,可以用D3從數(shù)組生成HTML表格,或者使用相同數(shù)據(jù)平滑和動態(tài)創(chuàng)建一個SVG圖表.
客戶使用多種設(shè)備,通過公開或者公司內(nèi)部網(wǎng)絡(luò),訪問分析結(jié)果.結(jié)合業(yè)務(wù)的具體情況作出更準(zhǔn)確的業(yè)務(wù)決策.在這一企業(yè)管理大數(shù)據(jù)應(yīng)用過程中,整個大數(shù)據(jù)系統(tǒng)并非代替用戶進(jìn)行決策,而是為企業(yè)決策提供更多實時的信息和知識.這里的討論架構(gòu)和應(yīng)用于工業(yè)4.0的大數(shù)據(jù)架構(gòu)有很大區(qū)別.
1)結(jié)構(gòu)模型
結(jié)構(gòu)模型認(rèn)為公司違約的發(fā)生是公司資產(chǎn)價值降低導(dǎo)致的結(jié)果.該理論將公司的股權(quán)視為以公司資產(chǎn)價值為標(biāo)的的歐式看漲期權(quán).如果股票市場是有效的,那么在知道公司股價和股價波動率,以及公司債務(wù)結(jié)構(gòu)的情況下,可以估計出該公司的違約概率.1997年,KMV公司(現(xiàn)被穆迪收購)對基于Black-Scholes公式的Merton模型進(jìn)行了重要的改進(jìn),推出KMV模型[4].KMV模型將企業(yè)負(fù)債看作一份歐式看漲期權(quán),利用Black-Scholes期權(quán)定價公式,根據(jù)企業(yè)股價E,股價波動率σE,債券到期時間T,無風(fēng)險借貸利率r,負(fù)債D,來估計出企業(yè)的資產(chǎn)價值V和資產(chǎn)波動率σV.KMV模型中的兩個未知變量V和σV,可以從以下聯(lián)立方程組中求得,即
其中Φ(·)為標(biāo)準(zhǔn)正態(tài)分布函數(shù),
根據(jù)公司的違約點DP(一般采用短期負(fù)債加長期負(fù)債的一半),計算借款人的違約距離
最后,根據(jù)歷史違約數(shù)據(jù)得到違約距離所對應(yīng)的違約概率.
張大斌等[5]提出一種中國上市信用風(fēng)險測度的不確定性DE-KMV模型,對KMV模型針對中國國內(nèi)的情況進(jìn)行了優(yōu)化,使用用差分進(jìn)化算法(DE)來優(yōu)化了違約點系數(shù),該模型通過分位數(shù)回歸分析,其系數(shù)在置信區(qū)間內(nèi)顯著性更好.因此,相對于常用的KMV模型,該模型更據(jù)靈活性,能提高上市公司信用風(fēng)險測度的準(zhǔn)確性.
2)生存分析模型
生存分析模型不僅僅是被評級對象的違約率進(jìn)行判斷,而且對違約率的期限結(jié)構(gòu)進(jìn)行研究.Tyler[6]使用了帶有與時間相關(guān)變量的離散型模型.該模型等同于一個多階段的Logit模型,但Logit模型的標(biāo)準(zhǔn)誤差(standard error)需要進(jìn)行調(diào)整.其形式如下
其中t是可能發(fā)生違約事件的時間,f(t,ξ;θ)是違約的概率質(zhì)量函數(shù),θ代表了f的參數(shù)向量,ξ代表了解釋違約原因的向量.S是生存函數(shù),而φ是風(fēng)險函數(shù).
Duffe等(以下簡稱DWS)[7]推進(jìn)了對解釋變量的時間序列動態(tài)機(jī)制(time-seires dynamics)的研究,并可預(yù)測多時間點的違約率(每季度或每年).該模型定義了代表公司特殊因素以及整體宏觀因素的馬爾可夫向量Xt.違約強(qiáng)度為λt=Λ(Xt),λt表示平均每年違約的次數(shù),其它退出情況(如并購)強(qiáng)度為αt=A(Xt),那么總退出強(qiáng)度即為λt+αt.目前在t年存活的公司,在t+s年首次違約但沒有發(fā)生其它退出情況的條件概率為
Duan等[8]對DWS模型進(jìn)行了改進(jìn),使用了遠(yuǎn)期強(qiáng)度(forward intensity)技術(shù)和偽似然函數(shù)(pseudo-likelihood function)估計技術(shù),并增加了違約距離的趨勢項和公司財務(wù)指標(biāo)等解釋變量.
3)模型選擇標(biāo)準(zhǔn)與分析
信用風(fēng)險評估專家Galindo等[9]提出了好的信用評估模型的質(zhì)量要求是:1)精確度:評級結(jié)果的誤差率較低;2)變量較少:不包含太多的解釋變量;3)可行性:采用可獲取的數(shù)據(jù)資源;4)透明性和解釋性:能高水平地反映數(shù)據(jù)之間的關(guān)系和趨勢,模型結(jié)果易讀.針對企業(yè)內(nèi)部的信用評級問題,根據(jù)上述原則來進(jìn)行分析和篩選.
結(jié)構(gòu)模型在國內(nèi)的應(yīng)用存在如下問題:1)國內(nèi)股票市場不夠成熟,市場有效性低,這會影響模型的效力. 2)對于未上市企業(yè)模型并不適用,這限制了模型的應(yīng)用范圍.3)在沒有KMV的違約數(shù)據(jù)庫的情況下,使用Merton模型計算違約率和實際情況出入比較大.
生存分析模型中對于參數(shù)的估算非常困難,在企業(yè)的實際操作中很難實現(xiàn).
綜上所述,二元選擇模型是比較現(xiàn)實和可行的選擇.通過實證研究,發(fā)現(xiàn)其精確度高,變量要求較少,可行性,透明性和可解釋性都比其它模型要好.
3.1 Logistic回歸模型
Logistic回歸和多重線性回歸都屬于廣義線性回歸模型.如果因變量是連續(xù)的,沒有范圍限制就是多重線性回歸;如果因變量是{0,1}取值的二項分布,則為Logistic回歸.1920年Raymond等[10]在研究果蠅的繁殖中發(fā)現(xiàn)和使用該函數(shù),并在人口估計和預(yù)測中推廣使用.Logistic函數(shù)的形式為
易知其值域為[0,1].用pi=Pr(Y=yi|xi1,xi2,...,xik)作為因變量得到Logistic回歸模型
其中Y是服從兩點分布的隨機(jī)變量,Pr(Y=1|xi1,xi2,···,xik)=pi,Pr(Y=0|xi1,xi2,...,xik)=1-pi,從而得到
為了將Logistic回歸模型轉(zhuǎn)換為線性模型,定義logit(logistic probability unit)變換為
從而有
令得到實際觀測值yi的概率為
似然函數(shù)為
對上式兩邊取對數(shù)
代入pi得到
lnL取得最大值.采用Newton-Raphson迭代可以得到參數(shù)βi的估計值bi.
3.2 實證研究
某五百強(qiáng)企業(yè),其財務(wù)授信管理部門采用專家判別的方法對企業(yè)進(jìn)行評級,以便進(jìn)行授信額度管理.評級分為A,B1,B2,C四個級別.對其50家客戶的評級如圖1.
圖1 企業(yè)2013年專家判別法評級結(jié)果Fig.1 Corporate ratings in 2013 by using experts criterion method
在實際操作中,發(fā)現(xiàn)評級的結(jié)果很難區(qū)別好的客戶和壞的客戶.如何進(jìn)行有效的評級成為該公司的難題.把公司看作銀行,把公司的客戶看作銀行的客戶,把營收賬款看作利率為0的短期債券.借鑒銀行對企業(yè)的信用風(fēng)險指標(biāo)進(jìn)行主成分分析,可以選取合適的指標(biāo)來對客戶進(jìn)行評級.
銀行對企業(yè)信用風(fēng)險指標(biāo)的選擇,主要考慮了可操作性,系統(tǒng)科學(xué)性,定量指標(biāo)與定性指標(biāo)相結(jié)合,風(fēng)險度量方法與度量目的相結(jié)合和企業(yè)整體信用與局部信用相協(xié)調(diào).銀行在選擇度量指標(biāo)時注重企業(yè)的發(fā)展,創(chuàng)新和成長,考慮宏觀經(jīng)濟(jì)的影響,在極端情形下風(fēng)險仍然可控.為了全面綜合評價企業(yè)主要領(lǐng)導(dǎo)者及企業(yè)管理者素質(zhì),市場競爭力,銀行信用狀態(tài),償債能力,盈利能力,規(guī)模及經(jīng)營能力,發(fā)展能力以及擔(dān)保和抵押情況.銀行使用了六個維度共39個指標(biāo),其中包含22個定性指標(biāo)和17個定量指標(biāo)作為風(fēng)險度量指標(biāo)池.
對上述指標(biāo)進(jìn)行篩選和主成分分析.企業(yè)素質(zhì)方面,該500強(qiáng)公司的客戶均為國內(nèi)大中型企業(yè),管理者均為職業(yè)經(jīng)理人,生產(chǎn)情況,企業(yè)員工基礎(chǔ)能力等沒有顯著差別.宏觀經(jīng)濟(jì),市場評價等維度的指標(biāo),由于企業(yè)客戶的行業(yè)同質(zhì)性,也可以不予以考慮.對于其它指標(biāo)進(jìn)行主成分分析,并增加針對應(yīng)收賬款考慮周轉(zhuǎn)天數(shù)和資本周轉(zhuǎn)等指標(biāo).發(fā)現(xiàn)對于該企業(yè)評價客戶信用等級,最重要的指標(biāo)包括了8個,如表1所示.
由向該企業(yè)的商務(wù)部門向50家客戶按年度收集以上數(shù)據(jù),并要求客戶的財務(wù)報表經(jīng)過外部審計.從而得到2013年該50家企業(yè)的相關(guān)的8個指標(biāo)共計50條數(shù)據(jù).
表1 信用等級評價涉及的指標(biāo)
將該企業(yè)SAP數(shù)據(jù)庫中2013年和這50家企業(yè)相關(guān)的歷史交易數(shù)據(jù)導(dǎo)出.查看這些企業(yè)應(yīng)收賬款的實際付款情況.參考銀行的信用卡寬限期管理的辦法,定義5 d為應(yīng)收賬款的寬限期,即超期付款時間在5 d以內(nèi)不認(rèn)為延期.統(tǒng)計客戶2013年付款延期的筆數(shù)和客戶總的交易筆數(shù),得到每個客戶在2013年延期付款的比例.分兩種情況定義客戶違約
1)如果客戶延期比例大于零,則定義為違約Y=1,延期比例等于零為不違約Y=0;
2)如果客戶延期比例大約5%,則定義為違約Y=1,否則定義為不違約Y=0.
根據(jù)這兩種情況使用統(tǒng)計軟件R對上述的數(shù)據(jù)按照Logistic回歸進(jìn)行計算.
對于情況1),有
對于情況2),有
其中p違約概率.
企業(yè)的實際情況是客戶付款延期有很多種原因,比如,商務(wù)操作流程,銀行付款流程等.本文采用延期比例大約5%作為違約的邊界條件.馬若微等[11]討論了通過選擇適當(dāng)?shù)那懈铧c使總期望判斷損失最小.本文采用同樣的思路,使用第二種情況作為評級的參數(shù).
使用公式
將客戶的指標(biāo)X1~X8代入得到每個客戶的違約概率.
參考CSFP信用風(fēng)險附加模型,在任何時期該模型和本文中的案例一樣,只考慮違約和不違約這兩種狀態(tài),計量相應(yīng)的損失.在CSFP信用風(fēng)險附加計量模型中,違約概率不是離散的,而是被模型化為具有概率分布的連續(xù)變量.對于企業(yè)交易,每一個客戶的違約都是小概率違約事件,并且每個客戶的違約概率都獨立于其它客戶,這樣,客戶的違約概率的分布接近泊松分布.相應(yīng)的其對應(yīng)的分布進(jìn)行劃分,從而得到評級.
根據(jù)以上的數(shù)值結(jié)果,使用公司內(nèi)部評級標(biāo)尺(違約概率≤10%為A級客戶,10%<違約概率≤20%為B1級客戶,20%<違約概率≤30%為B2級客戶,違約概率>30%為C級客戶對以上客戶進(jìn)行評級,得到如下圖2的圖示結(jié)果.
圖2 企業(yè)2014年評級的結(jié)果Fig.2 Corporate ratings in 2013
這個結(jié)果和實際情況吻合得很好,表明大多數(shù)的客戶都是資信比較好的,極少客戶資信比較差.在實際操作中,大多數(shù)的客戶都是A以上的評級,該評級相當(dāng)于對于標(biāo)普A以上評級進(jìn)行了進(jìn)一步的細(xì)化,從而適用到企業(yè)的日常管理中.新的評級模型很好的區(qū)分了不同客戶的資信好壞.該模型也通過四大審計公司之一的驗證,應(yīng)用到實際的信用限額管理和賬期管理中,也得到了比較好的效果.
本文簡要回顧了大數(shù)據(jù)的概念,并加以進(jìn)一步的闡述.提出了基于企業(yè)歷史數(shù)據(jù)的新的大數(shù)據(jù)的架構(gòu),并通過實際的企業(yè)信用評級的案例,使用新的架構(gòu)進(jìn)行了實證研究.把企業(yè)管理實踐,信息技術(shù)和數(shù)學(xué)模型緊密結(jié)合在一起.該實施路徑也是一個全新的嘗試,在企業(yè)管理中受到了全球管理層的一致好評.
在具體實證中,回顧了信用評級的一系列方法,結(jié)合某企業(yè)實際情況,選取了二元選擇模型.通過收集SAP運營的數(shù)據(jù)和客戶的財務(wù)數(shù)據(jù),使用Logistic回歸,建立了可用于企業(yè)日常實際運營的評級過程,并應(yīng)用于企業(yè)的實際運營中,取得了很好的效果.
研究發(fā)現(xiàn),過分復(fù)雜的模型由于模型的前提假設(shè)過于嚴(yán)格,數(shù)據(jù)采集困難和本身的偏差等問題,很難應(yīng)用于實際企業(yè)實踐中去.過于簡單的線性模型由于實際情況均為非線性的,很難用簡單的線性模型來模擬和預(yù)測.如何選擇復(fù)雜程度合適、易于理解的模型,是模型選取關(guān)鍵.
在數(shù)據(jù)方面,利用企業(yè)運營的數(shù)據(jù),可以更準(zhǔn)確的反映實際的情況,并建立動態(tài)的模型,這也為大數(shù)據(jù)背景下如何準(zhǔn)確的收集和提取信息/知識提出了新的思路.
[1]Andrew M,Brynjolfsson E.Big data:The management revolution.Harvard Business Review,2012,90(10):61–67.
[2]魏 偉.銀行業(yè)面對互聯(lián)網(wǎng)金融挑戰(zhàn)的應(yīng)對策略:基于大數(shù)據(jù)背景下的思考.上海金融學(xué)院學(xué)報,2014(4):45–51. WeiW.Strategyforbankingindustrytofacingchallengesfrominternetfnance:Thoughtsunderbigdatacontext.JournalofShanghai Finance University,2014(4):45–51.(in Chinese)
[3]李 平,陳 林,李 強(qiáng),等.互聯(lián)網(wǎng)金融的發(fā)展與研究綜述.計算機(jī)工程與應(yīng)用,2015(2):245–253. Li P,Chen L,Li Q,et al.Overview of internet fnance development and research.Computer Engineering and Applications,2015(2): 245–253.(in Chinese)
[4]Yeh C C,Lin F y,Hsu C Y.A hybrid KMV model,random forests and rough set theory approach for credit rating.Knowledge-Based Systems,2012(33):166–172.
[5]張大斌,周志剛,劉 雯,等.上市公司信用風(fēng)險測度的不確定性DE-KMV模型.系統(tǒng)工程學(xué)報,2015,30(2):165–173. Zhang D B,Zhou Z G,Liu W,et al.Uncentainty DE-KMV model of credit risk measure for listed company.Journal of Systems Engineering,2015,30(2):165–173.(in Chinese)
[6]Tyler S.Forecasting bankruptcy more accurately:A simple hazard model.The Journal of Business,2001,74(1):101–124.
[7]Darrell D,Saita L,Wang K.Multi-period corporate default prediction with stochastic covariates.Journal of Financial Economics 2007,83(3):635–665.
[8]Duan J C,Fulop A.Multiperiod Corporate Default Prediction with the Partially-conditioned Forward Intensity.Singapore:National University of Singapore,2013.
[9]Galindo J,Tamayo P.Credit risk assessment using statistical and machine learning:Basic methodology and risk modeling applications.Computational Economics 2000,15(1):107–143.
[10]Raymond P,Reed L J.On the rate of growth of the population of the United States since 1790 and its mathematical representation //Proceedings of the National Academy of Sciences of the United States of America.1920,6(6):275–288.
[11]馬若微,唐春陽.考慮誤判損失的Logistic違約預(yù)測模型構(gòu)建.系統(tǒng)工程理論與實踐,2007,27(8):33–38. Ma R W,Tang C Y.Construction of logistics default prediction model by considering misjudge loss.Systems Engineering:Theory and Practice,2007,27(8):33–38.(in Chinese)
Empirical study for enterprise internal credit rating under big data framework
Mu Gang,Yuan Xianzhi*
(Department of Mathematics,Tongji University,Shanghai 200092,China)
This paper focuses on enterprise advanced analytics solution under big data context.An empirical study for enterprise internal credit rating business is also in place.By considering factors of business process, information technology and mathematical model,a new enterprise advanced analytics platform is given,which integrates big data and big computation.On this platform,logistics regression model is used for credit rating. New rating model gives more details of credit of customer.In this process,it is found that model selection and meta-model library is vital important for enterprise advanced analytics implementation.
credit rating;logistic regression,big data,fnancial models
TP273
A
1000-5781(2016)06-0808-08
10.13383/j.cnki.jse.2016.06.009
牟 剛(1978—),男,遼寧大連人,博士生,研究方向:金融工程,大數(shù)據(jù),機(jī)器學(xué)習(xí),Email:mug@#edu.cn;
2016-01-06;
2016-05-30.
*通信作者
袁先智(1965—),男,重慶人,博士,博士生導(dǎo)師,研究方向:金融工程,大數(shù)據(jù),Email:george_yuan99@#edu.cn.