国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)分析技術(shù)在金融監(jiān)管平臺(tái)中的作用

2022-12-28 11:20:52
關(guān)鍵詞:決策樹(shù)公式森林

唐 靜

(湖南環(huán)境生物職業(yè)技術(shù)學(xué)院,湖南 衡陽(yáng) 421005)

0 引言

在金融科技不斷進(jìn)步和發(fā)展的形勢(shì)下,許多新的金融形態(tài)應(yīng)運(yùn)而生[1]。與此同時(shí),各種跨境、跨行業(yè)的金融產(chǎn)品層出不窮,但是在其發(fā)展過(guò)程中也產(chǎn)生了各種金融風(fēng)險(xiǎn)。如何正確應(yīng)對(duì)金融科技帶來(lái)的新的監(jiān)管挑戰(zhàn),也逐漸引起了世界各國(guó)金融監(jiān)管機(jī)構(gòu)的關(guān)注。鑒于我國(guó)單一化的金融業(yè)監(jiān)管、金融科技自身的特點(diǎn)以及現(xiàn)行法律法規(guī)的滯后性,現(xiàn)行的監(jiān)管模式并不能完全遏制金融犯罪。在現(xiàn)實(shí)社會(huì)中,第三方支付機(jī)構(gòu)的監(jiān)管機(jī)制不完善,“洗黑錢(qián)”“套現(xiàn)”等風(fēng)險(xiǎn)依然存在。在目前的金融科技的監(jiān)管中,監(jiān)督主體雖然明確,但在實(shí)際的監(jiān)督活動(dòng)中,“真空監(jiān)督”的現(xiàn)象也時(shí)有發(fā)生。在金融科技不斷進(jìn)步之下,傳統(tǒng)金融正逐漸向無(wú)國(guó)界金融發(fā)展。所以,如何保證我國(guó)金融科技創(chuàng)新能力繼續(xù)走在世界前列,并根據(jù)金融科技自身特點(diǎn)構(gòu)建一個(gè)適時(shí)、有效的監(jiān)管模式,是目前我國(guó)金融科技發(fā)展的最大瓶頸。各國(guó)應(yīng)當(dāng)加強(qiáng)金融科技監(jiān)管合作,用科技監(jiān)管科技,進(jìn)而解決金融科技監(jiān)管的滯后問(wèn)題。

1 大數(shù)據(jù)分析技術(shù)在金融監(jiān)管平臺(tái)的應(yīng)用研究

1.1 大數(shù)據(jù)分析研究意義

科技不僅改變了人們從購(gòu)物到社交的方式,也重塑了金融服務(wù)業(yè)。在過(guò)去的幾年里,一些創(chuàng)新型金融公司競(jìng)相出現(xiàn),利用互聯(lián)網(wǎng)技術(shù)幫助人們找到更多的投資機(jī)會(huì)、方便了人們的支付手段,甚至讓小額貸款也變得容易了很多。新金融技術(shù)的發(fā)展不得不歸因于個(gè)人和企業(yè)的大數(shù)據(jù)爆發(fā),人工智能、計(jì)算能力、密碼學(xué)以及互聯(lián)網(wǎng)的普及[2]。這些技術(shù)之間有強(qiáng)大的互補(bǔ)性,因此也帶來(lái)了許多新的應(yīng)用,涉及支付、融資、資產(chǎn)管理、保險(xiǎn)和咨詢(xún)等服務(wù)。隨著新大數(shù)據(jù)分析的發(fā)展,監(jiān)管模式的推陳出新,對(duì)中國(guó)的金融行業(yè)監(jiān)管及風(fēng)險(xiǎn)控制具有現(xiàn)實(shí)意義。

1.2 Python語(yǔ)言的使用

作為一種高級(jí)計(jì)算機(jī)程序設(shè)計(jì)語(yǔ)言,Python的優(yōu)點(diǎn)是可以完成以下工作任務(wù),見(jiàn)表1。

表1 Python的工作任務(wù)以及優(yōu)點(diǎn)

1.3 金融監(jiān)管平臺(tái)大數(shù)據(jù)處理算法

1.3.1 隨機(jī)森林算法

隨機(jī)森林是包括多棵決策樹(shù),可以用來(lái)執(zhí)行回歸和分類(lèi)任務(wù)的機(jī)器學(xué)習(xí)算法[3]。其輸出類(lèi)別是由多棵決策樹(shù)的輸出類(lèi)別的眾數(shù)決定的。

1.3.2 隨機(jī)森林模型構(gòu)建原理

用N表示樣本個(gè)數(shù)[4],M表示特征個(gè)數(shù)。從容量為N的原樣本集中有放回地進(jìn)行重復(fù)抽樣,每次抽取的樣本容量也都為N,抽樣N次,形成N個(gè)訓(xùn)練集。這樣每次抽樣時(shí)原樣本集中數(shù)據(jù)未被抽中的概率如公式(1)所示。

當(dāng)N很大時(shí),1/e為概率值,趨于0.368,如公式(2)所示。

式中:1/e為固定值0.368,e為無(wú)限不循環(huán)小數(shù)。

這表示每次抽樣時(shí),原樣本集中的數(shù)據(jù)有大概37%的樣本不會(huì)被抽中,這些數(shù)據(jù)被稱(chēng)為袋外數(shù)據(jù)。未被抽中的數(shù)據(jù)集可直接作為測(cè)試集,用于測(cè)試模型的預(yù)測(cè)精度。然后按一定比例確定特征數(shù)(通常取總特征數(shù)的平方根),輸入k(k

訓(xùn)練完成形成N棵決策樹(shù),隨機(jī)森林模型最后輸出的分類(lèi)結(jié)果由這N棵決策樹(shù)通過(guò)自己的分類(lèi)結(jié)果進(jìn)行簡(jiǎn)單投票而決定。決策樹(shù)生成流程如圖1所示。

圖1 隨機(jī)森林中單個(gè)決策樹(shù)訓(xùn)練過(guò)程

1.3.3 隨機(jī)森林收斂性的分析

隨機(jī)森林在數(shù)學(xué)上的定義可以表達(dá)為例如現(xiàn)有由h1(x),h2(x),…,hk(x)構(gòu)成的隨機(jī)森林。邊際函數(shù)如公式(4)所示。

式中:mg(X,Y)為邊際函數(shù);avk(I(hk(X)=j))為正確分類(lèi)下得到的票數(shù);為不正確分類(lèi)的情況下得到的票數(shù)。

邊際函數(shù)表示的意思是,在正確分類(lèi)的情況下得到的票數(shù)比在不正確分類(lèi)情況下得到的票數(shù)多的程度。顯然,該函數(shù)越大,說(shuō)明原分類(lèi)器分類(lèi)效果越可靠。泛化誤差PE*如公式(5)所示。

式中:X、Y為概率定義空間。

隨機(jī)森林邊緣函數(shù)如公式(6)所示。

式中:P(hk(X)=Y)為正確判斷的概率;為錯(cuò)誤判斷的概率最大值。

每棵決策樹(shù)生成隨機(jī)森林時(shí),總是有一個(gè)初始數(shù)據(jù)集和沒(méi)有被抽取的數(shù)據(jù)集Ok(x)。Q(x,yi)即如公式(7)所示。

式中:Q(x,yi)為x在Ok(x)中yj的比例,為正確分類(lèi)的概率估計(jì)。由此可對(duì)隨機(jī)森林強(qiáng)度和相關(guān)性進(jìn)行分析。

隨機(jī)森林強(qiáng)度如公式(8)所示。

式中:E為數(shù)學(xué)期望。

將公式(6)代入公式(7),所得如公式(9)所示。

式中:S為隨機(jī)森林強(qiáng)度;n為數(shù)量;Q(xi,y)為xi在Ok(x)中y的比例;(xi,j)為Q(xi,y)中的最大值。隨機(jī)森林相關(guān)度如公式(10)所示。

式中:pu為I(ku(xi)=y)的OBB估計(jì);為I(ku(xi)=的OBB估計(jì)。

pu和的 計(jì)算如公式(11)、公式(12)所示。

式中:I為指示函數(shù);ku(xi)=y為觀測(cè)的真實(shí)結(jié)果;ku(xi)為觀測(cè)的預(yù)測(cè)結(jié)果。

將公式(10)和公式(11)帶入公式(9),所得如公式(13)所示。

隨機(jī)森林的性能體現(xiàn)在其收斂程度、強(qiáng)度和相關(guān)程度[5]。收斂性在于決策樹(shù)的泛化誤差都收斂,出差會(huì)有上限,這說(shuō)明隨機(jī)森林對(duì)未知事物具有良好的適應(yīng)性,不會(huì)造成很大的誤差,也不易造成過(guò)擬合。

1.4 金融監(jiān)管平臺(tái)大數(shù)據(jù)處理過(guò)程

該文實(shí)證過(guò)程中采取的數(shù)據(jù)均來(lái)自國(guó)泰安CSMAR數(shù)據(jù)庫(kù)。行業(yè)的劃分以證監(jiān)會(huì)的分類(lèi)為標(biāo)準(zhǔn),選取了醫(yī)藥制造業(yè)中的221家公司。采用其2020—2022年3年的22個(gè)財(cái)務(wù)指標(biāo)數(shù)據(jù)為研究對(duì)象。利用Python語(yǔ)言建立隨機(jī)森林模型。

1.4.1 模型構(gòu)建及操作過(guò)程

導(dǎo)入數(shù)據(jù):將數(shù)據(jù)集導(dǎo)入Rstudio;

在Rstudio中觀察導(dǎo)入的數(shù)據(jù)是否正常:View(rdata);

將Rstudio的儲(chǔ)存路徑更改為D盤(pán)下的r_working文件:setwd(“D:\r_working”)。

1.4.2 金融數(shù)據(jù)特征變量的分析

Mean Decrease Accuracy代表的是基于特征變量對(duì)準(zhǔn)確率影響程度的大、小,數(shù)值越大,說(shuō)明重要性越大。并基于此進(jìn)行特征變量排序,見(jiàn)表2。

表2 數(shù)據(jù)特征標(biāo)量的重要性大、小

1.4.3 數(shù)據(jù)隨機(jī)算法準(zhǔn)確性分析

在rdata的數(shù)據(jù)范圍內(nèi),通過(guò)重復(fù)取樣,將樣本分為2種類(lèi)型數(shù)據(jù)集,占比分別為70%和30%,即sample_set<-sample(2,nrow(rdata),replace=T,prob=c(0.7,0.3))。

將第一種類(lèi)型數(shù)據(jù)集命名為訓(xùn)練集train_set,即train_set<-rdata[sample_set==1,]。

將第二種類(lèi)型數(shù)據(jù)集命名為測(cè)試集test_set,即test_set<-rdata[sample_set==2,]。

基于2019—2021年的醫(yī)藥制造業(yè)財(cái)務(wù)指標(biāo)數(shù)據(jù),建立的隨機(jī)森林模型的準(zhǔn)確率分別為100%、96.2%和97.4%,如圖2所示,準(zhǔn)確率都比較高,因此證明了該隨機(jī)森林模型對(duì)與財(cái)務(wù)質(zhì)量和狀況的預(yù)測(cè)有較大的可行性。

圖2 數(shù)據(jù)隨機(jī)算法準(zhǔn)確性分析圖

2 大數(shù)據(jù)分析技術(shù)在金融監(jiān)管平臺(tái)應(yīng)用分析

2.1 金融監(jiān)管平臺(tái)大數(shù)據(jù)處理分析

該系統(tǒng)爬取主要針對(duì)網(wǎng)站信息國(guó)泰安CSMAR數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)爬取。為金融監(jiān)管當(dāng)局提供“非法集資”和“企業(yè)異?!憋L(fēng)險(xiǎn)敏感預(yù)警監(jiān)測(cè),監(jiān)測(cè)數(shù)據(jù)和風(fēng)險(xiǎn)預(yù)警平臺(tái)。大型部門(mén)運(yùn)用大數(shù)據(jù)技術(shù),并基于多維全面量化數(shù)據(jù)。通過(guò)信息跟蹤、事件慣性突破建立一個(gè)特殊的風(fēng)險(xiǎn)識(shí)別模型。協(xié)助商業(yè)運(yùn)營(yíng)實(shí)體和政府監(jiān)管機(jī)構(gòu)進(jìn)行篩選、預(yù)警重大財(cái)務(wù)、財(cái)務(wù)和法律風(fēng)險(xiǎn)。自2017年起,逐步升級(jí)大數(shù)據(jù)風(fēng)險(xiǎn)監(jiān)測(cè)預(yù)警平臺(tái),優(yōu)化風(fēng)險(xiǎn)預(yù)警模型,將監(jiān)管業(yè)務(wù)從金融辦延伸至財(cái)政廳、海關(guān)、住建部等政府機(jī)構(gòu)和金融機(jī)構(gòu),打造完整的工業(yè)服務(wù)鏈。

在數(shù)據(jù)爬取時(shí),需要導(dǎo)入Requests庫(kù)和BeautifulSoup庫(kù)函數(shù)。使用Requests抓取國(guó)泰安CSMAR數(shù)據(jù)庫(kù),把要爬取的整個(gè)頁(yè)面抓取下來(lái)。使用BeautifulSoup中的find()和find_all()抓取需要的標(biāo)簽內(nèi)容。

2.2 大數(shù)據(jù)模塊決策樹(shù)風(fēng)險(xiǎn)的分析

如圖3所示,大數(shù)據(jù)模塊決策樹(shù)利用復(fù)雜網(wǎng)絡(luò)關(guān)系算法構(gòu)建多維企業(yè)關(guān)聯(lián)圖,通過(guò)關(guān)系篩選、關(guān)聯(lián)操作和指標(biāo)定位,快速、準(zhǔn)確地挖掘企業(yè)風(fēng)險(xiǎn)線索,能夠有效地反映企業(yè)的真實(shí)行為和對(duì)相關(guān)業(yè)務(wù)決策的支持。該程序集數(shù)據(jù)、平臺(tái)和應(yīng)用于一體。主要使用行業(yè)領(lǐng)先的大數(shù)據(jù)處理、分析和建模技術(shù),真正恢復(fù)用戶(hù)的信用等級(jí)、行為特征和風(fēng)險(xiǎn)配置,并可自動(dòng)對(duì)客戶(hù)進(jìn)行風(fēng)險(xiǎn)評(píng)估,不需要銀行進(jìn)行煩瑣的預(yù)貸盡職調(diào)查和貸后監(jiān)控、預(yù)警,真正幫助銀行進(jìn)行客戶(hù)探索、信貸審批、利率定價(jià)、信貸控制、監(jiān)控和預(yù)警,并形成一個(gè)用于貸款、貸款和貸后流程的智能風(fēng)控計(jì)劃。

圖3 大數(shù)據(jù)模塊決策樹(shù)風(fēng)險(xiǎn)分析圖

3 結(jié)語(yǔ)

該文共選取了22個(gè)財(cái)務(wù)指標(biāo),利用醫(yī)藥制造業(yè)的財(cái)務(wù)數(shù)據(jù),運(yùn)用語(yǔ)言中的randomForest軟件包建立了隨機(jī)森林模型。根據(jù)建模后得到的結(jié)果分析得知,無(wú)論是對(duì)訓(xùn)練集的分類(lèi)還是對(duì)測(cè)試集的預(yù)測(cè),構(gòu)建得到的隨機(jī)森林模型都能很好地發(fā)揮作用,預(yù)測(cè)準(zhǔn)確率都在96%以上。這說(shuō)明可以采用該方法對(duì)公司的財(cái)務(wù)風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)。大數(shù)據(jù)模塊決策樹(shù)風(fēng)險(xiǎn)結(jié)果有利于公司對(duì)其進(jìn)行數(shù)理統(tǒng)計(jì),進(jìn)而規(guī)避風(fēng)險(xiǎn)。

猜你喜歡
決策樹(shù)公式森林
組合數(shù)與組合數(shù)公式
排列數(shù)與排列數(shù)公式
等差數(shù)列前2n-1及2n項(xiàng)和公式與應(yīng)用
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
例說(shuō):二倍角公式的巧用
哈Q森林
哈Q森林
哈Q森林
基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
安国市| 锡林郭勒盟| 西畴县| 荆门市| 彩票| 贵德县| 宜宾县| 罗田县| 紫阳县| 内黄县| 砚山县| 长海县| 麻江县| 通州区| 鄯善县| 桂平市| 谢通门县| 乌鲁木齐县| 上饶市| 大庆市| 桐庐县| 丽水市| 滨海县| 阜宁县| 和顺县| 威宁| 古浪县| 尼玛县| 临清市| 滦平县| 若尔盖县| 武陟县| 大城县| 金湖县| 湘潭市| 延川县| 平遥县| 沙河市| 喀喇| 沾益县| 临城县|