国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于混合神經(jīng)網(wǎng)絡(luò)的非法集資風(fēng)險(xiǎn)預(yù)測模型*

2023-07-11 07:30
關(guān)鍵詞:集資知識(shí)庫向量

陳 鋼

(長三角信息智能創(chuàng)新研究院 蕪湖 241000)

1 引言

近年來,以互聯(lián)網(wǎng)金融為代表的新型金融業(yè)態(tài)蓬勃發(fā)展,提高了資金配置效率。由于互聯(lián)網(wǎng)具有不分地域、快速傳播、涉眾面廣等特性,通過線上平臺(tái)進(jìn)行的非法集資活動(dòng)影響面更廣危害更大,表現(xiàn)為參與人數(shù)眾多,涉及金額巨大,涉及地域廣等方面。2020 年全國共查處非法集資案件6800 余起,涉案金額1100 余億元,不但涉及財(cái)富管理、私募基金、保險(xiǎn)代理、房地產(chǎn)等傳統(tǒng)領(lǐng)域,還涉及到養(yǎng)老服務(wù)、涉農(nóng)互助、線上教育、區(qū)塊鏈及虛擬貨幣等多種新形態(tài)[1]。

對(duì)于非法集資企業(yè)的識(shí)別,主要基于從業(yè)人員根據(jù)工作經(jīng)驗(yàn)從該企業(yè)的財(cái)務(wù)報(bào)表中判斷出財(cái)務(wù)異常,從而判斷該企業(yè)是否有非法集資的嫌疑。在對(duì)企業(yè)是否在進(jìn)行非法集資的判斷過程中,往往依賴歷史經(jīng)驗(yàn)對(duì)大量的財(cái)務(wù)報(bào)表進(jìn)行數(shù)字邏輯分析以及統(tǒng)計(jì)分析,識(shí)別準(zhǔn)確率和效率均較低。在互聯(lián)網(wǎng)背景下,非法集資案件通常具有很強(qiáng)的隱蔽性和突發(fā)性,傳統(tǒng)監(jiān)管手段難以及時(shí)發(fā)現(xiàn)[2]。為解決上述難題,本文提出了一種基于混合神經(jīng)網(wǎng)絡(luò)的非法集資預(yù)測模型。首先,將文本信息序列(如業(yè)務(wù)范圍、產(chǎn)品描述等)輸入到預(yù)訓(xùn)練模型中,并將輸出的特征向量作為輸入到下一層網(wǎng)絡(luò)的語義表示向量輸入;然后,構(gòu)建基于GRU 的候選集生成網(wǎng)絡(luò)用以增強(qiáng)非法集資的預(yù)測能力。與此同時(shí),提高引入跳層連接機(jī)制來解決深度網(wǎng)絡(luò)訓(xùn)練中信息丟失以及網(wǎng)絡(luò)退化問題;最后,通過引入結(jié)合雙向門限循環(huán)神經(jīng)網(wǎng)絡(luò)(BiGRU)和注意力(Attention)機(jī)制的非法集資風(fēng)險(xiǎn)特征知識(shí)嵌入,有效提升預(yù)測模型的理解層次,提升企業(yè)非法集資預(yù)測的準(zhǔn)確性。

2 相關(guān)工作

學(xué)術(shù)界對(duì)非法集資的研究大多集中在法律和機(jī)制層面,使用大數(shù)據(jù)和人工智能技術(shù)預(yù)測非法集資的研究相對(duì)較少?;邶埿牌髽I(yè)大數(shù)據(jù),北京工商局構(gòu)建了基于指標(biāo)體系的企業(yè)非法集資預(yù)警模型[3]。單丹等指出可以利用大數(shù)據(jù)監(jiān)測預(yù)警功能及時(shí)發(fā)現(xiàn)和管理企業(yè)早期的非法集資風(fēng)險(xiǎn),利用大數(shù)據(jù)關(guān)聯(lián)分析技術(shù)偵查集團(tuán)企業(yè)的自融、自擔(dān)保行為并快速鎖定核心企業(yè)、核心人員[4]。石笑川以企業(yè)公開信息為基礎(chǔ)建立了一套風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)體系,通過層次分析法為指標(biāo)賦值將這些特征量化,建立了一個(gè)定量與定性相結(jié)合的非法集資監(jiān)測體系[5]。業(yè)內(nèi)也有一些公司研發(fā)了金融監(jiān)管系統(tǒng)。蟻盾系統(tǒng)[6]可以為金融監(jiān)管人員呈現(xiàn)轄區(qū)內(nèi)的金融機(jī)構(gòu)企業(yè)以及企業(yè)的風(fēng)險(xiǎn)預(yù)警情況(企業(yè)相關(guān)的法院判決、工商變更、股權(quán)和投資關(guān)系變動(dòng)、互聯(lián)網(wǎng)負(fù)面輿情等),然而并不能呈現(xiàn)該企業(yè)是否有疑似非法集資的風(fēng)險(xiǎn)。靈鯤金融安全大數(shù)據(jù)平臺(tái)[7]通過監(jiān)測社交網(wǎng)絡(luò)系統(tǒng)的聊天信息,來抓取疑似非法集資的線索;很多非法集資活動(dòng)為了規(guī)避監(jiān)管,都不在微信或者QQ 群中討論,所以通過聊天信息抓取非法集資線索越來越困難。

為預(yù)測企業(yè)是否具有非法集資風(fēng)險(xiǎn),通常的做法是在人工提取特征的基礎(chǔ)上利用機(jī)器學(xué)習(xí)方法訓(xùn)練一個(gè)預(yù)測模型。這類方法可能導(dǎo)致花費(fèi)大量精力去構(gòu)思出來的特征可能與指定的任務(wù)不相關(guān)。更進(jìn)一步,可以使用神經(jīng)網(wǎng)絡(luò)模型,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)[8]、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[9]、基于長短期記憶的循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)[10],實(shí)現(xiàn)自動(dòng)特征提取和風(fēng)險(xiǎn)預(yù)測。一般而言,類似word2vec等模型將預(yù)處理后相關(guān)文本實(shí)行向量化表示。但上下文之間的聯(lián)系無法被此類模型捕捉到,此時(shí)有歧意的特征詞便可能錯(cuò)誤表征[11],預(yù)訓(xùn)練語言模型能夠有效處理此類問題。Liu 等[12]利用對(duì)BERT 超參數(shù)和強(qiáng)化訓(xùn)練集大小的研究內(nèi)容,提出不斷增強(qiáng)BERT訓(xùn)練方案,通過采用動(dòng)態(tài)遮掩策略獲得的RoBERTa模型較以往此類型的post-BERT方法相比,它能夠獲得同等或更好的質(zhì)量和性能。而針對(duì)中文相關(guān)任務(wù)上,Cui 等[13]對(duì)RoBERTa 模型實(shí)行改進(jìn),采取使用Whole Word Masking(WWM)的訓(xùn)練策略,在保留強(qiáng)化訓(xùn)練的其他作戰(zhàn)策略的基礎(chǔ)的情況下,改進(jìn)了RoBERTa 模型,進(jìn)而提高了實(shí)驗(yàn)效果。葛霓琳等[14]對(duì)評(píng)論文本實(shí)行詞向量模型進(jìn)行表示,并選用PCA算法對(duì)訓(xùn)練樣本進(jìn)行降維,選取了兩種不同的分類方法樸素貝葉斯和支持向量機(jī)在京東等電商平臺(tái)的用戶評(píng)論實(shí)現(xiàn)文本情感分析。Wang等[15]采用雙向GRU 模型對(duì)結(jié)構(gòu)化的知識(shí)庫進(jìn)行編碼,以指針網(wǎng)絡(luò)和兩個(gè)注意力機(jī)制生成關(guān)于結(jié)構(gòu)化知識(shí)庫的自然語言描述。

3 預(yù)測模型

本文提出的預(yù)測企業(yè)非法集資的混合神經(jīng)網(wǎng)絡(luò)模型主要由兩部分組成:基于預(yù)訓(xùn)練語言模型的風(fēng)險(xiǎn)等級(jí)預(yù)測網(wǎng)絡(luò)以及基于GRU 和注意力機(jī)制的風(fēng)險(xiǎn)特征知識(shí)嵌入網(wǎng)絡(luò),模型的具體結(jié)構(gòu)如圖1 所示。在企業(yè)非法集資預(yù)測任務(wù)中,需要處理大量企業(yè)相關(guān)的文本信息,本文使用RoBERTa 預(yù)訓(xùn)練語言模型提取文本語義信息。為了更好地適應(yīng)中文文本,本文將預(yù)處理后的企業(yè)文本信息輸入Ro-BERTa-wwm-ext。處理后得到的語義表征向量和經(jīng)過編碼的其他類型特征向量被輸入到風(fēng)險(xiǎn)等級(jí)預(yù)測網(wǎng)絡(luò),產(chǎn)生風(fēng)險(xiǎn)候選等級(jí)以及風(fēng)險(xiǎn)候選特征向量。非法集資風(fēng)險(xiǎn)特征知識(shí)庫作為外部知識(shí)在使用BiGRU 和attention 機(jī)制后與風(fēng)險(xiǎn)特征候選向量進(jìn)行拼接,得到融合特征向量并輸入分類器,最終完成企業(yè)非法集資預(yù)測。

圖1 基于混合神經(jīng)網(wǎng)絡(luò)的預(yù)測模型

3.1 基于RoBERTa的風(fēng)險(xiǎn)等級(jí)預(yù)測網(wǎng)絡(luò)

風(fēng)險(xiǎn)等級(jí)預(yù)測網(wǎng)絡(luò)中對(duì)RoBERTa 得到的語義表征向量使用GRU 網(wǎng)絡(luò)處理得到風(fēng)險(xiǎn)等級(jí)結(jié)果(高風(fēng)險(xiǎn)、中高風(fēng)險(xiǎn)、中低風(fēng)險(xiǎn)和低風(fēng)險(xiǎn))以及對(duì)應(yīng)的隱藏狀態(tài)向量,共同參與非法集資的預(yù)測。風(fēng)險(xiǎn)等級(jí)預(yù)測模型結(jié)構(gòu)如圖2 所示。經(jīng)過RoBERTa 編碼后的語義向量結(jié)果xt構(gòu)成集合X={xt|t=1,2,…,n},把X 作為模塊的輸入部分。通過輸入向量xt與上一步隱藏狀態(tài)ht-1進(jìn)行線性組合,再經(jīng)過sigmoid激活函數(shù)非線性化處理后得到更新門zt和重置門rt,計(jì)算公式如式(1)和(2)所示。

圖2 風(fēng)險(xiǎn)等級(jí)預(yù)測網(wǎng)絡(luò)

與傳統(tǒng)的RNN 的計(jì)算方式類似,首先將重置門rt與隱藏狀態(tài)ht-1的哈達(dá)瑪積和輸入向量xt進(jìn)行線性組合,再通過tanh激活函數(shù)非線性化處理即可得到候選狀態(tài)ht,如式(3)所示。共同計(jì)算更新門zt,隱藏狀態(tài)ht-1和候選狀態(tài)ht就可得到新的隱藏狀態(tài)ht,如式(4)所示。

將不同時(shí)間節(jié)點(diǎn)隱藏狀態(tài)ht構(gòu)成集合H={ht|t=1,2,…,n,n+1,…,n+m},經(jīng)由全連接層以及softmax 函數(shù)后得到風(fēng)險(xiǎn)等級(jí)預(yù)測向量C={ci|i=1,2,…,m}。 對(duì)向量C使用全連接層進(jìn)行維度轉(zhuǎn)換,輸出結(jié)果的維度與RoBERTa 預(yù)訓(xùn)練語言模型相同。為了避免訓(xùn)練過程中網(wǎng)絡(luò)可能存在的網(wǎng)絡(luò)退化和信息丟失問題,本文在風(fēng)險(xiǎn)預(yù)測結(jié)構(gòu)中添加跳層連接[16]和對(duì)GRU 隱藏狀態(tài)的連接處理。主要過程是使用門控機(jī)制將網(wǎng)絡(luò)的輸入部分、GRU 隱藏狀態(tài)與輸出結(jié)果進(jìn)行相加,即可得到最終網(wǎng)絡(luò)輸出結(jié)果Vout,如式(5)所示。

其中f 是風(fēng)險(xiǎn)預(yù)測網(wǎng)絡(luò),h 是GRU 隱藏狀態(tài)和維度變換結(jié)構(gòu)。

3.2 非法集資風(fēng)險(xiǎn)知識(shí)庫嵌入

除經(jīng)營范圍描述以外,企業(yè)一般還會(huì)包含大量其他存在關(guān)聯(lián)性的標(biāo)簽(如成立年限、注冊(cè)資本、違法記錄等),而僅僅利用其中的某一類標(biāo)簽,可能存在對(duì)某些模糊描述的情況難以理解,導(dǎo)致模型的理解層次偏低。為此,除風(fēng)險(xiǎn)等級(jí)預(yù)測網(wǎng)絡(luò)外,本文還構(gòu)建了一個(gè)非法集資風(fēng)險(xiǎn)特征的知識(shí)庫,有效提高模型的理解層次,提升預(yù)測準(zhǔn)確性。虛假宣傳、虛增注冊(cè)資本、大量雇用與經(jīng)營范圍不相符的理財(cái)產(chǎn)品推銷人員等,都是非法集資企業(yè)普遍存在的行為。綜合這些行為,本文從基本風(fēng)險(xiǎn)(基本信息、行政許可、變更信息等)、遵從風(fēng)險(xiǎn)(投訴舉報(bào)、案件信息、法院訴訟等)、經(jīng)營風(fēng)險(xiǎn)(行政處罰、產(chǎn)品信息、招聘信息等)、族群風(fēng)險(xiǎn)(和非法集資企業(yè)的關(guān)聯(lián)關(guān)系)和輿情風(fēng)險(xiǎn)(互聯(lián)網(wǎng)負(fù)面信息)這五類風(fēng)險(xiǎn)構(gòu)建企業(yè)非法集資風(fēng)險(xiǎn)特征知識(shí)庫。將企業(yè)其他標(biāo)簽信息結(jié)合非法集資風(fēng)險(xiǎn)特征知識(shí)在預(yù)測模型中引入,外部知識(shí)用鍵值對(duì)(key-value)的形式進(jìn)行結(jié)構(gòu)化構(gòu)建。輸入到模型中的結(jié)構(gòu)化知識(shí)庫用如下的鍵值對(duì)列表表示:

其中si用來表示企業(yè)標(biāo)簽(例如:企業(yè)名稱、企業(yè)類型、注冊(cè)資本),vi表示標(biāo)簽詳細(xì)內(nèi)容(例如:安徽XXX 投資管理公司、國有企業(yè)、5000 萬元人民幣)。在非法集資風(fēng)險(xiǎn)特征知識(shí)庫里,根據(jù)企業(yè)名稱、企業(yè)類型等標(biāo)簽自動(dòng)過濾掉不存在非法集資可能性的企業(yè),例如國有企業(yè)、事業(yè)單位、商業(yè)銀行、證券公司等。

在單向的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,因?yàn)闋顟B(tài)是從前往后輸出的形式,所以難以抓取整個(gè)風(fēng)險(xiǎn)特征知識(shí)庫中的上下文信息。但由于前一時(shí)刻的狀態(tài)和后一時(shí)刻的狀態(tài)都可能與當(dāng)前時(shí)刻的輸出存在相關(guān)性,因此使用BiGRU 網(wǎng)絡(luò)作為本文的信息提取網(wǎng)絡(luò),BiGRU 網(wǎng)絡(luò)為輸出層提供輸入序列中每一個(gè)點(diǎn)的完整上下文信息。鑒于注意力機(jī)制可以選擇性的篩選額外信息并聚焦到有效信息上,因此本文利用注意力機(jī)制來補(bǔ)充增強(qiáng)非法集資風(fēng)險(xiǎn)知識(shí)庫后的預(yù)測效果。非法集資風(fēng)險(xiǎn)知識(shí)庫嵌入模塊分為Bi-GRU 部分和注意力機(jī)制部分,具體結(jié)構(gòu)如圖3 所示。

圖3 風(fēng)險(xiǎn)特征知識(shí)嵌入

根據(jù)所描述的五類風(fēng)險(xiǎn)給定一個(gè)結(jié)構(gòu)化的非法集資風(fēng)險(xiǎn)知識(shí)庫L=[(s1,v1),(s2,v2),…,(sn,vn)],將L 經(jīng)過嵌入后得到向量L=[I1,I2,…,In]。通過對(duì)向量L 中的元素Ii分別輸入前向GRU 和反向GRU 即可得到前向隱藏狀態(tài)和反向隱藏狀態(tài),BiGRU 的隱藏狀態(tài)可由前向和反向隱藏狀態(tài)進(jìn)行拼接得到。對(duì)BiGRU 的隱藏狀態(tài)hi應(yīng)用注意力機(jī)制之后,再利用知識(shí)庫上下文向量u來衡量知識(shí)的重要性,進(jìn)而得到有利于增強(qiáng)預(yù)測的額外知識(shí)向量V。最后,將額外知識(shí)向量V 的維度用全連接網(wǎng)絡(luò)轉(zhuǎn)換為與主干網(wǎng)絡(luò)相同維度的結(jié)果向量。具體算法流程如下所示。

算法風(fēng)險(xiǎn)特征知識(shí)庫嵌入算法

輸入:結(jié)構(gòu)化風(fēng)險(xiǎn)知識(shí)庫L=[(s1,v1),(s2,v2),…,(sn,vn)]。

1)隨機(jī)初始化GRU和attention參數(shù)W,b,u

2)si,vi隨機(jī)Embedding為si,vi

3)for i in{1,2,…,n}do

4)使用雙向GRU 迭代更新得到隱藏狀態(tài)hi,使用一層MLP網(wǎng)絡(luò)計(jì)算得到ui

5)引入知識(shí)庫上下文向量u并結(jié)合注意力機(jī)制衡量知識(shí)的重要性,通過計(jì)算得到額外知識(shí)向量V

6)end for

7)V oeut=FC(V)

3.3 損失函數(shù)

風(fēng)險(xiǎn)等級(jí)預(yù)測網(wǎng)絡(luò)是對(duì)經(jīng)過GRU 網(wǎng)絡(luò)處理后的結(jié)果使用softmax 函數(shù)進(jìn)行非法集資風(fēng)險(xiǎn)等級(jí)預(yù)測,如式(6)所示。本文使用多分類交叉熵?fù)p失函數(shù)作為風(fēng)險(xiǎn)等級(jí)預(yù)測損失函數(shù),如式(7)所示。

Vconcat由非法集資風(fēng)險(xiǎn)知識(shí)特征和經(jīng)營范圍特征Vout進(jìn)行拼接而得到,再將Vconcat輸入分類器中,由此實(shí)現(xiàn)非法集資風(fēng)險(xiǎn)預(yù)測,如式(8)和式(9)所示。

本文使用二分類交叉熵?fù)p失函數(shù)作為非法集資預(yù)測的損失函數(shù),如式(10)所示。

其中pi是企業(yè)的非法集資預(yù)測概率,yi是非法集資變量。

最終,采用聯(lián)合損失函數(shù)進(jìn)行模型訓(xùn)練,式(11)所示。

4 實(shí)驗(yàn)結(jié)果與分析

4.1 實(shí)驗(yàn)環(huán)境

本文構(gòu)造的深度學(xué)習(xí)環(huán)境采用的是CUDA 11.0,對(duì)應(yīng)的PyTorch 版本是1.7.1,基于的LINUX 系統(tǒng)軟件是Ubuntu 18.04,使用64 GB 內(nèi)存,中央處理器是Intel(R)Xeon(R)Silver 4210R CPU @ 2.40GHz,圖形處理器為NVIDIA GeForce RTX 3090。

4.2 數(shù)據(jù)集

為證明模型的預(yù)測性能,本文采集了27000 家企業(yè)數(shù)據(jù)來創(chuàng)建實(shí)驗(yàn)數(shù)據(jù)集。數(shù)據(jù)集中包含了企業(yè)不同維度的各種信息,如司法和知識(shí)產(chǎn)權(quán)等照面信息、年報(bào)和納稅等經(jīng)營信息、變更和處罰等信用信息、網(wǎng)評(píng)和投訴等輿情信息。本文根據(jù)訓(xùn)練集∶驗(yàn)證集∶測試集=6∶1∶1 的大致比例,隨機(jī)劃分20000、3500、3500 條數(shù)據(jù)分別用于訓(xùn)練、驗(yàn)證和測試。

4.3 實(shí)驗(yàn)設(shè)置

本文獲取語義表征向量的方式是利用結(jié)合預(yù)訓(xùn)練和全詞掩碼優(yōu)勢(shì)的RoBERTa-wwm-ext 模型。在訓(xùn)練之前的參數(shù)選取中,采用的是768 維的語言嵌入(Embedding)模型和建立12 個(gè)源的多源注意力機(jī)制(Multi-head attention)。神經(jīng)網(wǎng)絡(luò)中為768維的隱藏層維度和12 層的隱藏層級(jí)數(shù),構(gòu)建的詞表單元為21128個(gè)。風(fēng)險(xiǎn)預(yù)測網(wǎng)絡(luò)中選擇的是128個(gè)經(jīng)過GRU 模型構(gòu)建的神經(jīng)網(wǎng)絡(luò)隱藏層,知識(shí)嵌入網(wǎng)絡(luò)中選擇的是128 個(gè)BiGRU 模型構(gòu)建的神經(jīng)網(wǎng)絡(luò)隱藏層。

模型訓(xùn)練過程中,采取的批量抓取規(guī)模(batch size)是32,批量抓取規(guī)模的單位是token,數(shù)據(jù)文本的抓取規(guī)模選定為200個(gè)token。模型搭配的Adam優(yōu)化器選定的學(xué)習(xí)率為1e-5,每經(jīng)過兩輪訓(xùn)練之后學(xué)習(xí)率設(shè)定為原來的80%來優(yōu)化模型的學(xué)習(xí)率,其中訓(xùn)練輪數(shù)選定為10。

4.4 基線模型對(duì)比

本文采用四種模型評(píng)價(jià)指標(biāo)來驗(yàn)證模型性能,分別是準(zhǔn)確率(acc)、精確率(precision)、召回率(recall)和F1 值。通過和多種基線模型的對(duì)照實(shí)驗(yàn),來驗(yàn)證本文提出方法的優(yōu)越性?;€模型選擇如下:

1)機(jī)器學(xué)習(xí)方法

使用經(jīng)典的特征工程流程來處理數(shù)據(jù),其中對(duì)文本數(shù)據(jù)使用TF-IDF 和N-grams 方法做特征工程,處理完成之后用機(jī)器學(xué)習(xí)相關(guān)的算法,多項(xiàng)式樸素貝葉斯(MultinomialNB)、XGBoost[17]、LightGBM[18]和支持向量機(jī)(SVM)[19]做分類預(yù)測。

2)深度學(xué)習(xí)方法

CNN:使 用 卷 積 核 大 小 分 別 為2、3、4 的TextCNN[20]模型提取文本特征,其他特征進(jìn)行特征編碼與文本特征進(jìn)行拼接,最終使用全連接網(wǎng)絡(luò)與Sigmod函數(shù)進(jìn)行分類預(yù)測。

RNN:使用TextRCNN[21]模型提取文本特征,其他特征進(jìn)行特征編碼與文本特征進(jìn)行拼接,最終使用全連接網(wǎng)絡(luò)與Sigmod函數(shù)進(jìn)行分類預(yù)測。

Attention-based:使用多層次注意力機(jī)制的HAN[22]模型提取文本特征,其他特征進(jìn)行特征編碼與文本特征進(jìn)行拼接,最終使用全連接網(wǎng)絡(luò)與Sigmod函數(shù)進(jìn)行分類預(yù)測。

本文提出的預(yù)測模型(RRP-EKB模型)和基線模型的對(duì)比結(jié)果如表1所示??梢钥闯觯琑RP-EKB模型取得了比其他基線模型更好的預(yù)測效果。通過實(shí)驗(yàn)結(jié)果表明,深度學(xué)習(xí)模型在評(píng)價(jià)指標(biāo)上取得了比傳統(tǒng)機(jī)器學(xué)習(xí)模型更好的分?jǐn)?shù),從算法原理上來看,機(jī)器學(xué)習(xí)方法對(duì)文本數(shù)據(jù)的處理局限在對(duì)轉(zhuǎn)換后的詞向量做簡單平均,挖掘不到文本數(shù)據(jù)中更有效的語義特征,深度學(xué)習(xí)方法采用CNN 和RNN方法來提取特征,可以獲得相對(duì)更有效的深層語義特征,所以在評(píng)價(jià)指標(biāo)上取得了更高的得分。通過Attention-based 和CNN、RNN 的對(duì)比結(jié)果可以發(fā)現(xiàn),使用Attention機(jī)制的模型擁有更高的預(yù)測準(zhǔn)確率,因?yàn)锳ttention機(jī)制可以讓模型更加關(guān)注那些對(duì)預(yù)測貢獻(xiàn)較大的特征。

表1 基線模型對(duì)比實(shí)驗(yàn)結(jié)果

4.5 消融實(shí)驗(yàn)

1)風(fēng)險(xiǎn)等級(jí)預(yù)測網(wǎng)絡(luò)的有效性

為了說明風(fēng)險(xiǎn)等級(jí)預(yù)測網(wǎng)絡(luò)的有效性,本文比較了是否使用風(fēng)險(xiǎn)等級(jí)預(yù)測網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果。為方便起見,將未使用風(fēng)險(xiǎn)等級(jí)預(yù)測網(wǎng)絡(luò)的結(jié)果命名為RoBERTa-EKB,對(duì)比結(jié)果如表2 所示。可以看出,在本文構(gòu)建的數(shù)據(jù)集上RRP-EKB 模型的各項(xiàng)評(píng)價(jià)指標(biāo)均優(yōu)于RoBERTa-EKB 模型,這表明加入了風(fēng)險(xiǎn)等級(jí)預(yù)測網(wǎng)絡(luò)的模型擁有更好的預(yù)測效果。

表2 風(fēng)險(xiǎn)等級(jí)預(yù)測網(wǎng)絡(luò)消融實(shí)驗(yàn)結(jié)果

圖4 顯示的是風(fēng)險(xiǎn)等級(jí)預(yù)測網(wǎng)絡(luò)的消融實(shí)驗(yàn)中,ACC 的值隨著迭代次數(shù)的變化曲線圖。超過200 次迭代后RRP-EKB 曲線就一直處于RoBERTa-EKB曲線的上方。這表明加入風(fēng)險(xiǎn)等級(jí)預(yù)測網(wǎng)絡(luò)的模型ACC 會(huì)比沒有加入風(fēng)險(xiǎn)等級(jí)預(yù)測網(wǎng)絡(luò)的模型更好,從而證明了風(fēng)險(xiǎn)等級(jí)預(yù)測網(wǎng)絡(luò)的有效性,能夠提高模型在風(fēng)險(xiǎn)預(yù)測上的性能。

2)嵌入風(fēng)險(xiǎn)特征知識(shí)模塊的有效性

本文通過實(shí)驗(yàn)比較嵌入風(fēng)險(xiǎn)特征知識(shí)和沒有嵌入風(fēng)險(xiǎn)特征知識(shí)兩種方法的評(píng)價(jià)指標(biāo),來驗(yàn)證嵌入風(fēng)險(xiǎn)特征知識(shí)對(duì)模型性能提升的作用。為了方便記錄,將沒有嵌入風(fēng)險(xiǎn)特征知識(shí)的方法記錄為RRP,評(píng)價(jià)指標(biāo)的得分顯示在表3 中。從中能夠看到,在本文構(gòu)建的數(shù)據(jù)集上RRP-EKB 模型的各項(xiàng)評(píng)價(jià)指標(biāo)均優(yōu)于RRP 模型,這表明加入了風(fēng)險(xiǎn)特征知識(shí)嵌入的模型擁有更好的預(yù)測效果。

表3 風(fēng)險(xiǎn)特征知識(shí)嵌入消融實(shí)驗(yàn)結(jié)果

圖5 顯示的是嵌入風(fēng)險(xiǎn)特征知識(shí)的消融實(shí)驗(yàn)中,ACC 的值隨著迭代次數(shù)的變化曲線圖。超過200 次迭代之后RRP-EKB 曲線就一直處于RRP 曲線的上方。這表明嵌入風(fēng)險(xiǎn)特征知識(shí)模型的ACC會(huì)比沒有嵌入風(fēng)險(xiǎn)特征知識(shí)模型更好,從而證明了嵌入風(fēng)險(xiǎn)特征知識(shí)的有效性,能夠提高模型在風(fēng)險(xiǎn)預(yù)測上的性能。

圖5 風(fēng)險(xiǎn)特征知識(shí)嵌入網(wǎng)絡(luò)消融實(shí)驗(yàn)acc對(duì)比

5 結(jié)語

為提升企業(yè)非法集資的監(jiān)管效率,本文提出了一種基于混合神經(jīng)網(wǎng)絡(luò)的預(yù)測模型。該模型構(gòu)建了基于RoBERTa 的風(fēng)險(xiǎn)等級(jí)預(yù)測網(wǎng)絡(luò)并產(chǎn)生風(fēng)險(xiǎn)等級(jí)類別以及風(fēng)險(xiǎn)候選特征向量,利用GRU 模型生成用于預(yù)測的備用數(shù)據(jù)集來提升預(yù)測性能,同時(shí)結(jié)合跳層連接方法來彌補(bǔ)深度網(wǎng)絡(luò)在訓(xùn)練中伴隨的信息丟失和網(wǎng)絡(luò)退化的缺陷。此外,本文模型利用BiGRU 和注意力機(jī)制嵌入風(fēng)險(xiǎn)特征知識(shí)到模型中,使預(yù)測模型的分析層次得到升級(jí),提高了模型對(duì)企業(yè)非法集資的預(yù)測性能。

猜你喜歡
集資知識(shí)庫向量
向量的分解
聚焦“向量與三角”創(chuàng)新題
太原:舉報(bào)非法集資最高獎(jiǎng)萬元
基于TRIZ與知識(shí)庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
各式非法集資套路與反套路
當(dāng)心非法集資搭上網(wǎng)絡(luò)傳銷
教你識(shí)破非法集資及傳銷的“十三種表象”
高速公路信息系統(tǒng)維護(hù)知識(shí)庫的建立和應(yīng)用
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線