楊紀(jì)星,楊 波,2,朱劍林,2,康怡琳,2
(1. 中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,湖北 武漢 430074;2. 信息物理融合智能計(jì)算國(guó)家民委重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430074)
在金融領(lǐng)域,事件發(fā)展動(dòng)蕩多變,在事件的邏輯衍生中,事件內(nèi)部的復(fù)雜性決定多種事件直接或間接導(dǎo)致同一事件的發(fā)生,亦決定同一事件可直接或間接導(dǎo)致多種不同事件發(fā)生。因此,探究金融領(lǐng)域中事件的動(dòng)態(tài)發(fā)展規(guī)律并實(shí)現(xiàn)事件發(fā)展脈絡(luò)的可視化表達(dá),是金融行業(yè)迫切需要解決的階段性問(wèn)題。
近年來(lái)對(duì)于知識(shí)圖譜的研究及其構(gòu)建領(lǐng)域的日漸成熟,單一的確定性靜態(tài)知識(shí)類圖譜構(gòu)建模型已經(jīng)難以滿足業(yè)界的需求,特別在金融領(lǐng)域,事件具有動(dòng)態(tài)發(fā)展性,靜態(tài)的知識(shí)圖譜難以全面地表現(xiàn)事件的邏輯規(guī)律。事理圖譜(Eventic Graph,EG)是一個(gè)基于事理邏輯構(gòu)建出來(lái)的知識(shí)庫(kù),以事件為節(jié)點(diǎn),以事件關(guān)系為核心的有向有環(huán)圖,刻畫并記錄事件之間的演化規(guī)律和模式,能夠有效解決事件預(yù)測(cè)和事件分析的問(wèn)題[1]。
Luo等人[2]于2016年首次從文本數(shù)據(jù)集中抽取出因果事件對(duì),并將其構(gòu)建成因果事件網(wǎng)絡(luò)。Zhao等人[3]于2017年提出以規(guī)則模板的形式對(duì)事件因果進(jìn)行抽取操作,即
2018年,Dasgupta等人[5]在計(jì)算機(jī)語(yǔ)言協(xié)會(huì)上提出一種基于語(yǔ)言的遞歸神經(jīng)網(wǎng)絡(luò)架構(gòu),用于自動(dòng)提取文本深層信息,該架構(gòu)使用詞嵌入和語(yǔ)言特征的方式檢測(cè)句子中提到的因果事件及其影響,并且以此為基礎(chǔ)提出兩個(gè)基線系統(tǒng)評(píng)估指標(biāo)用于評(píng)估模型的性能。在研究過(guò)程中,發(fā)現(xiàn)添加額外語(yǔ)言層的雙層LSTM模型表現(xiàn)出更好的性能。由此,2020年以后,多位研究者針對(duì)不同領(lǐng)域提出事理圖譜構(gòu)建方案,如面向熱點(diǎn)話題的因果事理圖譜[6],基于城市軌道交通運(yùn)營(yíng)突發(fā)事件的事理圖譜[7]以及面向電信詐騙領(lǐng)域的事理圖譜[8]。
然而,目前金融領(lǐng)域因果事理圖譜的構(gòu)建面臨諸多挑戰(zhàn),如因金融事件的復(fù)雜多變性以及針對(duì)金融事件缺少明確的定義與劃分標(biāo)準(zhǔn),使得目前可用金融事件數(shù)據(jù)集較為匱乏;又如構(gòu)建方案缺少對(duì)比實(shí)踐,事件抽取任務(wù)精度較低,以致因果事理圖譜難以適應(yīng)數(shù)據(jù)量較大且精度要求較高的金融領(lǐng)域。
為此,本文提出了一種新的金融領(lǐng)域事件論元的定義,制定了ATT+SBV的句法分析方案,以此提出面向金融因果事件的序列標(biāo)注標(biāo)簽定義,并在金融事件數(shù)據(jù)集中標(biāo)注數(shù)據(jù)6 000條,然后提出了一種基于BERT+Bi-LSTM+CRF模型的信息抽取方案,并與不同神經(jīng)網(wǎng)絡(luò)模型做對(duì)比研究,以提升文本事件預(yù)測(cè)的準(zhǔn)確性,通過(guò)Neo4j圖數(shù)據(jù)庫(kù)構(gòu)建金融因果事理圖譜,以可視化的方式揭示現(xiàn)實(shí)金融事件的演變邏輯規(guī)律,分析金融網(wǎng)絡(luò)中風(fēng)險(xiǎn)傳導(dǎo)擴(kuò)散機(jī)制,為金融市場(chǎng)實(shí)現(xiàn)對(duì)市場(chǎng)環(huán)境的趨勢(shì)把控提供數(shù)據(jù)支持。
在以往的金融事理圖譜中,作為節(jié)點(diǎn)的金融事件,具有廣泛多樣、知識(shí)粒度較粗的特點(diǎn),使得事件實(shí)例的組成具有多樣性和不確定性,在事理圖譜的構(gòu)建上存在事件準(zhǔn)確度過(guò)低的問(wèn)題。因此,本文對(duì)金融事件的實(shí)體概念作出劃分,并定義金融事件本體的組成元素,從而提出更精確的金融事件本體。金融事件描述主要指金融領(lǐng)域中已發(fā)生的具有動(dòng)態(tài)發(fā)展性質(zhì)的熱點(diǎn)事件,主要包括事件的實(shí)體及其屬性和事件變化的具體形式,因此事件論元的組成成分包括事件實(shí)體、描述性客體、時(shí)間、地點(diǎn)等特殊要素[9]。在具體表現(xiàn)形式上,本文將其表現(xiàn)為式(1)所示。
e=
(1)
基于式(1),金融事件論元可由三元組表示,即將事件表示進(jìn)行線性化,能夠?qū)⑽谋局械氖录涗洷硎緸橐粋€(gè)表達(dá)式,使金融事件在表示上有著嚴(yán)格的規(guī)范定義[10]。其中,D表示針對(duì)金融事件實(shí)體的描述性元素,如地理位置、產(chǎn)品名稱等;E表示金融事件中的事件實(shí)體,對(duì)應(yīng)事件描述中事件對(duì)象,如市場(chǎng)、產(chǎn)能、價(jià)格、豬瘟等;S表示體現(xiàn)金融事件對(duì)象的動(dòng)態(tài)變化形式,如降低、停滯、分化、下跌等。以“國(guó)內(nèi)汽柴油價(jià)格下調(diào),導(dǎo)致煉油損耗逐月擴(kuò)大、庫(kù)存價(jià)格下跌”事件作為案例,其中可將其劃分為三個(gè)事件論元,可認(rèn)為“價(jià)格”“損耗”是事件的實(shí)體對(duì)象,而如“汽柴油”“煉油”和“庫(kù)存”則認(rèn)為是對(duì)實(shí)體對(duì)象的描述詞,并將“下調(diào)”“擴(kuò)大”和“下跌”認(rèn)為是事件實(shí)體的動(dòng)態(tài)形式。
本文研究的金融事件數(shù)據(jù)主要來(lái)源于CCKS-2021發(fā)布在數(shù)競(jìng)平臺(tái)的金融因果事件數(shù)據(jù)集(1)https://www.biendata.net/competition /ccks_2021_task6_2/,其數(shù)據(jù)結(jié)構(gòu)為金融因果事件的Json數(shù)據(jù),數(shù)據(jù)樣例為{“text_id”: ”123456”, “text”: “卡車需求不旺導(dǎo)致貨運(yùn)行業(yè)盈利水平大幅度縮水”},該數(shù)據(jù)集的數(shù)據(jù)主要來(lái)自金融領(lǐng)域的公開新聞、報(bào)道。為了使事件抽取模型準(zhǔn)確度更高,本文爬取了《人民日?qǐng)?bào)》金融板塊近一年的事件標(biāo)題作為擴(kuò)充數(shù)據(jù)集。
數(shù)據(jù)源的新聞文本在提取后通過(guò)正則表達(dá)式或者人工操作,對(duì)其進(jìn)行清洗操作,具體是將與事件抽取任務(wù)無(wú)關(guān)的組織、數(shù)據(jù)等進(jìn)行剔除,使得事件抽取任務(wù)在精確性上得到進(jìn)一步提升。
在自然語(yǔ)言句型模式匹配研究中,句子類型可以被劃分為轉(zhuǎn)折事件、順承事件、并列事件、條件事件以及因果事件,以此確定不同句型的相應(yīng)格式[11]。本文研究以金融因果事件作為主體,確定事件關(guān)系的因果觸發(fā)詞,通過(guò)先對(duì)事件觸發(fā)詞進(jìn)行內(nèi)容定義,在關(guān)系匹配函數(shù)中對(duì)句子內(nèi)容進(jìn)行關(guān)系模式匹配。
在本文研究的金融因果事件關(guān)系中,將以表1中的事件因果觸發(fā)詞作為內(nèi)容定義。
表1 因果關(guān)系觸發(fā)詞表
在對(duì)文本事件進(jìn)行事件關(guān)系分析時(shí),如“國(guó)內(nèi)汽柴油價(jià)格下調(diào),導(dǎo)致煉油損耗逐月擴(kuò)大、庫(kù)存價(jià)格下跌”,由以上關(guān)聯(lián)觸發(fā)詞,可匹配此事件中因果觸發(fā)詞為“導(dǎo)致”。因此,通過(guò)模板對(duì)事件類型劃分,可將“國(guó)內(nèi)汽柴油價(jià)格下調(diào)”劃分為原因事件,而“煉油損耗逐月擴(kuò)大、庫(kù)存價(jià)格下跌”則被劃分為結(jié)果事件。
2.3.1 依存句法分析
依存句法分析是在語(yǔ)法分析的基礎(chǔ)上,根據(jù)其中依存關(guān)系,將其句法結(jié)構(gòu)表達(dá)出來(lái)[12]。其中,LTP語(yǔ)言技術(shù)平臺(tái)作為中文文本依存句法分析工具,相較于Stanford CoreNLP和SpaCy相關(guān)依存句法分析庫(kù)而言,LTP使用簡(jiǎn)單,兼容性良好,標(biāo)注的結(jié)果簡(jiǎn)單易分析,速度較快,可以滿足大多數(shù)針對(duì)依存句法分析的應(yīng)用要求,其使用的BH-SDP[13]中文標(biāo)注方案更適用于中文文本數(shù)據(jù)的處理。本文為了清楚地匹配事件論元關(guān)系,以LTP的關(guān)系標(biāo)簽提出了ATT(定中)+SBV(主謂)句法分析形式(其在Stanford CoreNLP和SpaCy中的形式為NMOD+NSUBJ)來(lái)抽取事件。因此,此類表示事件的形式,可以使核心詞匯和構(gòu)成要素均在事件中得以體現(xiàn)。圖1為基于上述研究對(duì)“國(guó)內(nèi)汽柴油價(jià)格下調(diào),導(dǎo)致煉油損耗逐月擴(kuò)大、庫(kù)存價(jià)格下跌”使用LTP語(yǔ)言技術(shù)平臺(tái)進(jìn)行依存句法分析的弧線圖。
圖1 事件文本依存句法分析弧線圖
由上述事件抽取方案生成的事件結(jié)果,如表2所示。
表2 依存句法分析生成事件
由此看出,在事件表示上,此種方案具有設(shè)計(jì)簡(jiǎn)單、性能良好、事件簡(jiǎn)潔等特點(diǎn),并體現(xiàn)事件變化的動(dòng)態(tài)要求。
2.3.2 金融事件抽取結(jié)果與分析
依存句法分析進(jìn)行事件抽取的方案基于預(yù)處理的文本數(shù)據(jù),通過(guò)因果關(guān)聯(lián)詞匹配確定事件因果劃分,經(jīng)過(guò)分詞、詞性標(biāo)注以及依存句法分析,依照事件論元定義,最終以ATT(定中)+SBV(主謂)的形式構(gòu)建出金融事件,基本完成了構(gòu)建事理圖譜的數(shù)據(jù)要求。
基于上述實(shí)驗(yàn),通過(guò)對(duì)關(guān)系抽取和事件抽取的結(jié)果進(jìn)行統(tǒng)計(jì),并對(duì)數(shù)據(jù)進(jìn)行準(zhǔn)確性分析,統(tǒng)計(jì)結(jié)果如表3所示。
表3 因果事件及關(guān)系抽取統(tǒng)計(jì)表
通過(guò)以上數(shù)據(jù)可知,在因果關(guān)系抽取任務(wù)上,準(zhǔn)確率達(dá)到了90.2%,性能較為優(yōu)秀,但在基于依存句法分析的事件抽取中,發(fā)現(xiàn)存在SBV句法形式的句子個(gè)數(shù)偏少,事件抽取準(zhǔn)確率只有75.2%,在性能上略低,此類基于依存句法分析進(jìn)行事件抽取的方案在準(zhǔn)確性和可持續(xù)性上不太適合進(jìn)行大規(guī)模的數(shù)據(jù)處理以及對(duì)事件精度要求較高的金融領(lǐng)域。
為彌補(bǔ)通過(guò)依存句法分析進(jìn)行事件抽取中精度不高及可持續(xù)性無(wú)法滿足規(guī)模較大數(shù)據(jù)處理的不足,本文通過(guò)對(duì)數(shù)據(jù)集進(jìn)行手動(dòng)標(biāo)注,構(gòu)建多種信息抽取模型,對(duì)比實(shí)驗(yàn)對(duì)序列標(biāo)注數(shù)據(jù)集進(jìn)行訓(xùn)練,以提高事件抽取任務(wù)的準(zhǔn)確性。
2.4.1 文本向量化及預(yù)訓(xùn)練模型
文本向量化實(shí)際上是將文本內(nèi)容通過(guò)算法技術(shù)使其轉(zhuǎn)換成機(jī)器能夠理解的向量形式。Word2Vec在由Google于2013年作為用于訓(xùn)練詞向量模型的工具以來(lái),其使用神經(jīng)網(wǎng)絡(luò)機(jī)制,對(duì)數(shù)量規(guī)模較大的文本數(shù)據(jù)進(jìn)行訓(xùn)練,其訓(xùn)練結(jié)果可很好地度量詞與詞之間相似性[14]。2018年,Google提出聚焦于學(xué)習(xí)上下文關(guān)系的詞向量表示的預(yù)訓(xùn)練模型,即BERT預(yù)訓(xùn)練模型,其能夠挖掘文本的深層次信息并強(qiáng)化單詞的特征表示[15]。
2.4.2 序列標(biāo)注
序列標(biāo)注(Sequence Labeling),即基于給定的輸入序列,通過(guò)一定規(guī)則對(duì)此序列的每個(gè)位置標(biāo)注上一個(gè)相應(yīng)的標(biāo)簽的過(guò)程[16]。事件抽取即信息提取,可將其認(rèn)為是一個(gè)序列標(biāo)注任務(wù)。本文通過(guò)采用BMOES標(biāo)注體系,對(duì)金融事件數(shù)據(jù)源進(jìn)行人工標(biāo)注,BMOES金融因果事件標(biāo)注體系定義如表4所示。
表4 BMOES序列標(biāo)注說(shuō)明
基于以上序列標(biāo)注規(guī)范,將標(biāo)簽序列規(guī)定為{O,B-cause,M-cause,E-cause,B-effect,M-effect,E-effect,B-trigger,M-trigger,E-trigger,S-trigger},其中O標(biāo)簽表示不屬于事件提取的任意事件,B-cause,M-cause,E-cause可分別表示文本屬于原因事件的開始、中間和結(jié)束,而B-effect,M-effect,E-effect則表示文本屬于結(jié)果事件的開始、中間和結(jié)束,B-trigger,M-trigger,E-trigger表示文本屬于因果觸發(fā)詞的開始、中間和結(jié)束,最后的S-trigger則表示為單個(gè)因果觸發(fā)詞?;谝陨弦?guī)范,通過(guò)序列標(biāo)注工具YEDDA對(duì)事件進(jìn)行標(biāo)注任務(wù),如圖2所示。
圖2 YEDDA序列標(biāo)注工具
通過(guò)以上標(biāo)簽規(guī)范,本文對(duì)金融因果事件進(jìn)行粗略標(biāo)注,并基于金融事件論元定義及ATT+SBV句法規(guī)則進(jìn)行精確修整,共標(biāo)注6 000條,并按照 3∶1∶1 的比例將其分為訓(xùn)練集、測(cè)試集和驗(yàn)證集,以下則是根據(jù)標(biāo)簽規(guī)范進(jìn)行事件標(biāo)注的事例。
“非 B-cause/洲 M-cause/豬 M-cause/瘟 E-cause/對(duì) O/我 O/國(guó) O/豬O/肉 O/全 O/產(chǎn) O/業(yè) O/鏈 O/影 O/響 O/導(dǎo) B-trigger/致 E-trigger/實(shí) O/際 O/產(chǎn) B-effect/能 M-effect/減 M-effect/少 E-effect/、 O/豬 B-effect/肉 M-effect/價(jià) M-effect/格 M-effect/嚴(yán) O/重 O/分 M-effect/化 E-effect/、O/跨 B-effect/省 M-effect/運(yùn)M-effect/輸 M-effect/停 M-effect/滯 E-effect/,O/北 O/方 O/生 B-effect/豬 M-effect/養(yǎng) M-effect/殖 M-effect/企 M-effect/業(yè) M-effect/大 O/面 O/積 O/虧 M-effect/損 E-effect/?!?/p>
2.4.3 Bi-LSTM雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)
為處理事件序列問(wèn)題,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)既考慮前一時(shí)刻的輸入,又賦予網(wǎng)絡(luò)對(duì)以往內(nèi)容的“記憶”能力。而雙向結(jié)構(gòu)的RNN不僅可從前向后保留給更前面的內(nèi)容,對(duì)其后面的內(nèi)容也進(jìn)行了相應(yīng)保留,即雙向RNN便是由兩個(gè)RNN上下疊加而成的。
但由于RNN本身基于時(shí)間反向傳播的特點(diǎn)仍會(huì)帶來(lái)如梯度消失或者是梯度爆炸的問(wèn)題,因此并不能解決長(zhǎng)距離依賴問(wèn)題,引入長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory Network, LSTM),其可通過(guò)梯度裁剪技術(shù)來(lái)克服梯度爆炸的相關(guān)問(wèn)題,并由于其特殊的存儲(chǔ)“記憶”方式,也在一定程度上克服了梯度消失的問(wèn)題。RNN的重復(fù)模塊包含單一的層,LSTM的重復(fù)模塊包含四個(gè)交互的層[17]。三個(gè)神經(jīng)單元模塊的LSTM內(nèi)部結(jié)構(gòu)如圖3所示。
圖3 三個(gè)神經(jīng)單元模塊的LSTM內(nèi)部結(jié)構(gòu)
在LSTM神經(jīng)網(wǎng)絡(luò)中,使用門結(jié)構(gòu)實(shí)現(xiàn)了對(duì)序列數(shù)據(jù)的遺忘和記憶,基于大量的文本序列數(shù)據(jù)對(duì)LSTM模型進(jìn)行訓(xùn)練之后,其可以捕捉文本上下文之間的依賴關(guān)系。通過(guò)訓(xùn)練好的模型可直接根據(jù)指定的文本生成后續(xù)的預(yù)測(cè)內(nèi)容。因此在信息抽取研究中,采用LSTM模型解決序列標(biāo)注任務(wù)。而雙向Bi-LSTM模型由文獻(xiàn)[18]提出,將LSTM模型進(jìn)行雙層疊加,以形成雙向LSTM模型,使得上下文的信息得以連接起來(lái)。Bi-LSTM結(jié)構(gòu)如圖4所示。
圖4 Bi-LSTM結(jié)構(gòu)
2.4.4 條件隨機(jī)場(chǎng)
Bi-LSTM模型解決上下文的關(guān)聯(lián)問(wèn)題,但在實(shí)際的序列建模過(guò)程中,Bi-LSTM只考慮了輸入序列的信息,并沒(méi)有對(duì)標(biāo)簽的轉(zhuǎn)移關(guān)系進(jìn)行建模,以本文的BMOES序列標(biāo)注為例,輸入序列為“煉油損耗擴(kuò)大”,理想的標(biāo)注結(jié)果為“B-effect M-effect M-effect M-effect M-effect E-effect”,但實(shí)際上可能出現(xiàn)的情況為“B-effect B-trigger M-effect O M-effect E-cause”。這是由于在建模的過(guò)程中,未對(duì)標(biāo)簽的轉(zhuǎn)移關(guān)系進(jìn)行條件約束,使得模型輸出一個(gè)錯(cuò)誤的序列,因此引入條件隨機(jī)場(chǎng)(Conditional Random Field,CRF),即CRF層,通過(guò)引入標(biāo)簽轉(zhuǎn)移矩陣,解決序列標(biāo)注前后標(biāo)簽不匹配的問(wèn)題[19]。在這個(gè)過(guò)程中,Bi-LSTM與CRF取長(zhǎng)補(bǔ)短,巧妙結(jié)合。
線性鏈?zhǔn)綏l件隨機(jī)場(chǎng)通過(guò)兩個(gè)特征函數(shù)學(xué)習(xí)邊界。設(shè)P(y|x)為線性鏈?zhǔn)綏l件隨機(jī)場(chǎng),則在隨機(jī)變量X取值為x的條件下,隨機(jī)變量Y取值為y的條件概率具有如式(2)所示的參數(shù)化表示形式。
(2)
其中兩個(gè)特征函數(shù)分為轉(zhuǎn)移特征函數(shù)和節(jié)點(diǎn)特征函數(shù),且取值只能為0或1。轉(zhuǎn)移特征函數(shù)依賴于當(dāng)前節(jié)點(diǎn)i和上一個(gè)節(jié)點(diǎn)i-1,記為tk(yi-1,yi,x,i),節(jié)點(diǎn)特征函數(shù)只依賴于當(dāng)前節(jié)點(diǎn)i,記為sl(yi,x,i)。
其中,轉(zhuǎn)移特征函數(shù)對(duì)應(yīng)的權(quán)重值為λk,節(jié)點(diǎn)特征函數(shù)的權(quán)重值為μl,Z(x)為規(guī)范化因子,計(jì)算方法如式(3)所示。
(3)
整個(gè)序列標(biāo)注過(guò)程可簡(jiǎn)單描述為: 基于給定的序列標(biāo)注數(shù)據(jù)集,通過(guò)將標(biāo)注集進(jìn)行排列組合以構(gòu)成多個(gè)可選標(biāo)注列表,利用特征函數(shù)集合對(duì)每個(gè)標(biāo)注結(jié)果進(jìn)行打分,并將所有特征函數(shù)的分?jǐn)?shù)進(jìn)行加權(quán)求和,最后選擇分?jǐn)?shù)最高的結(jié)果,即可信度最高的序列標(biāo)注結(jié)果。圖5為線性鏈?zhǔn)綏l件隨機(jī)場(chǎng)的結(jié)構(gòu)。
圖5 線性鏈?zhǔn)綏l件隨機(jī)場(chǎng)的結(jié)構(gòu)
2.4.5 基于Bi-LSTM+CRF的信息抽取模型
模型分為詞嵌入層即Embedding層、Bi-LSTM層以及CRF輸出層。
在Embedding層,接受中文文本詞的輸入并將其轉(zhuǎn)換為詞向量形式。
在Bi-LSTM層,接受Embedding層的輸出,輸出為文本詞對(duì)應(yīng)的每個(gè)實(shí)體種類的Score。此處對(duì)“煉B-cause 油M-cause 損M-cause 耗E-cause”進(jìn)行分析,其中Score(x,y)由轉(zhuǎn)移特征概率和狀態(tài)特征概率兩部分組成,此時(shí)x為word index序列,y為label index序列。轉(zhuǎn)移特征概率是指在前面的輸出標(biāo)記是B的情況下,當(dāng)前的輸出標(biāo)記是一個(gè)特定的數(shù)值,例如M的概率大小。而狀態(tài)特征是指在當(dāng)前輸入的詞為“油”的條件下,當(dāng)前輸出標(biāo)記是一個(gè)特定的數(shù)值,例如M的概率大小,則Score(x,y)如式(4)所示。
(4)
此處的h指代Bi-LSTM的輸出,代表序列標(biāo)注標(biāo)簽的狀態(tài)特征分?jǐn)?shù)值,P則是轉(zhuǎn)移特征矩陣,表示第i標(biāo)簽從yi-1轉(zhuǎn)移到y(tǒng)i的轉(zhuǎn)移得分值。Bi-LSTM層內(nèi)部通過(guò)線性層將數(shù)據(jù)類型映射為(單次傳遞給程序用以訓(xùn)練的參數(shù),句子長(zhǎng)度,實(shí)體總數(shù))的類型,得出Score。
在CRF層,接收Bi-LSTM的Score的輸出作為輸入,輸入通過(guò)了一個(gè)維度變換后的相加操作作為輸出。CRF的損失函數(shù)由真實(shí)路徑的分?jǐn)?shù)和所有路徑的總分?jǐn)?shù)組成,每種可能的路徑的分?jǐn)?shù)為Pi,共有N條路徑,路徑的總分可由式(5)所示。
Ptotal=P1+P2+…+PN=eS1+eS2+…+eSN
(5)
其中,eSi表示第i條路徑的分?jǐn)?shù),因此損失函數(shù)可由式(6)表示。在訓(xùn)練過(guò)程中,Bi-LSTM+CRF模型的參數(shù)值將隨著訓(xùn)練過(guò)程的迭代不斷更新,使得真實(shí)路徑所占的比值越來(lái)越大。
(6)
在計(jì)算了每個(gè)字詞(token)歸一化概率矩陣和轉(zhuǎn)移概率矩陣之后,最后根據(jù)維特比算法得到整個(gè)文本句子的最優(yōu)概率輸出。
基于上述Bi-LSTM+CRF模型設(shè)計(jì),在參數(shù)設(shè)置上,基于詞嵌入,設(shè)置Embedding層的維度為256,隱藏層維度為256,設(shè)置單次傳遞給程序用以訓(xùn)練的參數(shù)個(gè)數(shù)為16,在學(xué)習(xí)速率的設(shè)置上,設(shè)置學(xué)習(xí)率lr為5e-4,使得在學(xué)習(xí)過(guò)程中避免損失函數(shù)震蕩和學(xué)習(xí)難以收斂的問(wèn)題。經(jīng)多次實(shí)驗(yàn)發(fā)現(xiàn),將Epoch次數(shù)設(shè)置為12次可得最佳數(shù)據(jù)。
2.4.6 基于BERT+Bi-LSTM+CRF的信息抽取模型
為再次提高模型性能以及獲取字詞深層次特征的能力,將Bi-LSTM+CRF中的Embedding層換成BERT。BERT模型與Word2Vec不同,其通過(guò)聯(lián)合調(diào)節(jié)所有層中的上下文來(lái)預(yù)訓(xùn)練深度進(jìn)行雙向表示,語(yǔ)義編碼更加精確,圖6所示。
圖6 Bi-LSTM+CRF模型結(jié)構(gòu)
本文采用谷歌提供的BERT-base版本的中文模型,隱藏層維度為768。BERT初始學(xué)習(xí)率設(shè)置為 1e-5,Bi-LSTM層維度設(shè)置為128,Drop-rate設(shè)置為0.1,優(yōu)化器采用Adam算法。
基于上述模型,執(zhí)行模型優(yōu)化策略。首先進(jìn)行Epoch訓(xùn)練優(yōu)化,統(tǒng)一訓(xùn)練監(jiān)控指標(biāo)和評(píng)估指標(biāo),將監(jiān)控指標(biāo)由字詞(token)更改為實(shí)體級(jí)別F1值,在每個(gè)Epoch結(jié)束之后,計(jì)算驗(yàn)證集的F1值,基于現(xiàn)有的Epoch的F1值與以往保存的最佳F1值進(jìn)行比較,決定是否保存當(dāng)前訓(xùn)練模型,如若后續(xù)Epoch訓(xùn)練的性能指標(biāo)未有顯著變化,則執(zhí)行學(xué)習(xí)率的衰減策略。
其次,進(jìn)行分層學(xué)習(xí)率優(yōu)化。在模型構(gòu)建過(guò)程中,LSTM層是隨機(jī)初始化的,意味著學(xué)習(xí)的次數(shù)不夠或者學(xué)習(xí)率太小,隨機(jī)初始化的參數(shù)在反向傳播過(guò)程中并不能得到一個(gè)較大幅度的優(yōu)化,需進(jìn)行分層封裝的學(xué)習(xí)率設(shè)置,實(shí)驗(yàn)參照Su等人[20]的分層設(shè)置學(xué)習(xí)率方法,對(duì)模型每一層進(jìn)行封裝,并分層設(shè)置學(xué)習(xí)率,此處BERT層初始學(xué)習(xí)率設(shè)置為1e-5,對(duì)Bi-LSTM層進(jìn)行初始學(xué)習(xí)率的倍數(shù)操作。
2.4.7 基于BERT+Bi-LSTM+CRF模型的事件預(yù)測(cè)任務(wù)
基于構(gòu)建完成的BERT+Bi-LSTM+CRF模型,對(duì)金融事件文本執(zhí)行信息抽取任務(wù),實(shí)驗(yàn)結(jié)果如表5所示。
表5 事件預(yù)測(cè)
2.4.8 金融事件抽取結(jié)果與分析
為評(píng)估深度學(xué)習(xí)模型的信息抽取性能,本文采用F1-Score[21]作為序列標(biāo)注任務(wù)的性能評(píng)估指標(biāo),其是精確率(Precision)、召回率(Recall)的調(diào)和平均數(shù)。其計(jì)算式如式(7)~式(9)所示。
其中,TP指代分類器預(yù)測(cè)結(jié)果為正樣本,實(shí)際也為正樣本,即正樣本被正確識(shí)別的標(biāo)簽數(shù)量;FP指代分類器預(yù)測(cè)結(jié)果為正樣本,實(shí)際為負(fù)樣本,即誤報(bào)的負(fù)樣本數(shù)量,FN是分類器預(yù)測(cè)結(jié)果為負(fù)樣本,實(shí)際為正樣本,即漏報(bào)的正樣本數(shù)量。
根據(jù)上述性能評(píng)估指標(biāo)研究,實(shí)驗(yàn)結(jié)果如表6所示。
表6 不同模型結(jié)果對(duì)比
由表6可以看出,加入了BERT預(yù)訓(xùn)練模型的Bi-LSTM+CRF模型獲得了更好的識(shí)別效果,其F1-Score達(dá)到了95.78%。與Word2Vec相比,BERT成功地將這種表達(dá)能力強(qiáng),并且易于優(yōu)化的深層網(wǎng)絡(luò)應(yīng)用到了掩碼語(yǔ)言模型這個(gè)任務(wù)上,BERT每個(gè)位置經(jīng)過(guò)多次Transformer層輸出后的詞向量都有語(yǔ)境信息,BERT能直接地建模距離更遠(yuǎn)的詞和詞之間的依賴關(guān)系,這是Word2Vec所不具備的[22]。實(shí)驗(yàn)表明,在對(duì)數(shù)據(jù)的自標(biāo)注過(guò)程中,依據(jù)金融事件論元定義和ATT+SBV的文本句法定義對(duì)金融事件元素做出的分析,在序列標(biāo)注中可準(zhǔn)確地標(biāo)注出金融因果事件及其觸發(fā)詞,從而使得大量的序列標(biāo)注數(shù)據(jù)能夠?qū)RF的轉(zhuǎn)移概率的學(xué)習(xí)效果有著顯著的提升,使得標(biāo)簽?zāi)苡懈侠淼霓D(zhuǎn)移方式。同時(shí)依據(jù)金融領(lǐng)域因果的事件數(shù)據(jù)具有明顯的事件主語(yǔ)和動(dòng)態(tài)變化趨勢(shì),在特征提取時(shí)引入注意力機(jī)制,事件抽取的準(zhǔn)確性較傳統(tǒng)的依存句法分析進(jìn)行事件抽取的方案更能勝任復(fù)雜多樣的金融事件領(lǐng)域,并且BERT預(yù)訓(xùn)練模型在詞之間具有長(zhǎng)距離依賴優(yōu)勢(shì),在抽取事件文本的深度特征上比其他信息抽取模型更加準(zhǔn)確。因此,此模型在理論上可在數(shù)據(jù)集的漸續(xù)增加中提高性能,更具有可持續(xù)性。
根據(jù)事理圖譜構(gòu)建的任務(wù)定義,即從在結(jié)構(gòu)上看,事理圖譜是一個(gè)以節(jié)點(diǎn)代表事件,以邊代表事件關(guān)系且包含事件詞的結(jié)構(gòu)化多元組。因此本節(jié)研究工作基于上述事件抽取及事件關(guān)系匹配結(jié)果,將同一事件文本中的原因事件和結(jié)果事件以<因事件,事件關(guān)系,果事件>的三元組形式進(jìn)行笛卡爾積式組合。表7為生成的部分事件三元組結(jié)果。
表7 事件三元組結(jié)果
通過(guò)信息抽取任務(wù)形成以<因事件,事件關(guān)系,果事件>為形式的事件三元組,再對(duì)其中所含的相似事件進(jìn)行事件合并,也稱為事件融合。事件融合任務(wù)的必要性為得到精確完整的因果事件三元組,以提高整個(gè)事件抽取和事件關(guān)系匹配任務(wù)的數(shù)據(jù)質(zhì)量[23]。
在事件三元組構(gòu)建完成后,需針對(duì)相似語(yǔ)句進(jìn)行替換處理,涉及文本相似度計(jì)算的問(wèn)題,因此引入Jaccard系數(shù)進(jìn)行文本相似度計(jì)算。對(duì)給定的兩個(gè)文本集合A和B,Jaccard系數(shù)被定義為A與B交集大小與A與B并集大小的比值,是計(jì)算機(jī)領(lǐng)域中實(shí)現(xiàn)文本相似度計(jì)算時(shí)常用的一種方法[24]。Jaccard系數(shù)值越大,文本之間相似度越高。其計(jì)算方法如式(10)所示。
(10)
通過(guò)式(10)求得的Jaccard系數(shù),針對(duì)事件三元組的因果事件進(jìn)行分析,本文基于單建芳的事件相似度計(jì)算算法思想[25],采用相似文本算法將前置定語(yǔ)和主語(yǔ)(ATT)一致且相似度超過(guò)設(shè)定閾值(0.5)的事件進(jìn)行列表合并。此時(shí)的事件相似度閾值設(shè)置是基于金融事件論元的元素定義,在事件主語(yǔ)及其前置賓語(yǔ)元素一致的共同前提下,通過(guò)計(jì)算金融事件論元中的共同事件主語(yǔ)及其描述詞元素在整個(gè)事件文本的相似度所得到的,能夠保證其事件語(yǔ)法相似和語(yǔ)義相似的合理性。同時(shí),以首位事件作為第一優(yōu)先級(jí)事件,用其依次替換掉后續(xù)相似事件,并將缺少因事件或者果事件的三元組進(jìn)行刪除處理。此工作合并結(jié)果如表8所示。
表8 “非洲豬瘟”事件合并結(jié)果
圖數(shù)據(jù)庫(kù)是使用節(jié)點(diǎn)、邊和屬性來(lái)表示和存儲(chǔ)數(shù)據(jù)的非關(guān)系型數(shù)據(jù)庫(kù),在復(fù)雜數(shù)據(jù)的關(guān)聯(lián)查詢上相較于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)具有明顯的性能優(yōu)勢(shì),并且事理圖譜可表示為事件關(guān)系組成的有向有環(huán)圖,圖數(shù)據(jù)庫(kù)通過(guò)屬性圖模型可輕易創(chuàng)建多關(guān)系相連的事理圖譜。因此,本文選擇Neo4j圖數(shù)據(jù)庫(kù)[26]進(jìn)行持久化存儲(chǔ)事件及事件關(guān)系數(shù)據(jù),并利用Neo4j自帶的可視化工具展現(xiàn)出金融因果事理圖譜。針對(duì)信息抽取結(jié)果,將事件存儲(chǔ)入Neo4j圖數(shù)據(jù)庫(kù),將事件三元組的節(jié)點(diǎn)和關(guān)系依次導(dǎo)入Neo4j圖數(shù)據(jù)庫(kù),基于Neo4j圖數(shù)據(jù)庫(kù)的金融因果事理圖譜存儲(chǔ)與可視化如圖7所示。
圖7 基于Neo4j圖數(shù)據(jù)庫(kù)金融因果事理圖譜存儲(chǔ)與可視化
針對(duì)某一事件無(wú)法進(jìn)行單方面查詢研究的缺陷,Neo4j的查詢語(yǔ)言Cypher提供了可實(shí)現(xiàn)描述關(guān)系查詢的方案,例如,對(duì)“非洲豬瘟影響”事件進(jìn)行單一事件分析,說(shuō)明了事件發(fā)展的廣泛性。
金融事理圖譜可分析金融事件之間的邏輯關(guān)系,并揭示其發(fā)展規(guī)律。其中,事件作為事理圖譜中的節(jié)點(diǎn)承載著事件描述的重要信息,金融事件抽取是整個(gè)金融事理圖譜構(gòu)建的基礎(chǔ),金融事件的完整性關(guān)系到金融事理圖譜構(gòu)建的有效性和可讀性。金融事件論元基于金融事件的顯要特征,除完整保留事件實(shí)體及其描述性信息外,將事件發(fā)展態(tài)勢(shì)作為事件論元的相關(guān)要素,并與依存句法分析結(jié)合,從語(yǔ)義語(yǔ)法上準(zhǔn)確描述金融事件的實(shí)體信息和發(fā)展路徑,豐富了事理圖譜中事件間事理特征的表達(dá)。同時(shí),它基于事件實(shí)體之間直接或間接的關(guān)聯(lián)性,擴(kuò)展了事件間的事理邏輯鏈[27]。
本文選取颶風(fēng)事件進(jìn)行案例研究,以論證金融網(wǎng)絡(luò)中的風(fēng)險(xiǎn)傳導(dǎo)特點(diǎn)和擴(kuò)散形式。2021年9月,颶風(fēng)“艾達(dá)”和“尼古拉斯”席卷美國(guó)東南部,導(dǎo)致當(dāng)?shù)厥烷_采設(shè)備損壞, 對(duì)原油開采和運(yùn)輸產(chǎn)生了較大的阻礙,英國(guó)基準(zhǔn)布倫特原油和美國(guó)西德克薩斯中質(zhì)油的價(jià)格上漲至近十年來(lái)的最高點(diǎn),導(dǎo)致市場(chǎng)經(jīng)濟(jì)通脹等一系列突發(fā)事件,引起市場(chǎng)對(duì)非金融事件產(chǎn)生金融風(fēng)險(xiǎn)傳播的警惕。
圖8為利用Cypher查詢“颶風(fēng)”事件所產(chǎn)生的一系列事件影響的金融因果事理圖譜,其中颶風(fēng)作為事件發(fā)展的擴(kuò)散原點(diǎn),導(dǎo)致如原油價(jià)格上漲、石油生產(chǎn)中斷、鐵礦石全年供應(yīng)下降等一系列金融事件。金融事件論元在將“原油價(jià)格”“石油生產(chǎn)”等事件實(shí)體信息正確表示出的同時(shí),并表現(xiàn)價(jià)格的“上漲”態(tài)勢(shì)和生產(chǎn)的“中斷”現(xiàn)狀,體現(xiàn)了事件信息的簡(jiǎn)要可讀性,揭示了事件的變化方向。對(duì)“颶風(fēng)”引發(fā)的金融因果事理圖譜做分析,“颶風(fēng)”帶動(dòng)的連鎖反應(yīng),依賴金融事件網(wǎng)絡(luò),金融風(fēng)險(xiǎn)由傳導(dǎo)逐步發(fā)展為擴(kuò)散態(tài)勢(shì)。在時(shí)序演化中,“颶風(fēng)”引發(fā)石油礦石開采影響和運(yùn)輸阻礙,其中原油價(jià)格上漲看似與颶風(fēng)事件關(guān)聯(lián)甚小,但與其存在直接或間接的因果關(guān)聯(lián)性,并在風(fēng)險(xiǎn)傳染能力上高于風(fēng)險(xiǎn)傳導(dǎo)源頭事件,表現(xiàn)出較高的敏感性,提高了整個(gè)金融風(fēng)險(xiǎn)傳播網(wǎng)絡(luò)的復(fù)雜程度。因此,金融風(fēng)險(xiǎn)并非僅由金融事件的變化衍生傳導(dǎo)出來(lái)。
圖8 “颶風(fēng)”事件因果事理圖譜
同時(shí),“颶風(fēng)”到原油價(jià)格完成擴(kuò)散反應(yīng),不斷引起外商成本、海運(yùn)成本和國(guó)際煤價(jià)等實(shí)體的變化,形成“網(wǎng)鏈?zhǔn)健钡陌l(fā)展路徑。金融因果事理圖譜形成的金融風(fēng)險(xiǎn)網(wǎng)絡(luò)對(duì)與之相關(guān)的部分金融事件實(shí)體引發(fā)“漣漪”反應(yīng),導(dǎo)致金融風(fēng)險(xiǎn)的擴(kuò)散,金融因果事理圖譜揭露了事件實(shí)體廣泛存在的各種關(guān)聯(lián)。在事件演化中還出現(xiàn)產(chǎn)油國(guó)局勢(shì)動(dòng)蕩的政治事件。在“颶風(fēng)”事件所形成的金融因果事理圖譜中,不同事件實(shí)體通過(guò)其發(fā)展態(tài)勢(shì)相互作用、相互影響,形成復(fù)雜廣泛的事件邏輯關(guān)系鏈條。
通過(guò)上述實(shí)驗(yàn),使用Neo4j圖數(shù)據(jù)庫(kù)的可視化工具對(duì)事理圖譜進(jìn)行了可視化展示?;贜eo4j圖數(shù)據(jù)庫(kù)構(gòu)建的金融因果事理圖譜具有驅(qū)動(dòng)性的事件指向,揭露事件發(fā)生的多種原因及其次生影響,并在事件的走向上衍生出相關(guān)金融事件或非金融事件。針對(duì)某一事件的異常市場(chǎng)反應(yīng),基于金融事理圖譜,市場(chǎng)主體通過(guò)金融風(fēng)險(xiǎn)網(wǎng)絡(luò)之間的層層關(guān)聯(lián),對(duì)網(wǎng)絡(luò)中事件節(jié)點(diǎn)進(jìn)行建模分析和多層邏輯推理,從事件關(guān)聯(lián)的視角揭示金融事件的演變規(guī)律和動(dòng)因,實(shí)現(xiàn)事件邏輯發(fā)展的關(guān)鍵路徑探索,可較為迅速地進(jìn)行事件溯源,以達(dá)到整個(gè)市場(chǎng)經(jīng)濟(jì)局勢(shì)變化的把握。同時(shí),在面對(duì)金融市場(chǎng)的走向或者外部環(huán)境的突變上,當(dāng)事件突發(fā)形成常態(tài)化時(shí),可提前了解事件實(shí)體之間的關(guān)聯(lián),依據(jù)金融事件論元中的發(fā)展態(tài)勢(shì)要素,提前把握事件變化引發(fā)的金融風(fēng)險(xiǎn)傳導(dǎo)和擴(kuò)散方向以及事件突發(fā)性帶來(lái)的風(fēng)險(xiǎn)影響,從而減少由市場(chǎng)經(jīng)驗(yàn)主義帶來(lái)的不利影響,提高金融市場(chǎng)的應(yīng)變能力。
本文重點(diǎn)針對(duì)面向金融領(lǐng)域的事理圖譜進(jìn)行研究,在收集的金融事件數(shù)據(jù)集的基礎(chǔ)上,提出了適用于金融領(lǐng)域的事件表示方法,設(shè)計(jì)了一套適用于金融領(lǐng)域事件的序列標(biāo)注方案,并標(biāo)注了一套面向金融領(lǐng)域的因果事理圖譜語(yǔ)料庫(kù);同時(shí),在對(duì)事件抽取和事件關(guān)系研究方案上提出將依存句法分析方案和基于深度學(xué)習(xí)的多種神經(jīng)網(wǎng)絡(luò)模型方案進(jìn)行了實(shí)踐對(duì)比,并針對(duì)模型性能進(jìn)行了多種優(yōu)化策略,最終以BERT+Bi-LSTM+CRF模型在信息抽取的F1值為95.78%,具有顯著優(yōu)勢(shì),更能勝任復(fù)雜多樣的金融領(lǐng)域事件,成為信息抽取的主要手段;最后,以Neo4j圖數(shù)據(jù)庫(kù)用作數(shù)據(jù)的持久化存儲(chǔ),實(shí)現(xiàn)金融事理圖譜的結(jié)構(gòu)化存儲(chǔ)、查詢等功能,并通過(guò)金融因果事理圖譜可視化,分析金融風(fēng)險(xiǎn)網(wǎng)絡(luò)的傳導(dǎo)擴(kuò)散機(jī)制,揭示金融風(fēng)險(xiǎn)并非僅由金融事件所引起,金融風(fēng)險(xiǎn)網(wǎng)絡(luò)中高敏感度的事件會(huì)產(chǎn)生“漣漪”反應(yīng),提升市場(chǎng)應(yīng)對(duì)金融風(fēng)險(xiǎn)的能力,為各類突發(fā)事件應(yīng)急預(yù)案的制定與響應(yīng)提供輔助數(shù)據(jù),輔助相關(guān)監(jiān)管部門研判事件發(fā)展的關(guān)鍵路徑,及時(shí)規(guī)避相關(guān)衍生事件帶來(lái)的金融風(fēng)險(xiǎn),提高政府機(jī)構(gòu)的治理水平。