陳劍南,杜軍平,薛 哲,寇菲菲
北京郵電大學(xué) 智能通信軟件與多媒體北京市重點(diǎn)實(shí)驗(yàn)室,計(jì)算機(jī)學(xué)院,北京 100876
隨著經(jīng)濟(jì)生活的不斷發(fā)展,金融事件數(shù)據(jù)開(kāi)始大量累積,金融事件時(shí)刻影響著人們的生活與發(fā)展。如何從這些海量的金融事件數(shù)據(jù)中找到蘊(yùn)含的潛在規(guī)律,并對(duì)金融事件大數(shù)據(jù)信息進(jìn)行科學(xué)分析是一個(gè)重要的問(wèn)題。金融事件大數(shù)據(jù)的精準(zhǔn)畫(huà)像是解決該問(wèn)題的有效手段。金融領(lǐng)域交叉現(xiàn)象突出,金融領(lǐng)域與計(jì)算機(jī)領(lǐng)域的交叉,使得可以利用大數(shù)據(jù)處理的技術(shù)來(lái)解決金融領(lǐng)域所出現(xiàn)的大數(shù)據(jù)難題。隨著知識(shí)圖譜技術(shù)的興起,大數(shù)據(jù)畫(huà)像技術(shù)有了較大發(fā)展。利用知識(shí)圖譜的技術(shù)可以對(duì)大數(shù)據(jù)信息進(jìn)行數(shù)據(jù)挖掘,同時(shí)利用知識(shí)圖譜技術(shù)構(gòu)建金融事件的精準(zhǔn)畫(huà)像,從而將金融事件文本數(shù)據(jù)轉(zhuǎn)換為圖結(jié)構(gòu)數(shù)據(jù),這樣可以通過(guò)精準(zhǔn)畫(huà)像來(lái)從海量金融數(shù)據(jù)中獲取重要的信息,掌握金融事件的發(fā)展規(guī)律,為之后處理金融相關(guān)的業(yè)務(wù)提供重要的信息支持。作為知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù),實(shí)體的關(guān)系提取一直是自然語(yǔ)言處理中的重點(diǎn)。在金融事件大數(shù)據(jù)中,存在著實(shí)體關(guān)系種類(lèi)復(fù)雜繁多、中文金融事件大數(shù)據(jù)特征松散等問(wèn)題。針對(duì)以上問(wèn)題,本文進(jìn)行了深入的研究與實(shí)驗(yàn)。
基于中文金融事件大數(shù)據(jù)的特點(diǎn)以及知識(shí)圖譜構(gòu)建中的關(guān)鍵技術(shù),本文提出基于多重注意力的金融事件大數(shù)據(jù)實(shí)體關(guān)系抽取算法(financial event big data entity relationship extraction algorithm based on multiple attention mechanism,REMA)來(lái)進(jìn)行金融事件大數(shù)據(jù)實(shí)體關(guān)系的抽取,并利用所提取的實(shí)體關(guān)系屬性來(lái)構(gòu)建金融事件大數(shù)據(jù)的知識(shí)圖譜,從而完成金融事件大數(shù)據(jù)的精準(zhǔn)畫(huà)像。
本文的主要貢獻(xiàn)如下:
(1)充分利用了實(shí)體關(guān)系抽取任務(wù)的特點(diǎn),加入了文本與實(shí)體對(duì)之間的位置特征信息,使得特征提取更加充分,提升關(guān)系抽取的準(zhǔn)確率。
(2)利用字級(jí)別的注意力機(jī)制與句子級(jí)別的注意力機(jī)制相結(jié)合,通過(guò)多重注意力機(jī)制來(lái)提升實(shí)體關(guān)系抽取的準(zhǔn)確率。
(3)利用實(shí)體關(guān)系的抽取來(lái)對(duì)金融事件大數(shù)據(jù)進(jìn)行精準(zhǔn)畫(huà)像。
對(duì)于實(shí)體關(guān)系抽取的研究,國(guó)內(nèi)外學(xué)者做了大量的工作。實(shí)體關(guān)系抽取通常作為分類(lèi)任務(wù)來(lái)進(jìn)行處理,同時(shí)實(shí)體關(guān)系抽取一般被分為有監(jiān)督、半監(jiān)督、弱監(jiān)督和無(wú)監(jiān)督四種類(lèi)型[1-4]。文獻(xiàn)[5]利用Bootstrapping 方法對(duì)實(shí)體關(guān)系進(jìn)行相應(yīng)的抽取。文獻(xiàn)[6]提出使用弱監(jiān)督的方法進(jìn)行實(shí)體關(guān)系的提取,這樣在非結(jié)構(gòu)化數(shù)據(jù)集上取得了較好的效果。文獻(xiàn)[7]利用了基于矩陣分解的無(wú)監(jiān)督算法來(lái)進(jìn)行實(shí)體關(guān)系抽取,突破了數(shù)據(jù)格式的束縛。但傳統(tǒng)方法對(duì)于數(shù)據(jù)集的依賴(lài)比較大,導(dǎo)致誤差并不穩(wěn)定。隨著深度學(xué)習(xí)的迅速發(fā)展,實(shí)體關(guān)系的抽取方法得到極大的改進(jìn)。文獻(xiàn)[8]首次引入了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)利用分類(lèi)的思想進(jìn)行實(shí)體關(guān)系的抽取,借用了卷積網(wǎng)絡(luò)的優(yōu)點(diǎn)充分抽取文本數(shù)據(jù)的特征。文獻(xiàn)[9]結(jié)合實(shí)體關(guān)系抽取任務(wù)的特點(diǎn)將句子按照實(shí)體對(duì)進(jìn)行分割并進(jìn)行池化操作,從而能夠提取更多上下文特征。文獻(xiàn)[10]則利用殘差網(wǎng)絡(luò)進(jìn)行文本信息深度特征提取,從而提升關(guān)系抽取的效果。文獻(xiàn)[11]則引入注意力機(jī)制,并利用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練,實(shí)驗(yàn)表明這種算法在有監(jiān)督訓(xùn)練下取得不錯(cuò)效果。文獻(xiàn)[12]利用不同尺度的卷積核對(duì)文本數(shù)據(jù)進(jìn)行特征抽取,從而提升實(shí)現(xiàn)實(shí)體關(guān)系提取的效果。文獻(xiàn)[13]則利用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)提取文本句子的特征依賴(lài)關(guān)系。文獻(xiàn)[14]則使用了參數(shù)共享的方法進(jìn)行深度特征的提取,在相應(yīng)數(shù)據(jù)集上取得不錯(cuò)的效果。文獻(xiàn)[15]則是將實(shí)體關(guān)系抽取問(wèn)題轉(zhuǎn)換為一個(gè)序列標(biāo)注問(wèn)題,利用深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行三元組抽取。
本文提出的基于多重注意力的金融事件大數(shù)據(jù)實(shí)體關(guān)系抽取算法在雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的基礎(chǔ)上,充分利用了實(shí)體關(guān)系提取任務(wù)的特點(diǎn),通過(guò)文本位置特征來(lái)增強(qiáng)文本特征向量的深度提取,同時(shí)利用了字級(jí)別的注意力機(jī)制以及句子級(jí)別的注意力機(jī)制來(lái)構(gòu)建多重注意力機(jī)制,從而提取了文本信息的潛在特征。該算法解決了有監(jiān)督中文實(shí)體關(guān)系抽取中準(zhǔn)確率較低的問(wèn)題。
本章主要介紹基于多重注意力的實(shí)體關(guān)系抽取算法的結(jié)構(gòu)。
實(shí)體關(guān)系抽取作為自然語(yǔ)言處理的一個(gè)重要研究?jī)?nèi)容,是利用相關(guān)的算法從文本數(shù)據(jù)中抽取出實(shí)體對(duì)之間的潛在關(guān)系。其中實(shí)體關(guān)系可以表示為一個(gè)三元組
本文提出一種基于多重注意力的金融事件大數(shù)據(jù)中實(shí)體關(guān)系抽取的算法。如圖1 所示,模型的結(jié)構(gòu)分為向量表示層(embedding layer)、雙向長(zhǎng)短時(shí)記憶層(bidirectional long short-term memory layer)與多重注意力機(jī)制層(multiple attention layer)。具體而言,向量表示層融合了文本數(shù)據(jù)的向量特征以及文本中字與相應(yīng)的兩個(gè)實(shí)體名距離的位置特征,該層作為整個(gè)系統(tǒng)結(jié)構(gòu)的輸入層。雙向長(zhǎng)短時(shí)記憶層則是利用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)來(lái)提取文本上下文信息的特征,這種網(wǎng)絡(luò)結(jié)構(gòu)能夠解決長(zhǎng)文本信息中出現(xiàn)的長(zhǎng)距離依賴(lài)的問(wèn)題。多重注意力機(jī)制層則是利用字節(jié)別注意力機(jī)制以及句子級(jí)別注意力機(jī)制來(lái)更好地提取關(guān)鍵文本的權(quán)重特征,這樣能夠充分考慮到文本信息中對(duì)于該文本中實(shí)體關(guān)系抽取結(jié)果的影響因素。下面將詳細(xì)描述每層的具體功能與實(shí)現(xiàn)原理。
Fig.1 Financial events entity relationship extraction with multiple attention mechanism圖1 基于多重注意力的金融事件實(shí)體關(guān)系抽取
本層網(wǎng)絡(luò)中的向量由兩部分組成,分別是詞嵌入向量與位置信息向量,其向量作為雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)層的輸入向量。對(duì)于詞嵌入向量,其中一個(gè)文本句子由多個(gè)漢字組成,這樣可以描述為Sen=[w1,w2,…,wn],其中wi表示句子中的第i個(gè)漢字,n表示該句子由n個(gè)漢字組成。對(duì)于每個(gè)漢字wi根據(jù)初始化結(jié)果可以得到其相應(yīng)的詞嵌入向量Word=[v1,v2,…,vm],這樣對(duì)于金融大數(shù)據(jù)文本中的句子可以得到一個(gè)詞嵌入向量矩陣,如式(1)所示。
根據(jù)實(shí)體關(guān)系抽取的特點(diǎn),可以從文本句子中根據(jù)每個(gè)漢字與該句子兩個(gè)實(shí)體名的距離來(lái)提取該句子的位置信息。其中wi與wj為該句子中兩個(gè)實(shí)體名,則對(duì)于該句子中第k個(gè)漢字wk其位置信息可以表示為式(2)所示。
其中,posik表示第k個(gè)漢字與第i個(gè)漢字在該句子中的位置關(guān)系。對(duì)于一個(gè)句子中n個(gè)漢字,通過(guò)結(jié)合式(2)融合位置特征,則得到如式(3)所示的特征向量。
其中,m為句子中漢字的詞嵌入向量特征的長(zhǎng)度,k為句子中漢字的位置詞嵌入向量的特征長(zhǎng)度。通過(guò)以上方法可以得到相應(yīng)的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)層的輸入向量。
金融事件大數(shù)據(jù)雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)是通過(guò)雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)來(lái)處理金融事件大數(shù)據(jù)文本中出現(xiàn)長(zhǎng)時(shí)間依賴(lài)的問(wèn)題。其中長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)對(duì)于該問(wèn)題有很好的處理效果,其基本結(jié)構(gòu)如圖2 所示。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型在隱藏層引入了相應(yīng)的記憶單元,這樣有效解決了數(shù)據(jù)在長(zhǎng)時(shí)間范圍內(nèi)的相互依賴(lài)。在長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)基礎(chǔ)上,本文引入雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的技術(shù),這也是本文所提出的REMA 方法的重要組成部分,通過(guò)前向時(shí)序以及后向時(shí)序的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)提取金融事件大數(shù)據(jù)的上下文特征信息。
Fig.2 Structure of long short-term memory network model圖2 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型結(jié)構(gòu)圖
如圖2 所示,ht-1為上一個(gè)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)單元的隱藏層的輸出結(jié)果;Ct-1則是上次一個(gè)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)單元的狀態(tài)結(jié)果;xt則是本文的字向量輸入結(jié)果;ft為遺忘門(mén)的輸出結(jié)果,其中σ為sigmoid激活函數(shù);it與則為輸入門(mén)的輸出結(jié)果,其中tanh 為激活函數(shù);ot為輸出門(mén)的輸出結(jié)果;Ct為當(dāng)前單元的狀態(tài)值;ht為當(dāng)前單元的隱藏層的輸出。整個(gè)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)輸出結(jié)果如式(4)所示。
注意力機(jī)制是一種對(duì)于不同區(qū)域數(shù)據(jù)進(jìn)行權(quán)重分配的機(jī)制,其特點(diǎn)是通過(guò)選擇性地對(duì)某些信息進(jìn)行關(guān)注,從而更好地進(jìn)行信息特征的提取。本文利用注意力機(jī)制的主要作用是計(jì)算不同漢字以及不同句子對(duì)于實(shí)體關(guān)系分類(lèi)結(jié)果的權(quán)重值來(lái)提升金融大數(shù)據(jù)實(shí)體關(guān)系的抽取效果。對(duì)于本文所使用的多重注意力機(jī)制算法是將字級(jí)別的注意力機(jī)制與句子級(jí)別的注意力機(jī)制進(jìn)行融合,這兩種注意力機(jī)制均是基于“QKV”模型進(jìn)行優(yōu)化,該模型如圖3 所示。
Fig.3 Attention mechanism structure diagram圖3 注意力機(jī)制結(jié)構(gòu)圖
對(duì)于該模型其中Query 矩陣是一個(gè)由均勻分布進(jìn)行隨機(jī)采樣的向量矩陣queryk×1,其中k為雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)隱藏層的輸出向量維度,而Key 矩陣是一個(gè)由句子中的中文分詞的詞向量所生成的特征矩陣,Value 矩陣則是一個(gè)由雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)隱藏層輸出向量組成的矩陣,由此可以得到實(shí)體關(guān)系抽取中的字級(jí)別注意力輸出向量,如式(6)、式(7)所示。
其中,softmax 函數(shù)是用來(lái)進(jìn)行向量歸一化的操作;key_wordn×k為字級(jí)別注意力機(jī)制的Key 向量矩陣;query_wordk×1為字級(jí)別注意力機(jī)制中Query 向量矩陣;att_w_wordn×1為句子級(jí)別注意力機(jī)制的權(quán)重值,針對(duì)雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)隱藏層輸出的n維向量的權(quán)重分布;value_wordn×k為雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)隱藏層的輸出向量矩陣;att_r_wordk×1則是字級(jí)別注意力機(jī)制的輸出向量矩陣。
通過(guò)字級(jí)別注意力層處理后已經(jīng)獲取了句子中不同漢字對(duì)于關(guān)系抽取分類(lèi)結(jié)果的權(quán)重值,接著利用實(shí)體關(guān)系抽取的特點(diǎn)——同一個(gè)實(shí)體對(duì)以及實(shí)體關(guān)系分類(lèi)結(jié)果可能存在于多個(gè)句子中。根據(jù)這個(gè)特點(diǎn)可以對(duì)該實(shí)體對(duì)以及標(biāo)簽在多個(gè)句子中進(jìn)行權(quán)重計(jì)算,最終確定每個(gè)句子對(duì)于最終結(jié)果標(biāo)簽的分類(lèi)權(quán)重值。同一個(gè)實(shí)體對(duì)以及相應(yīng)的關(guān)系標(biāo)簽存在于m個(gè)句子中,句子級(jí)別的特征輸入向量為valuem×k,即Value 矩陣特征向量。句子級(jí)別的注意力機(jī)制中的Key 矩陣向量是利用valuem×k進(jìn)行線(xiàn)性變化得到的,這樣直接繼承字級(jí)別的輸出向量的特征,同時(shí)根據(jù)式(6)、式(7),可以得到句子級(jí)別的注意力機(jī)制的輸出特征,如式(8)、式(9)所示。
其中,sen_ak是用作線(xiàn)性變化的向量矩陣;value_senm×k為字級(jí)別注意力機(jī)制輸出的向量矩陣,同時(shí)為句子級(jí)別注意力機(jī)制的輸入向量矩陣;query_senk×1為句子級(jí)別注意力機(jī)制中的Query矩陣;att_w_senm×1為句子級(jí)別注意力機(jī)制中的句子權(quán)重分類(lèi)的權(quán)值;att_r_senk×1為句子級(jí)別注意力機(jī)制的輸出向量矩陣。
通過(guò)多重注意力機(jī)制層輸出的特征向量經(jīng)過(guò)softmax 網(wǎng)絡(luò)即得到實(shí)體關(guān)系分類(lèi)結(jié)果特征。
本章詳細(xì)描述REMA 實(shí)驗(yàn)結(jié)果以及結(jié)果分析情況。
本實(shí)驗(yàn)使用準(zhǔn)確率(precision)、召回率(recall)以及F1 值(F1-score)作為金融大數(shù)據(jù)實(shí)體關(guān)系抽取的對(duì)比實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)。其中評(píng)價(jià)指標(biāo)的判別情況如表1 所示。
Table 1 Evaluation index discrimination table表1 評(píng)價(jià)指標(biāo)判別表
表1 中,TP 表示實(shí)際為真,同時(shí)預(yù)測(cè)為真的個(gè)數(shù);FP 表示實(shí)際為假,但是預(yù)測(cè)為真的個(gè)數(shù)(即為誤差率);FN 表示實(shí)際為真,但預(yù)測(cè)為假的個(gè)數(shù)(即為漏報(bào)率);TN 表示實(shí)際為假,但是預(yù)測(cè)為假的個(gè)數(shù)。模型的準(zhǔn)確率、召回率和F1 值的計(jì)算公式如式(10)、式(11)、式(12)所示。
本文從“新浪新聞”“騰訊新聞”“鳳凰新聞”“網(wǎng)易新聞”等互聯(lián)網(wǎng)新聞平臺(tái)爬取金融版塊的金融事件新聞文本數(shù)據(jù),并且將新聞文本按事件話(huà)題進(jìn)行分類(lèi),分別抽取“中美貿(mào)易戰(zhàn)”“沙特俄羅斯石油爭(zhēng)端”“經(jīng)濟(jì)危機(jī)”等金融事件,同時(shí)將新聞數(shù)據(jù)文本切分為句子形式。使用的數(shù)據(jù)集包括訓(xùn)練集與測(cè)試集兩部分,訓(xùn)練集大小比測(cè)試集大小為8∶2,其中訓(xùn)練集包括160 000個(gè)金融事件的句子,測(cè)試集包括40 000個(gè)金融事件句子,對(duì)金融事件句子進(jìn)行相應(yīng)的標(biāo)注,每句子包含兩個(gè)實(shí)體名以及一個(gè)關(guān)系,其中金融事件大數(shù)據(jù)中實(shí)體關(guān)系總共分為12 個(gè)類(lèi)別。其數(shù)據(jù)集的詳細(xì)分布如表2 所示,金融事件大數(shù)據(jù)實(shí)體關(guān)系類(lèi)別的分布如表3 所示。其中訓(xùn)練集與測(cè)試集中標(biāo)簽占比基本一致,保證數(shù)據(jù)的一致性。
Table 2 Data set corpus structure表2 數(shù)據(jù)集分布情況
對(duì)于REMA 網(wǎng)絡(luò)框架,其中原始文本的字嵌入向量的長(zhǎng)度設(shè)置為70 維,第一個(gè)位置信息嵌入向量為5 維,第二個(gè)位置信息嵌入向量為5 維,字級(jí)別注意力機(jī)制向量權(quán)重維度為128 維,句子級(jí)別注意力機(jī)制向量權(quán)重維度與句子數(shù)量相等,而對(duì)于雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)隱藏層的輸出維度為128 維。模型訓(xùn)練的batch_size 的大小設(shè)置為64,學(xué)習(xí)率設(shè)置為0.001,訓(xùn)練時(shí)dropout 設(shè)置為0.5。雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)中隱藏層輸出的激活函數(shù)使用tanh 函數(shù),優(yōu)化器選用Adam。
Table 3 Entity relationship classification表3 實(shí)體關(guān)系分類(lèi)情況
本節(jié)使用準(zhǔn)確率、召回率以及F1 值等指標(biāo)對(duì)金融事件數(shù)據(jù)集進(jìn)行實(shí)體關(guān)系抽取的效果的評(píng)價(jià),詳細(xì)對(duì)不同方法進(jìn)行實(shí)體關(guān)系抽取進(jìn)行對(duì)比。本文分別使用CNN、CNN+ATT、BLSTM、BLSTM+ATT 這四種方式進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4 所示。
Table 4 Comparative experimental results of REMA on financial event dataset表4 REMA 在金融事件數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果
從表4 可以明顯看出,本文所提出的REMA 方法在實(shí)體關(guān)系抽取中的性能要優(yōu)于其他的對(duì)比實(shí)驗(yàn)中的方法。CNN 是一種利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系分類(lèi)的算法,利用字嵌入矩陣獲取句子的特征向量,然后作為輸入投入到卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行有監(jiān)督的分類(lèi)訓(xùn)練。CNN+ATT 是在利用卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上加入注意力機(jī)制進(jìn)行句子文本特征的提取,因此其效果要好于普通的CNN 算法。BLSTM 對(duì)于類(lèi)似于文本序列這種動(dòng)態(tài)的序列問(wèn)題的處理有著較好的效果,BLSTM 可以從序列的前向與后向獲取特征信息,這樣能夠較好地獲取到文本上下文特征。在BLSTM的基礎(chǔ)上引入注意力機(jī)制,則是增強(qiáng)文本語(yǔ)義提取的效果,提升了模型的整體性能。本文所提出的REMA 算法則是在文本信息中增加了位置信息,同時(shí)除了字級(jí)別的注意力機(jī)制外,還結(jié)合了句子級(jí)別的注意力機(jī)制,故模型整體效果更好,其準(zhǔn)確率提升了5.6 個(gè)百分點(diǎn),召回率提升了4.6 個(gè)百分點(diǎn),F(xiàn)1 值提升了5 個(gè)百分點(diǎn)。
REMA 方法的主要訓(xùn)練參數(shù)的一個(gè)批次投入訓(xùn)練的句子數(shù)量即batch_size的取值以及雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)隱藏層的輸出維度大小即blstm_size 的取值。本文在金融事件數(shù)據(jù)集下分別進(jìn)行這兩個(gè)參數(shù)的對(duì)比實(shí)驗(yàn),并根據(jù)準(zhǔn)確率(precision)、召回率(recall)以及F1-score 這三個(gè)指標(biāo)進(jìn)行比較,實(shí)驗(yàn)結(jié)果分別如圖4 與圖5 所示。其中batch_size 的取值分別是32、64、96、128、160,而blstm_size 分別為16、32、64、128、256、512。
Fig.4 Effect of model parameter batch_size on REMA圖4 REMA 模型參數(shù)batch_size對(duì)于模型性能的影響情況
Fig.5 Effect of model parameter blstm_size on REMA圖5 REMA 模型參數(shù)blstm_size對(duì)于模型性能的影響情況
Fig.6 Big data portrait results of Sino-US trade war financial events圖6 中美貿(mào)易戰(zhàn)金融事件大數(shù)據(jù)畫(huà)像結(jié)果
圖4 中,從準(zhǔn)確率、召回率以及F1 值這三個(gè)指標(biāo)來(lái)看,batch_size 對(duì)于整個(gè)模型在實(shí)體關(guān)系抽取的效果的影響并不明顯,從batch_size 為32 到batch_size為160 這個(gè)過(guò)程中的F1 值提升不到1 個(gè)百分點(diǎn)。
如圖5 從F1 值可以發(fā)現(xiàn),雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)隱藏層的維度為256 時(shí)效果最好。同時(shí),從雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)隱藏層的維度為16 到雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)隱藏層的維度為512 的測(cè)試過(guò)程可以看出,一開(kāi)始雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)隱藏層的維度增加時(shí),模型的整體效果也隨之提升,但當(dāng)雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)隱藏層的維度為256 時(shí)效果達(dá)到峰值,隨著雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)隱藏層的維度繼續(xù)增長(zhǎng),模型的效果會(huì)有所下降。
利用基于多重注意力的實(shí)體關(guān)系抽取算法來(lái)獲取金融事件大數(shù)據(jù)的實(shí)體關(guān)系,并利用Neo4j 圖數(shù)據(jù)庫(kù)進(jìn)行金融事件大數(shù)據(jù)的知識(shí)圖譜的構(gòu)建,從而進(jìn)行金融事件大數(shù)據(jù)的精準(zhǔn)畫(huà)像,本節(jié)選取了數(shù)據(jù)集中有關(guān)“中美貿(mào)易戰(zhàn)事件”的金融數(shù)據(jù)集,根據(jù)本文所提出的算法提取實(shí)體對(duì)之間的關(guān)系,并最后利用Neo4j 圖數(shù)據(jù)庫(kù)模型進(jìn)行知識(shí)圖譜的構(gòu)建并完成畫(huà)像。圖6 是“中美貿(mào)易戰(zhàn)”金融事件大數(shù)據(jù)精準(zhǔn)畫(huà)像的結(jié)果。
本文提出了基于多重注意力的金融事件大數(shù)據(jù)實(shí)體關(guān)系抽取算法(REMA)。在雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的基礎(chǔ)上,利用實(shí)體關(guān)系抽取任務(wù)的特點(diǎn)同時(shí)結(jié)合多重注意力機(jī)制思想,引入字級(jí)別的注意力機(jī)制以及句子級(jí)別的注意力機(jī)制,其中前者利用了中文文本中不同漢字對(duì)于實(shí)體關(guān)系抽取的結(jié)果的權(quán)重值,后者則是利用了不同句子對(duì)于實(shí)體關(guān)系抽取結(jié)果的權(quán)重值。REMA 算法模型分為特征表示層、雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)層、多重注意力機(jī)制層。通過(guò)REMA 算法可以對(duì)金融事件大數(shù)據(jù)文本中的實(shí)體關(guān)系信息進(jìn)行有效提取,實(shí)驗(yàn)表明REMA 算法在金融事件數(shù)據(jù)集中進(jìn)行實(shí)體關(guān)系抽取有著更高的準(zhǔn)確率、召回率以及F1 值。利用提取的金融事件實(shí)體關(guān)系結(jié)果結(jié)合知識(shí)圖譜技術(shù)可以對(duì)金融事件大數(shù)據(jù)進(jìn)行精準(zhǔn)畫(huà)像,從而直觀詳細(xì)地了解事件發(fā)展的態(tài)勢(shì)以及相關(guān)的事件屬性關(guān)系,并為人們進(jìn)行金融決策提供良好的數(shù)據(jù)支撐。