国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向金融文本的實體關系抽取方法

2023-12-04 12:52:08王興芬呂金娜
計算機工程與設計 2023年11期
關鍵詞:格子實體語義

王 歡,王興芬,呂金娜

(1.北京信息科技大學 信息管理學院,北京 100192;2.北京信息科技大學 商務大數據分析研究中心,北京 100192)

0 引 言

隨著深度學習技術的崛起,研究者們開始將其應用到實體關系抽取任務中[1]?;谏疃葘W習的實體關系抽取主要思想是利用神經網絡學習句子的高層語義特征表示,以進行關系分類[2]。因此,語義特征提取準確與否對最終關系分類有著重大影響。當前研究主要以字符或詞為單位提取句子語義特征?;谧址奶崛3-6]將每個輸入的句子看作一個字符序列,不能充分利用詞和詞序列信息,容易丟失文本語義信息。例如“金融”這個詞,如果以字粒度進行拆分為“金”、“融”,意義就變成“金子融化”,語義完全改變?;谠~或字詞混合的提取[7-10]首先要進行分詞,然后利用預訓練模型將每個詞表示為詞向量,再輸入到神經網絡模型中,容易因為分詞歧義導致語義提取不準確。

對于金融領域來說,在市場交易和投資過程中會產生大量信用實體,這些實體間存在著大量且復雜的關聯(lián)關系,當某些信用實體出現失信行為,與其密切關聯(lián)的實體可能會產生信用風險。如何從結構各異、信息冗雜的金融文本中抽取實體關系,就變得十分有意義。目前金融文本實體關系抽取主要面臨以下挑戰(zhàn):①金融領域文本中存在大量專業(yè)詞匯,以致語義特征難以準確提取。②文本中存在大量易產生歧義的分割,現有分詞方法無法準確分詞。③關系類型分布不均衡,樣本數量少的關系類型分類效果不佳。針對以上挑戰(zhàn),本文提出一種基于時序格子網絡的金融文本實體關系抽取方法FB-Lattice。

1 相關工作

根據輸入神經網絡特征的不同,基于神經網絡的實體關系抽取方法[3-12]可以分為基于字的關系抽取[3-6],基于詞的關系抽取[7,8]和基于字詞混合的關系抽取[9,10]。

基于字的關系抽取將輸入文本看作一個字符序列,忽略了單詞和單詞序列信息。Wu等[3]提出使用BERT(bidirectional encoder representations from transformers)獲取輸入文本向量表示,并通過在實體前后添加標識符取代位置向量,從而進行關系抽取。Zhao等[4]提出一種結合BERT提取的句子特征和圖神經網絡提取的知識圖譜中實體對的子圖拓撲特征進行關系分類的方法。Zhang等[5]和Tran等[6]將注意力機制引入雙向長短期記憶和卷積神經網絡的混合模型中,從而對句子級別的特征進行進一步的學習。

基于詞的關系抽取和基于字詞混合的關系抽取首先需要分詞,容易由于分詞歧義導致語義提取不準確。Zhang等[7]提出了基于詞級別注意力的門控循環(huán)單元算法來捕獲句子中的重要語義信息。Lee等[8]提出使用詞向量和位置向量作為輸入特征,利用長短期記憶網絡結合自注意力機制增加有用特征的關注度。Li等[9]提出一種基于字粒度和詞粒度信息的中文關系抽取框架,同時借助外部語言知識HowNet獲取多義詞詞向量緩解多義詞歧義問題。但其受限于外部語言知識,難以準確提取金融文本中專業(yè)詞匯的語義特征。葛俊偉等[10]提出基于字詞混合和混合擴張卷積的聯(lián)合抽取方法,并通過實驗驗證字詞混合嵌入比詞嵌入和字嵌入更能改善抽取模型效果。

近年來,針對金融文本的實體關系抽取也逐漸受到關注。吳粵敏等[11]采用基于字和句級別注意力的雙向門控循環(huán)單元算法進行農業(yè)金融文本關系自動抽取,通過雙重注意力機制更有效地利用了句子中重要的信息。唐曉波等[12]在預訓練模型BERT的基礎上結合雙向門控循環(huán)單元和條件隨機場構建端到端的序列標注模型,改善了對金融文本中復雜重疊關系的識別。戴志宏等[13]提出基于映射矩陣和詞向量相似度相結合的上下文關系抽取方法,從而識別金融文本中實體間的上下位關系,有助于研究公司相似度和股票聯(lián)動相關性。一方面,以上方法都是以字符為單位提取文本語義特征,不能充分利用詞和詞序列信息。另一方面,這些方法使用word2vec、BERT等通用領域預訓練模型提取文本語義特征,對于金融文本中的專業(yè)詞匯難以準確提取。因此,當前金融文本實體關系抽取方法都沒有很好地解決金融文本語義特征難以準確提取的問題。

基于以上分析,本文提出一種金融本文實體關系抽取方法FB-Lattice,采用FinBERT獲取具有金融領域先驗知識的特征表示,使用時序格子網絡將詞級特征和位置特征動態(tài)融合到字符特征中,進而使模型獲取更豐富、準確的文本語義特征,得到更準確的關系分類。

2 FB-Lattice模型介紹

本文針對金融文本實體關系抽取所面臨的難點,提出一種融合FinBERT和時序格子網絡的金融文本實體關系抽取方法FB-Lattice。該方法的整體架構如圖1所示,分為以下幾層。

(3)注意力機制:使用字級別注意力合并上一層獲得的隱藏層狀態(tài)向量,得到最終的句子向量表示h*。

2.1 特征提取

金融文本包含大量專業(yè)詞匯,當前開源的各類中文領域的深度預訓練模型,多是面向通用領域應用需求,難以準確提取金融文本的語義特征,因此在嵌入層本文選取預訓練模型FinBERT對輸入句子中的字符和詞進行特征表示。

為了促進自然語言處理技術在金融科技領域的應用和發(fā)展,熵簡科技人工智能實驗室開源了基于BERT架構的金融領域預訓練語言模型FinBERT[14]。FinBERT是國內首個在金融領域大規(guī)模語料上訓練的開源中文BERT預訓練模型。其在網絡結構上采用與Google發(fā)布的原生BERT相同的架構,使用在金融業(yè)務專家指導下進行篩選預處理的大規(guī)模金融領域語料進行預訓練。并且為了更好地讓模型學習到金融領域先驗知識,FinBERT首先從金融詞典、金融類學術文章中,通過自動挖掘結合人工核驗的方式,構建出金融領域內的詞典,約有10萬詞。然后抽取預訓練語料和金融詞典中共現的單詞或詞組進行全詞MasK預訓練,從而使模型學習到領域內的先驗知識,如金融學概念、金融概念之間的相關性等。另外,為了讓模型更好地學習到語義層的金融領域知識,更全面地學習到金融領域詞句的特征分布,其在預訓練時還同時引入了兩類有監(jiān)督學習任務,分別是研報行業(yè)分類和財經新聞的金融實體識別任務。因此,對于金融文本來說,使用FinBERT能夠獲得更好的具有金融領域先驗知識的字、詞向量表示。

(1)

(2)

2.2 特征動態(tài)融合

同時使用輸入文本的字粒度特征和詞粒度特征能夠幫助我們更加全面地提取文本語義特征,然而,提取到的語義特征準確性會受到分詞歧義的影響。通過將一個句子與一個自動獲得的大型詞典進行匹配,構造一個字詞格子網絡[15]。一個句子的格子網絡是一個有向無環(huán)圖,每個節(jié)點是一個字或者一個詞,如圖2所示。長短時記憶網絡是循環(huán)神經網絡的變種,它有3個門結構:一個輸入門it,用來控制哪些輸入信息能夠流入單元狀態(tài);一個遺忘門ft,用來控制哪些歷史信息將被網絡單元移除;一個輸出門ot,控制當前單元狀態(tài)有多少輸出,單元狀態(tài)ct用來記錄當前為止的所有歷史信息流,因此它可以自動控制從句首到句尾的信息流。

圖2 字詞格子網絡

將長短時記憶網絡與字詞格子網絡相結合形成時序格子網絡,如圖3所示,從圖中可以看到,門控細胞單元將來自不同路徑的所有潛在詞的詞級信息動態(tài)集成到每個字符信息中,解決了可能由分詞歧義帶來的語義特征提取不準確的問題。為了最大限度地減少金融文本中大量易產生歧義的分割的影響,本文選取由清華大學自然語言處理與社會人文計算實驗室整理推出的一套高質量的中文詞庫THUOCL[16](THU open Chinese lexcion)構造字詞格子網絡。由于THUOCL詞庫包含IT、成語、歷史名人、醫(yī)學、飲食、汽車等多個與金融無關的領域詞匯,本文只使用其中的財經、地名、法律以及常用詞詞庫,共約12萬條詞匯,以減少其它領域詞匯的干擾。

接下來將詳細介紹時序格子網絡是如何將詞級信息動態(tài)融入到字符信息中的,如式(3)~式(11)所示。

(3)

(4)

其中,σ()表示Sigmoid激活函數,W和U表示可訓練權重矩陣,b為偏置。

(5)

(6)

第e個字符的單元狀態(tài)將通過合并所有以索引e結尾的詞信息來計算,為了控制每個詞的貢獻,設置一個額外的門

(7)

則第e個字符的單元狀態(tài)

(8)

(9)

(10)

(11)

2.3 關系分類

H=tanh(h)

(12)

α=Softmax(ωTH)

(13)

h*=hαT

(14)

其中,ω為可訓練參數矩陣,α為h所對應的權重向量。

p(y|x)=Softmax(Wh*+b)

(15)

(16)

其中,W∈Y×dh為變換矩陣,b∈Y為偏置向量,p(y|x)=[p1,…,pC]為一個概率分布,每個元素pi表示樣本屬于第i個類別的概率,C表示類別總數。

給定T個訓練樣本,采用交叉熵損失函數進行訓練,如式(17)所示

(17)

然而,實際情況下信用實體間的關系類型分布是不均勻的,由此本文對交叉熵損失函數進行改進以避免少數類樣本被多數類覆蓋,從而提高樣本數量少的關系類型的分類效果,改進后的交叉熵損失函數如式(18)所示

(18)

其中,wj表示第j個類別對應的類別權重,具體計算方式如式(19)所示

(19)

其中,n為超參數,dj表示第j個類別的數據條數。對于不平衡數據集,通過類別權重可以強化少數類對模型參數的影響,從而提高少數類的分類效果。本文使用Adam算法優(yōu)化模型,同時在LSTM層使用Dropout防止訓練時出現過擬合。

3 實驗與分析

3.1 數據集及評估標準

3.1.1 數據集

表1 數據集關系類型示例

圖4 數據集樣本分布情況

3.1.2 評估標準

本文采用精確率(Precision,P)、召回率(Recall,R)及F1值作為金融文本實體關系抽取任務的評價指標。具體定義和計算公式參見文獻[17]。

3.2 實驗參數設置

通過對驗證集進行網格搜索來調整模型的參數,得到的模型超參數設置見表2。

表2 模型超參數設置

3.3 實驗結果與分析

由于目前針對金融文本的實體關系抽取方法較少,為了驗證FB-Lattice方法的有效性,本文選取3種當前取得較好效果的通用實體關系抽取模型和兩種針對金融文本的關系抽取模型作為基準模型進行對比實驗。具體如下:

Bi-LSTM+ATT模型[8]:一種端到端的遞歸神經網絡模型,使用雙向長短時記憶網絡結合自注意力機制進行實體關系抽取。

CNN+ATT模型[10]:一種基于字詞混合的實體關系聯(lián)合抽取方法,使用擴張卷積網絡結合自注意力機制獲取更大距離的上下文信息。

BiLSTM+CNN+ATT[6]:使用雙向長短時記憶網絡和卷積網絡混合模型結合注意力機制進行實體關系抽取。

Bi-GRU+ATT模型[11]:一種基于字和句級別注意力的雙向門控循環(huán)單元算法,用于農業(yè)金融文本關系自動抽取。

Bi-GRU+CRF模型[12]:結合雙向門控循環(huán)單元和條件隨機場(conditional random field,CRF)構建端到端的序列標注模型進行金融領域實體關系聯(lián)合抽取。

結果見表3。

表3 對比實驗結果

實驗結果表明,在金融文本實體關系抽取任務上,本文提出的FB-Lattice模型在精確率、召回率和F1值上比基準模型均有所提高,F1值分別提高0.0676、0.0807、0.0511、0.583、0.559。一方面,金融文本含有大量專業(yè)詞匯,基準模型使用通用領域上的預訓練模型獲取輸入文本特征,可能不準確;另一方面Bi-LSTM+ATT模型和CNN+ATT模型使用了詞向量作為輸入特征,容易由于分詞歧義導致語義特征提取有誤差;BiLSTM+CNN+ATT模型、Bi-GRU+ATT模型以及Bi-GRU+CRF模型只使用字向量作為輸入特征,可能會丟失語義信息。因此,基準模型難以準確提取金融文本語義特征,從而影響關系抽取的效果。

接下來,通過實驗分別驗證FinBERT、時序格子網絡以及損失函數對模型效果的提升作用。

3.3.1 FinBERT的作用

為了驗證使用FinBERT提取語義特征對關系抽取效果的改善,在圖2所示模型嵌入層分別使用word2vec[18]和BERT替換FinBERT提取特征,其它參數保持一致。其中BERT預訓練模型使用由哈工大訊飛實驗室開源的BERT-wwm[19]。實驗結果見表4。

表4 FinBERT消融實驗結果

從表4中可以看出,本文所使用的FinBERT相比BERT-wwm和word2vec,在F1值上分別提高了0.048和0.0511。金融文本數據集中包含大量金融領域專業(yè)知識,使用word2vec、BERT等預訓練模型提取的語義特征不準確。FinBERT能夠幫助我們獲得更具有金融領域先驗知識的特征向量,解決語義特征提取不準確的問題,從而影響實體關系抽取的結果。

3.3.2 時序格子網絡的作用

為了驗證使用時序格子網絡動態(tài)融合字詞粒度特征對關系抽取效果的提升,在數據集上使用雙向長短時記憶網絡替代時序格子網絡,分別進行了基于字、基于詞和基于字詞混合的關系抽取實驗作為對比實驗,其中基于詞和字詞混合的方法,先使用分詞工具對輸入文本進行分詞,再通過FinBERT提取對應詞向量,其它參數保持一致。實驗結果見表5。

表5 時序格子網絡消融實驗結果

從表5中可以看出,基于字的方法比基于詞和字詞混合的方法在精確率、準確率和F1值上均有提高。這是因為金融文本中存在大量易產生歧義和多義的分割,使用分詞工具分詞,可能會產生分詞歧義,從而導致對輸入文本的語義特征提取有誤差,進而導致模型效果受到影響。本文采用基于時序格子網絡的關系抽取方法,在精確率、召回率上比起基于字的方法有大幅提高,綜合評估值F1提高了0.087,取得了最佳結果,說明利用時序格子網絡將字粒度信息和詞粒度信息動態(tài)融合,能有效緩解語義特征提取不準確的問題,從而提高實體關系抽取的效果。

3.3.3 損失函數的作用

分別使用無權重交叉熵損失函數(式(17))和本文改進后的帶權重交叉熵損失函數(式(18))進行對比實驗,兩組實驗都使用圖2中所示模型,只是在關系分類層使用不同損失函數進行訓練,其它參數保持一致。實驗結果見表6。從表中可以看出,使用有權重的損失函數訓練模型,在精確率和召回率上分別提高0.0304和0.0495,F1值提高了0.0442。

表6 損失函數對比實驗結果

圖5展示了損失函數有無權重對比實驗在每個關系類型上的F1值對比。由圖可以看出,第4和第10類的F1值有大幅提高,其它關系類型F1值保持不變或有小幅提高。從圖4中,我們可以發(fā)現第4和第10類樣本數量最少。這說明,本文改進后的帶權重交叉熵損失函數,不僅能夠保持樣本數量多的關系類型的分類性能,同時還提高了樣本數量少的關系類型的分類性能。

圖5 損失函數有無權重F1值對比

綜上所述,在金融文本實體關系抽取任務上,FB-Lattice模型具有一定優(yōu)勢。使用FinBERT結合時序格子網絡提取輸入文本特征,能夠改善語義特征提取不準確的問題,從而提升關系抽取效果。

4 結束語

本文提出了一種融合FinBERT和時序格子網絡的金融文本實體關系抽取方法(FB-Lattice)。首先采用FinBERT預訓練模型提取輸入文本的字詞特征,獲取包含金融領域先驗知識的特征向量。然后采用時序格子網絡對特征向量進行編碼,將詞粒度信息和位置信息動態(tài)集成到字粒度信息中,獲取充足的上下文語義信息,解決了金融文本語義特征提取不準確的問題。最后采用改進后的帶權重交叉熵損失函數進行訓練,改善了樣本數量少的關系類型的分類效果。實驗結果初步驗證了本文所提出的方法對于金融文本實體關系抽取的有效性。

猜你喜歡
格子實體語義
語言與語義
前海自貿區(qū):金融服務實體
中國外匯(2019年18期)2019-11-25 01:41:54
數格子
填出格子里的數
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
哲學評論(2017年1期)2017-07-31 18:04:00
格子間
女友(2017年6期)2017-07-13 11:17:10
振興實體經濟地方如何“釘釘子”
兩會進行時:緊扣實體經濟“釘釘子”
格子龍
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
徐闻县| 马龙县| 山东省| 龙门县| 太和县| 东光县| 林周县| 勃利县| 凌云县| 台湾省| 汶川县| 新巴尔虎左旗| 元朗区| 和林格尔县| 牟定县| 广西| 洮南市| 宁武县| 永清县| 泸西县| 红河县| 合作市| 托克托县| 五大连池市| 翁源县| 龙游县| 礼泉县| 寿光市| 连山| 万载县| 昭通市| 睢宁县| 昂仁县| 西乌珠穆沁旗| 达州市| 大同县| 新泰市| 康定县| 静宁县| 双流县| 资中县|