国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多層級(jí)注意力機(jī)制和動(dòng)態(tài)閾值的遠(yuǎn)程監(jiān)督關(guān)系抽取

2024-12-31 00:00:00趙紅燕張瑩剛謝斌紅
計(jì)算機(jī)應(yīng)用研究 2024年11期
關(guān)鍵詞:降噪

摘 要:遠(yuǎn)程監(jiān)督關(guān)系抽取面臨著數(shù)據(jù)質(zhì)量的問題,即生成的數(shù)據(jù)集存在多類噪聲,包括噪聲詞、噪聲句和噪聲包?,F(xiàn)有研究主要集中在噪聲句方面,忽略了其他噪聲的影響,無法徹底消除噪聲。為此,提出一種基于多層級(jí)注意力機(jī)制和動(dòng)態(tài)閾值的遠(yuǎn)程監(jiān)督關(guān)系抽取模型(MADT)。該模型首先采用預(yù)訓(xùn)練語言模型獲取實(shí)體對語義表示,再通過雙向門控循環(huán)單元和自注意力機(jī)制獲得蘊(yùn)涵關(guān)鍵詞信息的語義特征,然后結(jié)合句子深層上下文表示依次處理三種噪聲問題。此外,還提出一種動(dòng)態(tài)閾值方法進(jìn)一步剔除噪聲句,增強(qiáng)正例句對包表示的貢獻(xiàn),并采用基于語義相似性的注意力機(jī)制降低噪聲包的影響。在NYT10d和NYT10m數(shù)據(jù)集上的實(shí)驗(yàn)表明,MADT模型能夠解決遠(yuǎn)程監(jiān)督關(guān)系抽取中各個(gè)層面的噪聲,有效提升關(guān)系的抽取性能。

關(guān)鍵詞:遠(yuǎn)程監(jiān)督關(guān)系抽??;自注意力機(jī)制;動(dòng)態(tài)閾值;預(yù)訓(xùn)練語言模型;降噪

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)11-012-3288-07

doi:10.19734/j.issn.1001-3695.2024.03.0083

Distant supervision relation extraction based on multi-level attention mechanism and dynamic threshold

Zhao Hongyan, Zhang Yinggang?, Xie Binhong

(School of Computer Science amp; Technology, Taiyuan University of Science amp; Technology, Taiyuan 030024, China)

Abstract:Distant supervision relation extraction faces the problem of data quality, that is, the generated dataset has multiple types of noise, noisy words, noisy sentences and noisy bags. Existing research mainly focuses on the noisy sentences, ignoring the impact of other noise, and cannot completely eliminate the noise. To this end, the paper proposed a distant supervision relation extraction model based on multilevel attention mechanism and dynamic thresholding (MADT). The model firstly used a pre-trained language model to obtain entity-pair semantic representations, then obtained semantic features embedded with keyword information through a bidirectional gated recurrent unit and a self-attention mechanism, and then dealt with the three noise problems sequentially in conjunction with the deep contextual representation of the sentence. In addition, the paper proposed a dynamic thresholding method to further remove noisy sentences, enhance the contribution of positive example sentences to the bag representation, and reduce the impact of noisy bags using a semantic similarity-based attention mechanism. Experiments on the NYT10d and NYT10m datasets show that the MADT model is able to address all levels of noise in distant supervision of relation extraction and effectively improve relation extraction performance.

Key words:distant supervision relation extraction; self-attention mechanism; dynamic threshold; pre-trained language mo-del; noise reduction

0 引言

關(guān)系抽取,作為信息抽取的核心環(huán)節(jié),旨在從非結(jié)構(gòu)化文本中抽取出實(shí)體間的語義關(guān)系,并將其形式化為三元組(head,relation,tail)。其中,head表示頭實(shí)體,意為第一個(gè)實(shí)體;tail表示尾實(shí)體,意為第二個(gè)實(shí)體;relation表示兩者之間的關(guān)系。該任務(wù)可用于文本摘要、搜索引擎、自動(dòng)問答等下游任務(wù),同時(shí)也為構(gòu)建大規(guī)模知識(shí)圖譜提供了基礎(chǔ)知識(shí)。

由于人工標(biāo)注大規(guī)模數(shù)據(jù)需要耗費(fèi)大量的人力、物力和時(shí)間成本,故Mintz等人[1提出一種遠(yuǎn)程監(jiān)督的方法,通過將已有的知識(shí)圖譜和語料庫對齊來自動(dòng)生成標(biāo)注數(shù)據(jù),從而解決大規(guī)模數(shù)據(jù)集的構(gòu)建問題。但遠(yuǎn)程監(jiān)督方法假設(shè):如果現(xiàn)有知識(shí)庫中的實(shí)體對存在某種關(guān)系,那么語料庫中包含該實(shí)體對的所有句子都被標(biāo)注為該關(guān)系,并將這些句子組成的集合稱為包,將具有同種關(guān)系的包的集合稱為包組。由于該假設(shè)過于強(qiáng)烈,不可避免地會(huì)引入噪聲。如表1所示,顯示了采用遠(yuǎn)程監(jiān)督方法生成標(biāo)注數(shù)據(jù)可能存在的噪聲問題。按照噪聲的粒度大小,可以把噪聲分成噪聲詞、噪聲句和噪聲包三種,接下來將分別進(jìn)行闡述。

其中,最突出的噪聲類型為錯(cuò)誤標(biāo)注引起的噪聲句問題,此類問題嚴(yán)重影響了模型的性能。根據(jù)遠(yuǎn)程監(jiān)督的假設(shè),語料庫中的句子S1和S2均被標(biāo)注為“創(chuàng)始人”關(guān)系。然而,S2中的實(shí)體對之間實(shí)際上并未表達(dá)此種關(guān)聯(lián),此類噪聲句問題已引起學(xué)界廣泛關(guān)注。2015年,Zeng等人[2提出PCNN模型,其使用分段卷積神經(jīng)網(wǎng)絡(luò)獲取句子特征,成為將深度學(xué)習(xí)方法應(yīng)用于關(guān)系抽取領(lǐng)域的先驅(qū)模型。然而,該模型僅從包內(nèi)選擇一個(gè)最優(yōu)句子作為包表示特征,這不可避免地會(huì)造成大量句子信息的丟失。2019年,黃兆瑋等人[3提出了GRU_ATT模型,該模型采用門控循環(huán)神經(jīng)網(wǎng)絡(luò)對句子進(jìn)行進(jìn)一步編碼,并使用注意力機(jī)制為正實(shí)例句分配較高權(quán)重,為噪聲句分配較低權(quán)重,以平衡句子浪費(fèi)問題和噪聲句問題。然而,這種僅使用注意力機(jī)制的方法只能降低噪聲句在包表示特征中的權(quán)重占比,在學(xué)習(xí)包表示特征時(shí)仍不可避免地會(huì)學(xué)習(xí)到噪聲句特征,特別是對于由絕大部分噪聲句構(gòu)成的包,其累積的權(quán)重會(huì)對包表示特征產(chǎn)生較大影響。本文采用的方法則是盡可能地過濾噪聲句,降低其產(chǎn)生的影響,增強(qiáng)包表示的魯棒性。

噪聲句問題的一種極端情況為噪聲包問題,即包中的所有句子均被錯(cuò)誤標(biāo)注,如表1中的S3和S4均無法表達(dá)“出生地”關(guān)系。噪聲包問題常被研究人員所忽視,若使用噪聲包訓(xùn)練模型,則對模型性能的影響更為嚴(yán)重。本文則是使用基于語義相似性的注意力機(jī)制解決噪聲包問題。

除了上述兩種類型的噪聲,還有一種在模型訓(xùn)練中產(chǎn)生影響的噪聲,即噪聲詞問題。具體而言,在一段文本中,表達(dá)目標(biāo)實(shí)體對關(guān)系的通常是幾個(gè)關(guān)鍵的詞或短語,而模型訓(xùn)練時(shí)學(xué)習(xí)的是整段文本的特征表示,無法重點(diǎn)關(guān)注關(guān)鍵詞的特征,容易忽略其表達(dá)重點(diǎn)。以表1中S5為例,在考慮“Ruth”和“Baltimore”之間的關(guān)系時(shí),只有“birthplace”能夠表達(dá)兩者的“出生地”關(guān)系,其他單詞對定位實(shí)體對的關(guān)系沒有幫助,這就是噪聲詞問題。根據(jù)Riedel等人[4的統(tǒng)計(jì)數(shù)據(jù),遠(yuǎn)程監(jiān)督常用的關(guān)系抽取數(shù)據(jù)集NYT10d中,一半以上的句子長度超過40個(gè)單詞,這使得模型尤其容易忽視關(guān)鍵詞特征。因此,噪聲詞問題也是一個(gè)亟待解決的難題,否則也會(huì)影響模型的性能。

為解決遠(yuǎn)程監(jiān)督關(guān)系抽取中的三種噪聲,本文提出基于多層級(jí)注意力機(jī)制和動(dòng)態(tài)閾值的遠(yuǎn)程監(jiān)督關(guān)系抽取模型(distant supervision relation extraction based on multi-level attention mecha-nism and dynamic threshold,MADT)。該模型采用自下而上的構(gòu)建方式,分別在詞、句、包進(jìn)行多層級(jí)降噪處理。本文的貢獻(xiàn)具體如下:

a)針對噪聲詞問題,采用預(yù)訓(xùn)練語言模型BERT和雙向門控循環(huán)單元-自注意力機(jī)制網(wǎng)絡(luò)(BIGRU-ATT)結(jié)構(gòu),不僅能夠捕獲實(shí)體的上下文語義信息,而且能夠捕獲對關(guān)系表達(dá)重要的詞的信息,從而獲得富含語義信息的上下文表示,以緩解噪聲詞的影響。

b)針對噪聲句問題,提出一種動(dòng)態(tài)閾值計(jì)算方法,從而進(jìn)一步過濾噪聲句,而不只是通過注意力機(jī)制降低噪聲句的權(quán)重,從而學(xué)到更好的包表示。

c)針對噪聲包問題,提出一種基于語義相似性的注意力機(jī)制,降低噪聲包的影響,改善模型性能。

d)在NYT10d和NYT10m數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文模型能夠改善遠(yuǎn)程監(jiān)督各層級(jí)的噪聲。

1 相關(guān)工作

由于遠(yuǎn)程監(jiān)督假設(shè)過于強(qiáng)烈,標(biāo)注數(shù)據(jù)不可避免地存在噪聲。早期為了解決這一問題,Riedel等人[4采用at-least-one假設(shè)來放寬初始假設(shè),即認(rèn)為包內(nèi)至少有一個(gè)句子被正確標(biāo)注,大大降低了噪聲句的影響,但該模型依賴自然語言處理工具提取句子特征,這可能會(huì)導(dǎo)致提取到錯(cuò)誤的句子特征,存在誤差傳播的風(fēng)險(xiǎn)。

近年來,基于深度學(xué)習(xí)的特征提取方法已逐步取代了基于自然語言處理工具獲取特征的方法。Zeng等人[2提出PCNN模型,在at-least-one假設(shè)的基礎(chǔ)上,使用深度神經(jīng)網(wǎng)絡(luò)端到端的自動(dòng)獲取句子特征,是第一個(gè)將深度學(xué)習(xí)方法應(yīng)用到關(guān)系抽取領(lǐng)域的模型,但該模型在訓(xùn)練時(shí)僅從包內(nèi)挑選一個(gè)最優(yōu)句子作為包表示特征,這必然會(huì)損失大量句子信息。為了緩解句子浪費(fèi)問題,Jiang等人[5把包中的所有句子特征通過一個(gè)最大池化層融合到一起,用池化后的輸出作為包表示特征,但這樣會(huì)將噪聲句的特征也融合到包表示特征中,不利于模型的訓(xùn)練。隨著注意力機(jī)制的發(fā)展,文獻(xiàn)[6~8]通過為正實(shí)例句分配更高權(quán)重,為噪聲句分配較低權(quán)重來平衡噪聲句和句子浪費(fèi)問題。然而,這類方法只是降低了噪聲句在包表示特征中的權(quán)重比例,學(xué)習(xí)包表示特征時(shí)仍不可避免地會(huì)學(xué)到噪聲句的特征?;诖?,文獻(xiàn)[9, 10]試圖通過某種方式徹底剔除噪聲句,使包表示特征完全由正實(shí)例句構(gòu)成,以此提升模型性能。具體來說,文獻(xiàn)[9]期望使用強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)負(fù)實(shí)例的分類器,準(zhǔn)確識(shí)別噪聲句,但分類的準(zhǔn)確性還有待提高。文獻(xiàn)[10]則提出一種改進(jìn)的注意力機(jī)制,通過構(gòu)建組合向量保留正實(shí)例句,以達(dá)到過濾噪聲句的目的,但沒有考慮到噪聲詞和噪聲包問題。對噪聲詞的處理,Jat等人[11在有監(jiān)督關(guān)系抽取任務(wù)上,使用傳統(tǒng)注意力機(jī)制為關(guān)鍵詞分配較高權(quán)重,為噪聲詞分配較低權(quán)重進(jìn)行句子表征。但根據(jù)文獻(xiàn)[12~15]的研究,使用自注意力機(jī)制更能體現(xiàn)句子內(nèi)部的相關(guān)性,尤其對于句級(jí)建模而言,通過自注意力機(jī)制來識(shí)別噪聲詞比使用傳統(tǒng)注意力機(jī)制更有幫助。

為了解決上述方法的缺陷,本文同時(shí)考慮到噪聲詞、噪聲句、噪聲包問題對模型性能的影響,設(shè)計(jì)了一種更加平衡的多實(shí)例學(xué)習(xí)策略,提出了一種新的基于多層級(jí)注意力機(jī)制和動(dòng)態(tài)閾值的遠(yuǎn)程監(jiān)督關(guān)系抽取模型,通過結(jié)合實(shí)體對特征和關(guān)鍵詞特征,增強(qiáng)了句子的上下文語義表示,緩解了噪聲詞問題;通過計(jì)算動(dòng)態(tài)閾值剔除了噪聲句,強(qiáng)化了包的表征能力;通過基于語義相似性的注意力機(jī)制,降低了噪聲包的影響。

2 遠(yuǎn)程監(jiān)督關(guān)系抽取模型

2.1 噪聲詞降噪模塊

本文提出的MADT模型架構(gòu)如圖1所示。該模型按照噪聲類別,自底向上分為三個(gè)子模塊,分別為噪聲詞降噪模塊、噪聲句降噪模塊和噪聲包降噪模塊,在進(jìn)行編碼的同時(shí)達(dá)到各級(jí)降噪的目的。其中,上一級(jí)的編碼是下一級(jí)編碼的基礎(chǔ),即句子表征是包表征的基礎(chǔ),包表征是包組級(jí)表征的基礎(chǔ)。

在噪聲詞降噪模塊中,主要使用雙向門控循環(huán)單元和自注意力機(jī)制對關(guān)鍵詞進(jìn)行篩選,為其賦予更高的權(quán)重,為噪聲詞賦予較低權(quán)重,得到強(qiáng)調(diào)關(guān)鍵詞信息的特征,再通過預(yù)訓(xùn)練語言模型BERT獲得實(shí)體對的特征,作為整個(gè)句子的補(bǔ)充特征,最后融合兩者信息共同構(gòu)成句子的上下文語義向量。

2.1.1 實(shí)體對特征表示

由于預(yù)訓(xùn)練語言模型BERT[16擁有強(qiáng)大的單詞表征能力,能夠捕捉特定上下文的單詞含義,故使用BERT捕獲目標(biāo)實(shí)體對的上下文特征表示。設(shè)輸入句子為

s={X1,X2,…,$,Xi,…,Xj,$,…,#,Xk,…,Xm,#,…,Xl}

其中:$和#分別用來定位頭尾實(shí)體;(Xi~Xj)序列表示頭實(shí)體;(Xk~Xm)序列表示尾實(shí)體;l表示序列長度。假設(shè)第t個(gè)單詞Xt被BERT編碼為Ht,其中Ht∈?d,則頭尾實(shí)體分別被編碼為(Hi~Hj)和(Hk~Hm)。之后分別對上述兩個(gè)序列做平均運(yùn)算,然后通過全連接層和激活操作獲得目標(biāo)實(shí)體對的最終表示(head, tail),如式(1)(2)所示。

head=W1[tanh(1j-i+1)∑jt=iHt]+b1(1)

tail=W2[tanh(1m-k+1)∑mt=kHt]+b2(2)

其中:W1和W2是全連接層的權(quán)重,W1∈?d×d,W2∈?d×d兩者共享參數(shù);b1和b2是偏置權(quán)重;tanh是激活函數(shù)。

2.1.2 句子上下文向量

BERT中的“CLS”向量常用作整句話的句義表示。然而,考慮到噪聲詞問題,整句話的句義不等于目標(biāo)實(shí)體對的語義。因此,本模塊提出了一種結(jié)合雙向門控循環(huán)單元和自注意力機(jī)制的方法,篩選關(guān)鍵詞作為整句話的句義表示,以降低噪聲詞的影響,記為“cls”。

具體來說,首先將句子s={X1,X2,…,Xn}編碼為句子向量V={V1,V2,…,Vn}。接著,使用雙向門控循環(huán)單元作深層次語義特征的提取,進(jìn)一步將句子向量V表示為W={W1,W2,…,Wn}。最終輸入自注意力機(jī)制網(wǎng)絡(luò)得到關(guān)鍵詞特征向量cls。

其中,詞向量編碼Vt由Skip-gram模型[17映射的向量Et和位置向量[pt,qt]組成。位置向量被定義為當(dāng)前單詞到頭實(shí)體和尾實(shí)體的相對距離,則Vt=[Et,pt,qt],Vt∈?d+2dp,d為Et的維度,dp為位置向量的維度。對于句子向量V={V1,V2,…,Vn}而言,雙向門控循環(huán)單元的計(jì)算過程如式(3)~(5)所示。

t=GRU(t-1,Vt)(3)

t=GRU(t-1,Vt)(4)

wt=[t;t](5)

得到句子的上下文語義向量W={W1,W2,…,Wn}后,輸入自注意力機(jī)制網(wǎng)絡(luò)得到關(guān)鍵詞特征向量cls。自注意力機(jī)制的計(jì)算方式如圖2所示。

首先將雙向門控循環(huán)單元得到的句子特征W經(jīng)線性層映射到三個(gè)不同的空間,得到查詢矩陣Query、鍵矩陣Key和值矩陣Value,再通過縮放點(diǎn)擊注意力計(jì)算,得到句子的關(guān)鍵詞特征cls。其計(jì)算如式(6)所示。

cls=soft max(QKTdk)V(6)

最終的句子表示由關(guān)鍵詞特征cls向量和目標(biāo)實(shí)體對的特征(head,tail)共同組成,記為g,如式(7)所示。

g=concat(cls,head,tail)(7)

2.2 噪聲句降噪模塊

初步包表示是由相同實(shí)體對的句子構(gòu)成的集合,記為 B*={g1,g2,…,gn},n為包內(nèi)的句子數(shù)量。為了計(jì)算包內(nèi)句子的注意力分?jǐn)?shù),首先計(jì)算句子向量g與關(guān)系查詢向量Qr的相關(guān)度e,如式(8)所示。其中,*表示矩陣乘法,‖.‖表示向量的模。

ei=gi*Qr‖gi‖*‖Qr‖(8)

之后得到注意力權(quán)重(γ1,γ2,…,γn)。其計(jì)算公式如式(9)所示。

γi=exp(ei)∑nk=1exp(ek)(9)

為了避免噪聲句影響模型性能,該模塊提出了基于動(dòng)態(tài)閾值的方法來剔除噪聲句。

動(dòng)態(tài)閾值受離群點(diǎn)檢測[18啟發(fā),采用經(jīng)過處理的方差值作為閾值。由于每個(gè)包的噪聲句數(shù)量不同,傳統(tǒng)固定閾值方法無法精準(zhǔn)去除噪聲句。而動(dòng)態(tài)閾值可以自適應(yīng)地去除每個(gè)包內(nèi)的大部分噪聲句。通過將低于閾值的噪聲句歸類為NA類并重新計(jì)算剩余正例句的權(quán)重,可以有效降低噪聲句對包表示特征的影響,從而提升模型性能。

首先判斷權(quán)重序列(γ1,γ2,…,γn)是否符合正態(tài)分布,若不符合正態(tài)分布,則將其轉(zhuǎn)為正態(tài)分布序列(γ1′,γ2′,…,γn′),轉(zhuǎn)換如式(10)所示。

γi′=log γi(10)

得到正態(tài)分布的權(quán)重序列后,計(jì)算其動(dòng)態(tài)閾值β,如式(11)所示。

β=∑ni=1(γi′-γi′)n-1(11)

其中:γi′是正態(tài)分布序列(γ1′,γ2′,…,γn′)的平均表示,具體計(jì)算如式(12)所示。

γi′=1n∑ni=1γi′(12)

若包內(nèi)第i條句子的初始權(quán)重γi小于其包的動(dòng)態(tài)閾值β,則判斷其為噪聲句,將其歸為NA類,達(dá)到剔除噪聲句的目的。更新剩余正實(shí)例句的權(quán)重,記為γi,以突出其在包表示特征中的貢獻(xiàn)。假設(shè)包內(nèi)還剩余j條句子,則更新權(quán)重的公式如式(13)所示。

γii∑jk=1γk(13)

那么經(jīng)過強(qiáng)化后的正實(shí)例句權(quán)重序列為(γ1,γ2,…,γj)。

最終的包表示特征B由權(quán)重γi和句子的向量gi加權(quán)后得出,計(jì)算如式(14)所示。

B=∑ji=1γigi(14)

2.3 噪聲包降噪模塊

在得到包的表示特征B后,將具有相同關(guān)系標(biāo)簽的包使用語義相似性注意力機(jī)制獲得包組的表示特征G,來解決噪聲包問題?;谡Z義相似性注意力機(jī)制受自注意力機(jī)制的啟發(fā),如果兩個(gè)包B1和B2具有相同的語義標(biāo)簽k,那么它們的包表示向量應(yīng)該具有較高的相似度,而同被標(biāo)記為關(guān)系k的噪聲包B3,其包表示向量應(yīng)與上述兩個(gè)包表示向量具有較低的相似度。這里使用向量本身計(jì)算關(guān)注度分?jǐn)?shù)αi,表示包組中第i個(gè)包與包組內(nèi)其他包相似度之和,具體計(jì)算公式如式(15)所示。

αi=∑si′=1,i′≠iBi*BTi‖Bi‖*‖BTi‖(15)

得到αi后,計(jì)算包組內(nèi)各個(gè)包的注意力權(quán)重,計(jì)算公式如式(16)所示。

ri=exp(αi)∑sk=1exp(αk)(16)

包組的表示特征G緩解了噪聲包的影響,其計(jì)算公式如式(17)所示。

G=∑si=1riBi(17)

2.4 關(guān)系分類及網(wǎng)絡(luò)優(yōu)化

最后,利用全連接層將包組的表示特征G映射到k個(gè)關(guān)系分類標(biāo)簽空間中,獲得關(guān)系預(yù)測信息o,計(jì)算方式如式(18)所示。

o=w0G+b0(18)

其中:w0和b0分別代表了全連接層的可訓(xùn)練權(quán)重和偏置。進(jìn)一步地,利用softmax函數(shù)計(jì)算最終的關(guān)系分類結(jié)果,計(jì)算方式如式(19)所示。

=exp(oi)∑kj=1exp(oj)(19)

本文采用交叉熵作為損失函數(shù),利用L2正則化對參數(shù)進(jìn)行懲罰,模型采用dropout策略防止模型過擬合,損失函數(shù)如式(20)所示。

J(θ)=-1r∑ri=1yilog(i)+λ‖θ‖2F(20)

其中:yii分別表示模型的期望輸出和真實(shí)輸出結(jié)果;λ為L2正則化項(xiàng)的超參數(shù);θ為模型中所有可訓(xùn)練的參數(shù)。本文采用小批量隨機(jī)梯度下降法作為求解模型最優(yōu)參數(shù)的優(yōu)化算法。

3 實(shí)驗(yàn)與分析

3.1 數(shù)據(jù)集與評價(jià)指標(biāo)

本文采用遠(yuǎn)程監(jiān)督關(guān)系抽取數(shù)據(jù)集NYT10d[2和NYT10m[19來驗(yàn)證本文方法的有效性。NYT10d數(shù)據(jù)集由Riedel等開發(fā),通過對齊大型規(guī)模知識(shí)圖譜Freebase與紐約時(shí)報(bào)語料庫構(gòu)建而成。NYT10m數(shù)據(jù)集是清華大學(xué)自然語言處理實(shí)驗(yàn)室在NYT10d基礎(chǔ)上對驗(yàn)證集重構(gòu)所生成的,如表2所示。

實(shí)驗(yàn)采用數(shù)據(jù)集普遍使用的評估指標(biāo),包括PR曲線、F1分?jǐn)?shù)和P@N值。上述評估指標(biāo)采用混淆矩陣為基礎(chǔ),包括TP、FP、TN、FN,如表3所示。

PR曲線是以精準(zhǔn)率(precision)和召回率(recall)作為縱坐標(biāo)與橫坐標(biāo)繪制的曲線,具體如下所示。

precision=TPTP+FP(21)

recall=TPTP+FN(22)

F1分?jǐn)?shù)是精準(zhǔn)度和召回率相平衡的指標(biāo)。

F1=2×precision×recallprecision+recall(23)

P@N值是通過計(jì)算前N個(gè)包分類結(jié)果的精準(zhǔn)率而得到。本文采用不同的N值(100、200、300)來計(jì)算P@N,并計(jì)算三者的平均值A(chǔ)verage P@N。

3.2 訓(xùn)練與測試

在實(shí)驗(yàn)時(shí),訓(xùn)練與測試略有不同。在訓(xùn)練階段噪聲包降噪模塊中,通過語義相似性注意力機(jī)制獲得包組的表示特征;而在測試階段每個(gè)包的標(biāo)簽是未知的,無法通過加權(quán)求和獲得包組的表示,因此將每個(gè)包視為一個(gè)包組進(jìn)行測試。

而且本文僅將噪聲詞降噪模塊應(yīng)用于NA類,用于降低噪聲詞的影響;而不使用噪聲句降噪模塊和噪聲包降噪模塊,因?yàn)閷τ贜A類,其實(shí)例表示是多種多樣,很難為它們計(jì)算合適的權(quán)重。

3.3 實(shí)現(xiàn)方法與參數(shù)設(shè)置

本文模型基于PyTorch框架實(shí)現(xiàn),MADT模型由三個(gè)子模塊組成:噪聲詞降噪模塊、噪聲句降噪模塊和噪聲包降噪模塊。噪聲詞降噪模塊首先微調(diào)BERT模型以獲取目標(biāo)實(shí)體對特征,然后使用2層BiGRU和自注意力機(jī)制提取關(guān)鍵詞特征。最后,通過全連接層將兩者對齊,共同作為句子級(jí)特征。噪聲句降噪模塊使用注意力機(jī)制對包內(nèi)句子進(jìn)行權(quán)重分配,接著計(jì)算動(dòng)態(tài)閾值。對于低于閾值的句子,將其分配至NA類,然后重新計(jì)算剩余句子權(quán)重。噪聲包降噪模塊使用自注意力機(jī)制計(jì)算語義相似性注意力機(jī)制,最后獲得包組的最終表示。最終,使用softmax對其進(jìn)行分類,以確定包組的類別。

本文的實(shí)驗(yàn)參數(shù)具體如表4所示。詞向量維度為768維,雙向門控循環(huán)單元隱藏層為230維等。

3.4 基線模型

本文選擇11種遠(yuǎn)程監(jiān)督關(guān)系抽取方法,前5種是經(jīng)典的遠(yuǎn)程監(jiān)督抽取模型,后6種為近五年的先進(jìn)基線模型,與MADT模型進(jìn)行比較。相關(guān)模型介紹如下:

a)Mintz[1:2009年,首次提出遠(yuǎn)程監(jiān)督關(guān)系抽取的思想,采用自然語言處理工具中提取句子特征,利用多分類邏輯回歸模型進(jìn)行關(guān)系抽取。

b)Riedel[4:2010年,首次使用多實(shí)例學(xué)習(xí)解決數(shù)據(jù)集的噪聲句問題。

c)MultiR[20: 2011年,通過融合句子級(jí)特征和語料庫級(jí)特征,提出基于多實(shí)例學(xué)習(xí)的概率圖模型。

d)PCNN[2:2015年,首次利用神經(jīng)網(wǎng)絡(luò)模型自動(dòng)獲取特征,解決關(guān)系抽取中的誤差傳播問題。

e)PCNN-ATT[6:2016年,提出基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)遠(yuǎn)程監(jiān)督關(guān)系抽取模型,緩解噪聲句帶來的影響。

f)BGWA[11:2018年,針對有監(jiān)督關(guān)系抽取,使用傳統(tǒng)注意力機(jī)制過濾噪聲詞。

g)IATT[10:2019年,提出了一種改進(jìn)注意力機(jī)制的關(guān)系抽取模型,通過對注意力機(jī)制進(jìn)行排序,構(gòu)建組合向量,盡可能保留正實(shí)例,去除噪聲句,提升模型性能。

h)Intra-Inter[21:2019年,提出一種雙重注意力的神經(jīng)網(wǎng)絡(luò),同時(shí)考慮噪聲句和噪聲包問題。

i)TransH-ATT[22:2022年,通過引入TransH編碼,提高句子的編碼質(zhì)量,再從句子級(jí)別使用注意力機(jī)制,解決噪聲句問題。

j)PARE[23:2023年,通過位置特征注意力篩選關(guān)鍵詞,得到魯棒的句子特征表示,再利用注意力機(jī)制降低噪聲句的影響。

k)FGSI[24:2023年,提出一種基于細(xì)粒度語義信息的遠(yuǎn)程監(jiān)督關(guān)系抽取模型,從句子內(nèi)部尋找能夠反映標(biāo)簽的細(xì)粒度語義信息,減少不相關(guān)語義信息的干擾,形成單句特征向量,提升模型性能。

3.5 對比實(shí)驗(yàn)結(jié)果與分析

在實(shí)驗(yàn)部分,本文模型與上述11種基線模型進(jìn)行對比實(shí)驗(yàn)。圖3繪制了11種對比方法以及MADT模型在NYT10d數(shù)據(jù)集上的PR曲線,可以觀察到:

a)與傳統(tǒng)機(jī)器學(xué)習(xí)模型Mintz、Riedel、MultiR相比,基于深度學(xué)習(xí)的模型更具優(yōu)勢,這說明從NLP工具中提取的特征確實(shí)存在誤差傳播現(xiàn)象,而且無法保障特征的完備性,其提取到的特征無法很好地適應(yīng)關(guān)系抽取任務(wù)。相反,基于深度學(xué)習(xí)的端到端的特征提取能夠自動(dòng)發(fā)現(xiàn)大量數(shù)據(jù)中隱藏的規(guī)律或特征。

b)PCNN-ATT相比PCNN有較大的提升,這說明通過注意力機(jī)制確實(shí)能降低噪聲句帶來的影響,之后對噪聲句的處理一般是在注意力機(jī)制上改進(jìn);IATT優(yōu)于PCNN-ATT,則說明應(yīng)徹底剔除噪聲句的思路是正確的。

c)BGWA在PR曲線上總體都優(yōu)于PCNN-ATT和PCNN,這主要是由于BGWA有一個(gè)更加健壯的編碼器,在單詞級(jí)別應(yīng)用注意力機(jī)制,降低了句子中無關(guān)單詞的影響,獲得了更適合關(guān)系抽取任務(wù)的上下文特征,后續(xù)模型按照此思路使用不同的方法來構(gòu)建句子的魯棒性特征,如FGSI、TransH-ATT和PARE等均獲得了優(yōu)越的性能。

d)基線模型Intra-Inter取得了不錯(cuò)的效果,這主要是因?yàn)槠洳粏螁慰紤]了噪聲句問題,還在一定程度上緩解了噪聲包的問題。

e)與11個(gè)基線模型相比,MADT在整個(gè)召回率范圍內(nèi)幾乎都取得了最高的精準(zhǔn)率,這主要是因?yàn)樵撃P屯瑫r(shí)考慮了三個(gè)層次的噪聲,通過構(gòu)建一個(gè)更加健壯的編碼器,獲得更能代表實(shí)體間關(guān)系的特征和更精細(xì)的上下文表達(dá),同時(shí)通過動(dòng)態(tài)閾值對噪聲句完全剔除,在包表達(dá)和包組表達(dá)進(jìn)行精確降噪。

遵循前人工作,本文使用P@N值來比較上述方法的性能。表5為11種基線方法以及MADT的P@N值在NYT10d數(shù)據(jù)集上的比較結(jié)果,其中N的取值分別為100、200、300,并計(jì)算三者的平均值。由表5可以看出,從2009年Mintz模型到2022年P(guān)ARE模型,關(guān)系抽取的效果不斷提升。這是因?yàn)檫h(yuǎn)程監(jiān)督關(guān)系抽取數(shù)據(jù)集本身不是一個(gè)純凈的數(shù)據(jù)集,學(xué)者們致力于從不同層面進(jìn)行降噪。首先是改變特征提取的方式,不再使用NLP工具,采用端到端的方式緩解了特征誤差傳播的問題。其次,對于噪聲句的處理也極為重要,從只挑選一個(gè)實(shí)例句到使用注意力機(jī)制降低噪聲句權(quán)重,再到改進(jìn)注意力機(jī)制徹底剔除噪聲句。最后,構(gòu)建一個(gè)健壯的句子編碼器,從不同維度表達(dá)關(guān)系特征,這對關(guān)系抽取的性能也有很大幫助。本文皆遵從這三點(diǎn)并加以改進(jìn),故在P@100、P@200以及average中均取得了最好的表現(xiàn)。

在NYT10m數(shù)據(jù)集上,MADT模型實(shí)驗(yàn)結(jié)果如表6所示。在F1、Average P@N上都取得了最佳的性能結(jié)果。其原因是在句子表征階段,既用了預(yù)訓(xùn)練語言模型BERT強(qiáng)大的表征能力來獲取實(shí)體對特征的表示,又進(jìn)一步使用雙向門控循環(huán)單元-自注意力機(jī)制網(wǎng)絡(luò)獲取了強(qiáng)調(diào)關(guān)鍵詞特征的句子語義,兩者相互補(bǔ)充,從兩個(gè)維度獲得了蘊(yùn)涵豐富語義信息的特征;在噪聲句降噪階段,首先確定了徹底剔除噪聲句的思路,而不是使用傳統(tǒng)注意力機(jī)制的軟降噪方法,其次是動(dòng)態(tài)閾值的確定,雖然無法做到完全精準(zhǔn)地匹配到正實(shí)例句和噪聲句的分界點(diǎn),但是可以識(shí)別出大部分的噪聲句。

3.6 消融實(shí)驗(yàn)結(jié)果與分析

本節(jié)通過設(shè)計(jì)消融實(shí)驗(yàn)來探討MADT各個(gè)模塊在NYT10d數(shù)據(jù)集上對模型的貢獻(xiàn)程度,其中MA-WAtt、MA-SAtt、MA-BAtt分別表示在噪聲詞降噪模塊不使用雙向門控單元-自注意力機(jī)制網(wǎng)絡(luò),在噪聲句降噪模塊使用原始句間注意力機(jī)制代替動(dòng)態(tài)閾值過濾噪聲句,以及在包組注意力模塊不使用注意力機(jī)制。結(jié)果如圖4所示。

從圖4可以觀察到:去除任一模塊,模型的性能都會(huì)受損,只有針對三個(gè)問題同時(shí)降噪,模型性能才能達(dá)到最大化。其中,MA-Watt在曲線上的表現(xiàn)略微低于MA-Satt和MA-Batt,這恰恰說明在本模型中,噪聲詞降噪模塊的貢獻(xiàn)最大,因?yàn)樵跊]有雙向門控循環(huán)單元-自注意力機(jī)制網(wǎng)絡(luò)的幫助下,模型性能下降最多,也說明一個(gè)健壯編碼器的重要性,從不同維度對句子進(jìn)行表征,是能夠獲得不同的有用信息的。

本節(jié)繼續(xù)探討不同閾值對模型在NYT10d數(shù)據(jù)集上的性能影響,結(jié)果如表7所示。比較了3個(gè)固定閾值(10%、20%和30%)和本文提出的動(dòng)態(tài)閾值。結(jié)果表明,當(dāng)固定閾值為10%時(shí),模型性能最低,這表明過濾的噪聲句最少。當(dāng)固定閾值為20%和30%時(shí),模型性能逐漸提高,但并不是閾值越高,模型性能越好。

相比之下,本文提出的動(dòng)態(tài)閾值在F1分?jǐn)?shù)和average P@N 值上均取得了最佳性能。這是因?yàn)閷τ贜YT10d數(shù)據(jù)集中的不同包而言,噪聲句的數(shù)量并不是固定的。動(dòng)態(tài)閾值可以自適應(yīng)地為每個(gè)包確定最合適的閾值,從而更有效地去除噪聲句。因此,與固定閾值相比,動(dòng)態(tài)閾值更適合處理具有噪聲的文本數(shù)據(jù)集,因?yàn)樗梢愿鶕?jù)每個(gè)包的具體情況進(jìn)行調(diào)整,從而提高模型性能。

3.7 案例研究

為了更加直觀地解釋噪聲句降噪模塊,本文選取了一個(gè)標(biāo)簽為“/people/person/place_lived”的句子包,該包中包含5條句子,每條句子都包含頭實(shí)體“Barack Obama”和尾實(shí)體“Chicago”。從表8中可以發(fā)現(xiàn),第4、5條句子實(shí)際為噪聲句。

首先,采用注意力機(jī)制方法計(jì)算包內(nèi)每條句子的權(quán)重,并從高到低進(jìn)行排序,轉(zhuǎn)為正態(tài)分布后,則包表示向量為0.47314*g1+0.21908*g2+0.14728*g3+0.13918*g4+0.02132*g5。其次,按照動(dòng)態(tài)閾值公式計(jì)算閾值計(jì)算β為0.16835,過濾掉兩個(gè)噪聲句子。然后重新調(diào)整其權(quán)重,最終包表示向量為0.56360*g1+0.26096*g2+0.17544*g3。由此可見,本文提出的噪聲句降噪模塊既過濾了噪聲句子,又強(qiáng)化了正實(shí)例句對包表示的貢獻(xiàn)。

當(dāng)然也存在使用該模塊后過濾掉正實(shí)例句的可能。本文旨在盡可能地過濾掉噪聲句子,因?yàn)殡m然噪聲句的權(quán)重很低,但在整個(gè)數(shù)據(jù)集來看,噪聲的占比還是極高的,且在形成包組向量的過程中各個(gè)包中的噪聲句的影響還是巨大的。另外,從實(shí)驗(yàn)效果來看,該模塊大部分情況下過濾掉的是噪聲句,而不是正實(shí)例句。

4 結(jié)束語

本文提出了基于多層級(jí)注意力機(jī)制和動(dòng)態(tài)閾值的遠(yuǎn)程監(jiān)督關(guān)系抽取模型MADT。該模型融合了實(shí)體對特征和關(guān)鍵詞特征,獲得了更高質(zhì)量的句子表征,進(jìn)而緩解了噪聲詞問題;還設(shè)計(jì)了一種動(dòng)態(tài)閾值的計(jì)算方法,用于進(jìn)一步過濾噪聲句,從而獲得更健壯的包表示;最后,在包組表示特征上使用基于語義相似性的注意力機(jī)制解決噪聲包問題。通過三個(gè)層次的降噪,最大限度地降低了噪聲對模型性能的影響,并通過實(shí)驗(yàn)驗(yàn)證了模型的有效性。未來將繼續(xù)探索影響遠(yuǎn)程監(jiān)督關(guān)系抽取性能的長尾問題。

參考文獻(xiàn):

[1]Mintz M, Bills S, Snow R, et al. Distant supervision for relation extraction without labeled data [C]// Proc of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Stroudsburg: ACL, 2009: 1003-1011.

[2]Zeng Daojian, Liu Kang, Chen Yubo, et al. Distant supervision for relation extraction via piecewise convolutional neural networks [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: ACL, 2015: 1753-1762.

[3]黃兆瑋, 常亮, 賓辰忠, 等. 基于GRU和注意力機(jī)制的遠(yuǎn)程監(jiān)督關(guān)系抽取 [J]. 計(jì)算機(jī)應(yīng)用研究, 2019, 36(10): 2930-2933. (Huang Zhaowei, Chang Liang, Bin Chenzhong, et al. Distant supervision relationship extraction based on GRU and attention mechanism [J]. Application Research of Computers, 2019, 36(10): 2930-2933.)

[4]Riedel S, Yao Limin, McCallum A. Modeling relations and their mentions without labeled text [C]// Proc of European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin: Springer, 2010: 148-163.

[5]Jiang Xiaotian, Wang Quan, Li Peng, et al. Relation extraction with multi-instance multi-label convolutional neural networks [C]// Proc of the 26th International Conference on Computational Linguistics: Technical Papers. Stroudsburg,PA: ACL, 2016: 1471-1480.

[6]Lin Yankai, Shen Shiqi, Liu Zhiyuan, et al. Neural relation extraction with selective attention over instances [C]// Proc of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: ACL, 2016: 2124-2133.

[7]Ji Guoliang, Liu Kang, He Shizhu, et al. Distant supervision for relation extraction with sentence-level attention and entity descriptions [C]// Proc of the 31st AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press, 2017: 3060-306.

[8]Shen Yatian, Huang Xuanjing. Attention-based convolutional neural network for semantic relation extraction [C]// Proc of the 26th International Conference on Computational Linguistics: Technical Papers. Stroudsburg,PA: ACL, 2016: 2526-2536.

[9]Qin Pengda, Xu Weiran, Wang W Y. Robust distant supervision relation extraction via deep reinforcement learning [C]// Proc of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: ACL, 2018: 2137-2147.

[10]馮建周, 宋沙沙, 王元卓, 等. 基于改進(jìn)注意力機(jī)制的實(shí)體關(guān)系抽取方法 [J]. 電子學(xué)報(bào), 2019, 47(8): 1692-1700. (Feng Jianzhou, Song Shasha, Wang Yuanzhuo, et al. Entity relation extraction based on improved attention mechanism [J]. Acta Electro-nica Sinica, 2019, 47(8): 1692-1700.)

[11]Jat S, Khandelwal S, Talukdar P. Improving distantly supervised relation extraction using word and entity based attention[EB/OL]. (2018-04-19). https://arxiv.org/abs/1804.06987.

[12]Du Jinhua, Han Jingguang, Way A, et al. Multi-level structured self-attentions for distantly supervised relation extraction [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: ACL,2018:2216-2225.

[13]Huang Yuyun, Du Jinhua. Self-attention enhanced CNNs and collabo-rative curriculum learning for distantly supervised relation extraction [C]// Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg,PA: ACL, 2019: 389-398.

[14]Li Yang, Long Guodong, Shen Tao, et al. Self-attention enhanced selective gate with entity-aware embedding for distantly supervised relation extraction [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press, 2020: 8269-8276.

[15]Shang Yu-Ming, Huang Heyan, Sun Xin, et al. A pattern-aware self-attention network for distant supervised relation extraction [J]. Information Sciences, 2022, 584: 269-279.

[16]Wu Shanchan, He Shanchan. Enriching pre-trained language model with entity information for relation classification [C]// Proc of the 28th ACM International Conference on Information and Knowledge Management. New York: ACM Press, 2019: 2361-2364.

[17]Song Yan, Shi Shuming, Li Jing, et al. Directional skip-gram: explicitly distinguishing left and right context for word embeddings [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: ACL, 2018: 175-180.

[18]Ur R A, Belhaouari S B. Unsupervised outlier detection in multidimensional data [J]. Journal of Big Data, 2021, 8(1): 80.

[19]Gao Tianyu, Han Xu, Qiu Keyue, et al. Manual evaluation matters: reviewing test protocols of distantly supervised relation extraction [EB/OL]. (2021-05-20). https://arxiv.org/abs/2105.09543.

[20]Hoffmann R, Zhang Congle, Ling Xiao, et al. Knowledge-based weak supervision for information extraction of overlapping relations [C]// Proc of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: ACL, 2011: 541-550.

[21]Ye Zhixiu, Ling Zhenhua. Distant supervision relation extraction with intra-bag and inter-bag attentions [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: ACL, 2019: 2810-2819.

[22]季一木, 湯淑寧, 劉尚東, 等. 基于TransH的雙重注意力機(jī)制遠(yuǎn)程監(jiān)督關(guān)系抽取算法 [J]. 南京郵電大學(xué)學(xué)報(bào):自然科學(xué)版, 2022, 42(6): 70-78. (Ji Yimu, Tang Shuning, Liu Shangdong, et al. A dual attention mechanism based on TransH for distantly-supervised relation extraction [J]. Journal of Nanjing University of Posts and Telecommunications:Natural Science, 2022, 42(6): 70-78.)

[23]鄭志蘊(yùn), 徐亞媚, 李倫, 等. 融合位置特征注意力與關(guān)系增強(qiáng)機(jī)制的遠(yuǎn)程監(jiān)督關(guān)系抽取 [J]. 小型微型計(jì)算機(jī)系統(tǒng), 2023, 44(12):2678-2684. (Zheng Zhiyun, Xu Yamei, Li Lun, et al. Distantly supervised rlation extraction with position feature attention and relation enhancement [J]. Journal of Chinese Computer Systems, 2023, 44(12):2678-2684.)

[24]Sun Chengwei, Ji Weidong, Zhou Guohui, et al. FGSI: distant supervision for relation extraction method based on fine-grained semantic information [J]. Scientific Reports, 2023, 13(1): 14075.

猜你喜歡
降噪
ZL29纖維濾棒成型機(jī)降噪分析
語音信號(hào)的降噪研究
仿生耦合風(fēng)機(jī)葉片模型降噪與增效分析
科技傳播(2016年16期)2017-01-03 22:55:12
離心機(jī)械的工作原理及離心風(fēng)機(jī)降噪方式
永磁同步電機(jī)在拖動(dòng)系統(tǒng)中的應(yīng)用與降噪
空調(diào)噪音的來源、診斷和降噪研究
科技視界(2016年16期)2016-06-29 20:36:56
水下結(jié)構(gòu)覆蓋粘彈性材料的降噪復(fù)矢徑法分析
科技視界(2016年14期)2016-06-08 22:12:40
空調(diào)結(jié)構(gòu)設(shè)計(jì)對提高產(chǎn)品性能的影響研究
作用于飛機(jī)蒙皮的約束阻尼層降噪性能分析
科技視界(2015年28期)2015-10-14 11:20:11
聲襯拼縫對進(jìn)氣道降噪效果影響研究
科技視界(2015年26期)2015-09-11 13:52:15
丹阳市| 玉林市| 禄丰县| 恩施市| 额济纳旗| 个旧市| 黄浦区| 龙州县| 三穗县| 鄂托克前旗| 金塔县| 金山区| 信丰县| 浏阳市| 黄冈市| 旺苍县| 天门市| 东兴市| 陆丰市| 宣城市| 吕梁市| 昌宁县| 南漳县| 蕲春县| 稷山县| 岳池县| 淮北市| 图木舒克市| 罗甸县| 集贤县| 山丹县| 安庆市| 定结县| 肥西县| 綦江县| 台北市| 高碑店市| 永吉县| 靖州| 三原县| 策勒县|