吳 婷,孔 芳
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
伴隨信息時(shí)代的高速發(fā)展,互聯(lián)網(wǎng)給人們帶來便利的同時(shí)也產(chǎn)生數(shù)以萬計(jì)的數(shù)據(jù),并呈現(xiàn)指數(shù)增長的趨勢,給數(shù)據(jù)的存儲和處理造成困難。為了應(yīng)對信息爆炸帶來的挑戰(zhàn),迫切需要一種自動(dòng)內(nèi)容抽取的工具幫助人們快速從海量數(shù)據(jù)中挖掘出感興趣的信息。在這種背景下,信息抽取(Information Extraction,IE)應(yīng)運(yùn)而生[1]。信息抽取研究將非結(jié)構(gòu)化文本轉(zhuǎn)化為便于機(jī)器和程序理解的結(jié)構(gòu)化和半結(jié)構(gòu)化信息,并以數(shù)據(jù)庫的形式進(jìn)行存儲,以提高用戶的查詢效率,也可以為其他自然語言處理任務(wù)提供服務(wù)。
信息抽取研究從自然語言文本中抽取特定類型的事件和事實(shí)信息,通常把特定的事實(shí)信息稱為實(shí)體(Entity),如組織機(jī)構(gòu)(ORG)、人物(PER)等。實(shí)體關(guān)系抽取的目標(biāo)是根據(jù)給定的包含實(shí)體e1和e2的自然語言文本,識別出e1和e2之間的關(guān)系類型r。實(shí)體關(guān)系抽取作為信息抽取的一項(xiàng)重要子任務(wù),可應(yīng)用于自動(dòng)問答[2]、機(jī)器翻譯[3]、知識圖譜[4]等領(lǐng)域,受到了國內(nèi)外專家學(xué)者的廣泛關(guān)注。
目前實(shí)體關(guān)系抽取的相關(guān)研究多集中在句子級別[5-9],即只關(guān)注句內(nèi)兩個(gè)實(shí)體之間的關(guān)系,對跨句子的情況關(guān)注相對較少。而根據(jù)自然語言的表達(dá)習(xí)慣,實(shí)體對分別位于不同句子的情況也十分常見。早在2010年,Swampillai[10-11]等人統(tǒng)計(jì)了MUC和ACE 2003語料中跨句子關(guān)系的分布情況,分別對應(yīng)28.5%和9.4%,并于2011年基于SVM模型完成了初步嘗試。近幾年得益于深度學(xué)習(xí)的發(fā)展,Peng[12]等人于2017年提出了基于graph LSTM的跨句子關(guān)系抽取框架,并在生物領(lǐng)域的數(shù)據(jù)集上驗(yàn)證了該方法的有效性。此后,在文獻(xiàn)[12]基礎(chǔ)上的一些改進(jìn)工作相繼展開,跨句子實(shí)體關(guān)系抽取的問題再次進(jìn)入研究者視野。
目前的跨句子關(guān)系抽取模型多在文獻(xiàn)[12]的基礎(chǔ)上進(jìn)行改進(jìn),主要存在兩個(gè)問題:①跨句子的語料本身序列較長(DocRED中平均198個(gè)詞),LSTM在處理長距離依賴上存在局限性,尤其是在長序列中進(jìn)行信息傳遞時(shí)容易造成信息丟失;②全部采用生物領(lǐng)域的數(shù)據(jù)集,由于生物領(lǐng)域的特殊性和不同領(lǐng)域之間的差異性,生物領(lǐng)域的研究雖對其他領(lǐng)域具有借鑒意義,但仍然缺乏通用領(lǐng)域的相關(guān)嘗試。
針對問題①,本文采用一個(gè)融入了上下文信息的上下文圖卷積(Context Graph Convolutional Network,C-GCN)模型解決長距離依賴不足以及信息丟失的問題;同時(shí),為了對不同依賴特征加以區(qū)分,提出多頭圖注意力卷積模型(Multi-head Attention Graph Convolutional Network,Multi-GCN)進(jìn)行動(dòng)態(tài)剪枝優(yōu)化。針對問題②,我們分別在新聞?lì)I(lǐng)域DocACE(作者借助同指信息在新聞?lì)I(lǐng)域的ACE 2005數(shù)據(jù)集中構(gòu)建了跨句子關(guān)系數(shù)據(jù)集)和通用領(lǐng)域的DocRED數(shù)據(jù)集[13]上進(jìn)行實(shí)驗(yàn),結(jié)果表明了本文方法的有效性。
本文的主要工作包括:首先針對目前文檔級關(guān)系抽取任務(wù)存在的長距離依賴不足、不能較好地利用同指、句法信息等問題,通過構(gòu)建圖注意力卷積模型提高了關(guān)系抽取的性能;然后針對目前跨句子關(guān)系抽取任務(wù)集中在生物領(lǐng)域的應(yīng)用現(xiàn)狀,利用同指信息與相應(yīng)的篩選策略,對ACE 2005數(shù)據(jù)集中的跨句子關(guān)系進(jìn)行補(bǔ)充,從一定程度上填補(bǔ)了新聞?lì)I(lǐng)域語料不足的空白。
跨句子關(guān)系抽取的工作可以追溯到2010年,Swampillai[10]對MUC和ACE 2003兩個(gè)數(shù)據(jù)集進(jìn)行統(tǒng)計(jì),其中跨句子關(guān)系的分布對應(yīng)分別為28.5%和9.4%,如果不進(jìn)行跨句子關(guān)系抽取的工作,在MUC數(shù)據(jù)集上最高僅能做到71.5%。在2011年,Swampillai[11]嘗試用SVM模型進(jìn)行跨句子關(guān)系抽取,并提出了其相對句內(nèi)關(guān)系抽取所面臨的挑戰(zhàn),如數(shù)據(jù)稀疏、句法分析樹不能直接利用等問題。隨著遠(yuǎn)程監(jiān)督在實(shí)體關(guān)系抽取任務(wù)中的有效應(yīng)用,Quirk[14]等人于2017年借助遠(yuǎn)程監(jiān)督生成了生物領(lǐng)域的跨句子關(guān)系抽取數(shù)據(jù)集,為后續(xù)的一系列研究奠定了基礎(chǔ)。同年,Peng[12]等人提出graph LSTM模型在上述生物語料上進(jìn)行跨句子關(guān)系抽取,核心是借助依存句法分析將文檔表示成文檔圖(document graph),為了簡化和避免形成環(huán),他們把一篇文檔表示成前向和后向的兩個(gè)圖??紤]到把依存樹進(jìn)行拆分會造成信息損失,Song[15]等人于2018年在Peng[12]基礎(chǔ)上編碼拆分前的圖結(jié)構(gòu),實(shí)驗(yàn)證明,直接拆分會對性能造成不利影響。Song[15]等人在完整的圖結(jié)構(gòu)基礎(chǔ)上進(jìn)一步改進(jìn),提出Graph State LSTM模型,將模型從二維空間擴(kuò)展到三維空間,實(shí)現(xiàn)了詞與同一時(shí)刻的鄰居的、不同時(shí)刻的自身的信息交換。
Gupta[16]等人于2019年提出iDepNN模型,分別基于最短依存路徑(SDP)和子樹的增廣依存路徑(ADP)兩類特征進(jìn)行建模。與前面的工作不同,該工作采用新聞?lì)I(lǐng)域的MUC6數(shù)據(jù)集和生物領(lǐng)域的BioNLP ST 2016數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并對MUC6數(shù)據(jù)集中的跨句子關(guān)系進(jìn)行了標(biāo)注。
Verge[17]等人的工作是目前唯一不用圖模型的工作,通過引入改進(jìn)的Transformer模型來解決長序列的問題,并采用多示例學(xué)習(xí)對數(shù)據(jù)進(jìn)行降噪。在文獻(xiàn)[17]工作的基礎(chǔ)上,Sahu[18]等人通過用GCN替換Transformer模型,進(jìn)一步解決了依賴捕獲不足的問題,兩份工作均在生物領(lǐng)域的CDR、CHR數(shù)據(jù)集上進(jìn)行。
通過前面的分析可以看出,跨句子關(guān)系抽取的研究幾乎都集中在生物領(lǐng)域,因此,我們嘗試?yán)猛感畔π侣勵(lì)I(lǐng)域的ACE 2005數(shù)據(jù)集進(jìn)行跨句子關(guān)系的擴(kuò)充,構(gòu)建了DocACE數(shù)據(jù)集。構(gòu)造數(shù)據(jù)集的想法與Yao[13]等人的工作不謀而合,他們于2019年發(fā)布了DocRED數(shù)據(jù)集,該數(shù)據(jù)集與ACE 2005的標(biāo)注比較相似,但是在領(lǐng)域覆蓋上較前者更豐富,同時(shí)提供了標(biāo)注和遠(yuǎn)程監(jiān)督兩個(gè)版本的數(shù)據(jù)。無論從領(lǐng)域遷移還是遠(yuǎn)程監(jiān)督降噪的角度進(jìn)行考慮,該數(shù)據(jù)集都為相關(guān)研究的開展提供了可能。因此,本文的重點(diǎn)工作也將在該數(shù)據(jù)集上進(jìn)行。
為了支持跨句子關(guān)系抽取的研究,Yao[13]等人于2019年發(fā)布了DocRED數(shù)據(jù)集,同時(shí)給出了關(guān)系抽取的幾個(gè)常用模型在該數(shù)據(jù)集上的表現(xiàn)。根據(jù)論文以及線下測試的結(jié)果,本文選取BiLSTM模型作為基準(zhǔn)模型。
關(guān)系抽取的通常做法是將實(shí)體關(guān)系抽取任務(wù)看作是分類問題,基準(zhǔn)模型仍然沿用這個(gè)思路。給定一篇文檔d,[w1,w2,…,wn]為文檔d中的第1,2,…,n個(gè)詞,e1和e2是d中的兩個(gè)實(shí)體??缇渥雨P(guān)系抽取的模型以(e1,e2,d)作為輸入,并且返回e1與e2之間的關(guān)系。
基準(zhǔn)模型包括輸入層、編碼層和分類三部分,下面分別進(jìn)行介紹。
(2)編碼層:采用BiLSTM模型對向量化的詞序列w1,w2,…,wn進(jìn)行編碼,將前向LSTM與后向LSTM的隱層向量拼接,進(jìn)而得到融入上下文信息的序列h1,h2,…,hn。針對某一時(shí)刻t,隱藏層節(jié)點(diǎn)ht的計(jì)算與更新如式(1)~式(3)所示。
(1)
ct=ft*ct-1+it*gt
(2)
ht=ottanh(ct)
(3)
其中,ft、it、ot分別對應(yīng)遺忘門、輸入門與輸出門,gt為單元新值張量,xt為t時(shí)刻的輸入。ct、ht為狀態(tài)張量、隱層輸出。W(.)與b(.)分別為權(quán)重矩陣和偏置項(xiàng)。
(3)分類:從編碼得到的文本表征中提取出實(shí)體表征ei和ej,與距離特征dij、dji拼接后進(jìn)行雙線性變換。最后,經(jīng)過sigmoid函數(shù)算出每種類別的概率,從中選出概率最大的作為實(shí)體對間的關(guān)系,如式(4)~式(7)所示。
(4)
(5)
(6)
(7)
與句內(nèi)關(guān)系抽取相比,跨句子關(guān)系抽取面臨更多的挑戰(zhàn):首先是序列長度較前者有明顯的變化,而BiLSTM在捕獲長距離依賴方面具有局限性;其次,Peng[12]等人在進(jìn)行跨句子關(guān)系抽取時(shí)利用了30多種特征,可見該任務(wù)需要考慮更全面的信息,即充分利用句內(nèi)依賴與句間依賴;最后,文獻(xiàn)[19]證明了句法信息在句子級關(guān)系抽取任務(wù)中的有效性,基準(zhǔn)模型缺乏對句法信息的考慮。針對上面提到的問題,本文在BiLSTM獲取上下文信息的基礎(chǔ)上,引入圖卷積(Graph Convolutional Network,GCN)模型來加入句法、同指等特征,便于捕獲局部和全局依賴信息,如圖1所示。
圖1 基于依賴圖的BiLSTM-GCN模型
與基準(zhǔn)模型相比,本文并非在輸入層簡單地編碼同指特征,而是利用圖卷積對具有同指關(guān)系的單詞編碼進(jìn)行迭代更新。首先把一篇文檔表示為圖G(V,E),其中,V表示頂點(diǎn)集合,E表示邊集合。本文中頂點(diǎn)對應(yīng)文檔中的單詞,邊對應(yīng)不同詞之間的關(guān)系依賴,如依存關(guān)系、同指信息、相鄰邊等。為了避免引入過多特征產(chǎn)生過擬合的問題,本文借鑒Vashishth[20]等人的工作,采用一種簡化的GCN模型,下面對該部分進(jìn)行介紹。
2.2.1 建圖
為了將文檔轉(zhuǎn)化為圖表示,本文以詞為頂點(diǎn)選取如下4種依賴特征,對應(yīng)圖1中GCN的輸入部分的不同類型的邊。
(1)依存關(guān)系邊:作為語法特征,依存關(guān)系在關(guān)系抽取任務(wù)中得到了廣泛應(yīng)用[19]。為了豐富句內(nèi)信息,通過依存關(guān)系獲取句內(nèi)局部依賴。借鑒Vashishth[20]的工作,為了簡化模型,我們不區(qū)分依存類型,只區(qū)分方向。
(2)同指依賴邊:作為篇章級任務(wù),同指可以有效捕獲局部依賴和全局依賴。為了縮短詞之間的距離,減少信息遠(yuǎn)距離傳輸中的損失,在圖中引入同指依賴邊。
(3)相鄰邊:跨句子關(guān)系抽取要考慮不同句子的實(shí)體對之間的關(guān)系,為了對同指覆蓋不到的全局依賴進(jìn)行補(bǔ)充,本文借助虛根對相鄰句的依存句法樹的根(root)節(jié)點(diǎn)進(jìn)行橋接,縮短相鄰句子間實(shí)體的距離。
(4)自反邊:在GCN模型中,每個(gè)節(jié)點(diǎn)可以學(xué)到其鄰居的信息,為了防止丟失節(jié)點(diǎn)自身攜帶的信息,為每個(gè)節(jié)點(diǎn)添加一個(gè)指向自身的自反邊。
2.2.2 GCN層
(8)
在2.2節(jié)的BiLSTM-GCN模型中,采用5種特征(依存關(guān)系具有方向性)進(jìn)行建圖,充分利用了局部和非局部的依賴。但是,這種建圖方式對不同類型的依賴(如同指、相鄰句)給予同等的關(guān)注,而根據(jù)直觀感受,同指相比相鄰句會更重要一點(diǎn)。由于不同依賴對關(guān)系抽取的貢獻(xiàn)程度不同,本文提出一種基于圖注意力卷積模型(BiLSTM-Multi-GCN)的動(dòng)態(tài)篩選策略進(jìn)行特征優(yōu)選。
注意力機(jī)制(Attention)可以滿足對不同類型區(qū)別對待的需求,而多頭自注意力機(jī)制(Multi-head Attention)可以將模型劃分為多個(gè)子空間,幫助模型關(guān)注不同方面的信息。因此,為了對類型特征加以區(qū)分,同時(shí)考慮多層次信息,本文將GCN與Multi-head Attention進(jìn)行結(jié)合稱為圖注意力卷積模型(Multi-GCN),用以替換圖1模型中的GCN部分,下面只對修改部分進(jìn)行展開,其他模塊同2.1節(jié),此處不再贅述。
2.3.1 Multi-GCN層
出于對不同類型特征的關(guān)注不同,本文提出一種基于圖注意力卷積模型的篩選策略對特征進(jìn)行優(yōu)選,下面給出Multi-GCN的細(xì)節(jié)圖,如圖2所示。
圖2 Multi-GCN細(xì)節(jié)圖
(9)
在每個(gè)head內(nèi)部,對鄰接張量的最后一維(依賴關(guān)系對應(yīng)的維度)進(jìn)行注意力計(jì)算,對不同的關(guān)系類型分配不同的權(quán)重。假設(shè)節(jié)點(diǎn)i與節(jié)點(diǎn)j之間的關(guān)系矩陣為[1 1 0 0 0],經(jīng)過注意力計(jì)算后關(guān)系矩陣變?yōu)閇0.5 0.3 0.06 0.1 0.04]。這樣會存在一個(gè)問題,節(jié)點(diǎn)i與j之間原本沒有第3、4、5種關(guān)系,但是經(jīng)過注意力計(jì)算后,節(jié)點(diǎn)間存在了上述3種關(guān)系。因此,我們使用一個(gè)掩碼矩陣,將最終的關(guān)系矩陣變?yōu)閇0.5 0.3 0.0 0.0 0.0],新的鄰接圖是對k種依賴邊的貢獻(xiàn)度調(diào)和的結(jié)果。
hm=Wmhm_h+bm
(10)
其中,hm為經(jīng)過Multi-GCN層之后的隱層輸出,Wm、bm為模型參數(shù)。
眾所周知,關(guān)系抽取是偏向語義層的任務(wù),即在不理解語義的基礎(chǔ)上很難有效地解決問題。預(yù)訓(xùn)練的BERT模型從大規(guī)模的無監(jiān)督語料中學(xué)到了許多先驗(yàn)知識,比如語言本身的邏輯規(guī)律等。BERT編碼了豐富的語言學(xué)層次信息:底層網(wǎng)絡(luò)關(guān)注淺層特征,中層網(wǎng)絡(luò)傾向于句法信息,語義特征集中在高層網(wǎng)絡(luò)[21]。另一方面,隨著序列長度的增加,BiLSTM長距離依賴捕獲不足的問題更加嚴(yán)重。因此,我們嘗試用BERT代替BiLSTM進(jìn)行編碼,并在此基礎(chǔ)上引入2.2節(jié)和2.3節(jié)的GCN與Multi-GCN模型,設(shè)置對比實(shí)驗(yàn)。其中,GCN與Multi-GCN的細(xì)節(jié)見2.2節(jié)和2.3節(jié),此處不再贅述。
實(shí)驗(yàn)選用的語料包括兩個(gè):①清華大學(xué)發(fā)布的DocRED語料;②我們借助同指擴(kuò)展ACE 2005語料得到的DocACE語料。兩個(gè)語料都涵蓋跨句的情況,為文檔級關(guān)系抽取任務(wù)的開展提供數(shù)據(jù)支撐。下面對兩個(gè)語料進(jìn)行介紹。
(1)針對DocRED語料,本文目前只考慮有監(jiān)督標(biāo)注的數(shù)據(jù)部分,暫時(shí)未涉及遠(yuǎn)程監(jiān)督部分。DocRED共計(jì)標(biāo)注5 053篇維基百科文檔,132 392個(gè)實(shí)體和63 443個(gè)實(shí)體關(guān)系。本文采用與基準(zhǔn)模型相同的實(shí)驗(yàn)設(shè)置,將數(shù)據(jù)集劃分為訓(xùn)練集3 053篇,驗(yàn)證集和測試集各1 000篇,如表1所示。
表1 DocRED數(shù)據(jù)集統(tǒng)計(jì)
(2)在ACE 2005中,英文語料共計(jì)599篇,涵蓋6種不同形式的新聞?lì)}材(廣播、新聞、廣播對話等)。對于ACE語料、普遍沿用Li[22]2014年的數(shù)據(jù)集劃分方法,刪除CTS(Conversational Telephone Speech)和UN(Usenet Newsgroups/Discussion Forum)兩種形式的語料(篇數(shù)太少,共88篇),將剩余的511篇語料劃分為訓(xùn)練集(351)、驗(yàn)證集(80)、測試集(80),如表2所示。
表2 ACE 2005數(shù)據(jù)集統(tǒng)計(jì)
對于關(guān)系抽取問題,本文采用F1值作為最終的評價(jià)指標(biāo),相關(guān)定義如式(11)所示。
(11)
其中,準(zhǔn)確率(Precision)和召回率(Recall)的定義為:
模型訓(xùn)練以整個(gè)文檔為單位,通過預(yù)訓(xùn)練的詞向量將輸入轉(zhuǎn)換為低維稠密表示,首先基于BiLSTM或者BERT模型獲取包含語境的序列信息,然后將該序列表示送入GCN或者M(jìn)ulti-GCN中融入圖結(jié)構(gòu),完成鄰域信息交換。最后,將包含上下文信息與鄰域信息的實(shí)體表征與距離向量進(jìn)行拼接,送入雙線性變換,經(jīng)sigmoid函數(shù)得到預(yù)測概率分布。其中,詞向量維度為100,BiLSTM隱層輸出維度為128,Multi-GCN中head個(gè)數(shù)為2。模型采用交叉熵作為損失函數(shù),定義如式(14)所示。
(14)
我們首先分析在所有依賴特征(詳見2.2.1節(jié))建圖基礎(chǔ)上,GCN層數(shù)對任務(wù)性能的影響。然后,通過消融實(shí)驗(yàn),對不同特征進(jìn)行分析,找出文檔級關(guān)系抽取任務(wù)的有效特征組合。下面給出表格中相關(guān)符號的說明:
(1)特征:采用詞向量、同指信息、實(shí)體類型和實(shí)體間的距離信息作為基準(zhǔn)特征,記為Ⅰ;建圖特征包括依存信息、同指依賴、相鄰句和自反邊,記為Ⅱ,詳見2.2.1節(jié);基準(zhǔn)特征去掉同指信息記為Ⅲ;
(2)模型:① BiLSTM;② BiLSTM-GCN;表3 給出了BiLSTM-GCN與BiLSTM基準(zhǔn)模型的結(jié)果,通過實(shí)驗(yàn)1與實(shí)驗(yàn)2的對比,驗(yàn)證了引入圖信息的有效性。通過設(shè)置2、3、4、5的對比實(shí)驗(yàn),說明GCN層數(shù)對模型效果是有影響的,在DocRED語料中3層效果最好,而DocACE中1層效果最好,這種現(xiàn)象是由語料的序列長度存在差異造成的。在DocRED語料中,序列的平均長度為198,而DocACE中的平均長度為66,在序列較短時(shí),GCN層數(shù)的增加,會導(dǎo)致節(jié)點(diǎn)學(xué)到的信息冗余,不同節(jié)點(diǎn)攜帶的信息基本一致,不利于描述節(jié)點(diǎn)的特異性。
表3 BiLSTM-GCN與BiLSTM模型的結(jié)果
表4給出BiLSTM-GCN模型的消融實(shí)驗(yàn)的結(jié)果,通過采用不同特征進(jìn)行建圖,驗(yàn)證了不同特征對跨句子關(guān)系抽取任務(wù)的重要性。其中,建圖特征表示在建圖時(shí)利用2.2.1節(jié)提到的4種特征。
表4 消融實(shí)驗(yàn)
在句子級關(guān)系抽取中,類似于句法等局部依賴在任務(wù)中扮演重要的角色[19]。根據(jù)表4中的數(shù)據(jù),在去掉同指依賴(8)和相鄰句依賴(9)時(shí),性能具有明顯的下降趨勢,表明在文檔級的關(guān)系抽取任務(wù)中,同指等全局依賴的重要性逐漸凸顯,在一定程度上反映了文檔級與句子級的關(guān)系抽取任務(wù)之間的差別。
在兩個(gè)語料中同指和相鄰句的實(shí)驗(yàn)結(jié)果比較一致,而依存邊則存在較大的差異。為了對此進(jìn)行分析,我們統(tǒng)計(jì)了兩個(gè)語料中的跨句子情況分布以及依存深度,DocRED中跨句子占比為77.57%,DocACE中跨句子占比為48.65%,語料分布差別較大。在依存深度方面,兩個(gè)語料中均在深度為2處達(dá)到峰值,DocRED的平均深度為1.660,DocACE的平均深度為1.687,差別也不是那么明顯。因此,依存深度不是造成該現(xiàn)象的主要原因。另一方面,我們通過斯坦福工具(1)https://github.com/Lynten/stanford-corenlp獲取自動(dòng)句法,其中DocACE為新聞?lì)I(lǐng)域的語料,而DocRED包括但不局限于新聞?lì)I(lǐng)域。新聞?lì)I(lǐng)域的文本格式相對規(guī)范,句法分析的結(jié)果具有更高的可靠性。綜上,我們推測兩個(gè)語料上句法分析的性能、語料分布的差異對實(shí)驗(yàn)結(jié)果造成了一定的影響。
與4.1節(jié)的BiLSTM-GCN模型相比,BiLSTM-Multi-GCN模型在前面基礎(chǔ)上引入Multi-head Attention,進(jìn)而對不同的依賴特征加以區(qū)分,實(shí)驗(yàn)結(jié)果如表5所示。
表5 三種模型的實(shí)驗(yàn)結(jié)果
如表5所示,實(shí)驗(yàn)10與實(shí)驗(yàn)11的對比表明,圖卷積模型可以捕獲相對復(fù)雜的依賴信息,對基準(zhǔn)模型中長距離依賴不足的問題加以彌補(bǔ)。實(shí)驗(yàn)11與實(shí)驗(yàn)12對比表明,對不同依賴特征給予同等關(guān)注的做法有失偏頗,在不同任務(wù)中甚至是同一任務(wù)的不同時(shí)期(句子級、文檔級),對特征的依賴是變化的。通過對比DocRED語料上的實(shí)驗(yàn)結(jié)果,證明了本文提出的動(dòng)態(tài)調(diào)整策略的有效性,這在其他任務(wù)中也是具備借鑒意義的。而DocACE上效果不明顯可能是由語料規(guī)模決定的,隨著Multi-GCN的引入,模型的參數(shù)逐漸增多,語料規(guī)模的局限性也更加明顯。
與BiLSTM相比,BERT能更好地捕獲高層的語義信息,同時(shí),BERT采用的自注意力機(jī)制在捕獲長距離依賴時(shí)更具優(yōu)勢。因此,本節(jié)用BERT替換基準(zhǔn)模型中的BiLSTM進(jìn)行實(shí)驗(yàn),并給出在BERT基礎(chǔ)上引入GCN、Multi-GCN的實(shí)驗(yàn)結(jié)果,如表6所示。
表6 BERT及引入GCN、Multi-GCN的結(jié)果
從表6可以看出,采用2.2.1節(jié)的4種特征進(jìn)行建圖影響了性能,可能是因?yàn)镚CN中的依存關(guān)系與BERT的中層編碼的句法知識出現(xiàn)冗余。采用大規(guī)模語料進(jìn)行預(yù)訓(xùn)練,雖然無監(jiān)督的數(shù)據(jù)沒有標(biāo)簽,但語言本身是有邏輯規(guī)律存在的。因此,BERT對句法知識的把握或許更全面,這一點(diǎn)在實(shí)驗(yàn)16中得到了很好的印證。
在本文設(shè)計(jì)的實(shí)驗(yàn)中,詞向量維度、隱層數(shù)目、學(xué)習(xí)率與優(yōu)化器都選用與基準(zhǔn)模型相同的設(shè)置。為了驗(yàn)證多頭注意力機(jī)制中頭(head)的數(shù)目對實(shí)驗(yàn)結(jié)果的影響,我們采用BiLSTM-Multi-GCN在DocRED語料上設(shè)置了對比實(shí)驗(yàn)(表7)。
表7 不同head的實(shí)驗(yàn)結(jié)果
上述結(jié)果表明,在head數(shù)目為2時(shí),實(shí)驗(yàn)效果最好。
本文基于文檔級關(guān)系抽取語料,針對基準(zhǔn)模型BiLSTM存在的某些問題,對編碼部分進(jìn)行改進(jìn),實(shí)驗(yàn)結(jié)果印證了方法的有效性。本文的主要貢獻(xiàn)如下:
(1)借助同指信息,對ACE2005語料進(jìn)行擴(kuò)展,與DocRED語料上的實(shí)驗(yàn)結(jié)果進(jìn)行對比分析;
(2)針對基準(zhǔn)模型中存在長句子依賴與句法信息捕獲不足的問題,本文嘗試引入圖信息,并借助GCN模型捕獲鄰域信息。借助消融實(shí)驗(yàn),分析不同的特征組合對關(guān)系抽取任務(wù)的影響,進(jìn)一步引發(fā)對任務(wù)本身的一些思考;
(3)為了區(qū)分不同特征對文檔級關(guān)系抽取任務(wù)的貢獻(xiàn)度,本文將GCN模型與Multi-head Attention進(jìn)行有機(jī)結(jié)合,形成Multi-GCN。一方面,可以從多層面、多角度獲取信息;另一方面,通過調(diào)整不同特征的比重實(shí)現(xiàn)動(dòng)態(tài)的特征優(yōu)選。
目前的關(guān)系抽取任務(wù)多集中在句子級別,對文檔級關(guān)系抽取的關(guān)注相對缺乏。與句內(nèi)關(guān)系抽取相比,文檔級關(guān)系抽取將面臨更多的挑戰(zhàn)。隨著抽取范圍的擴(kuò)大,候選實(shí)體對的數(shù)目激增,而經(jīng)驗(yàn)與統(tǒng)計(jì)數(shù)據(jù)表明,大部分情況下的候選實(shí)體對之間是沒有關(guān)系的。因此,對候選實(shí)體對的篩選可以引入以后的工作中。另一方面,對句間依賴的處理方式過于簡單,目前只通過連接相鄰句子中依存句法的根節(jié)點(diǎn)實(shí)現(xiàn),下一步考慮將篇章關(guān)系引入,使用句子間的邏輯修辭關(guān)系對句間依賴做進(jìn)一步補(bǔ)充,挖掘篇章的內(nèi)在邏輯關(guān)系。