楊超男,彭敦陸
(上海理工大學 光電信息與計算機工程學院,上海 200093)
Email:pengdl@usst.edu.cn
作為自動抽取信息的中心任務,關系抽取旨在確定一對實體提及之間的關系,它被證明對自然語言理解和其他下游任務很有用.隨著技術的不斷進步以及對關系抽取研究的不斷深入,對文檔中關系抽取的需求迅速提高.文檔中蘊含的豐富知識不僅有助于快速精準的了解文檔的關鍵信息,而且對現(xiàn)階段社交網(wǎng)絡的構建提供了強有力的幫助,因此,面向文檔的關系抽取成為了自然語言處理等眾多領域的基礎研究.
迄今,國內外眾多科研學者們提出了關于實體關系抽取的一系列方法.但是,將現(xiàn)有的神經網(wǎng)絡模型擴展到文檔級實體關系抽取任務中,至少存在以下不足:
首先,區(qū)別于傳統(tǒng)的句子級別的實體關系抽取,由于文檔的邏輯結構更復雜,內部語義也更加豐富,很顯然文檔級的關系抽取難度有了很大的提升.其次,大多數(shù)的關系抽取模型都是對整個句子進行建模,不能差異化的構建跨多個句子具有復雜邏輯結構的關系特征,從而導致模型的效率低下.綜上所述,結合現(xiàn)階段實體關系抽取任務中存在的一些問題,可以發(fā)現(xiàn)文檔級實體關系抽取方法的有效構建對于提升自然語言理解技術有很大的價值.
本文的貢獻如下:1)將BSRU模型運用于文檔級實體關系抽??;2)提出了結合多條最短依賴路徑對關系特征建模的方法;3)最后,在膠囊網(wǎng)絡中引入了注意力機制,提高模型預測的精準性.
近年來,神經網(wǎng)絡模型在實體關系抽取的相關任務中發(fā)揮著越來越重要的作用,與傳統(tǒng)的方法相比,神經網(wǎng)絡抽取模型在學習的特征表示方面更加完整,效率上也更加高效便捷.常見的神經網(wǎng)絡關系抽取模型有循環(huán)神經網(wǎng)絡模型,如Socher等[1]人提出的遞歸矩陣向量模型,通過對句子中實體間的最短依賴路徑建模來進行句子內部的關系抽取;Geng等[2]人提出的基于雙向樹狀結構的長短時記憶的注意力模型,用于抽取依賴樹中的語義關系特征.Peng等[3]人和Song等[4]人提出了基于圖的長短時記憶網(wǎng)絡模型,用于關聯(lián)蛋白質藥物疾病的多個句子中的n元關系抽取,但是實體被限制在最多兩個跨度的句子中.
隨著膠囊網(wǎng)絡被用來改善CNN和RNN的表示限制,越來越多的人將它應用于自然語言處理任務中.Wang 等[5]人首次嘗試在循環(huán)神經網(wǎng)絡的基礎上使用膠囊進行情感分析,但是,它們沒有采用路由算法,因此極大地限制了膠囊的功能;Gong 等[6]人提出了兩種動態(tài)路由方法,他將RNN / CNN編碼層的輸出進行特征的融合,以此表示模型最終的編碼向量;Zhang 等[7]人提出了一個多標簽關系抽取的膠囊網(wǎng)絡模型,用于解決單個句子中實體在不同關系中的重疊特征.
Shahroudnejad等[8]人提出了一個并行的多路徑膠囊網(wǎng)絡模型PathCapsNet,它使用了3個子網(wǎng)絡來抽取輸入特征,并利用膠囊層來建立相關特征之間的關系.
然而,上述這些方法限制了捕獲長跨度句子中實體語義信息,并且它們不能從關系示例中提取一些新的有效特征.為了解決上述問題并提高模型的訓練效率,本文提出了一種將雙向簡單循環(huán)神經網(wǎng)絡[9]與融合注意力機制的膠囊網(wǎng)絡[10]相結合實體關系抽取模型.接下來的部分將詳細介紹本文提出的融合模型的具體實現(xiàn)過程.
模型的基本框架如圖1所示.對于給定兩個實體,在依存樹中唯一確定一條最短依賴路徑,而一篇文檔中由于每一個實體都存在若干個共指,因此能夠確定類似的最短依賴路徑m條.接著,將最短依賴路徑的所有詞映射為詞嵌入、依賴嵌入、共指嵌入及實體類型向量,拼接后輸入到BSRU 中,其中,BSRU模型負責深入學習文本中實體對關系的語義特征和上下文信息特征.已有文獻研究了對最短依賴路徑建模進行關系預測的合理性[11],本文基于此對最短依賴路徑進行關系建模,同時通過注意力機制給每條路徑上學習到的關系特征分配不同權重,優(yōu)化蘊含在文檔中復雜邏輯結構的實體關系表示.隨后,將最短依賴路徑上的詞向量和新學習到的關系向量傳給CapsNet 模型,得到高級關系膠囊,最后將預測的概率與關系類別標簽對應,完成本文的文檔級別的關系抽取任務.
圖1 基于 BSRU 和 CapsNet 模型的框架圖(e1k,e2k分別是e1,e2的共指)
多項研究表明,依存句法分析可以優(yōu)化關系抽取的性能[12,13].在文檔級關系抽取任務中,本文發(fā)現(xiàn)目標實體之間的最短依賴路徑為確定跨句子之間目標實體對的關系提供了證據(jù).
本文首先利用stanford corenlp解析器[14]將文檔解析為依賴關系樹,將最短依賴關系路徑作為本文模型的輸入.具體如下:跨句子的實體關系可以通過對從端點實體e1k到“公共根”,再從“公共根”到端點實體e2k構成的最短依賴路徑建模.假設實體e1k到實體e2k的最短依賴路徑上的文本{wk1,wk2,…,},單詞嵌入xi由4個部分組成,分別為詞嵌入wdi、依賴嵌入dpi、共指嵌入cfi及實體類型嵌入tpi.
xi=[wdi;dpi;cfi;tpi]
(1)
其中,[;]代表向量的拼接.則此最短依賴路徑的文本就可以表示為 S =[x1,x2,…,xi,…,xl]T.這里,xi對應最短路徑中第i個詞的向量.
LSTM模型解決了文本中長距離語義依賴的問題,但是由于當前節(jié)點的計算必須依賴上一步計算,為了簡化模型的狀態(tài)計算過程,實現(xiàn)和卷積神經網(wǎng)絡相同的并行性,Lei等人提出了簡單循環(huán)單元SRU.區(qū)別于傳統(tǒng)的循環(huán)神經網(wǎng)絡,SRU通過在循環(huán)層增加Skip Connection1保證網(wǎng)絡模型的有效性,同時在傳統(tǒng)的dropout外,增加了Variational dropout2,提高網(wǎng)絡模型的訓練效率.鑒于此,為了更高效的學習文本的雙向語義關系,本文使用 BSRU模型來學習目標實體的上下文語義信息,SRU原理圖如圖2所示.
圖2 SRU原理圖
圖2中,SRU的內部主要包括3個門結構:遺忘門結構f、重置門結構r、輸出門結構h.SRU網(wǎng)絡模型的計算方式如下所示:
g(t)=Wxt
(2)
ft=σf(Wfxt+bf)
(3)
rt=σr(Wrxt+br)
(4)
ct=ft⊙ct-1+(1-ft)⊙g(t)
(5)
ht=rt⊙g(ct)+(1-rt)⊙xt
(6)
其中,xt代表t時刻的輸入,ct代表t時刻的細胞狀態(tài),σ、g都代表激活函數(shù),⊙表示向量對應位置元素的乘積.
此外,為了學習雙向的語義特征,這里將SRU正反兩個方向的存儲單元隱藏狀態(tài)向量hri連接起來,作為輸出向量hri∈R2B,其中B表示SRU隱藏向量的維數(shù),即:
(7)
由上文可知,實體間的最短依賴路徑存在若干條,而每條路徑表示的關系特征的重要程度顯然是不一樣的.通過差異化每條最短依賴路徑對關系特征構建的重要程度,從而使得模型學習到多樣化的關系特征.
具體方式如下:在模型中,將多條路徑表示的包含多種信息特征的上下文向量矩陣輸入進Global Attention 中,將每條路徑表示的關系語義與最短路徑表示的關系語義進行相似度計算,然后經過加權求和計算出每條路徑對最終關系表示的貢獻度,即注意力值或權重.注意力值越高的路徑,則其對推斷出實體對之間關系就越重要,進而減少無關并列路徑對實體關系抽取干擾的影響.對應的權重αi,可以通過下式計算:
(8)
score(Dr,hri)=Uσ(W[Dr;hri])
(9)
公式中,W、U是權重矩陣,T表示轉置運算,m表示文檔中實體e1(及其提及)到實體e2(及其提及)存在的最短依賴路徑的條數(shù),score代表得分函數(shù),Dr表示m條最短依賴路徑中最短的一條路徑表示的關系嵌入,hri表示第i條最短依賴路徑上表示的關系特征,hr目標關系特征.
然后根據(jù)權重,求出加權之后的關系表示hr,即:
(10)
算法1.動態(tài)路由算法
輸入:低級膠囊u,迭代次數(shù)n,對最短依賴路徑建模的關系表示hr和隱藏層狀態(tài)ht
輸出:高級膠囊r
1.for所有的膠囊ui和膠囊rjdo
2. 初始化耦合系數(shù)
3. bij=0
4.endfor
5.for迭代次數(shù)ndo
6.wi=softmax(bi),?ui∈u
7.αi=σ(hTrhit),?ui∈u
8.rj=Squash(∑iwijαiWjui),?rj∈r
9.bij=bij+Wjuirj,?ui∈u且?rj∈r
10.endfor
在本文的關系抽取任務中,使用膠囊網(wǎng)絡對BSRU抽取的底層的語義信息進行更深層次的學習,豐富特征語義的表達.倘若使用u∈Rdl表示低層膠囊,則每一個單詞由k個低層膠囊表示,即該單詞就有k個屬性.而高級膠囊由多個維度的低級膠囊組成,具體表示如公式(11)所示.
(11)
(12)
當多個預測結果一致時,更高級別的膠囊就會生效.高級膠囊r∈Rdh根據(jù)下面等式(13)計算.
(13)
其中,wij表示耦合系數(shù),Wj∈Rdh×dl是權重矩陣.Squash函數(shù)代表激活函數(shù),它的作用是在保證向量方向的同時將輸出向量的模長控制在0-1之間,公式(13)中的耦合系數(shù)wij計算方式如下(15):
(14)
為了量化最短依賴路徑上每個單詞對判斷實體對關系的影響,模型又將各個單詞隱藏狀態(tài)輸入進Global Attention 中,把單詞隱藏狀態(tài)的語義與BSRU模型輸出的最終的關系語義進行相似度計算,求出注意力值,即:
(15)
具體的關系抽取步驟如算法1所示.
這里根據(jù)算法1得到的高級膠囊rj計算第j個關系的損失函數(shù),計算如公式(17):
Lj=Yjmax(0,(B+γ)-‖rj‖)2+λ(1-Yj)max(0,‖rj‖-(B-γ))2
(16)
其中,Yj代表是否是關系j,取值為0或1,γ是超參數(shù),B是可學習變量,λ是損失權重,與Sabour等人提出的損失[13]一致.需要注意的是,實體對關系在文檔中的總損失是預測的所有關系損失之和.在預測關系過程中,如果預測的關系標簽概率大于閾值B時,將為其分配關系標簽.否則,將其預測為NA.
此外,膠囊網(wǎng)絡輸出的結果是一個向量,用來代表一個關系類,該關系預測的概率可以用向量的模長表示.最后,將概率最高的關系類別作為實體對最終預測的類別標簽,計算方式如公式(18)所示:
label=argmaxj∈R{‖rj‖}
(17)
這里,R表示關系標簽的集合.
實驗使用清華大學構建的DOCRED(1)https://cloud.tsinghua.edu.cn/d/5d8628d7f0b6453a8d7c/數(shù)據(jù)集[15]評估模型的性能,該數(shù)據(jù)集中訓練集包含3,053個監(jiān)督文檔和101,873個弱監(jiān)督文檔,驗證集和測試集均包含1000個文檔.數(shù)據(jù)集中涵蓋96種帶有方向的關系,如時間、地 點、人物、事件、藝術作品、法律等.
4.2.1 參數(shù)設置
實驗中利用預訓練的Glove 100維單詞嵌入和Stanford CoreNLP工具在DOCRED中進行文檔語料庫的語義依賴分析.表1中列出了實驗中模型使用的參數(shù).
表1 參數(shù)設置
4.2.2 評價標準
本文選擇F1-score和AUC,作為評價關系抽取模型性能的指標.其中F1-score是準確率(Precision)和召回率(Recall)的調和平均值,AUC表示的是坐標軸與ROC曲線構成的面積,其中ROC曲線的橫坐標為假正類率,縱坐標為真正類率.假設ROC的函數(shù)表達式為y=f(x),則各項指標計算如下:
(18)
(19)
(20)
(21)
為了驗證提出模型在文檔級別實體關系抽取領域的有效性,本文設置了4個對比試驗,分別驗證BSRU模塊、多條最短依賴路徑、動態(tài)路由算法中增加注意力機制的影響,并對比了一些流行模型.
實驗1.BSRU對模型的影響.從表 2可以看出,使用BSRU代替?zhèn)鹘y(tǒng)的BiLSTM,雖然F1-score和AUC指標在弱監(jiān)督設置上有略微的下降,但是模型每一輪的訓練訓練速度有了明顯的提升,這歸功于BSRU網(wǎng)絡模型,它能夠將具有依賴關系的運算步驟進行串行處理,從而提升模型的效率.
表2 使用BSRU模型的對比實驗結果(%)
實驗2.結合多條最短依賴路徑對模型的影響.表3顯示了結合多條最短路徑建模對模型性能的影響,以監(jiān)督設置為例,與僅考慮單條最短依賴路徑的SBSRU-ATTCapsNet模型相比,結合多條最短依賴路徑的關系表示的BSRU-ATTCapsNet模型,在F1-score和AUC的表現(xiàn)都有了競爭性的提高,這是由于多條最短依賴路徑上包含的實體關系信息更完整,更全面,而且又保留了文檔復雜的邏輯結構特征,從而幫助本文的模型得到更精致的預測效果.
表3 結合多條最短依賴路徑模型的對比實驗結果(%)
實驗3.動態(tài)路由算法中注意力機制對模型的影響.表4顯示了在動態(tài)路由算法中增加注意力機制對模型性能影響,本文的BSRU-ATTCapsNet模型在監(jiān)督設置中顯著優(yōu)于沒有注意力機制的BSRU-CapsNet模型,這表明通過加入注意力機制,將不同位置學習到的關系特征進行綜合加權,為相關的最短依賴路徑學習到的實體關系分配更高的權重,無關并列關系分配更小的權重,能夠增強系特征表示,從而有利于目標關系的預測.
表4 動態(tài)路由算法中增加注意力機制的對比實驗結果(%)
實驗4.本文模型與流行模型的對比.為了突出本文提出模型的有效性,將模型與以下基準進行比較:
1)BiLSTM[16],通過學習實體的表示預測實體之間的關系.
2)ContextAware[17],通過關系之間的交互效應預測目標關系.
3)GAIN-Glove[18],通過整個文檔中不同提及之間的復雜交互進行目標關系的預測.
4)CorefBERT[19],通過捕獲文本中的共指信息,來聚合不同共指提及的推理信息.
表5顯示了各個模型在DocRED數(shù)據(jù)集上的性能,其中本文提出的BSRU-ATTCapsNet模型取得了最突出的結果,在監(jiān)督設置測試集中F1-score比CorefBERT模型高出1.7%,在弱監(jiān)督設置測試集中F1-score比CorefBERT模型高出0.2%,這是由于提出的模型優(yōu)化了最短依賴路徑上的關系建模,膠囊網(wǎng)絡又進一步強化了關系的多維度表示.
表5 與其他模型實驗的對比結果(%)
文檔級實體關系抽取模型仍存在很多優(yōu)化的地方,本文從復雜的邏輯結構出發(fā),針對模型效率低下、實體關系特征構造單一和并列特征的負面影響問題,提出了BSRU-ATTCapsNet模型.BSRU 學習文檔中復雜結構的遠距離依賴信息,CapsNet從多個維度學習實體對的更深層次的關系,使得提出模型的效果得到提升.