黃培馨 趙 翔,2 方 陽 朱慧明,3 肖衛(wèi)東,2
1(國防科技大學信息系統(tǒng)工程重點實驗室 長沙 410073)2(地球空間信息技術協(xié)同創(chuàng)新中心(武漢大學)武漢 430079)3(長沙商貿旅游職業(yè)技術學院經(jīng)濟貿易學院 長沙 410073)(huangpeixin15@nudt.edu.cn)
知識圖譜描述現(xiàn)實世界中客觀存在的實體以及實體之間的關系[1].在知識圖譜中,一般用節(jié)點表示實體(entities),如人名、物品、地名等,用邊即實體之間的連線表示關系(relations),如位于、擁有等.知識由1個實體關系的三元組(triplets),即(頭實體,關系,尾實體)來表示,它是知識圖譜的基本單元.
諸如WordNet[2]等的大型知識圖譜為存儲、分析和利用海量的網(wǎng)頁文本信息提供了嶄新思路,支撐機器理解自然語言,被廣泛應用于智慧搜索、自動問答等智能信息服務.然而,現(xiàn)有知識圖譜雖已包含數(shù)以萬計的事實知識實例,卻仍無法滿足現(xiàn)實世界的需要.補全現(xiàn)有的知識圖譜以及構建新的知識圖譜都是當前需要解決的關鍵問題.工程上構建知識圖譜,往往有2種方式:自頂向下——先構建本體(通過本體編輯器);自底向上——直接從信息(結構化Freebase或半結構化Wikipedia)中抽取知識[3].本文所研究的知識三元組抽取屬于自底向上來構建知識圖譜.其基本思路是從非結構化文本中抽取實體關系實例,處理抽取出的知識三元組以符合知識庫(1)本文不區(qū)分“知識圖譜”和“知識庫”2個概念,“知識圖譜”本質是“知識庫”的一種呈現(xiàn)方式.規(guī)范,然后將其添加到知識庫中.具體而言,給定網(wǎng)頁新聞文本“美國總統(tǒng)特朗普將訪問史蒂夫保羅喬布斯創(chuàng)辦的蘋果公司”,知識三元組抽取技術可以自動抽取出(美國,國家—總統(tǒng),特朗普)和(蘋果公司,公司—創(chuàng)辦者,史蒂夫保羅喬布斯)這2個三元組.其中,“國家—總統(tǒng)”和“公司—創(chuàng)辦者”這2個關系屬于預先定義好的關系標簽[4].
現(xiàn)有的知識三元組抽取方法可以分為兩大類:流水線式方法和聯(lián)合抽取方法.其中,傳統(tǒng)的流水線式方法先進行命名實體識別(Nadeau等人[5])然后進行關系分類(Rink等人[6]).但這種方法存在錯誤傳播、信息冗余、忽視了2個子任務之間的聯(lián)系等問題.而現(xiàn)有的聯(lián)合抽取方法中,基于語法分析的方法依賴專家知識且工作量大,基于特征工程的方法依賴外部NLP工具且需要復雜的特征設計,基于神經(jīng)網(wǎng)絡的方法雖克服了以上問題卻沒有充分利用實體與關系之間的聯(lián)系而做到真正的聯(lián)合.
本文的研究針對現(xiàn)有方法存在的問題建立聯(lián)合模型.首先提出一種標注策略,以往常用的方法如BILOU(Li和Ji[7];Miwa和Bansal[8])只對實體進行標注,沒有將實體和關系進行關聯(lián),而本文提出的策略通過3段式的標注可以同時暗示分詞的實體和關系屬性,將聯(lián)合抽取問題完全轉化為端到端的序列標注問題.為實現(xiàn)輸入文本的標注,本文搭建了基于長短時記憶網(wǎng)絡LSTM的端到端模型框架,充分挖掘LSTM神經(jīng)網(wǎng)絡處理長序依賴問題的優(yōu)勢.編碼層采用雙向LSTM(bidirectional LSTM,Bi-LSTM)循環(huán)處理文本,充分考慮序列的上下文關聯(lián),可以對歷史信息與未來信息進行平等處理,從而對長句更具有魯棒性;解碼層采用LSTM產(chǎn)生標簽表示.在編碼層與解碼層之間,添加自注意力層為實體標簽賦予更大的權重,同時對輸入序列的遠距離依賴關系建模,輔助模型對文本特征的綜合性建模.此外,在端到端模型中,增加了1個帶有偏置項的損失函數(shù),該偏置項用于捕捉相關實體之間的聯(lián)系.
盡管深度學習在很多計算機領域的任務上表現(xiàn)出色,Szegedy等人[9]發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡存在的弱點,他們證明了對模型的輸入做1個刻意的微小擾動就可能導致具有高置信度的錯誤決策,對模型的實際應用造成威脅.Goodfellow等人[10]提出了一種用于圖像識別的對抗訓練(adversarial training,AT)作為正則化方法,該方法將原樣本與對抗樣本混合輸入模型,以增強模型的魯棒性.本文嘗試在模型訓練時加入擾動作為對抗樣本,將對抗樣本和原有數(shù)據(jù)一起進行訓練,產(chǎn)生正則化的效果,增強模型的魯棒性,進而提高模型整體性能.
模型在遠程監(jiān)督產(chǎn)生的數(shù)據(jù)集NYT[11]上進行綜合性的實驗,實驗結果表明本文的基于端到端標注的模型在諸多性能指標上優(yōu)于現(xiàn)有的知識三元組抽取模型,從而驗證了所提方法的有效性和優(yōu)越性.
本文的主要貢獻有3個方面:
1)設計了一種標注策略.通過模型標注輸入序列得到分詞標簽,將標簽組合能夠直接得到三元組抽取結果.通過這種策略,知識三元組抽取問題能夠被完全轉化為端到端的序列標注問題,從而做到了真正的聯(lián)合抽取.
2)搭建了基于LSTM的端到端框架用于輸入文本的標注.采用雙向LSTM編碼、LSTM解碼的架構處理文本,綜合句子的上下文信息對句子進行標注,組合標注結果得到三元組信息.同時,在框架中增加自注意力層提高建模長文本的能力,并設計帶偏置項的損失函數(shù)以充分利用相關聯(lián)實體之間的聯(lián)系.
3)引入對抗訓練作為模型訓練的拓展.通過在網(wǎng)絡底層添加擾動生成對抗樣本,與原樣本混合訓練模型以提高模型對輸入擾動的魯棒性.
知識三元組抽取是從純文本中得到三元組形式的知識.本文用S表示句子文本,將三元組表示為(h,r,t),其中,h表示頭實體,t表示尾實體,而r表示h和t之間的關系[12].定義關系集合R={r1,r2,…},知識三元組抽取就是根據(jù)S和已定義的關系集合R,得到(h,r,t)的過程.知識三元組抽取的2個子任務是命名實體識別與關系分類,其研究有兩大主流方法:流水線式方法、聯(lián)合學習方法.
流水線式方法首先進行命名實體識別(named entity recognition,NER),然后基于所識別的命名實體進行實體之間的關系學習,即關系抽取(relation extraction,RE).傳統(tǒng)的命名實體識別模型是基于統(tǒng)計的,如隱Markov模型(HMM)和條件隨機場模型(CRF)(Passos 等人[13]和Luo等人[14]).最近,一些深度學習模型(Lample等人[15]和Xu等人[16])被應用到NER任務上,這些模型通常將實體識別任務視為對分詞的序列標注任務.對于實體關系學習,現(xiàn)有方法可分為基于人工特征的方法(Hasegawa等人[17]和Kambhatla等人[18])和基于神經(jīng)網(wǎng)絡的方法(Xu等人[19-20]、Zheng等人[21]和Santos等人[22]).流水線式方法往往存在誤差傳播、實體對冗余和忽視2個子任務間聯(lián)系等弊端.
為克服以上弊端,聯(lián)合抽取方法被提出,它用1個模型同時抽取實體和關系.目前主流的聯(lián)合模型分為基于語法分析的模型(Roth等人[23]、Kate等人[24]和Finkel等人[25])、基于特征工程的模型(Li,Ji[7]和Ren等人[26])和基于神經(jīng)網(wǎng)絡的模型.與前兩種模型相比,基于神經(jīng)網(wǎng)絡的模型不依賴外部NLP工具,自動進行特征學習從而避免復雜的人工特征設計,不僅模型復雜度降低,抽取效果也有所提升.目前,基于神經(jīng)網(wǎng)絡的聯(lián)合抽取方法主要分為基于參數(shù)共享的方法和基于標注策略的方法.Zheng等人[27]提出了混合神經(jīng)網(wǎng)絡模型(hybrid neural network,HNN),HNN模型通過共享神經(jīng)網(wǎng)絡的底層表示來進行聯(lián)合學習.Miwa和Bansal[8]提出的SPTree模型也是類似的思想.但參數(shù)共享的方法本質上還是分別進行2個子任務,仍會產(chǎn)生不存在確切關系的實體對這樣的冗余信息.針對此,Arzoo等人[28]提出了一種Gold standard標注方案,并利用多層雙向循環(huán)網(wǎng)絡(multi-layer Bi-RNN)進行知識三元組抽取.Zheng等人[29]則利用標注策略將抽取問題轉化為序列標注任務,并設計了神經(jīng)網(wǎng)絡框架用于序列標注,取得了更優(yōu)的效果.但是,與本文策略不同,上述標注策略只關注實體標注,忽視了實體與關系之間的關聯(lián),也就無法實現(xiàn)真正的實體關系聯(lián)合抽取.
對抗訓練.盡管在知識三元組抽取任務上神經(jīng)網(wǎng)絡表現(xiàn)出色,但Szegedy等人[9]發(fā)現(xiàn)其存在弱點.他們將刻意的微小擾動輸入模型,導致模型產(chǎn)生了高置信度的錯誤決策.Goodfellow等人[10]將這個微小的擾動定義為對抗樣本,并提出了對抗訓練(AT)作為正則化方法.與其他正則化方法如dropout(Srivastava等人[30])產(chǎn)生隨機噪聲不同,AT產(chǎn)生的擾動是容易被模型誤分類的樣例的變種形式.最近對抗訓練越來越多地被應用于自然語言處理(NLP)任務如文本分類(Miyato等人[31])、關系抽取(Wu等人[32])、POS標注(Yasunaga等人[33])等任務.在知識三元組抽取任務上,Bekoulis等人[34]曾將對抗訓練加入到他們的聯(lián)合學習模型中.實驗表明,對抗訓練的加入極大提升了模型的抽取效果.但本文是第1次將對抗訓練用于端到端的序列標注模型.
本節(jié)介紹提出的端到端知識三元組聯(lián)合抽取的網(wǎng)絡模型,整體結構如圖1所示.模型包括5層,分別是表示層、雙向LSTM編碼層、自注意力層、LSTM解碼層(也稱LSTMd層)、softmax分類層.
端到端知識三元組聯(lián)合抽取模型首先利用表示層將輸入文本轉換成句子序列的向量表示,然后通過雙向LSTM編碼層和自注意力層充分提取文本的上下文信息,之后上下文特征經(jīng)過LSTM解碼層產(chǎn)生標簽的向量表示序列,最后softmax分類層根據(jù)向量對分詞進行標簽分類得到文本的標簽序列.下面首先介紹本文采取的標注策略,接著闡述模型細節(jié).
Fig.1 The structure of our end-to-end knowledge triplet extraction method combined with adversarial training圖1 融合對抗訓練的端到端知識三元組聯(lián)合抽取模型結構圖
本節(jié)介紹標注策略以及如何通過標注策略將知識三元組抽取問題轉化為序列標注問題.如圖2展示了1個句子按照本文標注策略被標注的結果.
本文的每1個分詞都被賦予1個標簽,這些標簽暗示此分詞與要抽取的知識三元組的關系.
其中,標簽“O”代表“其他(other)”,表示此分詞與被抽取的結果無關,不是頭/尾實體.除了標簽“O”,其他的標簽都由3個分標簽(如B-CP-2)組成,接下來分別對3個分標簽進行說明:
1)分詞在實體中的位置.本文考慮實體由1個或1個以上分詞構成,使用“BIES”(開頭,內部,結尾,單獨)標簽方案來表示1個分詞在實體中的位置信息.其中“B”即“開始(begin)”,表示此分詞是實體成分且位于實體的開頭位置;“I”即“內部(inside)”,表示此分詞位于實體內部;“E”即“結尾(end)”,表示分詞位于實體結尾;“S”即“單獨(single)”,表示此分詞單獨就是1個實體指稱.
Fig.2 Annotation of sample sentence based on our annotation strategy圖2 基于標注策略對樣句的標注
2)關系類型.分詞構成的實體所屬的關系類型信息是預先定義好的.本文做實驗時使用NYT數(shù)據(jù)集[11],數(shù)據(jù)集中關系集[4]是預定義的.
3)關系角色.分詞在關系中的角色信息由2個數(shù)字“1”和“2”表示.其中,“1”表示該分詞在此關系類型中屬于關系的頭實體,“2”則表示尾實體.
抽取結果由三元組(實體1,關系類型,實體2)表示,“1”表示此實體是三元組的頭實體,“2”是尾實體.因此總標簽數(shù)是Nt=2×4×|R|+1,其中,|R|是預定義關系集規(guī)模.
圖2是1個展示了本文標記策略的例子.輸入句包含三元組:(United States,Country-President,Franklin Delano Roosevelt),其中“Country-President”是預定義的關系類型.分詞“United”,“States”,“Franklin”,“Delano”,“Roosevelt”都與最終的抽取結果相關,因此它們都基于特殊的標記策略來標記.例如,詞“United”是與關系“Country-President”相關的頭實體“United States”的第1個詞,因此被標記為“B-CP-1”.與最終抽取結果無關的詞都被標記為“O”.
與現(xiàn)有較常見的標注策略BILOU(Li和Ji[7];Miwa和Bansal[8])不同,本文提出的三段式標簽同時指示分詞所屬的實體屬性以及關系類型,在通過標注模型標注文本得到標簽后,將有相同關系類型的2個實體標簽與關系類型結合成1個三元組,再根據(jù)關系角色標簽可知實體的位置(頭或者尾),從而可以得到抽取結果.通過上述步驟,知識三元組抽取問題能夠完全被轉化為端到端的序列標注問題.
需要強調的是,如果1個句子包含2個或者多個具有相同關系類型的三元組,本文按照最鄰近原則將每2個實體結合,構成1個三元組.同時,本文僅考慮1個實體屬于1個三元組的情況.
下面講解模型如何實現(xiàn)上述標注.
表示層的輸入是原始句子序列,通過詞向量表將其轉換成表示句子信息的低維向量輸入到下一層.
(1)
將S輸出到下一層作為輸入.
雙向LSTM編碼層由2個平行的LSTM層組成,即前向LSTM層和反向LSTM層.每層都是由1系列循環(huán)連接的子神經(jīng)網(wǎng)絡組成,稱為神經(jīng)元,對應每個時間步長.雙向LSTM中前向網(wǎng)絡的神經(jīng)元結構如圖3所示:
Fig.3 The structure of forward LSTM neuron圖3 前向LSTM神經(jīng)元結構圖
LSTM通過遺忘門、輸入門和輸出門來對輸入信息進行保護和控制.前向網(wǎng)絡中,每次新輸入1個分詞特征向量xt,并與上一時刻狀態(tài)ht-1共同產(chǎn)生下一時刻的狀態(tài)ht,其中t代表時間步長.隱藏狀態(tài)ht的計算:
it=δ(Wxixt+Whiht-1+Wcict-1+bi),
(2)
ft=δ(Wxfxt+Whfht-1+Wcfct-1+bf),
(3)
zt=tanh(Wxcxt+Whcht-1+bc),
(4)
ct=ftct-1+itzt,
(5)
ot=δ(Wxoxt+Whoht-1+Wcoct+bo),
(6)
ht=ottanh(ct),
(7)
其中,i,f,o分別為輸入門、遺忘門、輸出門,b是偏置項,W(·)為參數(shù)矩陣.
前向LSTM層通過從分詞向量x1到xt考慮xt的前文信息來編碼xt,輸出記為ht.類似地,反向LSTM層從分詞向量xn到xt考慮xt的后文信息來編碼xt,輸出記為ht.最后,聯(lián)結ht和ht來表示第t個分詞編碼后的信息,表示為
(8)
其中,⊕表示向量聯(lián)結,de為單向LSTM網(wǎng)絡維度.對于輸入的S,該層的輸出為
(9)
將h輸出到下一層作為輸入.
雙向LSTM神經(jīng)網(wǎng)絡,由于信息傳遞的容量以及梯度消失問題,只能夠建模輸入信息的局部依賴關系.為了能夠增強模型建模長句的能力,本文增加自注意力層進一步編碼輸入文本.自注意力機制能夠減少模型對外部信息的依賴,有助于捕捉文本內部信息的相互關聯(lián).
f(h)=tanh(hWa1hT+ba1),
(10)
A=softmax(f(h)),
(11)
(12)
其中,Wa1為權重矩陣,ba1為偏置項,f(h)表示輸入文本各個分詞之間的相關性分數(shù),A代表分詞之間的注意力權重,M則是輸入文本的綜合編碼向量集合.接著將M輸入解碼層進行標簽解碼.
得到綜合編碼了上下文信息的序列后,本文也采用LSTM結構來產(chǎn)生標簽序列,稱為解碼.解碼層采用1個單向的LSTM層,稱為LSTMd層,其結構如圖4所示.
Fig.4 The structure of LSTMd neuron圖4 LSTMd層神經(jīng)元結構圖
(13)
(14)
(15)
(16)
(17)
(18)
(19)
其中,i,f,o分別為輸入門、遺忘門、輸出門,b是偏置項,W(·)均為參數(shù)矩陣.
對于輸入的M,該層的輸出為預測標簽的向量序列
(20)
其中,dd為LSTMd網(wǎng)絡維度.
(21)
yt=WyTt+by,
(22)
在測試階段,所學習到的標簽特征Tt乘以概率p得到Tt=pTt,用Tt進行標簽預測.
最終,得到分詞t具有標簽:
(23)
訓練時,本文最大化對數(shù)似然函數(shù):
(24)
I(O)是1個門,用于區(qū)別“O”標簽和其他標簽的損失函數(shù)
(25)
α為損失函數(shù)的偏置權重,偏置權重越大,關系標簽對模型的影響越大,即模型將具有確定關系的實體對進行組合的能力越強,從而充分利用相關聯(lián)實體之間的聯(lián)系.
在模型訓練時,本文融合了對抗訓練(AT)的思想.在這里,對抗訓練用作一種正則化方法,使模型對輸入擾動更具有魯棒性.
AT首先要生成對抗樣本,本文通過將擾動ηAT添加到初始句子表示x來生成對抗樣本.通過最小化對數(shù)似然函數(shù),可以生成最差情況下的擾動ηAT:
(26)
ηAT=εg/‖g‖,
(27)
(28)
(29)
其中,d為輸入表示的維度.
進行對抗訓練時,將對抗樣本和原樣本混合.因此,最終要最大化的似然函數(shù)為
(30)
本文3.3節(jié)將對以上自注意力機制、偏置項、對抗訓練3個部分進行消融分析以量化說明各個部分在模型構建中的作用.
本節(jié)介紹融合對抗訓練的端到端知識三元組聯(lián)合抽取方法的先進性實驗驗證.
實驗使用Riedel等人[11]基于遠程監(jiān)督的假設構造的NYT數(shù)據(jù)集(3)數(shù)據(jù)集可下載于:https://github.com/shanzhenren/CoType.有3個公共數(shù)據(jù)集可以選擇,本文選擇使用NYT數(shù)據(jù)集.本文使用的數(shù)據(jù)集的細節(jié)見Ren等人[26]的文章.,數(shù)據(jù)集劃分為訓練集和測試集兩部分.訓練集包含353×103個三元組,通過遠程監(jiān)督方法獲得;測試集包含3 880個三元組,通過人工標注獲得.數(shù)據(jù)集的關系集合中定義了24個關系,其中包括1個特殊關系“None”,表示2實體間不存在關系.對關系在集合中的順序依次編號,其中,“None”的編號為0,其余的關系編號為1~23.
在訓練好的向量詞典中,有114 042個詞向量,囊括了NYT數(shù)據(jù)集中的所有詞匯.詞典中還包含一些特殊的分詞,例如:“〈**END**〉”,“〈UNK〉”,“.”和“,”等.〈**END**〉表示句子結束的符號,〈UNK〉表示未識別出的詞,“.”和“,”等是句子中常用的標點符號.
參考目前聯(lián)合抽取模型的評價指標,對模型抽取出的整個知識三元組結果進行評價,本文實驗使用準確率(Precision,P)、召回率(Recall,R)和F1值(F1)三個指標,F(xiàn)1是綜合性的評價指標.
模型需要設置的所有超參數(shù)如下.n為輸入網(wǎng)絡的最大句長,設置為50,若句子長度不夠,則使用空字符填充;本文使用Word2Vec算法訓練詞向量,詞向量維度設為dw=300;每進行1次訓練或測試,輸入的句子集合數(shù)量為50;LSTM編碼層的神經(jīng)元數(shù)量設置為300,即該層維度de=300;LSTM解碼層維度dd=600;本文采用隨機梯度下降法迭代更新模型參數(shù),直至模型參數(shù)穩(wěn)定,學習率控制模型參數(shù)更新的速度,本文中設為η=0.001.
另外,模型引入偏置參數(shù)α來增強實體之間的聯(lián)系.本文通過實驗確定參數(shù)α,α∈{1,5,10,15,20}.將除α參數(shù)外的其余超參數(shù)調整至最優(yōu),調整參數(shù)α的值,模型準確率、召回率以及F1值的變化如圖5所示.當α過大,會影響預測準確率;α過小則召回率會降低.當α=10時,模型能夠獲得準確率和召回率之間的平衡,從而得到最高的F1值.因此設置超參數(shù)α=10.
Fig.5 The results predicted by our model on different bias parameter α圖5 調整偏置參數(shù)α時的模型預測結果
其他典型的三元組抽取模型可以分為兩大類:流水線方法和聯(lián)合抽取方法.
對于流水線方法,本文遵循了Ren等人[26]的設置,即通過CoType進行命名實體識別,獲得實體;然后應用了3種典型的關系分類方法來檢測實體間關系:
1)DS-logistic是Mintz等人[36]提出的一種基于特征的遠程監(jiān)督的方法,它同時結合有監(jiān)督IE特征和無監(jiān)督IE特征的優(yōu)勢;
2)LINE是Tang等人[37]提出的一種基于網(wǎng)絡表示的關系抽取方法,可被用于任何類型的信息網(wǎng)絡;
3)FCM是Gormley等人[38]提出的將詞匯化語言上下文和詞向量結合用于關系抽取的復合模型.
對于聯(lián)合抽取方法,本文將模型與其他3種典型的聯(lián)合抽取方法進行比較:
1)DS-Joint是Li和Ji[7]提出的監(jiān)督學習方法.它使用結構化感知器聯(lián)合抽取人工標注的數(shù)據(jù)語料上的實體和關系;
2)MultiR是Hoffmann等人[39]提出的遠程監(jiān)督方法,它基于多實例學習算法,可以應對嘈雜的訓練數(shù)據(jù);
3)CoType是Ren等人[26]提出的通過將實體、關系、文本特征和類型標簽進行聯(lián)合表示來構建域獨立的框架.
為進一步說明本文端到端模型的優(yōu)勢,將3種典型的但未被用于端到端的實體關系聯(lián)合抽取模型,應用在本文所提標注策略上,進行三元組抽取任務.這3種端到端模型分別為:
1)LSTM-CRF是Lample等人[15]提出的通過使用雙向LSTM編碼輸入語句,CRF預測實體標簽序列進行命名實體識別的框架;
2)LSTM-LSTM是Vaswani等人[40]提出,與LSTM-CRF不同,它使用LSTM層來解碼標簽序列而不是CRF;
3)LSTM-LSTM-Bias是Zheng等人[29]所提出,在LSTM-LSTM的基礎上,使用了帶偏置項的損失函數(shù).
表1展示了不同模型在知識三元組抽取任務上的表現(xiàn).其中,行1~3是流水線式模型;行4~6是聯(lián)合抽取模型;基于本文標注策略的端到端模型在行7~10,在這個部分不僅計算了準確率、召回率和F1值,還分別計算了它們的標準差.分析表中數(shù)據(jù)可以得到3個結論:
1)本文的模型LSTM-LSTM-2AT-Bias在聯(lián)合抽取任務上的F1值為0.521±0.006,優(yōu)于其他較先進的模型在此任務上的表現(xiàn).并且,它相較于之前效果最優(yōu)的模型CoType(Ren等人[26]),F(xiàn)1值有5.8%的提升,這也表明了本文所提方法的有效性.此外,從表1中還可以看出在三元組抽取任務上,聯(lián)合抽取方法優(yōu)于流水線式方法,而基于本文標注策略的方法優(yōu)于大多數(shù)聯(lián)合抽取方法.這也證實了本文提出的標注策略應用于聯(lián)合抽取知識三元組任務的有效性.
Table 1 The Predicted Results of Different Methods on Extracting Both Entities and Their Relations表1 不同模型在知識三元組抽取任務上的結果
Note:The bold numbers represent the highest performance among all models.
2)從準確率數(shù)據(jù)可以看出,與傳統(tǒng)方法(流水線方法和傳統(tǒng)聯(lián)合抽取方法)相比,端到端模型的準確率有了顯著提升.原因可能是端到端模型均使用雙向LSTM來編碼輸入文本,提升了對文本的處理與表示能力,然后使用不同的神經(jīng)網(wǎng)絡來解碼得到結果.然而,在所有端到端模型中,只有LSTM-LSTM-2AT-Bias能獲得更高的準確率和召回率,得到最高的F1值.這說明其采取的添加自注意力層的網(wǎng)絡架構對數(shù)據(jù)的適應性較好,能夠很好地學習訓練集的特征表示,采取對抗訓練能夠獲得更高的準確率,最終獲得了總體的F1值提升.
3)基于本文提出的標注方案,LSTM-LSTM模型比LSTM-CRF模型在三元組抽取任務上表現(xiàn)更好.分析原因,LSTM神經(jīng)網(wǎng)絡能夠學習長距離依賴而CRF擅長捕捉整個標簽序列的聯(lián)合概率.而輸入文本中,相關的實體標簽互相之間可能距離很長.因此,LSTM解碼方式比CRF更優(yōu).通過與LSTM-LSTM模型的比較,LSTM-LSTM-Bias模型通過增加1個偏置權重可以加強實體標簽的影響權重,減弱無關標簽的影響權重,更有利于區(qū)分出實體標簽.
在本文模型中,核心部分是基于LSTM的編碼解碼層,加入了自注意力層和對抗訓練,并且在目標函數(shù)中添加了偏置項.為保證這些輔助部分加入模型的必要性,將進行這些部分的消融學習,觀察其對模型抽取效果的改善作用.
原模型(LSTM-LSTM-2AT-Bias).原模型通過雙向LSTM編碼、LSTM解碼實現(xiàn)對文本的端到端標注;使用帶偏置項(Bias)的目標函數(shù)增加模型對相關聯(lián)實體的注意力;加入自注意力層(self-atten-tion)提高模型建模文本信息的能力;采用對抗訓練(AT)增強模型對輸入擾動的魯棒性,因此模型簡寫為LSTM-LSTM-2AT-Bias,2AT代表自注意力機制和對抗訓練.
變種1.LSTM-LSTM-2AT.與很多現(xiàn)有端到端模型不同,針對知識三元組抽取任務,本文的模型額外在目標函數(shù)中添加了偏置權重,使得模型能夠更好地組合相關實體構成三元組,是模型中很重要的一部分.變種1將Bias偏置項去掉,觀察模型性能的變化,因此變種1簡寫為LSTM-LSTM-2AT.
變種2.LSTM-LSTM-ATT-Bias.對抗訓練在Bekoulis等人[34]的文章中被用來在BiLSTM-CRF框架上進行聯(lián)合抽取任務,實驗證明,加入對抗訓練使得模型在3個普遍使用的數(shù)據(jù)集上的抽取效果較現(xiàn)有模型均有一定幅度的提升.本文將對抗訓練遷移至設計的特定目標函數(shù)上,為驗證對抗訓練在本文模型中的作用,變種2不采用對抗訓練,簡寫為LSTM-LSTM-ATT-Bias.
變種3.LSTM-LSTM-AT-Bias.自注意力機制在Tan等人[41]的文章中被應用到了序列標注任務中,將自注意力層嵌入到神經(jīng)網(wǎng)絡框架,實驗證明,加入自注意力機制提升了模型學習文本語義的能力,使得標注結果更好.本文在編碼文本序列后加入自注意力層充分表示文本,為驗證自注意力層在本文模型中的作用,變種3將自注意力層去掉與原模型比較,因此變種3簡寫為LSTM-LSTM-AT-Bias.
上述4個模型的超參數(shù)以及實驗數(shù)據(jù)集均按照3.1節(jié)中的設定,使用的詞向量編碼也均相同.
表2展示了本文模型與3個變種在本文任務上的抽取結果.從實驗結果看,本文模型的F1值比3個變種的F1值分別高出了2.6%,1.7%和1.2%,說明每一部分的加入都對模型性能的提升有所貢獻.
Table 2 The Predicted Results of our Model and Its Variants on the Knowledge Triplet Extraction Task表2 原模型與各變種在知識三元組抽取任務上的結果
Note:The bold numbers represent the highest performance among all models.
對于變種1,刪除了偏置項,該變種在4個模型中表現(xiàn)最差,說明在3個部分中偏置項對該模型的性能提升最大.偏置項通過影響模型的目標函數(shù),使其對關系標簽更加敏感,提升了模型組合相關聯(lián)實體的能力.因此刪除偏置項后,模型準確率雖有提升,但召回率和總體F1值均大為降低.
對于變種2,去掉了對抗訓練,該變種使模型F1值降低了1.7%,影響也非常大.原因是原始輸入集合中本身就存在一些影響模型效果的擾動,對抗訓練以及對抗樣本的加入使得模型對輸入擾動的分辨能力提升.因此刪除對抗訓練后,模型準確率降低,雖然召回率略有提升,但總體F1值也降低.
對于變種3,由于缺少自注意力層,模型對輸入文本的表示能力下降,一定程度上影響了模型性能.自注意力機制能幫助模型有效地捕獲有重要作用的分詞(在本任務中即為被標記為實體標簽的分詞),能夠提升模型標記的準確率.因此刪除自注意力層后,模型準確率降低,雖然召回率有提升,但總體F1值仍下降.
對于本文模型而言,偏置項的加入作用大于對抗訓練的加入,大于自注意力機制的加入,但三者對模型在知識三元組抽取任務上F1值的提升都有較大貢獻,因此這些部分的加入是必要的.
本文要解決的任務是抽取由2個實體和它們之間的1個關系組成的知識三元組.表3展示了此任務上各種模型的抽取結果.在判斷三元組抽取結果正確與否時,只有當2個實體和對應關系類型均正確的三元組才被認定為正確.
Table 3 The Predicted Results of Triplet’s Elements Based on Our Tagging Scheme表3 不同端到端模型基于本文標注策略對三元組元素的預測結果
Note:The bold numbers represent the highest performance among all models.
為了找出影響端到端模型表現(xiàn)效果的因素,本節(jié)分析了端到端模型對三元組所含元素的抽取表現(xiàn),表3展示了結果.E1和E2分別代表模型抽取的第1、第2個實體實例,(E1,E2)則表示實體對實例.
從表3可以看出,與元素E1和E2相比,模型對(E1,E2)實體對抽取的準確率更高,但召回率略有降低,這意味著一些抽取出的實體沒有組成實體對.原因可能是模型只抽取出了實體E1或E2而沒有找出其對應的實體E2或E1,因此導致抽取出較多單實體E和較少實體對(E1,E2).實體對因此比單實體準確率更高而召回率更低.
另外,表3中實體對(E1,E2)的抽取結果相比表1,LSTM-LSTM-2AT-Bias的三元組抽取結果有了2.7%的F1值提升,這也意味著抽取結果中有部分三元組是因為關系類型分類錯誤而導致被錯誤抽取.
通過上述實驗及分析,發(fā)現(xiàn)本文模型針對知識三元組抽取問題具有更好的性能.接著,本節(jié)觀察了幾種端到端模型對三元組的抽取結果,然后挑選了3個代表性的例句來進一步說明模型優(yōu)缺點,如表4所示.
表4中,黑體字為正確輸出結果,下劃線標記出的是模型抽取錯誤的結果.句中實體的下標表示實體角色(頭實體/尾實體)以及實體構成三元組所屬的關系,例如例句S1抽取出三元組(New York City,contain,Brooklyn),其中“[New York City]E1Contain”表明“New York City”屬于三元組中頭實體,且三元組關系類型為“Contain”.例句S3中E1CF則是E1Company-Founder的縮寫.
觀察分析表4中的例句以及抽取結果:
例句S1的抽取結果是本文模型的正例,同時它也代表一種源文本類型:文本中的2個相關實體彼此之間相距較遠,從而增大了檢測它們之間關系的難度.從抽取結果看,LSTM-LSTM-Bias與LSTM-LSTM-2AT-Bias模型均正確抽取出了結果,而LSTM-LSTM模型則因實體間距離過長,未能關聯(lián)起相關實體,僅僅抽取出了1個實體“New York City”,未能檢測出“Brooklyn”.這反映了本文模型增加偏置目標函數(shù)的有效性.
例句S2的抽取結果是另一個正例,它代表另一種情況:文本中存在多個擾動實體,加大模型分辨組合實體對的難度.例句中,實體“Silicon Valley”和“USA”之間并沒有指示性詞暗示2個實體的關系.另外,實體“USA”和“industry”的模式“the*of*”很容易誤導模型,使之認為2個實體之間存在關系“Contain”,導致模型LSTM-LSTM與LSTM-LSTM-Bias均抽取錯誤;而本文的模型由于加入了對抗訓練,使其能夠分辨這種模式,從而抽取正確.
例句S3的抽取結果是1個負例,它代表一種情況:模型能夠正確抽取出實體,但實體的關系角色預測錯誤.LSTM-LSTM和LSTM-LSTM-Bias模型抽取出實體“Jerry Moss”和“A&M Records”均為頭實體E1,未能抽取出對應的尾實體E2.而LSTM-LSTM-2AT-Bias模型能夠發(fā)現(xiàn)實體對(E1,E2)存在,但實體“Jerry Moss”和“A&M Records”的實體角色被抽取反了.與LSTM-LSTM-Bias相比,本文模型由于加入了注意力機制,對文本語義把握更充分,檢測出相關聯(lián)實體對的能力更強,但在區(qū)分兩實體具體關系上有待提升.
Table 4 Output from Different Models表4 不同端到端模型的輸出結果
Note:Standard Sirepresents the gold standard annotation of sentencei.The bold parts are the correct outputs,and the underlined parts are the wrong outputs.
本文主要提出了一種融合對抗訓練的端到端知識三元組聯(lián)合抽取方法.傳統(tǒng)的流水線式抽取方法會導致誤差傳遞,而現(xiàn)有的聯(lián)合抽取沒有充分發(fā)掘實體識別與關系抽取2個子任務的聯(lián)系.針對現(xiàn)有方法的問題,本文模型提出一種標注策略,能夠通過端到端標注將知識三元組抽取問題完全轉化為序列標注問題;然后設計了端到端的標注網(wǎng)絡,并加入自注意力層來充分表示文本,通過帶偏置項的損失函數(shù)提高模型組合實體對的能力,加入對抗訓練以增強模型魯棒性.為驗證方法有效性,在普遍使用的數(shù)據(jù)集上將模型與目前較先進的模型以及一些變種在知識三元組抽取任務上的效果進行對比,結果表明本文模型取得最優(yōu)性能;然后進行消融分析,證實了模型各個部分的必要性;之后進行了誤差分析,最后通過實例說明模型優(yōu)缺點.
下一步,計劃對所提方法以及模型進行進一步改進,尋求模型的性能提升.注意到模型最后1層采用softmax進行單分類,1個詞只能有1個標簽.可考慮用多分類器替換softmax,1個詞可以有多個標簽,能夠出現(xiàn)在多個三元組中從而使模型能夠識別重疊關系.