余肖生,李琳宇,周佳倫,馬洪彬,陳 鵬
(1.三峽大學湖北省水電工程智能視覺監(jiān)測重點實驗室,湖北 宜昌 443002;2.三峽大學計算機與信息學院,湖北 宜昌 443000)
醫(yī)療文本的實體關系抽取是醫(yī)學自然語言處理研究中非常重要的一環(huán)[1]。早期的關系抽取是基于流水線(pipeline)的方法,首先從文本中抽取出所有的實體,然后判斷所有可能的實體對之間的關系。其中具有代表性的模型有基于卷積神經網絡(convolutional neural networks,CNN)的關系抽取模型[2]、將注意力機制引入了CNN模型中的Attention CNNs模型[3]等。Pipeline方法易于實現且實體模型和關系模型可以靈活使用,但在抽取實體與關系時,忽略了2個任務之間的內在聯系,容易造成誤差傳播。而聯合抽取可以加強實體模型和關系模型之間的聯系,一定程度上緩解誤差傳播的問題[4]。早期聯合抽取方法也是基于特征工程的[5-6],嚴重依賴手工制作的特征。隨著深度學習技術的不斷發(fā)展,雙向長短期記憶網絡(Bi-directional long short term memory network,BiLSTM)、循環(huán)神經網絡(recurrent neural network,RNN)等模型層出不窮,它們在關系抽取領域有廣泛的應用。例如,Zheng等[7]通過運用神經網絡設計了一種新型的標注機制,用于對序列進行標注;Zeng等[2]使用CNN來提取句子和詞匯信息,將2個特征拼接進行關系抽取。
目前現有工作在通用領域的文本中有著不錯的效果,但在醫(yī)療領域的文本中,實體往往是專業(yè)名詞,這些實體的密度大且實體之間的關系比通用領域的文本更為復雜,使用簡單的神經網絡方法無法充分地捕捉文本特征[1]。針對這些問題,本文中提出了基于對抗學習與多特征融合的中文電子病歷實體關系聯合抽取模型AMFRel。模型通過信息融合模塊來豐富文本結構特征,并且還加入對抗訓練增加擾動,提高了模型抽取三元組的性能。該模型在2個醫(yī)療文本關系抽取數據集上進行了實驗,與現有方法相比,其在F1值等方面有明顯提升。
醫(yī)療文本的實體關系抽取最初是基于模板匹配與字典驅動的方法[8],這種方法主要是依靠醫(yī)學專家人工制定相關的規(guī)則,雖然具有一定的效果,但采用這種方法非常耗時且制定的相關規(guī)則可移植性差。
隨后是基于機器學習的方法,包括支持向量機、最大熵等,利用各種特征向量進行關系分類。如Zhai等[9]將句子結構信息與支持向量機相結合進行電子病歷實體關系提取。該方法和基于模板匹配與字典驅動的方法相比有更好的移植性,但過度依賴特征選擇。
近年來,深度學習技術逐漸進步,各種神經網絡也得到了廣泛應用。該技術在醫(yī)療文本實體關系抽取領域也有著不錯的發(fā)展,能更好地從醫(yī)療文本中抽取出所需信息。Kim[10]使用CNN提取文本的局部特征,最后連接Softmax層,得到各關系類別的概率。Li等[11]使用BiLSTM和CNN來提取文本特征,并整合最短路徑用于醫(yī)療實體關系抽取。Zhang等[12]提出了一種方法,通過融合BiLSTM和多跳自注意力機制,增強模型對文本特征的捕捉能力。這種融合策略使模型能夠更準確地獲取文本的向量表示,進而提升實體關系抽取的性能。2018年,隨著預訓練模型BERT(bidirectional encoder representations from transformers,BERT)[13]的出現,自然語言處理的子任務,如命名實體識別、關系抽取等都呈現出了更好的效果。Wei等[14]使用BERT模型來獲得文本的向量表示,連接Softmax在醫(yī)療文本中進行關系抽取,產生了良好的效果。李天昊等[15]融合ERNIE模型和注意力機制進行中文文本的關系抽取。
上述基于深度學習的關系抽取方法在處理簡單文本的關系抽取方面表現良好,但在識別包含重疊關系的句子時存在一些問題。為解決關系重疊問題,Zeng等[16]提出了一個序列到序列的框架,并且采用復制機制直接生成實體關系三元組,該方法可以緩解實體間關系重疊的問題,但沒有考慮到實體間具有多種關系的重疊情況。Wei等[17]使用BERT模型進行句子編碼,提出了將主語實體映射為賓語實體的二進制標注框架CASREL。該模型一定程度上解決了關系重疊問題,但在賓語和相關關系抽取時,僅將主語信息和文本特征融合,忽略了實體和關系之間的聯系,導致一些結構特征丟失。此外,該模型使用指針網絡標注實體的首尾,在標注較長實體時該網絡對邊界的識別比較敏感,容易出現實體識別不穩(wěn)定的問題[18]。
對抗學習一般都應用于計算機視覺領域[19]。隨著自然語言處理的發(fā)展,2016年,Papernot等[20]開始研究在文本中應用對抗樣本的問題,他們采用快速梯度標志法(fast gradient sign method,FGSM)來尋找對抗樣本,并在多個場景下對梯度生成對抗樣本的可行性進行了研究。Samanta等[21]使用插入、刪除、替換3個修改策略生成對抗樣本,應用于分類結果。Chen等[22]將對抗訓練應用到關系抽取模型中,在多個數據集上都取得了不錯的效果。
基于上述研究,本文中提出了AMFRel模型,其中構建了信息融合模塊來減輕結構特征有限的問題,并且在識別醫(yī)療實體時,加入對抗訓練來緩解醫(yī)療實體長度過長造成的識別不穩(wěn)定問題,從而提高了模型在醫(yī)療文本中抽取三元組的性能。
為了解決中文醫(yī)療文本實體密度大、關系復雜所導致的三元組抽取效果不佳的問題,提出了基于對抗學習與多特征融合的中文電子病歷實體關系聯合抽取模型(AMFRel)。該模型利用ERNIE-Health模型的醫(yī)療實體掩碼策略和對抗學習來提高模型辨別實體邊界的能力,并通過融合中文電子病歷文本特征、主語特征和關系特征3個提示信息,抽取與關系特征相關聯的賓語,進而構建醫(yī)療三元組。本文模型由以下幾部分組成:嵌入模塊、主語抽取模塊、信息融合模塊、關系及相應賓語抽取模塊,如圖1所示。首先,通過預訓練模型對醫(yī)療文本進行編碼,以獲取文本的特征向量,同時利用文本的詞性信息來輔助主語抽取任務。然后將主語特征、文本特征和關系特征送入信息融合模塊進行特征融合,以預測特定關系下的賓語,最后得到醫(yī)療文本的三元組表示。
圖1 AMFRel模型
2.1.1 文本特征
2019年,受Bertmask策略的啟發(fā),Sun等[23]提出了一個新的語言模型ERNIE(enhanced representation through knowledge integration),旨在改進BERT在中文自然語言處理領域表現不佳的問題。與BERT的token屏蔽策略不同,該模型提出了Knowledge Masking策略,它除了token級別的屏蔽策略外,還擁有短語級別和實體級別的屏蔽策略,能夠更加全面地考慮到句子中的先驗信息,提高模型對字詞和短語的理解。本文采用的預訓練模型是ERNIE-Health[24],它以ERNIE模型為基礎,運用醫(yī)療實體掩碼策略來學習醫(yī)療文本中的專業(yè)術語。通過該策略,ERNIE-Health能夠有效地掌握醫(yī)療領域中豐富的實體信息。此外,它還利用醫(yī)療問答數據獲取實體間的內在聯系,提升了對醫(yī)療文本的理解和建模能力。該模型的屏蔽策略如圖2所示,例如句子“糖尿病腎病造成下肢浮腫”,除了隨機選擇的token級別的屏蔽策略外,還有實體級別的“下肢浮腫”和短語級別的“造成”。
圖2 ERNIE-Health的屏蔽策略
具體過程如圖1嵌入模塊所示,將文本句子S={s1,s2,s3,…,sN}和實體間關系G={g1,g2,g3,…,gM}輸入到ERNIE-Health模型,其中,si代表文本句子的第i個字符,gi代表實體間關系的第i個字符,N和M分別代表文本句子和實體間關系的長度,最后得到輸出序列和
2.1.2 詞性特征
詞性是一種常見的語言學術語,通過對詞的特征進行分類,可以獲取更深層次的語義特征。觀察發(fā)現,在醫(yī)療三元組中,主語、賓語及兩者之間的關系通常都是名詞或動詞,獲取詞性信息對于三元組的抽取有一定的幫助[25]。因此,本文在模型中引入了詞性特征,首先使用jieba分詞軟件對醫(yī)療文本進行分詞與詞性標注,并將文本中出現的詞性類別整合為一個字典。然后,構建與文本信息對應的詞性類別編碼序列C={c1,c2,c3,…,cN},其中ci表示第i個詞對應的詞性類別編碼。最后,對離散的詞性信息進行處理,將其送入預訓練模型中,通過訓練得到融合了文本特征和詞性特征的編碼序列A={a1,a2,a3,…,aN}。
2.1.3 對抗訓練
醫(yī)療文本實體密度大,使用指針網絡進行實體標注時,如果漏標,容易導致實體邊界識別出現誤差。所以模型中使用對抗學習的方法,利用噪聲數據進行對抗訓練,提高模型辨別實體邊界的能力。對抗訓練的范式形式是通過內部損失最大化來尋找對抗擾動,當擾動固定時,外部進行網絡優(yōu)化得到內部對抗樣本的損失函數最小化[26]。計算方法如式(1)所示。
式中:θ代表模型參數;x代表輸入的文本;y代表輸入文本對應的標簽;Δx是指對原始文本的對抗擾動;s是指擾動的空間。首先,在原始文本中加入擾動,使得現有模型盡可能多地出錯,也就是使Loss(x+Δx,y;θ)的值盡可能大,以獲得最適宜的擾動。然后,利用外部的minθE(x,y)使擾動固定后的損失最小化,進一步優(yōu)化模型的參數,提高模型辨別實體邊界的能力,進而增強關系三元組的抽取性能。
主語抽取就是抽取文本中的主語信息。醫(yī)療文本中存在關系重疊的問題,本文采用了指針網絡標注策略,利用首尾指針來標注文本中主語的起始位置。具體過程:首先將嵌入模塊獲得的編碼序列A={a1,a2,a3,…,aN}輸入到全連接層進行特征處理,然后將其送入用于二分類任務的sigmoid函數中,得到token的概率值輸出。如果概率值比設置的閾值大,則將其位置的token標記為1,否則標記為0。計算方法如式(2)、式(3)所示。
完成閾值判斷和0/1標注后,可以得到主語的頭尾token,然后采用“鄰近原則”,先找出主語的頭位置,也就是概率值大于設置閾值的位置,隨后尋找頭token之后最近的概率值大于設置閾值的位置,最終得到主語。
醫(yī)療實體間關系復雜,如果僅僅使用嵌入模塊得到的編碼向量進行后續(xù)的關系與賓語的抽取,則獲取的結構特征非常有限。針對該問題,在AMFRel模型中構建了信息融合模塊。首先,將融合詞性特征的文本編碼向量與關系向量進行拼接,將其輸入到BiLSTM中獲取更深層次的語義信息。然后,將主語編碼與深層語義信息進行融合得到多結構特征的編碼向量。最后,將其送入多頭自注意力機制[27],該機制通過引入多個注意力頭,使得模型能夠學習到不同的注意力模式,從而更好地捕捉輸入序列中的關鍵信息。這一信息融合模塊通過對多種結構特征進行融合,提高了醫(yī)療三元組的抽取性能。
將融合詞性特征的文本編碼向量A與關系特征Hg進行拼接,在拼接前對關系特征Hg進行padding操作。這個過程是為了使關系詞與醫(yī)療文本之間產生交互,通過這種方式可以使模型區(qū)分出醫(yī)療文本中的中文字符與關系詞的關聯程度,從而利用不同的關系特征識別相應的賓語。接著將拼接后的編碼向量H輸入到BiLSTM中,該網絡可以從2個方向對信息進行編碼,學習到更豐富的上下文內容,從而獲得更深層次的融合序列L={l1,l2,l3,…,lN}。計算公式如式(4)—式(8)所示。
豐富的結構特征能夠提升后續(xù)的關系及相應賓語抽取性能。本文還將主語的編碼信息ai和拼接關系特征詞的文本向量li進行融合,得到多種結構特征向量。該融合方式采用條件批處理規(guī)范化層(conditional layer normalization,CLN),通過2個變換矩陣進行維度變換,并將變換結果融合到了α和β中。計算公式如式(9)—式(10)所示。
式中:O為特征融合后的向量;μ和σ2表示L的均值和方差;α和β是指縮放和平移的參數值;Wα和Wβ是變換矩陣。
醫(yī)療文本中醫(yī)療實體分布密集,且在進行后續(xù)操作時實體的重要程度不一。因此,在進行特征融合后,本文采用多頭自注意力機制對融合特征進行處理,該機制能夠捕捉句子中實體之間的關聯關系,從而提高模型抽取三元組的準確率。
在該模塊中,使用2.3節(jié)中得到的融合向量進行關系及相應賓語抽取。與抽取主語的方法相同,首先將得到的編碼向量P={p1,p2,p3,…,pN}輸入到一個全連接層進行特征處理,然后將輸出結果輸入到sigmoid函數中,以獲取每個token的概率值輸出。如果概率值比設定的閾值大,則標記該token為1,反之為0。計算方法如式(12)、式(13)所示。
本文在抽取主語和賓語時使用的都是二分類標注的方法,因此在計算損失函數時采用二值交叉熵損失函數(binary cross entropy loss,BCELoss)[28]。計算方法如式(13)、式(14)所示。
AMFRel模型在2個數據集上進行了實驗,一個是CHIP2020中文醫(yī)療文本實體關系抽取數據集,由鄭州大學自然語言處理實驗室和北京大學計算語言學教育部重點實驗室一起構建。該數據集包括了53個預定關系類別,常見疾病的訓練語料有上百種,都來源于專業(yè)醫(yī)生編寫的教材[29]。部分關系三元組schemas如表1所示。
表1 CHIP2020數據集部分關系三元組schemas
第2個數據集來源于某市疾控中心,已對其進行脫敏處理。該數據集主要包含糖尿病的多種發(fā)病癥狀與相關治療手段,其中包括1 130條醫(yī)療文本,5 774個三元組數據和13種實體間關系。這些實體間的關系涵蓋了手術-并發(fā)癥、藥物-疾病、手術-疾病等。部分關系三元組schemas如表2所示。
表2 糖尿病數據集部分關系三元組schemas
本次實驗將在這2個數據集上進行,數據集詳情如表3所示。
表3 數據集信息
本文評價指標采用準確率(Precision)、召回率(Recall)和F1值。計算公式如式(15)—式(17)所示。
式中:TP為正樣本判為正的個數;FP為正樣本判為負的個數;FN為負樣本判為正的個數。
為找到最適合模型的學習率,在CHIP2020關系抽取數據集上使用了不同的學習率進行訓練和評估,Batch_size大小設置為4。具體來說,我們嘗試了1×10-5、1×10-6、1×10-6、2×10-64種不同的學習率,結果如表4所示。
表4 CHIP2020數據集不同學習率下結果
根據表4的結果可以看出,在不同學習率下的F1值不同。通過觀察可以發(fā)現在CHIP2020關系抽取數據集中,學習率為0.000 01時模型表現最佳,F1值為60.418%。因此,在模型訓練過程中,設置學習率為0.000 01。
本次實驗模型參數設置見表5,其中BERT編碼器版本為chinese-bert-wwm-ext,ERNIE編碼器版本為ERNIE-Health。
表5 模型參數設置
為了驗證AMFRel模型的效果,在CHIP2020關系抽取數據集和糖尿病數據集上進行了實驗,并將其與基線模型進行對比。這些基線模型有PRGC[30]:使用token-pair進行分類,是一個基于潛在關系和全局指針網絡的實體關系聯合抽取框架;SPN[31]:將關系抽取看作一個seq2seq問題,屬于聯合抽取中的多任務學習方法;GRTE[32]:使用表格填充的方式,并考慮全局信息來進行三元組抽?。籆ASREL[17]:采用級聯二進制方法,首先識別出主語,再識別出特定關系下的賓語,最后抽取出三元組。
表6展示了CHIP2020關系抽取數據集的基線、PRGC、SPN、GRTE、CASREL、CASRELERNIE模型在CHIP2020關系抽取數據集上的實驗結果。
表6 CHIP2020數據集上各模型結果%
表7展示了糖尿病數據集在PRGC、SPN、GRTE、CASREL和CASRELERNIE模型上的結果。
表7 糖尿病數據集上各模型結果%
表6和表7的結果表明,AMFRelBERT模型在CHIP2020關系抽取數據集中取得了59.537%的F1值,超越該數據集提供的基線。此外,將AMFRelBERT模型與基于潛在關系和全局指針網絡的關系抽取模型PRGC、基于seq2seq的關系抽取模型SPN、基于表格填充的關系抽取模型GRTE和基于級聯二進制結構的關系抽取模型CASREL進行了對比,在以Chinese-bert-wwm-ext作為預訓練模型的前提下,AMFRelBERT模型在CHIP2020關系抽取數據集和糖尿病數據集上的準確率、召回率以及F1值這3個指標均有所提升。
具體而言,在CHIP2020關系抽取數據集上,與CASREL模型相比,AMFRelBERT在精確度、準確率和F1值上分別提高了3.901%、1.298%和1.374%;在糖尿病數據集上,AMFRelBERT相對于CASREL模型在精確度、準確率和F1值上分別提升了2.792%、3.028%和1.936%。這表明,在模型中融入多結構特征并引入對抗擾動對提升三元組的抽取性能是有效的。
此外,相較于AMFRelBERT,AMFRelERNIE在2個數據集上的F1值分別提升了0.881%和1.377%。這是因為ERNIE-Health采用了與傳統(tǒng)BERT不同的屏蔽策略,并且該預訓練模型使用醫(yī)療相關的數據進行訓練,從而更適用于醫(yī)療文本的關系抽取。這也進一步證明了AMFRel模型在醫(yī)療文本關系抽取方面具有較好的表現。
為了驗證本文模型中各個模塊的有效性,在CHIP2020關系抽取數據集和糖尿病數據集上進行了消融實驗,實驗結果如表8、表9所示。
表8 CHIP2020數據集的消融實驗結果%
表9 糖尿病數據集的消融實驗結果%
從表中結果可以看出,在移除本文模型中的對抗訓練后,CHIP2020關系抽取數據集和糖尿病數據集上的F1值分別下降了0.713%和1.084%。這表明移除對抗訓練會降低模型抽取三元組的性能。另外,移除詞性特征后,CHIP2020關系抽取數據集和糖尿病數據集上的F1值分別下降了0.515%和0.704%。這是由于醫(yī)療三元組中的實體及關系基本都是名詞或動詞,去掉詞性信息會導致模型無法獲取更深層次的語義特征,從而導致性能下降。最后,移除信息融合模塊后,CHIP2020關系抽取數據集和糖尿病數據集上的F1值分別下降了0.732%和1.356%。這說明信息融合模塊能夠提升模型在醫(yī)療文本三元組抽取方面的性能,驗證了該模塊的有效性。
提出了一種基于對抗學習與多特征融合的中文電子病歷實體關系聯合抽取模型AMFRel,旨在解決關系抽取時因醫(yī)療文本實體密度大且實體間關系復雜而導致醫(yī)療名詞識別不準確的問題。該模型利用融合了詞性特征的文本編碼向量抽取主語,并通過信息融合模塊獲取更加豐富的文本結構特征,從而更有效地進行關系與相應賓語的抽取,最終得到了醫(yī)療文本的三元組信息。此外,模型還利用對抗訓練緩解指針網絡進行標注時帶來的實體邊界識別不穩(wěn)定問題。實驗結果表明,該模型在F1值上的表現優(yōu)于其他模型,證明了AMFRel模型能夠有效識別中文醫(yī)療文本中的復雜關系。在未來的研究中將嘗試引入更加豐富的結構特征,并進行深入探索,進一步增強關系抽取效果。