于 鵬,陳鈺楓,徐金安,張玉潔
(北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)
命名實(shí)體識別(Named Entity Recognition, NER)是信息抽取中最主要的子任務(wù),其目的是從非結(jié)構(gòu)化的文本句子或段落中識別出特定類型的實(shí)體詞。命名實(shí)體識別的準(zhǔn)確度往往對下游任務(wù)有很大影響,包括實(shí)體關(guān)系抽取、知識圖譜構(gòu)建等。近年來,由于社會各行業(yè)信息化的蓬勃發(fā)展,自然語言處理的研究也逐漸延伸到專業(yè)領(lǐng)域中,醫(yī)療領(lǐng)域的命名實(shí)體識別成為了業(yè)界的熱門話題。醫(yī)療領(lǐng)域中又以電子病歷(Electronic Medical Records, EMR)數(shù)據(jù)規(guī)模最大、數(shù)量最多,成為了醫(yī)療信息處理的重點(diǎn)。電子病歷是患者就醫(yī)過程中產(chǎn)生的有關(guān)個(gè)人病情、病機(jī)、既往病史等信息的整合,還包括就診過程中接受的檢查診斷、治療等醫(yī)療過程的信息,是患者最重要的健康檔案。電子病歷對教學(xué)、科研及醫(yī)療機(jī)構(gòu)管理都有著重要的作用,同時(shí)也廣泛用于研究疾病規(guī)律,以及作為處理醫(yī)療糾紛的法律依據(jù)。電子病歷中的信息往往以非結(jié)構(gòu)化形式存在,對電子病歷的實(shí)體識別任務(wù)主要包括從數(shù)據(jù)中抽取主訴癥狀、診斷信息、檢查方法、藥物信息、身體部位等關(guān)鍵性詞語。本文主要研究中文電子病歷文本的實(shí)體識別方法。
目前中文電子病歷實(shí)體識別的難點(diǎn)主要體現(xiàn)在:
1)專有名詞問題。電子病歷數(shù)據(jù)中往往包含著大量的領(lǐng)域名詞和專業(yè)術(shù)語,包括醫(yī)學(xué)檢查、疾病、解剖部位、醫(yī)藥等相關(guān)名詞。例如“奧沙利鉑200毫克,希羅達(dá)1.5日二次”中的“奧沙利鉑”和“希羅達(dá)”均為藥品名稱。如果這些詞尚未在數(shù)據(jù)集中出現(xiàn)或出現(xiàn)頻次較少,則模型可能無法成功識別。
2)一詞多義問題。同樣的名詞在不同領(lǐng)域中可能存在一詞多義的現(xiàn)象。例如“腿部有小處淤青”中的“腿”為解剖學(xué)術(shù)語,應(yīng)當(dāng)作為實(shí)體詞而被抽取,但數(shù)據(jù)中如果出現(xiàn)“雞腿”或“鴨腿”,則“腿”字不需要做實(shí)體切分,因?yàn)樗瞧胀~而非解剖術(shù)語。
3)非結(jié)構(gòu)化和用語規(guī)范問題。電子病歷多為醫(yī)生坐診時(shí)的書寫筆記,因此存在非結(jié)構(gòu)化的特點(diǎn),其表達(dá)、句式往往較為隨意而缺乏嚴(yán)謹(jǐn)性??谡Z化表達(dá)較為普遍,同時(shí)存在大量的簡寫、縮寫等形式。比如例句“伴輕度發(fā)燒,精神可,服烷胺片一日三次”中,“伴”“可”“服”分別代表“伴隨”“尚可”和“口服”。這些非規(guī)范書寫形式也為電子病歷的實(shí)體識別帶來了困難。
電子病歷實(shí)體識別的另一個(gè)困難是語料庫存在不同實(shí)體類別數(shù)量差距過大的情況,進(jìn)而會造成模型效果的下降,因此需要解決樣本不平衡問題。由于臨床電子病歷數(shù)據(jù)的特點(diǎn),需要設(shè)計(jì)低偏差、樣本類內(nèi)分布均勻的算法。
針對電子病歷實(shí)體識別的難點(diǎn),本文設(shè)計(jì)一種聯(lián)合實(shí)體識別和分詞的多任務(wù)訓(xùn)練方法,并提出均衡樣本過采樣來擴(kuò)充語料庫。實(shí)驗(yàn)結(jié)果顯示本文提出的模型和方法在電子病歷數(shù)據(jù)上的實(shí)體識別性能較基線模型有了較大提升。
命名實(shí)體識別的研究已有數(shù)十年的歷史,早期的命名實(shí)體識別方法是基于規(guī)則和詞典匹配的方法,包括正向最大匹配、逆向最大匹配和雙向匹配3種方法;后來出現(xiàn)了基于統(tǒng)計(jì)的實(shí)體識別方法,包括隱馬爾科夫模型和條件隨機(jī)場[1]。近幾年,由于計(jì)算機(jī)的迅速普及和硬件成本的降低,基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)命名實(shí)體識別方法得到廣泛應(yīng)用[2],其中Bi-LSTM-CRF最具代表性[3-5]。Zhang等人[6]基于循環(huán)結(jié)構(gòu)設(shè)計(jì)出了Lattice-LSTM結(jié)構(gòu)用于實(shí)體識別。2018年出現(xiàn)了以Elmo[7]、BERT[8-9]為代表的預(yù)訓(xùn)練模型。通過在大規(guī)模語料上無監(jiān)督學(xué)習(xí),并微調(diào)到下游任務(wù)以提升性能。王得賢等人[10]聯(lián)合字詞級別信息利用注意力機(jī)制捕捉詞語內(nèi)部表示,在法律文書文本上取得較好效果。近年來出現(xiàn)很多遷移方法,例如遷移閱讀理解任務(wù)來做實(shí)體識別的方法[11]以及利用變分編碼器來捕捉低頻次實(shí)體的方法[12]。
面向醫(yī)療電子病歷的實(shí)體識別研究一直是近年來的熱門話題,其包括術(shù)語抽取以及疾病、藥物或癥狀抽取等任務(wù)。Jia等人[13]結(jié)合實(shí)體識別和無監(jiān)督語言模型方法,實(shí)現(xiàn)醫(yī)療文本的跨領(lǐng)域NER任務(wù),在BioNLP13PC、BioNLP13CG生物醫(yī)療語料庫上效果顯著。Schneider等人[14]利用多國語言BERT在臨床記錄和生物醫(yī)學(xué)文獻(xiàn)2類數(shù)據(jù)上做微調(diào)遷移訓(xùn)練,在小語種SemClinBr臨床數(shù)據(jù)集上達(dá)到了更高的F1值。趙耀全等人[15]利用凝固度算法進(jìn)行新詞發(fā)現(xiàn),使用Lattice-LSTM對字符和所有關(guān)聯(lián)詞聯(lián)合編碼,在自建數(shù)據(jù)集上取得了很好的效果。羅熹等人[16]結(jié)合一個(gè)包含多種臨床實(shí)體的領(lǐng)域詞典來抽取位置標(biāo)簽,性能表現(xiàn)出了明顯的提升。張旭等人[17]融合外部詞典構(gòu)造詞特征,取得了不錯(cuò)的效果。
多任務(wù)學(xué)習(xí)是同時(shí)具有多個(gè)損失函數(shù)的模型,在訓(xùn)練不同任務(wù)的過程中建立復(fù)雜的數(shù)學(xué)模型,并通過有效的歸納偏置(Inductive Bias)來搜索最優(yōu)解。多任務(wù)學(xué)習(xí)將多個(gè)相似的任務(wù)并行訓(xùn)練,通過共享網(wǎng)絡(luò)層捕捉不同任務(wù)的全局信息表示來提高泛化性,從而構(gòu)建出更通用的向量空間。研究發(fā)現(xiàn)多任務(wù)的共享層可以有效地消除不同任務(wù)中的噪聲信息,構(gòu)建出更平滑的模型空間,這極大地緩解了模型的過擬合問題,增強(qiáng)了模型魯棒性。近年來多任務(wù)學(xué)習(xí)在很多研究領(lǐng)域都表現(xiàn)出了較好的性能[18-20]。Peng等人[21]利用多任務(wù)學(xué)習(xí)方法實(shí)現(xiàn)領(lǐng)域遷移序列標(biāo)注,驗(yàn)證了多任務(wù)學(xué)習(xí)的有效性。Chen等人[22]設(shè)計(jì)出融合對抗機(jī)制的多任務(wù)學(xué)習(xí)框架來實(shí)現(xiàn)多標(biāo)準(zhǔn)分詞,在8個(gè)不同標(biāo)準(zhǔn)的分詞語料中取得較好的效果。多任務(wù)學(xué)習(xí)用于生物醫(yī)學(xué)的跨領(lǐng)域?qū)嶓w識別也涌現(xiàn)了很多成果。Zhao等人[23]提出了一種融合顯式回傳策略(Explicit Feedback Strategies)的多任務(wù)學(xué)習(xí)框架,將醫(yī)學(xué)實(shí)體識別和實(shí)體標(biāo)準(zhǔn)化進(jìn)行聯(lián)合訓(xùn)練,在BC5CDR任務(wù)語料和NCBI疾病語料上的實(shí)驗(yàn)取得了較好的結(jié)果。Li等人[24]提出基于筆畫的Elmo預(yù)訓(xùn)練模型生成上下文向量表示,使用多任務(wù)學(xué)習(xí)在CCKS17和CCKS18數(shù)據(jù)集上取得了更高的F1值。
雖然目前在電子病歷NER任務(wù)上已經(jīng)涌現(xiàn)出很多成果,并取得不錯(cuò)的實(shí)驗(yàn)結(jié)果,但由于電子病歷語料的特點(diǎn),已有模型依然不能很好地識別數(shù)據(jù)中的領(lǐng)域術(shù)語,在多義詞和表達(dá)不規(guī)范的情況下也難以正確判斷實(shí)體類型。造成這一問題的原因是模型在電子病歷NER中容易受噪聲、錯(cuò)誤標(biāo)注樣本等因素影響,難以收斂到最優(yōu)值。因此如何構(gòu)建出泛化性強(qiáng)、魯棒性高的模型成為解決這些問題的關(guān)鍵。
對此本文提出聯(lián)合電子病歷實(shí)體識別和中文分詞的多任務(wù)學(xué)習(xí)方法,利用分詞作為輔助任務(wù)提升實(shí)體識別的性能。本文中的分詞語料庫也來自醫(yī)療領(lǐng)域,因此與電子病歷存在較強(qiáng)的相關(guān)性,適合用作輔助任務(wù)。本文為2項(xiàng)任務(wù)分別設(shè)置私有層來捕捉任務(wù)局部信息,同時(shí)加入共享層捕捉它們的全局信息。在訓(xùn)練時(shí)共享層可以編碼各任務(wù)的局部特征表示,同時(shí)提取不依賴任務(wù)的通用特征,降低對噪聲等負(fù)面因子的關(guān)注度,以達(dá)到優(yōu)化任務(wù)性能的目的。
樣本不平衡會給模型訓(xùn)練以及預(yù)測帶來很大影響,尤其在文本分類、情感分類、實(shí)體識別等任務(wù)中。傳統(tǒng)樣本不平衡的解決方法有欠采樣(Under-sampling)、過采樣(Over-sampling)和人工少樣本過采樣(Synthetic Minority Over-sampling Technique, SMOTE)方法。欠采樣方法通過刪除樣本來縮減數(shù)量多的類別以均衡樣本分布;過采樣則是增加數(shù)量少類別的樣本數(shù)緩解問題;SMOTE方法通過生成小類別的近鄰樣本來產(chǎn)生新數(shù)據(jù),增加數(shù)量的同時(shí)也能保持樣本的均勻分布。Han等人[25]提出了改進(jìn)的SMOTE方法,通過限定生成樣本的空間來解決樣本重疊問題。
由于本文數(shù)據(jù)具有領(lǐng)域性強(qiáng)、無結(jié)構(gòu)和無規(guī)范等特點(diǎn),上述方法可能無法提升效果。因此本文提出均衡過采樣數(shù)據(jù)增強(qiáng)方法,使用K近鄰算法優(yōu)先選擇較遠(yuǎn)樣本過采樣,以防止樣本分布偏差過大。本文將在第3章通過實(shí)驗(yàn)驗(yàn)證算法的有效性。
在本文中,命名實(shí)體識別和分詞任務(wù)都使用序列標(biāo)注來處理,給定長度為N的輸入序列I=(i1,i2,i3,…,iN),輸出等長的序列O=(o1,o2,o3,…,oN)。其中輸出序列為規(guī)定的標(biāo)簽序列。一般是將待識別的文本指定為輸入序列,將句子中每個(gè)字符的實(shí)體標(biāo)簽指定為輸出序列。序列標(biāo)注方法廣泛應(yīng)用于分詞、實(shí)體識別、詞性標(biāo)注、語義角色標(biāo)注等任務(wù)中。標(biāo)簽格式方面,在命名實(shí)體識別中標(biāo)簽采用(B,I,O)類型,其中B代表實(shí)體的起始字符,I代表實(shí)體詞內(nèi)除起始字符外的其它字符,O代表不屬于任何實(shí)體詞的字符。在分詞中標(biāo)簽采用(B,I)類型,其中B代表詞的起始字符,I代表除起始字符外該詞的其它字符。神經(jīng)網(wǎng)絡(luò)模型接收輸入序列,通過編碼器生成向量表示,再通過解碼器解碼后輸出標(biāo)簽序列。
本文的模型整體框架如圖1所示,該模型使用Bi-LSTM網(wǎng)絡(luò)作為多任務(wù)的私有層來實(shí)現(xiàn)局部特征編碼,基于自注意力機(jī)制(Self-Attention Mechanism)[26]設(shè)計(jì)共享層全局編碼器,并借助注意力機(jī)制在Seq-to-Seq翻譯模型中的原理,提出通用特征增強(qiáng)機(jī)制來準(zhǔn)確地捕獲通用特征中有用的信息,同時(shí)使用均衡樣本過采樣方法來解決實(shí)體不平衡問題。
圖1 多任務(wù)學(xué)習(xí)系統(tǒng)整體框架
子任務(wù)網(wǎng)絡(luò)層相當(dāng)于一個(gè)獨(dú)立的模型,其作用是構(gòu)建特征子空間,是多任務(wù)模型的私有層。子任務(wù)層具備較強(qiáng)的針對當(dāng)前任務(wù)編碼的能力,能夠在當(dāng)前任務(wù)下生成深層語義關(guān)系表示。每個(gè)子任務(wù)層都具有相同的模型結(jié)構(gòu),分別以不同任務(wù)的語料作為輸入。首先通過Embedding映射來實(shí)現(xiàn)字符級別的向量表示,隨后使用Bi-LSTM對輸入向量做上下文編碼以獲取長短期記憶表示,最后將雙向隱層特征拼接后輸出得到子任務(wù)編碼。
2.3.1 字符Embedding模塊
數(shù)據(jù)集中的內(nèi)容都是文字文本,無法直接被計(jì)算機(jī)處理。因此設(shè)計(jì)出字符Embedding模塊,將文本中的字符首先轉(zhuǎn)換為高維One-Hot向量表示,隨后映射到一個(gè)低維、稠密的向量空間中。
2.3.2 融合上下文信息的Bi-LSTM網(wǎng)絡(luò)
在醫(yī)療領(lǐng)域數(shù)據(jù)中存在很多專有名詞,這些專有名詞需要深層理解上下文語義才能準(zhǔn)確識別。且部分未登錄實(shí)體需要依賴前后距離較遠(yuǎn)的信息才能準(zhǔn)確預(yù)測,一詞多義情況也需要借助上下文來準(zhǔn)確推測。因此如何有效地編碼上下文信息就變得較為重要。LSTM網(wǎng)絡(luò)的長短時(shí)記憶特性可以幫助有效地獲取文本句子中的長距離依賴信息,在過去很多研究成果中扮演著重要角色。LSTM的前向計(jì)算過程如下:
ft=σ(Wf·[ht-1;xt]+bf)
(1)
it=σ(Wi·[ht-1;xt]+bi)
(2)
ot=σ(Wo·[ht-1;xt]+bo)
(3)
(4)
(5)
ht=ot·tanh(Ct)
(6)
本文采用雙向LSTM神經(jīng)網(wǎng)絡(luò)來進(jìn)行任務(wù)內(nèi)局部編碼,對于每個(gè)方向的LSTM都使用上述公式計(jì)算,將雙向的隱層輸出拼接,并做線性變換和激活得到子任務(wù)向量表示。具體過程如下:
(7)
(8)
ht=[htf;htb]
(9)
(10)
注意力機(jī)制通過權(quán)重分配策略,使模型對信息的不同方面給予不同關(guān)注度,因而可以有效地捕捉特征。多頭自注意力機(jī)制[26]將向量映射到多個(gè)不同的子空間,可以有效地從不同方面對序列編碼。本文提出多頭自注意力機(jī)制全局編碼器作為多任務(wù)模型的共享層,將所有任務(wù)的語料作為輸入,在訓(xùn)練的過程中可以從不同領(lǐng)域數(shù)據(jù)中提取出它們潛在的共有信息,并消除噪聲等信息。
全局編碼器的輸入為字符Embedding與其位置編碼(Positional Encoding)[8]的向量和,得到融合位置編碼信息的輸入序列E={e1,e2,e3,…,eN}。將E按注意力頭切分,通過線性變換映射為查詢矩陣Q,鍵矩陣K和值矩陣V。使用多頭自注意力機(jī)制計(jì)算注意力加權(quán)和,如公式(11):
(11)
其中,d為單個(gè)注意力頭向量的維度。
將多個(gè)注意力頭的結(jié)果拼接得到全局編碼器的最終輸出zn,如公式(12):
(12)
最后使用前饋神經(jīng)網(wǎng)絡(luò)將多頭注意力輸出做線性變換和激活,具體過程如公式(13):
(13)
其中,W1、W2、b1、b2為可學(xué)習(xí)參數(shù),ReLU是激活函數(shù)。
全局編碼器可以有效地提取不依賴于任務(wù)的全局特征,然而全局特征中并非所有的信息都是必要的,不相關(guān)的信息會造成模型負(fù)遷移。由于在共享層中同時(shí)混入了多個(gè)任務(wù)的數(shù)據(jù),特征信息會十分冗雜,模型搜索空間也隨之變大,模型會更難以收斂到最優(yōu)解。為解決這一問題,本文嘗試?yán)米⒁饬C(jī)制幫助模型選取對實(shí)體識別作用大的信息并過濾無關(guān)信息。通過調(diào)整權(quán)重幫助模型關(guān)注重要的部分,忽略不重要的部分,使模型更快、更有效地收斂,進(jìn)一步增強(qiáng)模型的泛化能力。具體做法是,將實(shí)體識別子任務(wù)隱層編碼輸出HSN按注意力頭切分,并通過線性變換得到QS矩陣;同時(shí)將全局編碼器的輸出HGN按注意力頭切分,并通過線性變換得到KG、VG矩陣,將上述矩陣進(jìn)行注意力計(jì)算,過程如下:
(14)
其中,d為單個(gè)注意力頭向量的維度。
將多個(gè)注意力頭的結(jié)果拼接得到注意力編碼輸出,如公式(15):
(15)
使用前饋神經(jīng)網(wǎng)絡(luò)做線性變換和激活,得到通用特征增強(qiáng)表示HEN。將HEN與子任務(wù)輸出向量HSN拼接得出融合通用特征的實(shí)體識別任務(wù)編碼輸出HN。
對于不使用通用特征增強(qiáng)機(jī)制的分詞任務(wù),通過將全局編碼器的隱層輸出HGW與分詞子任務(wù)的隱層輸出HSW拼接,得到分詞任務(wù)編碼輸出HW。
(16)
(17)
則公式(16)變?yōu)?
(18)
對等式兩邊取對數(shù),則似然函數(shù)的計(jì)算公式為:
(19)
由于本文使用實(shí)體識別和分詞任務(wù)聯(lián)合訓(xùn)練,因此設(shè)置2個(gè)目標(biāo)函數(shù)優(yōu)化模型,實(shí)體識別目標(biāo)函數(shù)如公式(20)所示,分詞目標(biāo)函數(shù)如公式(21)所示。
(20)
(21)
其中,ΘGLB代表全局編碼器的參數(shù),ΘNER代表NER子任務(wù)相關(guān)的參數(shù),ΘSEG代表分詞子任務(wù)相關(guān)的參數(shù)。
模型訓(xùn)練時(shí)的損失需要包含2個(gè)任務(wù)的對數(shù)似然損失以及L2正則化損失,并設(shè)置權(quán)重因子α、β權(quán)衡不同的損失項(xiàng),模型總體損失公式為:
L=αINER+(1-α)ISEG+βLL2_Loss
(22)
其中,INER和ISEG分別代表實(shí)體識別和分詞任務(wù)的對數(shù)似然損失,分別使用公式(20)、公式(21)來計(jì)算,IL2_Loss為相對于參數(shù)的L2正則化損失。
針對臨床電子病歷數(shù)據(jù)領(lǐng)域名詞多、多義詞普遍和缺乏規(guī)范性等特點(diǎn),本文提出均衡樣本過采樣方法。該方法基于“遠(yuǎn)距離樣本優(yōu)先采樣”思想,認(rèn)為遠(yuǎn)距離樣本包含語料中頻次低的詞語或語法表達(dá),因此對這些樣本過采樣會提升模型對它們的識別能力。具體做法是,首先使用GloVe[27]在數(shù)據(jù)集中訓(xùn)練字符向量,Glove融入了字的局部上下文特征和全局統(tǒng)計(jì)信息,比Word2Vec[28]更能夠生成語義更豐富的向量表示;將樣本的字符向量做加和得到樣本向量,并使用K近鄰法(K-Nearest Neighbor, KNN)[29]計(jì)算到其它樣本的最小距離,最后對最小距離值較大的樣本做上采樣。本方法既能擴(kuò)充少樣本同時(shí)也能防止類內(nèi)樣本分布偏差過大對模型造成影響。具體過程如算法1所示。
算法1均衡類內(nèi)樣本過采樣算法
輸入:同屬實(shí)體類型t的樣本集合D={d1,d2,d3,…,dT},GloVe語言模型,樣本增量N(N 輸出:均衡過采樣后的樣本集合S 在D上訓(xùn)練Glove語言模型得到GLM V←GLM(D) #將所有樣本映射為向量,并輸出到集合V fori←1 toTdo disi←Euclidean-distance(vi,KNN(vi,V)) #KNN算法輸出V中距離與vi最近的向量(vi除外),Euclidean-distance計(jì)算向量的歐幾里得距離 將disi加入到列表DIS中 end for forj←1 toNdo 取DIS中最大值并在D中找到對應(yīng)樣本aj 置DIS中最大值為0 將aj加入到列表A中 end for 對A中的所有樣本過采樣,得到A′ 將A′同D合并,得到S并輸出 本文使用CCKS2017、CCKS2020和Medicine這3個(gè)語料庫進(jìn)行實(shí)驗(yàn)。其中CCKS2017和CCKS2020都是全國知識圖譜與語義計(jì)算大會提供的電子病歷實(shí)體識別評測數(shù)據(jù)集;Medicine醫(yī)藥分詞數(shù)據(jù)集來自“好大夫在線”醫(yī)療平臺的醫(yī)學(xué)論壇,采用具有豐富從醫(yī)經(jīng)驗(yàn)的領(lǐng)域內(nèi)專家按照嚴(yán)格規(guī)范進(jìn)行人工標(biāo)注。本文對數(shù)據(jù)集進(jìn)行了統(tǒng)計(jì),結(jié)果如表1所示。 表1 數(shù)據(jù)集統(tǒng)計(jì) 其中CCKS2017和CCKS2020數(shù)據(jù)集標(biāo)簽為(B,I,O)類型。CCKS2017包含了5種實(shí)體,分別是“癥狀”“身體部位”“治療”“疾病診斷”和“檢查檢驗(yàn)”。CCKS2020包含了6種實(shí)體,分別是“影像檢查”“實(shí)驗(yàn)室檢驗(yàn)”“手術(shù)”“藥物”“疾病和診斷”以及“解剖部位”。Medicine的標(biāo)簽為(B,I)類型。本文分別對CCKS2017和CCKS2020中不同類別的實(shí)體數(shù)量進(jìn)行了統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果如表2和表3所示。不難看出,CCKS2020數(shù)據(jù)集中不同類別的實(shí)體數(shù)量差異較大,例如“解剖部位”類別實(shí)體明顯居多,而“影像檢查”和“實(shí)驗(yàn)室檢驗(yàn)”等類別實(shí)體則較為缺乏。同樣CCKS2017中“疾病診斷”和“治療”樣本數(shù)量缺乏嚴(yán)重。因此需要使用2.7節(jié)中的均衡樣本過采樣方法對這2種語料庫做數(shù)據(jù)增強(qiáng)。通過將包含“影像檢查”“實(shí)驗(yàn)室檢驗(yàn)”“手術(shù)”和“藥物”類別的樣本進(jìn)行擴(kuò)充,最終實(shí)體數(shù)量分布如表4所示。不難發(fā)現(xiàn)“影像檢查”等少樣本類別均擴(kuò)充到2500以上。同時(shí)也對CCKS2017做過采樣,“疾病診斷”和“治療”等少樣本類型數(shù)量均得到擴(kuò)充。 表2 CCKS2017數(shù)據(jù)集實(shí)體數(shù)量分布 表3 CCKS2020數(shù)據(jù)集實(shí)體數(shù)量分布 表4 增強(qiáng)后的實(shí)體數(shù)量分布(CCKS2020) 經(jīng)過對均衡過采樣后的CCKS2020數(shù)據(jù)集檢驗(yàn),可以發(fā)現(xiàn)由于采用了樣本向量遠(yuǎn)距離優(yōu)先的過采樣方法,增加了更多包含如“腹腔鏡上dixon術(shù)”“貝伐珠單抗”“肝轉(zhuǎn)移瘤rfa術(shù)”等出現(xiàn)頻率較少的樣本,而“胸部ct”“布洛芬”等使用頻率高的樣本不再增加。驗(yàn)證了均衡過采樣方法的有效性。 實(shí)驗(yàn)采用準(zhǔn)確率(Precision)、召回率(Recall)和F1值(F1-Measure)作為評測指標(biāo)。實(shí)體識別和分詞有不同的判定標(biāo)準(zhǔn),具體計(jì)算方法分別由公式(23)、公式(24)給出: (23) (24) 其中,t代表實(shí)體類別,實(shí)體識別需要對每個(gè)類別進(jìn)行F1值評估。分詞只需評價(jià)模型能否正確地預(yù)測出詞邊界即可(即準(zhǔn)確找出所有的“B”標(biāo)簽)。 首先將CCKS2020和Medicine分詞數(shù)據(jù)集用于訓(xùn)練多任務(wù)模型,實(shí)驗(yàn)超參數(shù)設(shè)置如表5所示。梯度下降優(yōu)化方法使用Adam方法,并采用L2正則化來防止模型過擬合。注意力機(jī)制方面,用于全局編碼的注意力機(jī)制層數(shù)設(shè)置為4,并且采用4頭注意力結(jié)構(gòu),通用特征增強(qiáng)機(jī)制也采用4頭注意力。 表5 超參數(shù)設(shè)置 權(quán)重因子方面,本文通過微調(diào)不同的權(quán)重因子以測試模型性能表現(xiàn)。圖2和圖3分別展示了α和β在不同取值時(shí)的性能對比。 圖2 不同α取值性能對比圖 圖3 不同β取值性能對比圖 由圖2不難看出,當(dāng)α取值在0.5時(shí)性能表現(xiàn)較好,低于0.5時(shí)性能出現(xiàn)一定程度下降,這是由于α取值過低會造成實(shí)體識別任務(wù)損失的權(quán)重降低,使模型得不到有效優(yōu)化;α取值在0.5~0.7時(shí)性能較為穩(wěn)定,而接近1時(shí)性能發(fā)生下降,原因是α較大使分詞損失權(quán)重降低,模型性能退化為單任務(wù)性能。 由圖3不難看出,β取值在0.95時(shí)性能最好,且在0.8~1.1之間時(shí)性能并未有太大變化。低于0.8時(shí)性能逐漸降低,這是由于β取值過低造成L2正則化損失權(quán)重降低,因而模型受到了過擬合的影響。 在對比實(shí)驗(yàn)的過程中,所有基線模型都使用一塊11 GB顯存的NVIDIA RTX 2080Ti顯卡訓(xùn)練。而本文提出的多任務(wù)訓(xùn)練方法需要構(gòu)建多個(gè)表示子空間,因此會占用更多的內(nèi)存,本文使用2張NVIDIA RTX 2080Ti顯卡訓(xùn)練模型。首先將上述基線系統(tǒng)用CCKS2020數(shù)據(jù)集訓(xùn)練,將多任務(wù)實(shí)體識別模型用CCKS2020和Medicine這2個(gè)數(shù)據(jù)集并行訓(xùn)練并測試,并對它們的結(jié)果按實(shí)體類型匯總。然后將基線模型用CCKS2017訓(xùn)練,將多任務(wù)實(shí)體識別模型用CCKS2017和Medicine這2個(gè)數(shù)據(jù)集并行訓(xùn)練并測試,并對結(jié)果按類型匯總。由于多任務(wù)實(shí)驗(yàn)用到的語料分別來自實(shí)體識別和分詞任務(wù),所以不必考慮重疊樣本問題對模型所帶來的影響。 首先使用CCKS2020語料庫展開實(shí)驗(yàn),采用命名實(shí)體識別常用的深度神經(jīng)網(wǎng)絡(luò)模型作為基線系統(tǒng)。包括BiLSTM-CRF[3]、BiLSTM-CNN-CRF[30]、BiLSTM-Att-CRF[31]、Lattice-LSTM[6]、IDDNN[32]、SETL[24]和BERT-CRF[8].BiLSTM-CRF為雙向LSTM加上CRF的標(biāo)注模型;BiLSTM-CNN-CRF加入了卷積神經(jīng)網(wǎng)絡(luò),利用卷積核的局部感知能力對RNN隱藏層作進(jìn)一步編碼,以獲得上下文字符的語義特征;BiLSTM-Att-CRF是融入注意力機(jī)制的BiLSTM-CRF模型,在各大任務(wù)上性能均取得有效提升;IDDNN采用不同策略融入詞典特征,提出N-Gram、帶有位置的分類特征和不帶位置的分類特征3種構(gòu)建策略,并針對字符和特征設(shè)計(jì)2種訓(xùn)練框架;SETL即基于筆畫Elmo的多任務(wù)模型;BERT為BERT_Base版本,采用通用領(lǐng)域語料預(yù)訓(xùn)練,并在本實(shí)驗(yàn)中使用CCKS2020語料進(jìn)行微調(diào)。由于本次實(shí)驗(yàn)是在過采樣的語料下展開,為確保實(shí)驗(yàn)的有效對照,本文按照IDDNN和SETL在原文中的介紹和設(shè)置,在服務(wù)器環(huán)境下搭建模型,并同BiLSTM等基線模型一同訓(xùn)練并測試。最終實(shí)驗(yàn)結(jié)果如表6所示。 表6 CCKS2020對比實(shí)驗(yàn)結(jié)果(F1) 單位:% 通過對上述實(shí)驗(yàn)結(jié)果的對比和分析,本文提出的模型在6類實(shí)體中有5類取得最高的F1值,綜合性能達(dá)到最好。SETL的Elmo筆畫預(yù)訓(xùn)練模型在CCKS2020語料庫上性能依舊很好,大多數(shù)類型的F1值均超過其它基線模型。Lattice-LSTM在“影像檢查”和“實(shí)驗(yàn)室檢驗(yàn)”實(shí)體類型中表現(xiàn)較好,但整體性能并未達(dá)到最好,原因是其在執(zhí)行過程中需要進(jìn)行分詞詞典構(gòu)建,而實(shí)驗(yàn)數(shù)據(jù)中可能存在未登錄詞,引發(fā)分詞錯(cuò)誤的問題。IDDNN在“疾病和診斷”和“解剖部位”表現(xiàn)較好,但整體性能不如Lattice-LSTM。BERT整體并未達(dá)到最好,原因是BERT為通用領(lǐng)域預(yù)訓(xùn)練模型,雖然具有強(qiáng)大的自注意力機(jī)制和殘差結(jié)構(gòu),但并未針對醫(yī)療領(lǐng)域知識進(jìn)行優(yōu)化,因此在臨床文本中表現(xiàn)較差。本文中的多任務(wù)結(jié)構(gòu)將類似BERT的注意力機(jī)制作為共享層,加入了多個(gè)Bi-LSTM私有層并行訓(xùn)練,將較大的模型空間劃分為多個(gè)子空間,減弱了噪聲等因素的影響,因而可以更有效地收斂到最優(yōu)解,實(shí)驗(yàn)性能也得到提升。 接下來用CCKS2017語料庫進(jìn)行實(shí)驗(yàn),其中實(shí)驗(yàn)設(shè)置、評價(jià)指標(biāo)和基線系統(tǒng)同CCKS2020一致,對BERT基線模型使用CCKS2017進(jìn)行微調(diào)。實(shí)驗(yàn)結(jié)果如表7所示。通過結(jié)果不難發(fā)現(xiàn)本文模型在3類實(shí)體上F1值高于其它基線模型,綜合性能達(dá)到最好。SETL在本實(shí)驗(yàn)中也取得了較高的結(jié)果,且在“癥狀”上獲得最高F1值,其它大部分實(shí)體也有較好表現(xiàn)。IDDNN在“身體部位”上效果最好,綜合性能也較為突出。Lattice-LSTM在“癥狀”上表現(xiàn)較好,但整體效果欠佳。BERT通用語言模型的效果依舊略差。由此再次驗(yàn)證本文提出模型的有效性。 表7 CCKS2017對比實(shí)驗(yàn)結(jié)果(F1) 單位:% 對包括基線系統(tǒng)在內(nèi)的所有模型測試結(jié)果做具體分析,發(fā)現(xiàn)本文模型能夠有效識別出電子病歷中的專業(yè)術(shù)語、領(lǐng)域名詞。部分醫(yī)學(xué)術(shù)語由于出現(xiàn)頻次低或上下文內(nèi)容存在誤導(dǎo),使得基線模型無法識別,但本文模型識別的準(zhǔn)確率明顯提高;一詞多義情況下性能相比其它基線系統(tǒng)也表現(xiàn)更好,如“多食用動物肝臟明目”中的“肝臟”可能會被基線系統(tǒng)錯(cuò)誤識別為“解剖部位”,在本文模型中此類問題得到了一定程度解決;對無規(guī)范、無結(jié)構(gòu)用語的樣本也能保持較好的識別效果。 本文也測試了所提出模型在Medicine語料上的分詞任務(wù)性能。通過在分詞子任務(wù)中加入通用特征增強(qiáng)機(jī)制來提升性能,并保持和NER任務(wù)一樣的參數(shù)設(shè)置?;€模型選取BiLSTM-CRF、BiLSTM-CNN-CRF、BiLSTM-Att-CRF和AMT Transfer Learning(AMTTL)[33]來作對比實(shí)驗(yàn),其中AMT Transfer Learning是另一種形式的多任務(wù)框架,使用了SIGHAN2005下的數(shù)據(jù)集作為輔助任務(wù)增強(qiáng)Medicine等語料的分詞性能,并引入KL散度等距離度量來約束任務(wù)之間的隱層表示相關(guān)性,從而確保模型保留更多領(lǐng)域不變信息。其余基線模型前文已有介紹,最終實(shí)驗(yàn)結(jié)果如表8所示。 表8 Medicine分詞實(shí)驗(yàn)結(jié)果(PRF) 單位:% 實(shí)驗(yàn)結(jié)果表明,本文多任務(wù)模型相比基線模型F1值提升了約3個(gè)百分點(diǎn),準(zhǔn)確率和召回率也有大幅度的提升,準(zhǔn)確率提升約5個(gè)百分點(diǎn)。對于未登錄詞(OOV)的分詞能力也有較大的改善。同為多任務(wù)框架的AMTTL在結(jié)果上也達(dá)到較好,對未登錄詞的切分能力較基線模型大幅提升,這也再次驗(yàn)證了多任務(wù)學(xué)習(xí)具有強(qiáng)大的泛化性,能夠防止陷入過擬合情況。 本節(jié)對比不同的模型架構(gòu),來驗(yàn)證本文模型在私有層設(shè)計(jì)上相比其它模型的優(yōu)勢,通過修改私有層結(jié)構(gòu)來生成不同模型。首先將模型中所有私有層的Bi-LSTM替換為BERT_Base結(jié)構(gòu),輸入維度調(diào)整為512,并使用預(yù)訓(xùn)練參數(shù)初始化,以得到All-BERT模型;同時(shí)通過將Bi-LSTM替換為與全局編碼器相同的具有4層網(wǎng)絡(luò)的4頭自注意力結(jié)構(gòu),以得到All-BERT-mini模型。分別使用CCKS2017和CCKS2020對上述3種結(jié)構(gòu)做對比實(shí)驗(yàn),并比較它們的訓(xùn)練時(shí)間、資源占用等情況。實(shí)驗(yàn)結(jié)果如表9和表10所示。 表9 不同模型結(jié)構(gòu)在CCKS2020上的實(shí)驗(yàn)結(jié)果對比 表10 不同模型結(jié)構(gòu)在CCKS2017上的實(shí)驗(yàn)結(jié)果對比 通過表中實(shí)驗(yàn)結(jié)果可知,以BERT_Base為私有層的All-BERT模型在2個(gè)任務(wù)的性能上并未超過本文的模型,原因是子任務(wù)層的維度較大、層數(shù)較多,導(dǎo)致模型空間過大,過于復(fù)雜的模型為收斂帶來困難,同時(shí)也增加了過擬合的風(fēng)險(xiǎn)。此外All-BERT的時(shí)間耗費(fèi)最長,且執(zhí)行時(shí)需要26.8 GB顯存才能容納全部訓(xùn)練參數(shù);而All-BERT-mini在訓(xùn)練時(shí)表現(xiàn)出了速度快、資源占用低的優(yōu)勢,執(zhí)行時(shí)顯存占用量約為13.6 GB左右,但性能表現(xiàn)與本文模型有較大差距。原因是子任務(wù)層的自注意力機(jī)制過于簡單,導(dǎo)致模型在當(dāng)前任務(wù)上的局部信息提取能力下降。 多任務(wù)模型與單任務(wù)模型不同,后者需要建立較為復(fù)雜的模型空間以確保構(gòu)建豐富的向量映射,使模型有效收斂到最優(yōu)解;而多任務(wù)模型同時(shí)具有私有層和共享層,需要構(gòu)建不同的特征子空間,因此每個(gè)子空間不宜過大,即網(wǎng)絡(luò)設(shè)計(jì)不宜太復(fù)雜,否則會導(dǎo)致模型難以收斂或過擬合問題。對于多任務(wù)的共享層設(shè)計(jì)4層網(wǎng)絡(luò)的4頭自注意力機(jī)制,而多任務(wù)的私有層需要提取子任務(wù)的局部特征編碼,因此使用LSTM網(wǎng)絡(luò)為主要結(jié)構(gòu)。 綜合上述分析,多任務(wù)模型的子任務(wù)層結(jié)構(gòu)使用Bi-LSTM時(shí)綜合性能最佳。Bi-LSTM具有較強(qiáng)的上下文依賴提取能力,能夠有效編碼電子病歷中的領(lǐng)域名詞、未登錄實(shí)體等,幫助模型在實(shí)體識別上提升性能。同時(shí)Bi-LSTM復(fù)雜性較低,能夠有效地避免過擬合,提升模型的泛化性。 3.7.1 均衡過采樣方法有效性 由于本文中的訓(xùn)練數(shù)據(jù)存在樣本類別分布不平衡的情況,因此提出均衡過采樣來緩解這一問題。本節(jié)在CCKS2020數(shù)據(jù)集上展開研究,探討不同過采樣方法對模型性能的影響。首先使用2.7節(jié)中的方法制作均衡過采樣數(shù)據(jù)集,即3.4節(jié)、3.5節(jié)和3.6節(jié)實(shí)驗(yàn)中所有模型采用的數(shù)據(jù)。同時(shí)制作2個(gè)對照版本:普通過采樣版和增量過采樣版。普通采樣版使用隨機(jī)擴(kuò)充的方式增加樣本,而增量采樣版使用連續(xù)均衡過采樣的方法將所有數(shù)量不足5000條的實(shí)體類別數(shù)據(jù)擴(kuò)充至5000條以上。在這3個(gè)版本的數(shù)據(jù)集和原始數(shù)據(jù)上展開實(shí)驗(yàn),每個(gè)類別上的F1值結(jié)果如表11所示。 表11 不同版本數(shù)據(jù)集結(jié)果對比(F1) 單位:% 對比結(jié)果發(fā)現(xiàn),均衡采樣數(shù)據(jù)相比未采樣數(shù)據(jù)最高提高約2個(gè)百分點(diǎn),綜合性能提升約1個(gè)百分點(diǎn)。采樣后的數(shù)據(jù)在“影像檢查”等少樣本實(shí)體上性能增幅較大,這也驗(yàn)證了算法的有效性。普通上采樣數(shù)據(jù)和增量采樣數(shù)據(jù)性能未有太大差異,但整體表現(xiàn)不如均衡采樣數(shù)據(jù),綜合F1值落后均衡采樣數(shù)據(jù)約1.5個(gè)百分點(diǎn)。分析可能是由于普通上采樣數(shù)據(jù)使用隨機(jī)擴(kuò)充樣本的方式,增加樣本時(shí)沒有考慮到新樣本對原數(shù)據(jù)集分布的影響,因此模型性能稍微降低。而增量采樣數(shù)據(jù)中重疊的條目較多,造成了模型過擬合等問題。因此均衡采樣數(shù)據(jù)作為本文模型的實(shí)驗(yàn)數(shù)據(jù)效果最好。 同時(shí)本文在CCKS2020上使用原始數(shù)據(jù)和均衡采樣數(shù)據(jù)分別做對比實(shí)驗(yàn),以驗(yàn)證均衡過采樣方法對模型的影響?;€模型和實(shí)驗(yàn)設(shè)置同實(shí)體識別實(shí)驗(yàn)一致。不同版本數(shù)據(jù)對比實(shí)驗(yàn)結(jié)果如表12所示。從表中數(shù)據(jù)得知,SETL和本文模型在過采樣數(shù)據(jù)上相比原始數(shù)據(jù)均有提升。而BERT等部分模型卻表現(xiàn)出性能下滑,效果不如原始數(shù)據(jù)。分析原因可能是GloVe向量表示會將噪音或其它不相關(guān)信息當(dāng)作低頻樣本編碼到稀疏向量空間,從而過采樣導(dǎo)致噪聲變大。而SETL和本文模型都為多任務(wù)結(jié)構(gòu),通過擬合不同任務(wù)樣本空間產(chǎn)生較強(qiáng)的噪聲對抗能力,因此受影響較小,模型性能得到有效提升。其余單任務(wù)模型在本算法中均受到不同程度影響。由此得出結(jié)論,均衡過采樣方法在多任務(wù)場景下更有效。這也再次驗(yàn)證本文提出的模型在電子病歷實(shí)體識別上性能高于其它基線模型。 表12 原始/過采樣數(shù)據(jù)NER實(shí)驗(yàn)結(jié)果對比(F1) 單位:% 3.7.2 通用特征增強(qiáng)的性能 如何更有效地控制不同任務(wù)之間的信息流一直是多任務(wù)學(xué)習(xí)的研究重點(diǎn),目前主要方法是在共享層增加判別器機(jī)制[19,22],過濾其中的私有特征信息,保留對任務(wù)有幫助的通用特征信息。因此本節(jié)通過對比實(shí)驗(yàn)來討論融入判別器和通用特征增強(qiáng)機(jī)制2種不同方法的性能差異。首先使用CCKS2020和Medicine語料訓(xùn)練判別器,其中CCKS2020為原始語料集。利用2個(gè)語料集訓(xùn)練一個(gè)具有3層前饋神經(jīng)網(wǎng)絡(luò)的判別器,經(jīng)過10輪訓(xùn)練后使其具備判斷樣本歸屬的能力。隨后使用判別器在多任務(wù)模型上按照3.3節(jié)中的超參設(shè)置展開訓(xùn)練,訓(xùn)練過程中不更新判別器的參數(shù),將判別器輸出加入目標(biāo)函數(shù)中作為懲罰項(xiàng),以約束全局編碼器產(chǎn)生不依賴任務(wù)的特征。實(shí)驗(yàn)過程中每2個(gè)epoch做1次測試來對比F1值,模型性能對比趨勢如圖4所示。 圖4 本文模型和判別器版本不同訓(xùn)練階段的F1值對比 對比使用判別器作為共享網(wǎng)絡(luò)層約束的方法,本文提出的通用特征增強(qiáng)機(jī)制表現(xiàn)更好。模型訓(xùn)練的整個(gè)過程中,本文方法在綜合F1值上始終高于判別器方法。在最終輪訓(xùn)練結(jié)束后,本文方法的F1值為90.74%,而判別器方法的F1值為89.34%。通過分析得出,注意力機(jī)制可以通過調(diào)整加權(quán)來捕捉有用的通用信息,因而可以針對當(dāng)前任務(wù)進(jìn)行優(yōu)化,模型也能更有效地收斂;此外多任務(wù)共享層完全采用自注意力機(jī)制來實(shí)現(xiàn),因此該情況下同為注意力機(jī)制的通用特征增強(qiáng)機(jī)制可能更適用,原因是相同或相似的網(wǎng)絡(luò)結(jié)構(gòu)可以確保特征空間更近似,模型表示能力也就越好。 本文提出了使用多任務(wù)學(xué)習(xí)的方法來實(shí)現(xiàn)醫(yī)療領(lǐng)域?qū)嶓w識別任務(wù),設(shè)計(jì)基于Bi-LSTM的子任務(wù)編碼層來構(gòu)建任務(wù)內(nèi)的局部知識表示,引入基于自注意力機(jī)制的全局編碼器來建模不同任務(wù)的全局特征,并加入了通用特征增強(qiáng)機(jī)制來幫助模型增強(qiáng)有用信息,以更有效地收斂到最優(yōu)解。同時(shí)針對電子病歷語料提出均衡過采樣方法來解決樣本不平衡問題。同基線模型對比,本文所提方法在CCKS2017和CCKS2020電子病歷數(shù)據(jù)集中取得顯著效果,同時(shí)在Medicine分詞數(shù)據(jù)上的性能也得到提升。多任務(wù)學(xué)習(xí)是遷移學(xué)習(xí)的重要方法,未來將繼續(xù)探索多任務(wù)學(xué)習(xí)在其它領(lǐng)域的應(yīng)用。3 實(shí)驗(yàn)部分
3.1 實(shí)驗(yàn)數(shù)據(jù)和預(yù)處理
3.2 評價(jià)指標(biāo)
3.3 實(shí)驗(yàn)設(shè)置
3.4 實(shí)驗(yàn)結(jié)果
3.5 分詞性能測試
3.6 模型性能分析
3.7 消融實(shí)驗(yàn)與分析
4 結(jié)束語