基于多任務(wù)學(xué)習(xí)的電子病歷實(shí)體識別方法

2022-09-24 02:42陳鈺楓徐金安張玉潔

計(jì)算機(jī)與現(xiàn)代化 2022年9期

于鵬,陳鈺楓,徐金安,張玉潔

(北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)

0 引言

命名實(shí)體識別(Named Entity Recognition， NER)是信息抽取中最主要的子任務(wù)，其目的是從非結(jié)構(gòu)化的文本句子或段落中識別出特定類型的實(shí)體詞。命名實(shí)體識別的準(zhǔn)確度往往對下游任務(wù)有很大影響，包括實(shí)體關(guān)系抽取、知識圖譜構(gòu)建等。近年來，由于社會各行業(yè)信息化的蓬勃發(fā)展，自然語言處理的研究也逐漸延伸到專業(yè)領(lǐng)域中，醫(yī)療領(lǐng)域的命名實(shí)體識別成為了業(yè)界的熱門話題。醫(yī)療領(lǐng)域中又以電子病歷(Electronic Medical Records, EMR)數(shù)據(jù)規(guī)模最大、數(shù)量最多，成為了醫(yī)療信息處理的重點(diǎn)。電子病歷是患者就醫(yī)過程中產(chǎn)生的有關(guān)個(gè)人病情、病機(jī)、既往病史等信息的整合，還包括就診過程中接受的檢查診斷、治療等醫(yī)療過程的信息，是患者最重要的健康檔案。電子病歷對教學(xué)、科研及醫(yī)療機(jī)構(gòu)管理都有著重要的作用，同時(shí)也廣泛用于研究疾病規(guī)律，以及作為處理醫(yī)療糾紛的法律依據(jù)。電子病歷中的信息往往以非結(jié)構(gòu)化形式存在，對電子病歷的實(shí)體識別任務(wù)主要包括從數(shù)據(jù)中抽取主訴癥狀、診斷信息、檢查方法、藥物信息、身體部位等關(guān)鍵性詞語。本文主要研究中文電子病歷文本的實(shí)體識別方法。

目前中文電子病歷實(shí)體識別的難點(diǎn)主要體現(xiàn)在：

1)專有名詞問題。電子病歷數(shù)據(jù)中往往包含著大量的領(lǐng)域名詞和專業(yè)術(shù)語，包括醫(yī)學(xué)檢查、疾病、解剖部位、醫(yī)藥等相關(guān)名詞。例如“奧沙利鉑200毫克，希羅達(dá)1.5日二次”中的“奧沙利鉑”和“希羅達(dá)”均為藥品名稱。如果這些詞尚未在數(shù)據(jù)集中出現(xiàn)或出現(xiàn)頻次較少，則模型可能無法成功識別。

2)一詞多義問題。同樣的名詞在不同領(lǐng)域中可能存在一詞多義的現(xiàn)象。例如“腿部有小處淤青”中的“腿”為解剖學(xué)術(shù)語，應(yīng)當(dāng)作為實(shí)體詞而被抽取，但數(shù)據(jù)中如果出現(xiàn)“雞腿”或“鴨腿”，則“腿”字不需要做實(shí)體切分，因?yàn)樗瞧胀~而非解剖術(shù)語。

3)非結(jié)構(gòu)化和用語規(guī)范問題。電子病歷多為醫(yī)生坐診時(shí)的書寫筆記，因此存在非結(jié)構(gòu)化的特點(diǎn)，其表達(dá)、句式往往較為隨意而缺乏嚴(yán)謹(jǐn)性?？谡Z化表達(dá)較為普遍，同時(shí)存在大量的簡寫、縮寫等形式。比如例句“伴輕度發(fā)燒，精神可，服烷胺片一日三次”中，“伴”“可”“服”分別代表“伴隨”“尚可”和“口服”。這些非規(guī)范書寫形式也為電子病歷的實(shí)體識別帶來了困難。

電子病歷實(shí)體識別的另一個(gè)困難是語料庫存在不同實(shí)體類別數(shù)量差距過大的情況，進(jìn)而會造成模型效果的下降，因此需要解決樣本不平衡問題。由于臨床電子病歷數(shù)據(jù)的特點(diǎn)，需要設(shè)計(jì)低偏差、樣本類內(nèi)分布均勻的算法。

針對電子病歷實(shí)體識別的難點(diǎn)，本文設(shè)計(jì)一種聯(lián)合實(shí)體識別和分詞的多任務(wù)訓(xùn)練方法，并提出均衡樣本過采樣來擴(kuò)充語料庫。實(shí)驗(yàn)結(jié)果顯示本文提出的模型和方法在電子病歷數(shù)據(jù)上的實(shí)體識別性能較基線模型有了較大提升。

1 相關(guān)工作

1.1 命名實(shí)體識別

命名實(shí)體識別的研究已有數(shù)十年的歷史，早期的命名實(shí)體識別方法是基于規(guī)則和詞典匹配的方法，包括正向最大匹配、逆向最大匹配和雙向匹配3種方法；后來出現(xiàn)了基于統(tǒng)計(jì)的實(shí)體識別方法，包括隱馬爾科夫模型和條件隨機(jī)場[1]。近幾年，由于計(jì)算機(jī)的迅速普及和硬件成本的降低，基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)命名實(shí)體識別方法得到廣泛應(yīng)用[2]，其中Bi-LSTM-CRF最具代表性[3-5]。Zhang等人[6]基于循環(huán)結(jié)構(gòu)設(shè)計(jì)出了Lattice-LSTM結(jié)構(gòu)用于實(shí)體識別。2018年出現(xiàn)了以Elmo[7]、BERT[8-9]為代表的預(yù)訓(xùn)練模型。通過在大規(guī)模語料上無監(jiān)督學(xué)習(xí)，并微調(diào)到下游任務(wù)以提升性能。王得賢等人[10]聯(lián)合字詞級別信息利用注意力機(jī)制捕捉詞語內(nèi)部表示，在法律文書文本上取得較好效果。近年來出現(xiàn)很多遷移方法，例如遷移閱讀理解任務(wù)來做實(shí)體識別的方法[11]以及利用變分編碼器來捕捉低頻次實(shí)體的方法[12]。

面向醫(yī)療電子病歷的實(shí)體識別研究一直是近年來的熱門話題，其包括術(shù)語抽取以及疾病、藥物或癥狀抽取等任務(wù)。Jia等人[13]結(jié)合實(shí)體識別和無監(jiān)督語言模型方法，實(shí)現(xiàn)醫(yī)療文本的跨領(lǐng)域NER任務(wù)，在BioNLP13PC、BioNLP13CG生物醫(yī)療語料庫上效果顯著。Schneider等人[14]利用多國語言BERT在臨床記錄和生物醫(yī)學(xué)文獻(xiàn)2類數(shù)據(jù)上做微調(diào)遷移訓(xùn)練，在小語種SemClinBr臨床數(shù)據(jù)集上達(dá)到了更高的F1值。趙耀全等人[15]利用凝固度算法進(jìn)行新詞發(fā)現(xiàn)，使用Lattice-LSTM對字符和所有關(guān)聯(lián)詞聯(lián)合編碼，在自建數(shù)據(jù)集上取得了很好的效果。羅熹等人[16]結(jié)合一個(gè)包含多種臨床實(shí)體的領(lǐng)域詞典來抽取位置標(biāo)簽，性能表現(xiàn)出了明顯的提升。張旭等人[17]融合外部詞典構(gòu)造詞特征，取得了不錯(cuò)的效果。

1.2 多任務(wù)學(xué)習(xí)

多任務(wù)學(xué)習(xí)是同時(shí)具有多個(gè)損失函數(shù)的模型，在訓(xùn)練不同任務(wù)的過程中建立復(fù)雜的數(shù)學(xué)模型，并通過有效的歸納偏置(Inductive Bias)來搜索最優(yōu)解。多任務(wù)學(xué)習(xí)將多個(gè)相似的任務(wù)并行訓(xùn)練，通過共享網(wǎng)絡(luò)層捕捉不同任務(wù)的全局信息表示來提高泛化性，從而構(gòu)建出更通用的向量空間。研究發(fā)現(xiàn)多任務(wù)的共享層可以有效地消除不同任務(wù)中的噪聲信息，構(gòu)建出更平滑的模型空間，這極大地緩解了模型的過擬合問題，增強(qiáng)了模型魯棒性。近年來多任務(wù)學(xué)習(xí)在很多研究領(lǐng)域都表現(xiàn)出了較好的性能[18-20]。Peng等人[21]利用多任務(wù)學(xué)習(xí)方法實(shí)現(xiàn)領(lǐng)域遷移序列標(biāo)注，驗(yàn)證了多任務(wù)學(xué)習(xí)的有效性。Chen等人[22]設(shè)計(jì)出融合對抗機(jī)制的多任務(wù)學(xué)習(xí)框架來實(shí)現(xiàn)多標(biāo)準(zhǔn)分詞，在8個(gè)不同標(biāo)準(zhǔn)的分詞語料中取得較好的效果。多任務(wù)學(xué)習(xí)用于生物醫(yī)學(xué)的跨領(lǐng)域?qū)嶓w識別也涌現(xiàn)了很多成果。Zhao等人[23]提出了一種融合顯式回傳策略(Explicit Feedback Strategies)的多任務(wù)學(xué)習(xí)框架，將醫(yī)學(xué)實(shí)體識別和實(shí)體標(biāo)準(zhǔn)化進(jìn)行聯(lián)合訓(xùn)練，在BC5CDR任務(wù)語料和NCBI疾病語料上的實(shí)驗(yàn)取得了較好的結(jié)果。Li等人[24]提出基于筆畫的Elmo預(yù)訓(xùn)練模型生成上下文向量表示，使用多任務(wù)學(xué)習(xí)在CCKS17和CCKS18數(shù)據(jù)集上取得了更高的F1值。

雖然目前在電子病歷NER任務(wù)上已經(jīng)涌現(xiàn)出很多成果，并取得不錯(cuò)的實(shí)驗(yàn)結(jié)果，但由于電子病歷語料的特點(diǎn)，已有模型依然不能很好地識別數(shù)據(jù)中的領(lǐng)域術(shù)語，在多義詞和表達(dá)不規(guī)范的情況下也難以正確判斷實(shí)體類型。造成這一問題的原因是模型在電子病歷NER中容易受噪聲、錯(cuò)誤標(biāo)注樣本等因素影響，難以收斂到最優(yōu)值。因此如何構(gòu)建出泛化性強(qiáng)、魯棒性高的模型成為解決這些問題的關(guān)鍵。

對此本文提出聯(lián)合電子病歷實(shí)體識別和中文分詞的多任務(wù)學(xué)習(xí)方法，利用分詞作為輔助任務(wù)提升實(shí)體識別的性能。本文中的分詞語料庫也來自醫(yī)療領(lǐng)域，因此與電子病歷存在較強(qiáng)的相關(guān)性，適合用作輔助任務(wù)。本文為2項(xiàng)任務(wù)分別設(shè)置私有層來捕捉任務(wù)局部信息，同時(shí)加入共享層捕捉它們的全局信息。在訓(xùn)練時(shí)共享層可以編碼各任務(wù)的局部特征表示，同時(shí)提取不依賴任務(wù)的通用特征，降低對噪聲等負(fù)面因子的關(guān)注度，以達(dá)到優(yōu)化任務(wù)性能的目的。

1.3 樣本不平衡解決方法

樣本不平衡會給模型訓(xùn)練以及預(yù)測帶來很大影響，尤其在文本分類、情感分類、實(shí)體識別等任務(wù)中。傳統(tǒng)樣本不平衡的解決方法有欠采樣(Under-sampling)、過采樣(Over-sampling)和人工少樣本過采樣(Synthetic Minority Over-sampling Technique, SMOTE)方法。欠采樣方法通過刪除樣本來縮減數(shù)量多的類別以均衡樣本分布；過采樣則是增加數(shù)量少類別的樣本數(shù)緩解問題；SMOTE方法通過生成小類別的近鄰樣本來產(chǎn)生新數(shù)據(jù)，增加數(shù)量的同時(shí)也能保持樣本的均勻分布。Han等人[25]提出了改進(jìn)的SMOTE方法，通過限定生成樣本的空間來解決樣本重疊問題。

由于本文數(shù)據(jù)具有領(lǐng)域性強(qiáng)、無結(jié)構(gòu)和無規(guī)范等特點(diǎn)，上述方法可能無法提升效果。因此本文提出均衡過采樣數(shù)據(jù)增強(qiáng)方法，使用K近鄰算法優(yōu)先選擇較遠(yuǎn)樣本過采樣，以防止樣本分布偏差過大。本文將在第3章通過實(shí)驗(yàn)驗(yàn)證算法的有效性。

2 基于多任務(wù)學(xué)習(xí)的實(shí)體識別模型

2.1 序列標(biāo)注定義

在本文中，命名實(shí)體識別和分詞任務(wù)都使用序列標(biāo)注來處理，給定長度為N的輸入序列I=(i1,i2,i3,…,iN)，輸出等長的序列O=(o1,o2,o3,…,oN)。其中輸出序列為規(guī)定的標(biāo)簽序列。一般是將待識別的文本指定為輸入序列，將句子中每個(gè)字符的實(shí)體標(biāo)簽指定為輸出序列。序列標(biāo)注方法廣泛應(yīng)用于分詞、實(shí)體識別、詞性標(biāo)注、語義角色標(biāo)注等任務(wù)中。標(biāo)簽格式方面，在命名實(shí)體識別中標(biāo)簽采用(B,I,O)類型，其中B代表實(shí)體的起始字符，I代表實(shí)體詞內(nèi)除起始字符外的其它字符，O代表不屬于任何實(shí)體詞的字符。在分詞中標(biāo)簽采用(B,I)類型，其中B代表詞的起始字符，I代表除起始字符外該詞的其它字符。神經(jīng)網(wǎng)絡(luò)模型接收輸入序列，通過編碼器生成向量表示，再通過解碼器解碼后輸出標(biāo)簽序列。

2.2 模型框架和算法

本文的模型整體框架如圖1所示，該模型使用Bi-LSTM網(wǎng)絡(luò)作為多任務(wù)的私有層來實(shí)現(xiàn)局部特征編碼，基于自注意力機(jī)制(Self-Attention Mechanism)[26]設(shè)計(jì)共享層全局編碼器，并借助注意力機(jī)制在Seq-to-Seq翻譯模型中的原理，提出通用特征增強(qiáng)機(jī)制來準(zhǔn)確地捕獲通用特征中有用的信息，同時(shí)使用均衡樣本過采樣方法來解決實(shí)體不平衡問題。

圖1 多任務(wù)學(xué)習(xí)系統(tǒng)整體框架

2.3 子任務(wù)網(wǎng)絡(luò)層

子任務(wù)網(wǎng)絡(luò)層相當(dāng)于一個(gè)獨(dú)立的模型，其作用是構(gòu)建特征子空間，是多任務(wù)模型的私有層。子任務(wù)層具備較強(qiáng)的針對當(dāng)前任務(wù)編碼的能力，能夠在當(dāng)前任務(wù)下生成深層語義關(guān)系表示。每個(gè)子任務(wù)層都具有相同的模型結(jié)構(gòu)，分別以不同任務(wù)的語料作為輸入。首先通過Embedding映射來實(shí)現(xiàn)字符級別的向量表示，隨后使用Bi-LSTM對輸入向量做上下文編碼以獲取長短期記憶表示，最后將雙向隱層特征拼接后輸出得到子任務(wù)編碼。

2.3.1 字符Embedding模塊

數(shù)據(jù)集中的內(nèi)容都是文字文本，無法直接被計(jì)算機(jī)處理。因此設(shè)計(jì)出字符Embedding模塊，將文本中的字符首先轉(zhuǎn)換為高維One-Hot向量表示，隨后映射到一個(gè)低維、稠密的向量空間中。

2.3.2 融合上下文信息的Bi-LSTM網(wǎng)絡(luò)

在醫(yī)療領(lǐng)域數(shù)據(jù)中存在很多專有名詞，這些專有名詞需要深層理解上下文語義才能準(zhǔn)確識別。且部分未登錄實(shí)體需要依賴前后距離較遠(yuǎn)的信息才能準(zhǔn)確預(yù)測，一詞多義情況也需要借助上下文來準(zhǔn)確推測。因此如何有效地編碼上下文信息就變得較為重要。LSTM網(wǎng)絡(luò)的長短時(shí)記憶特性可以幫助有效地獲取文本句子中的長距離依賴信息，在過去很多研究成果中扮演著重要角色。LSTM的前向計(jì)算過程如下：

ft=σ(Wf·[ht-1;xt]+bf)

(1)

it=σ(Wi·[ht-1;xt]+bi)

(2)

ot=σ(Wo·[ht-1;xt]+bo)

(3)

(4)

(5)

ht=ot·tanh(Ct)

(6)

本文采用雙向LSTM神經(jīng)網(wǎng)絡(luò)來進(jìn)行任務(wù)內(nèi)局部編碼，對于每個(gè)方向的LSTM都使用上述公式計(jì)算，將雙向的隱層輸出拼接，并做線性變換和激活得到子任務(wù)向量表示。具體過程如下：

(7)

(8)

ht=[htf;htb]

(9)

(10)

2.4 基于自注意力機(jī)制的全局編碼器

注意力機(jī)制通過權(quán)重分配策略，使模型對信息的不同方面給予不同關(guān)注度，因而可以有效地捕捉特征。多頭自注意力機(jī)制[26]將向量映射到多個(gè)不同的子空間，可以有效地從不同方面對序列編碼。本文提出多頭自注意力機(jī)制全局編碼器作為多任務(wù)模型的共享層，將所有任務(wù)的語料作為輸入，在訓(xùn)練的過程中可以從不同領(lǐng)域數(shù)據(jù)中提取出它們潛在的共有信息，并消除噪聲等信息。

全局編碼器的輸入為字符Embedding與其位置編碼(Positional Encoding)[8]的向量和，得到融合位置編碼信息的輸入序列E={e1,e2,e3,…,eN}。將E按注意力頭切分，通過線性變換映射為查詢矩陣Q，鍵矩陣K和值矩陣V。使用多頭自注意力機(jī)制計(jì)算注意力加權(quán)和，如公式(11)：

(11)

其中，d為單個(gè)注意力頭向量的維度。

將多個(gè)注意力頭的結(jié)果拼接得到全局編碼器的最終輸出zn，如公式(12):

(12)

最后使用前饋神經(jīng)網(wǎng)絡(luò)將多頭注意力輸出做線性變換和激活，具體過程如公式(13):

(13)

其中，W1、W2、b1、b2為可學(xué)習(xí)參數(shù)，ReLU是激活函數(shù)。

2.5 通用特征增強(qiáng)機(jī)制

全局編碼器可以有效地提取不依賴于任務(wù)的全局特征，然而全局特征中并非所有的信息都是必要的，不相關(guān)的信息會造成模型負(fù)遷移。由于在共享層中同時(shí)混入了多個(gè)任務(wù)的數(shù)據(jù)，特征信息會十分冗雜，模型搜索空間也隨之變大，模型會更難以收斂到最優(yōu)解。為解決這一問題，本文嘗試?yán)米⒁饬C(jī)制幫助模型選取對實(shí)體識別作用大的信息并過濾無關(guān)信息。通過調(diào)整權(quán)重幫助模型關(guān)注重要的部分，忽略不重要的部分，使模型更快、更有效地收斂，進(jìn)一步增強(qiáng)模型的泛化能力。具體做法是，將實(shí)體識別子任務(wù)隱層編碼輸出HSN按注意力頭切分，并通過線性變換得到QS矩陣；同時(shí)將全局編碼器的輸出HGN按注意力頭切分，并通過線性變換得到KG、VG矩陣，將上述矩陣進(jìn)行注意力計(jì)算，過程如下：

(14)

其中,d為單個(gè)注意力頭向量的維度。

將多個(gè)注意力頭的結(jié)果拼接得到注意力編碼輸出，如公式(15)：

(15)

使用前饋神經(jīng)網(wǎng)絡(luò)做線性變換和激活，得到通用特征增強(qiáng)表示HEN。將HEN與子任務(wù)輸出向量HSN拼接得出融合通用特征的實(shí)體識別任務(wù)編碼輸出HN。

對于不使用通用特征增強(qiáng)機(jī)制的分詞任務(wù)，通過將全局編碼器的隱層輸出HGW與分詞子任務(wù)的隱層輸出HSW拼接，得到分詞任務(wù)編碼輸出HW。

2.6 CRF解碼層

(16)

(17)

則公式(16)變?yōu)?

(18)

對等式兩邊取對數(shù)，則似然函數(shù)的計(jì)算公式為:

(19)

由于本文使用實(shí)體識別和分詞任務(wù)聯(lián)合訓(xùn)練，因此設(shè)置2個(gè)目標(biāo)函數(shù)優(yōu)化模型，實(shí)體識別目標(biāo)函數(shù)如公式(20)所示，分詞目標(biāo)函數(shù)如公式(21)所示。

(20)

(21)

其中,ΘGLB代表全局編碼器的參數(shù)，ΘNER代表NER子任務(wù)相關(guān)的參數(shù)，ΘSEG代表分詞子任務(wù)相關(guān)的參數(shù)。

模型訓(xùn)練時(shí)的損失需要包含2個(gè)任務(wù)的對數(shù)似然損失以及L2正則化損失，并設(shè)置權(quán)重因子α、β權(quán)衡不同的損失項(xiàng)，模型總體損失公式為：

L=αINER+(1-α)ISEG+βLL2_Loss

(22)

其中，INER和ISEG分別代表實(shí)體識別和分詞任務(wù)的對數(shù)似然損失，分別使用公式(20)、公式(21)來計(jì)算，IL2_Loss為相對于參數(shù)的L2正則化損失。

2.7 均衡過采樣數(shù)據(jù)增強(qiáng)方法

針對臨床電子病歷數(shù)據(jù)領(lǐng)域名詞多、多義詞普遍和缺乏規(guī)范性等特點(diǎn)，本文提出均衡樣本過采樣方法。該方法基于“遠(yuǎn)距離樣本優(yōu)先采樣”思想，認(rèn)為遠(yuǎn)距離樣本包含語料中頻次低的詞語或語法表達(dá)，因此對這些樣本過采樣會提升模型對它們的識別能力。具體做法是，首先使用GloVe[27]在數(shù)據(jù)集中訓(xùn)練字符向量，Glove融入了字的局部上下文特征和全局統(tǒng)計(jì)信息，比Word2Vec[28]更能夠生成語義更豐富的向量表示；將樣本的字符向量做加和得到樣本向量，并使用K近鄰法(K-Nearest Neighbor， KNN)[29]計(jì)算到其它樣本的最小距離，最后對最小距離值較大的樣本做上采樣。本方法既能擴(kuò)充少樣本同時(shí)也能防止類內(nèi)樣本分布偏差過大對模型造成影響。具體過程如算法1所示。

算法1均衡類內(nèi)樣本過采樣算法

輸入：同屬實(shí)體類型t的樣本集合D={d1,d2,d3,…，dT},GloVe語言模型，樣本增量N(N

輸出：均衡過采樣后的樣本集合S

在D上訓(xùn)練Glove語言模型得到GLM

V←GLM(D) #將所有樣本映射為向量，并輸出到集合V

fori←1 toTdo

disi←Euclidean-distance(vi,KNN(vi,V))

#KNN算法輸出V中距離與vi最近的向量(vi除外)，Euclidean-distance計(jì)算向量的歐幾里得距離

將disi加入到列表DIS中

end for

forj←1 toNdo

取DIS中最大值并在D中找到對應(yīng)樣本aj

置DIS中最大值為0

將aj加入到列表A中

end for

對A中的所有樣本過采樣，得到A′

將A′同D合并，得到S并輸出

3 實(shí)驗(yàn)部分

3.1 實(shí)驗(yàn)數(shù)據(jù)和預(yù)處理

本文使用CCKS2017、CCKS2020和Medicine這3個(gè)語料庫進(jìn)行實(shí)驗(yàn)。其中CCKS2017和CCKS2020都是全國知識圖譜與語義計(jì)算大會提供的電子病歷實(shí)體識別評測數(shù)據(jù)集；Medicine醫(yī)藥分詞數(shù)據(jù)集來自“好大夫在線”醫(yī)療平臺的醫(yī)學(xué)論壇，采用具有豐富從醫(yī)經(jīng)驗(yàn)的領(lǐng)域內(nèi)專家按照嚴(yán)格規(guī)范進(jìn)行人工標(biāo)注。本文對數(shù)據(jù)集進(jìn)行了統(tǒng)計(jì)，結(jié)果如表1所示。

表1 數(shù)據(jù)集統(tǒng)計(jì)

其中CCKS2017和CCKS2020數(shù)據(jù)集標(biāo)簽為(B,I,O)類型。CCKS2017包含了5種實(shí)體，分別是“癥狀”“身體部位”“治療”“疾病診斷”和“檢查檢驗(yàn)”。CCKS2020包含了6種實(shí)體，分別是“影像檢查”“實(shí)驗(yàn)室檢驗(yàn)”“手術(shù)”“藥物”“疾病和診斷”以及“解剖部位”。Medicine的標(biāo)簽為(B,I)類型。本文分別對CCKS2017和CCKS2020中不同類別的實(shí)體數(shù)量進(jìn)行了統(tǒng)計(jì)，統(tǒng)計(jì)結(jié)果如表2和表3所示。不難看出，CCKS2020數(shù)據(jù)集中不同類別的實(shí)體數(shù)量差異較大，例如“解剖部位”類別實(shí)體明顯居多，而“影像檢查”和“實(shí)驗(yàn)室檢驗(yàn)”等類別實(shí)體則較為缺乏。同樣CCKS2017中“疾病診斷”和“治療”樣本數(shù)量缺乏嚴(yán)重。因此需要使用2.7節(jié)中的均衡樣本過采樣方法對這2種語料庫做數(shù)據(jù)增強(qiáng)。通過將包含“影像檢查”“實(shí)驗(yàn)室檢驗(yàn)”“手術(shù)”和“藥物”類別的樣本進(jìn)行擴(kuò)充，最終實(shí)體數(shù)量分布如表4所示。不難發(fā)現(xiàn)“影像檢查”等少樣本類別均擴(kuò)充到2500以上。同時(shí)也對CCKS2017做過采樣，“疾病診斷”和“治療”等少樣本類型數(shù)量均得到擴(kuò)充。

表2 CCKS2017數(shù)據(jù)集實(shí)體數(shù)量分布

表3 CCKS2020數(shù)據(jù)集實(shí)體數(shù)量分布

表4 增強(qiáng)后的實(shí)體數(shù)量分布(CCKS2020)

經(jīng)過對均衡過采樣后的CCKS2020數(shù)據(jù)集檢驗(yàn)，可以發(fā)現(xiàn)由于采用了樣本向量遠(yuǎn)距離優(yōu)先的過采樣方法，增加了更多包含如“腹腔鏡上dixon術(shù)”“貝伐珠單抗”“肝轉(zhuǎn)移瘤rfa術(shù)”等出現(xiàn)頻率較少的樣本，而“胸部ct”“布洛芬”等使用頻率高的樣本不再增加。驗(yàn)證了均衡過采樣方法的有效性。

3.2 評價(jià)指標(biāo)

實(shí)驗(yàn)采用準(zhǔn)確率(Precision)、召回率(Recall)和F1值(F1-Measure)作為評測指標(biāo)。實(shí)體識別和分詞有不同的判定標(biāo)準(zhǔn)，具體計(jì)算方法分別由公式(23)、公式(24)給出：

(23)

(24)

其中，t代表實(shí)體類別，實(shí)體識別需要對每個(gè)類別進(jìn)行F1值評估。分詞只需評價(jià)模型能否正確地預(yù)測出詞邊界即可(即準(zhǔn)確找出所有的“B”標(biāo)簽)。

3.3 實(shí)驗(yàn)設(shè)置

首先將CCKS2020和Medicine分詞數(shù)據(jù)集用于訓(xùn)練多任務(wù)模型，實(shí)驗(yàn)超參數(shù)設(shè)置如表5所示。梯度下降優(yōu)化方法使用Adam方法，并采用L2正則化來防止模型過擬合。注意力機(jī)制方面，用于全局編碼的注意力機(jī)制層數(shù)設(shè)置為4，并且采用4頭注意力結(jié)構(gòu)，通用特征增強(qiáng)機(jī)制也采用4頭注意力。

表5 超參數(shù)設(shè)置

權(quán)重因子方面，本文通過微調(diào)不同的權(quán)重因子以測試模型性能表現(xiàn)。圖2和圖3分別展示了α和β在不同取值時(shí)的性能對比。

圖2 不同α取值性能對比圖

圖3 不同β取值性能對比圖

由圖2不難看出，當(dāng)α取值在0.5時(shí)性能表現(xiàn)較好，低于0.5時(shí)性能出現(xiàn)一定程度下降，這是由于α取值過低會造成實(shí)體識別任務(wù)損失的權(quán)重降低，使模型得不到有效優(yōu)化；α取值在0.5～0.7時(shí)性能較為穩(wěn)定，而接近1時(shí)性能發(fā)生下降，原因是α較大使分詞損失權(quán)重降低，模型性能退化為單任務(wù)性能。

由圖3不難看出，β取值在0.95時(shí)性能最好，且在0.8～1.1之間時(shí)性能并未有太大變化。低于0.8時(shí)性能逐漸降低，這是由于β取值過低造成L2正則化損失權(quán)重降低，因而模型受到了過擬合的影響。

在對比實(shí)驗(yàn)的過程中，所有基線模型都使用一塊11 GB顯存的NVIDIA RTX 2080Ti顯卡訓(xùn)練。而本文提出的多任務(wù)訓(xùn)練方法需要構(gòu)建多個(gè)表示子空間，因此會占用更多的內(nèi)存，本文使用2張NVIDIA RTX 2080Ti顯卡訓(xùn)練模型。首先將上述基線系統(tǒng)用CCKS2020數(shù)據(jù)集訓(xùn)練，將多任務(wù)實(shí)體識別模型用CCKS2020和Medicine這2個(gè)數(shù)據(jù)集并行訓(xùn)練并測試，并對它們的結(jié)果按實(shí)體類型匯總。然后將基線模型用CCKS2017訓(xùn)練，將多任務(wù)實(shí)體識別模型用CCKS2017和Medicine這2個(gè)數(shù)據(jù)集并行訓(xùn)練并測試，并對結(jié)果按類型匯總。由于多任務(wù)實(shí)驗(yàn)用到的語料分別來自實(shí)體識別和分詞任務(wù)，所以不必考慮重疊樣本問題對模型所帶來的影響。

3.4 實(shí)驗(yàn)結(jié)果

首先使用CCKS2020語料庫展開實(shí)驗(yàn)，采用命名實(shí)體識別常用的深度神經(jīng)網(wǎng)絡(luò)模型作為基線系統(tǒng)。包括BiLSTM-CRF[3]、BiLSTM-CNN-CRF[30]、BiLSTM-Att-CRF[31]、Lattice-LSTM[6]、IDDNN[32]、SETL[24]和BERT-CRF[8].BiLSTM-CRF為雙向LSTM加上CRF的標(biāo)注模型；BiLSTM-CNN-CRF加入了卷積神經(jīng)網(wǎng)絡(luò)，利用卷積核的局部感知能力對RNN隱藏層作進(jìn)一步編碼，以獲得上下文字符的語義特征；BiLSTM-Att-CRF是融入注意力機(jī)制的BiLSTM-CRF模型，在各大任務(wù)上性能均取得有效提升；IDDNN采用不同策略融入詞典特征，提出N-Gram、帶有位置的分類特征和不帶位置的分類特征3種構(gòu)建策略，并針對字符和特征設(shè)計(jì)2種訓(xùn)練框架；SETL即基于筆畫Elmo的多任務(wù)模型；BERT為BERT_Base版本，采用通用領(lǐng)域語料預(yù)訓(xùn)練，并在本實(shí)驗(yàn)中使用CCKS2020語料進(jìn)行微調(diào)。由于本次實(shí)驗(yàn)是在過采樣的語料下展開，為確保實(shí)驗(yàn)的有效對照，本文按照IDDNN和SETL在原文中的介紹和設(shè)置，在服務(wù)器環(huán)境下搭建模型，并同BiLSTM等基線模型一同訓(xùn)練并測試。最終實(shí)驗(yàn)結(jié)果如表6所示。

表6 CCKS2020對比實(shí)驗(yàn)結(jié)果(F1) 單位：%

通過對上述實(shí)驗(yàn)結(jié)果的對比和分析，本文提出的模型在6類實(shí)體中有5類取得最高的F1值，綜合性能達(dá)到最好。SETL的Elmo筆畫預(yù)訓(xùn)練模型在CCKS2020語料庫上性能依舊很好，大多數(shù)類型的F1值均超過其它基線模型。Lattice-LSTM在“影像檢查”和“實(shí)驗(yàn)室檢驗(yàn)”實(shí)體類型中表現(xiàn)較好，但整體性能并未達(dá)到最好，原因是其在執(zhí)行過程中需要進(jìn)行分詞詞典構(gòu)建，而實(shí)驗(yàn)數(shù)據(jù)中可能存在未登錄詞，引發(fā)分詞錯(cuò)誤的問題。IDDNN在“疾病和診斷”和“解剖部位”表現(xiàn)較好，但整體性能不如Lattice-LSTM。BERT整體并未達(dá)到最好，原因是BERT為通用領(lǐng)域預(yù)訓(xùn)練模型，雖然具有強(qiáng)大的自注意力機(jī)制和殘差結(jié)構(gòu)，但并未針對醫(yī)療領(lǐng)域知識進(jìn)行優(yōu)化，因此在臨床文本中表現(xiàn)較差。本文中的多任務(wù)結(jié)構(gòu)將類似BERT的注意力機(jī)制作為共享層，加入了多個(gè)Bi-LSTM私有層并行訓(xùn)練，將較大的模型空間劃分為多個(gè)子空間，減弱了噪聲等因素的影響，因而可以更有效地收斂到最優(yōu)解，實(shí)驗(yàn)性能也得到提升。

接下來用CCKS2017語料庫進(jìn)行實(shí)驗(yàn)，其中實(shí)驗(yàn)設(shè)置、評價(jià)指標(biāo)和基線系統(tǒng)同CCKS2020一致，對BERT基線模型使用CCKS2017進(jìn)行微調(diào)。實(shí)驗(yàn)結(jié)果如表7所示。通過結(jié)果不難發(fā)現(xiàn)本文模型在3類實(shí)體上F1值高于其它基線模型，綜合性能達(dá)到最好。SETL在本實(shí)驗(yàn)中也取得了較高的結(jié)果，且在“癥狀”上獲得最高F1值，其它大部分實(shí)體也有較好表現(xiàn)。IDDNN在“身體部位”上效果最好，綜合性能也較為突出。Lattice-LSTM在“癥狀”上表現(xiàn)較好，但整體效果欠佳。BERT通用語言模型的效果依舊略差。由此再次驗(yàn)證本文提出模型的有效性。

表7 CCKS2017對比實(shí)驗(yàn)結(jié)果(F1) 單位：%

對包括基線系統(tǒng)在內(nèi)的所有模型測試結(jié)果做具體分析，發(fā)現(xiàn)本文模型能夠有效識別出電子病歷中的專業(yè)術(shù)語、領(lǐng)域名詞。部分醫(yī)學(xué)術(shù)語由于出現(xiàn)頻次低或上下文內(nèi)容存在誤導(dǎo)，使得基線模型無法識別，但本文模型識別的準(zhǔn)確率明顯提高；一詞多義情況下性能相比其它基線系統(tǒng)也表現(xiàn)更好，如“多食用動物肝臟明目”中的“肝臟”可能會被基線系統(tǒng)錯(cuò)誤識別為“解剖部位”，在本文模型中此類問題得到了一定程度解決；對無規(guī)范、無結(jié)構(gòu)用語的樣本也能保持較好的識別效果。

3.5 分詞性能測試

本文也測試了所提出模型在Medicine語料上的分詞任務(wù)性能。通過在分詞子任務(wù)中加入通用特征增強(qiáng)機(jī)制來提升性能，并保持和NER任務(wù)一樣的參數(shù)設(shè)置?；€模型選取BiLSTM-CRF、BiLSTM-CNN-CRF、BiLSTM-Att-CRF和AMT Transfer Learning(AMTTL)[33]來作對比實(shí)驗(yàn)，其中AMT Transfer Learning是另一種形式的多任務(wù)框架，使用了SIGHAN2005下的數(shù)據(jù)集作為輔助任務(wù)增強(qiáng)Medicine等語料的分詞性能，并引入KL散度等距離度量來約束任務(wù)之間的隱層表示相關(guān)性，從而確保模型保留更多領(lǐng)域不變信息。其余基線模型前文已有介紹，最終實(shí)驗(yàn)結(jié)果如表8所示。

表8 Medicine分詞實(shí)驗(yàn)結(jié)果(PRF) 單位：%

實(shí)驗(yàn)結(jié)果表明，本文多任務(wù)模型相比基線模型F1值提升了約3個(gè)百分點(diǎn)，準(zhǔn)確率和召回率也有大幅度的提升，準(zhǔn)確率提升約5個(gè)百分點(diǎn)。對于未登錄詞(OOV)的分詞能力也有較大的改善。同為多任務(wù)框架的AMTTL在結(jié)果上也達(dá)到較好，對未登錄詞的切分能力較基線模型大幅提升，這也再次驗(yàn)證了多任務(wù)學(xué)習(xí)具有強(qiáng)大的泛化性，能夠防止陷入過擬合情況。

3.6 模型性能分析

本節(jié)對比不同的模型架構(gòu)，來驗(yàn)證本文模型在私有層設(shè)計(jì)上相比其它模型的優(yōu)勢，通過修改私有層結(jié)構(gòu)來生成不同模型。首先將模型中所有私有層的Bi-LSTM替換為BERT_Base結(jié)構(gòu)，輸入維度調(diào)整為512，并使用預(yù)訓(xùn)練參數(shù)初始化，以得到All-BERT模型；同時(shí)通過將Bi-LSTM替換為與全局編碼器相同的具有4層網(wǎng)絡(luò)的4頭自注意力結(jié)構(gòu)，以得到All-BERT-mini模型。分別使用CCKS2017和CCKS2020對上述3種結(jié)構(gòu)做對比實(shí)驗(yàn)，并比較它們的訓(xùn)練時(shí)間、資源占用等情況。實(shí)驗(yàn)結(jié)果如表9和表10所示。

表9 不同模型結(jié)構(gòu)在CCKS2020上的實(shí)驗(yàn)結(jié)果對比

表10 不同模型結(jié)構(gòu)在CCKS2017上的實(shí)驗(yàn)結(jié)果對比

通過表中實(shí)驗(yàn)結(jié)果可知，以BERT_Base為私有層的All-BERT模型在2個(gè)任務(wù)的性能上并未超過本文的模型，原因是子任務(wù)層的維度較大、層數(shù)較多，導(dǎo)致模型空間過大，過于復(fù)雜的模型為收斂帶來困難，同時(shí)也增加了過擬合的風(fēng)險(xiǎn)。此外All-BERT的時(shí)間耗費(fèi)最長，且執(zhí)行時(shí)需要26.8 GB顯存才能容納全部訓(xùn)練參數(shù)；而All-BERT-mini在訓(xùn)練時(shí)表現(xiàn)出了速度快、資源占用低的優(yōu)勢，執(zhí)行時(shí)顯存占用量約為13.6 GB左右，但性能表現(xiàn)與本文模型有較大差距。原因是子任務(wù)層的自注意力機(jī)制過于簡單，導(dǎo)致模型在當(dāng)前任務(wù)上的局部信息提取能力下降。

多任務(wù)模型與單任務(wù)模型不同，后者需要建立較為復(fù)雜的模型空間以確保構(gòu)建豐富的向量映射，使模型有效收斂到最優(yōu)解；而多任務(wù)模型同時(shí)具有私有層和共享層，需要構(gòu)建不同的特征子空間，因此每個(gè)子空間不宜過大，即網(wǎng)絡(luò)設(shè)計(jì)不宜太復(fù)雜，否則會導(dǎo)致模型難以收斂或過擬合問題。對于多任務(wù)的共享層設(shè)計(jì)4層網(wǎng)絡(luò)的4頭自注意力機(jī)制，而多任務(wù)的私有層需要提取子任務(wù)的局部特征編碼，因此使用LSTM網(wǎng)絡(luò)為主要結(jié)構(gòu)。

綜合上述分析，多任務(wù)模型的子任務(wù)層結(jié)構(gòu)使用Bi-LSTM時(shí)綜合性能最佳。Bi-LSTM具有較強(qiáng)的上下文依賴提取能力，能夠有效編碼電子病歷中的領(lǐng)域名詞、未登錄實(shí)體等，幫助模型在實(shí)體識別上提升性能。同時(shí)Bi-LSTM復(fù)雜性較低，能夠有效地避免過擬合，提升模型的泛化性。

3.7 消融實(shí)驗(yàn)與分析

3.7.1 均衡過采樣方法有效性

由于本文中的訓(xùn)練數(shù)據(jù)存在樣本類別分布不平衡的情況，因此提出均衡過采樣來緩解這一問題。本節(jié)在CCKS2020數(shù)據(jù)集上展開研究，探討不同過采樣方法對模型性能的影響。首先使用2.7節(jié)中的方法制作均衡過采樣數(shù)據(jù)集，即3.4節(jié)、3.5節(jié)和3.6節(jié)實(shí)驗(yàn)中所有模型采用的數(shù)據(jù)。同時(shí)制作2個(gè)對照版本：普通過采樣版和增量過采樣版。普通采樣版使用隨機(jī)擴(kuò)充的方式增加樣本，而增量采樣版使用連續(xù)均衡過采樣的方法將所有數(shù)量不足5000條的實(shí)體類別數(shù)據(jù)擴(kuò)充至5000條以上。在這3個(gè)版本的數(shù)據(jù)集和原始數(shù)據(jù)上展開實(shí)驗(yàn)，每個(gè)類別上的F1值結(jié)果如表11所示。

表11 不同版本數(shù)據(jù)集結(jié)果對比(F1) 單位：%

對比結(jié)果發(fā)現(xiàn)，均衡采樣數(shù)據(jù)相比未采樣數(shù)據(jù)最高提高約2個(gè)百分點(diǎn)，綜合性能提升約1個(gè)百分點(diǎn)。采樣后的數(shù)據(jù)在“影像檢查”等少樣本實(shí)體上性能增幅較大，這也驗(yàn)證了算法的有效性。普通上采樣數(shù)據(jù)和增量采樣數(shù)據(jù)性能未有太大差異，但整體表現(xiàn)不如均衡采樣數(shù)據(jù)，綜合F1值落后均衡采樣數(shù)據(jù)約1.5個(gè)百分點(diǎn)。分析可能是由于普通上采樣數(shù)據(jù)使用隨機(jī)擴(kuò)充樣本的方式，增加樣本時(shí)沒有考慮到新樣本對原數(shù)據(jù)集分布的影響，因此模型性能稍微降低。而增量采樣數(shù)據(jù)中重疊的條目較多，造成了模型過擬合等問題。因此均衡采樣數(shù)據(jù)作為本文模型的實(shí)驗(yàn)數(shù)據(jù)效果最好。

同時(shí)本文在CCKS2020上使用原始數(shù)據(jù)和均衡采樣數(shù)據(jù)分別做對比實(shí)驗(yàn)，以驗(yàn)證均衡過采樣方法對模型的影響?；€模型和實(shí)驗(yàn)設(shè)置同實(shí)體識別實(shí)驗(yàn)一致。不同版本數(shù)據(jù)對比實(shí)驗(yàn)結(jié)果如表12所示。從表中數(shù)據(jù)得知，SETL和本文模型在過采樣數(shù)據(jù)上相比原始數(shù)據(jù)均有提升。而BERT等部分模型卻表現(xiàn)出性能下滑，效果不如原始數(shù)據(jù)。分析原因可能是GloVe向量表示會將噪音或其它不相關(guān)信息當(dāng)作低頻樣本編碼到稀疏向量空間，從而過采樣導(dǎo)致噪聲變大。而SETL和本文模型都為多任務(wù)結(jié)構(gòu)，通過擬合不同任務(wù)樣本空間產(chǎn)生較強(qiáng)的噪聲對抗能力，因此受影響較小，模型性能得到有效提升。其余單任務(wù)模型在本算法中均受到不同程度影響。由此得出結(jié)論，均衡過采樣方法在多任務(wù)場景下更有效。這也再次驗(yàn)證本文提出的模型在電子病歷實(shí)體識別上性能高于其它基線模型。

表12 原始/過采樣數(shù)據(jù)NER實(shí)驗(yàn)結(jié)果對比(F1) 單位：%

3.7.2 通用特征增強(qiáng)的性能

如何更有效地控制不同任務(wù)之間的信息流一直是多任務(wù)學(xué)習(xí)的研究重點(diǎn)，目前主要方法是在共享層增加判別器機(jī)制[19，22]，過濾其中的私有特征信息，保留對任務(wù)有幫助的通用特征信息。因此本節(jié)通過對比實(shí)驗(yàn)來討論融入判別器和通用特征增強(qiáng)機(jī)制2種不同方法的性能差異。首先使用CCKS2020和Medicine語料訓(xùn)練判別器，其中CCKS2020為原始語料集。利用2個(gè)語料集訓(xùn)練一個(gè)具有3層前饋神經(jīng)網(wǎng)絡(luò)的判別器，經(jīng)過10輪訓(xùn)練后使其具備判斷樣本歸屬的能力。隨后使用判別器在多任務(wù)模型上按照3.3節(jié)中的超參設(shè)置展開訓(xùn)練，訓(xùn)練過程中不更新判別器的參數(shù)，將判別器輸出加入目標(biāo)函數(shù)中作為懲罰項(xiàng)，以約束全局編碼器產(chǎn)生不依賴任務(wù)的特征。實(shí)驗(yàn)過程中每2個(gè)epoch做1次測試來對比F1值，模型性能對比趨勢如圖4所示。

圖4 本文模型和判別器版本不同訓(xùn)練階段的F1值對比

對比使用判別器作為共享網(wǎng)絡(luò)層約束的方法，本文提出的通用特征增強(qiáng)機(jī)制表現(xiàn)更好。模型訓(xùn)練的整個(gè)過程中，本文方法在綜合F1值上始終高于判別器方法。在最終輪訓(xùn)練結(jié)束后，本文方法的F1值為90.74%，而判別器方法的F1值為89.34%。通過分析得出，注意力機(jī)制可以通過調(diào)整加權(quán)來捕捉有用的通用信息，因而可以針對當(dāng)前任務(wù)進(jìn)行優(yōu)化，模型也能更有效地收斂；此外多任務(wù)共享層完全采用自注意力機(jī)制來實(shí)現(xiàn)，因此該情況下同為注意力機(jī)制的通用特征增強(qiáng)機(jī)制可能更適用，原因是相同或相似的網(wǎng)絡(luò)結(jié)構(gòu)可以確保特征空間更近似，模型表示能力也就越好。

4 結(jié)束語

本文提出了使用多任務(wù)學(xué)習(xí)的方法來實(shí)現(xiàn)醫(yī)療領(lǐng)域?qū)嶓w識別任務(wù)，設(shè)計(jì)基于Bi-LSTM的子任務(wù)編碼層來構(gòu)建任務(wù)內(nèi)的局部知識表示，引入基于自注意力機(jī)制的全局編碼器來建模不同任務(wù)的全局特征，并加入了通用特征增強(qiáng)機(jī)制來幫助模型增強(qiáng)有用信息，以更有效地收斂到最優(yōu)解。同時(shí)針對電子病歷語料提出均衡過采樣方法來解決樣本不平衡問題。同基線模型對比，本文所提方法在CCKS2017和CCKS2020電子病歷數(shù)據(jù)集中取得顯著效果，同時(shí)在Medicine分詞數(shù)據(jù)上的性能也得到提升。多任務(wù)學(xué)習(xí)是遷移學(xué)習(xí)的重要方法，未來將繼續(xù)探索多任務(wù)學(xué)習(xí)在其它領(lǐng)域的應(yīng)用。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡