侯旭東,滕飛,張藝
(西南交通大學(xué)計算機與人工智能學(xué)院,成都 611756)
醫(yī)療信息化的蓬勃發(fā)展帶來了大量以患者為中心的醫(yī)療數(shù)據(jù),電子病歷系統(tǒng)作為醫(yī)療信息化建設(shè)中的重要一環(huán)得到了廣泛普及。病歷主要包含醫(yī)療機構(gòu)對門診患者和住院患者的診療記錄和工作記錄,現(xiàn)行衛(wèi)生行業(yè)標準WS445—2014[1]對電子病歷數(shù)據(jù)及其元數(shù)據(jù)屬性進行了規(guī)范,利用電子病歷系統(tǒng)給病歷帶來了記錄、存儲、查閱上的便利。雖然記錄過程實現(xiàn)了信息化,但目前電子病歷仍由半結(jié)構(gòu)化格式的記錄元信息與非結(jié)構(gòu)化的醫(yī)療文本段落組成,以自然語言的形式被記錄于病歷信息系統(tǒng)中。隨著電子病歷管理[2]和應(yīng)用[3]的逐步完善,我國開始著力推進醫(yī)療信息現(xiàn)代化與智能化建設(shè)。
面對自由文本形式存在的海量病歷數(shù)據(jù),亟須利用信息抽取技術(shù)將病歷文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化病歷數(shù)據(jù)以再供利用,然而結(jié)構(gòu)化病歷的構(gòu)建需要具有醫(yī)療語義的短語作為支撐。統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(Unified Medical Language System,UMLS)[4]對生物醫(yī)療領(lǐng)域的語義詞匯開展了整合工作,促進了醫(yī)療語義短語的抽取工作的發(fā)展。通常電子病歷中擁有特定醫(yī)療語義的短語被稱為醫(yī)療實體,根據(jù)醫(yī)療概念劃分出了病種診斷、藥物治療、手術(shù)治療和實驗室檢驗等語義類別,故一篇病歷的關(guān)鍵信息在一定程度上可由其包含的實體集合來表示。
醫(yī)療命名實體識別(Medical Named Entity Recognition,MNER)是利用實體識別技術(shù)對在醫(yī)療命名體上開展識別工作。在英文領(lǐng)域,自2004年起,I2B2(the Center for Informatics for Integrating Biology and the Beside)開始建立面向醫(yī)療領(lǐng)域的自然處理任務(wù)研究,在I2B2-2009[5]、I2B2-2010[6]、I2B2-2012[7]和I2B2-2014[8]的評測任務(wù)中基 于不同角度開展了各類MNER 的評測。英文領(lǐng)域MNER 研究開展較早,實現(xiàn)和方法上也逐步成熟,中文領(lǐng)域MNER 尚處于發(fā)展階段,楊錦鋒等[9]嘗試結(jié)合中文病歷的語言特點,為建立中文醫(yī)療命名實體數(shù)據(jù)集和標注規(guī)范提供了重要參考。中國知識圖譜與語義計算大會(China Conference on Knowledge Graph and Semantic Computing,CCKS)自2017 年起開始發(fā)布中文臨床醫(yī)療命名實體識別任務(wù),為研究中文醫(yī)療命名實體識別提供了寶貴的實驗數(shù)據(jù)。
面向電子病歷的MNER 研究對于實現(xiàn)病歷結(jié)構(gòu)化,助力醫(yī)療智能化十分關(guān)鍵。深度語言模型的進步為實體識別任務(wù)帶來了新的提升,但先進語言模型的參數(shù)規(guī)模達到上億,致使識別精度與算力要求間出現(xiàn)了不平衡、不充分的問題。知識蒸餾做到了壓縮語言模型規(guī)模與精度損失上的平衡,但其自身網(wǎng)絡(luò)和針對下游任務(wù)的解碼器均需要精巧設(shè)計。因此,研究基于輕量語言模型的高識別精度醫(yī)療命名實體識別模型充滿了挑戰(zhàn);特別是在當前中文領(lǐng)域的醫(yī)療命名實體識別上公開的數(shù)據(jù)和評測較少的背景之下,對于醫(yī)療信息現(xiàn)代化和智能化的快速發(fā)展將會產(chǎn)生重大意義。
本文的主要工作如下:
1)提出了級聯(lián)思想將實體識別過程拆分的方法。該方法可以改善對序列式識別在標簽錯誤轉(zhuǎn)移錯誤和標注標簽增長控制上的不足,控制標簽隨實體類別和標注方式帶來的標簽增長為很小常數(shù)。
2)構(gòu)建了級聯(lián)多任務(wù)解碼器。級聯(lián)多任務(wù)解碼器能夠顯著彌補蒸餾與非蒸餾語言模型帶來的差異,級聯(lián)多任務(wù)解碼器僅結(jié)合輕量語言模型RBT6[10],實現(xiàn)了高精度識別模型。
3)設(shè)計了CasSAttMNER(Cascade Self-Attention Medical Named Entity Recognition)模型與各基線模型的對比實驗。CasSAttMNER 模型可以在實體類別判斷的上下文中加入實體提及詞匯整體的信息,能表示級聯(lián)式識別中提及詞匯和其類別之間的隱信息,實驗結(jié)果表明該模型提高了醫(yī)療命名實體識別的精度。
MNER 的早期工作依靠醫(yī)學(xué)領(lǐng)域的詞典與規(guī)則[11]。隨著對醫(yī)學(xué)概念上的編碼工作推進,國際疾病分類(International Classification of Diseases,ICD)[12]、SNOMED(Systematized Nomenclature of Human and Veterinary Medicine Reference Terminology)[13]等醫(yī)學(xué)編碼工作形成了海量醫(yī)學(xué)詞典,發(fā)展出了MedLEE[14]、MedKAT(Medical Knowledge Analysis Tool)[15]、cTAKEs(clinical Text Analysis and Knowledge Extraction system)[16]等專家系統(tǒng)。以專家系統(tǒng)形成了符號主義的醫(yī)療智能,但面對醫(yī)學(xué)領(lǐng)域的發(fā)展,病種、治療、藥物等方面的新發(fā)現(xiàn)與新治療,專家系統(tǒng)往往不能快速地將其包含,且其相對應(yīng)的識別規(guī)則制定也十分復(fù)雜,故人們的研究目光開始轉(zhuǎn)向使用統(tǒng)計機器學(xué)習(xí)的方式進行。
Li 等[17]嘗試了使用條件隨機場(Conditional Random Fields,CRF)與支持向量機(Support Vector Machine,SVM)的醫(yī)療命名實體識別工作,實驗結(jié)果表明,CRF 及其采用序列標注式的識別效果好于SVM 及其短語分類方式的識別,為MNER 采用序列標注式識別作為主流方式奠定了基礎(chǔ);Clark 等[18]使用規(guī)則與基于CRF 和最大熵的聯(lián)合機器學(xué)習(xí)方式,在I2B2-2010 的MNER 任務(wù)上取得了0.934 3 的評測值;Cohen 等[19]提出了使用無標數(shù)據(jù)中獲取的詞語義分布來優(yōu)化CRF 中的條件概率轉(zhuǎn)移限制,這種方式為使用語料建模詞分布表示來實現(xiàn)實體識別奠定了基礎(chǔ)。
使用機器學(xué)習(xí)算法為解決MNER 問題帶來了顯著進步,但統(tǒng)計機器學(xué)習(xí)方式的識別模型需要依賴特征工程,特征計算的來源為特定語料庫或者任務(wù)本身的數(shù)據(jù),這也限制了機器學(xué)習(xí)對新實體的發(fā)現(xiàn)能力,若預(yù)測的文本中包含著模型從未見過的詞語組成的命名實體,便無法識別,此問題在中文領(lǐng)域更為凸顯。故對特征工程依賴和未登錄詞限制,使得使用機器學(xué)習(xí)方式解決MNER 問題存在著明顯的上限。
而采用深度學(xué)習(xí)的預(yù)訓(xùn)練語言模型能夠突破機器學(xué)習(xí)方法的限制,因此,很多工作開始轉(zhuǎn)向使用神經(jīng)網(wǎng)絡(luò)與機器學(xué)習(xí)的方式來進一步提升MNER 的效果:Wu 等[20]使用詞嵌入和深度 神經(jīng)網(wǎng)絡(luò)來解決MNER;Huang 等[21]提出了BiLSTM-CRF(Bi-directional Long Short-Term Memory-Conditional Random Field)神經(jīng)網(wǎng)絡(luò)來優(yōu)化標注預(yù)測;Xu等[22]基于此架構(gòu)將其應(yīng)用于MNER 任務(wù)中;Ji 等[23]嘗試用多個神經(jīng)網(wǎng)絡(luò)混合的方式來增強MNER 效果。在通用領(lǐng)域,Baevski 等[24]在神經(jīng)實體識別上引入完形填空模式驅(qū)動的網(wǎng)絡(luò)結(jié)構(gòu);Liu 等[25]從上下文增強的角度來嘗試提升神經(jīng)實體識別模型的識別精度;Li 等[26]使用對抗神經(jīng)網(wǎng)絡(luò)來設(shè)計神經(jīng)實體識別網(wǎng)絡(luò)。
在面對層出不窮神經(jīng)網(wǎng)絡(luò)所設(shè)計出的MNER 模型時,除了考慮特定領(lǐng)域語言特點所適用的網(wǎng)絡(luò)結(jié)構(gòu)外,仍需考慮除識別精度外的算力要求和推理時間等成本因素。目前,使用動態(tài)語言模型來解決MNER 任務(wù)也成為獲取高精度識別的一種主流方式,但語言模型的參數(shù)量以億級別為單位,這使得基于語言模型來解決MNER 時,需要考慮算力的經(jīng)濟性。深度語言模型為實現(xiàn)高精度的實體識別帶來了潛在機會。各項任務(wù)上評測精度越來越接近原始語言模型效果的語言模型輕量化工作也為實現(xiàn)算力與識別精度上的平衡帶來可能?;谶@樣的背景,本文將利用輕量語言模型開展一系列研究,構(gòu)建適用于醫(yī)療命名實體識別領(lǐng)域的模型,并嘗試平衡識別精度外的算力要求與推理時間、空間使用等成本因素,以達到實用性和精準度間的平衡。
本章將使用級聯(lián)視角來審視實體識別任務(wù),并有依據(jù)地對問題進行公式化表述,在此基礎(chǔ)上提出了級聯(lián)式多任務(wù)實體識別算法,構(gòu)建了基于自注意力機制的級聯(lián)醫(yī)療命名實體識別模型CasSAttMNER。
2.1.1 實體識別任務(wù)的級聯(lián)目標
如何控制標注標簽的增長,對解決復(fù)雜的實體識別任務(wù)十分關(guān)鍵。在此,借用數(shù)據(jù)庫中級聯(lián)操作的思想來引入一個全新的視角去審視實體識別任務(wù)。形式定義如下:假定規(guī)模為J的實體識別訓(xùn)練數(shù)據(jù)集為D,用xj來表示D中的第j條文本,用ej表示文本xj中出現(xiàn)的實體集合。
設(shè)文本xj中共包含N個實體,1 個實體ent由包含了位置信息的實體提及t和類別信息實體類別c兩部分,此時存在實體表示為:
則給定來自訓(xùn)練集合D的文本xj,其對應(yīng)包含N個實體的實體集ej可表示為:
則對于實體識別訓(xùn)練數(shù)據(jù)集D中的一條數(shù)據(jù),數(shù)據(jù)d由xj和ej組成。此時d和D可表示為:
級聯(lián)式識別需要描述實體提及和其潛在的語義類別之間存在相關(guān)性的函數(shù)。式(5)對這個過程進行了描述。
對于數(shù)據(jù)集D,需要最大化D中的所有潛在實體出現(xiàn)概率,式(6)描述了這種概率:
根據(jù)概率鏈式法則,式(6)可轉(zhuǎn)變?yōu)槭剑?):
根據(jù)上述描述,級聯(lián)式識別的求解過程可做這樣的描述。實體ent′由(tn,cn)表示,tn為實體ent′的實體提及表示,cn為ent′的實體類別表示。(tn,cn) ∈表示第j條數(shù)據(jù)中的第n個實體。cn∈|tn刻畫了在e'j中已知實體提及為tn下,實體類別為cn的對應(yīng)關(guān)系,這種對應(yīng)關(guān)系在真實的ej中存在1 個或0 個,預(yù)測中存在0 個、1 個或多個,目標是在求解中最大限度地接近1 個或者0 個,具體則取決于真實的ej。
式(7)揭示了級聯(lián)式識別的任務(wù)目標,便是最大化式(7)在訓(xùn)練集D上的聯(lián)合概率,即目標為最大化地計算文本xj包含實體提及tn的概率與此實體提及tn對應(yīng)的實體類別為cn的概率,使之解得的最大限度地接近ej。
2.1.2 級聯(lián)式識別架構(gòu)
級聯(lián)式醫(yī)療命名實體識別(Cascade Medical Named Entity Recognition,CasMNER)模型標注過程為圖1 所示。
圖1 級聯(lián)式醫(yī)療命名實體識別模型的標注過程Fig.1 Labeling process of cascade medical named entity recognition model
級聯(lián)式識別借用關(guān)系型數(shù)據(jù)庫中的級聯(lián)(Cascade)思想,將文本序列作為一對多關(guān)系中的一文本序列同時映射到實體提及識別和實體類別識別兩過程中,此時句子中的每一個字詞都將對應(yīng)兩個輸出預(yù)測。
設(shè)實體提及的標簽數(shù)量為N,實體類別的標簽數(shù)量為M,級聯(lián)式識別需要的標注標簽集合S的數(shù)量L為:
級聯(lián)式識別每增加一個實體提及標簽,模型預(yù)測輸出時便僅需要一個提及標簽;每增加一個類別標簽,模型預(yù)測輸出便僅需要一個類別標簽。相比序列式識別,這種方式有效控制了標注標簽的增長到常數(shù)級。
2.2.1 基于自注意力機制的解碼器優(yōu)化
采用級聯(lián)方式的實體識別中,實體提及得到的詞匯及其上下文信息,對于待提取的實體詞匯的類別判斷自然地存在一種上下文關(guān)系。本節(jié)對于如何在實體類別判斷的上下文中加入實體提及詞匯整體的信息,提出了使用自注意力機制來表示級聯(lián)式識別中提及詞匯和其類別之間的隱信息CasSAttMNER 對實體類別解碼器進行了重新設(shè)計。
實體提及抽取中由式(9)獲得隱解碼信息:
其中:h代表BiLSTM 網(wǎng)絡(luò)結(jié)構(gòu);xencode為解碼過程的輸入,由文本序列集合經(jīng)分句、嵌入,再使用經(jīng)過蒸餾的Transformer語言模型RBT6[10]得到。解碼過程中,首先使用BiLSTM 對xencode進行解碼,得到序列信息編碼后的第一層解碼情況,同時結(jié)合Dropout[27]方法對解碼結(jié)果進行選擇性使用,得到初步解碼。Dropout 函數(shù)可根據(jù)超參數(shù)dropoutRate來歸零BiLSTM 輸出向量上的隨機維度來控制解碼信息的稠密。
在實體類別判斷中由式(10)獲得隱解碼信息:
式中:h代表BiLSTM,這里的BiLSTM 不與實體提及抽取過程共享使用。
為完成實體提及序列標注,需完成式(11)、(12)所示的步驟計算:
其中:式(11)中的函數(shù)g是線性變化函數(shù),目的為控制hiddent的輸出尺寸和下一步相同;式(12)中φ代表條件隨機場(CRF)[28]。CRF 條件模型通過一個觀察序列X*選擇條件概率p(Y*|X*)最大的標簽序列Y*,這類判斷式方法使得推理過程中觀察序列的依賴可以被正確地表示,而且不會生成無關(guān)推斷。CRF 的求解目標即給定觀察序列x的標簽序列為y的條件概率p(y|x)為:
其中:tj(yi-1,yi,x,i)是整個觀察序列在位置i-1 到i的標簽從yi-1轉(zhuǎn)移到y(tǒng)i的轉(zhuǎn)移特征函數(shù),sk(yi,x,i)為觀察序列位置i的標簽為yi的狀態(tài)特征函數(shù),λj與μk為訓(xùn)練過程的參數(shù)估計。
函數(shù)tj(yi-1,yi,x,i)與sk(yi,x,i)均為二分判斷函數(shù),且所有的特征均來自觀察序列中是否為真值,則函數(shù)可被表示為:
式(14)中的wi表示某給定的位置;式(15)中的Tagq和Tagw為給定的標簽。
式(7)中的p(cn|tn,xj)表明了實體提及對實體類別存在聯(lián)合條件概率上的影響。在此,本節(jié)設(shè)計使用自注意力機制[29]來構(gòu)建兩者間的關(guān)系信息,即:
式(17)用來計算自點積注意力。自注意力機制的輸出并不改變上一層網(wǎng)絡(luò)輸出的空間尺寸,因此xclass與hsatt的空間尺寸相同。式(18)使用xclass和hsatt的連接來對實體類別中增加xmention的信息,Concat 操作是在二者最后一個維度上進行連接。式(19)使用Softmax 網(wǎng)絡(luò)對hconcat進行非線性轉(zhuǎn)換,得到實體提及在各預(yù)設(shè)類別上的概率分布,取分布中數(shù)值最大者作為實體類別結(jié)果。此時的類別標簽的計算由式(17)~(19)描述。
2.2.2 CasSAttMNER的網(wǎng)絡(luò)架構(gòu)
對于輸入文本序列xj,首先將經(jīng)過字級別的Character-Embedding 進行嵌入表示;隨后在語言模型中得到序列的深度表示,此深度表示將共享輸出到實體提及解碼器Entity Mention Decoder 和實體類別解碼器Entity Class Decoder 中。在實體提及部分將經(jīng)過兩次的解碼操作得到所需的實體提及標簽序列。在實體類別部分,利用實體提及的第一步解碼輸出的自注意力矩陣,與實體類別中的第一步解碼得到的矩陣進行連接,通過Softmax 網(wǎng)絡(luò)來輸出類別。兩個輸出序列的組合將成為xj的輸出結(jié)果序列yj,兩序列的長度以及內(nèi)容一一對應(yīng)。CasSAttMNER 的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。
圖2 CasSAttMNER的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與推理示例Fig.2 CasSAttMNER’s neural network structure and reasoning example
將CasSAttMNER模型與各基線模型在CCKS-19[30]和CCKS-20[31]數(shù)據(jù)集上進行對比實驗,評估輸入與輸出操作的效果,并進行實驗結(jié)果分析。
本文的實驗環(huán)境為Windows10 操作系統(tǒng),CPU 為Intel Gold 6138,GPU 為Nvidia Quadro RTX 6000,CUDA版本為9.0。
描述實體識別任務(wù)的識別精準度評估采用精準率(Precision,P)、召回率(Recall,R)、F值度量(F1 score measure,F(xiàn))三個指標進行判斷。數(shù)據(jù)在被預(yù)測時會出現(xiàn)真正(True Positive,TP)、真負(True Negative,TN)、假正(False Positive,F(xiàn)P)和假負(False Negative,F(xiàn)N)的4 種情況。針對模型會出現(xiàn)偏差的情況,使用P 來統(tǒng)計TP 在預(yù)測數(shù)據(jù)中的占比,使用R來統(tǒng)計TP在真實數(shù)據(jù)中的占比,F(xiàn) 反映了P 和R間的平衡。
精確匹配用來度量模型的預(yù)測序列結(jié)果轉(zhuǎn)換出的實體集合和人工標注的實體集合的匹配程度,是在實體集級別的匹配,在精確模式下的F 值度量為FE。在精確模式下的精準率PE、召回率RE和F 值度量FE的計算定義如下:
其中:J=ent1,ent2,…,entT為真實實體集;ent'為模型預(yù)測出的實體短語,包含模型預(yù)測的實體在文本中的位置和類別信息;K=,,…,為預(yù)測出的實體序列。
本次實驗使用CCKS 在2019 年與2020 年的中文醫(yī)療命名實體識別評測任務(wù)的兩個中文醫(yī)療實體數(shù)據(jù)集,文中分別簡稱為CCKS-19[30]和CCKS-20[31]。
CCKS-19 提供了1 000 例病歷語料作為數(shù)據(jù)集,CCKS-20提供了1 050 例病歷語料作為數(shù)據(jù)集,均含有6 種醫(yī)療實體類型。表1 提供了CCKS-19 和CCKS-20 兩數(shù)據(jù)集的相關(guān)統(tǒng)計信息。
表1 數(shù)據(jù)集中的實體類別與數(shù)量統(tǒng)計Tab.1 Entity class and quantity statistics in datasets
針對模型的訓(xùn)練與驗證,實驗將數(shù)據(jù)集的訓(xùn)練與驗證部分劃分比例統(tǒng)一為90%與10%,且在對所有模型訓(xùn)練和驗證中不調(diào)整數(shù)據(jù)內(nèi)容。
CasSAttMNER 模型所使用的語言模型為RBT6[10],訓(xùn)練方式為自動檢查點機制,若當前epoch 的結(jié)果好于當前最優(yōu)記錄,將自動地將此輪epoch 學(xué)習(xí)到的參數(shù)進行轉(zhuǎn)儲,并更新最優(yōu)記錄。本次訓(xùn)練中模型的最優(yōu)epoch 基本在30~80 的區(qū)間內(nèi)。本次實驗統(tǒng)一訓(xùn)練的優(yōu)化函數(shù)為adam[32]。使用度量函數(shù)衡量模型整體的輸出準確率和損失函數(shù)評估預(yù)測與實際的偏差程度。由于確定實體類別的過程被視為多分類任務(wù),故引入了分類精準度categorical_acc 和分類損失估計categorical_loss:分類精準度categorical_acc 用于計算預(yù)測中預(yù)測為真占所有預(yù)測情況的比值;分類損失categorical_loss為分類交叉熵,計算了在一個批量中各個實體類別的平均交叉損失熵。
為控制變量的復(fù)雜程度,本次訓(xùn)練過程設(shè)置了統(tǒng)一的學(xué)習(xí)率1E -5 與批尺寸8。除此之外,兩個BiLSTM 網(wǎng)絡(luò)層的輸出尺寸均為64;Dropout Rate 均為0.35;CRF 網(wǎng)絡(luò)層的輸出尺寸為5;Softmax 網(wǎng)絡(luò)層的輸出尺寸為7。
級聯(lián)思想將實體邊界和實體類別標注過程分解,嘗試探索輕量語言模型的多任務(wù)開發(fā)能力。
為驗證級聯(lián)式識別存在識別精度優(yōu)勢,CasSAttMNER 將在3.2 節(jié)中介紹的兩個數(shù)據(jù)集上進行評估,使用CCKS 在2019 年與2020 年的中文醫(yī)療命名實體識別評測任務(wù)中的優(yōu)秀模型作為對比基線。表2 統(tǒng)計了各模型的F 值度量表現(xiàn),CasSAttMNER 將MNER 的識別精度FE指標提升了3~8 個百分點。
表2 各模型的FE評測統(tǒng)計Tab.2 FE evaluation statistics of each model
表3 統(tǒng)計了各模型在精確匹配下各類別實體的F 值度量表現(xiàn)。級聯(lián)式識別進一步提升了MNER 任務(wù)的識別精準度,采用自注意力機制優(yōu)化的CasSAttMNER 模型,有效地表示了實體提及與實體類別之間的隱關(guān)系?;诜钦麴s的語言模型BERT 設(shè)計的醫(yī)療命名實體識別模型[35-36]與基于蒸餾的Transformer 語言模型RBT6[10]設(shè)計的CasSAttMNER 模型進行對比實驗,在識別精度上提升了約3 個百分點,證明了多任務(wù)解碼器能夠打破蒸餾與非蒸餾的語言模型間的差異,提升蒸餾語言的模型表現(xiàn)。級聯(lián)多任務(wù)方式的解碼器結(jié)合輕量語言模型RBT6[10],便可實現(xiàn)高精度的識別任務(wù),顯著提升了算力經(jīng)濟性。
表3 各模型的實體F值度量表現(xiàn)統(tǒng)計Tab.3 Entity F value measure statistics of each model
本文針對序列式識別在標簽錯誤轉(zhuǎn)移錯誤和標注標簽增長控制上的不足,引入級聯(lián)思想將實體識別過程拆分,提出了一種基于深度自編碼的醫(yī)療命名實體識別模型。傳統(tǒng)的序列式實體識別改變標注方式易帶來標簽預(yù)測空間和標簽錯誤傳播的增長過快問題,這限制了識別精度的提升。本文模型首先對級聯(lián)式實體識別進行公式化表述,隨后設(shè)計了對應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)。該模型延續(xù)編碼與解碼間深度差平衡策略,使用輕量語言模型作為編碼器減小編碼深度以及降低對訓(xùn)練和應(yīng)用上的算力要求,使用長短期記憶網(wǎng)絡(luò)與條件隨機場網(wǎng)絡(luò)提出了級聯(lián)式多任務(wù)雙解碼器,并添加自注意力機制進行優(yōu)化得到模型CasSAttMNER。實驗結(jié)果表明,CasSAttMNER 模型的解碼器能力得到了進一步提升,在兩個中文醫(yī)療實體數(shù)據(jù)的F 值度量可達到0.943 9 和0.945 7。相關(guān)實驗證明了級聯(lián)多任務(wù)解碼器能顯著彌補蒸餾與非蒸餾語言模型帶來的差異,級聯(lián)多任務(wù)解碼器僅結(jié)合輕量語言模型,便達成實現(xiàn)高精度的識別模型,顯著提升了模型算力經(jīng)濟性。
對于編碼器與解碼器的設(shè)計,本次使用的輕量語言模型RBT6[10]是面向通用領(lǐng)域,若使用面向醫(yī)學(xué)知識的輕量語言模型作為編碼器應(yīng)能繼續(xù)提升醫(yī)學(xué)實體識別的精準度。本次解碼器優(yōu)化設(shè)計主要基于標準的LSTM 網(wǎng)絡(luò)與Attention 機制結(jié)合的方式,未來可繼續(xù)探究其變種網(wǎng)絡(luò)或者其他類型網(wǎng)絡(luò)對解碼器的優(yōu)化能力。