周曉敏,滕 飛,張 藝
(西南交通大學(xué) 計(jì)算機(jī)與人工智能學(xué)院,成都 611756)
國(guó)際疾病分類(International Classification of Diseases,ICD)是依據(jù)疾病的某些特征,按規(guī)則將疾病分門(mén)別類并用編碼的方法表示的系統(tǒng)。ICD 編碼分配是為患者的診斷和治療數(shù)據(jù)分配編碼的過(guò)程,已經(jīng)廣泛地用于臨床研究、醫(yī)療保健、醫(yī)療付費(fèi)、診斷信息的檢索等問(wèn)題。然而,手工編碼是勞動(dòng)密集型任務(wù)并且容易出錯(cuò)[1]。因此,為了提高ICD 編碼分配的準(zhǔn)確性和效率,進(jìn)行自動(dòng)ICD 編碼研究十分有必要。
自動(dòng)ICD 編碼分配被視為一種多標(biāo)簽文本分類問(wèn)題,目的是從電子病歷文本數(shù)據(jù)中提取信息并進(jìn)行編碼分配。然而,ICD 編碼的分布呈現(xiàn)出長(zhǎng)尾分布的問(wèn)題,給研究帶來(lái)了巨大挑戰(zhàn)。具體來(lái)說(shuō),在臨床中頻繁出現(xiàn)的編碼(本文稱為頻繁編碼——many-shot)只占據(jù)總編碼數(shù)的很少一部分,而臨床中很少出現(xiàn)的編碼(本文稱為少樣本編碼——few-shot)卻占據(jù)了總編碼數(shù)的大部分。根據(jù)Teng 等[2]的統(tǒng)計(jì),在醫(yī)學(xué)數(shù)據(jù)集MIMIC-Ⅲ中共有18 000 多種ICD-9 編碼,按照出現(xiàn)頻率排序的前50 種編碼占總數(shù)據(jù)的93.17%。少樣本編碼的訓(xùn)練樣本是少樣本編碼自動(dòng)分配研究的瓶頸所在。
少樣本編碼對(duì)于臨床具有相當(dāng)?shù)闹匾?,主要體現(xiàn)在罕見(jiàn)病、醫(yī)學(xué)研究以及醫(yī)療開(kāi)銷這幾個(gè)方面。一方面,在臨床中存在較多罕見(jiàn)疾病,如兒童早衰癥、Cockayne 綜合征等[3],這些疾病發(fā)病幾率非常低,因此不容易觀察到相應(yīng)編碼。罕見(jiàn)疾病的出現(xiàn)事關(guān)每一個(gè)患者的健康,正確為該記錄分配正確的編碼對(duì)于臨床治療至關(guān)重要。另一方面,隨著醫(yī)療水平的發(fā)展,可能會(huì)引入一些新的編碼,在這種情況下臨床觀察到的樣本少,少樣本編碼的預(yù)測(cè)性能可能不會(huì)對(duì)ICD 編碼的總體準(zhǔn)確性產(chǎn)生重大影響,但是對(duì)于醫(yī)學(xué)研究的發(fā)展可以起到積極的作用。另外,編碼員在給電子病歷分配編碼時(shí),可能更容易給電子病歷分配常遇到的編碼,而忽略或混淆少樣本編碼。例如,如果編碼員在為電子病歷分配編碼時(shí)容易選擇經(jīng)常遇到的編碼“Acute myocardial infarction,of other anterior wall,initial episode of care”(410.11:many-shot code),而不是正確的少樣本編碼“Acute myocardial infarction,of anterolateral wall,subsequent episode of care”(410.02:fewshot code)。編碼員對(duì)少樣本編碼的錯(cuò)誤分配會(huì)給患者造成不公平的經(jīng)濟(jì)負(fù)擔(dān),也加大了醫(yī)療機(jī)構(gòu)的醫(yī)療投資。綜上所述,本文認(rèn)為對(duì)少樣本編碼的正確預(yù)測(cè)進(jìn)行研究十分重要。
為了提高ICD 編碼的準(zhǔn)確性和效率,學(xué)者們對(duì)自動(dòng)ICD編碼進(jìn)行了大量研究,包括傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型。然而,在保持已有學(xué)習(xí)性能的同時(shí),對(duì)訓(xùn)練數(shù)據(jù)較少的樣本進(jìn)行快速泛化仍然是神經(jīng)網(wǎng)絡(luò)模型面臨的一個(gè)重大挑戰(zhàn)?,F(xiàn)有研究較少關(guān)注少樣本編碼,這些模型在少樣本編碼上的表現(xiàn)仍然不令人滿意。由于ICD 編碼數(shù)據(jù)的長(zhǎng)尾分布,使得對(duì)少樣本編碼進(jìn)行準(zhǔn)確的多標(biāo)簽文本分類極具挑戰(zhàn)性。
本文針對(duì)數(shù)據(jù)呈現(xiàn)出的長(zhǎng)尾分布問(wèn)題,提出一種元網(wǎng)絡(luò)模型,在不犧牲整體編碼性能的情況下能提高少樣本編碼的分類準(zhǔn)確性。本文的主要工作如下:
1)提出一種基于元網(wǎng)絡(luò)的ICD 編碼模型(Meta Networkbased ICD Coding model,MNIC)。將頻繁編碼的特征表示映射到分類器權(quán)重上,以學(xué)習(xí)到元知識(shí);同時(shí),將元知識(shí)從數(shù)據(jù)豐富的頻繁編碼轉(zhuǎn)移到數(shù)據(jù)貧乏的少樣本編碼,顯著提高了少樣本編碼的性能,實(shí)現(xiàn)多標(biāo)簽文本分類的少樣本學(xué)習(xí)。
2)對(duì)元知識(shí)的可轉(zhuǎn)移性和通用性提供解釋,證明了少樣本編碼和頻繁編碼存在通用的元知識(shí)。
3)在MIMIC-Ⅲ數(shù)據(jù)集上進(jìn)行對(duì)比,驗(yàn)證了元網(wǎng)絡(luò)模型有助于提高少樣本編碼的性能。
在醫(yī)療保健領(lǐng)域,有關(guān)自動(dòng)ICD 編碼的研究已有約20 年的歷史[4]。傳統(tǒng)的機(jī)器學(xué)習(xí)模型以及深度學(xué)習(xí)模型被應(yīng)用于臨床文本的自動(dòng)ICD 編碼。Medori 等[5]使用具有不同屬性集的樸素貝葉斯(Naive Bayes)優(yōu)化了自動(dòng)編碼技術(shù);Huang等[6]使用K 近鄰(K-Nearest Neighbor,KNN)算法利用ICD 編碼相關(guān)性構(gòu)建了臨床決策框架,改進(jìn)了多標(biāo)簽分類算法;Koopman 等[7]使用支持向量機(jī)(Support Vector Machine,SVM)對(duì)死亡證書(shū)中癌癥相關(guān)編碼進(jìn)行自動(dòng)分類。除此之外,Perotte 等[8]嘗試了平面分類器以及基于SVM 的層次分類器,證實(shí)了基于層次的分類器具有更良好的性能;Karimi 等[9]使用了SVM 和邏輯回歸分類器(logistic regression classifiers)對(duì)放射學(xué)報(bào)告進(jìn)行了自動(dòng)ICD 編碼。傳統(tǒng)的機(jī)器學(xué)習(xí)為自動(dòng)ICD 編碼提供了解決思路,但需要手動(dòng)選擇特征。
隨著深度學(xué)習(xí)的發(fā)展,許多研究者開(kāi)始將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[10]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[11]、圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[12]、生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[13]等應(yīng)用于自動(dòng)ICD 編碼。Mullenbach 等[14]使用CNN 聚合文檔信息,并使用注意力機(jī)制為編碼分配提供可解釋性;Chen 等[15]使用醫(yī)學(xué)主題挖掘模型提取病歷中最相關(guān)的片段,并提出一種多通道卷積注意力網(wǎng)絡(luò)實(shí)現(xiàn)ICD 編碼的自動(dòng)預(yù)測(cè);Ji 等[16]提出一種門(mén)控卷積神經(jīng)架構(gòu),能夠成功捕獲臨床文本中豐富的語(yǔ)義信息;Catling等[17]使用RNN 改善了醫(yī)學(xué)文本的表示,并利用分層結(jié)構(gòu)的醫(yī)學(xué)知識(shí)提升了自動(dòng)編碼的性能;Yu 等[18]提出一種多層注意力雙向遞歸神經(jīng)網(wǎng)絡(luò)模型,并證實(shí)了多層注意力機(jī)制的有效性;Cao 等[19]利用GCN 實(shí)現(xiàn)了編碼共現(xiàn),并借助編碼的層次結(jié)構(gòu)提升了模型表現(xiàn);Xie 等[20]使用GCN 捕獲編碼間的層級(jí)關(guān)系及編碼語(yǔ)義;Teng 等[21]使用GAN 生成對(duì)抗性樣本以調(diào)和醫(yī)生的寫(xiě)作風(fēng)格,并引入知識(shí)圖譜提高編碼預(yù)測(cè)精度。
對(duì)于醫(yī)療編碼的研究,醫(yī)療實(shí)體識(shí)別模型也是一大熱點(diǎn),這些研究主要關(guān)注從電子病歷中識(shí)別不同類別醫(yī)療語(yǔ)義的短語(yǔ)。侯旭東等[22]針對(duì)深度學(xué)習(xí)技術(shù)在醫(yī)療實(shí)體識(shí)別問(wèn)題中隨著網(wǎng)絡(luò)加深識(shí)別模型出現(xiàn)的識(shí)別精度與算力要求不平衡問(wèn)題,提出一種基于深度自編碼的醫(yī)療實(shí)體識(shí)別模型CasSAttMNER(Cascade Self Attention Medical Named Entity Recognition)。CasSAttMNER 模型與本文MNIC 的研究對(duì)象均為醫(yī)療文本,兩者都采用自然語(yǔ)言處理提高醫(yī)療編碼和分類的效率。不同的是,CasSAttMNER 模型進(jìn)行的是實(shí)體識(shí)別研究,將醫(yī)療文本依據(jù)語(yǔ)義大致分為了6 種類別,而本文需要對(duì)醫(yī)療文本分配所有匹配的編碼,編碼的個(gè)數(shù)決定了N分類的精度要求。根據(jù)數(shù)據(jù)規(guī)模,本文使用了1 533 個(gè)編碼,相當(dāng)于需要分為1 533 個(gè)類別,與前者的6 個(gè)類別相比,任務(wù)難度不在一個(gè)數(shù)量級(jí),因此兩種模型的總體F1 分?jǐn)?shù)也有顯著差異;同時(shí)兩個(gè)模型一個(gè)利用的是中文數(shù)據(jù)集,另一個(gè)是用的英文數(shù)據(jù)集,前者數(shù)據(jù)集文本總數(shù)為1 000 條,后者則為50 000 多條,在數(shù)據(jù)規(guī)模上的差異顯著。
以上工作專注于提升常見(jiàn)編碼的性能表現(xiàn),忽略了少樣本編碼。Rios 等[23]最先關(guān)注到了ICD 編碼的少樣本及零樣本學(xué)習(xí),將出院摘要與利用具有圖卷積神經(jīng)網(wǎng)絡(luò)(Graph CNN,GCNN)的結(jié)構(gòu)化標(biāo)簽空間得到的每個(gè)編碼的特征向量進(jìn)行匹配,學(xué)會(huì)了預(yù)測(cè)少樣本和零樣本編碼;Song 等[24]在他的模型基礎(chǔ)上將GCNN 修改為GRNN(Graph Recurrent Neural Network),并使用GAN 為零樣本編碼生成偽特征,在保證可見(jiàn)編碼性能的前提下提升了零樣本編碼的預(yù)測(cè)能力。然而這些模型在預(yù)測(cè)時(shí)幾乎不會(huì)為臨床文本分配少樣本ICD 編碼,目前最優(yōu)模型少樣本編碼的F1 分?jǐn)?shù)為19.17%。
以上研究為自動(dòng)ICD 編碼提供了重要的理論支撐,本文重點(diǎn)討論了數(shù)據(jù)的長(zhǎng)尾分布以及預(yù)測(cè)多標(biāo)簽的可解釋性問(wèn)題,提出了MNIC,捕獲通用元知識(shí)以實(shí)現(xiàn)少樣本學(xué)習(xí);此外,本文使用T-SNE(T-distributed Stochastic Neighbor Embedding)圖為元知識(shí)的通用性提供了有意義的解釋。
ICD 編碼任務(wù)是一個(gè)多標(biāo)簽文本分類問(wèn)題,設(shè)L={l1,l2,…,ls}是所有的ICD 編碼的集合,其中,s為ICD 編碼的數(shù)量。本文的目標(biāo)是訓(xùn)練s個(gè)二元分類器。對(duì)于輸入文本,每個(gè)分類器預(yù)測(cè)結(jié)果為,其中∈{0,1}是L 中的第i個(gè)編碼的預(yù)測(cè)結(jié)果。每個(gè)ICD-9 編碼l都有一個(gè)簡(jiǎn)短的編碼描述。例如,466.1 的編碼描述為:“急性細(xì)支氣管炎”;466.11的編碼描述為:“呼吸道合胞病毒(Respiratory Syncytial Virus,RSV)引起的急性細(xì)支氣管炎”。
由于大部分ICD 編碼并不常出現(xiàn)在臨床文本數(shù)據(jù)中,使得ICD 編碼頻率的分布往往呈現(xiàn)出長(zhǎng)尾分布。針對(duì)這個(gè)問(wèn)題,本文主要關(guān)注少樣本編碼問(wèn)題:在不犧牲頻繁編碼性能的情況下,準(zhǔn)確預(yù)測(cè)少樣本編碼。
本文提出了一個(gè)用于自動(dòng)ICD 編碼的模型MNIC,整體框架如圖1 所示。MNIC 主要由四個(gè)模塊組成:第一個(gè)模塊是數(shù)據(jù)輸入;第二個(gè)模塊是特征提取器,它從臨床文檔和ICD 編碼描述中為每個(gè)編碼提取最相關(guān)的語(yǔ)義信息,并且還訓(xùn)練了一個(gè)基礎(chǔ)分類器獲得了每個(gè)編碼的初始權(quán)重,該基礎(chǔ)分類器對(duì)于頻繁編碼表現(xiàn)良好,但對(duì)于少樣本編碼則不能令人滿意;第三個(gè)模塊是元網(wǎng)絡(luò),它從頻繁編碼的特征表示和分類器權(quán)重的映射中學(xué)習(xí)元知識(shí),然后將元知識(shí)轉(zhuǎn)移到少樣本編碼,并更新少樣本編碼的分類器權(quán)重;第四個(gè)模塊是模型輸出,它結(jié)合了頻繁編碼的原始分類器權(quán)重和少樣本編碼更新后的分類器權(quán)重,得到每個(gè)編碼的二元分類器,輸出最終的分類結(jié)果。
圖1 MNIC的框架Fig.1 Framework of MNIC
給定一個(gè)包含n個(gè)單詞的臨床文本矩陣X=[x1,x2,…,xi,…,xn],對(duì)于每個(gè)單詞xi,使用預(yù)訓(xùn)練的詞嵌入方法得到每個(gè)單詞的詞嵌入向量ci(具有相同的維度de),得到輸入文本的詞嵌入向量表示D=(c1,c2,…,ci,…,cn)。
給定輸入矩陣D,特征提取模塊旨在從每個(gè)輸入中提取每個(gè)編碼最相關(guān)的表示。具體來(lái)說(shuō),本文首先使用卷積層學(xué)習(xí)單詞表示,并且為了更好地提取語(yǔ)義信息,使用編碼描述使編碼在醫(yī)學(xué)領(lǐng)域具有說(shuō)服力和可解釋性;然后,使用標(biāo)簽注意力機(jī)制來(lái)學(xué)習(xí)每個(gè)編碼最相關(guān)的特征向量。
2.2.1 卷積層
給定輸入數(shù)據(jù)D,卷積層的目標(biāo)是從數(shù)據(jù)密集且信息豐富的詞嵌入中學(xué)習(xí)文本語(yǔ)義信息。在CNN 中沒(méi)有使用池化層,而是通過(guò)標(biāo)簽注意力機(jī)制在文檔中找到每個(gè)編碼最相關(guān)的特征。使用卷積濾波器組合相鄰詞嵌入,k為濾波器寬度;de為輸入的詞嵌入維度;dc是濾波器輸出大小。計(jì)算公式為:
2.2.2 編碼向量
每個(gè)ICD 編碼l都有一個(gè)編碼描述,為了表示l,本文對(duì)每個(gè)編碼描述進(jìn)行預(yù)處理。首先將編碼描述中的所有單詞小寫(xiě)并刪除停止詞,然后通過(guò)平均剩余單詞的詞嵌入向量來(lái)形成編碼向量
其中,N是編碼描述中剩余的單詞數(shù)。
2.2.3 注意力機(jī)制
由于臨床文本很長(zhǎng),并且每個(gè)文檔有多個(gè)編碼,每個(gè)編碼的相關(guān)信息可能分散在整個(gè)文檔中。針對(duì)這個(gè)問(wèn)題,本文采用標(biāo)簽注意力機(jī)制,使模型可以關(guān)注文本的不同部分。標(biāo)簽注意力機(jī)制的計(jì)算公式為:
2.2.4 基礎(chǔ)分類器
本文將每個(gè)編碼的特征al作為輸入傳遞給全連接神經(jīng)網(wǎng)絡(luò),然后使用Sigmoid 激活函數(shù)生成第i個(gè)編碼的概率為所有編碼構(gòu)建一個(gè)基本分類器,得到每個(gè)代碼l的分類結(jié)果如下:
其中:yi∈{0,1}是第i個(gè)編碼的基本事實(shí)是第i個(gè)編碼的預(yù)測(cè)結(jié)果;lm是頻繁編碼的個(gè)數(shù)。
通過(guò)特征提取模塊,在每個(gè)樣本中可以獲得所有編碼的特征向量,對(duì)d個(gè)包含r編碼的樣本進(jìn)行采樣,通過(guò)訓(xùn)練好的
特征提取器,獲得特征表示{ar1,ar2,…,ard}。然后通過(guò)取這些向量的平均值,獲得頻繁編碼r和少樣本編碼z的特征表示分別為Mmany聯(lián)系起來(lái)。將每個(gè)頻繁編碼的特征pr映射到相應(yīng)的頻
元網(wǎng)絡(luò)將頻繁編碼特征pmany和頻繁編碼分類器參數(shù)繁編碼的分類器參數(shù)mr,通過(guò)多任務(wù)學(xué)習(xí)得到一個(gè)少樣本編碼模型參數(shù)到頻繁編碼模型參數(shù)的映射關(guān)系,這種映射關(guān)系為少樣本編碼提供了元知識(shí)Wknowledge。對(duì)于每個(gè)頻繁編碼,本文取樣U次(U通常取30 或40),以獲得不同的頻繁編碼的特征表示,這樣可以訓(xùn)練一個(gè)可推廣的遷移元網(wǎng)絡(luò)學(xué)習(xí)器,提高模型的泛化性。
通過(guò)最小化損失Lt進(jìn)行學(xué)習(xí):
本文可以利用元知識(shí)將少樣本編碼特征表示Pfew(fewshot)映射到它的分類器參數(shù)Mmany(many-shot),從而將元知識(shí)從頻繁編碼遷移到少樣本編碼,提高少樣本編碼的分類性能。由式(8)能得到少樣本編碼z的編碼特征表示
在輸出層將頻繁編碼的分類器權(quán)重Mmany和更新后的少樣本編碼的分類器參數(shù)進(jìn)行連接,得到用于預(yù)測(cè)的整個(gè)分類器權(quán)重M。
給定一個(gè)測(cè)試文檔,首先通過(guò)特征提取器得到它的特征向量g,然后通過(guò)Sigmoid 激活函數(shù),產(chǎn)生給定文檔的預(yù)測(cè)結(jié)果。
本文的實(shí)驗(yàn)環(huán)境為Windows10 操作系統(tǒng),CPU 為Intel Core i7-10700,GPU 為Nvidia GeForce RTX3060 12 GB,CUDA11.1。
MIMIC-Ⅲ[25]是由麻省理工學(xué)院開(kāi)發(fā)的公開(kāi)可用數(shù)據(jù)集,包含了2001—2012 年間在貝斯以色列女執(zhí)事醫(yī)療中心重癥監(jiān)護(hù)病房的4 萬(wàn)多名患者約58×103相關(guān)數(shù)據(jù)。每份病歷的出院小結(jié)中包含主訴、既往病史、診斷結(jié)果等?;颊呙看稳朐憾紩?huì)生成1 組ICD-9 編碼,具有準(zhǔn)確性與權(quán)威性。MIMIC-Ⅲ數(shù)據(jù)集經(jīng)常被用于驗(yàn)證模型的有效性。
本文參考了文獻(xiàn)[14]中的數(shù)據(jù)預(yù)處理方法。對(duì)文本進(jìn)行分詞,將所有標(biāo)記轉(zhuǎn)換為小寫(xiě),使用“
本文采用了Rios 等[23]提出的數(shù)據(jù)劃分方式。少樣本編碼與頻繁編碼劃分的前提是這些編碼存在于驗(yàn)證集或測(cè)試集中。以驗(yàn)證集為例,在驗(yàn)證集中具有<5 個(gè)數(shù)據(jù)示例的ICD 編碼不參與評(píng)估。若某ICD 編碼同時(shí)出現(xiàn)在驗(yàn)證集及訓(xùn)練集中并且在訓(xùn)練集中的數(shù)據(jù)示例≤5,那么將它定義為少樣本編碼;否則將它定義為頻繁編碼。測(cè)試集中的編碼劃分標(biāo)準(zhǔn)與驗(yàn)證集相同。最終的少樣本編碼由驗(yàn)證集與測(cè)試集中少樣本編碼求并集得到。頻繁編碼由驗(yàn)證集與測(cè)試集中的頻繁編碼求交集得到。表1 中展示了編碼劃分后的結(jié)果。
表1 ICD編碼劃分結(jié)果Tab.1 ICD code division result
CNN[26]:使用一維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行句子分類。
雙向門(mén)控循環(huán)單元(Bidirectional Gate Recurrent Unit,BiGRU)[14]:執(zhí)行ICD 編碼。
CAML(Convolutional Attention for Multi-Label classification)[14]:用于多標(biāo)簽分類的卷積注意力網(wǎng)絡(luò),包含一個(gè)單層CNN 和一個(gè)注意力層,為每個(gè)ICD 編碼生成與標(biāo)簽相關(guān)的表示。
ZAGCNN(Zero-shot Attentive Graph Convolutional Neural Network)[23]:利用結(jié)構(gòu)化標(biāo)簽空間和GCNN 來(lái)預(yù)測(cè)多標(biāo)簽集合中的少樣本和零樣本標(biāo)簽。
AGM-HT(Adversarial Generative Model conditioned on code descriptions with Hierarchical Tree structure)[24]:利用ICD編碼層次結(jié)構(gòu)和新穎的隱特征生成框架來(lái)實(shí)現(xiàn)多標(biāo)簽文本分類的廣義零樣本學(xué)習(xí)。
使用精度(precision)、召回率(recall)、F1 分?jǐn)?shù)、曲線下面積(Area Under Curve,AUC)來(lái)評(píng)價(jià)各模型表現(xiàn)。在Micro 上分別用RMicro-pre、RMicro-rec與RMicro-F1表示:
其中:n為ICD 編碼總數(shù);TP指預(yù)測(cè)為正例,實(shí)際也為正例的個(gè)數(shù);FP指預(yù)測(cè)為正例,實(shí)際為負(fù)例的個(gè)數(shù);FN指預(yù)測(cè)為負(fù)例,實(shí)際為正例的個(gè)數(shù)。
在Macro 上用RMacro-pre、RMacro-rec與RMacro-F1表示:
實(shí)驗(yàn)中的參數(shù)為:詞嵌入維度de=200;語(yǔ)義提取器中CNN 的卷積核大小為10;出院小結(jié)文本的最大長(zhǎng)度為2 000;dropout 率為0.5;生成特征表示時(shí)各類別編碼采樣的文本數(shù)為5,對(duì)于文本實(shí)例不足5 份的少樣本編碼,則根據(jù)它在訓(xùn)練集中對(duì)應(yīng)的文本實(shí)例數(shù)確定該值;學(xué)習(xí)率為0.001;batch_size 為8。
表2 展示了MNIC 與基線模型在所有編碼上的實(shí)驗(yàn)結(jié)果??梢钥闯觯琈NIC 在大部分指標(biāo)上都有一定提高,說(shuō)明模型在提升少樣本編碼性能的同時(shí)未損害頻繁編碼的性能。表3 展示了MNIC 與基線模型在少樣本編碼上的結(jié)果對(duì)比??梢钥闯觯c較先進(jìn)的AGM-HT 相比,MNIC 將Micro-AUC 和Micro-F1 提高了3.82 和3.77 個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果驗(yàn)證了元網(wǎng)絡(luò)策略的有效性,它將學(xué)到的知識(shí)從數(shù)據(jù)豐富的頻繁編碼轉(zhuǎn)移到數(shù)據(jù)貧乏的少樣本編碼。
表2 各模型在所有編碼上的實(shí)驗(yàn)結(jié)果 單位:%Tab.2 Experimental results of each model on all codes unit:%
表3 各模型在少樣本編碼上的實(shí)驗(yàn)結(jié)果 單位:%Tab.3 Experimental results of each model on few-shot codes unit:%
盡管MNIC 的Micro 指標(biāo)表現(xiàn)出色,但Macro 指標(biāo)與AGM-HT 差距不大,這是因?yàn)樯贅颖揪幋a的數(shù)據(jù)量相對(duì)較小,樣本間的差異和不確定性較大,這可能導(dǎo)致模型在計(jì)算Macro 指標(biāo)時(shí)無(wú)法完全捕捉到每個(gè)類別的平衡性和整體性能;其次,MNIC 的架構(gòu)和訓(xùn)練策略可能在一些類別上產(chǎn)生了不均衡的學(xué)習(xí)效果,導(dǎo)致Macro 指標(biāo)沒(méi)有顯著提升。在實(shí)際情況中,對(duì)于大多數(shù)應(yīng)用場(chǎng)景,Micro 指標(biāo)更重要,因?yàn)樗鼈兛紤]了所有類別的綜合性能。因此,雖然MNIC 在Macro 分?jǐn)?shù)上略低于AGM-HT,但它仍然是一種有效的模型,能夠在少樣本編碼任務(wù)中取得顯著改進(jìn)。
消融實(shí)驗(yàn)用于驗(yàn)證元網(wǎng)絡(luò)模塊的有效性。本文將去除元網(wǎng)絡(luò)模塊的模型稱為MNIC-MN(Meta Network-based ICD Coding model -Meta Network)。在少樣本編碼上的消融實(shí)驗(yàn)結(jié)果如表4 所示??梢钥闯?,MNIC 在所有的評(píng)估指標(biāo)中獲得了最好的結(jié)果,在沒(méi)有元網(wǎng)絡(luò)模塊時(shí),與完整的MNIC 相比少樣本編碼的Micro-F1 和Micro-AUC 下降了19.28、7.96個(gè)百分點(diǎn)。以上結(jié)果表明,元網(wǎng)絡(luò)學(xué)到的元知識(shí)能夠提高少樣本編碼的性能表現(xiàn)。
表4 消融實(shí)驗(yàn)結(jié)果 單位:%Tab.4 Ablation experimental results unit:%
在手動(dòng)編碼臨床記錄時(shí),編碼人員通常需要尋找相關(guān)疾病描述等證據(jù)來(lái)佐證自己的判斷。自動(dòng)ICD 編碼模型同樣也需要分配編碼的證據(jù),即可解釋性。自動(dòng)ICD 編碼的可解釋性有助于提高編碼員頻繁編碼的編碼效率,同時(shí)也為編碼員提供了少樣本編碼的選擇,避免忽略罕見(jiàn)病的編碼,從而獲得專業(yè)編碼員的支持和信任。
圖2 為一些頻繁編碼樣本和少樣本編碼樣本的特征和特征表示(特征的平均值)繪制的T-SNE 圖。較淺的色點(diǎn)是頻繁編碼和少樣本編碼特征降維的結(jié)果;較深的點(diǎn)是頻繁編碼和少樣本編碼的特征表示降維的結(jié)果。
圖2 T-SNE圖Fig.2 T-SNE plots
圖2(a)為使用部分頻繁編碼及少樣本編碼特征繪制的T-SNE 圖,414.01、530.19 為頻繁編碼,414.19、530.13 為少樣本編碼;圖2(b)為頻繁編碼原型及少樣本編碼原型繪制的T-SNE 圖,410.11、532.40 為頻繁編碼,410.02、532.30 為少樣本編碼。圖2(b)的編碼特征表示2D 降維結(jié)果呈現(xiàn)出聚集性,表明它們具有相似的由少樣本編碼到頻繁編碼的映射轉(zhuǎn)換方式。可以發(fā)現(xiàn)特征表示使降維結(jié)果更加集中,這是特征表示模塊提高少樣本編碼性能的前提。此外,從圖2 可以看出,頻繁編碼和少樣本編碼的特征表示的2D 降維結(jié)果呈現(xiàn)出一定程度的聚類,這說(shuō)明相似的頻繁編碼和少樣本編碼具有相似的映射方式,因此可以通過(guò)從頻繁編碼學(xué)習(xí)元知識(shí)轉(zhuǎn)移到少樣本編碼,從而提高小樣本的編碼性能。頻繁編碼和少樣本編碼可以實(shí)現(xiàn)聚類,是由于ICD 編碼存在層次結(jié)構(gòu),相近的兄弟或者父子編碼有相似的編碼描述,這為元知識(shí)學(xué)習(xí)和轉(zhuǎn)移提供了基礎(chǔ)。
本文提出了一種基于特征表示的元網(wǎng)絡(luò)模型MNIC 用于ICD 編碼的少樣本學(xué)習(xí)。通過(guò)元網(wǎng)絡(luò)將元知識(shí)從數(shù)據(jù)豐富的頻繁編碼轉(zhuǎn)移到數(shù)據(jù)貧乏的少樣本編碼,在不影響頻繁編碼性能的情況下對(duì)少樣本編碼的性能進(jìn)行了改進(jìn)。在MIMIC-Ⅲ數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與目前最先進(jìn)的模型相比,MNIC 的表現(xiàn)具有優(yōu)越性。使用MNIC 能夠改善大規(guī)模多標(biāo)簽數(shù)據(jù)中長(zhǎng)尾問(wèn)題所帶來(lái)的影響。盡管本文的實(shí)驗(yàn)結(jié)果相較于同類研究性能大有提升,但是由于本文數(shù)據(jù)規(guī)模較大,訓(xùn)練模型的計(jì)算消耗也較大,文獻(xiàn)[22]中的模型減少了編碼深度以及對(duì)訓(xùn)練和應(yīng)用上的算力要求,未來(lái)對(duì)于小樣本分類的研究也可以考慮借鑒該思路,從減少算力要求并且不損失性能的角度入手繼續(xù)優(yōu)化模型。