国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)增強(qiáng)和擴(kuò)張卷積的ICD編碼分類(lèi)

2024-12-31 00:00:00閆婧趙迪孟佳娜林鴻飛
計(jì)算機(jī)應(yīng)用研究 2024年11期
關(guān)鍵詞:文檔注意力標(biāo)簽

摘 要:針對(duì)ICD編碼分類(lèi)任務(wù)存在的標(biāo)簽分布不平衡、臨床記錄文本過(guò)長(zhǎng)和標(biāo)簽空間龐大等問(wèn)題,提出一種基于數(shù)據(jù)增強(qiáng)和擴(kuò)張卷積的ICD編碼分類(lèi)方法。首先,引入預(yù)訓(xùn)練模型BioLinkBERT,在生物醫(yī)學(xué)領(lǐng)域采用無(wú)監(jiān)督學(xué)習(xí)方式進(jìn)行訓(xùn)練,以緩解域不匹配問(wèn)題;其次,運(yùn)用Mixup數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)充隱藏表示,從而增加數(shù)據(jù)多樣性及提升模型分類(lèi)的魯棒性,解決標(biāo)簽分布不平衡問(wèn)題;最后,利用多粒度擴(kuò)張卷積有效捕獲文本數(shù)據(jù)中的長(zhǎng)距離依賴關(guān)系,避免因輸入文本過(guò)長(zhǎng)影響模型效果。實(shí)驗(yàn)結(jié)果表明,該模型在MIMIC-Ⅲ數(shù)據(jù)集的兩個(gè)子集上與多種方法進(jìn)行比較,相較于基準(zhǔn)模型的F1值和precision@k值分別提升0.4%~1.5%和1.2%~1.6%。因此,本研究為解決ICD編碼分類(lèi)中的挑戰(zhàn)提供有效的解決方案。

關(guān)鍵詞:ICD編碼分類(lèi);BioLinkBERT預(yù)訓(xùn)練模型;Mixup數(shù)據(jù)增強(qiáng);擴(kuò)張卷積

中圖分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)11-018-3329-08

doi:10.19734/j.issn.1001-3695.2024.03.0088

ICD coding classification based on data augmentation and dilated convolution

Yan Jing1, Zhao Di1, 2, 3?, Meng Jiana1, Lin Hongfei2

(1.School of Computer Science amp; Engineering, Dalian Minzu University, Dalian Liaoning 116600, China; 2.School of Computer Science amp; Technology, Dalian University of Technology, Dalian Liaoning 116024, China; 3. Dalian Yongjia Electronic Technology Co., Dalian Liaoning 116024, China)

Abstract:To address the problems of unbalanced label distribution, excessively long medical record text and large label space in the international classification of diseases (ICD) coding classification task, this paper proposed an ICD coding classification method based on data augmentation and dilated convolution. Firstly, this method introduced the pre-trained model BioLinkBERT, trained in the biomedical domain using unsupervised learning, to alleviate the domain mismatch problem. Secondly, it applied the Mixup data augmentation technique to expand the hidden representations, thereby increasing data diversity and improving model robustness for classification, addressing the problem of imbalanced label distribution. Finally, the model effectively captured long-range dependencies in the text data using multi-granularity dilated convolution, avoiding the impact of long input text on the model’s performance. The experimental results demonstrate that the proposed model achieves notable improvements over the baseline model on two subsets of the MIMIC-Ⅲ dataset when compared with various methods. Specifically, the F1 scores and precision@k values improves 0.4% to 1.5% and 1.2% to 1.6%, respectively. Therefore, this study provides an effective solution to solve the challenges of ICD coding classification.

Key words:ICD code classification; BioLinkBERT pre-trained model; Mixup data augmentation; dilated convolution

0 引言

近年來(lái),隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,人們?cè)谡Z(yǔ)音、圖像和文本處理等領(lǐng)域取得新突破[1,2。在大規(guī)模文本數(shù)據(jù)處理中,文本自動(dòng)分類(lèi)技術(shù)發(fā)揮著關(guān)鍵作用,然而在復(fù)雜多變的文本數(shù)據(jù)環(huán)境中,該技術(shù)面臨著諸多嚴(yán)峻挑戰(zhàn)。傳統(tǒng)的單標(biāo)簽文本分類(lèi)方法已無(wú)法應(yīng)對(duì)人們需求的多樣性和復(fù)雜性,為此亟需以多標(biāo)簽文本分類(lèi)方法逐步取代單標(biāo)簽文本分類(lèi)方法3。傳統(tǒng)的多標(biāo)簽分類(lèi)方法基于機(jī)器學(xué)習(xí)理論,其構(gòu)建分類(lèi)模型的過(guò)程涉及特征選擇和特征提取技術(shù)。然而,這種方法存在模型復(fù)雜性高、數(shù)據(jù)表達(dá)能力不足等問(wèn)題。當(dāng)前,深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的重要分支,憑借其強(qiáng)大的自動(dòng)學(xué)習(xí)能力和高度靈活性,在多標(biāo)簽文本分類(lèi)領(lǐng)域取得了一系列進(jìn)展[4

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)以模擬人腦著稱,由多層人工神經(jīng)網(wǎng)絡(luò)組成,通過(guò)自主學(xué)習(xí)和抽取抽象高級(jí)特征來(lái)處理數(shù)據(jù)。在文本分類(lèi)領(lǐng)域,深度學(xué)習(xí)模型通過(guò)分析訓(xùn)練數(shù)據(jù)來(lái)構(gòu)建抽象的文本表示,然后將這些表示傳遞到分類(lèi)器中,以實(shí)現(xiàn)文本分類(lèi)。與傳統(tǒng)機(jī)器學(xué)習(xí)方法不同,深度學(xué)習(xí)模型具有內(nèi)在的特征工程機(jī)制,無(wú)須預(yù)先設(shè)計(jì)大規(guī)模特征工程。然而,這種自動(dòng)特征提取的特性使得深度學(xué)習(xí)模型采用更為復(fù)雜的結(jié)構(gòu),訓(xùn)練過(guò)程需要更多的計(jì)算資源支持。近年來(lái),學(xué)者們從不同角度探索文本特征的優(yōu)化,以獲得更精準(zhǔn)的分類(lèi)結(jié)果[5。盡管尚未確立通用解決方案,但基于深度學(xué)習(xí)的方法在構(gòu)建更高效、可靠的多標(biāo)簽文本分類(lèi)模型方面具有重要的研究?jī)r(jià)值[6。

為了降低人工編碼的難度,一些工作開(kāi)始嘗試使用機(jī)器自動(dòng)完成ICD編碼任務(wù)。早期工作通常使用有監(jiān)督的機(jī)器學(xué)習(xí)方法進(jìn)行ICD編碼,這種方法的效率相對(duì)較低。近年來(lái),采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和注意力機(jī)制結(jié)合的方式,大大提高了編碼的效率和準(zhǔn)確度。雖然之前的方案有所成效,但I(xiàn)CD編碼依然存在一些挑戰(zhàn):a)臨床記錄往往擁有非常長(zhǎng)的文本,其中僅有少部分關(guān)鍵文本片段與某一特定的ICD編碼相關(guān);b)ICD編碼的標(biāo)簽空間非常龐大,在ICD-9中包含大約17 000個(gè)編碼,ICD-10中有超過(guò)40 600個(gè)編碼,龐大的標(biāo)簽空間意味著標(biāo)簽分布存在不平衡的問(wèn)題。

綜上所述,ICD編碼分類(lèi)的研究仍在不斷演進(jìn),如何獲得強(qiáng)大的文本表示并有效地利用標(biāo)簽之間的復(fù)雜關(guān)系仍然是提升任務(wù)性能的關(guān)鍵挑戰(zhàn)[7。本文的主要貢獻(xiàn)概括如下:

a)鑒于在自動(dòng)ICD編碼任務(wù)中存在的標(biāo)簽分布不平衡、臨床記錄文本過(guò)長(zhǎng)及標(biāo)簽空間龐大等問(wèn)題,提出一種基于數(shù)據(jù)增強(qiáng)和擴(kuò)張卷積的ICD自動(dòng)編碼分類(lèi)方法。

b)利用BioLinkBERT預(yù)訓(xùn)練語(yǔ)言模型[8引入無(wú)監(jiān)督學(xué)習(xí),以獲取單詞語(yǔ)義信息。進(jìn)一步,采用Mixup數(shù)據(jù)增強(qiáng)技術(shù)[9對(duì)隱藏表示進(jìn)行形變,以優(yōu)化增強(qiáng)樣本質(zhì)量并減少噪聲干擾。最后,引入多粒度擴(kuò)張卷積10,旨在提高單詞之間的交互能力。

c)實(shí)驗(yàn)結(jié)果表明,在公開(kāi)數(shù)據(jù)集MIMIC-Ⅲ的驗(yàn)證集上,該模型相較于其他ICD編碼分類(lèi)方法表現(xiàn)出更為卓越的分類(lèi)性能,具有一定的可靠性。

1 相關(guān)工作

深度學(xué)習(xí)的多標(biāo)簽文本分類(lèi)方法主要包括基于CNN的方法、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)的方法以及基于注意力機(jī)制的方法。

a)基于CNN的方法。2014年,Kim[11所提文本分類(lèi)網(wǎng)絡(luò)模型中,采用不同大小的卷積核對(duì)文本進(jìn)行卷積操作,以覆蓋不同長(zhǎng)度的詞語(yǔ)組合,通過(guò)卷積和池化操作有效地捕獲文本中的局部特征。該模型通過(guò)全連接層對(duì)特征進(jìn)行組合和分類(lèi),從而實(shí)現(xiàn)對(duì)文本的精確分類(lèi)。2017年,Liu等人[13提出一種基于CNN-XML的文本分類(lèi)模型,旨在解決多標(biāo)簽文本分類(lèi)中特征空間和標(biāo)簽空間龐大導(dǎo)致的數(shù)據(jù)稀疏等問(wèn)題。該模型采用動(dòng)態(tài)最大池化技術(shù)對(duì)卷積層輸出的特征進(jìn)行分塊處理,隨后對(duì)每個(gè)塊進(jìn)行最大池化操作,在保持關(guān)鍵特征的同時(shí)保留其相對(duì)位置信息。為解決層級(jí)標(biāo)簽數(shù)據(jù)稀疏性等問(wèn)題,2018年Shimura等人[12提出基于CNN的分層微調(diào)(hierarchical fine-tuning based CNN, HFT-CNN)模型。該模型采用層級(jí)結(jié)構(gòu),利用Fasttext學(xué)習(xí)上層標(biāo)簽信息,并將這些信息傳遞到下層標(biāo)簽學(xué)習(xí)過(guò)程中。在學(xué)習(xí)下層標(biāo)簽信息時(shí),采用與上層相同的結(jié)構(gòu),并通過(guò)fine-tuning方式微調(diào)上層模型的參數(shù),以促進(jìn)對(duì)下層標(biāo)簽的學(xué)習(xí)。2020年,Yang等人[13提出混合孿生卷積神經(jīng)網(wǎng)絡(luò)模型(hybrid-siamese convolutional neural network, HSCNN),以解決多標(biāo)簽文本分類(lèi)中樣本標(biāo)簽分布不平衡的問(wèn)題。該模型通過(guò)采用混合CNN模型,對(duì)頭部和尾部分類(lèi)采用不同的網(wǎng)絡(luò)結(jié)構(gòu),從而在一定程度上緩解標(biāo)簽類(lèi)別不平衡的問(wèn)題。2021年,Tan等人[14首次將動(dòng)態(tài)嵌入投影門(mén)(dynamic embedding projection gated, DEPG)應(yīng)用于詞嵌入矩陣,提出動(dòng)態(tài)嵌入投影卷積神經(jīng)網(wǎng)絡(luò)(dynamic embedding projection convolutional neural network, DEPCNN)。該模型旨在提升模型的精度并縮短訓(xùn)練時(shí)間,通過(guò)引入DEPG技術(shù),期望在文本處理任務(wù)中取得更為優(yōu)越的性能表現(xiàn)。在多標(biāo)簽分類(lèi)領(lǐng)域,為解決多標(biāo)簽圖像分類(lèi)問(wèn)題,Chen等人[15首次引入圖卷積網(wǎng)絡(luò)(graph convolutional network, GCN),提出一種基于圖卷積網(wǎng)絡(luò)的多標(biāo)簽分類(lèi)模型。該模型以標(biāo)簽空間為基礎(chǔ)構(gòu)建有向圖,并將其映射到相互依賴的分類(lèi)器中以提升分類(lèi)性能,并更好地捕獲標(biāo)簽間的相關(guān)性。另一方面,Zhang等人[16采用顯式的標(biāo)簽圖模型,結(jié)合非線性嵌入和基于圖先驗(yàn)的方法,以更有效地捕捉標(biāo)簽之間的相關(guān)性。鑒于CNN限制模型捕獲長(zhǎng)距離特征的能力,為了更有效地處理長(zhǎng)文本數(shù)據(jù),可以改進(jìn)模型結(jié)構(gòu),使其能夠更好地適應(yīng)并捕捉長(zhǎng)文本中的關(guān)鍵信息。

b)基于RNN的方法。針對(duì)文本語(yǔ)義相關(guān)性對(duì)分類(lèi)準(zhǔn)確率的重要影響,Hu等人[17采用word2vec和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bi-directional long short-term memory, BiLSTM)進(jìn)行模型訓(xùn)練,以獲取文本數(shù)據(jù)前向和后向的語(yǔ)義信息及其相關(guān)性。考慮到基于LSTM的模型存在計(jì)算量大和計(jì)算復(fù)雜度高的不足,研究者們逐漸轉(zhuǎn)向關(guān)注門(mén)控循環(huán)單元(gated recurrent unit, GRU)應(yīng)用,并提出基于GRU的多標(biāo)簽文本分類(lèi)方法,以克服LSTM模型的局限性。Xie等人[18使用樹(shù)型序列LSTM進(jìn)行ICD編碼,以處理ICD代碼的層次結(jié)構(gòu),更有效地提取文本特征。Liu等人[19在GRU模型基礎(chǔ)上,提出創(chuàng)新的混合模型(TCN and GRU network, TGNet),結(jié)合時(shí)間序列信息以更好地適應(yīng)中文和英文文本數(shù)據(jù)。相對(duì)于LSTM,GRU在參數(shù)數(shù)量上進(jìn)行優(yōu)化,并在性能上取得顯著改進(jìn)。為提升分類(lèi)效果,Yang等人[20通過(guò)整合標(biāo)簽間的相關(guān)性,采用LSTM解碼器按順序生成標(biāo)簽,充分考慮標(biāo)簽關(guān)聯(lián)性,獲得更優(yōu)異的性能。另一方面,Lin等人[21在傳統(tǒng)seq2seq模型基礎(chǔ)上引入多級(jí)擴(kuò)展卷積,從源文本的上下文中提取有效信息,并提取文本序列的單元級(jí)和單詞級(jí)語(yǔ)義信息,以減少對(duì)標(biāo)簽序列先驗(yàn)分布的影響。此外,Xiao等人[22對(duì)傳統(tǒng)seq2seq模型進(jìn)行改進(jìn),擺脫對(duì)文本隱藏狀態(tài)的依賴,結(jié)合歷史信息與seq2seq模型,以獲取上下文和標(biāo)簽信息,更準(zhǔn)確地捕獲文本中的重要單詞并減少信息傳播中的錯(cuò)誤?;赗NN的模型存在計(jì)算量大和計(jì)算復(fù)雜度高的問(wèn)題,會(huì)導(dǎo)致訓(xùn)練時(shí)間變長(zhǎng),特別是在處理大規(guī)模數(shù)據(jù)集時(shí),所需的時(shí)間顯著增加。

c)基于注意力機(jī)制的方法。研究者普遍趨向于將深度學(xué)習(xí)模型與注意力機(jī)制相融合,以提升模型效能。Zhou等人[23采用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合的策略,旨在獲取文本中最為關(guān)鍵的語(yǔ)義信息。為了獲取不同場(chǎng)景下的重要文本信息,Yang等人[24提出一種多層次的注意力機(jī)制,并在不同的層級(jí)上采用差異化的注意策略用于文本分類(lèi)。自注意力機(jī)制25在序列學(xué)習(xí)任務(wù)中表現(xiàn)出顯著的優(yōu)勢(shì)。相較于傳統(tǒng)的RNN,該機(jī)制更有效地捕獲序列中的長(zhǎng)期依賴關(guān)系。Transformer中的多頭注意力機(jī)制具有獨(dú)特的優(yōu)勢(shì),能夠?qū)崿F(xiàn)序列中每個(gè)位置與其他位置的直接連接,從而學(xué)習(xí)到更為全面的全局依賴關(guān)系。一些研究者們將自注意力機(jī)制應(yīng)用于文本分類(lèi),Lu等人[26提出基于自注意力的卷積神經(jīng)網(wǎng)絡(luò)(self-attention-based convolutional neural network, SACNN)用于句子分類(lèi),包括兩個(gè)自注意力層和一個(gè)卷積神經(jīng)網(wǎng)絡(luò),從而提高文本分類(lèi)效率。同時(shí),其他研究者嘗試采用不同的圖網(wǎng)絡(luò)模型,如圖注意網(wǎng)絡(luò)(graph attention network, GAT)和圖同構(gòu)網(wǎng)絡(luò)(graph isomorphism network, GIN)等,以捕獲標(biāo)簽之間的注意依賴結(jié)構(gòu)。自注意力和多頭注意力機(jī)制雖然擅長(zhǎng)處理文本內(nèi)部的信息交互,但它們不足以充分捕捉標(biāo)簽之間的相關(guān)性和語(yǔ)義聯(lián)系,特別是在對(duì)出現(xiàn)頻率較低的標(biāo)簽進(jìn)行分類(lèi)時(shí),難以獲取充分的信息,從而影響分類(lèi)效果。

以上研究表明,CNN在處理文本內(nèi)容時(shí),利用卷積核對(duì)文本進(jìn)行窗口計(jì)算,結(jié)構(gòu)相對(duì)簡(jiǎn)單。然而,CNN對(duì)于長(zhǎng)距離的依賴關(guān)系建模能力相對(duì)有限,同時(shí)池化操作也會(huì)導(dǎo)致部分文本語(yǔ)義信息丟失。雖然基于RNN的多標(biāo)簽文本分類(lèi)方法在一定程度上能夠處理醫(yī)療文本數(shù)據(jù),但其在長(zhǎng)序列建模、計(jì)算效率和泛化能力等方面存在一些限制和挑戰(zhàn)。自注意力和多頭注意力主要關(guān)注輸入序列中的自身依賴關(guān)系,而在多標(biāo)簽文本分類(lèi)任務(wù)中,標(biāo)簽之間的依賴關(guān)系也非常重要?;诖耍疚奶岢龌跀?shù)據(jù)增強(qiáng)和擴(kuò)張卷積的ICD編碼分類(lèi)方法:引入擴(kuò)張卷積處理長(zhǎng)文本和捕獲長(zhǎng)距離依賴關(guān)系,還可以降低計(jì)算量;同時(shí)采用標(biāo)簽注意力機(jī)制關(guān)注標(biāo)簽之間的相關(guān)性,從而更適合多標(biāo)簽文本分類(lèi)的需求。另外,使用Mixup數(shù)據(jù)增強(qiáng)技術(shù)增加數(shù)據(jù)多樣性,并結(jié)合預(yù)訓(xùn)練模型BioLinkBERT,進(jìn)一步提升ICD編碼分類(lèi)任務(wù)的性能和分類(lèi)準(zhǔn)確度。

2 研究方法

2.1 整體架構(gòu)

本文采用的模型結(jié)構(gòu)如圖1所示,主要包括預(yù)訓(xùn)練模型BioLinkBERT、Mixup數(shù)據(jù)增強(qiáng)模塊、多粒度擴(kuò)張卷積模塊以及標(biāo)簽注意力機(jī)制。

在處理長(zhǎng)文本時(shí),首先對(duì)整個(gè)輸入文檔進(jìn)行分段,以確保每個(gè)段落長(zhǎng)度在最大限制內(nèi)。隨后,利用預(yù)訓(xùn)練語(yǔ)言模型(pre-trained language model, PLM)對(duì)這些分段進(jìn)行編碼,獲取各自的表示。在對(duì)分段文本進(jìn)行編碼后,分段表示被聚合為完整文本的表示。進(jìn)一步,引入Mixup技術(shù)對(duì)數(shù)據(jù)進(jìn)行增強(qiáng),該技術(shù)在高層隱藏表示上對(duì)輸入進(jìn)行變形,以優(yōu)化增強(qiáng)樣本質(zhì)量并降低噪聲干擾,通過(guò)線性插值生成新的樣本。接著引入多粒度擴(kuò)張卷積以捕獲不同距離單詞之間的交互作用,其中擴(kuò)張率決定卷積核在輸入上的采樣間隔。在此基礎(chǔ)上采用串聯(lián)機(jī)制將所有token表示聚合,形成整體文檔的表示。隨后,采用標(biāo)簽注意力機(jī)制作為增強(qiáng)模塊,旨在學(xué)習(xí)捕獲與特定標(biāo)簽相關(guān)的關(guān)鍵文本片段。通過(guò)生成特定于標(biāo)簽的表示,并對(duì)特征矩陣進(jìn)行加權(quán)處理,最終輸出通過(guò)注意力加權(quán)后的特征矩陣。最后,通過(guò)線性層操作,將特定于標(biāo)簽的文檔表示用于標(biāo)簽的分類(lèi)。

2.2 輸入

ICD編碼分類(lèi)任務(wù)是一個(gè)多標(biāo)簽分類(lèi)問(wèn)題,給定電子病歷中的臨床記錄d=(t1,t2,…,tn),目標(biāo)是預(yù)測(cè)一組ICD碼yY,其中Y表示所有可能編碼的集合。通常,標(biāo)簽表示為二進(jìn)制向量y∈{0,1},其中每一位yi表示電子病歷中是否出現(xiàn)相應(yīng)的標(biāo)簽。

分段池化機(jī)制首先將整個(gè)文檔分割成小于最大長(zhǎng)度的段segment為s,將其分割成c個(gè)連續(xù)的片段:

si={tj,|c·i≤j≤|c·(i+1)}(1)

2.3 預(yù)訓(xùn)練模型BioLinkBERT

BioLinkBERT是一種在生物醫(yī)學(xué)領(lǐng)域基于文檔鏈接關(guān)系進(jìn)行預(yù)訓(xùn)練的語(yǔ)言模型。基于BERT模型構(gòu)建,它是一種基于Transformer架構(gòu)的雙向編碼器,具有強(qiáng)大的語(yǔ)言理解能力。BERT模型利用Transformer的編碼器來(lái)學(xué)習(xí)輸入序列的雙向表示,通過(guò)預(yù)訓(xùn)練階段學(xué)習(xí)通用語(yǔ)言表示,然后可以在各種下游任務(wù)中進(jìn)行微調(diào),特別是在文本分類(lèi)、命名實(shí)體識(shí)別等方面。

預(yù)訓(xùn)練模型BioLinkBERT的結(jié)構(gòu)如圖2所示,它基于BERT模型構(gòu)建,但在預(yù)訓(xùn)練階段引入額外的文檔鏈接關(guān)系預(yù)測(cè)任務(wù),從而豐富模型的語(yǔ)義理解能力。在該方法中,將文本語(yǔ)料庫(kù)視為文檔之間的圖,并通過(guò)將鏈接的文檔放置在同一上下文中來(lái)構(gòu)建語(yǔ)言模型(language model, LM)的輸入。其預(yù)訓(xùn)練目標(biāo)包括掩碼語(yǔ)言建模(mask language model, MLM)和文檔關(guān)系預(yù)測(cè)(document relationship prediction, DRP)兩個(gè)自監(jiān)督目標(biāo)。MLM目標(biāo)旨在引入同一上下文的概念,鼓勵(lì)跨文檔知識(shí)的學(xué)習(xí)。DRP目標(biāo)則通過(guò)對(duì)輸入中兩個(gè)文本段之間的關(guān)系(連續(xù)、隨機(jī)或鏈接)進(jìn)行分類(lèi),鼓勵(lì)模型學(xué)習(xí)文檔之間的相關(guān)性。有助于模型更好地理解文檔之間的關(guān)聯(lián)性和語(yǔ)義關(guān)聯(lián),為下游任務(wù)提供更豐富的語(yǔ)義表示。以下是BioLinkBERT預(yù)訓(xùn)練中兩個(gè)主要任務(wù)的實(shí)現(xiàn)過(guò)程:

給定一個(gè)標(biāo)記序列S=(s1,s2,…,sn),其中一部分標(biāo)記YS被隨機(jī)掩蓋,任務(wù)是預(yù)測(cè)這些掩蓋的標(biāo)記。MLM的損失函數(shù)通常使用交叉熵?fù)p失來(lái)計(jì)算:

LMLM=-∑ni=1log p(si|slt;i,sgt;i;θ)(2)

其中:p(si|slt;i,sgt;i;θ)是在給定模型參數(shù)θ下,當(dāng)前標(biāo)記si的條件概率;slt;i和sgt;i分別表示si之前和之后的上下文。

對(duì)于由兩個(gè)文檔片段SA和SB組成的輸入實(shí)例,DRP的任務(wù)是預(yù)測(cè)這兩個(gè)片段之間的關(guān)系r。DRP的損失函數(shù)可以使用分類(lèi)交叉熵?fù)p失來(lái)計(jì)算:

LDRP=-log p(r|h[CLS;θ)(3)

其中:p(r|h[CLS;θ)是在給定模型參數(shù)θ下,關(guān)系r的條件概率;hCLS是[CLS]標(biāo)記的向量表示,通常用于句子級(jí)別的任務(wù)。

結(jié)合這兩個(gè)任務(wù),BioLinkBERT的總損失函數(shù)為

L=LMLM+LDRP(4)

在訓(xùn)練過(guò)程中,模型的參數(shù)θ通過(guò)最小化損失函數(shù)L來(lái)調(diào)整。

將分段后的文本s作為輸入,使用預(yù)訓(xùn)練模型BioLinkBERT轉(zhuǎn)換為詞嵌入表示,使用多層的雙向Transformer編碼器對(duì)輸入序列進(jìn)行編碼。在編碼器的每一層,將輸入序列轉(zhuǎn)換為高維特征表示,將編碼器的最后一層輸出進(jìn)行最大池化操作,得到整個(gè)序列的固定維度的表示,最終得到整個(gè)輸入序列的編碼表示。在微調(diào)階段,BioLinkBERT利用預(yù)訓(xùn)練的生物醫(yī)學(xué)語(yǔ)言表示,在特定的生物醫(yī)學(xué)任務(wù)上進(jìn)行微調(diào),還可以凍結(jié)部分模型層,只微調(diào)部分層,以提高模型在特定任務(wù)上的性能。通過(guò)預(yù)訓(xùn)練和微調(diào),BioLinkBERT可以捕捉生物醫(yī)學(xué)領(lǐng)域特有的語(yǔ)義信息和關(guān)系,從而更好地應(yīng)用于生物醫(yī)學(xué)領(lǐng)域的ICD編碼任務(wù)中。

2.4 Mixup數(shù)據(jù)增強(qiáng)

當(dāng)前公開(kāi)的多標(biāo)簽文本分類(lèi)數(shù)據(jù)集相對(duì)有限,這給實(shí)現(xiàn)自動(dòng)化分類(lèi)帶來(lái)了一定挑戰(zhàn)。為解決人工標(biāo)注的時(shí)間成本和高資源成本等問(wèn)題,本文引入Mixup數(shù)據(jù)增強(qiáng)方法。文本數(shù)據(jù)增強(qiáng)技術(shù)主要分為兩類(lèi):a)針對(duì)原始語(yǔ)料的方法,通過(guò)同義詞替換、隨機(jī)插入、隨機(jī)交換以及隨機(jī)刪除等方式對(duì)語(yǔ)料進(jìn)行處理,以獲取更多與訓(xùn)練語(yǔ)料相似的語(yǔ)句,從而擴(kuò)充原始數(shù)據(jù);b)針對(duì)文本表示的方法,即在語(yǔ)料的特征表示層面進(jìn)行增強(qiáng)處理,例如注入隨機(jī)噪聲等。這些方法旨在提高訓(xùn)練數(shù)據(jù)的多樣性和豐富性,以增強(qiáng)模型的泛化性能。

本文采用Mixup作為數(shù)據(jù)增強(qiáng)方法,重點(diǎn)在于對(duì)輸入樣本的高層隱藏表示進(jìn)行變換,以精細(xì)控制增強(qiáng)樣本的質(zhì)量并降低噪聲的影響。該方法的具體操作如下:a)隨機(jī)從訓(xùn)練數(shù)據(jù)集中選擇兩個(gè)樣本,分別記為樣本A和B,其中樣本A是輸入樣本的特征表示,樣本B是對(duì)應(yīng)的標(biāo)簽序列;b)針對(duì)每個(gè)輸入序列樣本A,通過(guò)模型的隱藏表示層獲得對(duì)應(yīng)的特征表示;c)對(duì)特征表示進(jìn)行線性插值,生成新的特征表示。對(duì)于每個(gè)特征向量的相應(yīng)位置,通過(guò)式(5)進(jìn)行計(jì)算,得到插值后的特征值。

new_feature=λ×feature1+(1-λ)×feature2(5)

其中:λ為一個(gè)參數(shù),用于控制插值的程度。

采用插值后的特征表示進(jìn)行CRF解碼,以獲取新的標(biāo)簽序列。這些插值后的特征表示和相應(yīng)的新標(biāo)簽序列被視為增強(qiáng)樣本,并與原始樣本一同參與模型的訓(xùn)練。通過(guò)Mixup技術(shù),充分利用輸入樣本之間的特征關(guān)聯(lián)和上下文信息,生成多樣化的訓(xùn)練樣本,有效提升模型性能。

2.5 多粒度擴(kuò)張卷積

擴(kuò)張卷積是一種通過(guò)采用不同擴(kuò)張率的多個(gè)二維卷積核,在不降低特征圖分辨率的前提下增加感受野的技術(shù)。這一操作可以幫助網(wǎng)絡(luò)涵蓋更廣泛的信息范圍,從而提高模型對(duì)輸入數(shù)據(jù)的理解能力。擴(kuò)張卷積通過(guò)調(diào)整卷積核的擴(kuò)張率來(lái)決定在輸入上的采樣間隔,較大的擴(kuò)張率有助于捕獲更遠(yuǎn)距離的單詞之間的關(guān)聯(lián)性,進(jìn)而提高模型的表征能力。相比傳統(tǒng)的卷積操作,擴(kuò)張卷積能夠在不增加網(wǎng)絡(luò)參數(shù)的情況下增加感受野,從而提高模型的感知范圍和上下文理解能力。

在多粒度擴(kuò)張卷積的計(jì)算過(guò)程中,針對(duì)每個(gè)擴(kuò)張率l∈[1,2,3],首先使用具有該擴(kuò)張率l的二維卷積核對(duì)輸入進(jìn)行卷積操作,得到相應(yīng)的輸出Ql。然后,對(duì)每個(gè)擴(kuò)張率的輸出Ql應(yīng)用GELU激活函數(shù)進(jìn)行非線性變換。接著,將所有擴(kuò)張率的輸出Ql拼接在一起,形成最終的輸出結(jié)果Q。這種多粒度擴(kuò)張卷積的方法能夠有效地捕獲不同距離單詞之間的關(guān)系,從而提升模型的性能。在具體實(shí)現(xiàn)中,首先利用預(yù)訓(xùn)練模型BioLinkBERT獲取上下文中單詞的表示,然后構(gòu)建單詞對(duì)的二維網(wǎng)格。通過(guò)引入多粒度的二維卷積,可以對(duì)詞對(duì)表示進(jìn)行精細(xì)化處理,從而有力地捕獲近距離和遠(yuǎn)距離單詞對(duì)之間的交互關(guān)系。具體而言,擴(kuò)張卷積的計(jì)算公式如下:

Ql=σ(DConvl(C))(6)

其中:Ql∈?N×N×dc表示具有膨脹率l的膨脹卷積的輸出;σ是GELU激活函數(shù)。

在此之后,可以獲得最終的詞對(duì)網(wǎng)格表示Q=[Q1,Q2,Q3]∈?N×N×3dc。多粒度擴(kuò)張卷積結(jié)構(gòu)如圖3所示,通過(guò)在基礎(chǔ)卷積核中引入間隔,實(shí)現(xiàn)更廣范圍的感受野,從而增強(qiáng)模型對(duì)輸入數(shù)據(jù)的感知能力。圖3(a)展示基礎(chǔ)卷積核的結(jié)構(gòu),而圖3(b)(c)分別展示擴(kuò)張率為2和3的擴(kuò)張卷積核的結(jié)構(gòu)。具體而言,擴(kuò)張率為2的卷積核具有7×7的感受野,但僅有9個(gè)參數(shù),其他位置的參數(shù)均為零。同樣,擴(kuò)張率為3的卷積核具有9×9的感受野,但也僅有有限數(shù)量的參數(shù)捕獲全局特征。

多粒度二維卷積作為關(guān)系捕捉的關(guān)鍵技術(shù)之一,利用多個(gè)擁有不同擴(kuò)張率的二維卷積層來(lái)處理單詞之間的交互關(guān)系。這些卷積層的擴(kuò)張率可以靈活設(shè)定,通過(guò)采用不同的擴(kuò)張率,實(shí)現(xiàn)對(duì)不同距離范圍內(nèi)單詞交互關(guān)系的捕獲。該擴(kuò)張率的設(shè)置使得模型能夠有效地捕獲單詞之間的遠(yuǎn)距離依賴關(guān)系,從而提升模型對(duì)輸入的電子病歷文本信息的理解能力和表征能力。

2.6 標(biāo)簽注意力

在多標(biāo)簽分類(lèi)任務(wù)中,一個(gè)樣本一般會(huì)對(duì)應(yīng)多個(gè)標(biāo)簽,每個(gè)標(biāo)簽代表樣本都具有的某種特定屬性或類(lèi)別。它有助于ICD編碼分類(lèi)模型在預(yù)測(cè)多個(gè)標(biāo)簽時(shí)更加關(guān)注相關(guān)性更高的標(biāo)簽,并且在模型解釋性方面提供一定的幫助。其架構(gòu)如圖4所示,模型包含嵌入層、BiLSTM、注意力層以及輸出層。

a)嵌入層是模型的輸入層,負(fù)責(zé)將臨床文本中的詞標(biāo)記轉(zhuǎn)換為密集的詞嵌入向量。

b)BiLSTM層被用來(lái)捕獲輸入詞的上下文信息。采用雙向結(jié)構(gòu),它能夠同時(shí)考慮詞語(yǔ)的前后文信息,從而更全面地理解臨床文本的語(yǔ)境和含義,為后續(xù)注意力層提供更豐富的輸入信息,其實(shí)現(xiàn)過(guò)程如下:

q1,q2,…,q3=BiLSTM(y1,y2,…,ym)(7)

其中:y表示標(biāo)簽輸入;q則為標(biāo)簽表示。

c)鑒于臨床文獻(xiàn)長(zhǎng)度不一且文檔包含多個(gè)標(biāo)簽,注意力層將隱藏狀態(tài)矩陣轉(zhuǎn)換為表示輸入文檔的標(biāo)簽特定向量。注意力層將雙向LSTM層的隱藏狀態(tài)矩陣轉(zhuǎn)換為表示輸入文檔的標(biāo)簽特定向量,通過(guò)對(duì)隱藏狀態(tài)進(jìn)行加權(quán),該層能夠聚焦于與ICD編碼相關(guān)的關(guān)鍵信息,提高模型對(duì)文本中重要部分的關(guān)注程度,從而提升模型的預(yù)測(cè)性能。

d)對(duì)于每個(gè)特定于標(biāo)簽的表示,將其輸入相應(yīng)的單層前饋網(wǎng)絡(luò)(feedforward neural network,F(xiàn)FNN)。該網(wǎng)絡(luò)具有單節(jié)點(diǎn)輸出層,接著是一個(gè)激活函數(shù),以生成給定標(biāo)簽的文檔概率。輸出層接收來(lái)自注意力層的標(biāo)簽特定向量,并將其輸入到FFNN中。FFNN具有單個(gè)節(jié)點(diǎn)的輸出層,緊跟著一個(gè)激活函數(shù),通常是sigmoid或softmax函數(shù),用于生成給定標(biāo)簽的文檔概率。

為了解決大標(biāo)簽集的問(wèn)題,本文采用標(biāo)簽注意力機(jī)制來(lái)增強(qiáng)預(yù)訓(xùn)練語(yǔ)言模型,以學(xué)習(xí)捕獲與特定標(biāo)簽相關(guān)的重要文本片段的標(biāo)簽特定表示。一旦獲取令牌隱藏表示H,利用注意機(jī)制將H轉(zhuǎn)換為特定于標(biāo)簽的表示。標(biāo)簽注意力機(jī)制將H作為輸入,并計(jì)算特定于標(biāo)簽的表示。該機(jī)制可以分為兩個(gè)步驟。首先,計(jì)算標(biāo)簽關(guān)注權(quán)重矩陣A:

Z=tanh(VH)(8)

A=softmax(WZ)(9)

其中:V和W是線性變換;A的第i行表示第i個(gè)標(biāo)簽的權(quán)重,對(duì)每個(gè)標(biāo)簽執(zhí)行softmax函數(shù)以在所有令牌上形成分布。

然后,使用矩陣A對(duì)H進(jìn)行加權(quán)和,計(jì)算特定于標(biāo)簽的文檔表示:

Di=HAT(10)

其中:Di表示第i個(gè)標(biāo)簽的文檔表示。

最后,使用特定于標(biāo)簽的文檔表示D來(lái)進(jìn)行預(yù)測(cè):

pi=sigmoid(〈Li,Di〉)(11)

其中:Li是第i個(gè)標(biāo)簽的向量;〈〉表示兩個(gè)向量之間的內(nèi)積;pi是第i個(gè)標(biāo)簽的預(yù)測(cè)概率。然后,基于預(yù)定義的閾值t為文檔分配標(biāo)簽。

訓(xùn)練目標(biāo)是最小化二進(jìn)制交叉熵?fù)p失L(y,p):

-1|y|∑|y|i=1(yilog pi+(1-yi)log(1-pi))(12)

3 實(shí)驗(yàn)與結(jié)果

3.1 數(shù)據(jù)集

本文采用MIMIC-Ⅲ數(shù)據(jù)集,其中包括MIMIC-Ⅲ(top-50)和MIMIC-Ⅲ(full)兩個(gè)重要的子集,MIMIC-Ⅲ作為一個(gè)全面、詳細(xì)的數(shù)據(jù)集,收錄了重癥監(jiān)護(hù)病房(ICU)患者的醫(yī)療記錄,包括生命體征、實(shí)驗(yàn)室測(cè)試結(jié)果、藥物使用、病情發(fā)展和治療方案等,具體統(tǒng)計(jì)信息如表1所示。

基于MIMIC-Ⅲ數(shù)據(jù)集,能夠探索豐富的臨床數(shù)據(jù),從中獲取有關(guān)患者診斷、治療和疾病預(yù)后的詳細(xì)信息。這樣的數(shù)據(jù)資源不僅有助于醫(yī)學(xué)研究和臨床實(shí)踐的發(fā)展,還可以為人工智能在醫(yī)療健康領(lǐng)域的應(yīng)用提供強(qiáng)有力的支持和驗(yàn)證。

本實(shí)驗(yàn)對(duì)MIMIC-Ⅲ(full)數(shù)據(jù)集中的句子長(zhǎng)度進(jìn)行詳細(xì)統(tǒng)計(jì),并將其分布情況整理如表2所示。表中展示句子長(zhǎng)度在不同區(qū)間范圍內(nèi)的比例,以便對(duì)句子長(zhǎng)度分布有一個(gè)直觀的了解。這些統(tǒng)計(jì)信息有助于確定適當(dāng)?shù)哪P洼斎胄蛄虚L(zhǎng)度,并為模型設(shè)計(jì)和調(diào)參提供參考。通過(guò)對(duì)句子長(zhǎng)度的分析,可以更好地理解臨床文本數(shù)據(jù)的特點(diǎn),從而更有效地處理和利用這些數(shù)據(jù)進(jìn)行后續(xù)的任務(wù)和分析。

3.2 測(cè)試環(huán)境

為了開(kāi)展與ICD編碼分類(lèi)相關(guān)的研究,本文進(jìn)行廣泛的實(shí)驗(yàn),采用PyTorch框架搭建實(shí)驗(yàn)?zāi)P汀1?詳細(xì)描述本文所采用的硬件配置,這些硬件環(huán)境可以提供足夠的計(jì)算資源和性能支持,以有效地訓(xùn)練和評(píng)估模型。

模型的具體參數(shù)如表4所示,包括各個(gè)模塊的配置參數(shù)和超參數(shù)設(shè)置。其中,詞向量維度決定詞嵌入空間的維度大??;詞表單詞個(gè)數(shù)定義詞匯表的大??;迭代次數(shù)則決定模型訓(xùn)練的輪數(shù);學(xué)習(xí)率控制模型在訓(xùn)練過(guò)程中的參數(shù)更新步長(zhǎng);dropout作為一種正則化手段,通過(guò)隨機(jī)丟棄部分神經(jīng)元來(lái)防止模型過(guò)擬合。

根據(jù)不同參數(shù)設(shè)置下的性能差異,本文設(shè)置如表中所示的參數(shù)值以確保實(shí)現(xiàn)最佳的模型表現(xiàn)。采用768維的詞向量能夠提供豐富的信息,尤其是在處理較復(fù)雜的文本分類(lèi)任務(wù)時(shí),有助于模型理解詞義和上下文。盡管提升到更高維度(例如1 024維)的詞向量能夠提供更多的信息,但這將增加內(nèi)存的使用,從而限制模型處理數(shù)據(jù)的規(guī)模。詞表大小決定模型能夠識(shí)別的單詞種類(lèi)。包含51 921個(gè)單詞的詞表為模型提供一個(gè)相對(duì)平衡的詞匯覆蓋范圍,既不會(huì)過(guò)大導(dǎo)致模型訓(xùn)練困難,也不會(huì)過(guò)小而忽視一些重要的詞匯。在微調(diào)過(guò)程中,本文執(zhí)行一系列不同迭代次數(shù)的對(duì)比實(shí)驗(yàn)。通過(guò)將迭代次數(shù)設(shè)定在10~70次,每次增加10次迭代,發(fā)現(xiàn)50次迭代能夠取得最優(yōu)效果。這一設(shè)置既確保模型有足夠的時(shí)間學(xué)習(xí)數(shù)據(jù)特征,又有效避免因迭代次數(shù)過(guò)多而引起的過(guò)擬合問(wèn)題。此外,將學(xué)習(xí)率設(shè)置為0.000 1,這一較低的學(xué)習(xí)率有助于模型在訓(xùn)練過(guò)程中實(shí)現(xiàn)穩(wěn)定的收斂。對(duì)于本文的龐大數(shù)據(jù)集,較小的學(xué)習(xí)率是首選。從dropout比例為0.2~0.5的實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn),當(dāng)dropout比例調(diào)整為0.2時(shí),模型的性能表現(xiàn)最佳。

3.3 評(píng)估指標(biāo)

對(duì)實(shí)驗(yàn)結(jié)果的評(píng)估采用微平均F1值(Micro-F1)和宏平均F1值(Macro-F1)。其中Micro-F1首先計(jì)算出所有標(biāo)簽的precisionmicro和recallmicro,再通過(guò)F1計(jì)算公式進(jìn)一步求得Micro-F1的值,綜合考慮所有標(biāo)簽的整體召回率和精度。

precisionmicro=∑ni=1TPi∑ni=1TPi+∑ni=1FPi(13)

recallmicro=∑ni=1TPi∑ni=1TPi+∑ni=1FNi(14)

Micro-F1=2×precisionmicro×recallmicroprecisionmicro+recallmicro(15)

Macro-F1首先計(jì)算出各個(gè)標(biāo)簽的平均precisionmicro和recallmicro,再通過(guò)F1計(jì)算公式求得Macro-F1的值,計(jì)算所有標(biāo)簽的平均F1值。

Micro-F1考慮每個(gè)標(biāo)簽在整個(gè)數(shù)據(jù)集中的出現(xiàn)頻率,因此更加關(guān)注頻繁出現(xiàn)的標(biāo)簽,賦予其更高的權(quán)重。它通過(guò)對(duì)所有樣本的真實(shí)標(biāo)簽和預(yù)測(cè)標(biāo)簽的總體準(zhǔn)確率、召回率進(jìn)行計(jì)算得出。相比之下,Macro-F1獨(dú)立計(jì)算每個(gè)標(biāo)簽的準(zhǔn)確率和召回率,然后對(duì)它們?nèi)∑骄?,因此?duì)于每個(gè)標(biāo)簽都賦予相同的權(quán)重。對(duì)于大規(guī)模標(biāo)簽數(shù)據(jù)集,考慮到標(biāo)簽的稀疏性,本文采用每個(gè)測(cè)試樣本潛在相關(guān)標(biāo)簽的簡(jiǎn)短列表來(lái)表示分類(lèi)質(zhì)量。通過(guò)基于樣本的排序標(biāo)準(zhǔn)來(lái)評(píng)估模型,表示模型在第k個(gè)標(biāo)簽位置的準(zhǔn)確率。

3.4 消融實(shí)驗(yàn)

為確保整體特征矩陣的維度一致性,需要為輸入句子設(shè)定一個(gè)統(tǒng)一的最大長(zhǎng)度值。若輸入句子長(zhǎng)度過(guò)短,會(huì)導(dǎo)致模型對(duì)句子含義的特征提取不足,從而影響整體性能;若長(zhǎng)度過(guò)長(zhǎng),不僅會(huì)增加整體模型的訓(xùn)練時(shí)間,還可能影響數(shù)據(jù)集中較短句子的真實(shí)含義。為保持實(shí)驗(yàn)的一致性,需要在較短句子之后進(jìn)行填充操作,但這也會(huì)對(duì)模型性能造成一定影響。因此,本文進(jìn)行對(duì)比實(shí)驗(yàn),分析不同輸入長(zhǎng)度對(duì)模型性能的影響。

通過(guò)觀察表5的結(jié)果,明顯發(fā)現(xiàn)當(dāng)MaxLength設(shè)置為3 000時(shí),模型整體性能較MaxLength為2 500或3 500時(shí)有顯著改善。為了深入研究MaxLength在3 000附近對(duì)模型性能的影響,本文進(jìn)行實(shí)驗(yàn),調(diào)整MaxLength的值。實(shí)驗(yàn)結(jié)果表明,當(dāng)MaxLength分別設(shè)置為2 750、2 850和3 100時(shí),模型整體性能均不如MaxLength為3 000時(shí)。此外,在MaxLength為3 000的情況下,損失函數(shù)的值達(dá)到最低,并且多個(gè)性能指標(biāo)均為最優(yōu)值。因此,本文確定將MaxLength的值設(shè)置為3 000,并在這一設(shè)定下進(jìn)行后續(xù)實(shí)驗(yàn)。

在兩個(gè)數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果詳見(jiàn)表6和7。由此看出,DEDC-ICD在MIMIC-Ⅲ上可獲得較好的實(shí)驗(yàn)結(jié)果。本文做的第一個(gè)消融實(shí)驗(yàn)是未使用Mixup數(shù)據(jù)增強(qiáng),性能略有下降。這一結(jié)果表明,Mixup數(shù)據(jù)增強(qiáng)有助于提高性能。第二個(gè)消融實(shí)驗(yàn)是去掉擴(kuò)張卷積模塊,導(dǎo)致更差的性能,該結(jié)果表明,擴(kuò)張卷積對(duì)于捕獲更遠(yuǎn)距離的單詞之間的關(guān)聯(lián)性,理解上下文語(yǔ)義信息更有效。進(jìn)一步,本文在PLM方法上融合Mixup數(shù)據(jù)增強(qiáng)方法和多粒度擴(kuò)張卷積模塊,從實(shí)驗(yàn)數(shù)據(jù)可以看出,兩種模塊融合之后效果較好,具有較強(qiáng)的可靠性。

3.5 對(duì)比實(shí)驗(yàn)

為了全面評(píng)估本文模型的性能,將其與先前研究中的多個(gè)基線模型進(jìn)行比較。所選用的評(píng)價(jià)指標(biāo)涵蓋宏觀AUC值、微觀AUC值、宏觀F1值、微觀F1值、precision@5以及precision@8,這些指標(biāo)能夠綜合反映模型在分類(lèi)任務(wù)上的性能表現(xiàn)。

表8呈現(xiàn)了在 MIMIC-Ⅲ(top50) 上進(jìn)行的實(shí)驗(yàn)結(jié)果。結(jié)果表明,本文模型在多個(gè)評(píng)價(jià)指標(biāo)上表現(xiàn)出色,相較于基線模型具有顯著的優(yōu)勢(shì),這驗(yàn)證了模型在處理具有豐富訓(xùn)練樣本的標(biāo)簽時(shí)的有效性。而表9則展示在MIMIC-Ⅲ(full)上的實(shí)驗(yàn)結(jié)果,盡管面臨標(biāo)簽分布不平衡的挑戰(zhàn),本文模型依然展現(xiàn)出較強(qiáng)的性能,特別是在處理樣本較少的標(biāo)簽時(shí),其表現(xiàn)尤為突出。為進(jìn)一步驗(yàn)證本文DEDC-ICD的性能,將其與幾個(gè)典型的文本分類(lèi)算法如C-MemNN、C-LSTM-Att、CAML、DR-CAML、MultiResCNN以及LongBERT等進(jìn)行對(duì)比。

通過(guò)對(duì)表8、9的觀察可以發(fā)現(xiàn),在MIMIC-Ⅲ(full)中,宏觀F1值明顯低于微觀F1值。這一現(xiàn)象主要?dú)w因于MIMIC-Ⅲ(full)中存在的標(biāo)簽分布不平衡問(wèn)題。在該數(shù)據(jù)集中,許多標(biāo)簽的訓(xùn)練樣本數(shù)量較少,甚至僅有幾條或幾十條,導(dǎo)致模型對(duì)這些標(biāo)簽的訓(xùn)練不足。由于訓(xùn)練樣本數(shù)量不足,模型未能充分學(xué)習(xí)這些標(biāo)簽的潛在特征,所以在對(duì)這些標(biāo)簽進(jìn)行預(yù)測(cè)時(shí)表現(xiàn)較差。相反,在MIMIC-Ⅲ(top50)中,雖然宏觀F1值仍然小于微觀F1值,但兩者之間的差距顯著減小。這是因?yàn)樵贛IMIC-Ⅲ(top50)中,選取MIMIC-Ⅲ中最常見(jiàn)的50個(gè)標(biāo)簽作為訓(xùn)練集,這些標(biāo)簽具有大量的訓(xùn)練數(shù)據(jù),模型在這些標(biāo)簽上得到充分的訓(xùn)練,因此宏觀F1值與微觀F1值之間的差距減小。

實(shí)驗(yàn)采用不同的標(biāo)簽注意力機(jī)制在MIMIC-Ⅲ(full)上進(jìn)行比較,并在表10中展示各自的性能表現(xiàn)。如表10所示,具體比較包括 LAAT、CAML和BERT-XML在內(nèi)的標(biāo)簽注意力機(jī)制。結(jié)果顯示,本文采用的LAAT中使用標(biāo)簽注意力機(jī)制表現(xiàn)最優(yōu)。這意味著LAAT的標(biāo)簽注意力機(jī)制與本文模型結(jié)構(gòu)相適應(yīng),能夠更好地增強(qiáng)模型對(duì)重要標(biāo)簽的關(guān)注度,從而提高對(duì)與ICD編碼相關(guān)的標(biāo)簽的識(shí)別能力,提升模型性能。

3.6 案例分析

為了進(jìn)一步驗(yàn)證DEDC-ICD在ICD編碼分類(lèi)任務(wù)中的有效性,隨機(jī)選取若干條電子病歷進(jìn)行對(duì)比,下面以MIMIC-Ⅲ(full) 其中一條作為樣例進(jìn)行分析,如圖5所示。這段臨床記錄描述了一位年輕患者的情況,因從約三層樓高的地方跌落而被送至醫(yī)院。

clinical note:

present illness this is a young male of unknown age brought by ems after having sustained an approximately three story

fall, the patient had a fast exam which showed fluid in the peritoneal cavity and was therefore forwarded rapidly to the

operating room, the patient had a right chest tube placed and there was seen to be a moderate amount of bleeding out of the

right chest, ... however there was seen to be a large retroperitoneal hematoma extending from the pelvis up to the level of

the kidneys re-troperitoneally ...

codes:

860.4(Intra-abdominal injury without mention of open wound);

868.03(Other and unspecified injuries of unspecified intra-abdominal organs);

E957.1(Fall from one level to another);

854.05(Other specified intracranial injuries following injury without mention of open intracranial wound)

MultiResCNN

860.4; 868.03; 854.00PLM-ICD860.4; 868.03; 854.05DEDC-ICD860.4; 868.03; E957.1; 854.05

在對(duì)同一電子病歷文本進(jìn)行ICD編碼分類(lèi)的過(guò)程中,盡管MultiResCNN方法能夠預(yù)測(cè)出3個(gè)標(biāo)簽,但其中的一個(gè)標(biāo)簽準(zhǔn)確度不足,將標(biāo)簽854.05(顱內(nèi)損傷伴有短暫的意識(shí)喪失)預(yù)測(cè)為標(biāo)簽854.00(未特指的顱內(nèi)損傷)。這主要是因?yàn)槟P驮谔囟ǖ尼t(yī)療編碼任務(wù)中缺少醫(yī)學(xué)領(lǐng)域數(shù)據(jù)的訓(xùn)練,對(duì)標(biāo)簽預(yù)測(cè)不夠精準(zhǔn),同時(shí)會(huì)受到標(biāo)簽不平衡問(wèn)題的影響。與之相比,基線模型PLM-ICD也預(yù)測(cè)出3個(gè)標(biāo)簽,且都是準(zhǔn)確的,但缺少對(duì)標(biāo)簽E957.1(未特指的跌落事故)的預(yù)測(cè)。本文模型能夠更準(zhǔn)確地識(shí)別出所有標(biāo)簽,這種改進(jìn)主要得益于Mixup數(shù)據(jù)增強(qiáng)技術(shù)的應(yīng)用,該技術(shù)為模型的訓(xùn)練提供更多樣化的數(shù)據(jù),從而確保模型能夠接受更為全面的學(xué)習(xí)。此外,擴(kuò)張卷積的引入顯著提升模型捕獲電子病歷文本中長(zhǎng)距離依賴關(guān)系的能力,這不僅有助于模型對(duì)病歷進(jìn)行整體分類(lèi),還使得模型能夠關(guān)注到其他模型忽視的細(xì)節(jié)信息。結(jié)合預(yù)訓(xùn)練模型BioLinkBERT,針對(duì)特定生物醫(yī)學(xué)領(lǐng)域表現(xiàn)更為出色。

4 結(jié)束語(yǔ)

本文提出一種基于數(shù)據(jù)增強(qiáng)和擴(kuò)張卷積的ICD編碼分類(lèi)方法。首先,采用預(yù)訓(xùn)練模型BioLinkBERT,利用無(wú)監(jiān)督學(xué)習(xí)獲得上下文相關(guān)的單詞表示,以更準(zhǔn)確地捕捉語(yǔ)義信息;其次,引入Mixup技術(shù),通過(guò)優(yōu)化隱藏表示來(lái)增強(qiáng)樣本的質(zhì)量和分類(lèi)魯棒性;最后,引入多粒度擴(kuò)張卷積,利用不同擴(kuò)張率的卷積核增強(qiáng)不同距離單詞之間的交互,從而提升模型的分類(lèi)性能。實(shí)驗(yàn)結(jié)果表明,DEDC-ICD在MIMIC-Ⅲ數(shù)據(jù)集上的F1值和precision@k方面均有改善,相較于基準(zhǔn)模型分別提升0.4%~1.5%和1.2%~1.6%,為ICD編碼任務(wù)提供可行的解決方案。未來(lái)的研究方向包括有效整合多模態(tài)數(shù)據(jù)以提高對(duì)醫(yī)療信息的利用能力,并將模型應(yīng)用于實(shí)際的臨床環(huán)境[36。通過(guò)系統(tǒng)的臨床驗(yàn)證評(píng)估其在醫(yī)療決策中的效果,這一系列研究將有助于推動(dòng)ICD編碼領(lǐng)域在實(shí)際醫(yī)學(xué)應(yīng)用中的發(fā)展。

參考文獻(xiàn):

[1]姜麗梅, 李秉龍. 面向圖像文本的多模態(tài)處理方法綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(5): 1281-1290. (Jiang Limei, Li Bing-long. Comprehensive review of multimodal processing methods for image-text[J]. Application Research of Computers, 2024, 41(5): 1281-1290.)

[2]趙京勝, 宋夢(mèng)雪, 高祥, 等. 自然語(yǔ)言處理中的文本表示研究[J]. 軟件學(xué)報(bào), 2022, 33(1): 102-128. (Zhao Jingsheng, Song Mengxue, Gao Xiang, et al. Research on text representation in natural language processing[J]. Journal of Software, 2022, 33(1): 102-128.)

[3]Liu Jingzhou, Chang Weicheng, Wu Yuexin, et al. Deep learning for extreme multi-label text classification[C]// Proc of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2017: 115-124.

[4]郝超, 裘杭萍, 孫毅, 等. 多標(biāo)簽文本分類(lèi)研究進(jìn)展[J]. 計(jì)算機(jī)工程與應(yīng)用, 2021, 57(10): 48-56. (Hao Chao, Qiu Hangping, Sun Yi, et al. Research progress of multi-label text classification[J]. Computer Engineering and Applications, 2021, 57(10): 48-56.)

[5]辛梓銘, 王芳. 基于改進(jìn)樸素貝葉斯算法的文本分類(lèi)研究[J]. 燕山大學(xué)學(xué)報(bào), 2023, 47(1): 82-88. (Xin Ziming, Wang Fang. Research on text classification based on improved naive Bayes algorithm[J]. Journal of Yanshan University, 2023, 47(1): 82-88.)

[6]呂學(xué)強(qiáng), 彭郴, 張樂(lè), 等. 融合BERT與標(biāo)簽語(yǔ)義注意力的文本多標(biāo)簽分類(lèi)方法[J]. 計(jì)算機(jī)應(yīng)用, 2022, 42(1): 57-63. (Lyu Xueqiang, Peng Chen, Zhang Le, et al. Text multi-label classification method incorporating BERT and label semantic attention[J]. Journal of Computer Applications, 2022, 42(1): 57-63.)

[7]張文峰, 奚雪峰, 崔志明, 等. 多標(biāo)簽文本分類(lèi)研究回顧與展望[J]. 計(jì)算機(jī)工程與應(yīng)用, 2023, 59(18): 28-48. (Zhang Wenfeng, Xi Xuefeng, Cui Zhiming, et al. Review and prospect of multi-label text classification research[J]. Computer Engineering and Applications, 2023, 59(18): 28-48.)

[8]Yasunaga M, Leskovec J, Liang P. LinkBERT: pretraining language models with document links[C]// Proc of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Asso-ciation for Computational Linguistics, 2022: 8003-8016.

[9]Wu Linzhi, Xie Pengjun, Zhou Jie, et al. Robust self-augmentation for named entity recognition with meta reweighting[C]// Proc of Confe-rence of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2022: 4049-4060.

[10]Li Jingye, Fei Hao, Liu Jiang, et al. Unified named entity recognition as word-word relation classification[C]// Proc of AAAI Confe-rence on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2022: 10965-10973.

[11]Kim Y. Convolutional neural networks for sentence classification[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 1746-1751.

[12]Shimura K, Li Jiyi, Fukumoto F. HFT-CNN: learning hierarchical category structure for multi-label short text categorization[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 811-816.

[13]Yang Wenshuo, Li Jiyi, Fukumoto F, et al. HSCNN: a hybrid-siamese convolutional neural network for extremely imbalanced multi-label text classification[C]// Proc of Conference on Empirical Me-thods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2020: 6716-6722.

[14]Tan Zhipeng, Chen Jing, Kang Qi, et al. Dynamic embedding projection-gated convolutional neural networks for text classification[J]. IEEE Trans on Neural Networks and Learning Systems, 2021, 33(3): 973-982.

[15]Chen Zhaomin, Wei Xiushen, Wang Peng, et al. Multi-label image recognition with graph convolutional networks[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2019: 5177-5186.

[16]Zhang Wenjie, Yan Junchi, Wang Xiangfeng, et al. Deep extreme multi-label learning[C]// Proc of ACM on International Conference on Multimedia Retrieval. New York: ACM Press, 2018: 100-107.

[17]Hu Junlin, Kang Xin, Nishide S, et al. Text multi-label sentiment analysis based on Bi-LSTM[C]// Proc of the 6th International Confe-rence on Cloud Computing and Intelligence Systems. Piscataway, NJ: IEEE Press, 2019: 16-20.

[18]Xie Pengtao, Xing E. A neural architecture for automated ICD coding[C]// Proc of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2018: 1066-1076.

[19]Liu Yapei, Ma Jianhong, Tao Yongcai, et al. Hybrid neural network text classification combining TCN and GRU[C]// Proc of the 23rd International Conference on Computational Science and Engineering. Piscataway,NJ:IEEE Press, 2020: 30-35.

[20]Yang Pengcheng, Sun Xu, Li Wei, et al. SGM: sequence generation model for multi-label classification[C]// Proc of the 27th International Conference on Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2018: 3915-3926.

[21]Lin Junyang, Su Qi, Yang Pengcheng, et al. Semantic-unit-based dilated convolution for multi-label text classification[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 4554-4564.

[22]Xiao Yaoqiang, Li Yi, Yuan Jin, et al. History-based attention in seq2seq model for multi-label text classification[J]. Knowledge-Based Systems, 2021, 224: 107094.

[23]Zhou Peng, Shi Wei, Tian Jun, et al. Attention-based bidirectional long short-term memory networks for relation classification[C]// Proc of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016: 207-212.

[24]Yang Zichao, Yang Diyi, Dyer C, et al. Hierarchical attention networks for document classification[C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2016: 1480-1489.

[25]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.

[26]Lu Weijun, Duan Yun, Song Yutong. Self-attention-based convolutional neural networks for sentence classification[C]// Proc of the 6th International Conference on Computer and Communications. Pisca-taway, NJ: IEEE Press, 2020: 2065-2069.

[27]Prakash A, Zhao Siyuan, Hasan S, et al. Condensed memory networks for clinical diagnostic inferencing[C]// Proc of AAAI Confe-rence on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2017: 3274-3280.

[28]Shi Haoran, Xie Pengtao, Hu Zhiting, et al. Towards automated ICD coding using deep learning[EB/OL]. (2017-11-11). https://arxiv.org/abs/1711.04075.

[29]Mullenbach J, Wiegreffe S, Duke J, et al. Explainable prediction of medical codes from clinical text[C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2018: 1101-1111.

[30]Li Fei, Yu Hong. ICD coding from clinical text using multi-filter residual convolutional neural network[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 8180-8187.

[31]Tsai Shangchi, Huang Chaowei, Chen Yunnung. Modeling diagnostic label correlation for automatic ICD coding[C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2021: 4043-4052.

[32]Afkanpour A, Adeel S, Bassani H, et al. BERT for long documents: a case study of automated ICD coding[C]// Proc of the 13th International Workshop on Health Text Mining and Information Analysis. Stroudsburg, PA: Association for Computational Linguistics, 2022: 100-107.

[33]Huang Chaowei, Tsai S C, Chen Yunnung. PLM-ICD: automatic ICD coding with pretrained language models[C]// Proc of the 4th Clinical Natural Language Processing Workshop. Stroudsburg, PA: Association for Computational Linguistics, 2022: 10-20.

[34]Zhang Z, Liu Jingshu, Razavian N. BERT-XML: large scale automated ICD coding using BERT pretraining[C]// Proc of the 3rd Clinical Natural Language Processing Workshop. Stroudsburg, PA: Association for Computational Linguistics, 2020: 24-34.

[35]Vu T, Nguyen D Q, Nguyen A. A label attention model for ICD co-ding from clinical text[C]// Proc of the 29th International Confe-rence on International Joint Conferences on Artificial Intelligence. 2021: 3335-3341.

[36]劉建偉, 丁熙浩, 羅雄麟. 多模態(tài)深度學(xué)習(xí)綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2020, 37(6): 1601-1614. (Liu Jianwei, Ding Xihao, Luo Xionglin. Survey of multimodal deep learning[J]. Application Research of Computers, 2020, 37(6): 1601-1614.)

猜你喜歡
文檔注意力標(biāo)簽
讓注意力“飛”回來(lái)
有人一聲不吭向你扔了個(gè)文檔
無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
車(chē)迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
A Beautiful Way Of Looking At Things
標(biāo)簽化傷害了誰(shuí)
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
基于多進(jìn)制查詢樹(shù)的多標(biāo)簽識(shí)別方法
佳木斯市| 锦州市| 辽中县| 澄迈县| 仁寿县| 谷城县| 莱西市| 化州市| 宁国市| 青铜峡市| 冕宁县| 绥棱县| 云龙县| 迁安市| 彭州市| 兰坪| 睢宁县| 五峰| 浦江县| 吉水县| 色达县| 吉木萨尔县| 婺源县| 汝南县| 黄石市| 惠东县| 桐柏县| 简阳市| 赤壁市| 长丰县| 怀柔区| 东乌| 新邵县| 明溪县| 台南县| 新化县| 西乌珠穆沁旗| 南投县| 浮梁县| 霍山县| 开化县|