趙逸凡 鄭建立 徐霄玲
摘 要:電子病歷中同一醫(yī)療概念的提及形式具有多樣性,阻礙了醫(yī)療數(shù)據(jù)的分析和利用,研究電子病歷實(shí)體標(biāo)準(zhǔn)化具有現(xiàn)實(shí)意義。設(shè)計(jì)并實(shí)現(xiàn)了基于深度學(xué)習(xí)的電子病歷實(shí)體標(biāo)準(zhǔn)化算法,使用Siamese網(wǎng)絡(luò)架構(gòu)和LSTM網(wǎng)絡(luò)搭建模型,采用Pairwise方法訓(xùn)練模型,在測(cè)試集上與傳統(tǒng)基于編輯距離的方法進(jìn)行比較。對(duì)手術(shù)實(shí)體標(biāo)準(zhǔn)化的實(shí)驗(yàn)結(jié)果顯示,深度學(xué)習(xí)算法正確率達(dá)到79.71%,比傳統(tǒng)方法提高了17.4個(gè)百分點(diǎn),表明深度學(xué)習(xí)算法在電子病歷實(shí)體標(biāo)準(zhǔn)化方面具有有效性。
關(guān)鍵詞:電子病歷;實(shí)體標(biāo)準(zhǔn)化;長(zhǎng)短期記憶網(wǎng)絡(luò);孿生網(wǎng)絡(luò)
DOI:10. 11907/rjdk. 182786 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類(lèi)號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2019)008-0012-04
Deep Learning Based Entity Normalization of Electronic Medical Records
ZHAO Yi-fan,ZHENG Jian-li,XU Xiao-ling
(School of Medical Instrument and Food Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China)
Abstract: The diversity of the mentioning forms of the same medical concept in electronic medical records hinders the analysis and utilization of medical data. Therefore, the entity normalization of electronic medical records has research significance. In this paper, we design and implement a deep learning-based entity normalization algorithm for electronic medical records. We use Siamese network architecture and LSTM network to build the model, and use pairwise method to train the model. Our method is compared to the traditional edit distance based method on the test set. The experimental results on surgery entity normalization showed that the accuracy of the deep learning algorithm is 79.71%,which is 17.4% higher than the traditional method, indicating the effectiveness of the deep learning algorithm on the entity normalization of electronic medical records.
Key Words: electronic medical record; entity normalization; long short-term memory network; Siamese network
基金項(xiàng)目:上海市衛(wèi)計(jì)委中醫(yī)藥科技創(chuàng)新項(xiàng)目(ZYKC201702003)
作者簡(jiǎn)介:趙逸凡(1994-),男,上海理工大學(xué)醫(yī)療器械與食品學(xué)院碩士研究生,研究方向?yàn)獒t(yī)學(xué)信息學(xué)、自然語(yǔ)言處理;鄭建立(1965-),男,博士,上海理工大學(xué)醫(yī)療器械與食品學(xué)院副教授、碩士生導(dǎo)師,研究方向?yàn)獒t(yī)學(xué)信息系統(tǒng)與集成技術(shù)、醫(yī)學(xué)儀器嵌入式控制系統(tǒng);徐霄玲(1994-),女,上海理工大學(xué)醫(yī)療器械與食品學(xué)院碩士研究生,研究方向?yàn)樽匀徽Z(yǔ)言處理。本文通訊作者:鄭建立。
0 引言
隨著醫(yī)療信息化的快速發(fā)展,各醫(yī)院積累了海量的電子病歷數(shù)據(jù),如何有效利用這些數(shù)據(jù)提高醫(yī)療健康服務(wù)水平是研究熱點(diǎn)。電子病歷中同一醫(yī)療概念會(huì)有多種不同的表述形式,阻礙了醫(yī)療數(shù)據(jù)的檢索、分析和利用。把形式多樣的實(shí)體提及(Entity Mention)映射到標(biāo)準(zhǔn)的醫(yī)療術(shù)語(yǔ),即實(shí)體標(biāo)準(zhǔn)化(Entity Normalization),是有效利用醫(yī)療健康數(shù)據(jù)的前提。
電子病歷實(shí)體標(biāo)準(zhǔn)化研究由國(guó)際公開(kāi)評(píng)測(cè)任務(wù)推動(dòng),最具代表性的兩個(gè)評(píng)測(cè)任務(wù)是2013年的 ShARe/CLEF eHealth Shared Task 1b[1]和 2014年的 SemEval Task 7[2],這兩個(gè)任務(wù)都是要找到電子病歷中的實(shí)體(如疾病和癥狀)在“醫(yī)學(xué)術(shù)語(yǔ)系統(tǒng)命名法—臨床術(shù)語(yǔ)[3]”(Systematized Nomenclature of Medicine - Clinical Terms,簡(jiǎn)稱(chēng) SNOMED-CT)中的編碼?,F(xiàn)有實(shí)體標(biāo)準(zhǔn)化方法大多基于實(shí)體提及與標(biāo)準(zhǔn)術(shù)語(yǔ)的相似度得分。Rohit J Kate[4]通過(guò)改進(jìn)的編輯距離計(jì)算相似度;Robert Leaman等[5]采用成對(duì)排序?qū)W習(xí)方法,用向量空間模型表示實(shí)體提及并引入權(quán)重矩陣計(jì)算相似度得分;Li Haodi等[6]使用深度學(xué)習(xí)方法取得在ShARe/CLEF 數(shù)據(jù)集和NCBI疾病數(shù)據(jù)集[7]上的最高正確率,該方法先使用人工編寫(xiě)的規(guī)則從標(biāo)準(zhǔn)術(shù)語(yǔ)集中挑出候選,再基于卷積神經(jīng)網(wǎng)絡(luò)輸出語(yǔ)義向量對(duì)候選排序。
上述研究都面向英文電子病歷,針對(duì)中文電子病歷的實(shí)體標(biāo)準(zhǔn)化研究相對(duì)較少,且缺乏公開(kāi)可用的標(biāo)注數(shù)據(jù)集。趙亞輝[8]選取國(guó)內(nèi)某醫(yī)院的門(mén)診和住院病歷作為實(shí)驗(yàn)數(shù)據(jù),以國(guó)際疾病分類(lèi)第10版(ICD-10)為目標(biāo)術(shù)語(yǔ)集,研究了疾病名的標(biāo)準(zhǔn)化。在門(mén)診病歷上改進(jìn)的編輯距離效果最好,正確率為76.6%,在住院病歷上Rank SVM的正確率最高,達(dá)到74.7%。
1 實(shí)體標(biāo)準(zhǔn)化算法
1.1 算法總體結(jié)構(gòu)
基于深度學(xué)習(xí)的實(shí)體標(biāo)準(zhǔn)化算法總體結(jié)構(gòu)見(jiàn)圖1。
圖1 基于深度學(xué)習(xí)的實(shí)體標(biāo)準(zhǔn)化算法總體結(jié)構(gòu)
本算法主要思想是計(jì)算手術(shù)名與各個(gè)標(biāo)準(zhǔn)術(shù)語(yǔ)的匹配度,選擇最匹配的術(shù)語(yǔ)。匹配度計(jì)算采用Siamese網(wǎng)絡(luò)。Siamese 網(wǎng)絡(luò)是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)而不是具體的某種網(wǎng)絡(luò),在自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)中應(yīng)用廣泛[9-13],它有兩個(gè)結(jié)構(gòu)相同共享權(quán)值的子網(wǎng)絡(luò)。圖1中的兩個(gè)字嵌入完全相同,兩個(gè)編碼器也完全一樣。輸入的短語(yǔ)中每個(gè)字都會(huì)映射到一個(gè)多維稠密向量,稱(chēng)為字嵌入,也常稱(chēng)為字向量。本文使用Li S等[14]在百度百科的文本上訓(xùn)練出的字向量,并且在訓(xùn)練階段使字向量保持不變,不再微調(diào)。然后使用編碼器分別將兩個(gè)字向量序列映射到目標(biāo)向量空間(可以看成是特征提?。?,最后在目標(biāo)向量空間使用歐氏距離表示兩個(gè)輸入的匹配度,歐氏距離越小則匹配度越高。
本文未采用分類(lèi)模型。因?yàn)槭中g(shù)的標(biāo)準(zhǔn)術(shù)語(yǔ)有上萬(wàn)條,如果把每個(gè)術(shù)語(yǔ)看作一個(gè)類(lèi)別則類(lèi)別數(shù)量龐大,而每個(gè)類(lèi)別的樣本數(shù)量較少甚至沒(méi)有,用分類(lèi)算法顯然效果不佳。而 Siamese 網(wǎng)絡(luò)能從訓(xùn)練樣本中學(xué)習(xí)到匹配度模型,即使類(lèi)別數(shù)量龐大也能獲得不錯(cuò)的效果。
1.2 BiLSTM網(wǎng)絡(luò)
本文采用 BiLSTM網(wǎng)絡(luò)作為 Siamese 網(wǎng)絡(luò)結(jié)構(gòu)中用于提取特征的編碼器。
長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,簡(jiǎn)稱(chēng) LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,簡(jiǎn)稱(chēng)RNN)的一種。普通的循環(huán)神經(jīng)網(wǎng)絡(luò)用于序列數(shù)據(jù)建模時(shí)容易產(chǎn)生梯度爆炸和梯度消失,難以訓(xùn)練。LSTM 通過(guò)引入遺忘門(mén)、記憶門(mén)、輸出門(mén)的三態(tài)門(mén)結(jié)構(gòu),使網(wǎng)絡(luò)能夠選擇性地保留狀態(tài)信息,解決了梯度爆炸和梯度消失問(wèn)題。因此,LSTM適用于對(duì)序列數(shù)據(jù)建模,如文本數(shù)據(jù)。
普通的LSTM只能捕捉到從前向后的信息,但在實(shí)體標(biāo)準(zhǔn)化任務(wù)中僅有單向信息是不夠的。雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,簡(jiǎn)稱(chēng)BiLSTM)由前向LSTM與后向LSTM組合而成,也就是在單向LSTM基礎(chǔ)上增加了一個(gè)逆向的LSTM,前向和后向輸出連接在一起作為整個(gè)網(wǎng)絡(luò)輸出,這樣能更好地捕捉到雙向序列信息[15]。
1.3 訓(xùn)練方法
模型訓(xùn)練采用 Pairwise 方法,樣本是一對(duì)短語(yǔ),即手術(shù)名和標(biāo)準(zhǔn)術(shù)語(yǔ)。正例是病歷手術(shù)名和對(duì)應(yīng)的標(biāo)準(zhǔn)術(shù)語(yǔ),反例是手術(shù)名和不對(duì)應(yīng)的標(biāo)準(zhǔn)術(shù)語(yǔ)。
兩個(gè)短語(yǔ)的向量表示為[F1]和[F2],它們的歐氏距離記作[d(F1,F(xiàn)2)]。訓(xùn)練目標(biāo)是使匹配兩個(gè)短語(yǔ)的[d(F1,F(xiàn)2)]盡可能小,而不匹配兩個(gè)短語(yǔ)的[d(F1,F(xiàn)2)]盡可能大。所以,損失函數(shù)需要滿(mǎn)足兩個(gè)性質(zhì):①對(duì)于兩個(gè)匹配短語(yǔ),[d(F1,F(xiàn)2)]越小,損失函數(shù)越小;②對(duì)于兩個(gè)不匹配短語(yǔ),[d(F1,F(xiàn)2)]越小,損失函數(shù)越大。
本文使用對(duì)比損失[16]作為損失函數(shù),定義如下:
[L=12NiNyidi2+(1-yi)max{0,m-di}2]? ?(1)
其中[di]、[yi]分別表示第[i]項(xiàng)樣本的編輯距離和標(biāo)簽。[yi=1]表示兩個(gè)短語(yǔ)匹配,[yi=0]表示兩個(gè)短語(yǔ)不匹配。當(dāng)[yi=1]時(shí),該樣本的損失是[yidi2],顯然滿(mǎn)足第一個(gè)性質(zhì)。當(dāng)[yi=0]時(shí),該樣本的損失是[max{0,m-di}2],距離小于[m]時(shí)獲得[(m-di)2]的懲罰,距離大于[m]時(shí)沒(méi)有懲罰,距離越小損失越大,距離足夠大時(shí)損失為0,滿(mǎn)足第二個(gè)性質(zhì)。
本文使用隨機(jī)梯度下降的改進(jìn)算法Adam[17]使損失函數(shù)最小,訓(xùn)練時(shí)采用mini-batch模式。
2 實(shí)驗(yàn)
2.1 實(shí)驗(yàn)數(shù)據(jù)
手術(shù)是電子病歷實(shí)體中的重要類(lèi)別,本文選擇中文電子病歷中手術(shù)實(shí)體標(biāo)準(zhǔn)化問(wèn)題進(jìn)行實(shí)驗(yàn)。我國(guó)一直采用國(guó)際疾病分類(lèi)第9版臨床修訂本(International Classification of Diseases,Ninth Revision,Clinical Modification,簡(jiǎn)稱(chēng) ICD-9-CM)作為手術(shù)與操作分類(lèi)代碼的填寫(xiě)標(biāo)準(zhǔn),并于2015年對(duì)其擴(kuò)碼修訂,收錄了醫(yī)院各個(gè)科室的各種手術(shù)與操作共計(jì)1萬(wàn)余條,內(nèi)容準(zhǔn)確完備[18]。因此,本文使用擴(kuò)碼后的 ICD-9-CM 中的標(biāo)準(zhǔn)術(shù)語(yǔ)作為手術(shù)實(shí)體標(biāo)準(zhǔn)化術(shù)語(yǔ)集。
本文選取某三甲醫(yī)院的300份電子病歷中出現(xiàn)的345個(gè)不同手術(shù)名作為實(shí)驗(yàn)數(shù)據(jù),并標(biāo)注這些手術(shù)名對(duì)應(yīng)的 ICD-9-CM 標(biāo)準(zhǔn)術(shù)語(yǔ)。隨機(jī)選取20%作為測(cè)試集,剩下的80%用于訓(xùn)練。訓(xùn)練需要成對(duì)的短語(yǔ),訓(xùn)練集中的手術(shù)名與對(duì)應(yīng)的標(biāo)準(zhǔn)術(shù)語(yǔ)作為正例,反例是手術(shù)名與隨機(jī)選取的不對(duì)應(yīng)ICD術(shù)語(yǔ)。通過(guò)上述方式構(gòu)建的數(shù)據(jù)對(duì)總計(jì)5 429條,正負(fù)例比例為19∶1。
2.2 實(shí)驗(yàn)環(huán)境、超參數(shù)與評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)代碼使用 Python 3.6,Tensorflow 1.8 編寫(xiě);硬件環(huán)境:Intel E5-1620v4,NVIDIA GeForce GTX 1080;操作系統(tǒng):Windows 10。
經(jīng)過(guò)多次實(shí)驗(yàn),選定的超參數(shù)見(jiàn)表1。
表1 實(shí)體標(biāo)準(zhǔn)化算法超參數(shù)值
大部分實(shí)體標(biāo)準(zhǔn)化研究都采用正確率作為算法的評(píng)價(jià)指標(biāo)。標(biāo)準(zhǔn)術(shù)語(yǔ)數(shù)量多,實(shí)體標(biāo)準(zhǔn)化難度較大,因此本文除top-1正確率外,還加入top-5正確率作為額外的評(píng)價(jià)參考[19]。top-5 正確率指算法給出的前5個(gè)候選中的正確答案比率。
2.3 實(shí)驗(yàn)結(jié)果與分析
本文選擇基于編輯距離的相似度算法[20]作為比較基準(zhǔn),計(jì)算公式為:
[Sim(A,B)=1-d(A,B)max (len(A), len(B)]? ? ?(2)
式(2)中,A,B為待計(jì)算的兩個(gè)字符串,[len(A)]和 [len(B)]分別是字符串A和B的字符個(gè)數(shù),[ d(A,B)]是A和B的編輯距離,即將A變成B的最小操作次數(shù),允許的編輯操作為替換一個(gè)字符、插入一個(gè)字符、刪除一個(gè)字符3種。
表2 電子病歷手術(shù)實(shí)體標(biāo)準(zhǔn)化實(shí)驗(yàn)結(jié)果
表2中,Siamese-LSTM表示編碼器部分使用單向的LSTM網(wǎng)絡(luò),LSTM單元數(shù)量為20。Siamese-BiLSTM表示編碼器使用雙向LSTM,每個(gè)方向有10個(gè)LSTM單元,共20個(gè)。編輯距離算法的top-5正確率比top-1 正確率高了約14.5個(gè)百分點(diǎn),差距較大。通過(guò)分析編輯距離算法出錯(cuò)的樣本,發(fā)現(xiàn)與手術(shù)名在字面上相似的標(biāo)準(zhǔn)術(shù)語(yǔ)有多個(gè),匹配時(shí)易造成干擾,比如“左肺上葉切除術(shù)”對(duì)應(yīng)標(biāo)準(zhǔn)術(shù)語(yǔ)是“肺葉切除術(shù)”,但對(duì)“余肺肺葉切除術(shù)”造成了干擾,使得編輯距離算法無(wú)法作出正確匹配。兩種Siamese網(wǎng)絡(luò)在top-1、top-5正確率上都明顯好于編輯距離,可見(jiàn)對(duì)于手術(shù)實(shí)體標(biāo)準(zhǔn)化,僅依靠字面形式上的相似度,融合語(yǔ)義信息和序列信息的向量空間模型能有效消除干擾項(xiàng)影響,提升標(biāo)準(zhǔn)化正確率。對(duì)于Siamese網(wǎng)絡(luò)編碼器部分,雙向LSTM 在top-1、top-5正確率上均明顯好于單向LSTM,尤其是在最重要的top-1正確率上提升了約11.6個(gè)百分點(diǎn),說(shuō)明手術(shù)實(shí)體標(biāo)準(zhǔn)化任務(wù)僅有單向序列信息是不夠的,增加逆向序列信息能有效改善手術(shù)實(shí)體標(biāo)準(zhǔn)化效果。
3 結(jié)語(yǔ)
電子病歷實(shí)體形式多樣,嚴(yán)重阻礙了醫(yī)療數(shù)據(jù)的分析和利用。本文針對(duì)中文電子病歷實(shí)體標(biāo)準(zhǔn)化進(jìn)行了研究,基于Siamese神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和Pairwise訓(xùn)練方法實(shí)現(xiàn)了手術(shù)實(shí)體標(biāo)準(zhǔn)化算法。實(shí)驗(yàn)結(jié)果顯示,基于深度學(xué)習(xí)的方法比基于編輯距離的相似度算法準(zhǔn)確率明顯提高,表明深度學(xué)習(xí)算法可有效應(yīng)用到實(shí)體標(biāo)準(zhǔn)化問(wèn)題上。但目前算法的正確率尚未達(dá)到實(shí)際應(yīng)用程度,還需對(duì)現(xiàn)有算法進(jìn)一步優(yōu)化,或者使用更優(yōu)的模型和訓(xùn)練方法。
參考文獻(xiàn):
[1] SUOMINEN H, SALANTER? S, VELUPILLAI S, et al. Overview of the share/clef ehealth evaluation lab 2013[C]. International Conference of the Cross-Language Evaluation Forum for European Languages, 2013: 212-231.
[2] PRADHAN S,ELHADAD N,CHAPMAN W,et al. SemEval-2014 task 7: analysis of clinical text[C]. Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014),2014: 54-62.
[3] DE SILVA T S,MACDONALD D, PATERSON G, et al. Systematized nomenclature of medicine clinical terms to represent computed to mography procedures[J]. Computer methods and programs in biomedicine, 2011, 101(3): 324-329.
[4] KATE R J. Normalizing clinical terms using learned edit distance patterns[J]. Journal of the American Medical Informatics Association, 2015, 23(2):380-386.
[5] LEAMAN R,ISLAMAJ DO?AN R, LU Z. DNORM: disease name normalization with pairwise learning to rank[J]. Bioinformatics, 2013, 29(22): 2909-2917.
[6] LI H,CHEN Q,TANG B,et al. CNN-based ranking for biomedical entity normalization[J]. BMC bioinformatics,2017,18(11): 385-392.
[7] DO?AN R I, LEAMAN R, LU Z. NCBI disease corpus: a resource for disease name recognition and concept normalization[J]. Journal of biomedical informatics, 2014(47): 1-10.
[8] 趙亞輝. 臨床醫(yī)療實(shí)體鏈接方法研究[D].? 哈爾濱:哈爾濱工業(yè)大學(xué),2017.
[9] VARIOR R R,SHUAI B,LU J, et al. A siamese long short-term memory architecture for human re-identification[C]. European Conference on Computer Vision. Springer, Cham, 2016: 135-153.
[10] MUELLER J,THYAGARAJAN A. Siamese recurrent architectures for learning sentence similarity[C]. AAAI,2016:2786-2792.
[11] NECULOIU P,VERSTEEGH M,ROTARU M. Learning text similarity with Siamese recurrent networks[C]. Proceedings of the 1st Workshop on Representation Learning for NLP,2016: 148-157.
[12] 龐亮,蘭艷艷,徐君,等. 深度文本匹配綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2017,40(4): 985-1003.
[13] 吳漢釗. 基于孿生卷積神經(jīng)網(wǎng)絡(luò)的人臉追蹤[J]. 計(jì)算機(jī)工程與應(yīng)用,2018,54(14):175-179.
[14] LI S, ZHAO Z, HU R, et al. Analogical reasoning on Chinese morphological and semantic relations[C]. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. 2018(2): 138-143
[15] GRAVES A, SCHMIDHUBER J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J].? Neural Networks, 2005, 18(5-6): 602-610.
[16] GU J, WANG Z, KUEN J, et al. Recent advances in convolutional neural networks[J].? Pattern Recognition, 2018(77): 354-377.
[17] KINGMA D P, BA J. Adam: a method for stochastic optimization[C].? San Diego:the 3rd International Conference for learning Representations,2015.
[18] 劉愛(ài)民. 手術(shù)、操作分類(lèi)與代碼應(yīng)用指導(dǎo)手冊(cè)2017臨床修訂版[M]. 北京: 中國(guó)協(xié)和醫(yī)科大學(xué)出版社, 2017:1-2.
[19] RUSSAKOVSKY O, DENG J, SU H, et al. Imagenet large scale visual recognition challenge[J].? International Journal of Computer Vision, 2015, 115(3): 211-252.
[20] 劉震,陳晶,鄭建賓,等. 中文短文本聚合模型研究[J].? 軟件學(xué)報(bào),2017,28(10): 2674-2692.
(責(zé)任編輯:杜能鋼)