陳小文 唐翠娥
貴州醫(yī)科大學(xué) 計(jì)算機(jī)教育與信息技術(shù)中心 貴州 貴陽(yáng) 550025
電子病歷(Electronic Medical Record,EMR)是醫(yī)務(wù)人員在醫(yī)療活動(dòng)過程中形成的電子化病人記錄,是現(xiàn)代醫(yī)院診療、科研及管理工作所必需的重要臨床信息資源[1],其蘊(yùn)含了大量的、準(zhǔn)確的詳細(xì)的患者的醫(yī)療信息。通過對(duì)住院電子病歷完成知識(shí)分析和實(shí)體識(shí)別,準(zhǔn)確提取患者各項(xiàng)醫(yī)療信息,可幫助醫(yī)學(xué)研究者構(gòu)建臨床決策支持系統(tǒng),減少個(gè)人的醫(yī)療失誤問題。文獻(xiàn)[2]提出了一種基于雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)與 CRF(conditional random field)結(jié)合的實(shí)體識(shí)別和實(shí)體關(guān)系抽取方法,對(duì)識(shí)別結(jié)果知識(shí)圖譜化。文獻(xiàn)[3]提出了基于bootstrapping的識(shí)別算法和基于條件隨機(jī)場(chǎng)的識(shí)別算法,有效地提高了條件隨機(jī)場(chǎng)識(shí)別結(jié)果的準(zhǔn)確率、召回率和F1值。利用快速樹算法降低了抽取算法的時(shí)間復(fù)雜度,獲得了標(biāo)準(zhǔn)樹片段庫(kù)和局部樹片段庫(kù);提出了啟發(fā)式和機(jī)器輔助的方法來(lái)解決數(shù)據(jù)不一致問題;提出了一種基于多特征和CRF相結(jié)合的命名實(shí)體識(shí)別方法,利用分層融合聚類的方法對(duì)存儲(chǔ)庫(kù)中從未出現(xiàn)的實(shí)體進(jìn)行聚類;提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的多類別分類方法,用于從EMR中挖掘命名實(shí)體;設(shè)計(jì)了病歷數(shù)據(jù)到RDF三元組格式的轉(zhuǎn)化方案和存儲(chǔ)方案,提高了數(shù)據(jù)檢索速度,同時(shí)避免空值所導(dǎo)致的問題。采用否定術(shù)語(yǔ)對(duì)中文電子病歷進(jìn)行檢測(cè),降低了標(biāo)點(diǎn)錄入錯(cuò)誤而出現(xiàn)假陽(yáng)性術(shù)語(yǔ)的概率。提出了改進(jìn)后的逆向最大匹配算法,提高了分詞準(zhǔn)確度和分詞效率。分別采用C4.5、BP對(duì)腫瘤病歷數(shù)據(jù)進(jìn)行了分類實(shí)驗(yàn),結(jié)果表明:C4.5算法更有利于輔助醫(yī)生進(jìn)行腫瘤疾病診斷。針對(duì)國(guó)際疾病分類標(biāo)簽提出端到端的深度學(xué)習(xí)方法,在分類性能上有顯示的提升。
病歷文本數(shù)據(jù)中包含了非常重要的醫(yī)療信息,通過對(duì)住院電子病歷完成知識(shí)分析和實(shí)體識(shí)別,準(zhǔn)確提取患者各項(xiàng)醫(yī)療信息,可協(xié)助醫(yī)學(xué)研究者構(gòu)建臨床決策支持系統(tǒng),幫助醫(yī)生解決知識(shí)上的局限性問題,從而減少個(gè)人的醫(yī)療診斷失誤。借鑒OEM(Object Exchange Model)模型描述方式,采取四元組(oid,label,type,value)來(lái)表示,type可為原子型也可為集合,value表示具體的值。其結(jié)果如圖1所示。
圖1 病歷基本信息模型圖
病歷文本數(shù)據(jù)以半結(jié)構(gòu)化數(shù)據(jù)居多,構(gòu)建病歷文本數(shù)據(jù)提取和分類規(guī)則,將非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換成可挖掘的結(jié)構(gòu)化數(shù)據(jù),并創(chuàng)建數(shù)據(jù)模型結(jié)構(gòu)化模型M={N,F(xiàn),I,P,D},其中N為當(dāng)前病史集合、F為既往史集合、I為人個(gè)史集合、P則為體格檢查集合,D為診斷結(jié)果集合。其中N={惡心、嘔吐,頭昏,畏光、畏聲,頭痛,乏力及麻木,大小便異常,體重明顯增減},F(xiàn)={傷寒、結(jié)核,肝炎,糖尿病,高血壓,冠心病,中毒史,過敏史},I={吸煙,戒煙,飲酒},P={體溫,呼吸,脈搏,血壓},D={腦供血不足,腦出血,腦梗,緊張性頭痛,神經(jīng)癥焦慮,椎基底動(dòng)脈供血不足,帕金森病,前庭神經(jīng)元炎,后循環(huán)缺血,良性位置性眩暈}。
電子病歷中包含的醫(yī)療信息十分豐富,借助數(shù)據(jù)分割提取從Word文件中提取相應(yīng)的關(guān)鍵信息,按患者基本信息模型進(jìn)行數(shù)據(jù)關(guān)聯(lián)與存儲(chǔ),并將最終生成的二維表以EXCEL格式導(dǎo)出,項(xiàng)目組累計(jì)完成384份神經(jīng)內(nèi)科住院電子病歷數(shù)據(jù)提取工作,依據(jù)診斷結(jié)果進(jìn)行分類匯總,其中腦供血不足113份、腦梗89份、緊張性頭痛67份、腦出血28份、后循環(huán)缺血23份、神經(jīng)癥焦慮狀態(tài)19份、良性位置性眩暈18份、帕金森氏病11份、椎基底動(dòng)脈供血不足8份、前庭神經(jīng)元炎7份。在數(shù)據(jù)預(yù)處理階段進(jìn)缺失數(shù)據(jù)記錄進(jìn)行補(bǔ)充或丟棄,針對(duì)缺少5項(xiàng)以下的數(shù)據(jù)記錄采取填充眾數(shù)的方式進(jìn)行補(bǔ)充,對(duì)缺失5個(gè)及以上數(shù)據(jù)項(xiàng)的記錄進(jìn)行丟棄處理。為避免數(shù)據(jù)提取的數(shù)據(jù)類型異常而導(dǎo)致的錯(cuò)誤,將所有的對(duì)象數(shù)據(jù)編碼成數(shù)值型??紤]到病歷數(shù)據(jù)的特征以文本形式呈現(xiàn)且跨度大,特將所有數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,并統(tǒng)一到0~1范圍內(nèi)。
挖掘算法直接影響實(shí)驗(yàn)數(shù)據(jù)的結(jié)果,依據(jù)病歷文本數(shù)據(jù)的自身特征、數(shù)據(jù)項(xiàng),選擇合適的算法進(jìn)行數(shù)據(jù)挖掘、分析尤為重要。在前期算法調(diào)整階段設(shè)定驗(yàn)證集的比例為10%,等待超參數(shù)調(diào)整結(jié)束并穩(wěn)定后,訓(xùn)練與驗(yàn)證數(shù)據(jù)的比例分別為80%和20%。實(shí)驗(yàn)所采用的處理器為Intel(R) i5-8250U 1.8GHz 4核 8個(gè)邏輯處理器,內(nèi)存24G。
決策樹是一個(gè)預(yù)測(cè)模型,它是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。決策樹是一種樹型結(jié)構(gòu),每個(gè)葉子代表一種類型。決策樹能直接體現(xiàn)數(shù)據(jù),而且能夠同時(shí)處理數(shù)據(jù)型和常規(guī)則屬性,相對(duì)較為易于理解和實(shí)現(xiàn)。設(shè)置起始深度為1、終止深度為15、深度探索步長(zhǎng)為4進(jìn)行模型訓(xùn)練與測(cè)試,模型訓(xùn)練與測(cè)試花費(fèi)130ms,其測(cè)試結(jié)果為51.04。在對(duì)超參數(shù)進(jìn)行調(diào)整后,測(cè)試結(jié)果波動(dòng)較小。由模型結(jié)果而知,當(dāng)深度為4時(shí)能獲取最大的準(zhǔn)確率。
圖4 深度學(xué)習(xí)結(jié)果趨勢(shì)圖
深度學(xué)習(xí)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,最終目標(biāo)是讓機(jī)器能夠像人一樣具有分析學(xué)習(xí)能力,能夠識(shí)別文字、圖像和聲音等數(shù)據(jù)。借助深度學(xué)習(xí)模型對(duì)病歷數(shù)據(jù)進(jìn)行訓(xùn)練與測(cè)試。以batch_size=8進(jìn)行200輪訓(xùn)練,其訓(xùn)練與測(cè)試結(jié)果如下圖所示,模型訓(xùn)練與測(cè)試花費(fèi)63000ms(每輪315ms),其測(cè)試結(jié)果為57.29。深度學(xué)習(xí)運(yùn)行結(jié)果如圖4所示。
隨機(jī)森林利用多棵樹對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類器,其利用平均決策樹可降低過擬合的風(fēng)險(xiǎn)性。其分類性能非常穩(wěn)定,當(dāng)半數(shù)以上的基分類器出現(xiàn)差錯(cuò)時(shí)才會(huì)導(dǎo)致錯(cuò)誤的預(yù)測(cè)。隨機(jī)森林的算法較為復(fù)雜,對(duì)其模型訓(xùn)練和測(cè)試的成本相對(duì)較高。模型訓(xùn)練與測(cè)試花費(fèi)0.92秒,其測(cè)試結(jié)果為65.62。
深度學(xué)習(xí)、決策樹、隨機(jī)森林三種算法的執(zhí)行時(shí)間、測(cè)試結(jié)果如下表1所示。在算法執(zhí)行性能上,決策樹的執(zhí)行時(shí)間最短,測(cè)試結(jié)果得分近為51.04。深度學(xué)習(xí)的執(zhí)行時(shí)間是決策樹的2.42倍,在測(cè)試結(jié)果方面提高了6.25。隨機(jī)森林的執(zhí)行時(shí)間是920ms,模型的執(zhí)行時(shí)間為決策樹的7.07倍,在測(cè)試結(jié)果方面相比決策樹和嘗試學(xué)習(xí)分別提高了14.58和8.33。
表1 分類實(shí)驗(yàn)性能與結(jié)果對(duì)比
在電子病歷挖掘過程中有兩個(gè)重要的步驟:①?gòu)陌虢Y(jié)構(gòu)化、非結(jié)構(gòu)化的電子病歷中提取相應(yīng)的現(xiàn)病史、既往史、個(gè)人史、體格檢查等重要信息,病歷數(shù)據(jù)特征的提取質(zhì)量直接影響到后續(xù)的數(shù)據(jù)挖掘的質(zhì)量和執(zhí)行速度。②挖掘算法的選取,通過對(duì)三種不同挖掘算法測(cè)試結(jié)果可知:隨機(jī)森林準(zhǔn)確率較高65.62,但耗時(shí)相對(duì)較高。后續(xù)研究將改進(jìn)數(shù)據(jù)提取的算法和挖掘算法數(shù)據(jù)結(jié)構(gòu)。