張浣青
[摘 要] 近些年來(lái),深度學(xué)習(xí)迅速成為機(jī)器學(xué)習(xí)領(lǐng)域最為炙手可熱的一個(gè)分支,深度學(xué)習(xí)概念提出之后,語(yǔ)音識(shí)別和計(jì)算機(jī)視覺(jué)等方面得到了飛速的發(fā)展。而隨著現(xiàn)如今醫(yī)療信息化和數(shù)字化診斷的發(fā)展,醫(yī)療監(jiān)測(cè)指標(biāo)的不斷增長(zhǎng),數(shù)據(jù)量越來(lái)越龐大,需要深度學(xué)習(xí)強(qiáng)大的數(shù)據(jù)處理能力為醫(yī)療領(lǐng)域提供有力的支持。本文從深度學(xué)習(xí)兩個(gè)經(jīng)典模型——DBN和CNN出發(fā),介紹了深度學(xué)習(xí)在醫(yī)療信息領(lǐng)域中的應(yīng)用,并對(duì)深度學(xué)習(xí)在醫(yī)療信息領(lǐng)域的發(fā)展進(jìn)行了展望。
[關(guān)鍵詞] 深度學(xué)習(xí);CNN;DBN;醫(yī)療信息
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 13. 076
[中圖分類號(hào)] TP391.4 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1673 - 0194(2018)13- 0169- 02
0 引 言
數(shù)據(jù)作為人工智能的燃料,其重要性不言而喻。現(xiàn)如今,隨著各個(gè)行業(yè)間信息化程度的加深,積累的數(shù)據(jù)量越來(lái)越多,然而數(shù)據(jù)的處理能力卻遠(yuǎn)遠(yuǎn)跟不上數(shù)據(jù)量的指數(shù)型增長(zhǎng)。為了得到準(zhǔn)確的結(jié)果,就必須收集更多的數(shù)據(jù),而數(shù)據(jù)越多則處理速度越慢。這與我們收集數(shù)據(jù)的初衷背道而馳。而深度學(xué)習(xí)的出現(xiàn)解決了如何快速處理海量數(shù)據(jù)的問(wèn)題。
近些年來(lái),隨著科技的進(jìn)步,醫(yī)療行業(yè)得到了突飛猛進(jìn)的發(fā)展,在醫(yī)療行業(yè)展開(kāi)工作的同時(shí),更多的信息也不斷涌現(xiàn),這些醫(yī)療信息的重要性不言而喻。因此,若能使用深度學(xué)習(xí)技術(shù)輔助疾病診斷,高效地處理患者資料中的數(shù)據(jù),篩選出有利用價(jià)值的信息,挖掘出有價(jià)值的診斷規(guī)則,進(jìn)而更好地做出疾病診斷結(jié)論,提高診斷效率,其前景是非常廣闊的。
1 深度學(xué)習(xí)
深度學(xué)習(xí)的學(xué)名又叫深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Network),由人工神經(jīng)網(wǎng)絡(luò)模型發(fā)展而來(lái)。深度學(xué)習(xí)根據(jù)其解決問(wèn)題、應(yīng)用領(lǐng)域的不同分為多種深度神經(jīng)網(wǎng)絡(luò)模型。其中較為熱門(mén)的當(dāng)屬卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和深度置信網(wǎng)絡(luò)(Deep Belief Networks, DBN)。
1.1 深度信念網(wǎng)絡(luò)DBN
DBN由若干層神經(jīng)元組成,其組成元件是限制玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)。DBN是一種貪婪的逐層學(xué)習(xí)的算法,可以使深度置信網(wǎng)絡(luò)的權(quán)重達(dá)到最優(yōu)化[1]。
要闡述DBN模型的構(gòu)建過(guò)程,首先需要了解RBM。RBM是一種神經(jīng)感知器,有兩層網(wǎng)絡(luò)組成,一層叫顯層(visible layer),用于輸入訓(xùn)練數(shù)據(jù)。一層叫隱層(hidden layer),用于做特征檢測(cè)器。將若干個(gè)RBM進(jìn)行“串聯(lián)”,則上一個(gè)RBM的隱層即為下一個(gè)RBM的顯層,上一個(gè)RBM的輸出即為下一個(gè)RBM的輸入。
1.2 卷積神經(jīng)網(wǎng)絡(luò)CNN
CNN是一種熱門(mén)的深層深度學(xué)習(xí)模型,卷積神經(jīng)網(wǎng)絡(luò)核心的關(guān)鍵思想是局部連接、權(quán)值共享、池化和多層堆疊。權(quán)值共享是CNN相較于其他模型具有獨(dú)特優(yōu)越性的關(guān)鍵。它減少了神經(jīng)網(wǎng)絡(luò)中參數(shù)的個(gè)數(shù),從而降低了網(wǎng)絡(luò)的復(fù)雜度,使其更類似現(xiàn)實(shí)的生物神經(jīng)網(wǎng)絡(luò)。
CNN模型一般來(lái)說(shuō)含有三個(gè)部分:卷積層、池化、全連接層。卷積層中神經(jīng)網(wǎng)絡(luò)不再對(duì)圖片中的每個(gè)像素對(duì)處理,而是通過(guò)一個(gè)濾波器(即卷積核)對(duì)圖片中每一小塊像素區(qū)域進(jìn)行掃描,提取局部特征和其位置關(guān)系。在獲取了這些特征后,再進(jìn)一步對(duì)這些特征進(jìn)行分類。
2 深度學(xué)習(xí)在醫(yī)療信息領(lǐng)域的應(yīng)用
電子病例中包含了大量的數(shù)字和文本信息,是醫(yī)務(wù)人員為患者開(kāi)展相關(guān)治療的實(shí)錄,包括患者癥狀、用藥記錄、治療情況等等。通過(guò)對(duì)信息進(jìn)行抽取,得到有用的醫(yī)療數(shù)據(jù),并加以有效利用,既可以為醫(yī)療提供決策支持,更可以為患者提供個(gè)性化診療方案,實(shí)現(xiàn)精準(zhǔn)醫(yī)療。
臨床數(shù)據(jù),尤其是重癥監(jiān)護(hù)病房(ICU)電子病歷,通常由多變量時(shí)間序列組成。ZacharyC.Lipton 等首次提出評(píng)估使用長(zhǎng)短期記憶模型(LSTM, Long-Short Term Memory)識(shí)別多變量序列的臨床病歷的能力。他們使用診斷的多標(biāo)簽分類,訓(xùn)練模型分類為128種診斷,其模型效果優(yōu)于此前使用多層感知器的研究方法[2]。R Miotto 等提出了一種新的無(wú)監(jiān)督深度特征學(xué)習(xí)方法,此方法可以在電子病歷中獲取一個(gè)病人的病理特征,使得針對(duì)性的臨床預(yù)測(cè)建模更加方便。他們訓(xùn)練三層堆疊的降噪自動(dòng)解碼器辨別70萬(wàn)患者電子病歷中的層次規(guī)律和依存關(guān)系。他們將得到的模型稱為“深度患者”,其在嚴(yán)重糖尿病、精神分裂癥及各種癌癥的預(yù)測(cè)上表現(xiàn)出色[3]。Nguyen P 等提出了一種端到端深度學(xué)習(xí)系統(tǒng)Deepr,此系統(tǒng)可以從病歷記錄中提取病理特征并自動(dòng)預(yù)測(cè)。其構(gòu)建的“深度記錄”可以提高臨床診斷的準(zhǔn)確性[4]。WU Y 等構(gòu)建了一種針對(duì)中文電子病歷命名體識(shí)別的深度神經(jīng)網(wǎng)絡(luò)。通過(guò)無(wú)監(jiān)督學(xué)習(xí)將未標(biāo)記的語(yǔ)料庫(kù)生成詞作為輸入層,實(shí)驗(yàn)結(jié)果表明其模型優(yōu)于其他CRF(Conditional Random Field,條件隨機(jī)場(chǎng))模型[5]。吳嘉偉提出一種針對(duì)英文電子病歷的實(shí)體關(guān)系抽取的特征學(xué)習(xí)方法,針對(duì)電子病歷中文本結(jié)構(gòu)稀疏的特點(diǎn),將有限的上下文特征進(jìn)行抽象表示,進(jìn)而發(fā)掘出詞與詞之間的組合關(guān)系特征[6]。
3 結(jié) 語(yǔ)
目前,市場(chǎng)上已經(jīng)有使用深度醫(yī)學(xué)技術(shù)于醫(yī)療的企業(yè)。例如IBM的Watson,它可以作為線上輔助醫(yī)療工具幫助醫(yī)生診斷病情。醫(yī)生將患者的病癥輸入,可以在Watson中得到包含一系列治療計(jì)劃的診斷反饋。目前Watson已經(jīng)可以做到在十分鐘之內(nèi)檢測(cè)出罕見(jiàn)的白血病。
盡管如今深度學(xué)習(xí)之風(fēng)已經(jīng)刮遍醫(yī)療行業(yè)的許多角落,但很多實(shí)際問(wèn)題依然很難實(shí)現(xiàn)和操作?,F(xiàn)如今,大部分深度學(xué)習(xí)研究還停留在訓(xùn)練模型的階段,要轉(zhuǎn)化為真實(shí)有效的產(chǎn)品,通過(guò)從臨床驗(yàn)證到監(jiān)管批準(zhǔn)的層層考驗(yàn)還要有很長(zhǎng)一段路要走。但我們有理由相信,將深度學(xué)習(xí)應(yīng)用于醫(yī)療信息領(lǐng)域的前景是十分廣闊的。目前,我國(guó)正處于基層醫(yī)療水平參差不齊的狀態(tài),深度學(xué)習(xí)技術(shù)或許能成為提高基層醫(yī)療水平,擴(kuò)大基層醫(yī)院業(yè)務(wù)范圍,實(shí)現(xiàn)精準(zhǔn)醫(yī)療的有力工具。
主要參考文獻(xiàn)
[1]Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2014, 18(7):1527-1554.
[2]Lipton Z C, Kale D C, Elkan C, et al. Learning to Diagnose with LSTM Recurrent Neural Networks[J]. Computer Science, 2015.
[3]Miotto R, Li L, Kidd B A, et al. Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electronic Health Records[R]. Scientific Reports, 2016.
[4]Nguyen P, Tran T, Wickramasinghe N, et al. Deepr: A Convolutional Net for Medical Records[J].IEEE Journal of Biomedical and Health Informatics,2016,21(1).
[5]Wu Y,Jiang M, Lei J, et al. Named Entity Recognition in Chinese Clinical Text Using Deep Neural Network[J]. Studies in Health Technology and Informatics, 2015,216:624-628.
[6]吳嘉偉,關(guān)毅,呂新波.基于深度學(xué)習(xí)的電子病歷中實(shí)體關(guān)系抽取[J]. 智能計(jì)算機(jī)與應(yīng)用,2014,4(3):35-38.