楊麗洋,文 戈
南方醫(yī)科大學南方醫(yī)院影像中心,廣東 廣州 510515
當前,醫(yī)學應(yīng)用的成像技術(shù)主要包括X射線成像、CT、MRI、正電子發(fā)射斷層掃描和超聲等[1]。隨著科學技術(shù)的發(fā)展和醫(yī)學影像設(shè)備的發(fā)展,手動進行數(shù)據(jù)解釋和分析已逐漸成為一項具有挑戰(zhàn)性的任務(wù)[2]。醫(yī)學圖像的診斷和分析依賴于醫(yī)生的專業(yè)知識和經(jīng)驗,疲勞和情緒狀態(tài)對其影響很大[3],這可能導致同一位放射科醫(yī)生在不同時間,或檢查同一圖像的不同放射科醫(yī)生之間的結(jié)果不一致。
深度學習和機器學習作為人工智能的重要分支,在醫(yī)學影像學方面有著廣泛的應(yīng)用。機器學習是將算法應(yīng)用于一組數(shù)據(jù),從該數(shù)據(jù)中學習知識并應(yīng)用所學的知識可以做出預測[4],其數(shù)據(jù)特征在機器學習中是手動提取的,而在深度學習中數(shù)據(jù)特征的提取是一個完全自動化的過程[2]。深度學習是通過多層非線性神經(jīng)網(wǎng)絡(luò)層將數(shù)據(jù)的低級別特征進行組合并轉(zhuǎn)換成高級別、復雜的抽象特征,以完成復雜任務(wù)的學習[5]。應(yīng)用深度學習方法,可以從海量醫(yī)學影像數(shù)據(jù)中自動提取抽象特征,既消除了主觀因素的影響,又能提取到更高級的抽象特征[6],有助于協(xié)助醫(yī)生對疾病做出精確診斷。
深度學習與機器學習一樣,可分為兩種:監(jiān)督學習與無監(jiān)督學習。監(jiān)督學習需要通過有標注的數(shù)據(jù)進行訓練得到模型,即先輸入計算機一些問題的正確答案,然后在此基礎(chǔ)上判斷和分析新案例[7],監(jiān)督學習在醫(yī)學影像處理中的常見模型有卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。無監(jiān)督學習是處理未標注的數(shù)據(jù),并訓練生成模型[8],在醫(yī)學圖像應(yīng)用中常見的模型有深度置信網(wǎng)絡(luò)(DBN)和自動編碼器(AE)。
生物學家Hubel等[9]基于對貓視覺皮層細胞的研究,首次提出了感受野的概念。Fukushima[10]根據(jù)Hubel和Wiesel的層級模型提出了神經(jīng)認知機模型,它被認為是CNN的第一個實現(xiàn)網(wǎng)絡(luò)。之后,相繼出現(xiàn)了基于CNN的改進模型:LeNet、AlexNet、VGG、GooleNet和ResNet。CNN是經(jīng)典的深度學習網(wǎng)絡(luò),最大的優(yōu)點是它的多層結(jié)構(gòu)具有自動學習的特點[11]。
CNN基本結(jié)構(gòu)包括卷積層、池化層和全連接層。卷積層提取輸入數(shù)據(jù)的不同特征,且通過權(quán)值共享減小模型的復雜度,使網(wǎng)絡(luò)更易于訓練;池化層通過降低輸入特征的分辨率獲得具有空間不變性的特征,起到二次提取特征的作用;全連接層或稱分類器,整合卷積層和池化層中具有類別區(qū)分性的局部信息[12]。因此,CNN通常是醫(yī)學圖像分類的首選。
RNN通常用于處理序列數(shù)據(jù)[13]。RNN的層級結(jié)構(gòu)由輸入層、隱藏層和輸出層組成,其最大的特點的是隱藏層之間的神經(jīng)元是有連接的,即神經(jīng)元在某時刻的輸出可以作為輸入再次輸入到神經(jīng)元,這種串聯(lián)的網(wǎng)絡(luò)結(jié)構(gòu)非常適合于時間序列數(shù)據(jù),可以保持數(shù)據(jù)中的依賴關(guān)系,因此具有記憶能力。但是此模型很難訓練,往往會出現(xiàn)梯度消失或梯度爆炸的問題,無法達到長期依賴的目標。為此,提出了長短期記憶網(wǎng)絡(luò)和門控循環(huán)單元來解決長期依賴問題[8]。
DBN由Hinton等[14]提出,它是一種生成模型,通過訓練器神經(jīng)元間的權(quán)重,可以讓整個神經(jīng)網(wǎng)絡(luò)按照最大概率來生成訓練數(shù)據(jù)。DBN既可以用于識別特征、分類數(shù)據(jù),也可以用來生成數(shù)據(jù)。DBN的組成元件是受限玻爾茲曼機。DBN由多層神經(jīng)元構(gòu)成,分為顯性神經(jīng)元和隱性神經(jīng)元(顯元和隱元)[8],顯元用于接收輸入,隱元用于提取特征,也稱特征檢測器,層與層之間的神經(jīng)元存在連接,但層內(nèi)的神經(jīng)元間不存在連接。
AE包括編碼層、隱藏層和解碼層,編碼層壓縮圖像數(shù)據(jù),解碼層將其擴展,中間的隱藏層學習圖像內(nèi)像素的復雜關(guān)系[15],起到對目標特征提取和降維的作用。為了實現(xiàn)分類,在AE的最頂層的編碼層添加一個分類器。AE的變體包括稀疏自編碼器、降噪自編碼器。
在醫(yī)學圖像分類中,通常將一個或多個圖像作為輸入,單個診斷變量作為輸出(例如是否存在疾?。?,CNN是目前圖像分類領(lǐng)域的標準[8]。
深度學習方法在肺結(jié)節(jié)分類的應(yīng)用主要是肺結(jié)節(jié)性質(zhì)(實性結(jié)節(jié)、部分實性結(jié)節(jié)、磨玻璃結(jié)節(jié))的鑒別和良惡性判斷[16]。Li等[17]構(gòu)建了基于深度學習的計算機輔助診斷系統(tǒng)(DL-CAD)模型與由兩個放射科醫(yī)生組成的雙重診斷對CT肺結(jié)節(jié)性質(zhì)的鑒別比較,結(jié)果顯示,DL-CAD對實性結(jié)節(jié)、磨玻璃結(jié)節(jié)的敏感性與特異性分別是90.3%和100%、100%和96.1%,非常接近于雙重診斷,說明DL-CAD模型對肺內(nèi)的實性結(jié)節(jié)和磨玻璃結(jié)節(jié)的診斷與放射科醫(yī)生的診斷具有一致性;但是DL-CAD鑒別部分實性結(jié)節(jié)的敏感性與特異性降低到了55.5%和93%,說明DL-CAD在診斷肺內(nèi)部分實性結(jié)節(jié)的性能上仍有待提高。Zhang等[18]在少于70名受試者的小數(shù)據(jù)集中測試體素級一維CNN模型的分類性能,結(jié)果表明,該模型成功地區(qū)分胸部CT影像中肺結(jié)節(jié)的良惡性,AUC、準確性、敏感性、特異性分別為0.71±0.08、0.78±0.03、0.8±0.11、0.53±0.15。
2019年末,全球爆發(fā)了新型冠狀病毒肺炎(COVID-19)。影像學方面的研究顯示,磨玻璃結(jié)節(jié)和實變是COVID-19患者肺部主要的影像學表現(xiàn)。Guan等[19]觀察入院的975例COVID-19患者CT圖像,86.2%顯示胸部影像有異常,其中最常見的影像學表現(xiàn)是磨玻璃結(jié)節(jié)(56.4%)和雙肺斑片狀陰影(51.8%)。針對COVID-19的大爆發(fā),胸部CT檢查在疾病的篩查與患者復查中不可或缺,我們可以應(yīng)用深度學習模型幫助放射科醫(yī)生早期對COVID-19做出診斷,并提高準確性。
此外,深度學習在MRI方面也有一定的應(yīng)用,目前尚在研究階段。MRI由于無電離輻射且成像對比度好,因此普遍用于腦疾病的診斷,但MR圖像包含大量的數(shù)據(jù)信息,使放射科醫(yī)生分析圖像和診斷疾病的工作更復雜。由于標注的數(shù)據(jù)量有限,用于預訓練的數(shù)據(jù)集少,在訓練過程中會產(chǎn)生過擬合,而遷移學習可以解決這一問題,它是將在之前一個相對大的數(shù)據(jù)集學習到的知識或模型應(yīng)用到數(shù)據(jù)集少但相關(guān)的領(lǐng)域中[20]。例如,Talo等[21]使用基于CNN的遷移學習ResNet34模型對正常和異常腦部MR圖像進行自動分類,結(jié)果表明,ResNet34對613個MR圖像的驗證集準確分類,實現(xiàn)了100%的分類準確性。有研究用AlexNet、VGG-16、ResNet-18、ResNet-34和ResNet-50模型將腦部MR圖像自動分類為正常、腦血管病、腫瘤、退變和炎性病變,且使用5倍交叉驗證來評估五種預訓練模型的分類性能,其中ResNet-50模型分類準確性最佳,為(95.23±0.6)%[22],說明這些模型可以實現(xiàn)醫(yī)學圖像的準確自動化分類。
醫(yī)學圖像分割是要從背景圖像中識別器官或病灶的像素,而對器官或病灶的精確分割有利于影像上目標物體積、形狀等臨床指標的定量分析[8]。在醫(yī)學圖像分割中,最著名的架構(gòu)就是U-net[23],其特點是等量的上采樣層與下采樣層的結(jié)合。U-net的基礎(chǔ)是全卷積神經(jīng)網(wǎng)絡(luò),但又不同于全卷積神經(jīng)網(wǎng)絡(luò)。其中,U-net較淺的高分辨率層用來解決像素定位的問題,較深層用來解決像素分類的問題,將淺層特征圖與深層特征圖結(jié)合,用于圖像分割及邊緣檢測[11]。但是U-net往往會忽略不同比例特征圖的影響,之后提出的特征金字塔網(wǎng)絡(luò)用于檢測不同比例物體[24]。
為了定量評估模型的分割性能,相關(guān)的測量指標有戴斯分數(shù)、平均絕對距離、豪斯多夫距離等[25]。例如,左心室的分割是定量測量一些臨床數(shù)據(jù)(如面積、體積和射血分數(shù))的關(guān)鍵,Moradi等[26]構(gòu)建了多特征金字塔U-net(MFP-Unet)模型分割超聲心動圖中的左心室結(jié)構(gòu),與U-net、dilated U-net、U-net++、ACNN、SHG 和Deeplabv3架構(gòu)比較,結(jié)果表明,MFP-Unet在各項測量指標中均取得最佳的結(jié)果,與手動計算的體積、面積、長度和射血分數(shù)之間的高度一致性。
此外,有研究使用U-net的變形架構(gòu)自動分割腰部MR圖像中的椎旁肌肉[27],該模型包含兩個主要模塊:殘差模塊和特征金字塔注意力模塊,并納入120例患者,與其他多種模型比較,來評估該模型的分割性能。結(jié)果顯示,在分割多裂肌的測試集中,該模型的戴斯相似系數(shù)、靈敏性、特異性、豪斯多夫距離分別為0.949±0.034、0.951±0.046、0.950±0.035、4.62±2.81;在分割豎脊肌的測試集中,該模型的戴斯相似系數(shù)、靈敏性、特異性、豪斯多夫距離分別為0.913±0.082、0.920±0.100、0.919±0.073、7.89±5.61。結(jié)果表明,該模型可以對腰部MR圖像中的椎旁肌肉精準的分割,以實現(xiàn)腰椎疾病(如慢性腰痛、腰椎間盤突出、椎管狹窄等)的自動化分析。
Budak等[28]提出使用級聯(lián)深度卷積編碼器-解碼器神經(jīng)網(wǎng)絡(luò)進行肝臟及肝腫瘤的分割,結(jié)果顯示,該方法對肝臟分割的DICE分數(shù)是95.22%,與手動分割肝臟具有很好的一致性;對肝臟腫瘤分割的DICE分數(shù)是63.4%,此值雖然很低,但仍比其他方法的性能水平平均高3.3%??梢?,在醫(yī)學圖像分割中,多種基于深度學習的架構(gòu)在對器官或病灶的自動分割上與手動分割具有高度的一致性。
在醫(yī)學圖像中檢測異常(包括腫瘤和其它可疑物的生長)是放射科醫(yī)生日常工作中常見的部分。但是,病灶區(qū)域相對于整幅圖像往往很小,人工標記病灶費時且具有主觀性,基于深度學習的自動檢測方法可提高病灶檢測的效率和可靠性,目前多應(yīng)用于肺結(jié)節(jié)、乳腺癌的檢測。
Ye等[29]使用AlexNet、GoogLeNet和ResNet50模型檢測肺結(jié)節(jié)。結(jié)果表明,AlexNet檢測肺結(jié)節(jié)的性能最佳,檢測率為95%;預訓練的ResNet50對磨玻璃結(jié)節(jié)的檢測性能較好,準確性是0.87,F(xiàn)值最大值0.87 805。有研究納入346位健康受試者,比較基于深度學習的計算機輔助診斷(DL-CAD)與由兩個放射科醫(yī)生組成的雙重診斷對CT肺結(jié)節(jié)的檢測性能。結(jié)果顯示,DL-CAD和雙重診斷對肺結(jié)節(jié)的檢測率分別是86.2%和79.2%(P<0.001)[17]。這說明DL-CAD對肺結(jié)節(jié)的檢測優(yōu)于雙重診斷。但也有研究發(fā)現(xiàn),DL-CAD檢測肺結(jié)節(jié)的假陽性率比雙重診斷更高。
一個高性能的肺結(jié)節(jié)檢測系統(tǒng)必須具有高靈敏性和高精確性,因此,肺結(jié)節(jié)檢測系統(tǒng)包括兩個階段,一個是結(jié)節(jié)的檢出,另一個是降低檢測的假陽性率[16]。為此,有研究提出了一種降低假陽性率的方法[30],MR-森林是肺結(jié)節(jié)檢測中降低假陽性的深度決策框架。他們在兩個數(shù)據(jù)集中比較MR-森林與Multi-view、3DDCNNs(PATech)、3DDCNNs(Ding)、LightGBM 模型降低肺結(jié)節(jié)假陽性率的CPM分數(shù),結(jié)果顯示,MR-森林在兩個數(shù)據(jù)集中的CPM分數(shù)分別為0.865和0.910。其結(jié)果表明,MR-森林可替代自動肺結(jié)節(jié)檢測系統(tǒng),既滿足了資源消耗低又滿足有效性。可見,目前使用的深度學習方法在肺結(jié)節(jié)檢測系統(tǒng)中的應(yīng)用很成熟,檢測準確率高且假陽性率低。
還有許多研究集中在乳腺病變上,例如,Ribli等[31]構(gòu)建了基于Faster R-CNN的CAD模型,用于對乳腺X線照片的病變進行檢測和良惡性分類。結(jié)果顯示,該模型在INbreast數(shù)據(jù)庫中的AUC=0.95,對乳腺良惡性病變具有很好的分類性能。同時,該模型在INbreast數(shù)據(jù)庫中檢測惡性病灶的靈敏性為0.9,可見基于Faster R-CNN的CAD模型對乳腺惡性病灶的檢測性能較CAD系統(tǒng)的特性好。在乳腺X線攝影中,使用CNN進行檢測和分類之間存在很多重疊,因為許多設(shè)計用于檢測的CNN最終也旨在對病變進行分類[32]。
病灶的檢測、分割和分類都是為了準確的診斷病變,Gao等[20]提出了多任務(wù)深度學習(MTL)將病灶檢測、分割和分類問題聯(lián)合解決,這是一種通過特征遷移(FT)實現(xiàn)的MTL模型,即FT-MTL-Net。為了評估該方法的有效性,將FT-MTL-Net與文獻中的各個模型進行了比較,這些模型均使用公開提供的全數(shù)字化乳腺X線照片數(shù)據(jù)集進行乳腺癌診斷。實驗結(jié)果表明,所提出的FT-MTL-Net在分類和檢測方面優(yōu)于其他模型,并且在分割方面具有可比性。
目前,深度學習方法在醫(yī)學影像上的研究還主要集中在發(fā)病率比較高的疾病上,即可獲取的患者圖像數(shù)據(jù)量比較多的疾病研究中,而對一些罕見疾病的研究則很少。這是由于深度學習神經(jīng)網(wǎng)絡(luò)層數(shù)多、層次復雜,需要大量的數(shù)據(jù)進行模型訓練和測試,才能準確提取疾病的圖像特征。在醫(yī)學領(lǐng)域中,高質(zhì)量標注的影像數(shù)據(jù)很少,會導致訓練數(shù)據(jù)的類別不平衡,當各類別訓練數(shù)據(jù)不平衡時,預測結(jié)果會偏向樣本量多的類別,出現(xiàn)過擬合問題[33]。Dropout是防止過擬合的一大有力手段,Dropout是指在深度學習網(wǎng)絡(luò)的訓練過程中,對于神經(jīng)網(wǎng)絡(luò)單元按照一定的概率將其暫時從網(wǎng)絡(luò)中丟棄。另外,可以通過數(shù)據(jù)擴增(縮放、翻轉(zhuǎn)、平移、旋轉(zhuǎn)、裁剪)的方法增加訓練和測試中的樣本量。
同時,全國各地醫(yī)院應(yīng)當實現(xiàn)醫(yī)學影像數(shù)據(jù)庫共享,在工作中及時將有價值的病例加入,不斷擴增疾病的樣本量,積極配合推進深度學習在醫(yī)學影像中的研究。因此,有必要建立高質(zhì)量數(shù)據(jù)庫和有效的深度學習模型,醫(yī)學影像豐富的數(shù)據(jù)模式也有利于深度學習方法研究的不斷完善??傊疃葘W習方法的應(yīng)用可以極大的緩解放射科醫(yī)生的工作壓力,提高疾病的診斷效率和準確率,具有廣闊的前景。相信在不久的將來,會有完善的深度學習診斷模式應(yīng)用于醫(yī)學影像的臨床診療工作中。