廖德盛,吳 敏
年齡相關(guān)性黃斑變性(age-related maculardegeneration,ARMD)影響全世界約1.7億人,預計到2040年全球患者將增加到2.88億[1],是視力進行性損傷甚至永久失明的主要原因,尤其是60歲以上人群[2]。早發(fā)現(xiàn)、早診斷、早治療可以延緩ARMD的進展,顯著改善患者的生活質(zhì)量。在ARMD的診療過程中,醫(yī)學影像具有關(guān)鍵的作用,眼底照相、光學相干斷層掃描成像(optical coherence tomography,OCT)、B超等影像學檢查都是臨床中重要的輔助診斷和病情監(jiān)測隨訪的工具。但是隨著ARMD患者的日益增多,眼科工作人員對ARMD患者的影像學數(shù)據(jù)的解讀和管理日益復雜。此外,目前眼科影像的分析臨床中多由技師或醫(yī)生負責閱片,閱片結(jié)果的準確性受到多方面因素的影響,如醫(yī)生的情緒、經(jīng)驗、知識儲備、疲勞度等[3],再加上人眼的分辨率有限,對于微小的病灶很難識別出來,這可能導致醫(yī)生做出的判斷可能會有一定的偏差。針對以上問題,越來越多的學者提出用人工智能(artificial intelligence,AI)代替醫(yī)生進行閱片分析的想法,并在此領(lǐng)域做了大量研究,這些研究結(jié)果顯示AI可能會幫助醫(yī)生解決上述問題。AI及其概念首先被McCarthy等于1956年提出:開發(fā)出能像人一樣思考問題的計算機[4]。AI是人類計算機技術(shù)高速發(fā)展產(chǎn)物,它不僅能推動科學技術(shù)的發(fā)展,還能對人類社會產(chǎn)生深遠的影響。深度學習(deep learning,DL)作為AI的一子領(lǐng)域是當今科學研究的新趨勢,憑借其在圖像及語音的識別和分類等方面有著巨大的優(yōu)勢,如今應用于眾多行業(yè)和領(lǐng)域當中[5-6]。由于醫(yī)學圖像在醫(yī)學的診療過程具有重要的意義,DL技術(shù)在以影像學驅(qū)動的生物醫(yī)學中的各個領(lǐng)域得到了廣泛的應用,如心血管[7]、呼吸[8]、泌尿[9]、影像[10-11]等。DL可通過多個非線性神經(jīng)網(wǎng)絡(luò)層進行自動特征提取,從而自動地完成特征學習和分類[12],可見DL較閱片醫(yī)生具有更高強度、更持久、能像人類一樣思考卻不受主觀因素影響的優(yōu)點[13],因此開展AI技術(shù)在眼科疾病中的研究具有廣闊的前景,包括糖尿病視網(wǎng)膜病變[14]、青光眼[15]、白內(nèi)障[16]、早產(chǎn)兒視網(wǎng)膜病變[17]、視網(wǎng)膜靜脈阻塞[18]等。本文針對DL技術(shù)在ARMD輔助診斷中的研究進展和不足進行如下綜述。
1.1DL的提出自從AI技術(shù)的概念被提出之后,人們對其不斷地深入研究和探索,利用算法讓計算機具有學習能力,使其能在大數(shù)據(jù)中自己學習、總結(jié)經(jīng)驗和自我完善,最終得出一種對新數(shù)據(jù)分析和預測的算法,這就是機器學習(machine learning,ML)的提出。隨著人們對AI的研究不斷深入,“深度學習”一詞在20世紀80年代被提出,并于2006年Hinton等[19-20]提出深度信念網(wǎng)絡(luò)的概念和一種成功的多層神經(jīng)網(wǎng)絡(luò)訓練方法,掀起了神經(jīng)網(wǎng)絡(luò)研究熱潮,DL從此得到迅速的發(fā)展。
1.2DL模型DL模型是指通過多層人工神經(jīng)網(wǎng)絡(luò)提取和轉(zhuǎn)換低級的數(shù)據(jù)特征成為高級的、復雜的數(shù)據(jù)特征的一種學習算法,對所收集的數(shù)據(jù)進行準確地分析和預測[21]。DL通常分為兩種:監(jiān)督學習,包括卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN);無監(jiān)督學習,包括深度置信網(wǎng)絡(luò)(deep belief networks,DBN)和自動編碼器(autoencoder,AE)。監(jiān)督學習和無監(jiān)督學習兩者之間的區(qū)別在于有無經(jīng)過標注的訓練數(shù)據(jù)集。DL在眼科學領(lǐng)域應用最多的幾種常見模型主要有CNN、RNN和DBN等。
1.2.1CNN 20世紀80年代提出的CNN是經(jīng)典的DL網(wǎng)絡(luò)之一,由卷積層、池化層和全連接層構(gòu)成[22]。CNN最大的優(yōu)點是具有良好的數(shù)據(jù)特征提取和學習能力,主要運用于生物醫(yī)學領(lǐng)域影像圖片識別、語音識別等[23]。
在CNN中,卷積層、池化層是神經(jīng)網(wǎng)絡(luò)的特征抽取器,其中卷積層負責提取輸入數(shù)據(jù)的不同特征,池化層降低輸入特征的分辨率,連續(xù)地縮小特征圖,導致特征圖數(shù)目的增加,這起到二次提取特征的作用;全連接層連接在特征抽取器的后面,用來整合特征抽取器中具有類別區(qū)分性的局部信息,最后輸出結(jié)果[24]。全連接層會將特征抽取器提取到的二維特征圖壓縮成一維向量,從而使信息降維,更適用于整體圖像分類。而眼科影像圖像多為二維圖像,因此CNN通常是眼科學中研究DL的首選網(wǎng)絡(luò)算法。近年來,隨著CNN的發(fā)展,加速了DL在眼科醫(yī)學影像中的應用[25-27]。但是CNN需要通過大量且高質(zhì)量的數(shù)據(jù)集來訓練才能得到一個運行良好的模型[28]。
1.2.2RNN RNN也叫遞歸神經(jīng)網(wǎng)絡(luò),主要由輸入層、隱藏層和輸出層組成,其特點為隱藏層之間是有聯(lián)系的。在每次運算時都會將前一隱藏層的輸出數(shù)據(jù)帶入下一隱藏層一起訓練,這樣就可以保持數(shù)據(jù)的時序關(guān)系,因此RNN通常應用于含有時序的任務[29],例如音頻分析和語言識別等[30]。但是此模型訓練困難,參數(shù)較多,調(diào)節(jié)不方便,往往會出現(xiàn)時序梯度消失或錯亂的情況,而且該網(wǎng)絡(luò)不具備特征學習的能力。
1.2.3DBN DBN是Hinton等[19-20]于2006年提出一種學習算法。DBN由多層神經(jīng)元構(gòu)成,層與層之間的神經(jīng)元相互連接,但層內(nèi)不相連[31],分為顯性神經(jīng)元和隱性神經(jīng)元[32],用來做特征分析。此外,DBN亦可用來生成數(shù)據(jù)。具有高靈活性、容易擴展、更加抽象地學習高層特征的特點,但應用范圍有限,網(wǎng)絡(luò)結(jié)構(gòu)復雜。
1.2.4 基于CNN的改進網(wǎng)絡(luò)模型在CNN被提出之后,便引起了全世界各地研究人員的青睞。近年來相繼出現(xiàn)了基于CNN的改進模型:LeNet[33]、VGG[34]、GoogleNet[35]等,它們的出現(xiàn)使CNN在運算時避免了過度擬合的問題,并且在保證運算準確度的同時增加運算速度,此外CNN的改進模型具有更復雜的網(wǎng)絡(luò)結(jié)構(gòu),能夠計算更大的數(shù)據(jù),得到更好的結(jié)果。
2.1 基于眼底照相應用DL對ARMD進行分析眼底照相是通過眼底照相機直接獲取眼底圖片的方法,具有檢查成本低、無痛苦與創(chuàng)傷、患者依從性高、圖片可數(shù)字化、可存儲與傳輸?shù)葍?yōu)點[36-37],至今仍是ARMD最基本、最普遍的檢查方法之一,可以記錄病灶的情況和對病灶的發(fā)展進行隨訪觀察。
Keel等[38]使用大量的眼底照相數(shù)據(jù)集來開發(fā)和驗證DL算法,研究采用了56113幅視網(wǎng)膜圖像訓練DL模型,同時用另外的86162幅圖像以驗證DL模型。在驗證數(shù)據(jù)集中,DL對新生血管ARMD的檢測敏感性和特異性分別為96.7%和96.4%;對測試數(shù)據(jù)集進行測試,靈敏度和特異性分別為100%和93.4%。結(jié)果顯示該系統(tǒng)識別眼底圖像中的新生血管ARMD方面表現(xiàn)良好。Grassmann等[39]用了經(jīng)過預處理好的120656張眼底圖像作為訓練集,并且在招募時排除了非ARMD威脅視力的疾病,此外還收集了來自奧格斯堡地區(qū)合作健康研究的5555幅眼底圖像,用于評估訓練后模型的性能。在驗證集中DL檢測到眼底圖像有明確的早期或晚期ARMD跡象的正確率有84.2%,優(yōu)于人類分析結(jié)果。但與Keel的研究結(jié)果類似,DL模型易受除ARMD其他病理改變影響,對分析產(chǎn)生干擾。Peng等[40]使用DL模型先在5802張圖像上接受訓練,并在4549名參與者的縱向隨訪中對900張圖像進行了測試,最后將DL的識別準確度與眼底病專家相比:DL模型得出的平均準確度為81.8%,優(yōu)于專家的77.0%。Matsuba等[41]用5000張超廣角眼底照相[正常:4130張,濕性年齡相關(guān)性黃斑變性(wARMD):870張]訓練得到DL模型,再用該模型測試了111張測試圖像(正常:69張,wARMD:42張),得到了100%的靈敏度和97.31%的特異性,并與6位眼科醫(yī)生診斷wARMD作對比,結(jié)果顯示DL模型的診斷準確率優(yōu)于眼科醫(yī)生。
基于眼底照相應用DL對ARMD進行分析有不錯的效果,可輔助醫(yī)務人員對ARMD患者做出臨床決策。但DL模型會受到一些因素影響,Keel和Grassmann研究的假陽性眼底圖像中顯示有其他類型黃斑病變,說明DL在分析圖像時易受其他病理改變影響。此外,在屈光介質(zhì)混濁的條件下得到的不清晰圖像,會降低DL模型的識別準確率性。近年來有研究在訓練DL模型時采用圖像清晰程度和來源不同的數(shù)據(jù),以提高模型在真實世界中分析準確性,圖像質(zhì)量問題可通過大量、廣泛且復雜的數(shù)據(jù)來訓練得以解決。此外,在2018年印度推出一種能行眼底檢查的智能手機,結(jié)合自帶的AI系統(tǒng)對眼底疾病識別的靈敏度和特異度分別為95.8%和80.2%[42],說明AI只要通過大量數(shù)據(jù)訓練還能在不同的條件下發(fā)揮識別功能,今后有望得到大規(guī)模且常態(tài)化的普及。但現(xiàn)階段的DL模型是否能適用于同時伴隨多種疾病的ARMD診斷能力仍未知。
2.2 基于OCT應用DL對ARMD進行分析OCT是一種非接觸性無創(chuàng)影像診斷技術(shù),利用入射光束在不同眼組織上產(chǎn)生不同的反射強度,經(jīng)過計算機處理成像,其具有無創(chuàng)性、分辨率高、成像快等特點[43]。研究表明,OCT檢查相比于其他檢查方法對黃斑的結(jié)構(gòu)有更好的分辨力,對黃斑區(qū)疾病有更高的診斷精確度[44-45],有助于識別ARMD的重要體征,例如黃斑水腫、新生血管病灶等,是臨床上ARMD治療后隨訪的重要工具。
Treder等[46]利用多層深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)對wARMD圖像和正常眼底圖像進行鑒別,實驗采用已經(jīng)在ImageNet中的120萬張圖像進行預訓練的DCNN對1012張圖像(ARMD:701張,健康:311張)進行訓練,直到訓練集的準確率達到100%,之后利用使用DL框架TensorFlowTM,檢測100幅OCT圖像(ARMD:50幅,健康:50幅),最后結(jié)果為:敏感性100%,特異性92%,準確率96%。Rim等[47]模型開發(fā)了一種DL技術(shù)從OCT中識別伴有新生血管的年齡相關(guān)性黃斑變性(nARMD),用了來自韓國的12247張OCT圖像訓練模型,來自美國的91509張OCT圖像進行外部驗證。在外部驗證方面,AUC和AUPRC保持在0.952(95%CI:0.942~0.962)和0.891(95%CI:0.875~0.908)的高水平。DL除了可以將OCT圖像分類為正常和ARMD,還可以再從已經(jīng)確診為ARMD的OCT圖像中分類干性或濕性ARMD。Motozawa等[48]對ARMD患者和健康對照組的1621個OCT圖像進行了研究。第一個CNN模型使用1382個ARMD的OCT圖像和239個正常OCT圖像進行訓練和驗證;第二個CNN模型使用了721個wRARMD圖像和661個干性年齡相關(guān)性黃斑變性(dARMD)圖像進行訓練和驗證。第一個CNN模型,得到了100%的敏感性、91.8%的特異性和99.0%的準確性的分類;在第二個模型,在識別ARMD有無滲出性變化中,敏感性為98.4%,特異性為88.3%,準確性為93.9%。Yim等[49]在一只眼睛被診斷為wARMD的患者中,引入了CNN來分析患者的OCT圖像后預測第二只眼睛進展為wRARMD的概率,結(jié)果該AI系統(tǒng)比5/6的專家表現(xiàn)得更好。鑒于一只眼的ARMD病史是另一只眼發(fā)病的危險因素,在臨床上醫(yī)生可通過發(fā)現(xiàn)OCT圖像中另一只眼早期微小病變來預測另一只眼ARMD的發(fā)生,DL可通過大數(shù)據(jù)的學習和管理來輔助醫(yī)務人員預測ARMD的發(fā)生,甚至可預測發(fā)展成早期或晚期ARMD的大概時間年限。
DL模型在分析OCT圖像中具有較高的準確性。種族、年齡和性別的不同可能會有不同的視網(wǎng)膜結(jié)構(gòu)和外觀,然而Rim的模型在不同種族和地域的OCT中都有良好的分類性能,這證明DL模型的分類具有通用性。當OCT圖像出現(xiàn)偽影,或者當與其他眼部病理改變或中央凹病變相混淆時,DL模型分析OCT圖像的性能在現(xiàn)實環(huán)境中可能會降低。大多研究都是給數(shù)據(jù)集附上標簽后才開始訓練,但是現(xiàn)實世界中的OCT圖像是沒有標簽的。最近,Seebock等[50]使用無監(jiān)督DL算法將OCT圖像分類為健康圖像、早期或晚期ARMD,并且能夠?qū)崿F(xiàn)81.4%的診斷準確率,進一步完善無監(jiān)督學習算法可能會減少對大型標記訓練數(shù)據(jù)集的依賴。
2.3 基于眼底照相合并OCT應用DL對ARMD進行分析目前的研究大多為基于眼底照相或基于OCT應用DL對ARMD進行分析、分類。有研究證明把眼底照相和OCT圖像結(jié)合分析,可做到兩種成像技術(shù)之間取長補短,最終可得到更精確的分類效果。Khalid等[51]建立了一個特別的模型,可以通過在OCT和眼底圖像之間建立對應關(guān)系來自動識別ARMD。該試驗分為3個階段:第一階段收集了100個人的眼底照相,并對每個人進行68次OCT掃描得到6800張OCT圖像,這些圖像被兩位眼科專家標記為健康、早期ARMD和晚期ARMD;第二階段先單獨對兩組數(shù)據(jù)進行分類,之后在OCT分析中,將圖像分類為正常圖像和ARMD,而被分類為ARMD的患者的眼底照相自動進入第三階段的分析;第三階段將自動進入第三階段的眼底圖像進行分析,分類為早期ARMD和晚期ARMD。DL模型在OCT圖像分析技術(shù)上分別達到96.4%、97.1%和96.19%的準確性、靈敏度和特異性;在同一數(shù)據(jù)集上的眼底圖像分析分別達到了86%、76.6和90%。當分析同時具有OCT和眼底圖像分析的融合系統(tǒng)時,它的準確度、靈敏度和特異性分別為98%、100%和97.14%。結(jié)果顯示融合模型較單獨模型具有更好的分類效果。Yoo等[52]經(jīng)過數(shù)據(jù)擴充和訓練得到一種結(jié)合OCT和眼底照相的多模式DL模型對ARMD進行分類,僅使用OCT的DL診斷準確率達到了82.6%(81.0%~84.3%)。僅使用眼底的DL表現(xiàn)出83.5%(81.8%~85.0%)的準確率。將眼底與OCT結(jié)合使用可提高診斷能力,準確率達90.5%(89.2%~91.8%)。研究結(jié)果表明,由于眼底和OCT成像可在視網(wǎng)膜上提供互補的信息,因此將OCT和眼底照相結(jié)合的DL模型具有更好的效能。
ARMD是一種進行性且不可逆的損害,人工智能DL學習技術(shù)不僅有望幫助我們大規(guī)模地開展ARMD的早期篩查工作,還可以減少因醫(yī)務工作者的各種因素而給診斷帶來的失誤。AI的發(fā)展可能給ARMD的診斷帶來了安全性、可靠性、高效率以及普適性。不論是基于眼底照相還是OCT應用DL對ARMD進行分析,自動化算法都能發(fā)揮類似人類專家分級的作用,可以節(jié)省篩查或診斷ARMD時所需的大量人力成本和費用。
從目前的研究來看,雖然DL模型在實驗室環(huán)境中初步應用于ARMD輔助診斷獲得了較好的敏感性、特異性和準確性,但目前的DL技術(shù)應用于ARMD中仍存在以下缺陷:(1)需要很多且高質(zhì)量的訓練圖像來訓練和驗證算法[53],才能有更高的泛化能力[54-55],同時需要計算機專業(yè)和醫(yī)學專業(yè)的人才來運行,導致其很難在全國普遍開展;(2)DL的學習過程本身是一種自動提取特征進行學習的過程,多由計算機工程師編輯算法而來,其工作過程是不透明、不可知的,即“黑匣子”性質(zhì)[40]不符合醫(yī)學的可解釋性;(3)此外AI不能代替醫(yī)生與患者直接溝通,這可能會忽略了ARMD患者的一些重要病史;(4)其他結(jié)構(gòu)或病理變化(例如其他病理性視網(wǎng)膜有關(guān)的病變)可能會影響DL模型對ARMD評估的性能;(5)現(xiàn)階段DL模型評估ARMD的研究僅為回顧性研究,是否能前瞻性應用于臨床仍存在不確定性。
研究已證實DL輔助醫(yī)生診斷ARMD是可行的,可能具有廣闊的應用前景。但是需要解決的問題仍有許多,可從以下幾個方面思考:(1)建立統(tǒng)一的權(quán)威研究機構(gòu)和標準對過程進行評估和比較,同時規(guī)范化數(shù)據(jù)集的收集和管理;(2)培養(yǎng)有DL算法編程知識的醫(yī)學人才,使“黑匣子”透明化,建立一種無論是大醫(yī)院還是基層醫(yī)院的工作人員都能理解并操作的模型;(3)在今后還可以針對ARMD的治療效果、同時合并其他眼病的診斷等方面展開研究,增強在復雜情形下對ARMD的甄別能力;(4)可訓練結(jié)合多種輔助檢查分析ARMD的DL模型,提高模型的分類能力。雖然國內(nèi)外學者在此領(lǐng)域中進行了很多的研究,展現(xiàn)了DL對ARMD等同于或好于人工的檢測性能,但仍需更深入地研究來解決一些問題,以建立適合于臨床廣泛應用的ARMD輔助診斷模型。