張光華,馬 非,劉 漢,張喜梅,潘 婧,孫 斌
(1.太原學(xué)院a.智能與自動(dòng)化系,b.材料與化學(xué)工程系,山西 太原 030032;2.山西智能大數(shù)據(jù)產(chǎn)業(yè)技術(shù)創(chuàng)新研究院 醫(yī)療健康大數(shù)據(jù)研究中心,山西 太原 030006;3.山西省眼科醫(yī)院 a.玻璃體視網(wǎng)膜病科,b.眼眶眼腫瘤科, 山西 太原 030002)
視網(wǎng)膜靜脈阻塞(RVO)是僅次于糖尿病視網(wǎng)膜病變的第二大最常見視網(wǎng)膜血管性疾病,也是造成視力喪失的重要原因[1-2]。臨床上根據(jù)阻塞發(fā)生部位不同(圖1), RVO可分為視網(wǎng)膜中央靜脈阻塞(Central Retinal Vein Occlusion,CRVO)及視網(wǎng)膜分支靜脈阻塞(Branch Retinal Vein Occlusion,BRVO)。RVO眼底表現(xiàn)為視網(wǎng)膜出血、黃斑水腫、黃斑漿液性視網(wǎng)膜脫離、視盤水腫、視網(wǎng)膜靜脈充血水腫、棉絨斑等。一項(xiàng)涵蓋美國(guó)、歐洲及亞洲11個(gè)國(guó)家的流行病學(xué)調(diào)查[3]顯示RVO人群總體發(fā)病率為0.52%,其中CRVO發(fā)病率約0.08%,約250萬(wàn)人;BRVO發(fā)病率約0.44%,約1 390萬(wàn)人;其流行率隨年齡而增長(zhǎng)。北京眼研究的臨床流行病學(xué)調(diào)查顯示我國(guó)40歲以上人群中,10 a RVO累積發(fā)病率約1.9%,BRVO發(fā)病率是CRVO的6倍,約1.6%[4].
圖1 CRVO的眼底彩照和BRVO的眼底彩照Fig.1 CRVO color fundus photo and BRVO color fundus
近年來,CNN已經(jīng)成為醫(yī)學(xué)圖像分析領(lǐng)域的主要研究方法[5-6],在乳腺腫塊分割、皮膚病檢測(cè)、大腦病灶分割等諸多領(lǐng)域得到廣泛的應(yīng)用。在眼科領(lǐng)域,Lee等人利用CNN進(jìn)行基于OCT圖像的黃斑水腫自動(dòng)化分割[7]。Google公司利用CNN網(wǎng)絡(luò)進(jìn)行糖尿病視網(wǎng)膜病變的自動(dòng)化分級(jí)[8],通過對(duì)超10萬(wàn)張的數(shù)據(jù)集進(jìn)行訓(xùn)練,得到轉(zhuǎn)診準(zhǔn)確率99%的實(shí)驗(yàn)結(jié)果,該技術(shù)已經(jīng)通過FDA認(rèn)證,成為正式醫(yī)療產(chǎn)品。CNN擅長(zhǎng)利用不同尺度卷積模塊提取圖像的不同顏色、空間、邊緣特征信息,并通過連續(xù)的非線性變換組合將全部特征進(jìn)一步融合成為圖像的高階抽象特征,將高階抽象特征、基礎(chǔ)特征共同用于最終的學(xué)習(xí)過程,CNN模型在某些問題中的處理能力被證明超過人類。RVO的研究方面,Zhang等人[9]提出了能夠區(qū)分正常眼底彩照和BRVO的HLBP(Hierarchical Local Bnary Pattern)模型,Zhao等人[10]使用CNN進(jìn)行BRVO與正常眼底彩照之間的區(qū)分,且其分類效果比HLBP更加優(yōu)秀,但該研究中并未對(duì)CRVO進(jìn)行討論,也沒有對(duì)病灶進(jìn)行分析。本研究中嘗試使用一個(gè)統(tǒng)一的深度學(xué)習(xí)模型,對(duì)正常的眼底、CRVO和BRVO眼底彩照進(jìn)行分類,并通過無監(jiān)督的學(xué)習(xí)方法自動(dòng)化檢測(cè)病灶所在位置區(qū)域,給出疾病分類的臨床證據(jù)。
圖像中相鄰像素之間的結(jié)構(gòu)和空間信息是圖像分析的重要因素,卷積神經(jīng)網(wǎng)絡(luò)通過組合卷積層、池化層、全連接層結(jié)構(gòu),利用上千個(gè)擬合參數(shù)可以更好地提取圖像中的特征信息。網(wǎng)絡(luò)通過在感受野范圍內(nèi)進(jìn)行卷積操作來提取特征,每個(gè)卷積核就是一個(gè)特征濾波器,特征濾波器在訓(xùn)練學(xué)習(xí)過程中不斷調(diào)整權(quán)值。池化層在卷積層之后用以降低參數(shù)空間緯度,保留最重要的特征參數(shù)。網(wǎng)絡(luò)的最后,全連接層將特征矩陣展平為一維,用于分類。CNN的框架如圖2所示。
圖2 CNN結(jié)構(gòu)包括輸入層、卷積層、池化層和全連接層Fig.2 CNN structure includes input layer, convolutional layer, pooling layer and fully connected layer
本文提出一種新的CNN混合框架,用于對(duì)RVO疾病類型進(jìn)行分類并檢測(cè)病變,稱為VGG-CAM網(wǎng)絡(luò)。通過優(yōu)化后的VGG19網(wǎng)絡(luò),全局平均池化層(Global Average Pooling,GAP)和類激活層(CAM),將網(wǎng)絡(luò)輸出分為分類預(yù)測(cè)和病灶識(shí)別兩個(gè)分支。 VGG19[11]是由Simonyan和Zisserman(2014)引入的CNN架構(gòu),網(wǎng)絡(luò)通過使用更小的感受野(3×3矩陣)檢測(cè)來自不同位置的圖像特征,更深的卷積層數(shù)量以增加感受野的接收區(qū)域。本文提出的VGG-CAM網(wǎng)絡(luò),在分類預(yù)測(cè)分支中將原始VGG19網(wǎng)絡(luò)中全連接層從三個(gè)減少到一個(gè),并增加GAP層。在訓(xùn)練分類網(wǎng)絡(luò)的同時(shí),訓(xùn)練CAM層所需的特征圖譜的權(quán)重,即GAP層,Softmax用作全連接層的激活函數(shù)。在病灶識(shí)別分支中,將CAM層與GAP層級(jí)聯(lián),用GAP中得到的權(quán)值對(duì)特征圖進(jìn)行線性疊加,疊加結(jié)果表示不同像素的重要性,即病灶像素檢測(cè)。 VGG-CAM網(wǎng)絡(luò)的24層框架如圖3所示。
圖3 VGG-CAM模型結(jié)構(gòu)Fig.3 VGG-CAM model structure
與平均池化不同,GAP從特征圖中計(jì)算輸出一個(gè)值,如圖4所示,這種方法在減少了模型參數(shù)的同時(shí)并不影響網(wǎng)絡(luò)最終輸出結(jié)果的準(zhǔn)確性[12]。GAP層保留了來自輸入圖像的整體信息和特征圖的重要程度。
圖4 GAP層Fig.4 GAP layer
CAM層是對(duì)特征圖按照GAP權(quán)重參數(shù)進(jìn)行線性疊加,具體計(jì)算公式為:
(1)
其中,C表示GAP前一層特征圖通道數(shù)量,F表示GAP層的上一層特征圖,CAM層等于對(duì)應(yīng)的全連接層權(quán)重w與F相乘并相加,如圖5所示。
圖5 VGG-CAM網(wǎng)絡(luò)分類及病灶分割結(jié)構(gòu)圖Fig.5 VGG-CAM network classification and lesion segmentation structure diagram
CAM層首先使用公式(1)計(jì)算原始眼底彩照的類激活圖像,然后用雙線性插值將類激活圖像轉(zhuǎn)換為原始圖像大小,進(jìn)行閾值分割和病灶位置檢測(cè)。
本文使用限制對(duì)比直方圖均衡(Contrast Limited Adaptive Histogram Equalization,CLAHE)進(jìn)行圖像預(yù)處理,增加原始圖像的對(duì)比度[13]。同時(shí)使用翻轉(zhuǎn)、扭曲和縮放(圖6所示)來增加圖像數(shù)據(jù)樣本的多樣性,提高模型的泛化能力。
圖6 原始圖像與預(yù)處理后的圖像Fig.6 Original image and preprocessed image
實(shí)驗(yàn)樣本共包含2 962張尺寸為1 959×1 959的高清晰度眼底彩照?qǐng)D像,使用海德堡設(shè)備Spec-KT-04814進(jìn)行采集,55°的成像范圍,每張圖像均包括黃斑區(qū)和視盤。全部圖像由三位高級(jí)眼科醫(yī)生進(jìn)行標(biāo)注。該數(shù)據(jù)包含1 510張BRVO圖像、925張CRVO 圖像和527張正常眼底彩照,其中男性約占51.85%,女性約占48.15%。年齡分布方面,45歲以下占13.4%,45~59歲占37.8%,60~74歲占38.5%,75~89歲占7.4%,90歲以上占2.9%。集中90%的數(shù)據(jù)用作訓(xùn)練,10%的數(shù)據(jù)用作測(cè)試。
遷移學(xué)習(xí):遷移學(xué)習(xí)[14]表示將一個(gè)深度學(xué)習(xí)問題中的網(wǎng)絡(luò)參數(shù)應(yīng)用于同一網(wǎng)絡(luò)在其它問題中的權(quán)重初始化階段。在圖像處理問題中,神經(jīng)網(wǎng)絡(luò)的淺層網(wǎng)絡(luò)主要負(fù)責(zé)圖像淺層元素特征提取,例如:圖像中的點(diǎn)和邊等元素,這部分網(wǎng)絡(luò)參數(shù)可以通用。遷移學(xué)習(xí)可以提供更好的初始化參數(shù),并大大減少網(wǎng)絡(luò)的學(xué)習(xí)時(shí)間[15].基于這一理論,VGG-CAM模型使用來自ImageNet預(yù)先訓(xùn)練權(quán)重作為網(wǎng)絡(luò)初始參數(shù),該組參數(shù)由包含超過1 000個(gè)圖像標(biāo)簽的一百多萬(wàn)張圖像訓(xùn)練而來[16]。
分階段訓(xùn)練:分階段訓(xùn)練是將模型訓(xùn)練分為幾個(gè)子學(xué)習(xí)過程,通過不同學(xué)習(xí)過程完成提取不同層次圖像特征的能力。模擬人類學(xué)習(xí)過程,分階段訓(xùn)練逐步處理來自圖像的信息(Barshan&Fieguth,2015)[17],盡量保證每個(gè)階段的參數(shù)調(diào)整到最優(yōu),提高網(wǎng)絡(luò)訓(xùn)練的速度。本文模型分為三個(gè)階段進(jìn)行訓(xùn)練:第一階段,訓(xùn)練模型中的前8層,目的是學(xué)習(xí)圖像的基礎(chǔ)特征,尤其是其粗尺度特征;第二階段,訓(xùn)練第8至第13層,訓(xùn)練網(wǎng)絡(luò)學(xué)習(xí)圖像分類中的精細(xì)特征;第三階段,訓(xùn)練第13至第18層,從圖像中進(jìn)一步提取抽象特征,構(gòu)成最終分類器所需差異較大的圖像特征。
實(shí)驗(yàn)中,首先對(duì)無監(jiān)督病灶識(shí)別能力進(jìn)行測(cè)試,其次分別從精確度、召回率、F1值、ROC曲線幾個(gè)方面對(duì)VGG-CAM模型的分類性能進(jìn)行測(cè)試,各指標(biāo)計(jì)算公式如下所示:
(2)
(3)
(4)
(5)
式中:TP表示將正類預(yù)測(cè)為正類數(shù),TN表示將負(fù)類預(yù)測(cè)為負(fù)類數(shù),FN表示將負(fù)類預(yù)測(cè)為正類數(shù),FP表示將負(fù)類預(yù)測(cè)為正類數(shù)。
圖7顯示了在BRVO和CRVO眼底彩照中病灶分割的結(jié)果實(shí)例。從結(jié)果中可以看到,VGG-CAM模型可以有效識(shí)別出BRVO中的滲出、阻塞的靜脈和出血等病灶;但是當(dāng)出血區(qū)域較大時(shí),模型只能檢測(cè)出部分出血區(qū)域。在CRVO情況下,VGG-CAM模型僅能識(shí)別出血的中心區(qū)域。
圖7 VGG-CAM網(wǎng)絡(luò)在BRVO和CRVO上的病灶分割結(jié)果Fig.7 The results of lesion segmentation of the VGG-CAM network on BRVO and CRVO
從表1中可以得出分類模型具有較高的準(zhǔn)確性,精確度在95%~98%之間,召回率在96%~98%之間,F1在96%~98%之間,正常眼底的識(shí)別準(zhǔn)確率最高,BRVO的召回率最低,CRVO的準(zhǔn)確率最低。從表2中可以看到NORMAL和CRVO的分類準(zhǔn)確率高于BRVO的分類準(zhǔn)確率。
表1 測(cè)試集分類結(jié)果Table 1 Test set classification results
表2 測(cè)試集混淆矩陣Table 2 Test set confusion matrix
如圖8所示,繪制了RVO分類的真陽(yáng)率(True Positive Rate,TPR)和誤報(bào)率(False Positive Rate,FPR)ROC曲線。結(jié)果表明VGG-CAM模型中所有疾病類型的二分類曲線面積達(dá)到0.99以上,其中正常與非常正的分類預(yù)測(cè)曲線面積已經(jīng)接近1(0.998),表明該模型完全能夠區(qū)分有無RVO疾病。BRVO分類預(yù)測(cè)標(biāo)簽和CRVO分類預(yù)測(cè)標(biāo)簽的曲線則表明彼此之間錯(cuò)誤標(biāo)記的可能性很小。
圖8 VGG-CAM網(wǎng)絡(luò)在RVO分類任務(wù)上的ROC曲線Fig.8 ROC curve of VGG-CAM network on RVO classification task
本文提出用于視網(wǎng)膜靜脈阻塞分類和病灶檢測(cè)的混合卷積神經(jīng)網(wǎng)絡(luò)VGG-CAM,通過遷移學(xué)習(xí)將超大規(guī)模數(shù)據(jù)集下學(xué)習(xí)到的網(wǎng)絡(luò)參數(shù)用于本研究網(wǎng)絡(luò)的初始化,并使用階段訓(xùn)練的研究策略減少模型的訓(xùn)練時(shí)間,提高參數(shù)優(yōu)化能力。另一方面,基于無監(jiān)督的學(xué)習(xí)方法,使用全局平均池化和類激活方法進(jìn)行病灶檢測(cè)。試驗(yàn)結(jié)果表明本文模型能夠準(zhǔn)確地對(duì)BRVO,CRVO和正常眼底圖像進(jìn)行分類并檢測(cè)到病變區(qū)域,做出預(yù)測(cè)結(jié)果的同時(shí)給出結(jié)果判斷的臨床依據(jù)。在本工作的基礎(chǔ)上,可以進(jìn)一步研究RVO疾病與腦血管疾病之間的相關(guān)性,RVO無灌注區(qū)的識(shí)別等。