竇全勝,劉 歡,李丙春,劉 靜,姜 平
(1.喀什大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,新疆維吾爾自治區(qū) 喀什 844008;2.山東工商學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 煙臺(tái) 264005)
依托于海量標(biāo)注數(shù)據(jù),深度學(xué)習(xí)在圖像識(shí)別領(lǐng)域取得了巨大成功。近年來(lái),相關(guān)領(lǐng)域研究者提出運(yùn)用深度學(xué)習(xí)技術(shù)[1-2]處理醫(yī)學(xué)圖像,實(shí)現(xiàn)病變自動(dòng)篩查。然而由于醫(yī)學(xué)影像涉及病人隱私,標(biāo)注效率低,代價(jià)高,多數(shù)醫(yī)學(xué)應(yīng)用場(chǎng)景缺乏足夠的標(biāo)注數(shù)據(jù),例如糖尿病視網(wǎng)膜病變(DR:Diabetic Retinopathy),存在部分稀有病癥圖像樣本較少,難以充分訓(xùn)練深度網(wǎng)絡(luò)模型,進(jìn)而導(dǎo)致網(wǎng)絡(luò)模型在預(yù)測(cè)時(shí)會(huì)忽略這些稀有病癥,使此類模型在眼底病癥自動(dòng)篩查的應(yīng)用中仍存在瓶頸。
為滿足深度網(wǎng)絡(luò)模型對(duì)樣本數(shù)量的要求,一些方法使用圖像增強(qiáng)技術(shù),如拉伸、旋轉(zhuǎn)、縮放或隨機(jī)裁切等方式增加樣本數(shù)量,這些方法對(duì)某些圖像分類問(wèn)題,取得了一定的性能提升。但對(duì)眼底圖像,多數(shù)病癥特征在醫(yī)學(xué)影像中較為細(xì)微,傳統(tǒng)圖像增強(qiáng)技術(shù)容易造成病癥特征失真甚至丟失,且只從形狀上做改變,難以保證樣本的多樣性。因此,基于簡(jiǎn)單的數(shù)據(jù)增強(qiáng)方法訓(xùn)練得到的模型,并不適合眼底稀有病癥圖像的識(shí)別。
小樣本學(xué)習(xí)(FSL:Few-Shot Learning)[3]為解決醫(yī)學(xué)影像數(shù)據(jù)樣本不足的問(wèn)題提供了新思路,筆者提出一種融合先驗(yàn)分布的多表征(MFPD:Multi-representation Fused with Prior Distributions)眼底稀有病癥識(shí)別方法,在預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行微調(diào)得到嵌入模型,獲取嵌入特征的先驗(yàn)分布,進(jìn)一步將嵌入特征映射到不同特征空間以獲得深層特征。在交叉熵?fù)p失的基礎(chǔ)上,加入散度損失,增加不同視角特征的差異性,使稀少的圖像樣本得到充分利用。最后采用OPHDIAT(Ophtalmologie-Diabète-Télémédecine)眼底圖像數(shù)據(jù)集,將筆者方法與其他方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果證明了筆者方法對(duì)稀有病癥圖像的分類性能有所提升。
眼底稀有病癥圖像識(shí)別屬于小樣本學(xué)習(xí)問(wèn)題,是近年機(jī)器學(xué)習(xí)領(lǐng)域研究的熱點(diǎn)。Ma等[4]提出了AffinityNet模型,該模型使用K近鄰注意力池化層提取數(shù)據(jù)局部特征,采用半監(jiān)督學(xué)習(xí)對(duì)模型進(jìn)行訓(xùn)練,該模型對(duì)疾病分類預(yù)測(cè)具有較好的性能。Khodadadeh等[5]提出了無(wú)監(jiān)督元學(xué)習(xí)的小樣本圖像分類方法,該方法首先對(duì)圖像數(shù)據(jù)進(jìn)行聚類,之后通過(guò)隨機(jī)采樣和增強(qiáng)生成訓(xùn)練數(shù)據(jù)的方式進(jìn)行元學(xué)習(xí),在小樣本學(xué)習(xí)數(shù)據(jù)集Omniglot和Mini-Imagenet上進(jìn)行實(shí)驗(yàn),相對(duì)于有監(jiān)督方法,該方法雖然精度有所降低,但所需標(biāo)注樣本的數(shù)量減少了幾個(gè)數(shù)量級(jí)。Fei-Fei等[6]提出了一種解決樣本不足問(wèn)題的方案,設(shè)計(jì)類別分布的概率模型,當(dāng)訓(xùn)練樣本數(shù)量較少時(shí),其通過(guò)概率分布生成信息豐富的特征表達(dá),提高模型在小樣本條件下的識(shí)別結(jié)果。Dhillon等[7]利用標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)并進(jìn)行微調(diào),該方法在數(shù)量較多的小樣本類中也可產(chǎn)生較高精度。Tian等[8]在元訓(xùn)練集上學(xué)習(xí)一個(gè)有監(jiān)督或自監(jiān)督的特征表示,并擬合一個(gè)線性分類器,該方法并不對(duì)深度網(wǎng)絡(luò)進(jìn)行微調(diào),簡(jiǎn)單高效,性能并未因此減弱。在小樣本分類任務(wù)中,使用不同方法改進(jìn)卷積神經(jīng)網(wǎng)絡(luò),可提高小樣本圖像的分類性能。景海婷等[9]利用CNN(Convolutional Neural Networks)實(shí)現(xiàn)了一個(gè)小樣本域自適應(yīng)模型,解決了樣本缺少標(biāo)注的問(wèn)題,并通過(guò)實(shí)驗(yàn)驗(yàn)證了模型在一定條件下具有較好的性能。汪航等[10]以SAR(Synthetic Aperture Radar)圖像分類為背景,以CNN為基礎(chǔ),結(jié)合自編碼器,構(gòu)造深度卷積自編碼結(jié)構(gòu),在樣本稀少的場(chǎng)景中,該結(jié)構(gòu)比傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)更加有效。同樣以CNN為基礎(chǔ),任偉建等[11]提出了一種利用遷移學(xué)習(xí),解決樣本不足的學(xué)習(xí)模型,實(shí)驗(yàn)結(jié)果表明,所提方法較一些傳統(tǒng)方法在各項(xiàng)性能指標(biāo)上有不同幅度的提升。李鵬松等[12]利用閾值分割法保留圖像特征,且基于AlexNet網(wǎng)絡(luò)構(gòu)造新的CNN模型,與其他網(wǎng)絡(luò)模型相比,該方法具有更優(yōu)的結(jié)果。對(duì)高光譜圖像的小樣本分類任務(wù),劉萬(wàn)軍等[13]提出了變維CNN模型,根據(jù)維度變化提取光譜特征,減少模型參數(shù)量的同時(shí),在光譜圖像分類任務(wù)中也表現(xiàn)出較好的效果。為解決稀有病癥的識(shí)別問(wèn)題,Lamardg等[14]設(shè)計(jì)了一種小樣本學(xué)習(xí)框架,該框架在CNN的基礎(chǔ)上,使用無(wú)監(jiān)督概率模型進(jìn)行罕見(jiàn)條件檢測(cè),該方法的特別之處在于融合了遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)的思想,但是比二者性能都有所提升。
筆者提出了融合先驗(yàn)分布的多表征眼底稀有病癥識(shí)別的網(wǎng)絡(luò)模型。該模型利用訓(xùn)練好的嵌入模型獲取圖像的先驗(yàn)分布,并模擬人類從多角度觀察事物的能力,將嵌入特征映射到不同深層特征空間,生成對(duì)圖像的多特征表達(dá),在交叉熵?fù)p失的基礎(chǔ)上,加入散度損失,增加不同特征表示的差異性。將特征嵌入的先驗(yàn)分布與深層特征表達(dá)相融合,作為病癥決策的依據(jù),預(yù)測(cè)不同病癥概率分布。
MFPD模型包括兩部分:1) 使用圖像樣本訓(xùn)練嵌入模型,并利用嵌入特征計(jì)算病癥圖像的先驗(yàn)分布;2) 融入先驗(yàn)分布的多表征決策,將嵌入特征映射到不同空間,獲得樣本圖像的多表征表達(dá),與先驗(yàn)分布融合后,并對(duì)圖像類別進(jìn)行決策。
用D表示眼底圖像集合,不妨設(shè)D中存在N種病癥:{cn},n=1,…,N,任意圖像I∈D,yI,n∈{0,1}標(biāo)記了圖像I是否包含病癥cn,若yI,n=1表示病癥存在,若yI,n=0則表示病癥不存在。嵌入模型Fembed如圖1所示。
圖1 嵌入模型FembedFig.1 Embedded model Fembed
圖1中,Fembed通過(guò)預(yù)訓(xùn)練模型,如Inception-v3、Inception-v4和ResNet-50等,提取圖像I的淺層特征,淺層特征經(jīng)全連接后可得圖像的嵌入特征τI,在嵌入特征基礎(chǔ)上,計(jì)算獲得圖像的先驗(yàn)分布。
(1)
對(duì)任意圖像I,通過(guò)Fembed訓(xùn)練后可得與其對(duì)應(yīng)的嵌入特征τI,將D中N種不同癥狀分成不同的聚簇G={Gl,l=1,…,N},若一幅圖像包含多種病癥,則其可以被劃分至多個(gè)聚簇中。如下
(2)
(3)
bl=max(Distance(Cl,(τI)I∈G)
(4)
其中σ為高斯核函數(shù),bl為聚簇Gl空間中心Cl與該聚簇所有樣本的最大距離。
以圖像I為輸入,通過(guò)嵌入模型Fembed中的嵌入特征τI可獲得與之對(duì)應(yīng)的先驗(yàn)分布pn|I,基于嵌入特征,設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行多特征決策,以提升模型對(duì)稀有病癥圖像的識(shí)別性能。
在上述基礎(chǔ)上,進(jìn)一步將嵌入特征τI映射至不同深層特征空間,以獲取不同視角的圖像特征,并融入圖像的先驗(yàn)分布進(jìn)行決策,從而使稀有樣本得到更充分的利用,以此緩解樣本數(shù)量不充分對(duì)模型的不利影響。筆者使用圖2所示的網(wǎng)絡(luò)結(jié)構(gòu)將嵌入特征映射到不同深層特征空間。
圖2中,以嵌入模型Fembed獲取的嵌入特征τI為輸入,利用卷積、池化等多層網(wǎng)絡(luò)提取圖像深層特征,并將獲得的特征表示進(jìn)行串聯(lián),生成關(guān)于同一圖像的多角度特征描述向量,輸送到輸出端后,預(yù)測(cè)圖像I包含每種病癥的概率分布qI,n,結(jié)合先驗(yàn)分布pn|I,可得模型最終預(yù)測(cè)結(jié)果,即
圖2 融合先驗(yàn)分布的多表征眼底稀有病癥識(shí)別的深度網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Deep network structure for recognition of rare fundus diseases with multi-representation fused with prior distributions
(5)
由式(5)可知,圖像I含有病癥cn的先驗(yàn)概率越大,則最后預(yù)測(cè)結(jié)果中包含該病癥的概率就越大。
嵌入特征τI映射成多個(gè)不同的深層特征向量γI,j,j=1,…,d,d為深層特征向量個(gè)數(shù)。定義關(guān)于圖像I深層特征向量的散度損失
(6)
從式(6)中可看出,散度損失Lmap反映了圖像I深層特征向量γI,j,j=1,…,d的多樣性,當(dāng)圖像I的深層特征向量之間距離較遠(yuǎn)時(shí),則表明γI,j之間差異性增大,可獲得圖像不同視角的特征。
將深層特征向量生成關(guān)于同一圖像的特征表示后,經(jīng)softmax函數(shù)獲得概率分布,并與先驗(yàn)分布結(jié)合后可得圖像的預(yù)測(cè)結(jié)果。筆者將MFPD網(wǎng)絡(luò)模型的損失函數(shù)L定義如下
(7)
L=αLoutput+βLmap
(8)
通過(guò)預(yù)訓(xùn)練模型提取圖像I的嵌入特征,將其輸入到多層卷積、池化層以獲得深層特征,與獲得的先驗(yàn)分布結(jié)合后,并加入散度損失Lmap驅(qū)動(dòng)模型以不同角度提取圖像特征,增加不同空間中深層特征的多樣性,有效緩解稀有病癥圖像樣本數(shù)量不足,模型無(wú)法準(zhǔn)確判斷的不利影響。
使用OPHDIAT項(xiàng)目中的DR篩查圖像集測(cè)試模型性能,OPHDIAT項(xiàng)目共包含40個(gè)DR篩查中心,從2004-2017年底,共完成了164 660次篩查,收集了763 848幅圖像。經(jīng)7個(gè)專家標(biāo)注,共得出41種眼底病變狀況,篩選出121 091張圖像作為數(shù)據(jù)集D。為確?!罢D像”確實(shí)是非病理性的,對(duì)正常圖像進(jìn)行目視檢查,并丟棄了包含異常的圖像,其中包括16 955張正常圖像。在實(shí)驗(yàn)中,設(shè)置常見(jiàn)病癥種類數(shù)M為11~41的6種狀況,即M∈{11,16,21,26,31,33},則相應(yīng)稀有病癥種類數(shù)R′∈{30,25,20,15,10,8},稀有病癥圖像樣本的數(shù)量統(tǒng)計(jì)結(jié)果如表1所示。
表1 稀有病癥樣本數(shù)量統(tǒng)計(jì)Tab.1 Statistics of rare disease samples
為滿足筆者提出嵌入模型輸入維度的要求,首先對(duì)圖像進(jìn)行預(yù)處理,包括尺寸和外觀顏色的標(biāo)準(zhǔn)化,以消除拍攝設(shè)備不同導(dǎo)致的圖像差異。根據(jù)相機(jī)視野大小定義矩形眼底區(qū)域ROI(Region of Interest),并將ROI重設(shè)為模型輸入維度;在YCrCb顏色空間中進(jìn)行圖像顏色的標(biāo)準(zhǔn)化,保持Cr和Cb不變,僅對(duì)代表圖像亮度的Y組件進(jìn)行處理,消除亮度差異,并將圖像轉(zhuǎn)換成RGB圖像,預(yù)處理結(jié)果如圖3所示。
圖3 圖像預(yù)處理結(jié)果Fig.3 Image preprocessing results
由于一個(gè)眼底病變患者可能同時(shí)患有多種眼底病癥,因此一幅眼底圖像中可能包含多種病癥狀況:0、1或多種(≤41)。因此筆者所提出的眼底病癥預(yù)測(cè)屬于多標(biāo)簽分類問(wèn)題,等同于41個(gè)相互獨(dú)立的二分類問(wèn)題,每個(gè)二分類處理一種病癥狀況。對(duì)每種病癥cn,用ROC曲線下的面積評(píng)價(jià)模型性能。
3.2.1 嵌入模型Fembed的選擇
筆者使用M=11時(shí)數(shù)量最多的稀有病癥圖像樣本對(duì)如下深度網(wǎng)絡(luò)模型及其組合進(jìn)行實(shí)驗(yàn),以選擇最適合的網(wǎng)絡(luò)結(jié)構(gòu):Inception-v3[15]、Inception-v4[16]、ResNet-50、ResNet-101、ResNet-152[17]和NASNet-A[18],這些模型首先在ImageNet上進(jìn)行預(yù)訓(xùn)練,然后利用本文的訓(xùn)練集對(duì)參數(shù)進(jìn)行微調(diào)。同時(shí),對(duì)兩種模型結(jié)構(gòu)組合的預(yù)測(cè)性能進(jìn)行測(cè)試,將兩者的嵌入特征連接后用于最終預(yù)測(cè)。利用驗(yàn)證集中的M種病癥圖像對(duì)上述模型進(jìn)行驗(yàn)證,每種模型的平均AUC(Area Under Curve)如表2所示。
表2 各種CNN結(jié)構(gòu)及其兩兩組合在驗(yàn)證集上對(duì)M種數(shù)量病癥圖像預(yù)測(cè)的平均AUCTab.2 Average AUC of M kinds of disease images predicted by various
表2中,對(duì)角線是單一模型結(jié)構(gòu)的平均AUC分值,對(duì)角線之上是模型的組合分值,可以看出,在這些深度網(wǎng)絡(luò)模型及其組合中,Inception-v3、Inception-v4及Inception-v3+Inception-v4這3種架構(gòu)的平均AUC較高,因此筆者選擇這3種結(jié)構(gòu)作為嵌入模型Fembed進(jìn)行實(shí)驗(yàn)。
3.2.2 參數(shù)選擇
為實(shí)現(xiàn)多角度觀察,在嵌入特征τI的基礎(chǔ)上,將τI并行映射到多個(gè)不同的低維空間得到特征向量γI,j,j=1,…,d,不同的嵌入模型Fembed和不同的映射數(shù)P組合構(gòu)成不同的深度網(wǎng)絡(luò),并用包含41種病癥的全部圖像訓(xùn)練、驗(yàn)證并測(cè)試模型性能,其分類性能如圖4所示。
圖4 3種模型與不同維度映射后相結(jié)合的深度模型在測(cè)試集上的分類性能Fig.4 The classification performance of the depth model combined with the three models after mapping with different dimensions on the test set
由圖4可看出,對(duì)3種嵌入模型結(jié)構(gòu)Inception v3、Inception v4和Inception v3+v4與不同維度映射后在測(cè)試集上的平均AUC結(jié)果表明,當(dāng)選擇嵌入模型為Inception v3+v4,映射維度為10,α=0.3和β=0.7時(shí),模型的分類性能最優(yōu),因而筆者選擇Inception v3+v4為嵌入模型和10維映射作為網(wǎng)絡(luò)模型結(jié)構(gòu)。
筆者采用Inception v3+v4結(jié)構(gòu)作為嵌入模型,并將其中的嵌入特征映射到不同空間,增加圖像數(shù)據(jù)的觀察角度,且結(jié)合先驗(yàn)分布,實(shí)現(xiàn)小樣本眼底圖像的病癥預(yù)測(cè)。將MFPD模型與Lamard等[14]提出的小樣本學(xué)習(xí)方法、遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)進(jìn)行比較。對(duì)遷移學(xué)習(xí),首先使用M=11中最常見(jiàn)的病癥圖像訓(xùn)練深度CNN模型,然后微調(diào)這些CNN模型以逐個(gè)檢測(cè)剩余的30種病癥。對(duì)多任務(wù)學(xué)習(xí),訓(xùn)練CNN模型同時(shí)檢測(cè)41種病癥狀況。MFPD模型與其他方法預(yù)測(cè)的比較結(jié)果如表3所示。
從表3可看出,筆者方法的ROC曲線下平均面積為0.950 5。對(duì)稀有病癥的檢測(cè)同樣取得了較好的性能,當(dāng)考慮30種稀有病癥時(shí),平均AUC達(dá)到了0.940 5。在筆者工作前,制定了有效病癥檢測(cè)器的標(biāo)準(zhǔn)為AUC在0.85以上,根據(jù)此標(biāo)準(zhǔn),MFPD模型成功檢測(cè)了41種病癥中的36種,有5種病癥的自動(dòng)檢測(cè)較為困難包括prethrombosis,telangiectasia,angioid streaks,embolus,shunt。主要原因可能是:1) 圖像預(yù)處理不充分,如尺寸縮放后導(dǎo)致的圖像分辨率低、沒(méi)有充足的顏色標(biāo)準(zhǔn)化等;2) 稀有病癥圖像數(shù)量與常見(jiàn)病癥數(shù)量差異較大,導(dǎo)致嵌入模型無(wú)法提取出足夠的特征表示病癥。
表3 筆者方法與其他機(jī)器學(xué)習(xí)方法在測(cè)試集上的AUC對(duì)比結(jié)果Tab.3 The AUC results of our method and other machine learning methods on the testset are compared
(續(xù)表3)
將MFPD模型對(duì)稀有病癥的檢測(cè)性能與其他機(jī)器學(xué)習(xí)方法進(jìn)行比較,筆者提出的小樣本學(xué)習(xí)方法性能遠(yuǎn)高于遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)。與遷移學(xué)習(xí)相比,在相近復(fù)雜度下,筆者提出的方法能更好地檢測(cè)稀有病癥,主要原因可能是常見(jiàn)病癥學(xué)習(xí)好的特征在稀有病癥的微調(diào)下丟失了。在多任務(wù)學(xué)習(xí)中,由于對(duì)應(yīng)常見(jiàn)病癥的檢測(cè)是同時(shí)進(jìn)行,所以性能下降得更多。筆者方法與文獻(xiàn)[14]方法中所有AUC較低的病癥都是稀有病癥,但筆者方法AUC略有提高??梢?jiàn)筆者方法相比其他方法在相近的輔助下性能有明顯提升。
筆者提出融合先驗(yàn)分布的多表征眼底稀有病癥識(shí)別的網(wǎng)絡(luò)模型,以檢測(cè)醫(yī)學(xué)圖像中的稀有病癥。采用常見(jiàn)病癥圖像對(duì)嵌入模型進(jìn)行訓(xùn)練,獲得嵌入特征后,計(jì)算先驗(yàn)概率。為提高稀有病癥圖像的識(shí)別結(jié)果,將嵌入特征投影到不同空間獲得圖像的多表征表示,將其與先驗(yàn)概率融合后,可在一定程度上提升模型預(yù)測(cè)的準(zhǔn)確度。綜上所述,筆者對(duì)眼底圖像進(jìn)行分析,提出能檢測(cè)多種眼底病癥的深度模型,實(shí)驗(yàn)結(jié)果具有較大的啟發(fā)性,在標(biāo)注樣本不足的醫(yī)學(xué)診斷領(lǐng)域提出了新的解決方案。