王 博,張麗媛,師為禮,楊華民,蔣振剛
長(zhǎng)春理工大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,長(zhǎng)春 130022
結(jié)直腸癌已成為世界上第三大常見(jiàn)的惡性腫瘤,其中90%是由腸腺瘤引起的[1]。腸腺瘤屬于腫瘤性息肉,在臨床上腫瘤性和非腫瘤性息肉不易區(qū)分,所以息肉都會(huì)被摘除,待病理學(xué)確診后再進(jìn)一步分類。如果早期發(fā)現(xiàn)息肉并且進(jìn)行醫(yī)學(xué)干預(yù),可以有效降低結(jié)直腸癌的發(fā)病率和病死率。醫(yī)生通過(guò)內(nèi)窺鏡來(lái)檢查患者的腸道,這項(xiàng)工作面臨著兩大挑戰(zhàn),其一,腸道內(nèi)部環(huán)境極其復(fù)雜、不同患者的生理結(jié)構(gòu)存在巨大差異、早期的息肉一般比較隱蔽等因素會(huì)給醫(yī)生在做內(nèi)窺鏡檢查時(shí)帶來(lái)息肉漏檢。其二,胃腸道疾病患者增多,導(dǎo)致內(nèi)窺鏡影像數(shù)據(jù)劇增,不易于人工處理,內(nèi)窺鏡檢測(cè)技術(shù)十分依賴于內(nèi)科醫(yī)生的經(jīng)驗(yàn)與能力,年輕醫(yī)生可能無(wú)法勝任,因此在時(shí)間和精力上會(huì)給醫(yī)生造成大量損耗。有科學(xué)依據(jù)表明,目前內(nèi)窺鏡檢測(cè)技術(shù)誤診率高達(dá)26%[2],因此通過(guò)開(kāi)發(fā)計(jì)算機(jī)輔助診斷技術(shù)去幫助內(nèi)科醫(yī)生進(jìn)行息肉檢測(cè)具有重大意義。
通過(guò)計(jì)算機(jī)輔助診斷實(shí)現(xiàn)內(nèi)窺鏡影像異常檢測(cè)的方法分為兩類:基于圖像特征的方法和基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[3]的方法。早期很多內(nèi)窺鏡病灶檢測(cè)都是基于圖像特征的,整體流程可以概括為:圖像預(yù)處理、特征提取、病灶檢測(cè)。Shen等人[4]采用顏色直方圖的統(tǒng)計(jì)變量作為特征,對(duì)檢測(cè)單元的各通道進(jìn)行輪廓波變換,在產(chǎn)生的子帶中得到紋理特征和灰度共生矩陣,最后進(jìn)行目標(biāo)檢測(cè),該方法應(yīng)用多尺度方法更好地實(shí)現(xiàn)了異常檢測(cè),但錯(cuò)誤率高達(dá)13.99%。Tajbakhsh等人[5]提出了一種基于形狀和上下文信息的息肉檢測(cè)模型,首先利用上下文信息刪除非息肉結(jié)構(gòu),之后采用形狀信息進(jìn)行息肉定位,實(shí)驗(yàn)結(jié)果表明敏感度為88%,有待提升?;趫D像特征的方法首先需要大量的圖像預(yù)處理,這是一個(gè)費(fèi)時(shí)又費(fèi)力的工作,其次需要提取圖像的顏色特征和紋理特征,該方法不能充分地利用圖像特征,導(dǎo)致識(shí)別精度較低,達(dá)不到臨床要求。目前已經(jīng)有很多國(guó)內(nèi)外學(xué)者基于CNN的方法來(lái)實(shí)現(xiàn)病灶檢測(cè),該方法可以略去大量的圖像預(yù)處理,自動(dòng)地提取內(nèi)窺鏡圖像特征,病灶檢測(cè)的精度較高。Yuan等人[6]提出了一個(gè)旋轉(zhuǎn)不變和圖像相似性約束的密集連接卷積網(wǎng)絡(luò)(RIIS-DenseNet),增強(qiáng)了訓(xùn)練樣本學(xué)習(xí)特征和對(duì)應(yīng)旋轉(zhuǎn)版本之間的映射關(guān)系,將圖像類別信息強(qiáng)加于特征上,以保持類內(nèi)的小分散性,該方法精度達(dá)到了95.62%,但是沒(méi)有標(biāo)記出病灶的位置,本質(zhì)上是一個(gè)分類任務(wù)。Mo等人[7]提出了一種更快的基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(Faster R-CNN),首先通過(guò)主干網(wǎng)絡(luò)進(jìn)行特征提取,其次采用區(qū)域生成網(wǎng)絡(luò)(region proposal network,RPN)對(duì)圖像進(jìn)行粗略篩選,得到候選框,最后用基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(Fast R-CNN)[8]進(jìn)行精確的識(shí)別與定位,可以有效地檢測(cè)出息肉,但是對(duì)小型息肉存在漏檢?;贑NN的息肉檢測(cè)方法可以達(dá)到較為理想的精度和速度,但是一些方法只是對(duì)息肉進(jìn)行分類操作,沒(méi)有框出息肉位置,另一些方法對(duì)小型息肉檢測(cè)不敏感。
本文采用基于CNN的方法來(lái)實(shí)現(xiàn)內(nèi)窺鏡影像異常檢測(cè),基于CNN的目標(biāo)檢測(cè)算法主要分為兩大部分one stage類型[9]和two stage類型[10]。One stage網(wǎng)絡(luò)首先將數(shù)據(jù)輸入到模塊中進(jìn)行特征提取,然后將得到的特征用等同的網(wǎng)格進(jìn)行劃分,最后對(duì)每一個(gè)網(wǎng)格分別進(jìn)行回歸與分類,檢測(cè)速度較快,但是存在正負(fù)樣本不平衡問(wèn)題。two stage網(wǎng)絡(luò)首先通過(guò)主干網(wǎng)絡(luò)進(jìn)行特征提取,然后采用RPN篩選候選框,最后結(jié)合主網(wǎng)絡(luò)進(jìn)行精準(zhǔn)的識(shí)別與定位,可以達(dá)到較高的目標(biāo)檢測(cè)精度,但是檢測(cè)速度較慢?;诙嗉?jí)特征金字塔網(wǎng)絡(luò)的單鏡頭目標(biāo)檢測(cè)器(a single-shot object detector based on multilevel feature pyramid network,M2det)[11]屬于one stage類型網(wǎng)絡(luò),在自然場(chǎng)景下目標(biāo)檢測(cè)精度達(dá)到了較優(yōu)的效果。本文采用改進(jìn)的M2det方法進(jìn)行息肉檢測(cè),實(shí)驗(yàn)結(jié)果表明本文方法優(yōu)于其他方法,mAP達(dá)到了98.25%,本文貢獻(xiàn)如下:
采用特征融合模塊v1(feature fusion module v1,F(xiàn)FMv1)將三個(gè)不同層次的特征進(jìn)行融合,用特征融合模塊v3(feature fusion module v3,F(xiàn)FMv3)將稀疏U型模塊(thinned U-shape module,TUM)生成的兩個(gè)最大的有效特征層進(jìn)行融合,該方法充分利用了圖像特征,增強(qiáng)了圖像特征的魯棒性,從而提高了檢測(cè)的精度。
在規(guī)?;卣骶酆夏K(scale-wise feature aggregation module,SFAM)中采用改進(jìn)的壓縮激勵(lì)網(wǎng)絡(luò)(squeeze-and-excitation network,SENet)[12],即空間和通道上的壓縮激勵(lì)網(wǎng)絡(luò)(spatial and channel squeeze-andexcitation network,scSENet)[13],該方法可以給特征金字塔在通道和空間上分配權(quán)重,使有效的特征得到充分利用,抑制無(wú)用特征。
采用遷移學(xué)習(xí)來(lái)微調(diào)網(wǎng)絡(luò),用早停法(early stopping)[14]防止過(guò)擬合,用焦點(diǎn)損失函數(shù)(Focal loss)[15]計(jì)算分類損失,解決了正負(fù)樣本不平衡問(wèn)題,在多層特征金字塔網(wǎng)絡(luò)(multi-level feature pyramid network,MLFPN)中采用Mish[16]激活函數(shù)。
本文采用改進(jìn)的M2det用于內(nèi)窺鏡息肉檢測(cè),首先進(jìn)行內(nèi)窺鏡圖像預(yù)處理,采用letterbox_image方法將尺寸不一的內(nèi)窺鏡圖像變換到320×320,該方法不會(huì)產(chǎn)生圖像信息丟失、圖像形變,通過(guò)縮放、翻轉(zhuǎn)、扭曲進(jìn)行數(shù)據(jù)增強(qiáng),M2det利用主干網(wǎng)絡(luò)(backbone network)和多層特征金字塔網(wǎng)絡(luò)(MLFPN)從輸入的圖像提取特征,根據(jù)學(xué)習(xí)到的特征生成邊界框和類別分?jǐn)?shù)。在MLFPN中,首先通過(guò)FFMv1模塊將主干網(wǎng)絡(luò)中的三個(gè)不同層次的特征進(jìn)行融合,得到基礎(chǔ)特征,其次將TUM模塊生成的兩個(gè)最大的有效特征層通過(guò)FFMv3模塊進(jìn)行特征融合,F(xiàn)FMv3融合的結(jié)果和基礎(chǔ)特征通過(guò)FFMv2模塊進(jìn)行融合,得到多層次多尺度特征,最后通過(guò)SFAM模塊將特征聚合成多層次的特征金字塔。在實(shí)驗(yàn)中,使用了8個(gè)TUM模塊,采用VGG[17]作為主干網(wǎng)絡(luò),在MLFPN中引入了Mish激活函數(shù),改進(jìn)的M2det網(wǎng)絡(luò)模型如圖1所示。
圖1 改進(jìn)的M2det網(wǎng)絡(luò)模型Fig.1 Improved M2det network model
M2det是由特征融合模塊(FFMs)、稀疏U型模塊(TUMs)、規(guī)劃特征聚合模塊(SFAM)三部分組成。如圖2(a)所示M2det在小型息肉以及復(fù)雜環(huán)境下具有漏檢和誤檢,導(dǎo)致真陽(yáng)性和檢測(cè)精度降低,因此針對(duì)這個(gè)問(wèn)題提出了改進(jìn)的M2det方法,在主干網(wǎng)絡(luò)中加入淺層特征Conv_3,特征融合模塊中加入FFMv3模塊,使特征得到了充分利用,在規(guī)?;卣骶酆夏K中加入scSENet注意力機(jī)制,使有用特征得到充分利用,抑制無(wú)用特征,在損失函數(shù)中加入Focal loss,解決了正負(fù)樣本不平衡問(wèn)題,如圖2(b)所示,在復(fù)雜的環(huán)境下成功地識(shí)別出了小型息肉,基于M2det改進(jìn)的細(xì)節(jié)具體如下。
圖2 比對(duì)結(jié)果Fig.2 Comparison result
FFMs由FFMv1、FFMv2、FFMv3三部分組成,目的是進(jìn)行特征融合。在FFMv1模塊中,本文新增了淺層特征并且通過(guò)FFMv1模塊將淺層特征、中層特征和深層特征進(jìn)行融合,融合之前采用卷積來(lái)壓縮通道數(shù)量,上采樣操作增大特征尺寸,使其達(dá)到融合的標(biāo)準(zhǔn),最后得到基礎(chǔ)特征,該基礎(chǔ)特征包含了三種不同深度的特征。FFMv2原理類似于FFMv1,差別是融合的特征不同,先通過(guò)1×1的卷積操作來(lái)壓縮基礎(chǔ)特征的通道,之后通過(guò)FFMv2模塊將基礎(chǔ)特征與FFMv3模塊生成的特征進(jìn)行融合,并將結(jié)果用作下一個(gè)TUM模塊的輸入,該操作可以充分地利用前面的有效特征和基礎(chǔ)特征,本文新增FFMv3模塊將TUM模塊生成的最大的有效特征進(jìn)行融合,在融合前,先將較小的有效特征進(jìn)行上采樣,使其達(dá)到同樣尺寸,融合之后進(jìn)行1×1的卷積操作,壓縮通道大小為128,該操作可以充分地利用TUM模塊生成的有效特征層。FFMv1、FFMv2和FFMv3模塊的操作細(xì)節(jié)分別如圖3(a)、(b)、(c)所示,其中藍(lán)色模塊的四個(gè)參數(shù)分別為輸入通道、卷積核尺寸、步長(zhǎng)大小、輸出通道。
圖3 特征融合模塊Fig.3 FFMs model
TUM模塊采用了稀疏的U型結(jié)構(gòu),TUM模塊分為編碼操作和解碼操作,編碼由步長(zhǎng)為2的一系列3×3卷積組成,在解碼操作中將上采樣的結(jié)果和在解碼操作中同等尺寸的特征進(jìn)行融合,此外,通過(guò)1×1的卷積層,增強(qiáng)學(xué)習(xí)能力,壓縮通道數(shù),每一個(gè)TUM模塊都能輸出多尺度特征,8個(gè)TUM模塊就可以輸出8個(gè)不同深度的多尺度特征,其中第一個(gè)TUM模塊的輸入只有基礎(chǔ)特征,剩下的TUM模塊的輸入通過(guò)FFMv2和FFMv3來(lái)實(shí)現(xiàn),多層次多尺度特征輸出的計(jì)算公式如下:
其中,Xbase為基礎(chǔ)特征,為第l個(gè)TUM模塊輸出的最大尺度的特征,和分別為第l-1個(gè)TUM模塊輸出的次大尺度和最大尺度的特征,L為TUM最大數(shù),Tl為第l個(gè)TUM模塊的操作,F(xiàn)為FFMv2操作,Y為FFMv3操作,具體操作細(xì)節(jié)如圖4所示。
圖4 稀疏U型模塊Fig.4 TUM model
SFAM模塊的目的是將TUMs生成的多層次多尺度特征聚合成多層次特征金字塔,如圖5所示。首先SFAM模塊將尺寸相同的有效特征層進(jìn)行聚合,聚合后的特征金字塔可以表示為X=[X1,X2,…,Xi],其中Xi=為第i個(gè)尺度的特征,l為層數(shù),Concat為聚合操作,RWi×Hi為空間大小,因此每一個(gè)特征金字塔都包含不同深度的特征。然后對(duì)特征金字塔通過(guò)注意力機(jī)制(SENet)進(jìn)行通道上的權(quán)值分配,首先對(duì)各個(gè)通道上的注意力機(jī)制進(jìn)行調(diào)整,判斷每一個(gè)通道數(shù)應(yīng)該有的權(quán)重,在squeeze步用全局平均池化來(lái)生成通道統(tǒng)計(jì)信息z∈RC,為了更好地獲得通道依賴,通過(guò)兩個(gè)1×1的全連接層學(xué)習(xí)注意力機(jī)制,得到通道上的權(quán)重分配Sc:
圖5 規(guī)?;卣骶酆夏KFig.5 SFAM model
其中,δ為ReLU激活函數(shù),σ為sigmoid激活函數(shù),W1、W2為通道上的權(quán)重,Sc為通道上的權(quán)重分配。通過(guò)對(duì)輸入的Xi使用激活Sc重新加權(quán)得到通道上的注意力機(jī)制Yc:
其中,Xi為輸入,Sc為通道上的權(quán)重分配,Yc為通道上的注意力機(jī)制,F(xiàn)c為通道上的操作。
本文新增了特征金字塔在空間上的權(quán)值分配,首先對(duì)各個(gè)空間上的注意力機(jī)制進(jìn)行調(diào)整,判斷每一個(gè)空間應(yīng)該有的權(quán)重,統(tǒng)計(jì)空間信息z∈RS,然后進(jìn)行1×1×1的卷積操作,得到空間上的權(quán)重分配Ss:
其中,σ為sigmoid激活函數(shù),W3為空間上的權(quán)重,Ss為空間上的權(quán)重分配。通過(guò)對(duì)輸入的Xi使用激活Ss重新加權(quán)得到空間上的注意力機(jī)制Ys:
其中,Xi為輸入,Ss為空間上的權(quán)重分配,F(xiàn)s為空間上的操作,Ys為空間上的注意力機(jī)制。
最后,將特征金字塔在通道上的注意力機(jī)制Yc和空間上的注意力機(jī)制Ys進(jìn)行張量上的相加,得到最終的注意力機(jī)制Ysc:
One stage目標(biāo)檢測(cè)方法存在正負(fù)樣本不平衡問(wèn)題,本文新增Focal loss解決以上問(wèn)題,在訓(xùn)練時(shí)采用Focal loss計(jì)算分類損失,降低分類損失,F(xiàn)ocal loss計(jì)算如下:
其中,y′是預(yù)測(cè)輸出,y是真實(shí)樣本的標(biāo)簽,α是正負(fù)樣本權(quán)重,γ是易分類樣本和難分類樣本權(quán)重。
采用Smooth L1[10]計(jì)算回歸損失,當(dāng)預(yù)測(cè)框與真實(shí)樣本標(biāo)簽差值過(guò)大時(shí),梯度值不至于過(guò)大,當(dāng)預(yù)測(cè)框與真實(shí)樣本標(biāo)簽差值很小時(shí),梯度足夠小,訓(xùn)練時(shí)可以收斂得更快,loss對(duì)離群點(diǎn)、異常值不敏感,可控制梯度的量級(jí)使訓(xùn)練時(shí)不容易跑飛,計(jì)算公式如下:
其中,x是預(yù)測(cè)框與真實(shí)樣本標(biāo)簽的差值。最終本文采用的損失函數(shù)是Focal loss與Smooth L1的結(jié)合體:
本文采用的數(shù)據(jù)集是CVC-Clinic(CVC15)[18],由西班牙巴塞羅那醫(yī)院從29個(gè)內(nèi)窺鏡視頻中挑選出來(lái)612個(gè)384×288的靜止幀,標(biāo)簽是由西班牙巴塞羅那計(jì)算機(jī)視覺(jué)中心(CVC)標(biāo)記,該數(shù)據(jù)集用于內(nèi)窺鏡視頻息肉檢測(cè)的MICCAI2015和SBI2015子挑戰(zhàn)。
在訓(xùn)練數(shù)據(jù)集不足以表征所有樣本特征的情況下,會(huì)導(dǎo)致網(wǎng)絡(luò)過(guò)擬合,因此本文采用遷移學(xué)習(xí)的方法來(lái)訓(xùn)練網(wǎng)絡(luò),首先用VOC數(shù)據(jù)集訓(xùn)練M2det模型,得到相應(yīng)的權(quán)重,然后用CVC15數(shù)據(jù)集來(lái)微調(diào)參數(shù)即可。采用早停法(early stopping)來(lái)避免繼續(xù)訓(xùn)練導(dǎo)致的過(guò)擬合,將原始的訓(xùn)練數(shù)據(jù)集劃分為訓(xùn)練集和驗(yàn)證集,比例為9∶1,每次迭代都計(jì)算驗(yàn)證損失,當(dāng)驗(yàn)證損失值達(dá)到局部最優(yōu)時(shí),繼續(xù)迭代6次,如果模型不再收斂就停止訓(xùn)練。模型參數(shù)采用Adam[19]進(jìn)行優(yōu)化,batch size設(shè)置為2,學(xué)習(xí)率初始化為1×E-4,當(dāng)2次迭代優(yōu)化指標(biāo)不下降時(shí),使學(xué)習(xí)率衰減5×E-5,循環(huán)迭代步數(shù)設(shè)置為50,當(dāng)?shù)綌?shù)達(dá)到30時(shí),重新設(shè)置學(xué)習(xí)率為1×E-5,采用python的keras框架在DGX-Station上訓(xùn)練。
通過(guò)SFAM模塊得到6個(gè)特征金字塔,每一個(gè)特征金字塔包含不同深度的特征,即獲得了6個(gè)有效的特征,對(duì)每個(gè)有效特征層都進(jìn)行priors×4的卷積和priors×classes的卷積,其中priors、classes分別為先驗(yàn)框個(gè)數(shù)和息肉類別加背景數(shù)量,實(shí)驗(yàn)中設(shè)置priors、classes分別為6和2,priors×4卷積用來(lái)預(yù)測(cè)每個(gè)網(wǎng)格上每一個(gè)先驗(yàn)框的變化情況,priors×classes卷積用來(lái)預(yù)測(cè)每個(gè)網(wǎng)格上每一個(gè)預(yù)測(cè)框中目標(biāo)對(duì)應(yīng)的類別。
通過(guò)先驗(yàn)框與prioris×4的卷積操作得到了預(yù)測(cè)結(jié)果,然后將預(yù)測(cè)結(jié)果對(duì)應(yīng)真實(shí)框進(jìn)行調(diào)整,其中4個(gè)參數(shù)分別為先驗(yàn)框中心相對(duì)于真實(shí)框中心的偏移值x、y,先驗(yàn)框?qū)捀呦鄬?duì)于真實(shí)框的偏移值w、h。在特征圖上進(jìn)行等同大小的網(wǎng)格劃分,用網(wǎng)格中心坐標(biāo)加上x(chóng)、y偏移量得到候選預(yù)測(cè)框中心,再將先驗(yàn)框的寬高進(jìn)行w、h尺度偏移,就可以得到候選預(yù)測(cè)框。由于候選預(yù)測(cè)框數(shù)量比較大,因此要將候選預(yù)測(cè)框按照分?jǐn)?shù)進(jìn)行排序并且進(jìn)行非極大值抑制(NMS)[20]操作得到最終的預(yù)測(cè)框。
根據(jù)測(cè)試樣本的輸出類別與真實(shí)標(biāo)簽的類別進(jìn)行對(duì)比,得到四種結(jié)果,真陽(yáng)性(TP)表示正確判斷出息肉,假陽(yáng)性(FP)表示把背景誤判為息肉,真陰性(TN)表示正確判斷出背景區(qū)域,假陰性(FN)表示把息肉誤判為背景。精確率(precision,P)表示為正確檢測(cè)到的息肉(TP)占被檢測(cè)到的息肉(TP+FP)的比例,召回率(recall,R)表示為被正確檢測(cè)到的息肉(TP)占應(yīng)該被檢測(cè)到的息肉(TP+FN)的比例,計(jì)算公式如下所示:
由于精確率和召回率是相互制約的,因此采用Fsorce進(jìn)行調(diào)和,F(xiàn)1-score中P和R的權(quán)重相同,因此精確率和召回率都重要,F(xiàn)2-score更加看重召回率,計(jì)算公式如下:
平均精度均值(mean average precision,mAP)是目標(biāo)檢測(cè)方法最重要的評(píng)估指標(biāo),在不同置信度閾值下獲得精確率和召回率,以P、R為橫縱作標(biāo)軸繪制PR曲線,PR曲線與橫縱作標(biāo)軸圍成的面積就是mAP值,mAP計(jì)算公式如下:
對(duì)數(shù)平均誤檢率(log-average miss rate,Lamr),xn是第n個(gè)圖像的誤檢率,計(jì)算公式如下:
超參數(shù)設(shè)置的好壞對(duì)網(wǎng)絡(luò)至關(guān)重要,本文對(duì)比了在不同置信度(confidence)和批量大?。╞atch size)設(shè)置下對(duì)網(wǎng)絡(luò)性能的影響。置信度和類別分?jǐn)?shù)都介于0到1之間,若預(yù)測(cè)框包含某類別目標(biāo)分?jǐn)?shù)大于置信度,則保留該分?jǐn)?shù),當(dāng)置信度較大時(shí),真陽(yáng)性會(huì)下降,當(dāng)置信度較小時(shí),假陽(yáng)性會(huì)上升,因此選擇一個(gè)合適的置信度至關(guān)重要,設(shè)置置信度分別為0.3、0.4、0.5進(jìn)行實(shí)驗(yàn)性能對(duì)比,綜合各項(xiàng)評(píng)估指標(biāo),置信度取值0.4最為合適,實(shí)驗(yàn)結(jié)果如表1所示。
表1 不同confidence的實(shí)驗(yàn)對(duì)比Table 1 Experimental comparison of different confidence
batch size的取值會(huì)直接影響模型的泛化性能,決定梯度下降的方向,大的batch size更新量不足,泛化能力差,梯度不易修正,小的batch size訓(xùn)練速度慢,網(wǎng)絡(luò)不易收斂,因此選擇一個(gè)合適的batch size至關(guān)重要,由于網(wǎng)絡(luò)對(duì)2的次冪的batch size訓(xùn)練最優(yōu),因此在置信度取值0.4的情況下,batch size分別取值2、4、8,對(duì)比結(jié)果如表2所示,當(dāng)batch size為2時(shí),各項(xiàng)評(píng)估指標(biāo)都達(dá)到了最優(yōu)。
表2 不同batch size的實(shí)驗(yàn)對(duì)比Table 2 Experimental comparison of different batch sizes
改進(jìn)的M2det是由三部分組成的,因此要分別驗(yàn)證每一部分的改進(jìn)對(duì)模型性能的影響:其一,F(xiàn)FMs模塊的目的是實(shí)現(xiàn)特征融合,將淺層、中層、深層特征進(jìn)行融合,達(dá)到了不同特征之間的優(yōu)勢(shì)互補(bǔ)效果,增強(qiáng)了圖像特征的魯棒性,充分利用了圖像的特征信息。其二,在SFAM模塊中通過(guò)scSENet在特征金字塔的通道和空間上增加注意力機(jī)制,使更有效的信息得到較大的權(quán)重,抑制無(wú)用的信息。其三,在訓(xùn)練時(shí)采用Focal loss計(jì)算分類損失,可以有效地解決正負(fù)樣本不平衡問(wèn)題。對(duì)比結(jié)果如表3所示,在M2det基礎(chǔ)上分別單獨(dú)加入FFMs、scSENet、Focal loss各項(xiàng)評(píng)估指標(biāo)均有較大提升,最后將這三個(gè)部分進(jìn)行整合,TP、Recall、Lamr、mAP都達(dá)到了最優(yōu),除了Precision評(píng)估指標(biāo)較低外,其他評(píng)估指標(biāo)均有提升。
表3 改進(jìn)的M2det結(jié)果對(duì)比Table 3 Improved M2det result comparison
一個(gè)TUM模塊生成六個(gè)有效特征層,當(dāng)TUM數(shù)量較小時(shí),生成的有效特征層較少,存在圖像特征利用不足的情況,當(dāng)TUM數(shù)量較大時(shí),參數(shù)計(jì)算量較大,會(huì)對(duì)網(wǎng)絡(luò)運(yùn)行速度產(chǎn)生影響,針對(duì)TUM模塊個(gè)數(shù)對(duì)網(wǎng)絡(luò)性能產(chǎn)生影響問(wèn)題,TUM個(gè)數(shù)分別采用4、8進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果如表4所示,當(dāng)TUM個(gè)數(shù)取8時(shí)各項(xiàng)指標(biāo)達(dá)到了最優(yōu)。
表4 不同TUM個(gè)數(shù)的實(shí)驗(yàn)對(duì)比Table 4 Experimental comparison of different TUM Numbers
通過(guò)前面的實(shí)驗(yàn),本文設(shè)置confidence為0.4,batch size為2,TUM個(gè)數(shù)為8,采用改進(jìn)的M2det進(jìn)行訓(xùn)練,與目前主流的息肉目標(biāo)檢測(cè)算法進(jìn)行比較,其中ASU、CUMED、OUS[21]方法都來(lái)自于內(nèi)窺鏡視頻息肉檢測(cè)的MICCAI子挑戰(zhàn)賽,對(duì)比實(shí)驗(yàn)結(jié)果如表5所示,在Precision、Recall評(píng)估指標(biāo)上分別略低于ASU、CUMED方法,但是本文在F1-score、F2-score、mAP評(píng)估指標(biāo)上都達(dá)到了最優(yōu),表明本文方法可以有效地檢測(cè)出息肉,PR曲線如圖6所示。
圖6 PR曲線Fig.6 PR curve
表5 不同算法的檢測(cè)性能對(duì)比Table 5 Comparison of detection performance of different algorithms %
本文具有代表性的檢測(cè)結(jié)果如圖7所示,其中綠色框是真實(shí)標(biāo)簽,藍(lán)色框是預(yù)測(cè)結(jié)果,紅色框是誤檢結(jié)果。文獻(xiàn)[7]對(duì)于小型結(jié)腸息肉存在漏檢,本文通過(guò)FFMs進(jìn)行特征融合,得到多層次多尺度特征,從而充分地利用了圖像特征,可以有效地檢測(cè)出小型和對(duì)比度低的息肉,如圖7(a)、(b)所示;在特征通道和空間上采用scSENet注意力機(jī)制,將有用的特征保留下來(lái),抑制無(wú)用特征,在形狀不規(guī)則、含有食物殘?jiān)臀敢旱膱?chǎng)景下可以正確地檢測(cè)出息肉,如圖7(c)、(d)、(e)、(f)所示;在不止一個(gè)息肉和息肉被部分遮擋的場(chǎng)景下還可以成功地檢測(cè)出息肉,如圖7(g)、(h)所示,由此可見(jiàn)本文的M2det具有較強(qiáng)的魯棒性??傮w來(lái)看本文在內(nèi)窺鏡息肉檢測(cè)方向取得了一些成果,但是也存在一些不足,對(duì)于對(duì)比度低且形狀不規(guī)則的圖像存在誤檢,如圖7(i)所示;對(duì)于含有高強(qiáng)度反光且形狀類似息肉的圖像存在誤檢,如圖7(j)所示,這些誤檢會(huì)造成假陽(yáng)率增大,進(jìn)而影響檢測(cè)精度。在今后的研究工作中,針對(duì)圖7(j)的場(chǎng)景,打算加入顏色特征,通過(guò)控制閾值的方法濾除掉高強(qiáng)的反光特征,方法可行性有待商榷。
圖7 檢測(cè)結(jié)果Fig.7 Detection results
本文提出一個(gè)有效的內(nèi)窺鏡息肉檢測(cè)方法,通過(guò)FFMs模塊融合不同深度特征,可以增強(qiáng)圖像特征的魯棒性,在SFAM模塊中加入scSENet注意力機(jī)制,給有用的特征分配較大的權(quán)重,抑制無(wú)用特征,在分類損失函數(shù)中采用Focal loss解決了正負(fù)樣本不平衡問(wèn)題,實(shí)驗(yàn)結(jié)果表明,該方法可以有效地識(shí)別和定位出息肉,并取得了較高的精確度,在CVC15數(shù)據(jù)集上mAP、F1-score、F2-score分別達(dá)到了98.25%,97.30%,97.98%,因此在內(nèi)窺鏡檢查時(shí)應(yīng)用該方法可以有效地降低息肉漏檢的風(fēng)險(xiǎn)。