一種融合多尺度技術(shù)和并行網(wǎng)絡(luò)的DR檢測方法

2024-07-02 07:21:40陳宇徐仕豹

哈爾濱理工大學(xué)學(xué)報(bào) 2024年1期

陳宇徐仕豹

摘要：針對(duì)糖尿病視網(wǎng)膜病變（DR）檢測模型在下采樣過程中關(guān)鍵信息丟失和模型魯棒性差的問題，構(gòu)建一個(gè)PM-Net模型（Parallel Multi-scale Network）。在下采樣過程中，利用信息增強(qiáng)的方式設(shè)計(jì)了多尺度最大池化和多尺度卷積模塊并對(duì)ResNet-50改進(jìn)。進(jìn)一步，為了提高模型的魯棒性，使用雙分支的架構(gòu)對(duì)模型進(jìn)行擴(kuò)展。提出的多尺度模塊使得模型在下采樣的過程中獲得了更加豐富的視網(wǎng)膜眼底圖像特征，從而提高了DR檢測的性能，同時(shí)提出的雙分支模型在DR檢測過程中用局部信息輔助全局信息保證了模型的魯棒性。模型在EyePACS、DDR和私有數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果表明：與主流的模型相比，本模型在EyePACS數(shù)據(jù)集上的準(zhǔn)確率和二次加權(quán)Kappa分?jǐn)?shù)分別提高了258%和131%。

關(guān)鍵詞：糖尿病視網(wǎng)膜病變；多尺度；并行網(wǎng)絡(luò)；最大池化；ResNet-50

DOI：10.15938/j.jhust.2024.01.010

中圖分類號(hào)： TP3914? 文獻(xiàn)標(biāo)志碼： A

文章編號(hào)： 1007-2683（2024）01-0087-09

A DR Detection Method Incorporating Multi-scale Techniques and Parallel Networks

CHEN Yu， XU Shibao

（College of Information and Computer Engineering， Northeast Forestry University， Harbin 150040， China）

Abstract：A PM-Net model （Parallel Multi-scale Network） has been constructed to solve the problems of loss of key information and poor model robustness in the downsampling process of diabetic retinopathy （DR） detection models Multi-scale maximum pooling and multi-scale convolution modules have been designed and improved on ResNet-50 using information augmentation in the downsampling process In addition， to improve the robustness of the model， the model was extended using a two-branch architecture The proposed multi-scale module allows the model to obtain richer retinal fundus image features during downsampling， thus improving DR detection performance， while the proposed two-branch model ensures the robustness of the model with local information supplementing global information during DR detection The model was experimentally validated on EyePACS， DDR， and private datasets Experimental results show that the model's accuracy and quadratic weighted kappa score on the EyePACS dataset are improved by 258% and 131% respectively compared to mainstream models

Keywords：diabetic retinopathy; multi-scale; parallel network; maximum pooling; ResNet-50

0 引言

糖尿病視網(wǎng)膜病變（簡稱DR）是由糖尿病引起的并發(fā)癥，它是一個(gè)嚴(yán)重的公共衛(wèi)生問題，影響著全球463億人，預(yù)計(jì)到2045年將增至7億［1］。根據(jù)國際臨床糖尿病視網(wǎng)膜病變量表（ICDRS），糖尿病視網(wǎng)膜病變分為5個(gè)階段，無癥，輕癥、中癥、重癥和增值性病變。卷積神經(jīng)網(wǎng)絡(luò)（CNN）通過在下采樣過程中提取關(guān)鍵特征并實(shí)現(xiàn)分類，但下采樣過程中面臨的問題是丟失了一些特征信息，在DR領(lǐng)域中任何特征信息的丟失都有可能導(dǎo)致對(duì)患者的誤診。因此，盡可能減少下采樣過程中特征信息的丟失從而提升模型的性能依舊是一項(xiàng)挑戰(zhàn)。同時(shí)，不同數(shù)據(jù)集之間存在著較大的域差異，模型魯棒性差的問題也是一項(xiàng)嚴(yán)峻的挑戰(zhàn)。

在過去的幾年，已經(jīng)有很多人開始使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)對(duì)糖尿病視網(wǎng)膜病變的檢測進(jìn)行了研究。Lin等［2］引入了一個(gè)名為MCG-Net的模塊，該模塊基于圖卷積網(wǎng)絡(luò)（GCN），可以更加有效地提取眼底圖像的病灶特征。為了提高泛化能力，該作者基于自監(jiān)督學(xué)習(xí)（SSL）構(gòu)建了名為MCGS的網(wǎng)絡(luò)增強(qiáng)模塊，其中使用GCN代替全連接層以更好地捕獲眼底圖像的相關(guān)性，但該作者最終取得的實(shí)驗(yàn)結(jié)果并不理想，其中主要的原因則是因?yàn)橄虏蓸舆^程中丟失了部分關(guān)鍵信息，導(dǎo)致模型最終的分類性能欠佳。Narayanan等［3］將SVM模型應(yīng)用于DR分類，并從主成分分析優(yōu)化的全連接神經(jīng)網(wǎng)絡(luò)（DNN）中提取特征。與AlexNet、VGG、ResNet和Inception-v3等方法相比，作者得到了一個(gè)更高的準(zhǔn)確率為995%，但該作者使用的數(shù)據(jù)集卻不夠具有代表性，通過實(shí)驗(yàn)對(duì)比的數(shù)據(jù)可以發(fā)現(xiàn)，該模型的魯棒性并不理想。Hua等［4］在ResNet-50的基礎(chǔ)上設(shè)計(jì)了一個(gè)名為Trilogy of Skip-connection Deep Networks（Tri-SDN）的DR檢測模型，該模型應(yīng)用Skip-connection block使訓(xùn)練速度更快，最終準(zhǔn)確率和SP的準(zhǔn)確率達(dá)到906%和821%，與不使用Skip-connection block的情況相比，該方法的性能得到了顯著的提升?？梢园l(fā)現(xiàn)該作者的目的是為了提高網(wǎng)絡(luò)的訓(xùn)練速度，但最終獲得的準(zhǔn)確率并不理想，通過模型可以看出，簡單的3×3和1×1卷積堆疊并不能很好的提取完整視網(wǎng)膜眼底圖像的病灶特征信息。為了減少可訓(xùn)練參數(shù)的數(shù)量，Zago等［5］提出了一種VGG16網(wǎng)絡(luò)，在Messidor數(shù)據(jù)集上的靈敏度為094，AUC為0912。該作者使用的數(shù)據(jù)集評(píng)價(jià)標(biāo)準(zhǔn)與國際標(biāo)準(zhǔn)不一致，模型只能檢測是否為DR而沒有任何嚴(yán)重性指示，同時(shí)未報(bào)告準(zhǔn)確率和F1分?jǐn)?shù)，使得模型的擴(kuò)展性表現(xiàn)能力差。

陳宇等［6］設(shè)計(jì)了一個(gè)Xnet-CNN結(jié)構(gòu)以實(shí)現(xiàn)糖尿病視網(wǎng)膜病變的分類算法，該作者對(duì)圖像用邊框裁剪、樣本歸一化和數(shù)據(jù)擴(kuò)增等方式對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理工作，最終取得了91%的準(zhǔn)確率。但是該作者使用了一個(gè)私有數(shù)據(jù)集，且數(shù)據(jù)集的病變等級(jí)評(píng)價(jià)標(biāo)準(zhǔn)于國際標(biāo)準(zhǔn)不一樣，因此該方法的魯棒性不好。周炎龍等［7］在代價(jià)敏感損失函數(shù)的基礎(chǔ)上設(shè)計(jì)了一個(gè)雙重代價(jià)敏感損失函數(shù)的隨機(jī)森林算法來解決類不平衡的問題，他為數(shù)據(jù)不平衡的問題提供了一個(gè)新的研究思路，而DR圖像也存在著嚴(yán)重的類不平衡問題，這對(duì)本文的研究具有非常高的參考價(jià)值。張培培等［8］在目標(biāo)檢測過程中為了緩解目標(biāo)重合、遮擋等問題，將全局信息與局部信息結(jié)合并對(duì)目標(biāo)進(jìn)行檢測。相同的是，在DR圖像中病灶信息遍布于視網(wǎng)膜的各個(gè)角落且分布較均勻，本文也使用全局信息與局部信息相結(jié)合的思路，利用多尺度的方法對(duì)模型進(jìn)行改進(jìn)，從而提升模型的檢測性能。王衛(wèi)兵等［9］為了實(shí)現(xiàn)網(wǎng)絡(luò)的魯棒性，設(shè)計(jì)了一個(gè)多分支網(wǎng)絡(luò)對(duì)目標(biāo)進(jìn)行檢測，通過實(shí)驗(yàn)對(duì)比發(fā)現(xiàn)，在物體邊緣檢測方面該作者所設(shè)計(jì)的模型比采用單分支網(wǎng)絡(luò)的檢測模型具有更好的性能。

針對(duì)下采樣過程中關(guān)鍵信息丟失和模型魯棒性差的問題，本文設(shè)計(jì)了PM-Net模型。主要貢獻(xiàn)可以總結(jié)如下兩點(diǎn)：

1）提出了多尺度最大池化和多尺度卷積模塊并對(duì)基礎(chǔ)模型進(jìn)行改進(jìn)，極大地豐富了下采樣過程中病灶信息的特征，使得模型的性能得到了顯著提升。

2）提出的雙分支架構(gòu)將視網(wǎng)膜眼底圖像的全局信息與局部信息進(jìn)行了結(jié)合，使用局部信息為全部做輔助有效地保證了模型的魯棒性。

1 具體實(shí)現(xiàn)

本文以ResNet-50為基礎(chǔ)模塊，所設(shè)計(jì)的模型整體結(jié)構(gòu)如圖1所示。圖的中間部分是本文所提出的多尺度最大池化和多尺度卷積模塊。圖的上方是本模型的主干網(wǎng)絡(luò)，通過隨機(jī)裁剪得到的是本模型的第2個(gè)分支網(wǎng)絡(luò)，并對(duì)模型中的最大池化模塊和3×3卷積塊進(jìn)行了替換。本節(jié)將會(huì)對(duì)多尺度最大池化、多尺度卷積、并行網(wǎng)絡(luò)和引入的代價(jià)敏感損失函數(shù)4個(gè)模塊進(jìn)行詳細(xì)的介紹。

1.1 多尺度最大池化

圖2是多種池化操作在視網(wǎng)膜眼底圖像上提取信息的模擬圖。如圖所示，視網(wǎng)膜上有兩個(gè)軟性滲出物。

在圖2中的視網(wǎng)膜上有兩個(gè)軟性滲出物。全局平均池化下，并未把軟性滲出物單獨(dú)識(shí)別成功，因此使用平均池化提取特征從而降低網(wǎng)絡(luò)的復(fù)雜性是不理想的。全局最大池化下，將最完整的一部分軟性滲出物識(shí)別成功，而跨像素的病變并未關(guān)注到，這是由于最大池化在一個(gè)分布較均勻的特征里面往往只能關(guān)注到一個(gè)最重要的特征。而視網(wǎng)膜眼底圖像中的病變分布較均勻，任何病變的丟失都會(huì)導(dǎo)致對(duì)病人的誤診，這往往會(huì)帶來不可逆的影響。本文的最終目的是實(shí)現(xiàn)最右側(cè)所展示的結(jié)果。

本文將全局信息與局部信息進(jìn)行結(jié)合，提出了一種新的多尺度最大池化策略。多尺度最大池化模塊從不同的角度共同提取同一張圖像的特征信息，全局信息所輸入圖像的形狀為R448×448×3，局部信息通過裁剪原始圖像來實(shí)現(xiàn)，每個(gè)裁剪的區(qū)域均為原始圖像的14，既左上、右上、左下和右下（表示為LU、RU、LD和RD），再將其擴(kuò)大到R448×448×3。多尺度最大池化共有5個(gè)分支，第1個(gè)分支以視網(wǎng)膜圖像的全局信息作為輸入，在其基礎(chǔ)上進(jìn)行兩次Stride為2的3×3最大池化。為了獲得更加豐富的圖像特征，使用4個(gè)共享權(quán)重參數(shù)的分支作為輔助，對(duì)同一張圖像實(shí)現(xiàn)多角度的特征信息提取。與第1個(gè)分支不同的是，4個(gè)分支的第1個(gè)池化采用Stride為2的3×3平均池化?？梢岳斫鉃樵诓眉?/4后，圖像中的病變信息開始減少，而信息越少就顯得越重要，則認(rèn)為所有的病變信息包括背景均有同樣的重要性。隨后均采用Stride為2的3×3最大池化對(duì)4個(gè)分支進(jìn)行特征提取，并將所有分支得到的特征進(jìn)行拼接，多尺度最大池化的計(jì)算過程如式（1）所示。將原始的最大池化擴(kuò)展到本文的多尺度最大池化，通過多角度的方法對(duì)圖像中的特征信息進(jìn)行提取。這種方式既可以關(guān)注全局信息又能關(guān)注局部細(xì)節(jié)信息，它更加適合本文數(shù)據(jù)集中病變信息的特點(diǎn)。因此本模型采用一種多尺度的方法對(duì)池化層進(jìn)行改進(jìn)。

ConFea=MO+MMOALU+MALUARU+MARUALD+MALDARD+MARD（1）

其中：ConFea為多個(gè)尺度池化后拼接得到的特征；M為最大池化；A為平均池化；O為原始圖，LU、RU、LD、RD分別代表裁剪的區(qū)域；為特征的拼接。

1.2 多尺度卷積

視網(wǎng)膜眼底圖像中的病變信息檢測是一件非常具有挑戰(zhàn)性的任務(wù)。往往是通過增加卷積神經(jīng)網(wǎng)絡(luò)的深度來提高分類性能，而過深的網(wǎng)絡(luò)會(huì)導(dǎo)致一些關(guān)鍵病變信息的丟失。為此，本文在保證與ResNet-50網(wǎng)絡(luò)相同深度的前提下設(shè)計(jì)了1個(gè)多尺度卷積模塊，該模塊采用不同的卷積核提取同一張圖像中的病變信息，這可以極大地豐富圖像的特征。多尺度卷積模塊的詳細(xì)設(shè)置以及拼接后的卷積核數(shù)量如表1所示，將其與圖1中4個(gè)Block的3×3卷積分別進(jìn)行替換。

本文的多尺度卷積模塊設(shè)置了4個(gè)不同的卷積核，多尺度卷積均由3×3卷積、5×5卷積、7×7卷積和9×9卷積共同組成。每個(gè)卷積核各自提取特征，最終將得到的特征進(jìn)行拼接。首先采用1個(gè)3×3卷積核對(duì)視網(wǎng)膜眼底圖像進(jìn)行特征提取，然后再采用1個(gè)5×5卷積核，它可以在3×3的基礎(chǔ)上提取更多的局部信息。隨后分別采用7×7和9×9卷積核，以更大的感受野來獲取更多的局部信息。四個(gè)卷積核的參數(shù)與ResNet-50中的3×3卷積保持一致。為了降低梯度消失和梯度爆炸的影響，本文也保留了ResNet-50的殘差連接。最終將本文提出的多尺度卷積替換掉ResNet-50中的3×3卷積核，可以用式（2）表示卷積替換的過程。

R3*3=3*35*57*79*9（2）

其中：R3*3為 3×3卷積替換之后的多尺度卷積；*為卷積操作；為特征的拼接。

1.3 并行網(wǎng)絡(luò)

在以往的單分支中，若更換數(shù)據(jù)集則DR檢測性能會(huì)明顯的下降，這是由于網(wǎng)絡(luò)不具備足夠的魯棒性。因此本模型提供了一種雙分支檢測模型，在主干路徑外同時(shí)采用4個(gè)分支路徑進(jìn)行特征提取，用局部信息為全局信息做輔助。其主干輸入視網(wǎng)膜圖像的完整區(qū)域，分支則關(guān)注的是局部信息，局部圖像信息通過對(duì)原始圖像隨機(jī)裁剪實(shí)現(xiàn)，裁剪的大小為原始圖像的14，之后也將其尺寸再擴(kuò)大到原始的R224×224×3。兩條路徑并行處理各自的圖像，隨后將得到的特征進(jìn)行拼接，每個(gè)路徑整體的計(jì)算過程均如式（3）所示。其中2個(gè)路徑都對(duì)ResNet-50的最大池化層和3×3卷積依次進(jìn)行上述的替換，兩條路徑并共享權(quán)重參數(shù)。

Con=GAP{Res（MP+MC）}∑4i=1GAP{Resi（MP+MC）}（3）

其中：Res（MP+MC）為主干路徑對(duì)ResNet-50進(jìn)行最大池化和3×3卷積的多尺度替換；Resi（MP+MC）代表4個(gè)分支網(wǎng)絡(luò)同樣的替換過程；GAP為全局平均池化；Con指的是2個(gè)路徑得到的特征信息拼接后的結(jié)果。

1.4 引入損失函數(shù)

在DR分類的數(shù)據(jù)集中，存在著嚴(yán)重的不平衡問題，僅僅通過重采樣的方式進(jìn)行數(shù)據(jù)增強(qiáng)，依舊不能保證最終分類的性能，這是由于增強(qiáng)后的圖像在樣式和特征上面與原始圖依舊存在著極大的相似性和重復(fù)性，增強(qiáng)后的圖像無法擁有多樣性的數(shù)據(jù)，這使得模型在訓(xùn)練階段無法表現(xiàn)出更好的性能。因此將損失函數(shù)一并進(jìn)行改進(jìn)，使其與數(shù)據(jù)增強(qiáng)想結(jié)合共同解決數(shù)據(jù)不平衡的問題。本文在損失函數(shù)部分引用了王明智等［10］所提出的一種改進(jìn)代價(jià)敏感正則化損失函數(shù)。該方法主要是根據(jù)預(yù)測等級(jí)和真實(shí)等級(jí)相差程度的不同，對(duì)其施加不同的懲罰，其中矩陣中的數(shù)值越高懲罰越低，數(shù)值越低懲罰越高。最終設(shè)計(jì)了具體的代價(jià)敏感正則化矩陣Md，如式（4）所示。如果只使用代價(jià)敏感正則化的損失會(huì)導(dǎo)致復(fù)雜的卷積神經(jīng)網(wǎng)絡(luò)陷入局部最小值，因此，把代價(jià)敏感正則化作為焦點(diǎn)損失函數(shù)的正則化，得到式（5）。

Md=0994000300030004640496004000015300210819000700002600720002000000620938（4）

L（，y）=-∑4i=0yiα（1-i）γ·log（i）+θ（5）

其中：y為真實(shí)標(biāo)簽；為預(yù)測標(biāo)簽；α為加權(quán)因子；γ為聚焦參數(shù)［11］；可以理解為與懲罰矩陣M中對(duì)應(yīng)行的標(biāo)量積；M（2）為基于L2正則化的代價(jià)矩陣，通過懲罰所有參數(shù)的平方項(xiàng)來實(shí)現(xiàn)，表示為M（2）ij=‖i-j‖2，它能最大化二次加權(quán)Kappa；θ為正則化參數(shù)，設(shè)置為10，i∈{0，1，2，3，4}，分別代表不同的DR等級(jí)視網(wǎng)膜圖像。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 數(shù)據(jù)集和指標(biāo)介紹

本研究主要使用了三個(gè)數(shù)據(jù)集，EyePACS、DDR和海南眼科醫(yī)院提供的私有DR分類數(shù)據(jù)集（以下稱為Private dataset）。使用EyePACS來訓(xùn)練和測試本文的模型，使用DDR和Private dateset兩個(gè)數(shù)據(jù)集驗(yàn)證模型的泛化性能，以下是上述數(shù)據(jù)集和實(shí)驗(yàn)指標(biāo)的詳細(xì)介紹：

EyePACS：該數(shù)據(jù)集［12］由EyePACS提供，包含35126張訓(xùn)練圖像和53576張測試圖像，所有圖像都有DR分級(jí)標(biāo)簽，該數(shù)據(jù)集是最大的公開數(shù)據(jù)集，它同時(shí)遵守國際評(píng)價(jià)標(biāo)準(zhǔn)（ICDRS）。

DDR：該數(shù)據(jù)集［13］是第二大公開數(shù)據(jù)集，包括六個(gè)DR等級(jí)圖像：正常、輕度、中度、重度、PDR和無法識(shí)別的類。在該實(shí)驗(yàn)中使用前五個(gè)等級(jí)，同時(shí)該數(shù)據(jù)集提供了微動(dòng)脈瘤（MAs）、出血（HAE）、硬滲出物（H-Exs）、軟滲出物（S-Exs）的分割圖像，共計(jì)757張分割標(biāo)注圖像。

Private dataset：數(shù)據(jù)集從海南眼科醫(yī)院所收集，并由兩名眼科醫(yī)生進(jìn)行了分類標(biāo)注，數(shù)據(jù)集共有2758張視網(wǎng)膜眼底圖像，圖像均有DR病變的分級(jí)標(biāo)簽。

實(shí)驗(yàn)指標(biāo)：本研究用TP、FP、FN、TN分別表示真陽性、假陽性、假陰性、真陰性，采用準(zhǔn)確率和二次加權(quán)Kappa來實(shí)現(xiàn)對(duì)分類網(wǎng)絡(luò)的評(píng)價(jià)，Accuracy的計(jì)算方法如式（6），二次加權(quán)Kappa的計(jì)算如式（7）。

Accuracy=TP+TNTP+FP+TN+FN（6）

Kappa=1-∑ijωijOij∑ijωijEij（7）

其中：Oij表示將第i類誤判為第j類的個(gè)數(shù)；ωij為加權(quán)系數(shù)，ωij和Eij的計(jì)算公式分別如式（8）和（9）所示：

ωij=（i-j）2（N-1）2（8）

Eij=∑iOij∑jOijn（9）

其中：N為類別數(shù)；n為樣本的總數(shù)量。

2.2 預(yù)處理和實(shí)驗(yàn)參數(shù)設(shè)置

數(shù)據(jù)預(yù)處理：首先將原始圖片裁剪，從中心處將圖像分辨率裁剪為224×224×3的形狀。去掉絕大部分的黑色背景，因?yàn)楹谏尘皩?duì)病變分割以及分類是沒有意義。并采用直方圖均衡化［14］以及非局部均濾波值去噪［15］等方式對(duì)視網(wǎng)膜圖像進(jìn)行處理。當(dāng)圖像色調(diào)和亮度調(diào)整到一定范圍后再對(duì)其歸一化［16］提高本文所設(shè)計(jì)模型的性能。

數(shù)據(jù)增強(qiáng)：每個(gè)數(shù)據(jù)集在分類問題上都存在著類之間不平衡的問題。為了緩解這個(gè)問題，本文采用重采樣的方法，對(duì)數(shù)據(jù)量大的進(jìn)行下采樣，對(duì)數(shù)據(jù)少的進(jìn)行翻轉(zhuǎn)、旋轉(zhuǎn)等操作。具體的數(shù)量根據(jù)每個(gè)數(shù)據(jù)集的數(shù)量不同所設(shè)置，最終要實(shí)現(xiàn)類之間的平衡。

數(shù)據(jù)清洗：在EyePACS數(shù)據(jù)集中存在著一些完全沒有意義的圖像，如圖3所示。這些圖像對(duì)分類網(wǎng)絡(luò)起著明顯的副作用，因此本文對(duì)數(shù)據(jù)集進(jìn)行篩選并刪除掉。

實(shí)驗(yàn)參數(shù)設(shè)置：初始Learning-rate設(shè)置為00001，Batchsize設(shè)置為32，Epoch設(shè)置為100，并使用隨機(jī)梯度下降優(yōu)化算法。在EyePACS數(shù)據(jù)集上訓(xùn)練分類網(wǎng)絡(luò)，數(shù)據(jù)集的80%作為訓(xùn)練集，10%作為驗(yàn)證集，剩下的10%作為測試集。

2.3 實(shí)驗(yàn)結(jié)果

表2中展示了分類網(wǎng)絡(luò)在3個(gè)數(shù)據(jù)集上所取得的結(jié)果，使用準(zhǔn)確率和二次加權(quán)Kappa作為評(píng)價(jià)的指標(biāo)。并展示了在EyePACS數(shù)據(jù)集上準(zhǔn)確率和損失函數(shù)的變化過程，如圖4所示。本文計(jì)算了TP、FP、FN和TN即真陽性、假陽性、假陰性和真陰性的值，并繪制了圖5的混淆矩陣，

從圖5中的混淆矩陣可以看出，實(shí)驗(yàn)的整體數(shù)值落在了對(duì)角線上，這也進(jìn)一步驗(yàn)證了本文提出模型的性能。同時(shí)計(jì)算了真陽性率和假陽性率，繪制了ROC曲線并得到曲線下面積為0923，如圖6所示。關(guān)于實(shí)驗(yàn)的對(duì)比分析以及消融實(shí)驗(yàn)，將會(huì)在接下來的小節(jié)進(jìn)行詳細(xì)的介紹。

2.4 GradCAM可視化

本文通過GradCAM［17］對(duì)提出的改進(jìn)卷積網(wǎng)絡(luò)在進(jìn)行分類任務(wù)時(shí)所提取的不同DR等級(jí)的特征圖進(jìn)行了可視化展示，如圖7所示。圖中對(duì)正常的圖像未做出可視化展示。本文清晰準(zhǔn)確的展示了模型學(xué)習(xí)到的特征是有效的。在圖中可以發(fā)現(xiàn)，模型對(duì)同類特征的大區(qū)域關(guān)注度并不高，而是關(guān)注到了同類特征的微小區(qū)域，因?yàn)檫@些微小的區(qū)域足以讓模型對(duì)視DR圖像做出診斷，這一點(diǎn)發(fā)現(xiàn)與文［18］所提到的一致。

2.5 與其他網(wǎng)絡(luò)模型的比較

本節(jié)使用EyePACS數(shù)據(jù)集驗(yàn)證改進(jìn)后的網(wǎng)絡(luò)是否有所提升，使用準(zhǔn)確率和二次加權(quán)Kappa作為評(píng)價(jià)的指標(biāo)。結(jié)果如表3所示。

從表3中可以看出，使用所提出的模型在兩個(gè)指標(biāo)上比較新的模型均有所提升。比文［19］和文［20］模型的準(zhǔn)確率和加權(quán)二次Kappa分別提高了 258%、611%和131%、15%。比RF-GANS（AFN）［21］的準(zhǔn)確率提高了109%，二次加權(quán)Kappa保持平衡。其中文［21］模型使用了對(duì)抗生成網(wǎng)絡(luò)（GAN）做了數(shù)據(jù)增強(qiáng)并實(shí)現(xiàn)了糖尿病視網(wǎng)膜的五分類，但由于作者并未設(shè)計(jì)一個(gè)新的分類模型，所以結(jié)果并未得到顯著的提升。相較于本文的結(jié)果，文［21］耗費(fèi)了大量的算力，且訓(xùn)練網(wǎng)絡(luò)需要花費(fèi)很多的時(shí)間，因此綜合性能比本文的模型欠佳。比Lindas等［22］提出的模型在兩個(gè)指標(biāo)上分別高出了1211%和6%。比基礎(chǔ)模塊ResNet-50在兩個(gè)指標(biāo)上分別高出了383%和314%，這也驗(yàn)證了對(duì)基礎(chǔ)模塊的改進(jìn)是有效的。本文分析原因在于使用多尺度最大池化、多尺度卷積和并行分類網(wǎng)絡(luò)在病變信息檢測的過程中起到了關(guān)鍵性的作用，進(jìn)一步證明本文的方法在EyePACS數(shù)據(jù)集上具有更好的性能。

為了驗(yàn)證所設(shè)計(jì)網(wǎng)絡(luò)的泛化性能，本文也在DDR和Private dataset上驗(yàn)證了該方法的有效性。與EyePACS數(shù)據(jù)集相比，DDR數(shù)據(jù)集是一個(gè)更新的數(shù)據(jù)集，Private dataset是一個(gè)私有的數(shù)據(jù)集，兩者報(bào)告的結(jié)果都很少，因此在兩個(gè)數(shù)據(jù)集中應(yīng)用了一些比較先進(jìn)的分類方法進(jìn)行了比較，如表4和表5所示。

從表4和表5中可以看出，本文所設(shè)計(jì)網(wǎng)絡(luò)的分類性能依舊表現(xiàn)最佳。在兩個(gè)數(shù)據(jù)集上本文所提出方法的準(zhǔn)確率和二次加權(quán)Kappa兩個(gè)指標(biāo)中比ResNet-50分別高出了399%、404%和515%、472%。比RepVGG［25］分別高出了437%、489%和497%、546%。比Efficientent［24］分別高出了463%、437 %和553%、419%。綜合來看，ResNet-50比其他的幾個(gè)網(wǎng)絡(luò)表現(xiàn)性能更高。因此本文以ResNet-50為基礎(chǔ)模塊，對(duì)其進(jìn)行改進(jìn)之后的模型更適合DR的分類。

26 消融實(shí)驗(yàn)研究

為了驗(yàn)證每個(gè)組件對(duì)本模型的影響，本文在EyePACS數(shù)據(jù)集上進(jìn)行了必要的消融實(shí)驗(yàn)，如表6所示，表中的Res代指本文所采用ResNet-50的基礎(chǔ)模塊。

從表6中可以看出，本文提出的方法比采用了Res+多尺度最大池化+并行的組合在兩個(gè)指標(biāo)分別高出了09%、182%，這驗(yàn)證了本文所提出的多尺度卷積具有關(guān)鍵性的作用。本文提出的方法比采用了Res+多尺度卷積+并行的組合在兩個(gè)指標(biāo)分別高出了066%、118%，這驗(yàn)證了本文所提出的多尺度最大池化具有關(guān)鍵性的作用。比采用了Res+多尺度卷積+多尺度最大池化的組合在兩個(gè)指標(biāo)上分別高出了109%、199%，這驗(yàn)證了本文所提出的并行分支具有關(guān)鍵性的作用。通過消融實(shí)驗(yàn)說明了對(duì)ResNet-50每個(gè)部分的替換都起到了關(guān)鍵性的作用，最終在DR診斷方面取得了很好的性能。

3 結(jié) 論

本文針對(duì)DR檢測問題，提出了一種PM-Net模型，使用多尺度最大池化和多尺度卷積對(duì)ResNet-50進(jìn)行改進(jìn)，同時(shí)用雙分支架構(gòu)對(duì)模型進(jìn)行擴(kuò)展。使模型在下采樣的過程中獲取更豐富眼底圖像病變信息，模型的性能得到明顯的提升且具有更好的魯棒性。在EyePACS、DDR和私有數(shù)據(jù)集上分別得到了09011、09126和08924的準(zhǔn)確率，實(shí)驗(yàn)結(jié)果充分證明了本文提出模型的性能更優(yōu)。和其他分類網(wǎng)絡(luò)相似，本文未來的工作也考慮使用對(duì)抗生成網(wǎng)（GAN）來實(shí)現(xiàn)多樣性的數(shù)據(jù)增強(qiáng)，進(jìn)一步提高DR分類的性能。

參考文獻(xiàn)：

［1］ International Diabetes Federation. International Diabetes Federation Diabetes Atlas， Ninth Ed.https：//www.diabetesatlas.org/en/.

［2］ LIN J， CAI Q， LIN M. Multi-label Classification of Fundus Images with Graph Convolutional Network and Self-supervised Learning［J］. IEEE Signal Process. Lett.， 2021， 28： 454.

［3］ LEVENKOVA A， KALLONIATIS M， LY A， et al. Lesion Detection in Ultra-widefield Retinal Images for Diabetic Retinopathy Diagnosis［J］. In Medical Imaging 2018： Computer-Aided Diagnosis; International Society for Optics And Photonics：Bellingham， WA， USA， 2018： 1057531.

［4］ HUA C H， HUYNH-THE T， KIM K， et al. Bimodal Learning Viatrilogy of Skip-Connection Deep Networks for Diabetic Retinopathy Risk Progression Identification［J］. Int. J. Med. Inform. 2019， 132：103926.

［5］ ZAGO G T， ANDREO R V， DORIZZI B， et al. Diabetic Retinopathy Detection Using Red Lesion Localization And Convolutional Neural Networks［J］. Comput. Biol. Med.， 2020， 116： 103537.

［6］陳宇，周雨佳，丁輝. 一種XNet-CNN糖尿病視網(wǎng)膜圖像分類方法［J］.哈爾濱理工大學(xué)學(xué)報(bào)，2020，25（1）：73.

CHEN Yu，ZHOU Yujia，DING Hui. An XNet-CNN Diabetic Retinal Image Classification Method［J］.Journal of Harbin University of Science and Technology，2020，25（1）：73.

［7］周炎龍，孫廣路.雙重代價(jià)敏感隨機(jī)森林算法［J］.哈爾濱理工大學(xué)學(xué)報(bào)，2021，26（5）：44.

ZHOU Yanlong，SUN Guanglu.Double Cost Sensitive Random Forest Algorithm ［J］.Journal of Harbin University of Science and Technology，2021，26（5）：44.

［8］張培培，呂震宇.基于全局信息的目標(biāo)檢測標(biāo)簽分配方法［J］.哈爾濱理工大學(xué)學(xué)報(bào)，2022，27（4）：32.

ZHANG Peipei，L Zhenyu.Target Detection Label Assignment Method Based on Global Information［J］.Journal of Harbin University of Science and Technology，2022，27（4）：32.

［9］王衛(wèi)兵，張曉琢，鄧強(qiáng).多分支主干監(jiān)督網(wǎng)絡(luò)下的RGB-D圖像顯著性檢測［J］。哈爾濱理工大學(xué)學(xué)報(bào)，2022，27（4）：39.

WANG Weibing，ZHANG Xiaozhuo，DENG Qiang.RGB-D Image Saliency Detection Based on Multi-branch Backbone Supervised Network［J］.Journal of Harbin University of Science and Technology，2022，27（4）：39.

［10］王明智，馬志強(qiáng)，趙鋒鋒，等. 基于代價(jià)敏感正則化和EfficientNet的糖尿病視網(wǎng)膜病變分類方法［J/OL］。液晶與顯示， 2022： 1.

WANG Mingzhi， MA Zhiqiang， ZHAO Fengfeng， et al. Diabetic Retinopathy Classification Method Based on Cost Sensitive Regularization and Efficientnet［J/OL］. Chinese Journal of Liquid Crystals and Displays， 2022： 1.

［11］LU Y， JIANG M， WEI L， et al. Automated Arrhythmia Classification Using Depthwise Separable Convolutional Neural Network with Focal Loss［J］. Biomedical Signal Processing and Control， 2021， 69： 102843.

［12］Indian Diabetic Retinopathy Image Dataset （IDRID） Takenhttps：//ieee-dataport.org/open-access/indian-diabetic-retinopathy-image-dataset-idrid，accessedonDecember 2021.

［13］DDRDataset，https：//github.com/nkicsl/DDR-dataset，accessedon February 2022.

［14］XIAO Q， ZOU J， YANG M， et al. Improving Lesion Segmentation for Diabetic Retinopathy Using Adversarial Learning［C］//International Conference on Image Analysis and Recognition. Springer， Cham， 2019： 333.

［15］GHOSH R， GHOSH K， MAITRA S. Automatic Detection and Classification of Diabetic Retinopathy Stages Using CNN［C］//2017 4th International Conference on Signal Processing and Integrated Networks （SPIN）. IEEE， 2017： 550.

［16］郭繼峰，李星，龐志奇.自定義模糊邏輯與GAN在圖像高光處理中的研究［J］. 小型微型計(jì)算機(jī)系統(tǒng)， 2021， 42（8）：5.

GUO JF， LI X， PANG ZQ， et al. Custom Fuzzy Logic and Gan in Image Highlighting［J］. Small Microcomputer Systems， 2021， 42（8）：5.

［17］SELVARAJU R R， COGSWELL M， DAS A， et al. Grad-cam： Visual Explanations from Deep Networks Via Gradient-based Localization［C］//Proceedings of the IEEE International Conference On Computer Vision， 2017： 618.

［18］NIU Y， GU L， ZHAO Y， et al. Explainable Diabetic Retinopathy Detection and Retinal Image Generation［J］. IEEE Journal of Biomedical and Health Informatics， 2021， 26（1）： 44.

［19］LIN Z， GUO R， WANG Y， et al. A Framework for Identifying Diabetic Retinopathy Based on Anti-noise Detection and Attention-based Fusion［C］// in Proceedings of the International Conference on Medical Image Computing and Computer-Assisted Intervention， 2018： 74.

［20］ZHOU Y， WANG B， HUANG L， et al. A Benchmark for Studying Diabetic Retinopathy： Segmentation， Grading， and Transferability［J］. IEEE Transactions on Medical Imaging， 2020， 40（3）： 818.

［21］CHEN Y， LONG J， GUO J. RF-GANs： A Method to Synthesize Retinal Fundus Images Based on Generative Adversarial Network［J］. Computational Intelligence and Neuroscience， 2021： 2021.

［22］LANDS A， KOTTARATHIL A J， BIJU A， et al. Implementation of Deep Learning Based Algorithms for Diabetic Retinopathy Classification from Fundus Images［C］//2020 4th International Conference on Trends in Electronics and Informatics （ICOEI）（48184）， IEEE， 2020： 1028.

［23］HUANG G， LIU Z， VAN DER MAATEN L， et al. Densely Connected Convolutional Networks［C］// 2017： 4700.

［24］TAN M， LE Q. Efficientnet： Rethinking Model Scaling for Convolutional Neural Networks［C］//International Conference On Machine Learning. PMLR， 2019： 6105.

［25］DING X， ZHANG X， MA N， et al. Repvgg： Making Vgg-Style Convnets Great Again［C］// 2021： 13733.

（編輯：溫澤宇）

基金項(xiàng)目：國家自然科學(xué)基金（62172087）; 中央高?；究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金（2572021BH01）

作者簡介：徐仕豹（1998—），男，碩士研究生

通信作者：陳宇（1975—），男，博士后，副教授，E-mail：nefu_chenyu@163com

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種融合多尺度技術(shù)和并行網(wǎng)絡(luò)的DR檢測方法