蔡賢杰 丁德銳 魏國亮 武俊珂
摘要:計算機輔助檢測工具可以幫助醫(yī)生減少在臨床檢查中漏檢誤檢的情況,從而提高診斷準確度,同時減輕醫(yī)生的勞動強度。針對超聲胃腸鏡檢查中黏膜下腫瘤的定位與分類問題,提出了一種融合多尺度特征和子空間注意力的黏膜下腫瘤檢測算法(MFSA-YOLOv7t)。首先,移除小目標預測頭,在保證精度下使網絡輕量化;然后,基于淺層特征提出多尺度特征融合模塊,提取腫瘤細節(jié)信息;其次,改進上采樣結構,在保留上層信息的同時增強感受野;最后,引入子空間位置注意力模塊,捕獲腫瘤的位置和邊界特征,進一步提升黏膜下腫瘤的檢測性能。實驗表明,MFSA-YOLOv7t在平均精度均值、敏感度以及準確度上分別達到97.32%,96.99%和96.24%,相比YOLOv7-tiny算法檢測性能有較大的提升,分別提高了2.39%,2.75%和2.59%。MFSA-YOLOv7t為醫(yī)生在臨床檢查中的輔助診斷提供更加可靠的腫瘤類型參考,同時為黏膜下腫瘤的檢測提供了一個新的思路和研究方向。
關鍵詞:黏膜下腫瘤;計算機輔助檢測;多尺度特征;上采樣;子空間注意力
中圖分類號:TP 391.1
文獻標志碼:A
Detection method in submucosal tumor based on multi-scale feature and subspace attention fusion
CAI Xianjie1,DING Derui 1,WEI Guoliang 2,WU Junke 3
(1.School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China;2.Business School,University of Shanghai for Science and Technology,Shanghai 200093,China;3.College of Science,University of Shanghai for Science and Technology,Shanghai 200093,China)
Abstract:Computer-aided detection tools can help doctors reduce the situations of missed and false detections in clinical examinations to improve diagnostic accuracy and reduce the labor intensity of doctors.Aiming at the problem of the localization and identification of submucosal tumors in ultrasound gastroscopy,a submucosal tumor detection algorithm combined with multi-scale feature and subspace attention(MFSA-YOLOv7t)was proposed.Firstly,the small target prediction head was removed to make the network lightweight while maintaining accuracy.Secondly,A multi-scale feature fusion module was proposed based on shallow features to aggregate details.Then,the algorithm improved the up-sampling structure to retain the upper layer information to the greatest extent and enhance the feature perception field.Finally,the coordinate subspace attention module was introduced to capture tumor location and boundary features to improve the detection performance of submucosal tumors.Experiments show that the mAP,sensitivity,and accuracy of MFSA-YOLOv7t reach 97.32%,96.99%,and 96.24%,respectively,compared with YOLOv7-tiny,MFSA-YOLOv7t has agreat improvement in detection performance,which is improved by 2.39%,2.75%,and 2.59%,respectively.MFSA-YOLOv7t provides amore reliable reference of tumor type for doctors in clinical examination of the auxiliary diagnosis and also provides anew idea and aresearch direction for detecting submucosal tumors.
Keywords:submucosal tumor;computer-aided detection;multi-scale feature;up sample;subspace attention
消化道黏膜下腫瘤[1](submucosal tumor,SMT)是一類臨床上罕見的,來源于非黏膜層的消化道腫瘤性病變,包含平滑肌瘤、脂肪瘤、胃腸道間質瘤、血管瘤及異位胰腺等。在超聲內鏡下,SMT主要集中在黏膜肌層、黏膜下層、固有肌層。SMT以良性病變?yōu)橹?,但仍有約15%的SMT具有惡性傾向[2]。臨床上需要根據不同類型的SMT,決定是手術切除或還是隨訪。
傳統(tǒng)的人工診斷是一個完全依靠醫(yī)生憑借其專業(yè)知識儲備和豐富的超聲影像診斷經驗來判別腫瘤的過程。因此,醫(yī)生的主觀想法對SMT的診斷結果影響較大,且缺乏診斷經驗的醫(yī)生容易出現誤診情況。研究表明,利用計算機輔助診斷(computer aided diagnosis,CAD)系統(tǒng)對超聲圖像進行自動且精確的定位、分割或分類,不僅能為醫(yī)生提供了更加客觀的診斷參考,也能提高醫(yī)生的診斷效率和準確度[3]。因此,利用CAD系統(tǒng)對超聲圖像進行良惡性判別具有重要的研究價值和應用前景[4]。目前,在醫(yī)學圖像處理及CAD領域,人工智能算法與醫(yī)學臨床診斷評估方法緊密地結合在一起,形成了一個新的研究方向,用于解決臨床診斷過程中的圖像降噪、目標識別、組織分割、疾病預測等問題。
近年來,基于端到端的深度學習[5]在醫(yī)學圖像領域取得了一系列的成果[6-8]。不同于傳統(tǒng)方法,深度學習無需人工的目標定位、分割以及特征提取等步驟,而是直接輸入圖像及標簽進行自我學習,得到一系列模型參數,對輸入的圖像進行預測。人工智能技術在醫(yī)學圖像處理領域的主要研究場景以分類為主,檢測為分類的衍生,在兼顧分類的同時進行目標定位。國內外研究人員基于此方向作了相關研究:Xu等[9]以YOLOv3[10]為基礎網絡,引入Inception結構[11],即多尺度卷積模塊,通過解決傳統(tǒng)的卷積層捕獲特征信息不足的問題來提高肺結節(jié)檢測效果。Zhang等[12]通過使用基于回歸的目標檢測方法ResYOLO,能夠有效地提取結直腸息肉的空間位置信息,經實驗證明該檢測方法具有較高的檢測精度,并且可以準確定位視頻幀中的結直腸息肉。佘逸飛等[13]以Faster RCNN為基礎網絡,構建CBAM(convolutional block attention module)骨干模塊,以提高模型對食道癌病灶區(qū)域亮度值偏高或偏低的病灶區(qū)域檢測能力。孫躍軍等[14]通過圖像融合技術提升模型的泛化性,并通過通道混合技術實現空間的信息交流,增強模型的表征能力,以提升檢測結果。Kumar等[15]提出了一種混合深度的ResNet腦腫瘤檢測和分類算法,引入灰度共生矩陣的相關特征用于輔助分類,并結合遷移學習提升檢測結果的準確性。馬金林等[16]使用結合注意力機制的FPN(feature pyramid networks)結構,通過進一步融合高低層特征的語義信息提高模型的特征提取能力,從而提高模型對肝臟腫瘤的檢測效果。
作為一種相對較為罕見的腫瘤,SMT的診斷對于醫(yī)生來說具有一定的挑戰(zhàn)性。近年來,人工智能算法在醫(yī)學圖像領域的應用逐漸廣泛,取得了一定的成效。
因此,本文提出了一種基于改進單階段網絡的黏膜下腫瘤檢測方法。
a.設計了一個用于檢測SMT的單階段算法MFSA-YOLOv7t。
b.設計了一個多尺度特征融合模塊(multi-scale feature fusion module,MFFM),通過主干網絡中不同尺度特征圖進行融合,構建新的特征提取分支,關注腫瘤細節(jié)信息,同時彌補后續(xù)池化的相關信息丟失。
c.融合了一個新的上采樣結構(Fuse-up,Fup),用于保留上文特征信息,以此增大感受野。
d.結合位置與通道注意力,提出了一種子空間位置注意力模塊(coordinate subspace attention module,CSAM),用于關注特征圖的感興趣區(qū)域,從而提升網絡的檢測效果。
1相關工作
1.1 MFSA-YOLOv7t網絡結構
通常,深度學習需要大量的數據樣本進行標記訓練,深層或復雜的網絡對于大樣本數據有更好的檢測效果,由于本文所用的數據集樣本較少,且圖像特征只包含背景和標注樣本兩部分,采取深層或復雜的網絡模型容易導致過擬合并增加訓練成本。綜上,考慮到本文數據樣本量的局限性,以及后續(xù)模型訓練的穩(wěn)定性,本文基于YOLOv7[17]網絡思想,選擇YOLOv7-tiny網絡針對本文數據集進行后續(xù)研究。
本文設計的網絡MFSA-YOLOv7t結構如圖1所示,主要包括用于特征提取的主干部分(Backbone)、用于特征融合的頸部(Neck)、和用于預測分類的頭部(Head)三大部分。首先將預處理后的超聲圖像輸入網絡,然后在Backbone中利用兩組CBS模塊和4組高效聚合網絡ELAN-T模塊提取圖像特征,其次在Neck中經過上采樣擴大感受野并拼接MFFM,融合淺層細節(jié)信息獲得增強的16倍下采樣特征圖,經過注意力模塊CSAM,得到同時含有位置和空間信息的特征圖,并依次生成26×26×256、13×13×512的特征圖用于檢測中目標和大目標,其中每個特征圖對應3種大小不同的錨框(Anchor)負責預測目標,最后在預測模塊Predict中利用非極大值抑制(nonmaximum suppression,NMS)選擇最優(yōu)預測結果。
1.2預測頭選擇
一般用于檢測的模型會設置3個預測頭來預測大中小3個尺寸的目標,同時每個預測頭由3種不同比例的錨框負責預測不同比例的目標。相比一些經典算法,如Faster R-CNN[18],SDD[19]等都是根據經驗預設錨框的高和寬,只適用于特定場景下的目標尺寸,無法適應其他任務。YOLO(you only look once)目標檢測系列對數據集采用K-means自適應錨框聚類算法,得到符合數據集的錨框大小。本實驗利用K-means算法對現有腫瘤數據集聚類,得到3組初始候選框,如表1所示。
小目標指在256×256的圖像中目標面積小于80個像素,即小于256×256的0.12%就為小目標。由于本文設置圖像大小為416×416,且最小初始候選框為37×34,得到目標占比為0.72%。因此,考慮刪除小目標預測頭,以達到輕量化模型的效果?;A網絡在Neck中首先經過2次上采樣擴大感受野,輸出分支Predict用于預測小目標,然后經過2次下采樣分別輸出分支Predict用于預測中目標和大目標。本文保留YOLOv7-tiny的主干網絡,如圖1所示,對Neck中Concat操作后的第二次上采樣及后續(xù)部分網絡模塊進行移除,將Concat操作直接連接至引出中目標預測分支的ELAN-T5模塊。通過減少預測頭,不僅使模型輕量化,而且降低了模型的深度,相對于基礎網絡,有效地避免了過擬合現象發(fā)生,同時提升對淺層特征的學習能力。新的候選初始框如表2所示。
1.3多尺度特征融合模塊
在網絡中,語義信息包括淺層語義和深層語義,淺層語義即淺層細節(jié)特征,由于經過較少的卷積操作,具有分辨率高、細節(jié)豐富的特點,如輪廓、紋理、顏色等;深層語義經過多次卷積,感受野大,對細節(jié)的感知能力較差,但一個像素點可代表一個區(qū)域,獲得的全局語義信息更加豐富??紤]到前文中預測頭的篩選,導致對淺層信息沒有很好地利用,而融合不同尺度的特征信息是提高檢測效果的一個重要方法,并且池化之前的特征圖在很大程度上保留了原始圖像的細節(jié)信息。因此,選擇ELAN-T1,T2,T3這3個輸出特征圖作為特征融合的基底。此外,在3種不同尺度融合的過程中必不可少地會出現維度壓縮,使用步長為2的卷積會使特征圖的部分信息丟失,從而失去表征能力。為了盡可能地保留淺層的信息,提出了一個空間維度切分至通道(spatial to channel,STC)的操作用來代替步長為2的卷積,如圖2所示,首先將W×H×C大小的特征圖根據下采樣倍數S(S=2)按空間維度進行劃分,得到4個子特征圖,每個特征圖的尺寸為W/2×H/2×C,然后Concat操作將每個特征圖按通道拼接得到大小為W/2×H/2×4C的特征圖,最后利用1×1卷積進行通道整合。W,H,C分別為網絡層張量的寬度、高度和通道數。
基于STC結構,本文設計的多尺度特征融合模塊MFFM如圖3所示,首先ELAN-T1模塊通過1×1卷積壓縮通道降低模型復雜度,然后利用STC進行維度壓縮同時擴展通道,保留淺層的原始信息,再次通過1×1卷積壓縮通道進行通道重組,同時與壓縮通道的ELAN-T2模塊拼接以融合多尺度特征信息,重復上述操作再與ELAN-T3模塊拼接,最后利用1×1卷積進行通道重組。該多尺度特征融合分支包含了大量的局部細節(jié)信息,與主分支進行拼接互相補充,提升模型的檢測能力。
1.4上采樣模塊
上采樣是一種對圖像進行擴充放大并生成對應高分辨率圖像的方法。本文認為上采樣應具有較大的感受野,更好地利用特征及其周圍的信息,且上采樣應與特征圖的語義信息相關。為彌補上采樣過程中特征信息丟失的問題,參考STC結構,提出了一種通道切分(channel to spatial,CTS)的上采樣結構,CTS是一種利用通道信息轉換到空間維度的上采樣方法,上層特征圖含有豐富的語義信息,通過直接通道切片并補充到空間維度可以更好地保留圖像的原始語義特征信息。
本文設計的Fup模塊如圖4所示。具體分為兩部分,首先對輸入的特征圖利用1×1卷積壓縮通道,減少后續(xù)計算量,然后通過Up上采樣輸出第一特征圖,其次通過兩組CTS模塊并聯(lián)輸出,然后拼接得到與第一特征圖同尺寸的特征圖,并與之進行疊加操作逐元素相加,保持通道數不變,以增加每個通道特征圖的信息量,突出細節(jié)信息,最后通過1×1卷積進行特征重組,得到最終上采樣結果。本文使用Fup模塊替換網絡中原有的上采樣操作,以提升網絡模型的檢測精度。
1.5子空間注意力模塊
注意力機制源于對人類視覺的研究,通過有選擇性地專注于顯著區(qū)域,從而獲得更好的視覺效果。神經網絡中的注意力機制指在全局信息中重點關注當前特征圖中的顯著區(qū)域。因此,引入注意力機制能夠使網絡在訓練時抑制次要信息,增強特征的表征能力,提高深度學習模型的性能。
SMT在超聲內鏡下觀察屬于消化道內壁的凸起物及其位于黏膜層內部的不同層次,通過高低回聲反饋,網絡會在目標邊界處理上產生一定誤差,影響定位和分類性能。為了進一步提高模型對于腫瘤邊界的檢測能力,可以引入輕量化注意力模塊。為了使深層特征圖包含更多的遠程依賴信息,并且盡可能地保證網絡計算量,本文參考文獻[20]的子空間特征圖劃分思想,以及文獻[21]的位置注意力思想,在主分支Neck層的ELAN-T5模塊,ELAN-T6模塊之后引入CSAM,該方法僅添加少量的參數就可以計算子空間的跨通道信息交互和特征圖的位置信息。為選擇合適的CSAM添加位置以輸出更好的表征能力,本文提出了兩種策略:a.考慮雙分支并行結構,基于MFFM和Fup拼接后的特征層,設計新的分支添加CSAM,再分別于ELAN-T5和ELAN-T6作疊加操作。b.考慮深度融合特征,直接分別在ELAN-T5和ELAN-T6之后添加CSAM。經過實驗對比,本文最終選擇策略b為優(yōu)選策略。
CSAM結構如圖5所示,通過對特征圖進行分組注意力計算,使用不同子空間之間的線性關系來整合跨通道信息,同時將位置信息嵌入到通道注意力,利用2個并行的一維特征編碼,高效地整合空間坐標信息。該方法對于復雜的腫瘤邊界層次具有更好的檢測效果。
式中:F為輸出特征圖;F 1,F 2,F 3,F g為輸出子空間特征圖;Concat為通道拼接操作;Conv為卷積操作;F∧g為輸入子空間特征圖;XAvgPool,YAvgPool分別按水平方向、垂直方向平均池化;f h,f w分別為水平方向、垂直方向的注意力權重;CBS表示卷積、歸一化和SiLU激活函數聯(lián)合操作;P為維度交換操作;split為維度拆分操作;б為sigmoid激活函數操作。
首先如式(2)~(4)所示,分別沿著水平和垂直方向進行池化,得到一對HC g,WC g大小的具有方向感知的特征編碼圖,接著按通道拼接并通過兩步卷積操作進行轉換,得到2組注意力編碼權重。然后如式(5)所示,與原特征圖相乘,得到帶有位置注意力的子特征圖,最終的輸出F即為子特征圖拼接得到的帶有位置和通道注意力的特征圖。C g為子空間張量的通道數。
2實驗與結果分析
2.1數據集預處理
實驗使用的數據集來自于上海交通大學附屬第六人民醫(yī)院消化內鏡中心,數據涵蓋不同年齡段、不同性別的病人數據,具有良好普適性。數據集包括109例病人的423張圖片,4種腫瘤病例。其中,平滑肌瘤54例、胃腸道間質瘤30例、異位胰腺10例、脂肪瘤15例。數據集的原始尺寸為764×572,包含機器參數、白光胃腸鏡畫面等無關信息,需要選擇合適的窗寬窗位之后進行數據處理,因此,裁剪原始圖片得到最終圖片尺寸為416×416,如圖6所示。由于醫(yī)學數據集數量有限,因此,采用離線數據增強技術擴充數據集,在原超聲腫瘤數據集的基礎上通過平移、旋轉及鏡像等方法將數據量擴充為原來的5倍,最終得到2115張圖片,以提升模型的泛化能力,同時在訓練時使用mosaic數據增強進一步提升模型的泛化能力。實驗按照6∶2∶2對數據集進行劃分,得到1269張圖片進行訓練、423張圖片進行驗證、423張圖片進行測試。
2.2參數設置
實驗的硬件環(huán)境為Intel?Xeon(R)Gold 5220R CPU@2.20GHz,NVIDIA RTX 3060 GPU,12GB顯存。軟件環(huán)境為Ubuntu20.04,Pytorch架構,算法實現編程語言為Python。
訓練時設置學習率為0.01,權重衰減系數為0.0005,訓練次數為350,批次大小取16,訓練迭代次數為37600,動量參數為0.937。置信度閾值和IoU閾值均為0.5。在訓練集、驗證集和測試集上的輸入圖片尺寸統(tǒng)一為416×416×3。
2.3評價指標
在醫(yī)學上主要有準確度(accuracy)A cc、敏感度(sensitivity)S e、特異度(specificity)S p這3個指標。假定TP表示陽性樣本中正確預測為陽性的樣本數目,TN表示陰性樣本中正確預測為陰性的樣本數目,FP表示陰性樣本中錯誤預測為陽性的樣本數目,FN表示陽性樣本中錯誤預測為陰性的樣本數目。
在目標檢測模型中,通常通過平均精度均值(mean average precision,mAP)、召回率(Recall)來進行評估。mAP為所有類的平均精度(AP)。召回率即醫(yī)學上的敏感度。目標檢測中背景和未成功預測的目標都是N,因此,目標檢測一般不區(qū)分TN和FN,由于負樣本沒有標出,不存在區(qū)分正負樣本問題,且本數據集對于每一類別只存在是腫瘤一種情況,也不存在所謂的陰性樣本,因此,不考慮特異度指標,準確度公式也需重新考慮,其中,TP+FN為正樣本總量,在目標檢測中召回率仍然適用。最終,本文選取準確度、召回率、mAP作為本實驗的評價指標,其中,準確度根據混淆矩陣的每個類別的TP之和與總樣本數量的百分率作為本文的評價標準。
式中,T a表示測試集樣本總量。
混淆矩陣如圖7所示,對角線即為各類別檢測出的TP數量。
2.4消融實驗
為了解雙預測頭、多尺度特征融合、上采樣以及子空間位置注意力對模型精度的影響,現介紹消融實驗,主要包括8個部分。首先,1組實驗用于驗證YOLOv7-tiny在SMT數據集上的檢測性能。其次,2組實驗用于驗證改進的雙檢測頭的檢測效果。接著,3,4,5組實驗分別用于驗證在2組上添加MFFM、Fup以及策略b的CSAM的檢測效果。然后,6組實驗用于驗證在基礎網絡中加入MFFM和Fup模塊后的檢測效果。最后,7,8組實驗用于驗證本文提出的2種策略下的3個模塊同時加入網絡的檢測效果。
實驗結果如表3所示,針對不同的實驗,分別計算其檢測精度、參數量(Params)及推理速度FPS(frames per second)。對比1,2兩組的檢測結果發(fā)現,mAP,Recall和準確度分別提高了0.25%,0.16%和0.23%,Params降低了0.34 MB且推理速度顯著上升,這說明雖然檢測效果提升很小,但在保證網絡性能的情況下能使網絡輕量化。3組表示在2組基礎上添加了MFFM。對比2,3兩組的檢測結果發(fā)現,mAP,Recall和準確度分別提高了0.49%,0.80%和0.71%,這說明通過對淺層特征進行多尺度融合,使得網絡保留了腫瘤更多淺層細節(jié)信息,再與深層特征拼接,提升了檢測效果。4組表示在2組基礎上添加了Fup模塊。對比2,4兩組的檢測結果發(fā)現,mAP,Recall和準確度分別提高了0.07%,0.43%和0.47%,這說明融合了通道信息的上采樣操作在一定程度上保留了特征圖上層語義信息,能夠提升模型的檢測效果。5組表示在2組基礎上添加了CSAM。對比2,5兩組的檢測結果發(fā)現,mAP,Recall和準確度分別提高了0.81%,1.12%和1.18%,這說明在輸出端加入子空間位置注意力模塊,能較好地進行跨通道信息交互,同時關注腫瘤的語義特征信息,證明了該模塊的有效性。6組表示在2組基礎上添加了MFFM和Fup。對比2,6兩組的檢測結果發(fā)現,mAP,Recall和準確度分別提高了1.01%,1.48%和1.18%,說明將融合淺層特征的結果與能保留更多上層語義的上采樣模塊拼接能進一步提高網絡的檢測效果。8組表示本文算法,對比7組的檢測結果發(fā)現,經過深度融合后的特征具有豐富的語義信息和細節(jié)特征,因此,選擇策略b為優(yōu)選策略。對比前6組實驗結果發(fā)現,本文所提出的網絡在病灶區(qū)域上取得了最好的檢測性能。同時相較于1組實驗,mAP,Recall和準確度分別提高了2.39%,2.75%和2.59%,這說明了本文模塊的有效性。此外,觀察Params一欄發(fā)現,對比2組實驗即雙預測頭網絡,本文在只增加少量參數的情況下,檢測結果就能有明顯的提升;對比1組實驗即原始基礎網絡,本文在使網絡更加輕量化的同時,顯著地提升了模型的檢測效果,說明了本文模型的優(yōu)越性。
為進一步體現MFSA-YOLOv7t在網絡中的特征提取能力和關注全局顯著信息能力,通過繪制熱力圖Grad-CAM(gradient-weighted class activation mapping)展現模塊的改進優(yōu)勢。如圖8所示,顏色越紅,表示網絡對于該特征越敏感。其中,圖8(a)和(b)表示Fup對應的Grad-CAM,圖8(c)和(d)表示MFFM對應的Grad-CAM,圖8(e)和(f)表示CSAM對應的Grad-CAM,3組改進模塊的Grad-CAM分別為網絡中對應層次輸出,且每組圖示中左圖對應基礎網絡,右圖對應MFSA-YOLOv7t。如圖8(a)和(b)所示,添加Fup模塊使上采樣操作保留更多腫瘤的外側邊界、輪廓等細節(jié)信息,彌補了上采樣過程中特征信息丟失的問題。如圖8(c)和(d)所示,添加MFFM并與Fup進行拼接融合操作,隨著網絡層次加深,使得網絡在保留目標細節(jié)的同時開始關注腫瘤的語義特征。如圖8(e)和(f)所示,引入注意力模塊CSAM,通過跨通道信息交互及捕捉位置邊界特征,使網絡重點關注目標腫瘤的語義特征,弱化次要背景信息,從而提升模型的檢測能力。
2.5對比實驗
主要設計兩部分實驗。第一部分進行縱向對比,驗證MFSA-YOLOv7t對腫瘤各類別的檢測效果,第二部分將MFSA-YOLOv7t與其他比較流行的深度學習目標檢測算法進行橫向對比實驗,驗證本文算法的可行性和有效性。如表4所示,a代表平滑肌瘤,b代表胃腸道間質瘤,c代表異位胰腺,d代表脂肪瘤。從平均精度AP上看,4種腫瘤的檢測指標分別提升了1.64%,2.23%,2.30%,3.29%;從Recall上看,4種腫瘤的指標分別提升了1.67%,3.62%,2.20%,3.57%。說明改進后的算法在特征提取細節(jié)信息和語義信息方面有很大的提升,通過多尺度融合提取特征圖的細節(jié)信息,同時關注腫瘤的邊界紋理,使得一些難以檢測的、較為模糊的腫瘤被檢測出來,說明本文算法的改進能有效地解決YOLOv7-tiny的漏檢問題,具有很好的定位效果,證明了本文算法對于黏膜下腫瘤檢測的可行性。
為進一步評價本文算法對黏膜下腫瘤的檢測性能,將MFSA-YOLOv7t與其他經典算法,如Faster-rcnn,SSD,Retinanet[22]等,以及最新算法,如VFNet[23],YOLOF[24],YOLOv5s[25]等進行對比。對比結果如表5所示,為保證實驗結果的公平性,這些算法采用了與MFSA-YOLOv7t一致的輸入尺寸、數據集劃分比例、批次大小、初始學習率和損失函數。從表5中可以看出,MFSA-YOLOv7t的mAP指標顯著優(yōu)于其他算法,對比經典算法,提升了5%~6%;對比其他最新算法,提升了3%~4%。在推理速度上也優(yōu)于大部分算法,且MFSA-YOLOv7t與YOLOv5s推理速度接近,得益于YOLOv7模型的結構重參數化,即使加入新的模塊,也能保持一定的推理速度。其中,對比MFSA-YOLOv7t與Retinanet,VFNet,YOLOF,YOLOv5s和YOLOv7-tiny,相較于傳統(tǒng)的FPN特征融合模塊,本文提出的融合多尺度淺層特征的模塊能顯著提升網絡的檢測能力。同時,對于引入的子空間位置注意力模塊,不僅融合了含有上下文語義信息的深層特征和含有細節(jié)信息的淺層特征,還進一步地進行跨通道融合實現信息交互,并重點聚焦腫瘤的邊界紋理、關注腫瘤位置,增強了模型對腫瘤特征的表征能力,說明MFSA-YOLOv7t對于SMT具有更好的特征提取能力和目標預測能力。
2.6結果可視化
為了更加直觀地評估本文算法檢測性能的優(yōu)越性,對部分網絡檢測結果進行了可視化。如圖9所示,MFSA-YOLOv7t檢測結果的置信度優(yōu)于YOLOv5s和YOLOv7-tiny,說明本文算法能更好地關注SMT的病灶區(qū)域,可以有效地檢測病灶位置和類型。對比胃腸道間質瘤的檢測結果,YOLOv5s存在誤檢的情況,而YOLOv7-tiny雖然能夠正確檢測但置信度偏低,相比之下,MFSA-YOLOv7t的檢測結果不僅能消除誤檢,還有很高的置信度,并且檢測邊界也更加貼合病灶區(qū)域,同時也能提高醫(yī)生的識別可信度。對比脂肪瘤的檢測結果,YOLOv5s和YOLOv7-tiny均無法識別腫瘤,而MFSA-YOLOv7t雖然檢測的置信度偏低,但是,對比其他算法能夠大致定位病灶位置,且能夠正確地識別出脂肪瘤。通過可視化對比,進一步證明MFSA-YOLOv7t在進行檢測時所提取的特征信息更加準確。另外,通過病灶區(qū)域的可視化能有效地輔助醫(yī)生在臨床中進行快速的腫瘤判別和病情診斷。
3結 論
針對SMT的檢測問題,提出了一種融合多尺度特征和子空間位置注意力的黏膜下腫瘤檢測算法MFSA-YOLOv7t。首先采用K-means算法對SMT數據集進行聚類分析,獲得3組適合該數據集的錨點,并與初始錨點對比,發(fā)現小目標檢測頭存在檢測冗余,提出將小目標預測頭移除,在保證精度的情況下減少網絡參數。其次,針對主干網絡存在豐富的細節(jié)信息,提出了一種多尺度特征融合模塊MFFM,用于提取淺層特征,同時引入新的上采樣結構Fup,盡可能地保留上層語義信息,并擴大感受野,將MFFM和Fup拼接,使得淺層細節(jié)信息與上層語義信息融合。最后,利用注意力機制增強特征表達能力,提出子空間位置注意力模塊CSAM,用于跨通道信息交互,同時關注腫瘤的位置邊界信息,提升網絡的分類和定位能力。經實驗驗證,改進算法提高了檢測精度,mAP、敏感度和準確度分別達到97.32%,96.99%和96.24%,相比YOLOv7-tiny檢測性能有較大的提升,分別提高了2.39%,2.75%和2.59%。在一定程度上解決了模型誤檢、漏檢、定位不準確等問題,取得了良好的檢測性能,表明本文算法在SMT數據集上具有較好的應用價值。
本文所用的SMT數據集僅針對4種腫瘤進行研究,但SMT腫瘤還包括神經內分泌腫瘤、血管瘤和囊腫等,因此,下一步的研究目標是針對腫瘤是否存在惡性病變傾向進行判別,進一步完善黏膜下腫瘤診斷算法的功能,提高醫(yī)生在臨床診斷中的工作效率。
致謝 本實驗數據集是由上海交通大學附屬第六人民醫(yī)院消化內鏡中心提供,特別是宛新建主任和趙祥運醫(yī)生對于本課題的支持,在此表示衷心的感謝!
參考文獻:
[1] GUO J T, LIU Z J, SUN S Y, et al. Endosonography- assisted diagnosis and therapy of gastrointestinal submucosal tumors[J]. Endoscopic Ultrasound, 2013, 2(3): 125–133.
[2] POLKOWSKI M. Endoscopic ultrasound and endoscopic ultrasound-guided fine-needle biopsy for the diagnosis of malignant submucosal tumors[J]. Endoscopy, 2005, 37(7):635–645.
[3] EADIE L H, TAYLOR P, GIBSON A P. A systematic review of computer-assisted diagnosis in diagnostic cancer imaging[J]. European Journal of Radiology, 2012, 81(1): e70–e76.
[4] SHAO H Y, ZHANG Y T, XIAN M, et al. A saliency model for automated tumor detection in breast ultrasound images[C]//Proceedings of 2015 IEEE International Conference on Image Processing. Quebec City: IEEE Press, 2015: 1424–1428.
[5] SCHMIDHUBER J. Deep learning in neural networks: an overview[J]. Neural Networks, 2015, 61: 85–117.
[6] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE Press, 2016: 770–778.
[7] SHI B G, BAI X, YAO C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298–2304.
[8] GAO Y Q, MOSALAM K M. Deep transfer learning for image-based structural damage recognition[J]. Computer- Aided Civil and Infrastructure Engineering, 2018, 33(9): 748–768.
[9] XU K J, JIANG H, TANG W F. A new object detection?algorithm based on YOLOv3 for lung nodules[C]// Proceedings of the 6th International Conference on Computing and Artificial Intelligence. Tianjin: ACM, 2020: 233–239.
[10] REDMON J, FARHADI A. YOLOv3: an incremental improvement [EB/OL]. [2018-04-08]. http://arxiv.org/abs/ 1804.02767.
[11] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE Press, 2016: 2818–2826.
[12] ZHANG R K, ZHENG Y L, POON C C Y, et al. Polyp detection during colonoscopy using a regression-based convolutional neural network with a tracker[J]. Pattern Recognition, 2018, 83: 209–219.
[13] 佘 逸 飛 , 高 軍 峰 , 閔 祥 德 , 等 . 基 于 CBAM Faster R- CNN 的食道癌檢測 [J]. 中南民族大學學報(自然科學 版), 2021, 40(6): 631–638.
[14] 孫躍軍, 屈趙燕, 李毅紅. 基于改進的 Mask R-CNN 的乳 腺 腫 瘤 目 標 檢 測 研 究 [J]. 光 學 學 報 , 2021, 41(2): 0212004.
[15] KUMAR K S A, PRASAD A Y, METAN J. A hybrid deep CNN-Cov-19-Res-Net Transfer learning architype for an enhanced brain tumor detection and classification scheme in medical image processing[J]. Biomedical Signal Processing and Control, 2022, 76: 103631.
[16] 馬金林, 毛凱績, 馬自萍, 等. 基于 ConA-FPN 的肝臟腫 瘤 檢 測 算 法 [J]. 計 算 機 工 程 與 應 用 , 2023, 59(2): 161–169.
[17] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: trainable bag-of-freebies sets new state-of-the- art for real-time object detectors[C]//Proceedings of 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023.
[18] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems.Montreal: MIT Press, 2015: 91–99.
[19] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam:Springer, 2016: 779–788.
[20] SAINI R, JHA N K, DAS B, et al. ULSAM: ultra-lightweight subspace attention module for compact convolutional neural networks[C]//Proceedings of 2020 IEEE Winter Conference on Applications of Computer Vision. Snowmass: IEEE, 2020: 1627–1636.
[21] HOU QB, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 13713–13722.
[22] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice:IEEE, 2017: 2980–2988.
[23] ZHANG H Y, WANG Y, DAYOUB F, et al. VarifocalNet:an IoU-aware dense object detector[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE Press, 2021: 8514–8523.
[24] CHEN Q, WANG Y M, YANG T, et al. You only look one-level feature[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE Press, 2021: 13039–13048.
[25] JOCHER G, CHAURASIA A, STOKEN A, et al. Ultralytics/yolov5: v6.1-TensorRT, TensorFlow edge TPU and OpenVINO export and inference[CP/OL]. [2022-02- 22]. http://github.com/ultralytics/yolov5.
(編輯:石 瑛)