多尺度特征融合的頭影標(biāo)志點(diǎn)檢測(cè)

2023-03-16 10:21任家豪張光華喬鋼柱武秀萍

計(jì)算機(jī)工程 2023年3期

任家豪，張光華，喬鋼柱，武秀萍

（1.中北大學(xué) 大數(shù)據(jù)學(xué)院，太原 030051；2.太原學(xué)院智能與自動(dòng)化系，太原 030032；3.山西醫(yī)科大學(xué) 口腔醫(yī)學(xué)院，太原 030001）

0 概述

在臨床診斷、治療與手術(shù)決策中，頭影標(biāo)志點(diǎn)通常由經(jīng)驗(yàn)豐富的醫(yī)生手動(dòng)或半手動(dòng)標(biāo)記，耗時(shí)且出錯(cuò)率較高。因此，目前市場(chǎng)上對(duì)自動(dòng)且高精度的標(biāo)志點(diǎn)定位模型有較大的需求。但是，由于個(gè)體頭影結(jié)構(gòu)的差異以及X 線圖像的模糊性與復(fù)雜性，自動(dòng)檢測(cè)標(biāo)志點(diǎn)的難度較大。

目前，已有很多研究人員提出優(yōu)秀的自動(dòng)解剖標(biāo)志點(diǎn)檢測(cè)方法。GRAU 等［1］使用模板匹配的規(guī)則定位標(biāo)志點(diǎn)，但隨著圖像復(fù)雜度的增加，規(guī)則不再具有權(quán)威性與實(shí)用性。為了同時(shí)考慮標(biāo)志點(diǎn)的局部形狀與全局空間結(jié)構(gòu)，KEUSTERMANS［2］等使用基于局部外觀的模型進(jìn)行自動(dòng)檢測(cè)標(biāo)志點(diǎn)，而IBRAGIMOV［3］等則采用博弈策略和基于形狀的模型提取X 射線圖像特征。上述方法需要復(fù)雜的人為設(shè)計(jì)，且性能有待提高。文獻(xiàn)［4-6］將支持向量機(jī)、隨機(jī)森林等機(jī)器學(xué)習(xí)方法應(yīng)用到標(biāo)志點(diǎn)定位中，同時(shí)利用圖像片段的局部信息與器官的大小、姿態(tài)等全局信息訓(xùn)練模型，較好地提高了預(yù)測(cè)精度。

近年來(lái)，深度學(xué)習(xí)在圖像分類［7］、分割［8］、目標(biāo)檢測(cè)［9］等領(lǐng)域取得了巨大的成功，并廣泛應(yīng)用于需要進(jìn)行解剖標(biāo)志點(diǎn)檢測(cè)的醫(yī)學(xué)圖像分析中。LEE 等［10］將深度卷積神經(jīng)網(wǎng)絡(luò)（Deep Convolutional Neural Network，DCNN）應(yīng)用于頭影標(biāo)志點(diǎn)檢測(cè)，通過(guò)訓(xùn)練38 個(gè)獨(dú)立的卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN），分別回歸了19個(gè)標(biāo)志點(diǎn)的x與y坐標(biāo)，這種方法極大地增加了訓(xùn)練時(shí)間。針對(duì)醫(yī)學(xué)訓(xùn)練圖像有限的問(wèn)題，AUBERT等［11］以局部小塊圖像為樣本進(jìn)行坐標(biāo)點(diǎn)回歸，但這種基于圖像塊的方法只能利用局部信息而忽略全局信息，無(wú)法對(duì)所有標(biāo)志點(diǎn)進(jìn)行準(zhǔn)確預(yù)測(cè)。ARIK 等［12］使用CNN 對(duì)輸入圖像的小塊進(jìn)行訓(xùn)練，輸出標(biāo)志點(diǎn)的概率估計(jì)，并通過(guò)基于形狀的模型對(duì)標(biāo)志點(diǎn)的位置進(jìn)行細(xì)化。由于上述方法都是基于標(biāo)志點(diǎn)坐標(biāo)的直接回歸，丟失了特征圖上的空間信息，因此學(xué)者們提出了基于高斯熱圖的方法來(lái)回歸坐標(biāo)點(diǎn)，如PAYER等［13］將U-Net網(wǎng)絡(luò)與空間配置網(wǎng)絡(luò)相結(jié)合，ZHONG等［14］使用全局U-Net將整張圖像輸入，而局部U-Net將19個(gè)圖像塊作為輸入，實(shí)現(xiàn)了低分辨率與高分辨率相結(jié)合的熱圖回歸。

由于圖像訓(xùn)練數(shù)據(jù)集有限，現(xiàn)有多數(shù)醫(yī)學(xué)影像標(biāo)志點(diǎn)檢測(cè)算法均采用非常淺顯的網(wǎng)絡(luò)進(jìn)行特征提取，并沒(méi)有以高分辨率輸出特征圖，導(dǎo)致預(yù)測(cè)值與真實(shí)值產(chǎn)生量化誤差。多尺度特征融合的方法通過(guò)將高層語(yǔ)義信息與低層語(yǔ)義信息相結(jié)合，使關(guān)鍵點(diǎn)定位任務(wù)中輸入的多尺度特征信息更加豐富，從而提高檢測(cè)精度，很好地解決上述問(wèn)題。受此啟發(fā)，QI等［15］提出一種人臉關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)，引入多尺度特征圖融合思想來(lái)提升主干網(wǎng)絡(luò)MobileNet 在人臉關(guān)鍵點(diǎn)檢測(cè)的準(zhǔn)確率。ZHANG［16］和LI［17］分別利用主干網(wǎng)絡(luò) MobileNetV3 和沙漏網(wǎng)絡(luò)（Hourglass Network，HN）實(shí)現(xiàn)多尺度特征的提取和融合，同時(shí)在特征融合時(shí)通過(guò)添加注意力機(jī)制對(duì)不同尺度標(biāo)志點(diǎn)信息進(jìn)行集中學(xué)習(xí)，最后精確地輸出交通標(biāo)志中心點(diǎn)（MRI 解剖點(diǎn)）的位置信息。

為了將多尺度特征融合的思想應(yīng)用到醫(yī)學(xué)標(biāo)志點(diǎn)檢測(cè)中，本文提出一種改進(jìn)的多尺度特征融合檢測(cè)模型AIW-Net，其中W-Net 相比只有兩條采樣路徑的U-Net［18］、V-Net［19］的特征融合更加多樣化。AIW-Net使用基于Imagenet 數(shù)據(jù)集進(jìn)行初始化的預(yù)訓(xùn)練模型MobileNetV2 進(jìn)行特征提取，中間模塊受Bi-FPN［20］的影響采用雙向采樣路徑，在下采樣過(guò)程中采用改進(jìn)的倒殘差結(jié)構(gòu)減少特征損失。解碼器采用上采樣卷積路徑，使特征圖的尺寸恢復(fù)到原始分辨率大小，同時(shí)將得到的多個(gè)尺度的熱圖與特征圖相結(jié)合。

1 AIW-Net 骨干網(wǎng)絡(luò)的介紹

AIW-Net 使用輕量級(jí)網(wǎng)絡(luò)MobileNetV2 作為骨干網(wǎng)絡(luò)。針對(duì)圖像的不同分辨率，MobileNetV2 的特征提取部分可以被靈活劃分為幾個(gè)不同的階段。MobileNetV2 相比VGG、ResNet 等其他骨干網(wǎng)絡(luò)，在保持相同預(yù)測(cè)精度的同時(shí)顯著減少了所需操作與內(nèi)存數(shù)量。MobileNetV2 的核心模塊為倒殘差（Inverted Residuals）模塊，與傳統(tǒng)殘差模塊的卷積結(jié)構(gòu)相反，該模塊的結(jié)構(gòu)為“擴(kuò)展-深度分離卷積-壓縮”。本文將MobileNetV2 網(wǎng)絡(luò)劃分為5 個(gè)階段，在每個(gè)階段對(duì)輸出的特征圖采用步長(zhǎng)為2 的卷積，特征圖的分辨率均減小1/2。在每個(gè)階段之后將其輸出的通道數(shù)目進(jìn)行調(diào)整，使用MobileNetV2_c 表示調(diào)整后的網(wǎng)絡(luò)，其結(jié)構(gòu)如圖1 所示。其中：t表示通道膨脹系數(shù)；c1 與c2 分別表示原始輸出與調(diào)整后的通道數(shù)；n表示重復(fù)模塊個(gè)數(shù)；s表示步長(zhǎng)；“—”表示該數(shù)據(jù)未知。

圖1 MobileNetV2_c 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of MobileNetV2_c network

2 AIW-Net 網(wǎng)絡(luò)結(jié)構(gòu)

本文的主要任務(wù)是從頭顱影像中找出所有標(biāo)志點(diǎn)｛P1，P2，…，P19｝的位置。圖2 所示為AIW-Net 的網(wǎng)絡(luò)結(jié)構(gòu)，其中每個(gè)特征圖上方的數(shù)字為通道數(shù)量。由圖2 可知，該網(wǎng)絡(luò)由提取特征的輕量級(jí)編碼器網(wǎng)絡(luò)MobileNetV2_c、對(duì)多尺度特征進(jìn)行融合的中間模塊、對(duì)多尺度預(yù)測(cè)熱圖進(jìn)行不斷優(yōu)化更新的解碼器網(wǎng)絡(luò)組成。為方便敘述，定義特征尺度水平｛W0，W1，…，Wn｝，分別對(duì)應(yīng)具有0，2，…，2n像素的輸入圖像步長(zhǎng)。在以往的多尺度特征融合研究中，F(xiàn)PN［21］與PANet［22］網(wǎng)絡(luò)通過(guò)特征圖相加的方式僅融合了ResNet 骨干從W2到W5的尺度水平。而B(niǎo)i-FPN［20］僅結(jié)合了EfficientNet 網(wǎng)絡(luò)從W3到W7的尺度水平。相較而言，本文的中間模塊與解碼器網(wǎng)絡(luò)結(jié)合了MobileNetV2 網(wǎng)絡(luò)從W0到W5的所有尺度水平（包括與輸入圖像具有相同分辨率的尺度水平W0），整個(gè)網(wǎng)絡(luò)能夠使用更高分辨率的特征。

圖2 AIW-Net 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of AIW-Net network

2.1 中間模塊設(shè)計(jì)

本文定義fj(j=0，1，2)為中間模塊與解碼器網(wǎng)絡(luò)的第j條采樣路徑的特征圖。中間模塊部分包括一個(gè)雙向（上采樣與下采樣）路徑，如圖3 所示。在上采樣路徑中，每張?zhí)卣鲌D以2 的倍數(shù)進(jìn)行上采樣，該路徑的基本單元如圖3（a）所示。圖3（b）所示為中間模塊下采樣路徑的基本單元。骨干網(wǎng)絡(luò)中輸出的第i層（i=1，2，3，4，5）特征圖為Fi，它與第i+1 層上采樣操作Up后的特征圖執(zhí)行通道合并的融合操作⊕后，采用ReLU激活函數(shù)，最終得到輸出，其表達(dá)式如式（1）所示：

圖3 中間模塊路徑的基本單元Fig.3 Path basic unit of intermediate module

骨干網(wǎng)絡(luò)最終生成的尺度特征圖F5經(jīng)過(guò)3×3和1×1的卷積層后，構(gòu)成了上采樣路徑中的第1 個(gè)開(kāi)始單元。

在下采樣路徑中，為了彌補(bǔ)圖像分辨率逐漸降低造成的信息損失，采用一種改進(jìn)的倒殘差網(wǎng)絡(luò)結(jié)構(gòu)（stride=2）進(jìn)行下采樣，通過(guò)深度可分離卷積大幅減小網(wǎng)絡(luò)模型的參數(shù)個(gè)數(shù)，該網(wǎng)絡(luò)結(jié)構(gòu)將在2.2 節(jié)詳細(xì)介紹。下采樣之后的特征圖與上采樣路徑中具有相同分辨率的特征圖進(jìn)行連接，得到新的特征輸出，其表達(dá)式如式（2）所示：

其中：IR*為自定義的倒殘差卷積操作。

2.2 改進(jìn)的倒殘差結(jié)構(gòu)

為盡量避免由于下采樣過(guò)程中出現(xiàn)圖像特征損失導(dǎo)致的標(biāo)志點(diǎn)預(yù)測(cè)準(zhǔn)確率下降問(wèn)題，采用MobileNet 系列中一種稱為“倒殘差”的結(jié)構(gòu)，即每次經(jīng)過(guò)深度卷積過(guò)濾之后與該次深度卷積之前的圖像特征進(jìn)行相加，并作為下一次的輸入。該結(jié)構(gòu)包含輕量級(jí)卷積，即深度可分離卷積，其相對(duì)于普通卷積最大化地減少了網(wǎng)絡(luò)的參數(shù)量。原始的倒殘差結(jié)構(gòu)在輸入尺寸與深度卷積后的尺寸不同的情況下（stride=2）直接采用卷積后的特征作為下一模塊的輸入。受步長(zhǎng)為1 的倒殘差結(jié)構(gòu)［23］的啟發(fā)，本文將該結(jié)構(gòu)進(jìn)行改進(jìn)，即將輸入圖像的分辨率大小經(jīng)過(guò)3×3 的深度卷積變換生成與輸出尺寸相同的特征圖，并將兩者合并作為下一次卷積的輸入。為盡量避免模型發(fā)生過(guò)擬合現(xiàn)象，采用ReLU6 激活函數(shù)加速模型收斂，該函數(shù)的計(jì)算式如式（3）所示。

改進(jìn)前后步長(zhǎng)為2 的倒殘差結(jié)構(gòu)如圖4 所示。顯然，將改進(jìn)后的結(jié)構(gòu)應(yīng)用于下采樣過(guò)程后，特征圖中不僅包含了通過(guò)卷積操作后分辨率減半的特征，而且增加了對(duì)輸入圖像進(jìn)行深度卷積后的特征，從而使下采樣輸出的特征圖信息更加豐富。

圖4 改進(jìn)前后的倒殘差結(jié)構(gòu)Fig.4 Backward residual structure before and after improvement

2.3 解碼器設(shè)計(jì)

與U-Net 網(wǎng)絡(luò)中的解碼器設(shè)計(jì)類似，本文解碼器部分也是一條上采樣路徑，每次以2 的步長(zhǎng)上采樣，最終使特征分辨率從W5恢復(fù)到W0，如圖4 所示。由于在低級(jí)特征層上圖像分辨率逐漸變大，因此使用小的通道來(lái)減小參數(shù)數(shù)目。在W2與W1特征層將合并后的特征圖通道數(shù)分別減少為256、128。同時(shí)為了在最高分辨率的特征圖上得到最優(yōu)關(guān)鍵點(diǎn)信息，引入從粗到細(xì)的中間監(jiān)督進(jìn)一步細(xì)化標(biāo)志點(diǎn)的定位。定義第i個(gè)尺度（i∈{0，1，2，3}）的特征融合映射關(guān)系φi：Pi=φi(a，b)，表示將特征圖a進(jìn)行上采樣后與特征圖b進(jìn)行通道融合⊕操作；gi，i∈{0，1，2}表示在每個(gè)尺度上對(duì)融合的特征圖經(jīng)過(guò)3×3 與1×1 的卷積操作，生成不同分辨率預(yù)測(cè)熱圖的映射函數(shù)，每個(gè)尺度上的映射關(guān)系如式（4）～式（6）所示：

其中：UP為上采樣操作；Pi表示在第i個(gè)尺度上生成的中間特征圖；yi表示在第i個(gè)尺度上Pi經(jīng)過(guò)1×1卷積最終生成的特征圖；hi∈R2表示預(yù)測(cè)的二維關(guān)鍵點(diǎn)熱圖，每個(gè)通道代表一個(gè)關(guān)鍵點(diǎn)的熱圖。每個(gè)尺度生成的預(yù)測(cè)熱圖數(shù)量關(guān)系如式（7）所示：

由式（7）可知，最終生成的特征圖y1與預(yù)測(cè)熱圖h1進(jìn)行特征融合后，能得到與輸入圖像F0具有相同分辨率的熱圖h0，達(dá)到最高分辨率的熱圖回歸。該方法可以更加精確與細(xì)化地預(yù)測(cè)頭影圖像標(biāo)志點(diǎn)。

2.4 注意力門模塊

在解碼器模塊與中間模塊的下采樣路徑之間引入針對(duì)通道的門信號(hào)思想，將下采樣路徑與解碼器節(jié)點(diǎn)的跳躍連接替換為注意力門模塊，使最終輸出的特征圖注意力集中在標(biāo)志點(diǎn)附近區(qū)域，有效抑制特征圖中對(duì)標(biāo)志點(diǎn)定位產(chǎn)生負(fù)面影響的背景區(qū)域響應(yīng)。注意力門模塊由多個(gè)函數(shù)構(gòu)成，定義如下：

其中：xi∈RH×W×Ci(i=1，2，3，4)為特征尺度Wi所對(duì)應(yīng)的下采樣過(guò)程中經(jīng)過(guò)1×1 卷積的輸出矩陣，H，W為特征圖的分辨率大小，Ci為輸出特征圖的通道數(shù)；gi∈RH×W×C1為解碼器上采樣之后的輸出矩陣；σ1與σ2分別為ReLU 與Sigmoid 激活函數(shù)；ψT∈R1×1×1、均是線性變換為1×1 卷積的參數(shù)矩陣；bg∈RC與bψ∈R 為卷積的偏置矩陣；輸出的注意力系數(shù)為連接操作之前注意力門的輸出結(jié)果；?為矩陣點(diǎn)乘操作。注意力門模塊如圖5所示。

圖5 注意力門模塊Fig.5 Attention gate module

2.5 熱圖回歸與損失函數(shù)

對(duì)于熱圖回歸，標(biāo)志點(diǎn)檢測(cè)的實(shí)質(zhì)是預(yù)測(cè)以每個(gè)真實(shí)標(biāo)志點(diǎn)為中心的非標(biāo)準(zhǔn)化高斯分布的熱圖，然后執(zhí)行非極大抑制恢復(fù)標(biāo)志點(diǎn)的坐標(biāo)。為提高標(biāo)志點(diǎn)的回歸精度，將更加關(guān)注標(biāo)志點(diǎn)附近像素處的誤差，更少關(guān)注背景區(qū)域的像素誤差?；诖?，本文提出一種改進(jìn)的MSE 損失函數(shù)，其表達(dá)式如式（10）所示：

其中：y與分別表示真實(shí)熱圖與預(yù)測(cè)熱圖每個(gè)位置的像素值；λ為超參數(shù)，可以對(duì)真實(shí)熱圖的像素真值進(jìn)行指數(shù)加權(quán)，隨著與標(biāo)志點(diǎn)距離的增加，權(quán)值λy逐漸減小為1。在訓(xùn)練過(guò)程中，解碼器在多個(gè)尺度Wi上多次生成標(biāo)志點(diǎn)熱圖hi，在每個(gè)熱圖輸出處定義一個(gè)像素平均損失函數(shù)Li，最終得到AIW-Net 的損失函數(shù)L，如式（11）～式（12）所示：

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

3.1.1 數(shù)據(jù)集及其處理

本文采用ISBI 2015 Grand Challenge［10］提供的 cephalometric X-rays 數(shù)據(jù)集進(jìn)行頭影標(biāo)志點(diǎn)檢測(cè)，共400 張cephalometric X-rays 圖像，每張圖像均包含由2 名專業(yè)醫(yī)生標(biāo)注的19 個(gè)標(biāo)志點(diǎn)，圖像示例見(jiàn)圖6。表1 列出了圖6 標(biāo)注的19 個(gè)標(biāo)志點(diǎn)及其名稱。取2 名醫(yī)生標(biāo)注的平均值作為訓(xùn)練與測(cè)試的真實(shí)標(biāo)簽。每張圖像的分辨率為2 400×1 935 像素，每個(gè)像素值大約為0.1 mm。cephalometric X-rays 數(shù)據(jù)集劃分為用于訓(xùn)練的150 張圖像以及用于測(cè)試的150 張Test 1 數(shù)據(jù)集與100 張Test 2 數(shù)據(jù)集。為加速網(wǎng)絡(luò)收斂，對(duì)每一張圖像進(jìn)行歸一化的增強(qiáng)操作，將輸入X-rays 圖像RGB 通道的均值分別設(shè)置為mean=［0.485，0.456，0.406］，對(duì)應(yīng)的方差分別是std=［0.229，0.224，0.225］。

圖6 cephalometric X-rays 圖像示例Fig.6 Example of cephalometric X-rays image

表1 19 個(gè)標(biāo)志點(diǎn)及其名稱Table 1 19 mark points and their names

3.1.2 評(píng)價(jià)指標(biāo)

受ISBI 2015 Grand Challenge 的啟發(fā)，本文將平均徑向誤差（Mean Radial Error，MRE）與成功檢測(cè)率（Successful Detection Rate，SDR）作為頭影標(biāo)志點(diǎn)檢測(cè)的評(píng)價(jià)指標(biāo)。平均徑向誤差表達(dá)式如式（13）和式（14）所示：

其中：Δx與Δy分別為預(yù)測(cè)標(biāo)志點(diǎn)與真實(shí)標(biāo)志點(diǎn)在x與y坐標(biāo)上的絕對(duì)誤差；K為標(biāo)志點(diǎn)的數(shù)量；N為測(cè)試階段圖片的數(shù)量。成功檢測(cè)率表示若絕對(duì)誤差在某個(gè)范圍內(nèi)，則認(rèn)為它在該范圍內(nèi)是正確的，成功檢測(cè)率的表達(dá)式如式（15）和式（16）所示：

其中：z代表測(cè)量范圍；N0表示在該范圍內(nèi)的圖片數(shù)量；N為測(cè)試時(shí)全部圖片的數(shù)量；K為標(biāo)志點(diǎn)的數(shù)量。在實(shí)驗(yàn)中，SDR 評(píng)估了當(dāng)z=2.0 mm，2.5 mm，3.0 mm，4.0 mm時(shí)模型成功檢測(cè)到標(biāo)志點(diǎn)的百分比。

3.2 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

實(shí)驗(yàn)基于PyTorch1.8.0 框架與Python3.6 實(shí)現(xiàn)，將輸入網(wǎng)絡(luò)的圖像設(shè)置為800×640 像素大小。經(jīng)過(guò)多次訓(xùn)練比較，設(shè)置損失函數(shù)的超參數(shù)λ為50，初始學(xué)習(xí)率為0.000 1，每經(jīng)過(guò)50 個(gè)epoch 便以0.1 倍進(jìn)行衰減。使用Adam 優(yōu)化器對(duì)網(wǎng)絡(luò)在GeForce RTX 2080 Ti GPU 上進(jìn)行500 個(gè)epoch 的訓(xùn)練，每次批量大小設(shè)置為1。

3.3 對(duì)比實(shí)驗(yàn)

3.3.1 與其他頭影標(biāo)志點(diǎn)檢測(cè)模型比較

將現(xiàn)有頭影測(cè)量標(biāo)志點(diǎn)檢測(cè)模型與本文AIWNet 模型的性能進(jìn)行對(duì)比，結(jié)果如表2 所示，表中加粗?jǐn)?shù)字表示該組數(shù)據(jù)最大值，“—”表示無(wú)此數(shù)據(jù)。由表2 可知，AIW-Net 模型在Test 1 與Test 2 數(shù)據(jù)集上的MRE 分別為1.14 mm 與1.40 mm，與文獻(xiàn)［14］提出的模型性能相當(dāng)，但相較于文獻(xiàn)［3］、文獻(xiàn)［6］與文獻(xiàn)［12］所提出的模型性能有大幅提升。當(dāng)z=2.0 mm，2.5 mm，3.0 mm，4.0 mm 時(shí)，AIW-Net 模型的SDR 值在Test 1 數(shù)據(jù)集上分別為86.38%、92.10%、95.50%與98.52%，在Test 2 數(shù)據(jù)集上分別為75.91%、83.52%、89.31%與94.68%。

表2 AIW-Net 模型與其他模型的檢測(cè)結(jié)果Table 2 Detection results of AIW-Net model and other models

IBRAGIMOV 等［3］和LINDNER 等［6］模型通過(guò)結(jié)合隨機(jī)森林與統(tǒng)計(jì)形狀機(jī)器學(xué)習(xí)模型取得了不錯(cuò)成績(jī)，與以上模型相比，AIW-Net 模型的SDR 值在Test1 數(shù)據(jù)集2 mm 檢測(cè)范圍內(nèi)分別增加了14.68%、11.43%，MRE 值分別減少了0.70 mm 和0.53 mm。在基于深度學(xué)習(xí)的模型中，相對(duì)于最先進(jìn)的ZHONG［14］模型，本文模型在2.5 mm、3 mm 以及4 mm 檢測(cè)范圍內(nèi)的成功檢測(cè)率均高于該模型，雖然本文模型在2 mm 范圍內(nèi)的SDR 值低于ZHONG［14］模型，但ZHONG［14］模型采用多個(gè)階段U-Net 網(wǎng)絡(luò)（全局與局部U-Net）以及基于圖像塊的模型回歸熱圖，增加了時(shí)間與運(yùn)算成本。

將本文模型分別與OH［24］模型、ZHONG［14］模型進(jìn)行對(duì)比，采用模型參數(shù)量、運(yùn)算復(fù)雜度、模型尺寸、單張圖像訓(xùn)練時(shí)間4 個(gè)指標(biāo)進(jìn)行評(píng)價(jià)，結(jié)果如表3所示。

表3 不同模型復(fù)雜度的對(duì)比結(jié)果Table 3 Comparison results of complexity of different models

由表3 可以看出，本文模型通過(guò)使用輕量級(jí)主干網(wǎng)絡(luò)MobileNetV2，并在采樣路徑中采用改進(jìn)的倒殘差結(jié)構(gòu)而沒(méi)有使用普通卷積層，加快了模型收斂，使模型參數(shù)量比ZHONG［14］模型降低了28M；在運(yùn)算復(fù)雜度與模型大小上，本文模型比ZHONG［14］模型降低了16.8 frame/s 和162 MB，能夠部署到資源受限的設(shè)備上。在batch size 同為1 的情況下，本文模型的單張圖像訓(xùn)練速度相對(duì)于ZHONG［14］模型提高了將近1.5 倍。OH［24］模型在復(fù)雜度指標(biāo)上與本文模型基本相當(dāng)，但在Test 1 與Test 2 數(shù)據(jù)集上的MRE 值與SDR 值卻不及本文模型。綜上可知，本文模型在模型運(yùn)算復(fù)雜度與預(yù)測(cè)精度之間實(shí)現(xiàn)了平衡。

3.3.2 與經(jīng)典關(guān)鍵點(diǎn)檢測(cè)模型的對(duì)比

為進(jìn)一步說(shuō)明本文AIW-Net 模型的有效性，對(duì)比了其他先進(jìn)的關(guān)鍵點(diǎn)檢測(cè)模型在Test 1 數(shù)據(jù)集上的結(jié)果，結(jié)果如表4 所示，表中加粗?jǐn)?shù)字表示該粗?jǐn)?shù)據(jù)最大值。

表4 不同模型在Test 1 數(shù)據(jù)集上的結(jié)果對(duì)比Table 4 Comparison of results of different models on Test 1 dataset

由表4 可知，本文模型相對(duì)于其他關(guān)鍵點(diǎn)檢測(cè)模型性能較好，而且在臨床實(shí)踐可接受的2 mm 與2.5 mm 范圍內(nèi)，其SDR 值相對(duì)于性能次之的CPN 模型分別提高了1.54%、0.91%。Unet 模型使用較淺的骨干網(wǎng)絡(luò)VGG 作為編碼器，在網(wǎng)絡(luò)訓(xùn)練過(guò)程中需要900 個(gè)epoch 才能達(dá)到最終收斂。AIW-Net 模型相對(duì)于FPN 模型而言，其MRE 值直接減少了0.20 mm，表明使用增加雙重采樣路徑和采用通道合并的融合方式可以實(shí)現(xiàn)更好的特征融合。表4 中其余幾種模型在二維人體姿態(tài)估計(jì)［22-24］任務(wù)中表現(xiàn)出了良好的性能，但在靜態(tài)的醫(yī)學(xué)圖像關(guān)鍵點(diǎn)檢測(cè)中卻表現(xiàn)一般。AIW-Net 模型將人體姿態(tài)估計(jì)的熱圖回歸方法引入到醫(yī)學(xué)圖像中，在圖像關(guān)鍵點(diǎn)的回歸與自動(dòng)定位中實(shí)現(xiàn)了重大突破。

3.4 消融實(shí)驗(yàn)

為驗(yàn)證本文所提標(biāo)志點(diǎn)檢測(cè)模型的合理性與優(yōu)越性，在Test 1 數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。針對(duì)本文所設(shè)計(jì)的引入中間監(jiān)督的多尺度熱圖融合結(jié)構(gòu)、改進(jìn)的倒殘差結(jié)構(gòu)、注意力門模塊，與以下模型進(jìn)行對(duì)比：

1）W-Net*模型，其經(jīng)過(guò)預(yù)訓(xùn)練且未添加上述模塊，損失函數(shù)為多尺度指數(shù)加權(quán)（multi-EW）函數(shù)，該模型的形狀類似于“W”。

2）W-Net 模型，添加多尺度中間熱圖的結(jié)構(gòu)。

3）IW-Net 模型，在W-Net 模型中添加改進(jìn)的倒殘差結(jié)構(gòu)。

4）AIW-Net 模型，在IW-Net 模型中添加注意力門模塊。

5）AIW-Net*模型，使用多尺度均方差（multi-MSE）作為損失函數(shù)。

不同模型在Test 1 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表5所示，表中加粗?jǐn)?shù)字為該組數(shù)據(jù)的最大值。

表5 不同模型在Test 1 數(shù)據(jù)集上的結(jié)果Table 5 Results of different models on Test 1 dataset

由表5 可知，AIW-Net 模型的表現(xiàn)性能最好，在臨床可接受范圍2 mm 與2.5 mm 內(nèi)的SDR 值分別為86.38%與92.10%。通過(guò)對(duì)比W-Net*與W-Net 模型可知，使用中間監(jiān)督生成不同尺度的熱圖，然后將不同尺度的熱圖與特征圖進(jìn)行融合，能夠使MRE 值降低0.08 mm，使得在2 mm 范圍內(nèi)的SDR 值提升了0.68%，這說(shuō)明熱圖融合的方法在特征提取方面發(fā)揮了良好的作用。

由表5 還可知，由于W-Net 模型在原模型的基礎(chǔ)上添加了倒殘差結(jié)構(gòu)（IR*），使得其標(biāo)志點(diǎn)的MRE值直接從原來(lái)的1.28 mm 降低為1.18 mm，且在2 mm、2.5 mm 以及3 mm 范圍內(nèi)的SDR 值均有所提升。由于標(biāo)志點(diǎn)的像素區(qū)域比背景區(qū)域小得多，容易影響標(biāo)志點(diǎn)的準(zhǔn)確預(yù)測(cè)，因此本文通過(guò)添加注意力門模塊使特征圖的響應(yīng)集中在目標(biāo)關(guān)鍵點(diǎn)周圍，降低受其他背景結(jié)構(gòu)（如耳朵，牙齒，下頜骨）遮擋的標(biāo)志點(diǎn)的錯(cuò)誤檢測(cè)率，具體結(jié)果如圖7 所示。由圖7可知，由于AIW-Net 模型添加了注意力門模塊，圖7中第1 行被耳朵與牙齒遮擋的標(biāo)志點(diǎn)4 與標(biāo)志點(diǎn)6，以及圖7 中第2 行被下頜骨背景遮擋的標(biāo)志點(diǎn)10，其定位效果都更加接近真實(shí)標(biāo)志點(diǎn)。

圖7 添加注意力門前后標(biāo)志點(diǎn)檢測(cè)結(jié)果Fig.7 Detection results of mark points before and after adding attention gate

圖8 與圖9 分別為AIW-Net 模型在Test 1 與Test 2 數(shù)據(jù)集上輸出圖像與輸入圖像具有相同分辨率（800×640 像素）的預(yù)測(cè)熱圖，以及由熱圖轉(zhuǎn)換的預(yù)測(cè)點(diǎn)與真實(shí)點(diǎn)可視化結(jié)果。從圖8 與圖9 可知，即使在個(gè)體頭部組織結(jié)構(gòu)存在較大差異以及在采集的X 射線圖像較模糊的情況下，本文模型依然能準(zhǔn)確預(yù)測(cè)標(biāo)志點(diǎn)。最后本文對(duì)比了不同損失函數(shù)對(duì)AIW-Net 與AIW-Net*模型性能的影響，具體結(jié)果如表5 最后兩行數(shù)據(jù)所示，可以看出，使用多尺度指數(shù)加權(quán)（multi-EW）函數(shù)后，MRE 值減少了0.03 mm，且在標(biāo)志點(diǎn)附近2 mm 誤差范圍內(nèi)的SDR 值達(dá)到了86.38%，證明了本文所提損失函數(shù)的有效性。

圖8 AIW-Net 模型在Test 1 數(shù)據(jù)集上的可視化結(jié)果Fig.8 Visualization results of AIW-Net model on Test 1 dateset

圖9 AIW-Net 模型在Test 2 數(shù)據(jù)集上的可視化結(jié)果Fig.9 Visualization results of AIW-Net model on Test 2 dateset

4 結(jié)束語(yǔ)

本文面向頭影測(cè)量X 射線標(biāo)志點(diǎn)檢測(cè)任務(wù)，提出一種改進(jìn)的多尺度特征融合的AIW-Net 端到端檢測(cè)模型。采用預(yù)訓(xùn)練的輕量型網(wǎng)絡(luò)MobileNetV2 提取特征，并通過(guò)中間模塊與解碼器不斷優(yōu)化檢測(cè)效果。在中間模塊的下采樣路徑中采用改進(jìn)的倒殘差結(jié)構(gòu)減少特征損失，在解碼器中采用上采樣卷積路徑將特征圖尺寸恢復(fù)到到原始分辨率大小，并引入從粗到細(xì)的中間監(jiān)督思想，實(shí)現(xiàn)多個(gè)尺度熱圖與特征圖的融合。實(shí)驗(yàn)結(jié)果表明，本文模型在臨床實(shí)踐可接受誤差范圍內(nèi)的檢測(cè)效果好于W-Net、IW-Net等模型。下一步將對(duì)解碼器網(wǎng)絡(luò)以及數(shù)據(jù)增強(qiáng)方式進(jìn)行改進(jìn)，解決頭影標(biāo)志點(diǎn)檢測(cè)模型在頭影邊緣輪廓區(qū)域的檢測(cè)精度相對(duì)其他區(qū)域較低的問(wèn)題。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡