任家豪,張光華,喬鋼柱,武秀萍
(1.中北大學(xué) 大數(shù)據(jù)學(xué)院,太原 030051;2.太原學(xué)院 智能與自動(dòng)化系,太原 030032;3.山西醫(yī)科大學(xué) 口腔醫(yī)學(xué)院,太原 030001)
在臨床診斷、治療與手術(shù)決策中,頭影標(biāo)志點(diǎn)通常由經(jīng)驗(yàn)豐富的醫(yī)生手動(dòng)或半手動(dòng)標(biāo)記,耗時(shí)且出錯(cuò)率較高。因此,目前市場(chǎng)上對(duì)自動(dòng)且高精度的標(biāo)志點(diǎn)定位模型有較大的需求。但是,由于個(gè)體頭影結(jié)構(gòu)的差異以及X 線圖像的模糊性與復(fù)雜性,自動(dòng)檢測(cè)標(biāo)志點(diǎn)的難度較大。
目前,已有很多研究人員提出優(yōu)秀的自動(dòng)解剖標(biāo)志點(diǎn)檢測(cè)方法。GRAU 等[1]使用模板匹配的規(guī)則定位標(biāo)志點(diǎn),但隨著圖像復(fù)雜度的增加,規(guī)則不再具有權(quán)威性與實(shí)用性。為了同時(shí)考慮標(biāo)志點(diǎn)的局部形狀與全局空間結(jié)構(gòu),KEUSTERMANS[2]等使用基于局部外觀的模型進(jìn)行自動(dòng)檢測(cè)標(biāo)志點(diǎn),而IBRAGIMOV[3]等則采用博弈策略和基于形狀的模型提取X 射線圖像特征。上述方法需要復(fù)雜的人為設(shè)計(jì),且性能有待提高。文獻(xiàn)[4-6]將支持向量機(jī)、隨機(jī)森林等機(jī)器學(xué)習(xí)方法應(yīng)用到標(biāo)志點(diǎn)定位中,同時(shí)利用圖像片段的局部信息與器官的大小、姿態(tài)等全局信息訓(xùn)練模型,較好地提高了預(yù)測(cè)精度。
近年來(lái),深度學(xué)習(xí)在圖像分類[7]、分割[8]、目標(biāo)檢測(cè)[9]等領(lǐng)域取得了巨大的成功,并廣泛應(yīng)用于需要進(jìn)行解剖標(biāo)志點(diǎn)檢測(cè)的醫(yī)學(xué)圖像分析中。LEE 等[10]將深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network,DCNN)應(yīng)用于頭影標(biāo)志點(diǎn)檢測(cè),通過(guò)訓(xùn)練38 個(gè)獨(dú)立的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),分別回歸了19個(gè)標(biāo)志點(diǎn)的x與y坐標(biāo),這種方法極大地增加了訓(xùn)練時(shí)間。針對(duì)醫(yī)學(xué)訓(xùn)練圖像有限的問(wèn)題,AUBERT等[11]以局部小塊圖像為樣本進(jìn)行坐標(biāo)點(diǎn)回歸,但這種基于圖像塊的方法只能利用局部信息而忽略全局信息,無(wú)法對(duì)所有標(biāo)志點(diǎn)進(jìn)行準(zhǔn)確預(yù)測(cè)。ARIK 等[12]使用CNN 對(duì)輸入圖像的小塊進(jìn)行訓(xùn)練,輸出標(biāo)志點(diǎn)的概率估計(jì),并通過(guò)基于形狀的模型對(duì)標(biāo)志點(diǎn)的位置進(jìn)行細(xì)化。由于上述方法都是基于標(biāo)志點(diǎn)坐標(biāo)的直接回歸,丟失了特征圖上的空間信息,因此學(xué)者們提出了基于高斯熱圖的方法來(lái)回歸坐標(biāo)點(diǎn),如PAYER等[13]將U-Net網(wǎng)絡(luò)與空間配置網(wǎng)絡(luò)相結(jié)合,ZHONG等[14]使用全局U-Net將整張圖像輸入,而局部U-Net將19個(gè)圖像塊作為輸入,實(shí)現(xiàn)了低分辨率與高分辨率相結(jié)合的熱圖回歸。
由于圖像訓(xùn)練數(shù)據(jù)集有限,現(xiàn)有多數(shù)醫(yī)學(xué)影像標(biāo)志點(diǎn)檢測(cè)算法均采用非常淺顯的網(wǎng)絡(luò)進(jìn)行特征提取,并沒(méi)有以高分辨率輸出特征圖,導(dǎo)致預(yù)測(cè)值與真實(shí)值產(chǎn)生量化誤差。多尺度特征融合的方法通過(guò)將高層語(yǔ)義信息與低層語(yǔ)義信息相結(jié)合,使關(guān)鍵點(diǎn)定位任務(wù)中輸入的多尺度特征信息更加豐富,從而提高檢測(cè)精度,很好地解決上述問(wèn)題。受此啟發(fā),QI等[15]提出一種人臉關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò),引入多尺度特征圖融合思想來(lái)提升主干網(wǎng)絡(luò)MobileNet 在人臉關(guān)鍵點(diǎn)檢測(cè)的準(zhǔn)確率。ZHANG[16]和LI[17]分別利用主干網(wǎng)絡(luò) MobileNetV3 和沙漏網(wǎng)絡(luò)(Hourglass Network,HN)實(shí)現(xiàn)多尺度特征的提取和融合,同時(shí)在特征融合時(shí)通過(guò)添加注意力機(jī)制對(duì)不同尺度標(biāo)志點(diǎn)信息進(jìn)行集中學(xué)習(xí),最后精確地輸出交通標(biāo)志中心點(diǎn)(MRI 解剖點(diǎn))的位置信息。
為了將多尺度特征融合的思想應(yīng)用到醫(yī)學(xué)標(biāo)志點(diǎn)檢測(cè)中,本文提出一種改進(jìn)的多尺度特征融合檢測(cè)模型AIW-Net,其中W-Net 相比只有兩條采樣路徑的U-Net[18]、V-Net[19]的特征融合更加多樣化。AIW-Net使用基于Imagenet 數(shù)據(jù)集進(jìn)行初始化的預(yù)訓(xùn)練模型MobileNetV2 進(jìn)行特征提取,中間模塊受Bi-FPN[20]的影響采用雙向采樣路徑,在下采樣過(guò)程中采用改進(jìn)的倒殘差結(jié)構(gòu)減少特征損失。解碼器采用上采樣卷積路徑,使特征圖的尺寸恢復(fù)到原始分辨率大小,同時(shí)將得到的多個(gè)尺度的熱圖與特征圖相結(jié)合。
AIW-Net 使用輕量級(jí)網(wǎng)絡(luò)MobileNetV2 作為骨干網(wǎng)絡(luò)。針對(duì)圖像的不同分辨率,MobileNetV2 的特征提取部分可以被靈活劃分為幾個(gè)不同的階段。MobileNetV2 相比VGG、ResNet 等其他骨干網(wǎng)絡(luò),在保持相同預(yù)測(cè)精度的同時(shí)顯著減少了所需操作與內(nèi)存數(shù)量。MobileNetV2 的核心模塊為倒殘差(Inverted Residuals)模塊,與傳統(tǒng)殘差模塊的卷積結(jié)構(gòu)相反,該模塊的結(jié)構(gòu)為“擴(kuò)展-深度分離卷積-壓縮”。本文將MobileNetV2 網(wǎng)絡(luò)劃分為5 個(gè)階段,在每個(gè)階段對(duì)輸出的特征圖采用步長(zhǎng)為2 的卷積,特征圖的分辨率均減小1/2。在每個(gè)階段之后將其輸出的通道數(shù)目進(jìn)行調(diào)整,使用MobileNetV2_c 表示調(diào)整后的網(wǎng)絡(luò),其結(jié)構(gòu)如圖1 所示。其中:t表示通道膨脹系數(shù);c1 與c2 分別表示原始輸出與調(diào)整后的通道數(shù);n表示重復(fù)模塊個(gè)數(shù);s表示步長(zhǎng);“—”表示該數(shù)據(jù)未知。
圖1 MobileNetV2_c 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of MobileNetV2_c network
本文的主要任務(wù)是從頭顱影像中找出所有標(biāo)志點(diǎn){P1,P2,…,P19}的位置。圖2 所示為AIW-Net 的網(wǎng)絡(luò)結(jié)構(gòu),其中每個(gè)特征圖上方的數(shù)字為通道數(shù)量。由圖2 可知,該網(wǎng)絡(luò)由提取特征的輕量級(jí)編碼器網(wǎng)絡(luò)MobileNetV2_c、對(duì)多尺度特征進(jìn)行融合的中間模塊、對(duì)多尺度預(yù)測(cè)熱圖進(jìn)行不斷優(yōu)化更新的解碼器網(wǎng)絡(luò)組成。為方便敘述,定義特征尺度水平{W0,W1,…,Wn},分別對(duì)應(yīng)具有0,2,…,2n像素的輸入圖像步長(zhǎng)。在以往的多尺度特征融合研究中,F(xiàn)PN[21]與PANet[22]網(wǎng)絡(luò)通過(guò)特征圖相加的方式僅融合了ResNet 骨干從W2到W5的尺度水平。而B(niǎo)i-FPN[20]僅結(jié)合了EfficientNet 網(wǎng)絡(luò)從W3到W7的尺度水平。相較而言,本文的中間模塊與解碼器網(wǎng)絡(luò)結(jié)合了MobileNetV2 網(wǎng)絡(luò)從W0到W5的所有尺度水平(包括與輸入圖像具有相同分辨率的尺度水平W0),整個(gè)網(wǎng)絡(luò)能夠使用更高分辨率的特征。
圖2 AIW-Net 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of AIW-Net network
本文定義fj(j=0,1,2)為中間模塊與解碼器網(wǎng)絡(luò)的第j條采樣路徑的特征圖。中間模塊部分包括一個(gè)雙向(上采樣與下采樣)路徑,如圖3 所示。在上采樣路徑中,每張?zhí)卣鲌D以2 的倍數(shù)進(jìn)行上采樣,該路徑的基本單元如圖3(a)所示。圖3(b)所示為中間模塊下采樣路徑的基本單元。骨干網(wǎng)絡(luò)中輸出的第i層(i=1,2,3,4,5)特征圖為Fi,它與第i+1 層上采樣操作Up后的特征圖執(zhí)行通道合并的融合操作⊕后,采用ReLU激活函數(shù),最終得到輸出,其表達(dá)式如式(1)所示:
圖3 中間模塊路徑的基本單元Fig.3 Path basic unit of intermediate module
骨干網(wǎng)絡(luò)最終生成的尺度特征圖F5經(jīng)過(guò)3×3和1×1的卷積層后,構(gòu)成了上采樣路徑中的第1 個(gè)開(kāi)始單元。
在下采樣路徑中,為了彌補(bǔ)圖像分辨率逐漸降低造成的信息損失,采用一種改進(jìn)的倒殘差網(wǎng)絡(luò)結(jié)構(gòu)(stride=2)進(jìn)行下采樣,通過(guò)深度可分離卷積大幅減小網(wǎng)絡(luò)模型的參數(shù)個(gè)數(shù),該網(wǎng)絡(luò)結(jié)構(gòu)將在2.2 節(jié)詳細(xì)介紹。下采樣之后的特征圖與上采樣路徑中具有相同分辨率的特征圖進(jìn)行連接,得到新的特征輸出,其表達(dá)式如式(2)所示:
其中:IR*為自定義的倒殘差卷積操作。
為盡量避免由于下采樣過(guò)程中出現(xiàn)圖像特征損失導(dǎo)致的標(biāo)志點(diǎn)預(yù)測(cè)準(zhǔn)確率下降問(wèn)題,采用MobileNet 系列中一種稱為“倒殘差”的結(jié)構(gòu),即每次經(jīng)過(guò)深度卷積過(guò)濾之后與該次深度卷積之前的圖像特征進(jìn)行相加,并作為下一次的輸入。該結(jié)構(gòu)包含輕量級(jí)卷積,即深度可分離卷積,其相對(duì)于普通卷積最大化地減少了網(wǎng)絡(luò)的參數(shù)量。原始的倒殘差結(jié)構(gòu)在輸入尺寸與深度卷積后的尺寸不同的情況下(stride=2)直接采用卷積后的特征作為下一模塊的輸入。受步長(zhǎng)為1 的倒殘差結(jié)構(gòu)[23]的啟發(fā),本文將該結(jié)構(gòu)進(jìn)行改進(jìn),即將輸入圖像的分辨率大小經(jīng)過(guò)3×3 的深度卷積變換生成與輸出尺寸相同的特征圖,并將兩者合并作為下一次卷積的輸入。為盡量避免模型發(fā)生過(guò)擬合現(xiàn)象,采用ReLU6 激活函數(shù)加速模型收斂,該函數(shù)的計(jì)算式如式(3)所示。
改進(jìn)前后步長(zhǎng)為2 的倒殘差結(jié)構(gòu)如圖4 所示。顯然,將改進(jìn)后的結(jié)構(gòu)應(yīng)用于下采樣過(guò)程后,特征圖中不僅包含了通過(guò)卷積操作后分辨率減半的特征,而且增加了對(duì)輸入圖像進(jìn)行深度卷積后的特征,從而使下采樣輸出的特征圖信息更加豐富。
圖4 改進(jìn)前后的倒殘差結(jié)構(gòu)Fig.4 Backward residual structure before and after improvement
與U-Net 網(wǎng)絡(luò)中的解碼器設(shè)計(jì)類似,本文解碼器部分也是一條上采樣路徑,每次以2 的步長(zhǎng)上采樣,最終使特征分辨率從W5恢復(fù)到W0,如圖4 所示。由于在低級(jí)特征層上圖像分辨率逐漸變大,因此使用小的通道來(lái)減小參數(shù)數(shù)目。在W2與W1特征層將合并后的特征圖通道數(shù)分別減少為256、128。同時(shí)為了在最高分辨率的特征圖上得到最優(yōu)關(guān)鍵點(diǎn)信息,引入從粗到細(xì)的中間監(jiān)督進(jìn)一步細(xì)化標(biāo)志點(diǎn)的定位。定義第i個(gè)尺度(i∈{0,1,2,3})的特征融合映射關(guān)系φi:Pi=φi(a,b),表示將特征圖a進(jìn)行上采樣后與特征圖b進(jìn)行通道融合⊕操作;gi,i∈{0,1,2}表示在每個(gè)尺度上對(duì)融合的特征圖經(jīng)過(guò)3×3 與1×1 的卷積操作,生成不同分辨率預(yù)測(cè)熱圖的映射函數(shù),每個(gè)尺度上的映射關(guān)系如式(4)~式(6)所示:
其中:UP為上采樣操作;Pi表示在第i個(gè)尺度上生成的中間特征圖;yi表示在第i個(gè)尺度上Pi經(jīng)過(guò)1×1卷積最終生成的特征圖;hi∈R2表示預(yù)測(cè)的二維關(guān)鍵點(diǎn)熱圖,每個(gè)通道代表一個(gè)關(guān)鍵點(diǎn)的熱圖。每個(gè)尺度生成的預(yù)測(cè)熱圖數(shù)量關(guān)系如式(7)所示:
由式(7)可知,最終生成的特征圖y1與預(yù)測(cè)熱圖h1進(jìn)行特征融合后,能得到與輸入圖像F0具有相同分辨率的熱圖h0,達(dá)到最高分辨率的熱圖回歸。該方法可以更加精確與細(xì)化地預(yù)測(cè)頭影圖像標(biāo)志點(diǎn)。
在解碼器模塊與中間模塊的下采樣路徑之間引入針對(duì)通道的門信號(hào)思想,將下采樣路徑與解碼器節(jié)點(diǎn)的跳躍連接替換為注意力門模塊,使最終輸出的特征圖注意力集中在標(biāo)志點(diǎn)附近區(qū)域,有效抑制特征圖中對(duì)標(biāo)志點(diǎn)定位產(chǎn)生負(fù)面影響的背景區(qū)域響應(yīng)。注意力門模塊由多個(gè)函數(shù)構(gòu)成,定義如下:
其中:xi∈RH×W×Ci(i=1,2,3,4)為特征尺度Wi所對(duì)應(yīng)的下采樣過(guò)程中經(jīng)過(guò)1×1 卷積的輸出矩陣,H,W為特征圖的分辨率大小,Ci為輸出特征圖的通道數(shù);gi∈RH×W×C1為解碼器上采樣之后的輸出矩陣;σ1與σ2分別為ReLU 與Sigmoid 激活函數(shù);ψT∈R1×1×1、均是線性變換為1×1 卷積的參數(shù)矩陣;bg∈RC與bψ∈R 為卷積的偏置矩陣;輸出的注意力系數(shù)為連接操作之前注意力門的輸出結(jié)果;?為矩陣點(diǎn)乘操作。注意力門模塊如圖5所示。
圖5 注意力門模塊Fig.5 Attention gate module
對(duì)于熱圖回歸,標(biāo)志點(diǎn)檢測(cè)的實(shí)質(zhì)是預(yù)測(cè)以每個(gè)真實(shí)標(biāo)志點(diǎn)為中心的非標(biāo)準(zhǔn)化高斯分布的熱圖,然后執(zhí)行非極大抑制恢復(fù)標(biāo)志點(diǎn)的坐標(biāo)。為提高標(biāo)志點(diǎn)的回歸精度,將更加關(guān)注標(biāo)志點(diǎn)附近像素處的誤差,更少關(guān)注背景區(qū)域的像素誤差?;诖?,本文提出一種改進(jìn)的MSE 損失函數(shù),其表達(dá)式如式(10)所示:
其中:y與分別表示真實(shí)熱圖與預(yù)測(cè)熱圖每個(gè)位置的像素值;λ為超參數(shù),可以對(duì)真實(shí)熱圖的像素真值進(jìn)行指數(shù)加權(quán),隨著與標(biāo)志點(diǎn)距離的增加,權(quán)值λy逐漸減小為1。在訓(xùn)練過(guò)程中,解碼器在多個(gè)尺度Wi上多次生成標(biāo)志點(diǎn)熱圖hi,在每個(gè)熱圖輸出處定義一個(gè)像素平均損失函數(shù)Li,最終得到AIW-Net 的損失函數(shù)L,如式(11)~式(12)所示:
3.1.1 數(shù)據(jù)集及其處理
本文采用ISBI 2015 Grand Challenge[10]提供的 cephalometric X-rays 數(shù)據(jù)集進(jìn)行頭影標(biāo)志點(diǎn)檢測(cè),共400 張cephalometric X-rays 圖像,每張圖像均包含由2 名專業(yè)醫(yī)生標(biāo)注的19 個(gè)標(biāo)志點(diǎn),圖像示例見(jiàn)圖6。表1 列出了圖6 標(biāo)注的19 個(gè)標(biāo)志點(diǎn)及其名稱。取2 名醫(yī)生標(biāo)注的平均值作為訓(xùn)練與測(cè)試的真實(shí)標(biāo)簽。每張圖像的分辨率為2 400×1 935 像素,每個(gè)像素值大約為0.1 mm。cephalometric X-rays 數(shù)據(jù)集劃分為用于訓(xùn)練的150 張圖像以及用于測(cè)試的150 張Test 1 數(shù)據(jù)集與100 張Test 2 數(shù)據(jù)集。為加速網(wǎng)絡(luò)收斂,對(duì)每一張圖像進(jìn)行歸一化的增強(qiáng)操作,將輸入X-rays 圖像RGB 通道的均值分別設(shè)置為mean=[0.485,0.456,0.406],對(duì)應(yīng)的方差分別是std=[0.229,0.224,0.225]。
圖6 cephalometric X-rays 圖像示例Fig.6 Example of cephalometric X-rays image
表1 19 個(gè)標(biāo)志點(diǎn)及其名稱Table 1 19 mark points and their names
3.1.2 評(píng)價(jià)指標(biāo)
受ISBI 2015 Grand Challenge 的啟發(fā),本文將平均徑向誤差(Mean Radial Error,MRE)與成功檢測(cè)率(Successful Detection Rate,SDR)作為頭影標(biāo)志點(diǎn)檢測(cè)的評(píng)價(jià)指標(biāo)。平均徑向誤差表達(dá)式如式(13)和式(14)所示:
其中:Δx與Δy分別為預(yù)測(cè)標(biāo)志點(diǎn)與真實(shí)標(biāo)志點(diǎn)在x與y坐標(biāo)上的絕對(duì)誤差;K為標(biāo)志點(diǎn)的數(shù)量;N為測(cè)試階段圖片的數(shù)量。成功檢測(cè)率表示若絕對(duì)誤差在某個(gè)范圍內(nèi),則認(rèn)為它在該范圍內(nèi)是正確的,成功檢測(cè)率的表達(dá)式如式(15)和式(16)所示:
其中:z代表測(cè)量范圍;N0表示在該范圍內(nèi)的圖片數(shù)量;N為測(cè)試時(shí)全部圖片的數(shù)量;K為標(biāo)志點(diǎn)的數(shù)量。在實(shí)驗(yàn)中,SDR 評(píng)估了當(dāng)z=2.0 mm,2.5 mm,3.0 mm,4.0 mm時(shí)模型成功檢測(cè)到標(biāo)志點(diǎn)的百分比。
實(shí)驗(yàn)基于PyTorch1.8.0 框架與Python3.6 實(shí)現(xiàn),將輸入網(wǎng)絡(luò)的圖像設(shè)置為800×640 像素大小。經(jīng)過(guò)多次訓(xùn)練比較,設(shè)置損失函數(shù)的超參數(shù)λ為50,初始學(xué)習(xí)率為0.000 1,每經(jīng)過(guò)50 個(gè)epoch 便以0.1 倍進(jìn)行衰減。使用Adam 優(yōu)化器對(duì)網(wǎng)絡(luò)在GeForce RTX 2080 Ti GPU 上進(jìn)行500 個(gè)epoch 的訓(xùn)練,每次批量大小設(shè)置為1。
3.3.1 與其他頭影標(biāo)志點(diǎn)檢測(cè)模型比較
將現(xiàn)有頭影測(cè)量標(biāo)志點(diǎn)檢測(cè)模型與本文AIWNet 模型的性能進(jìn)行對(duì)比,結(jié)果如表2 所示,表中加粗?jǐn)?shù)字表示該組數(shù)據(jù)最大值,“—”表示無(wú)此數(shù)據(jù)。由 表2 可 知,AIW-Net 模型在Test 1 與Test 2 數(shù)據(jù)集上的MRE 分別為1.14 mm 與1.40 mm,與文獻(xiàn)[14]提出的模型性能相當(dāng),但相較于文獻(xiàn)[3]、文獻(xiàn)[6]與文獻(xiàn)[12]所提出的模型性能有大幅提升。當(dāng)z=2.0 mm,2.5 mm,3.0 mm,4.0 mm 時(shí),AIW-Net 模型的SDR 值在Test 1 數(shù)據(jù)集上分別為86.38%、92.10%、95.50%與98.52%,在Test 2 數(shù)據(jù)集上分別為75.91%、83.52%、89.31%與94.68%。
表2 AIW-Net 模型與其他模型的檢測(cè)結(jié)果Table 2 Detection results of AIW-Net model and other models
IBRAGIMOV 等[3]和LINDNER 等[6]模型通過(guò)結(jié)合隨機(jī)森林與統(tǒng)計(jì)形狀機(jī)器學(xué)習(xí)模型取得了不錯(cuò)成績(jī),與以上模型相比,AIW-Net 模型的SDR 值在Test1 數(shù)據(jù)集2 mm 檢測(cè)范圍內(nèi)分別增加了14.68%、11.43%,MRE 值分別減少了0.70 mm 和0.53 mm。在基于深度學(xué)習(xí)的模型中,相對(duì)于最先進(jìn)的ZHONG[14]模型,本文模型在2.5 mm、3 mm 以及4 mm 檢測(cè)范圍內(nèi)的成功檢測(cè)率均高于該模型,雖然本文模型在2 mm 范圍內(nèi)的SDR 值低于ZHONG[14]模 型,但ZHONG[14]模型采用多個(gè)階段U-Net 網(wǎng)絡(luò)(全局與局部U-Net)以及基于圖像塊的模型回歸熱圖,增加了時(shí)間與運(yùn)算成本。
將本文模型分別與OH[24]模型、ZHONG[14]模型進(jìn)行對(duì)比,采用模型參數(shù)量、運(yùn)算復(fù)雜度、模型尺寸、單張圖像訓(xùn)練時(shí)間4 個(gè)指標(biāo)進(jìn)行評(píng)價(jià),結(jié)果如表3所示。
表3 不同模型復(fù)雜度的對(duì)比結(jié)果Table 3 Comparison results of complexity of different models
由表3 可以看出,本文模型通過(guò)使用輕量級(jí)主干網(wǎng)絡(luò)MobileNetV2,并在采樣路徑中采用改進(jìn)的倒殘差結(jié)構(gòu)而沒(méi)有使用普通卷積層,加快了模型收斂,使模型參數(shù)量比ZHONG[14]模型降低了28M;在運(yùn)算復(fù)雜度與模型大小上,本文模型比ZHONG[14]模型降低了16.8 frame/s 和162 MB,能夠部署到資源受限的設(shè)備上。在batch size 同為1 的情況下,本文模型的單張圖像訓(xùn)練速度相對(duì)于ZHONG[14]模型提高了將近1.5 倍。OH[24]模型在復(fù)雜度指標(biāo)上與本文模型基本相當(dāng),但在Test 1 與Test 2 數(shù)據(jù)集上的MRE 值與SDR 值卻不及本文模型。綜上可知,本文模型在模型運(yùn)算復(fù)雜度與預(yù)測(cè)精度之間實(shí)現(xiàn)了平衡。
3.3.2 與經(jīng)典關(guān)鍵點(diǎn)檢測(cè)模型的對(duì)比
為進(jìn)一步說(shuō)明本文AIW-Net 模型的有效性,對(duì)比了其他先進(jìn)的關(guān)鍵點(diǎn)檢測(cè)模型在Test 1 數(shù)據(jù)集上的結(jié)果,結(jié)果如表4 所示,表中加粗?jǐn)?shù)字表示該粗?jǐn)?shù)據(jù)最大值。
表4 不同模型在Test 1 數(shù)據(jù)集上的結(jié)果對(duì)比Table 4 Comparison of results of different models on Test 1 dataset
由表4 可知,本文模型相對(duì)于其他關(guān)鍵點(diǎn)檢測(cè)模型性能較好,而且在臨床實(shí)踐可接受的2 mm 與2.5 mm 范圍內(nèi),其SDR 值相對(duì)于性能次之的CPN 模型分別提高了1.54%、0.91%。Unet 模型使用較淺的骨干網(wǎng)絡(luò)VGG 作為編碼器,在網(wǎng)絡(luò)訓(xùn)練過(guò)程中需要900 個(gè)epoch 才能達(dá)到最終收斂。AIW-Net 模型相對(duì)于FPN 模型而言,其MRE 值直接減少了0.20 mm,表明使用增加雙重采樣路徑和采用通道合并的融合方式可以實(shí)現(xiàn)更好的特征融合。表4 中其余幾種模型在二維人體姿態(tài)估計(jì)[22-24]任務(wù)中表現(xiàn)出了良好的性能,但在靜態(tài)的醫(yī)學(xué)圖像關(guān)鍵點(diǎn)檢測(cè)中卻表現(xiàn)一般。AIW-Net 模型將人體姿態(tài)估計(jì)的熱圖回歸方法引入到醫(yī)學(xué)圖像中,在圖像關(guān)鍵點(diǎn)的回歸與自動(dòng)定位中實(shí)現(xiàn)了重大突破。
為驗(yàn)證本文所提標(biāo)志點(diǎn)檢測(cè)模型的合理性與優(yōu)越性,在Test 1 數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。針對(duì)本文所設(shè)計(jì)的引入中間監(jiān)督的多尺度熱圖融合結(jié)構(gòu)、改進(jìn)的倒殘差結(jié)構(gòu)、注意力門模塊,與以下模型進(jìn)行對(duì)比:
1)W-Net*模型,其經(jīng)過(guò)預(yù)訓(xùn)練且未添加上述模塊,損失函數(shù)為多尺度指數(shù)加權(quán)(multi-EW)函數(shù),該模型的形狀類似于“W”。
2)W-Net 模型,添加多尺度中間熱圖的結(jié)構(gòu)。
3)IW-Net 模 型,在W-Net 模型中添加改進(jìn)的倒殘差結(jié)構(gòu)。
4)AIW-Net 模型,在IW-Net 模型中添加注意力門模塊。
5)AIW-Net*模型,使用多尺度均方差(multi-MSE)作為損失函數(shù)。
不同模型在Test 1 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表5所示,表中加粗?jǐn)?shù)字為該組數(shù)據(jù)的最大值。
表5 不同模型在Test 1 數(shù)據(jù)集上的結(jié)果Table 5 Results of different models on Test 1 dataset
由表5 可知,AIW-Net 模型的表現(xiàn)性能最好,在臨床可接受范圍2 mm 與2.5 mm 內(nèi)的SDR 值分別為86.38%與92.10%。通過(guò)對(duì)比W-Net*與W-Net 模型可知,使用中間監(jiān)督生成不同尺度的熱圖,然后將不同尺度的熱圖與特征圖進(jìn)行融合,能夠使MRE 值降低0.08 mm,使得在2 mm 范圍內(nèi)的SDR 值提升了0.68%,這說(shuō)明熱圖融合的方法在特征提取方面發(fā)揮了良好的作用。
由表5 還可知,由于W-Net 模型在原模型的基礎(chǔ)上添加了倒殘差結(jié)構(gòu)(IR*),使得其標(biāo)志點(diǎn)的MRE值直接從原來(lái)的1.28 mm 降低為1.18 mm,且在2 mm、2.5 mm 以及3 mm 范圍內(nèi)的SDR 值均有所提升。由于標(biāo)志點(diǎn)的像素區(qū)域比背景區(qū)域小得多,容易影響標(biāo)志點(diǎn)的準(zhǔn)確預(yù)測(cè),因此本文通過(guò)添加注意力門模塊使特征圖的響應(yīng)集中在目標(biāo)關(guān)鍵點(diǎn)周圍,降低受其他背景結(jié)構(gòu)(如耳朵,牙齒,下頜骨)遮擋的標(biāo)志點(diǎn)的錯(cuò)誤檢測(cè)率,具體結(jié)果如圖7 所示。由圖7可知,由于AIW-Net 模型添加了注意力門模塊,圖7中第1 行被耳朵與牙齒遮擋的標(biāo)志點(diǎn)4 與標(biāo)志點(diǎn)6,以及圖7 中第2 行被下頜骨背景遮擋的標(biāo)志點(diǎn)10,其定位效果都更加接近真實(shí)標(biāo)志點(diǎn)。
圖7 添加注意力門前后標(biāo)志點(diǎn)檢測(cè)結(jié)果Fig.7 Detection results of mark points before and after adding attention gate
圖8 與 圖9 分別為AIW-Net 模型在Test 1 與Test 2 數(shù)據(jù)集上輸出圖像與輸入圖像具有相同分辨率(800×640 像素)的預(yù)測(cè)熱圖,以及由熱圖轉(zhuǎn)換的預(yù)測(cè)點(diǎn)與真實(shí)點(diǎn)可視化結(jié)果。從圖8 與圖9 可知,即使在個(gè)體頭部組織結(jié)構(gòu)存在較大差異以及在采集的X 射線圖像較模糊的情況下,本文模型依然能準(zhǔn)確預(yù)測(cè)標(biāo)志點(diǎn)。最后本文對(duì)比了不同損失函數(shù)對(duì)AIW-Net 與AIW-Net*模型性能的影響,具體結(jié)果如表5 最后兩行數(shù)據(jù)所示,可以看出,使用多尺度指數(shù)加權(quán)(multi-EW)函數(shù)后,MRE 值減少了0.03 mm,且在標(biāo)志點(diǎn)附近2 mm 誤差范圍內(nèi)的SDR 值達(dá)到了86.38%,證明了本文所提損失函數(shù)的有效性。
圖8 AIW-Net 模型在Test 1 數(shù)據(jù)集上的可視化結(jié)果Fig.8 Visualization results of AIW-Net model on Test 1 dateset
圖9 AIW-Net 模型在Test 2 數(shù)據(jù)集上的可視化結(jié)果Fig.9 Visualization results of AIW-Net model on Test 2 dateset
本文面向頭影測(cè)量X 射線標(biāo)志點(diǎn)檢測(cè)任務(wù),提出一種改進(jìn)的多尺度特征融合的AIW-Net 端到端檢測(cè)模型。采用預(yù)訓(xùn)練的輕量型網(wǎng)絡(luò)MobileNetV2 提取特征,并通過(guò)中間模塊與解碼器不斷優(yōu)化檢測(cè)效果。在中間模塊的下采樣路徑中采用改進(jìn)的倒殘差結(jié)構(gòu)減少特征損失,在解碼器中采用上采樣卷積路徑將特征圖尺寸恢復(fù)到到原始分辨率大小,并引入從粗到細(xì)的中間監(jiān)督思想,實(shí)現(xiàn)多個(gè)尺度熱圖與特征圖的融合。實(shí)驗(yàn)結(jié)果表明,本文模型在臨床實(shí)踐可接受誤差范圍內(nèi)的檢測(cè)效果好于W-Net、IW-Net等模型。下一步將對(duì)解碼器網(wǎng)絡(luò)以及數(shù)據(jù)增強(qiáng)方式進(jìn)行改進(jìn),解決頭影標(biāo)志點(diǎn)檢測(cè)模型在頭影邊緣輪廓區(qū)域的檢測(cè)精度相對(duì)其他區(qū)域較低的問(wèn)題。