楊恒,顧晨亮,胡厚民,張勁,李康,何凌
1.四川大學(xué)電氣工程學(xué)院,成都 610065;;
2.中國西南電子技術(shù)研究所,成都 610036;
3.四川大學(xué)生物醫(yī)學(xué)工程學(xué)院,成都 610065
頭影測量分析廣泛應(yīng)用于正畸診斷、正頜矯治、整形手術(shù)規(guī)劃以及治療評估中。從側(cè)位片標(biāo)注牙齒、骨骼以及軟組織結(jié)構(gòu)的標(biāo)志點(diǎn)是量化頭影臨床參數(shù)的一個(gè)重要前提,即位于側(cè)位顱骨X 射線圖像上經(jīng)過嚴(yán)格定義的解剖關(guān)鍵點(diǎn)通過相互關(guān)聯(lián),對特定距離和角度進(jìn)行線性測量。然而,由于設(shè)備成像質(zhì)量的限制以及解剖結(jié)構(gòu)的個(gè)體差異,難以精確可靠地定位顱骨側(cè)位圖像上的標(biāo)志點(diǎn)(任家豪 等,2023);此外,傳統(tǒng)依賴于醫(yī)生手動標(biāo)注的方式不僅非常煩瑣與耗時(shí),而且主觀性的差異導(dǎo)致不同經(jīng)驗(yàn)的臨床專家給出不一致的注釋位置(敖悅源,2022)。因此,建立一個(gè)準(zhǔn)確快速且穩(wěn)健的頭部關(guān)鍵點(diǎn)識別系統(tǒng)將有助于臨床醫(yī)生進(jìn)行診斷治療。
2014—2015年,IEEE 國際生物醫(yī)學(xué)成像研討會(International Symposium on Biomedical Imaging,ISBI)上,該研究受到大量關(guān)注,并收獲了顯著的成果。然而,即便是報(bào)告結(jié)果中的最佳精度,也僅有72.74%的關(guān)鍵點(diǎn)落在臨床可接受的2 mm 精度范圍內(nèi)(Wang等,2015),遠(yuǎn)未達(dá)到臨床實(shí)踐的既定目標(biāo)。近年來,深度學(xué)習(xí)方法極大地推動了頭影關(guān)鍵點(diǎn)檢測的發(fā)展,與早期基于啟發(fā)式特征(Grau 等,2001)、模板匹配(Kaur 和Singh,2015)和隨機(jī)森林(Lindner和Cootes,2015)等傳統(tǒng)圖像處理方法相比,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的應(yīng)用使得學(xué)者能夠更加準(zhǔn)確和穩(wěn)健地識別解剖點(diǎn)(Zhong等,2019)。基于CNN 的模型能夠更好地理解局部信息并獲取不同層次的語義特征,因此在解剖關(guān)鍵點(diǎn)檢測領(lǐng)域已成為主流方法。例如,Lee 等人(2017)訓(xùn)練了38 個(gè)獨(dú)立的CNN 網(wǎng)絡(luò)來回歸頭影圖像中19 個(gè)解剖點(diǎn)的坐標(biāo)變量,但這無疑增加了系統(tǒng)的復(fù)雜性和時(shí)間消耗。Payer 等人(2019)提出了一種空間配置網(wǎng)絡(luò)(spatial configuration net,SCN),其利用一個(gè)組件生成局部候選預(yù)測,另一個(gè)組件結(jié)合關(guān)鍵點(diǎn)的空間配置來獲得細(xì)化坐標(biāo),最終獲得了73.33%的2 mm 內(nèi)準(zhǔn)確率。Chen 等人(2019)構(gòu)建了一個(gè)注意力特征金字塔融合模塊(attentive feature pyramid fusion,AFPF),并將預(yù)訓(xùn)練的VGG-19(Visual Geometry Group)網(wǎng)絡(luò)作為編碼器,通過融合不同層次的特征以便在AFPF 模塊中獲得高分辨率語義增強(qiáng)后的特征信息,最后將偏移圖與熱圖組合,并進(jìn)行逐像素投票來獲得概率值最大的解剖點(diǎn)位置,在兩個(gè)測試集中分別獲得1.17 mm 和1.48 mm 的平均誤差。Gilmour 和Ray(2020)以從粗到細(xì)的方式在多尺度圖像塊中回歸每個(gè)地標(biāo)的相對位移,并獲得了令人鼓舞的86.72%的2 mm內(nèi)精度,但與解剖標(biāo)志點(diǎn)相同的模型數(shù)量導(dǎo)致了極大的內(nèi)存開銷。Li 等人(2020)提出了一種結(jié)合局部圖像信息與全局形狀特征的拓?fù)鋵W(xué)深度圖神經(jīng)網(wǎng)絡(luò),從輸入圖像中直接回歸標(biāo)志點(diǎn)位置,盡管避免了熱圖檢測產(chǎn)生的潛在錯(cuò)誤,但仍受限于紋理細(xì)節(jié)丟失的問題。
然而,現(xiàn)有方法存在一些局限性和弊端。首先,X 射線圖像的尺寸相對較大,直接在原始圖像上進(jìn)行計(jì)算是不切實(shí)際的。盡管已有一些兩階段框架(Zhong等,2019;Zeng等,2021;He等,2021)的方法,其中全局階段生成候選區(qū)域,而細(xì)化階段在裁剪的高分辨率補(bǔ)片中定位地標(biāo),但這無疑會增加過程的復(fù)雜性,因?yàn)槊總€(gè)關(guān)鍵點(diǎn)都需要再次進(jìn)行訓(xùn)練。此外,解剖標(biāo)志點(diǎn)的特殊性對研究人員提出了挑戰(zhàn),例如:尺寸通常較小,擁有特殊的空間位置信息,并且不同位置的結(jié)構(gòu)特征可能共享相似的弧度、大小、密度以及周圍組織信息,這些信息難以區(qū)分?;贑NN 的模型通過應(yīng)用下采樣來提取深度特征以促進(jìn)對全局信息的建模,但可能會遭受空間信息丟失的問題。因此,建立一個(gè)具有全局上下文建模和更好的局部空間特征表示的端到端模型來解決這些問題是本文的動機(jī)。
通過建模序列的長期依賴性,Transformer 能夠捕獲任意位置之間的相關(guān)性,并在各種自然語言處理任務(wù)中發(fā)揮重要的作用,其背后的核心思想是利用多頭自注意力機(jī)制(multi-head self-attention,MHSA)對序列標(biāo)記中的遠(yuǎn)程依賴關(guān)系進(jìn)行建模,這可以解釋為學(xué)習(xí)注意力權(quán)重分布并基于這些權(quán)重更新特征圖。受此啟發(fā),越來越多基于Transformer 的研究出現(xiàn)在醫(yī)學(xué)圖像分析以及關(guān)鍵點(diǎn)檢測領(lǐng)域中。Dosovitskiy 等人(2021)將輸入圖像進(jìn)行分塊,展平并組合成序列,在大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的條件下實(shí)現(xiàn)了出色的分類性能。TransUNet(Chen 等,2021)提出,由于Transformer在提取細(xì)粒度特征方面的不足,可能導(dǎo)致定位能力受到限制,因此引入Transformer作為特征編碼器并保留UNet的良好架構(gòu),在醫(yī)學(xué)圖像分割任務(wù)中取得了優(yōu)秀的結(jié)果。TransFuse(Zhang等,2021)試圖以并行方式組合CNN 與Transformer,證實(shí)了Transformer 的全局信息和 CNN 的低級特征細(xì)節(jié)有集成和融合的可能。此外,為了進(jìn)一步實(shí)現(xiàn)高效的全局上下文建模,Swin Transformer(Liu 等,2021)提出了移位窗口機(jī)制,其將自注意力限制在固定的大小中,極大地減少了冗余并增加了輸入尺寸的靈活 性。TransPose(Yang 等,2021)試圖通過Transformer 中內(nèi)置的注意力層揭示關(guān)鍵點(diǎn)之間的空間依賴關(guān)系,在人體姿態(tài)識別任務(wù)中實(shí)現(xiàn)了良好的性能。
盡管CNN 網(wǎng)絡(luò)在解剖關(guān)鍵點(diǎn)檢測領(lǐng)域?qū)崿F(xiàn)了優(yōu)秀的性能,但其在全局建模中的固有缺陷與歸納偏置仍未得到有效解決。鑒于此,受到現(xiàn)有方法的啟發(fā),本文提出一種基于Transformer 的混合編碼器—解碼器框架,其中以ResNet(residual neural network)作為CNN 骨干網(wǎng)絡(luò),利用Transformer 增強(qiáng)特征的全局表達(dá),以充分發(fā)揮各自的優(yōu)勢。
本文的主要貢獻(xiàn)如下:
1)針對全局位置信息與局部像素變化是解剖關(guān)鍵點(diǎn)檢測的首要需求,提出一種卷積增強(qiáng)型Transformer 模塊,在保留Transformer 表征長距離依賴關(guān)系的同時(shí),也增強(qiáng)了對局部細(xì)粒度信息的提取能力。
2)對Transformer 中多頭自注意力計(jì)算進(jìn)行改進(jìn),以增強(qiáng)其對關(guān)鍵點(diǎn)特殊位置的敏感性。
3)提出一種指數(shù)加權(quán)SmoothL1 損失函數(shù),以在一定程度上緩解頭影圖像中其他相似部位對目標(biāo)解剖點(diǎn)的干擾。通過強(qiáng)調(diào)目標(biāo)像素范圍的損失值,并減少遠(yuǎn)處信息對回歸的影響,模型能提取到更有判別信息的細(xì)粒度特征,從而能更有針對性地進(jìn)行特征學(xué)習(xí)。
4)在公開的X 射線頭影測量數(shù)據(jù)集上,本文模型取得了最好的成績,并展示了一定程度的臨床應(yīng)用價(jià)值。
所提出的CETransNet 主要由ResNet 編碼主干網(wǎng)絡(luò)、卷積增強(qiáng)型Transformer、解碼器模塊和跳躍連接4部分構(gòu)成。
由于CNN 側(cè)重于提取局部特征,而Transformer具有捕獲遠(yuǎn)距離關(guān)系的能力,因此本文利用ResNet作為主干網(wǎng)絡(luò)并在每個(gè)下采樣層級中嵌入Transformer,運(yùn)用跳躍連接與上采樣模塊相結(jié)合,構(gòu)建混合編碼器—解碼器架構(gòu),實(shí)現(xiàn)端到端的解剖點(diǎn)檢測功能。如圖1 所示,編碼器采用ResNet-101,并對輸入的頭影圖像(分辨率大小為H×W× 3,H和W分別為圖像對應(yīng)的高度和寬度所占的像素尺寸)進(jìn)行層級式特征編碼,因而特征圖由一系列殘差塊的輸出組成,方便起見,統(tǒng)一表示為Cn(n=1,2,3,4)。之后,將每一個(gè)層級輸出特征Cn饋送至所提出的卷積增強(qiáng)型Transformer 模塊,其中線性嵌入層負(fù)責(zé)將Cn投影至K維向量,并在計(jì)算自注意力后獲取關(guān)鍵點(diǎn)的全局依賴關(guān)系。此外,編碼器和解碼器的相應(yīng)特征按照 UNet的方式進(jìn)行連接。最后,由特征恢復(fù)層與預(yù)測層執(zhí)行多解剖點(diǎn)位置預(yù)測。
圖1 CETransNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 The structure of CETransNet
CNN主干網(wǎng)絡(luò)作為特征提取的編碼器,主要由池化層以及固定數(shù)量的殘差模塊構(gòu)成。具體而言,對于所采用的ResNet-101,C1至C4分別包含3、4、23、3個(gè)殘差塊,如圖2所示,其結(jié)構(gòu)由3個(gè)級聯(lián)的卷積層組成,每個(gè)卷積層均跟有一個(gè)批量歸一化層(batch normalization,BN)和ReLU(rectified linear unit)激活函數(shù),并通過殘差連接將輸入信息跳過卷積運(yùn)算,于最后的ReLU操作前直接相加在模塊中。此外,每組殘差塊的第1個(gè)3 × 3卷積層采用跨步卷積(步長設(shè)置為2),由此,圖像特征圖就能夠逐層縮小尺寸。通過這種層級式結(jié)構(gòu),信息便以特征金字塔的形式進(jìn)行編碼。
圖2 殘差塊結(jié)構(gòu)Fig.2 The structure of residual block
卷積增強(qiáng)型Transformer 模塊如圖3 所示,所提出的改進(jìn)Transformer 模塊以層標(biāo)準(zhǔn)化操作開始,并經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn)(具體見3.2 節(jié)),與直接創(chuàng)建圖像的塊狀投影相比,順序應(yīng)用帶有3 × 3小內(nèi)核的連續(xù)卷積操作有助于更好地編碼圖像信息,因此層歸一化之后會先進(jìn)行級聯(lián)的卷積運(yùn)算。此外,由于標(biāo)準(zhǔn)Transformer 采用線性方向進(jìn)行特征投影,從而將圖像展平至一維的補(bǔ)丁向量,但這也導(dǎo)致了一部分空間上下文信息的丟失。
圖3 卷積增強(qiáng)型Transformer模塊Fig.3 Convolution enhanced Transformer module
鑒于此,本文構(gòu)建了卷積投影層,采用3 × 3 內(nèi)核大小的深度可分離卷積(depthwise separable convolution,DSC)作為轉(zhuǎn)換算子,并且每個(gè)卷積層后面都跟有一個(gè)組歸一化激活函數(shù)(group normalization,GeLU),以降低計(jì)算成本并更好地利用圖像上下文信息。隨后,獲得的特征映射p=Rh×w×c將被展平至(hw) ×c,以作為計(jì)算自注意力的輸入信息。值得注意的是,這里提取的圖像補(bǔ)丁是重疊的,以最大程度地保留圖像所具有的局部細(xì)節(jié),并且卷積操作不會改變特征的整體輸出大小。此外,由于采用了卷積操作,額外的位置編碼將無需采用,這進(jìn)一步降低了模型的計(jì)算開支。隨后,與標(biāo)準(zhǔn)Transformer 模型一樣,對獲取的補(bǔ)丁向量進(jìn)行多頭自注意力計(jì)算,但與之不同的是,這里對MHSA層進(jìn)行了改進(jìn)(具體見1.4節(jié))。通常情況下,MHSA塊之后是線性層,因而會失去一定的上下文信息,用卷積直接替換這些線性層是一種相對簡單的方法,其可以緩解這個(gè)問題并提高性能。然而,醫(yī)學(xué)圖像需要細(xì)粒度的信息處理,考慮到這一點(diǎn),本文將線性層替換成多分支卷積層,其中一個(gè)分支應(yīng)用標(biāo)準(zhǔn)小核卷積,而其他分支則采用不同擴(kuò)張率的膨脹卷積以重塑結(jié)構(gòu)信息并增大感受野,因此可以獲得更好的空間背景。隨后,這些特征被融合并被饋送至多層感知機(jī)(multilayer perceptron,MLP),并采用殘差連接以增加特征在整個(gè)層中的傳播。最后的特征將被重塑維度與尺寸以適應(yīng)模型傳遞所需的分辨率大小。
為了在MHSA 中更好地捕獲局部和全局特征,本文提出改進(jìn)的多頭自注意力計(jì)算,首先采用全局平均池化操作,分別獲得特征圖在縱向和橫向的統(tǒng)計(jì)向量,再利用矩陣相乘將多維度注意力特征進(jìn)行融合。通過這種方式,Transformer 在計(jì)算注意力的同時(shí)也會獲得與位置相關(guān)的特征向量。因此,模型能夠更好地編碼來自解剖標(biāo)志點(diǎn)的特殊位置信息。具體而言,自注意力的計(jì)算過程為
式中,Q表示查詢(query),K表示鍵(key),V表示值(value),B表示位置編碼,d表示Q向量和K向量的維度大小,att()計(jì)算為
式中,?表示矩陣相乘,其左右分別代表水平方向和垂直方向上經(jīng)過自適應(yīng)平均池化操作后的空間特征統(tǒng)計(jì)向量。
圖像經(jīng)過主干網(wǎng)絡(luò)編碼后,輸出一系列層級多尺度特征,隨后經(jīng)過改進(jìn)Transformer 塊來增強(qiáng)特征圖的全局空間表示,而解碼器將該系列特征重采樣并學(xué)習(xí)其粗粒度語義信息。為了在解碼器層中創(chuàng)建更好的上下文相關(guān)性,還使用了從編碼器到解碼器的跳躍連接,將來自編碼器層與解碼器層中相同分辨率的特征映射進(jìn)行連接。解碼器的形狀與編碼器是層級式對稱的,與特征金字塔的語義信息相對應(yīng),以提供額外的監(jiān)督信息,并提高模型的預(yù)測能力。隨后,在經(jīng)過最后一次上采樣與跳躍連接后,得到與輸入分辨率相同的輸出特征,再由級聯(lián)的卷積操作獲得最終的預(yù)測熱圖。
此外,在測試階段,需要設(shè)計(jì)一種可靠的方法從預(yù)測的概率圖中找到最可信的坐標(biāo)值。為了計(jì)算關(guān)鍵點(diǎn)坐標(biāo),小于0.25 倍最大概率值的像素位置被首先忽略,并只保留最大的連通分量以去除噪聲等孤立區(qū)域,在一定程度上消除了干擾。最后,將那些大于最大值0.88 倍的像素位置的平均值作為預(yù)測的關(guān)鍵點(diǎn)坐標(biāo)。
現(xiàn)有方法常應(yīng)用熱力圖對目標(biāo)關(guān)鍵點(diǎn)進(jìn)行抽象化表示,如圖4 所示,其可由固定方差的高斯函數(shù)進(jìn)行編碼,熱圖中的像素標(biāo)簽可視做標(biāo)志點(diǎn)在該位置的偽概率或置信度,范圍為0~1,高響應(yīng)則表示目標(biāo)點(diǎn)的位置信息。具體為
在過往的熱圖回歸任務(wù)中,SmoothL1 損失函數(shù)常用于訓(xùn)練網(wǎng)絡(luò)模型,其定義為
式中,SL表示SmoothL1 損失函數(shù),Δ=xi,j,l-,而xi,j,l和分別表示真實(shí)熱圖與預(yù)測熱 圖中對應(yīng)位置的像素強(qiáng)度,β是一個(gè)可定義的閾值,用于控制計(jì)算范圍,本文將其設(shè)置為1.5。H和W表示高度和寬度,L表示關(guān)鍵點(diǎn)數(shù)量,圖像的損失值是所有關(guān)鍵點(diǎn)的熱圖像素?fù)p失值的平均值,且所有像素在函數(shù)中具有相同的權(quán)重。
基于熱圖回歸方法的本質(zhì)是預(yù)測以每個(gè)關(guān)鍵點(diǎn)為中心的非歸一化高斯分布的概率特征圖,關(guān)鍵點(diǎn)真實(shí)坐標(biāo)附近像素的回歸精度對于地標(biāo)的準(zhǔn)確定位尤為重要。然而,遠(yuǎn)離地標(biāo)像素的預(yù)測精度往往因其損失值較小而難以被網(wǎng)絡(luò)學(xué)習(xí),并且由于圖像的不同區(qū)域可能與目標(biāo)范圍共享相似的像素變化,例如目標(biāo)關(guān)鍵點(diǎn)為門牙端點(diǎn)時(shí),顯然其他牙齒存在與其相似的結(jié)構(gòu)信息,這可能導(dǎo)致檢測歧義的發(fā)生。因此,損失函數(shù)應(yīng)適應(yīng)真實(shí)熱圖上像素的強(qiáng)度變化,基于此,本文提出一種指數(shù)加權(quán)SmoothL1(exponential weighted smoothl1 loss,EWSmoothL1)損失函數(shù),用于熱圖回歸任務(wù),其定義為
式中,EWSL表示EWSmoothL1 損失函數(shù),α是控制地標(biāo)附近像素?fù)p失占比的超參數(shù),x和分別表示對應(yīng)位置真實(shí)概率與預(yù)測概率值。簡言之,通過為每個(gè)像素加權(quán)其真實(shí)熱圖中相應(yīng)概率值的指數(shù)函數(shù),地標(biāo)附近的損失權(quán)重占比得到擴(kuò)大,在x=1 時(shí),達(dá)到最大值。并且對于遠(yuǎn)離標(biāo)志點(diǎn)的像素值,損失占比以指數(shù)下降到1,因此,網(wǎng)絡(luò)能夠更多地關(guān)注地標(biāo)附近的損失值,而較少關(guān)注遠(yuǎn)離地標(biāo)的像素誤差。更具體地說,背景被視為無效像素,網(wǎng)絡(luò)只對目標(biāo)區(qū)域像素變化敏感,并且通過實(shí)驗(yàn)證明,其可以使模型提取更具判別性的特征,以緩解歧義所引起的誤差。這里,α設(shè)置為30以獲得最佳性能。
本文采用ISBI 2015 挑戰(zhàn)賽頭影數(shù)據(jù)集(Wang等,2015),共包含400 幅頭影側(cè)位X 光圖像,按照挑戰(zhàn)賽協(xié)議:150幅用做訓(xùn)練數(shù)據(jù),100幅作為測試數(shù)據(jù)集1,150幅作為測試數(shù)據(jù)集2;兩位經(jīng)驗(yàn)豐富的臨床醫(yī)生標(biāo)記了19 個(gè)點(diǎn),注釋的平均值作為基本事實(shí)。此外,所有圖像的大小均為1 935 × 2 400像素,像素間距為0.1 mm。實(shí)驗(yàn)在配備Tesla V100 SXM3-32 GB GPU 的服務(wù)器上進(jìn)行,模型采用批處理大小為2的Adam 優(yōu)化器訓(xùn)練30 個(gè)訓(xùn)練周期,初始學(xué)習(xí)率設(shè)置為 0.000 1,并每隔5個(gè)迭代次數(shù)縮小0.85倍。采用改進(jìn)的指數(shù)加權(quán)Smooth L1 損失函數(shù)來訓(xùn)練網(wǎng)絡(luò),所有算法均由Python 與Pytorch 進(jìn)行編寫。圖5提供了數(shù)據(jù)集的示例圖像,以及一些隨機(jī)選擇的檢測結(jié)果,其定位誤差展示在左上角。
圖5 頭影解剖點(diǎn)示意圖以及定位結(jié)果樣例Fig.5 Sample image and some random localization results((a)sample image with reference annotations;(b)example 1;(c)example 2;(d)example 3)
為了避免由于缺乏訓(xùn)練數(shù)據(jù)而導(dǎo)致的過擬合現(xiàn)象,需要對訓(xùn)練集采取一定的數(shù)據(jù)增強(qiáng)措施。首先將頭影圖像重新縮放至768 × 768 像素,并且通過零填充操作使其保持原始比例相對應(yīng)的固定縱橫比;然后隨機(jī)旋轉(zhuǎn)-15°~15°,以及隨機(jī)添加高斯噪聲。此外,所有像素的強(qiáng)度值乘以0.75~1.25 的隨機(jī)因子,最后對每幅圖像進(jìn)行彈性變換。
為了定量評估所提出算法的檢測能力,采用平均徑向定位誤差(mean radial error,MRE)和正確檢測率(successful detection rate,SDR)來量化定位性能。其中,MRE 定義為真實(shí)位置與預(yù)測位置之間的平均歐氏距離,STD(standard deviation)表示MRE 的相應(yīng)標(biāo)準(zhǔn)差,而SDR 是MRE 小于給定閾值的預(yù)測關(guān)鍵點(diǎn)占總數(shù)的百分比。對于具有N幅圖像和M個(gè)關(guān)鍵點(diǎn)的數(shù)據(jù)集,它們的定義分別為
式中,xn,m表示真實(shí)位置表示預(yù)測位置,r表示一定的誤差范圍,例如2 mm、2.5 mm、3 mm、4 mm。較小的MRE 和STD 代表著模型具有良好的定位性能,相反,SDR越大越好。
為了比較主干網(wǎng)絡(luò)的深度對實(shí)驗(yàn)性能的影響,此處報(bào)告了在測試集1 上CETransNet 采用不同主干網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果。如表1 所示,隨著層數(shù)的增加,模型預(yù)測了更少的錯(cuò)誤,相應(yīng)的定位誤差值也從最大的1.44 mm 降低到1.09 mm。通過分析結(jié)果,不難得出這是由于網(wǎng)絡(luò)深度的改變所帶來的參數(shù)量增加,因而模型能夠?qū)W習(xí)到更多的權(quán)重。然而,152 層的主干網(wǎng)絡(luò)未能獲得更低的定位誤差,盡管其在2 mm 誤差范圍內(nèi)精度值達(dá)到了87.25%,通過分析原因,其可能是因?yàn)榫W(wǎng)絡(luò)過深而導(dǎo)致的過擬合現(xiàn)象,因而選擇合適的主干網(wǎng)絡(luò)深度是構(gòu)建模型的關(guān)鍵所在。
表1 不同深度的主干網(wǎng)絡(luò)在頭影數(shù)據(jù)集上的性能對比Table 1 Performance comparison of backbone networks with different depths on cephalometric X-ray dataset
綜合來看,ResNet-101 取得了最好的結(jié)果,因此本文在接下來的所有實(shí)驗(yàn)中均采用其作為編碼網(wǎng)絡(luò)。
為了探討所提出的卷積增強(qiáng)型Transformer模塊和改進(jìn)的指數(shù)加權(quán)損失函數(shù)的作用,在此進(jìn)行了一組消融實(shí)驗(yàn)。為便于比較,采用帶有ResNet-101 編碼器的UNet作為基線網(wǎng)絡(luò),并且使用頭影數(shù)據(jù)測試集1 上的結(jié)果進(jìn)行消融研究的對比分析。當(dāng)放大到整個(gè)醫(yī)學(xué)圖像時(shí),各種相似的結(jié)構(gòu)特征將不可避免地使網(wǎng)絡(luò)誤判。例如,在圖6(a)中,目標(biāo)關(guān)鍵點(diǎn)的類似結(jié)構(gòu)存在于給定區(qū)域中,由于它們相類似的弧度大小以及周圍組織信息,模型給了它們不應(yīng)該有的置信度(如圖6(b)所示),盡管目標(biāo)位置達(dá)到了最高的預(yù)測值,但仍然會使得檢測結(jié)果發(fā)生歧義。從圖6(c)中的可視化結(jié)果可以明顯看出,通過使用所提出的EWSmoothL1 損失函數(shù),模型能夠有效建立識別關(guān)鍵點(diǎn)周邊像素的能力,從而降低類似結(jié)構(gòu)所引發(fā)的歧義。
此外,如表2 所示,通過在切割圖像補(bǔ)塊前采取連續(xù)卷積操作(表中“基線UNet+卷積投影層Transformer”),模型性能有所提升,對應(yīng)的誤差值也降低到了1.37 mm。而在每層CNN編碼特征中聚合最終的卷積增強(qiáng)型Transformer(表中“基線UNet+增強(qiáng)型Transformer”),模型性能得到大幅提升,具體而言,通過與基線UNet相比較,該結(jié)構(gòu)可使定位誤差有效降低0.30 mm,并且4 個(gè)誤差范圍的準(zhǔn)確率也有所提升,分別提升了7.36%、8.91%、5.75%和4.4%。這證明了在局部信息中融合長期依賴性,即使是最基礎(chǔ)的UNet 結(jié)構(gòu)網(wǎng)絡(luò),也能獲得較好的特征表達(dá)。此外,當(dāng)在監(jiān)督學(xué)習(xí)過程中采用所提出的指數(shù)加權(quán)損失函數(shù)時(shí)(表中“基線UNet+增強(qiáng)型Transformer+EWSmoothL1”),誤差值進(jìn)一步減少,達(dá)到了1.09 mm 的最佳性能;并且2 mm 內(nèi)精度提高了0.92%。這些結(jié)果表明,所提出的改進(jìn)有助于持續(xù)提高地表定位的準(zhǔn)確性,并且位置信息能夠從這樣的組合中有效地獲取。
表2 本文模塊的消融實(shí)驗(yàn)Table 2 Ablation experiments for the proposed modules
為了驗(yàn)證本文方法的有效性,本文對比了使用同樣數(shù)據(jù)集的先進(jìn)方法,并從定位誤差與準(zhǔn)確率兩個(gè)評價(jià)指標(biāo)進(jìn)行定量比較與分析。表3 列出了在測試集1 和測試集2 中所有方法的數(shù)值結(jié)果,這些結(jié)果均取自各方法的原始論文。通過比較與分析,本文方法在所有評價(jià)指標(biāo)上均優(yōu)于所引用的其他方法。具體而言,在兩個(gè)測試集上分別實(shí)現(xiàn)了1.09 mm 和1.39 mm 的定位誤差值,相應(yīng)的標(biāo)準(zhǔn)差為0.92 和1.27。值得注意的是,在與次優(yōu)方法對比時(shí),兩個(gè)測試集上的定位誤差分別降低了2.7%和2.1%。
表3 不同方法的對比結(jié)果Table 3 Comparison result of different methods
此外,在基于誤差范圍的SDR 指標(biāo)上,本文在測試集1 中實(shí)現(xiàn)了87.19%、93.09%、95.89% 和98.67%的定位精度;同時(shí),測試集2 上也獲得了同樣優(yōu)越的結(jié)果,分別為76.08%、83.41%、89.35%和95.96%。特別地,在臨床可接受的誤差范圍(MRE<2 mm)上,對應(yīng)的檢測準(zhǔn)確率分別為87.19%和76.08%,這表明本文算法的定位性能足夠優(yōu)異,并具有一定的臨床應(yīng)用價(jià)值。
表4 展示了全部19 個(gè)解剖點(diǎn)的詳細(xì)定位結(jié)果,通過對其進(jìn)行分析,容易得出:測試集1 上所有解剖點(diǎn)的定位誤差值均小于2 mm,范圍為0.57~1.90 mm;同時(shí),在4 mm 范圍內(nèi)有9 個(gè)解剖點(diǎn)達(dá)到100%的正確檢測率,并且有多達(dá)12個(gè)點(diǎn)獲得了90%的臨床可接受的2 mm 內(nèi)檢測精度;對于測試集2,如Payer 等人(2019)所述,與訓(xùn)練數(shù)據(jù)的注釋相比,一些標(biāo)志點(diǎn)(例如,關(guān)鍵點(diǎn)13 和16)經(jīng)歷了系統(tǒng)性的移動,這無疑會導(dǎo)致定位性能下降,然而,在2 mm 的誤差范圍內(nèi),仍有9 個(gè)標(biāo)志點(diǎn)滿足90%的精度要求,同時(shí)在4 mm 范圍內(nèi)有10 個(gè)標(biāo)志點(diǎn)實(shí)現(xiàn)了100%的檢測準(zhǔn)確率,這意味著即使存在系統(tǒng)性變化的解剖點(diǎn),該方法也能夠勝任解剖關(guān)鍵點(diǎn)定位任務(wù),顯示出了一定的魯棒性。
表4 頭影X射線數(shù)據(jù)集上每個(gè)關(guān)鍵點(diǎn)的定位結(jié)果Table 4 The localization results for each landmark on the cephalometric X-ray dataset
為了證明所提方法的有效性,在該基準(zhǔn)數(shù)據(jù)集上比較了其他流行的視覺Transformer 方法,如TransUNet(Chen 等,2021)、SwinUNet(Cao 等,2023)以及TransFuse(Zhang等,2021),由表5可知,本文方法在所有指標(biāo)上均實(shí)現(xiàn)了最佳性能。具體而言,在測試數(shù)據(jù)集1 上,對于臨床所接受的2 mm 區(qū)域內(nèi)檢測準(zhǔn)確率,所有方法均在80%之上,而相較于次優(yōu)方法,CETransNet實(shí)現(xiàn)了2.16%的提升,盡管4 mm誤差范圍內(nèi)所有方法的準(zhǔn)確率都較為相似,但CETransNet略有改善;同樣,在數(shù)據(jù)集2 上的表現(xiàn)也優(yōu)于對比方法,2 mm 內(nèi)的檢測準(zhǔn)確率比次優(yōu)方法提高了0.70%,但4 mm 誤差內(nèi)卻大幅提升了1.58%。對于定位誤差MRE 值而言,CETransNet 在兩個(gè)測試集上比次優(yōu)方法分別減少了0.09 mm 和0.07 mm。此外,使用純Transformer 作為網(wǎng)絡(luò)架構(gòu)的SwinUNet 獲得了不盡人意的效果,盡管其采用的Swin Transformer 塊具有更好的全局建模能力,但解剖結(jié)構(gòu)的細(xì)節(jié)信息未能得到充分發(fā)掘;TransUNet 將Transformer與標(biāo)準(zhǔn)卷積順序組合,與SwinUNet相比,其將定位誤差分別減少了0.14 mm 和0.28 mm,證明了CNN 和Transformer 的混合結(jié)構(gòu)是可行的,并且可以實(shí)現(xiàn)更好的性能;TransFuse 以一種并行的方式將來自CNN 模塊與Transformer 的兩種信息進(jìn)行特征融合,獲得了比TransUNet略好的誤差值,并在2 mm內(nèi)準(zhǔn)確率上獲得了0.71%和0.42%的提升。結(jié)合本文方法進(jìn)一步表明,通過保留CNN 提取局部信息的能力并且結(jié)合Transformer 挖掘全局相關(guān)性的特點(diǎn),對于解剖關(guān)鍵點(diǎn)的檢測是益處頗多的。
表5 視覺Transformer方法在頭影數(shù)據(jù)集上的結(jié)果Table 5 The localization results of visual Transformer methods on cephalometric X-ray dataset
本文提出了一種融合增強(qiáng)型Transformer的U 形網(wǎng)絡(luò)CETransNet,用于解剖結(jié)構(gòu)關(guān)鍵點(diǎn)檢測,使其能夠在臨床診斷中實(shí)時(shí)應(yīng)用。針對準(zhǔn)確識別關(guān)鍵點(diǎn)尚存在一定困難、利用Transformer 能夠提供全局長期依賴性的特點(diǎn),將其應(yīng)用至傳統(tǒng)基于卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)中,獲得關(guān)鍵點(diǎn)尤為重要的位置與結(jié)構(gòu)信息;并通過改進(jìn)Transformer 的結(jié)構(gòu),將更多局部信息嵌入其中,從而獲得較為全面的語義特征,以估計(jì)出關(guān)鍵點(diǎn)的位置統(tǒng)計(jì)信息;此外,為應(yīng)對顱面異常和較低圖像質(zhì)量的情況,對多頭自注意力的計(jì)算進(jìn)行了更新,以此執(zhí)行更精確的編碼以及有效學(xué)習(xí)隱式幾何約束。為緩解圖像中其他相似結(jié)構(gòu)引發(fā)的歧義,提出指數(shù)加權(quán)損失函數(shù)EWSmoothL1,使得模型能夠更加關(guān)注目標(biāo)區(qū)域的損失,而不是其他部位。實(shí)驗(yàn)結(jié)果表明,本文算法取得了最好的MRE 和SDR 性能,尤其是在2 mm 的臨床可接受范圍內(nèi),因而能夠有效緩解頭影測量分析中對臨床醫(yī)師的依賴程度,并具有應(yīng)用于實(shí)際診斷和后續(xù)治療計(jì)劃的良好潛力。然而,仍有一些不足是未來值得進(jìn)行優(yōu)化的,例如模型參數(shù)較大占用了大量內(nèi)存;其次,針對圖像結(jié)構(gòu)發(fā)生改變的關(guān)鍵點(diǎn),算法的魯棒性還不足以達(dá)到理想的精度。因此,未來將著重于構(gòu)建更加精確且能夠降低計(jì)算復(fù)雜度的模型。