【作 者】傅澤山,秦斌杰
上海交通大學生物醫(yī)學工程學院,上海市,200240
形變圖像配準(或非剛性圖像配準)是旨在建立浮動圖像與目標圖像每個像素點間一一對應的位移矢量場。在醫(yī)學圖像配準中,常常會出現(xiàn)由于病灶復發(fā)增生、手術切除等因素[1-4]導致待配準圖像中局部結(jié)構(gòu)對應性缺失,同時還伴隨著附近組織局部的復雜大形變。這種存在圖像結(jié)構(gòu)對應性缺失伴隨局部大形變的復雜異常情況在計算機視覺、遙感圖像配準等領域也都經(jīng)常發(fā)生,這使得非剛性圖像配準研究更加充滿挑戰(zhàn)性。傳統(tǒng)配準方法中基于提取特征信息或者基于圖像灰度信息進行匹配的策略大都無法很好地解決這類配準異常問題。少數(shù)傳統(tǒng)方法通過將圖像分割[5-6]引入配準中以抑制圖像結(jié)構(gòu)缺失與局部復雜形變區(qū)域?qū)ε錅实牟焕绊懀菑碗s局部大形變情況下的精確分割本身就是一個充滿挑戰(zhàn)的問題,同時又大大增加了配準的計算負擔。
最近深度學習方法在處理計算機視覺各類問題中有優(yōu)異表現(xiàn)[7-9],這推動了研究者嘗試從深度學習的角度快速、準確地解決醫(yī)學圖像配準中的難點問題。目前基于深度學習的配準研究大體可以分為兩種:有監(jiān)督式方法[10]與無監(jiān)督式方法[11-12]。
有監(jiān)督配準方法通過利用深度學習強大的擬合能力直接學習配準圖像到形變場的非線性映射,但有監(jiān)督類方法嚴重依賴于極難獲取的形變場標簽數(shù)據(jù),因而不能適應真實的應用場景。為了解決訓練數(shù)據(jù)的不足問題,UZUNOVA等[10]提出了基于圖像邊緣人工標注點來構(gòu)建的形狀模型,再通過形狀模型的隨機移動與插值制造出大量的仿真形變場數(shù)據(jù)。這種基于小樣本數(shù)圖像形狀模型數(shù)據(jù)仿真無法準確模擬出更為復雜的圖像形變情形,尤其是存在圖像異常缺失與局部大形變的情況下的形變情形。這樣仿真的次優(yōu)數(shù)據(jù)集限制了有監(jiān)督式配準方法的精度。
近年來深度學習領域研究正在慢慢從完全依賴人類先驗知識指導的有監(jiān)督式訓練方法逐漸向能自發(fā)學習、發(fā)現(xiàn)規(guī)律的無監(jiān)督式學習方式發(fā)展。在非剛性配準領域中也出現(xiàn)了一類完全由圖像驅(qū)動網(wǎng)絡學習的工作。BOB等[11]提出了一種無監(jiān)督式卷積回歸網(wǎng)絡預測圖像控制格點位移,利用可微分的B樣條插值得到預測位移形變場。其無監(jiān)督是目標函數(shù)包括了利用參考圖像與基于預測形變場的形變浮動圖像的灰度誤差懲罰項與形變場平滑度罰項。采用類似的無監(jiān)督式學習思路,BALAKRISHNAN等[12]進一步將無監(jiān)督配準網(wǎng)絡拓展到三維腦圖像的非剛性配準應用當中。但目前最新的無監(jiān)督式配準工作中未能考慮到存在圖像結(jié)構(gòu)異常缺失與局部大形變情形以及沒有提出相應魯棒性對應機制,因而導致存在結(jié)構(gòu)對應性缺失及局部復雜大形變時配準效果仍然不理想。
綜上所述,主流傳統(tǒng)配準方法以及當下基于深度學習的配準方法都不能同時精準且魯棒、高計算效率解決存在結(jié)構(gòu)對應性缺失以及局部大形變的圖像配準異常的難題,這促使我們基于以往針對圖像配準異常問題方面的研究基礎[13-15],找出了一種更加魯棒、精確且快速的深度配準方法來破解這一配準難題。
整個配準網(wǎng)絡的計算流程如圖1所示。其中大小為M×N的輸入圖像存在圖像結(jié)構(gòu)對應性缺失與局部復雜大形變的待配準圖像對<IF,IM>∈RM×N,網(wǎng)絡輸出為待配準圖像對應像素之間一一對應形變位移場,該輸入圖像到輸出形變場u∈RM×N×2的映射是一個不易直接被深度網(wǎng)絡學習的復雜非線性映射T={<IF,IM>→u}。我們采用分而治之的策略,將該復雜映射T的學習分解為兩個更容易通過卷積網(wǎng)絡求解的子映射學習問題,最后通過學習到的子映射組合得到精確的圖像對到形變場的非線性映射變換。具體來說,一級卷積網(wǎng)絡為全局估計網(wǎng)絡,旨在學習到從輸入圖像到粗糙預測形變場的全局形變場估計映射Tglobal,而后一級卷積網(wǎng)絡為局部修正網(wǎng)絡,它在全局估計基礎上學習從粗糙預測形變場到精確預測形變場的局部修正映射Tlocal。
圖1中,從左往右的箭頭線表示前向預測過程,依次經(jīng)過:①全局估計網(wǎng)絡;②聯(lián)合顯著度提取得到聯(lián)合顯著圖;③局部修正網(wǎng)絡。圖1中從右向左虛線箭頭線表示的網(wǎng)絡反向更新計算過程,依次反向更新局部修正網(wǎng)絡、全局估計網(wǎng)絡。其中,聯(lián)合顯著度既輔助了局部修正網(wǎng)絡的前向預測過程,也指導了全局估計網(wǎng)絡的反向更新過程。在整個網(wǎng)絡的訓練學習過程中,我們采用無監(jiān)督式的目標函數(shù)來指導,即:
其中,目標損失函數(shù)中包含兩項,第一項為參考圖像與基于當前預測形變場形變的浮動圖像之間的一階圖像誤差,第二項為當前形變場的一階光滑度罰函數(shù)。網(wǎng)絡結(jié)構(gòu)介紹如下。
圖1 聯(lián)合顯著圖強化形變配準網(wǎng)絡流程圖Fig.1 Flowchart of unsupervised global-to-local deformable registration network reinforced by joint saliency map
全局估計網(wǎng)絡旨在直接學習待配準圖像對到對應形變場的非線性映射,著力估計較容易配準的正常區(qū)域的可靠形變場。而在復雜局部形變區(qū)域以及存在圖像結(jié)構(gòu)對應性缺失的區(qū)域,預測位移向量會存在較大的誤差,因此第一級輸出的形變場稱為粗糙形變場。我們的全局預測網(wǎng)絡選擇的是調(diào)整后的Flownet[20]的模型結(jié)構(gòu)。如圖1(1)所示,該網(wǎng)絡是由前半部分的特征編碼網(wǎng)絡、后半部分的解碼網(wǎng)絡以及跨級拼接連接組成。其中,特征編碼網(wǎng)絡負責圖像特征提取、抽象組合;解碼網(wǎng)絡則利用提取出來的特征進行預測,得到相應的形變場??缂夁B接則讓底層的圖像特征也能夠預測,為預測形變場提供細節(jié)信息。
我們將一種基于局部邊緣結(jié)構(gòu)的聯(lián)合顯著圖[13,15]引入網(wǎng)絡中,作為一種指示并區(qū)分圖像結(jié)構(gòu)異常區(qū)域與結(jié)構(gòu)對應可靠像素區(qū)域的魯棒性機制。對于每個像素點的預測形變向量,聯(lián)合顯著圖通過比較來自目標圖像與粗糙形變后浮動圖像之間局部結(jié)構(gòu)是否同時顯著且正確對齊,來魯棒地區(qū)分并抑制結(jié)構(gòu)對應性缺失及局部大形變的區(qū)域。
圖2顯示了參考圖像(圖2(a))和形變浮動圖像(圖2(b))之間的聯(lián)合顯著圖(圖2(e))。聯(lián)合顯著度圖指示了粗糙形變場的可靠度,圖2(e)中同時存在于參考圖像與形變浮動圖像間對齊了的邊緣被賦予更高的權重(紅色),而錯誤配準的區(qū)域(下方中間花瓣)、存在對應性缺失、以及不同時顯著的異常像素(右上方枝葉)被賦予為小的權重(藍色),以抑制這些區(qū)域?qū)ε錅蕩淼呢撁嬗绊憽?/p>
圖2 聯(lián)合顯著圖提取Fig.2 Extraction of joint saliency map
圖3顯示了利用回歸提升機制實現(xiàn)的局部修正網(wǎng)絡結(jié)構(gòu),該網(wǎng)絡著重對存在結(jié)構(gòu)對應缺失與局部大形變的區(qū)域進行局部自適應的回歸提升。給定粗糙預測形變場ucoarse∈RM×N×2(圖3右側(cè)前兩個矩形)及相應的聯(lián)合顯著圖JS∈RM×N(圖3右側(cè)最后一個矩形),我們將粗糙預測形變場與聯(lián)合顯著圖按照空間方向拼接得到輸入矩陣X∈RM×N×3。局部回歸修正網(wǎng)絡是由核大小均為、核個數(shù)依次分別為128、64、32、2的四個卷積層組成。其局部回歸修正映射可表示為:
其中,從輸入到輸出順序,核函數(shù)依次為W128,W64,W32,W2,卷積層的偏移量依次為b128,b64,b32,b2,其中f為卷積層的非線性激活函數(shù)。與固定局部回歸核函數(shù)尺度、需要額外選擇尺度的傳統(tǒng)計算方法[15]相比,局部回歸修正網(wǎng)絡利用多個卷積層的層次組合與可學習任意形式的核函數(shù)設計機制,實現(xiàn)了靈活、簡潔的局部回歸修正函數(shù)。該局部修正網(wǎng)絡訓練得到的核函數(shù)具有任意類型核函數(shù),而傳統(tǒng)卷積核回歸中只使用特定類型的核函數(shù)。同時,等價核函數(shù)中有效的作用窗寬尺度具有靈活的形狀。如圖3左邊所示,來自四個卷積層的3×3核函數(shù)卷積組合成了一個范圍為9×9大小的等價核函數(shù)。
圖3 由四層卷積層組成的局部修正網(wǎng)絡Fig.3 Local refinement network consisted by four convolution layers.
在實驗中,我們采用兩組存在局部大形變與對應性缺失的大數(shù)據(jù)集作為訓練數(shù)據(jù)與測試數(shù)據(jù):①MNIST為數(shù)字“0”到“9”手寫字符數(shù)據(jù)集;②LVQU為心臟運動數(shù)據(jù)集。我們挑選出三種傳統(tǒng)配準方法Demons[16]、ANTS[17]、DRAMMS[18]以及兩種最新的無監(jiān)督式配準方法DIR[11]、VMorph[12]進行對比實驗。我們采用標記點誤差、圖像結(jié)構(gòu)相似度SSIM[18]作為配準效果評價指標。
第一組實驗中,目標圖像(圖4(a))與浮動圖像(圖4(b))在右上處存在結(jié)構(gòu)對應性缺失,同時在水平方向存在著明顯的局部大形變。配準的結(jié)果可以看出:相比于其他方法,我們的方法(圖4(c))在圖像邊緣對齊方面,能夠確保在結(jié)構(gòu)缺失處實現(xiàn)正確的對齊,圖像整體配準效果最佳。無監(jiān)督式配準方法DIR(圖4(d))整體上正確地配準了圖像,但存在錯誤的形變結(jié)構(gòu)。其中表現(xiàn)最差的是VMorph(圖4(e))方法,該方法計算的形變場過大,造成形變結(jié)果異常,配準失敗。ANTS算法(圖4(f))在結(jié)構(gòu)缺失處,體現(xiàn)了正確的形變能力,但沒有正確處理水平方向的大形變,在左側(cè)與下方仍然存在錯誤匹配的結(jié)構(gòu)。DRAMMS方法(圖4(g))能夠應對字符大體的對齊,但是在缺失處的配準不夠準確,同時在字符最下端的邊緣形變結(jié)果也不佳。Demons算法(圖4(h))能夠較好地處理對應性缺失區(qū)域與局部大形變區(qū)域,但是與我們的結(jié)果相比,在邊緣對齊的準確性上稍遜一籌。
圖4 MNIST測試圖像的配準結(jié)果Fig.4 Registration results on MNIST dataset
第二組實驗為多處存在復雜形變的心臟圖像配準。我們選取3處細節(jié)對比說明配準的效果:紅色箭頭1、2處為一般性的較大形變,紅色箭頭3處顯示了由于心肌舒張導致心肌壁擴張而產(chǎn)生了對應性缺失與局部大形變。在1處,ANTS算法(圖5(f))存在較大的誤差;在2處的斑塊配準VMorph算法(圖5(e))表現(xiàn)最差,DIR算法(圖5(d))也存在過度形變的情形;在3處,由于心肌擴張,原來的結(jié)構(gòu)基本上壓縮成非常小的部分,ANTS、DRAMMS算法形變失敗。在3處右側(cè)的邊緣,我們的算法結(jié)果(圖5(c))比Demons算法(圖5(h))更接近參考圖像。
圖5 LVQU測試圖像的配準結(jié)果Fig.5 Registration results on LVQU dataset
在運算效率方面,相比于傳統(tǒng)配準方法,我們的配準時間與另外兩種基于深度配準網(wǎng)絡耗時相近,都將配準的時間壓縮到了10 ms級。量化評價結(jié)果如表1所示,實驗一、二分別選取了30、35對參考點來計算標記點配準誤差(Target Registration Error,TRE)。視覺的結(jié)果與量化指標TRE/SSIM結(jié)果保持一致。
在本文中,針對對應性缺失與局部大形變的困難配準問題,我們提出一種基于聯(lián)合顯著度雙向強化的無監(jiān)督式全局估計到局部回歸修正的非剛性配準網(wǎng)絡。實驗對比結(jié)果表明,我們的算法能夠很好地處理存在對應性缺失與局部大形變的困難配準問題,同時大大提升了配準速度。
未來,我們將改進當前只在最大分辨率下進行形變場局部回歸修正的網(wǎng)絡結(jié)構(gòu)。我們將基于聯(lián)合顯著度的局部修正網(wǎng)絡作為一個模塊,深入地將其融入Flownet[20]中,在早期的小分辨率下就開始對形變場修正以實現(xiàn)收斂更快、參數(shù)更少的多層級分辨率的基于聯(lián)合顯著度的局部回歸修正網(wǎng)絡。
表1 對比配準算法評價結(jié)果Tab.1 The evaluation results of comparison algorithms