張艷嬌,喬志偉
(山西大學計算機與信息技術學院,太原 030006)
計算機斷層成像(Computed Tomography,CT)的出現(xiàn),極大地促進了醫(yī)學影像學的發(fā)展,對于各種疾病的診斷也有重要的意義。CT 圖像重建算法主要有兩種:一種是以濾波反投影(Filtered Back Projection,F(xiàn)BP)[1-2]算法為代表的解析重建算法;另一種是基于壓縮感知(Compressed Sensing,CS)[3-4]的迭代重建算法。解析法[5]因其重建速度快而成為了目前商用CT 機的主流算法。因X 射線對人體有潛在的致病危險,低劑量CT 成為了當前研究的熱點。稀疏重建即從稀疏角度下采集的投影重建圖像,是實現(xiàn)低劑量CT的有效方法;然而,解析法稀疏重建的圖像中往往包含嚴重的條狀偽影,導致無法進行正確的疾病判讀,為此,研究者開始設計新型的重建算法,以壓制條狀偽影。
芝加哥大學Pan 等[6-7]分別于2006 年及2008 年提出了扇束和錐束CT 的總變差(Total Variation,TV)最小化算法,實現(xiàn)了高精度稀疏重建。其后,人們提出了很多改進的TV 模型,以進一步提高重建精度,如保邊TV(Edge-Preserving TV,EPTV)模型[8]、自適應加權TV(Adaptive-weighted TV,AwTV)模型[9]、高階TV(High-Order TV,HOTV)模型[10]、非局部TV(Non-Local TV,NLTV)模 型[11]及TpV(Total p-Variation)模型[12]等。同時,研究者也提出了基于字典學習[13]和秩最?。?4]的稀疏重建算法,這些基于壓縮感知的重建算法有力地推動了高精度稀疏重建的發(fā)展;然而,該類算法的迭代過程耗時較長,影響了其在商用CT機中的產業(yè)化進程。
2006 年以來,深度學習技術由于大數(shù)據(jù)、大網(wǎng)絡和大算力的結合,在工業(yè)界和學術界成為了最熱門的機器學習技術。它已經在人機對弈、機器翻譯、智能問答及計算機視覺等領域展現(xiàn)了其強大的、優(yōu)于傳統(tǒng)方法的性能。同樣,基于深度學習的圖像處理也得到了深入研究,如深度學習圖像識別[15-16]、目標檢測[17]、圖像分割[18-19]、圖像去噪[20-21]以及超分辨率[22]等。
圖像去條狀偽影也是一個經典的圖像處理問題,自然也可以采用深度學習的方法來處理。Han 等[23]基于一種新穎的持久同源分析,表明條狀偽影的流形在拓撲上比原始的更簡單,并設計了一種深度殘差學習體系結構來估計條狀偽影,通過從輸入圖像中減去條狀偽影來獲得無條狀偽影圖像,實驗結果表明,該深度殘差學習方法可以有效地抑制條狀偽影;Han 等[24]基于UNet 提出了Framing U-Net,實驗結果表明,其提出的Framing U-Net 比UNet 能更好地恢復稀疏圖像中的高頻邊緣;Jin等[25]提出了FBPConvNet結構,將殘差UNet和傳統(tǒng)的FBP 算法相結合來解決CT 圖像稀疏重建中出現(xiàn)的條狀偽影問題;Xie 等[26]提出了GoogLeNet 結構,同時運用殘差學習機制來去除稀疏重建中條狀偽影;Zhang 等[27]針對稀疏重建產生條形偽影的問題,提出了稠密網(wǎng)絡和反卷積結合的DDNet(DenseNet and Deconvolution)網(wǎng)絡結構;Guan 等[28]結合Dense 網(wǎng)絡與UNet 提出FD-UNet(Fully Dense UNet)架構,用于去除從稀疏數(shù)據(jù)重構的二維光聲層析成像(PhotoAcoustic Tomography,PAT)圖像中的偽影,實驗結果表明,F(xiàn)D-UNet 在去除圖像偽影方面有很好的性能,同時也被證明是更好和更緊湊的卷積神經網(wǎng)絡(Convolutional Neural Network,CNN)。
經典的UNet 只包含1 個從輸入到輸出的整體殘差,而在網(wǎng)絡內部沒有殘差元素。He 等[16]提出的ResNet 則是將很多殘差塊堆疊在一起,并發(fā)現(xiàn)使用殘差塊能訓練更深的網(wǎng)絡,有助于解決梯度消失和梯度爆炸問題,在訓練更深網(wǎng)絡的同時,又能保證良好的性能。鑒于此,本文擬在UNet 的基礎上,提出一種基于多殘差網(wǎng)絡(Multiply residual UNet,Mr-UNet)結構的CT圖像高精度稀疏重建模型,以解決由解析法稀疏重建產生的條狀偽影問題。
近年來,CNN在圖像處理方面取得了很大的成功,本文將深度學習的方法應用于醫(yī)學CT圖像稀疏重建中,以解決稀疏重建過程中產生條狀偽影的問題,得到高精度重建圖像。為此,本文設計了一個深度卷積神經網(wǎng)絡Mr-UNet,對解析法重建后的低質量圖像進行圖像后處理來去除條形偽影。
CNN 是一種多層的監(jiān)督學習神經網(wǎng)絡,基礎的CNN 是由卷積、激活、池化三部分構成,其本質上是一種輸入到輸出的映射。它能夠學習大量的輸入與輸出之間的映射關系,而不需要得到它們之間精確的數(shù)學表達式,直接以原始圖像作為輸入,內部所有參數(shù)一起訓練,以最終回歸問題的結果為輸出。
如圖1 所示,基于CNN 的稀疏重建模型是將FBP 稀疏重建得到的含條狀偽影圖像作為輸入,將與其對應的高精度圖像作為標簽來學習條狀偽影壓制方法。
圖1 基于CNN的稀疏重建框架Fig.1 Sparse reconstruction framework based on CNN
卷積神經網(wǎng)絡中網(wǎng)絡的深度與網(wǎng)絡結構的性能好壞有很大的關系,網(wǎng)絡越深,能獲取的信息越多,提取的特征也越豐富,更利于圖像的恢復,但是過深的網(wǎng)絡層數(shù)會造成梯度消失和梯度爆炸?;诖?,本文提出的Mr-UNet 結構在UNet 的基礎上將原先UNet四層下采樣的結構加深到五層,還在每一個卷積單元(這里將每次下采樣后到下一次下采樣之前的兩次卷積操作稱作一個卷積單元)中引入殘差學習機制,期望能提取到更多的圖像特征,避免因網(wǎng)絡過深造成的梯度消失和梯度爆炸問題。
Mr-UNet 結構如圖2 所示,該網(wǎng)絡結構包括5 個池化和上采樣操作,以提取到更多的圖像細節(jié)信息。網(wǎng)絡結構的輸入是大小為256×256 的CT 稀疏重建圖像,每個卷積單元中都包含兩層卷積操作,其中所有的卷積操作都是使用3×3 大小的卷積核,在卷積操作之后均連接了批量歸一化層和修正線性單元(Rectified Linear Unit,ReLU)激活函數(shù),并在每個卷積單元內的兩個卷積操作結果中加入了殘差學習機制。將每個卷積單元的卷積通道數(shù)分別設置為32、64、128、256、512、1 024。在左側收縮路徑中使用最大池化對特征圖進行下采樣,使得特征圖的維度降為原先的一半,在右側的擴張路徑中使用反卷積操作進行上采樣,同時在擴張路徑中將每次上采樣操作的特征圖與收縮路徑上相同大小的池化后的特征圖進行通道拼接,以便可以在上采樣過程中使用先前在網(wǎng)絡中學習到的更高分辨率的特征。最后一層卷積層則是1×1 的卷積操作,且將通道數(shù)轉換為1,與輸入圖像做殘差操作并輸出結果圖像。
圖2 Mr-UNet結構Fig.2 Architecture of Mr-UNet
實驗過程中用到的數(shù)據(jù)集包含2 000 張從TCIA 數(shù)據(jù)集(https://www.cancerimagingarchive.net/)中下載的大小為256×256的正常CT圖像,包括頭部、胸腔和腹腔等部位的CT圖像,然后對其進行radon 變換得到相對應的稀疏投影圖像,將其結果用濾波反投影(FBP)算法在60個投影角度下稀疏重建為含條形偽影的圖像。
在這2 000 張大小為256×256 CT 圖像對中,將1 900 對圖像對作為訓練集,50對作為驗證集,剩余的50對作為測試集,輸入到網(wǎng)絡中進行訓練。
Mr-UNet 結構訓練時使用隨機梯度下降法(Stochastic Gradient Descent with Momentum,SGDM)最小化損失函數(shù),Momentum 參數(shù)為0.9,Epsilon 為1E-8,初始學習率為0.1。網(wǎng)絡共訓練了100個epoch,批量大小為16。
本文網(wǎng)絡訓練的環(huán)境是Matalb 2020a deep learning toolbox,CPU 是Inter Xeon CPU E5-2620 v4 2.10 GHz,GPU 是NVIDIA Geforce GTX 1080 Ti。
在稀釋重建的過程中,迭代重建算法構建的線性方程組是欠定的,使得該線性方程組有無窮多個解,而TV 算法就是從無窮多個解中選擇TV最小的解。基于壓縮感知的TV重建算法可以使用稀疏投影來高精度重建CT圖像,其實現(xiàn)策略是在數(shù)據(jù)保真的約束下,使圖像的稀疏變換的?1范數(shù)最小。在FBP 稀疏重建過程中會產生條狀偽影,TV 算法通過對這種高頻噪聲進行低通濾波,去除了條狀偽影,達到高精度重建。而自適應最速下降-投影到凸集(Adaptive Steepest Descent-Projection Onto Convex Sets,ASD-POCS)算法作為一種求解TV 的最優(yōu)化算法,在估計投影數(shù)據(jù)在可用數(shù)據(jù)的指定公差范圍內且圖像像素值為非負的約束下,使得圖像的TV 最小化。TV重建模型如下:
其中:‖Af-g‖≤ε為數(shù)據(jù)保真項,表示重建結果圖像和真實圖像之間的誤差值需限制在ε 以內,保證了數(shù)據(jù)的一致性;‖f‖TV是正則項,這里指的是圖像的TV范數(shù)。
本文用到的TV算法以平行束方式采集投影數(shù)據(jù),輸入圖像大小為[256,256],旋轉中心為[90,90],探測器探元個數(shù)為256,圖像像素大小和探測器探元大小均為1,在[0,π]范圍內等間隔采集60 個角度下的投影數(shù)據(jù)進行實驗。更為詳細的TV算法偽代碼及相關參數(shù)參考文獻[7]。
為了更加清楚地描述不同算法的處理結果,本文采用結構相似度(Structural SIMilarity,SSIM)、均方根誤差(Root Mean Square Error,RMSE)等評價標準對各算法進行定量描述,其中SSIM、RMSE的定義如下:
其中:x表示含條形偽影的圖像;y表示標準的圖像;N2是圖像像素總數(shù);μx是x的平均值;μy是y的平均值;是x的方差;是y的方差;σxy是x和y的協(xié)方差;c1、c2是常數(shù)。均方根誤差是用來衡量兩張圖像之間的偏差,取值越接近0,說明兩張圖像越相似;結構相似性是一種衡量兩張圖像相似度的指標,取值范圍為0~1,取值越接近1,說明兩張圖像越相似。
為驗證本文Mr-UNet 模型的有效性,選取了兩張不同的CT圖像進行測試。本次實驗用到的CT圖像是在60個稀疏角度下重建出來的圖像,在訓練過程中,將其作為輸入,分別用TV 算法、UNet 模型以及Mr-UNet 模型對其進行處理,實驗中TV 算法進行了500 次迭代,使其結果充分收斂,大概需運行5 h。UNet 及Mr-UNet 運行了100 個epoch,分別需要約5 h、3.5 h運行時間,可得出,Mr-UNet在運行效率上略優(yōu)于其他兩種算法,節(jié)省了大量的時間。除此之外,在實驗過程中,UNet和Mr-UNet模型所用到的參數(shù)始終保持一致。
算法對比的實驗結果如圖3~4 所示。不難看出,F(xiàn)BP 算法在稀疏重建過程中產生了嚴重的條形偽影。從示例1 可以看出,TV 算法表現(xiàn)較好,在局部放大圖中也可以看出,Mr-UNet 比UNet 重建的細節(jié)更加完善,但不如TV 算法,但是就圖像整體而言,TV 算法重建圖像下才有較明顯的未去除的條狀偽影。對示例2 來說,可以明顯看出Mr-UNet 是最好的,無論圖像整體效果還是局部放大圖中細節(jié)信息,都可以看出Mr-UNet 要比UNet 和TV 算法效果更好,表現(xiàn)最優(yōu)。總體來說,Mr-UNet 在抑制偽影的同時有效保留了圖像細節(jié)信息,重建圖像更為清晰。所以,從視覺效果來看,本文所提Mr-UNet的重建圖像精度更高。
圖3 各種算法的重建結果Fig.3 Reconstruction results of various algorithms
表1 是用客觀評價指標來量化比較各方法的重建結果。由表1 可知,在兩幅圖像中,Mr-UNet 重建結果與標準UNet 相比,SSIM 值都有所提高,RMSE 值也都有所降低。與傳統(tǒng)TV算法相比,某些圖像重建結果的定量指標表明TV 算法的SSIM 值比Mr-UNet要高一些,這是因為TV算法更適合處理平滑區(qū)域較多的圖像,而示例1 的腹部CT 圖像很明顯具有此特征;但是從重建圖像來看,其處理效果并不比TV 算法差。從圖4局部放大圖中也可以得出上述結論。
圖4 各種算法重建結果的局部放大圖Fig.4 Local enlarged images of reconstruction results of various algorithms
表1 各算法重建結果的比較Tab.1 Comparison of reconstruction results of various algorithms
為了比較不同稀疏度下Mr-UNet 結構的抑制條狀偽影的性能演變規(guī)律,實驗分別在[0,π]范圍內分別均勻地選取了15、30、60、90 個稀疏度進行比較。圖5 是腹部CT 圖像稀疏圖像和經過Mr-UNet 結構處理的重建結果。從圖中定性分析可知,隨著投影角度的增多,Mr-UNet 重建圖像中條形偽影越來越少。
表2 是不同稀疏角度下Mr-UNet 的重建圖像的RMSE 值和SSIM 值。在表2 中,當訓練結束后,會發(fā)現(xiàn)相較于15、30、60 的稀疏角度的重建圖像,Mr-UNet 在90 個稀疏度下的重建圖像其RMSE值更低,SSIM值也更趨近于1。
表2 不同稀疏度下Mr-UNet和UNet重建圖像的SSIM值和RMSE值Tab.2 SSIM values and RMSE values of Mr-UNet and UNet reconstructed images under different sparsity
圖5 給出了在不同稀疏度下Mr-UNet 的重建結果。由圖5 可看出,對于真實CT 圖像模體,如箭頭所指方向可以看出,90 個稀疏度下的重建圖像精度更高,圖像結構清晰且保留了更多的細節(jié)信息,而15和30個稀疏度的重建圖像明顯地看出有多處條形偽影。而在實際重建條件下,根據(jù)物體復雜程度的不同,憑經驗選取稀疏度。
圖5 不同稀疏度下的稀疏圖像及Mr-UNet重建圖像Fig.5 Sparse images and Mr-UNet reconstruction images under different sparsity
同時,為了與Mr-UNet 在不同角度下的性能演變規(guī)律比較,本文還探索了UNet不同角度下的抑制條狀偽影的規(guī)律演變。同樣地,在[0,π]范圍內均勻地選取15、30、60、90 個角度。
圖6 是不同角度的稀疏圖以及UNet 處理之后的重建圖像,而表2則是UNet處理結果的定量表示。從該實驗結果中也可以得出上述結論:隨著投影角度的增多,網(wǎng)絡抑制條狀偽影的能力越強,重建圖像的精度更高。而與Mr-UNet的實驗結果進行比較,可以得出:本文所提Mr-UNet 方法在較少角度下的重建效果略不如UNet,但是在投影個數(shù)較多的情況下,本文算法的結果比UNet的效果要好。經過實驗表明,在絕大多數(shù)含條狀偽影的CT 圖像中,Mr-UNet 抑制條狀偽影的性能比UNet和TV算法效果更明顯,重建精度更高,更有利于醫(yī)生的診斷。
圖6 不同稀疏度下的稀疏圖像及UNet重建圖像Fig.6 Sparse images and UNet reconstruction images under different sparsity
本文提出的Mr-UNet:一方面加深了網(wǎng)絡,提高了網(wǎng)絡的表征能力和擬合能力,使網(wǎng)絡抑制條狀偽影的效果有一定的提升;另一方面,在每個卷積單元中引入了殘差學習機制,有效避免了因網(wǎng)絡加深而帶來的梯度消失和梯度爆炸問題。將Mr-UNet 與傳統(tǒng)的解析法結合,解決了解析法稀疏重建中產生條形偽影的問題。將Mr-UNet 與UNet、TV 算法進行比較,實驗結果表明,在真實CT 圖像中,所提網(wǎng)絡結構重建的圖像很好地抑制了條狀偽影,更好地保留了圖像紋理和細節(jié)信息,解決了解析法必須獲得完備投影數(shù)據(jù)的問題,減少了患者檢查時接受的輻射劑量,具有一定的實際應用價值。但是今后仍需要在該研究的基礎上,引入更多的新思想,以此來提高CT 圖像稀疏重建的精度。此外,本文算法以及今后所做的改進將會應用于更多的醫(yī)學圖像領域,比如醫(yī)學圖像分割、醫(yī)學圖像去噪等。