黃夢然
(南京??低晹?shù)字技術(shù)有限公司 南京 210000)
圖像去噪是計(jì)算機(jī)視覺領(lǐng)域提高圖像質(zhì)量的基本而又經(jīng)典的問題,也是許多視覺任務(wù)的重要預(yù)處理步驟。根據(jù)圖像退化模型y=x+v,圖像去噪的目標(biāo)是通過降低噪聲v,將無噪聲的圖像x 從噪聲圖像y 中恢復(fù)出來,而消除圖像中的噪聲對提高用戶的視覺體驗(yàn)具有重要的意義。許多現(xiàn)有的圖像去噪算法多側(cè)重于改進(jìn)典型目標(biāo)測度如峰值信噪比(PSNR),并以均方誤差(MSE)作為損失函數(shù)訓(xùn)練網(wǎng)絡(luò),但這樣去噪后的圖像往往會丟失重要的圖像細(xì)節(jié)或者在一些紋理豐富的區(qū)域變得過于平滑。本文利用SRDenseNet 作為生成對抗網(wǎng)絡(luò)的生成器,并利用WGAN-gp 來加速網(wǎng)絡(luò)的訓(xùn)練,同時(shí)用于解決原始GAN 訓(xùn)練困難的問題。為使圖像細(xì)節(jié)得到更好的保留,對人眼敏感的感知損失被加入網(wǎng)絡(luò)。
通過最小化圖像的MSE 來提高PSNR 是圖像去噪的一種有效途徑。然而,最小化MSE 通常會導(dǎo)致去噪圖像在一些紋理豐富的區(qū)域丟失細(xì)節(jié)或變得過于平滑。為了解決這一問題,文獻(xiàn)[1]提出了一種級聯(lián)結(jié)構(gòu),將圖像去噪網(wǎng)絡(luò)連接到一個(gè)高級視覺網(wǎng)絡(luò),如圖像分類網(wǎng)絡(luò)。通過聯(lián)合最小化圖像重建損失MSE 和高水平視覺損失來訓(xùn)練去噪網(wǎng)絡(luò)。在圖像分類網(wǎng)絡(luò)損失的指導(dǎo)下,去噪網(wǎng)絡(luò)能夠產(chǎn)生更具有視覺吸引力的輸出,但去噪后的圖像在視覺質(zhì)量上還有待進(jìn)一步提高。
在SISR 領(lǐng)域,為了在高分辨率圖像中恢復(fù)更自然、更真實(shí)的紋理,文獻(xiàn)[2]將GAN 引入到SISR工作中,并提出了感知損失項(xiàng),包括內(nèi)容損失和對抗損失。結(jié)果表明,該網(wǎng)絡(luò)能較好地恢復(fù)高分辨率圖像中的高頻細(xì)節(jié)。由于圖像去噪任務(wù)中細(xì)節(jié)的保留也是一個(gè)棘手的問題,本文將感知損失引入到圖像去噪中。感知損失能很好地衡量去噪圖像和地面真實(shí)圖像(Ground Truth)之間的細(xì)節(jié)差異。
近年來生成對抗網(wǎng)絡(luò)引起了極大的關(guān)注,并被提出用于解決生成模型估計(jì)的問題。GAN 相關(guān)的應(yīng)用可以在文獻(xiàn)[3~6]中找到。在這些工作中,GAN 顯示出了學(xué)習(xí)復(fù)雜分布的潛力。然而,GAN的訓(xùn)練既復(fù)雜又不穩(wěn)定。WGAN[7~9]克服了生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)間難以保持訓(xùn)練平衡的問題,更重要的是可以生成高質(zhì)量的樣本,同時(shí),加入了梯度懲罰項(xiàng)的WGAN-gp 使得WGAN 網(wǎng)絡(luò)的訓(xùn)練進(jìn)程得到進(jìn)一步加快。
本節(jié)首先介紹去噪問題的模型,其次介紹基于DenseNet設(shè)計(jì)的生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)模型,最后介紹相關(guān)的損失函數(shù)。
去噪問題在數(shù)學(xué)上可以表示為
其中x和y分別代表噪聲和干凈(不帶噪聲)圖像,D代表噪聲矩陣,噪聲矩陣會使圖像質(zhì)量退化。通過對噪聲矩陣求逆可以得到干凈圖像y,計(jì)算去噪圖像y的公式為
其中fd是去噪函數(shù)。
生成對抗網(wǎng)絡(luò)(GAN)[10]由Goodfellow 等提出,目的是通過訓(xùn)練生成器網(wǎng)絡(luò)G 來騙過判別器網(wǎng)絡(luò)D,使后者無法區(qū)分生成數(shù)據(jù)和真實(shí)數(shù)據(jù)。G 和D是兩個(gè)相互競爭的網(wǎng)絡(luò),前者通過接收噪聲圖像作為輸入來產(chǎn)生和地面實(shí)況圖像無法區(qū)分的生成圖像,后者接收地面實(shí)況圖像和生成圖像并嘗試區(qū)分兩者。生成器G 和判別器D 之間的競爭由式(3)給出:
其中Pr代表真實(shí)數(shù)據(jù)x 的分布,Pg為生成器轉(zhuǎn)換的樣本分布,定義為x~ =G(z),輸入噪聲變量z 的分布為P(z)。生成對抗網(wǎng)絡(luò)的訓(xùn)練是困難的,因?yàn)榕袆e器訓(xùn)練越好,生成器梯度消失[11]越嚴(yán)重。因此在訓(xùn)練期間要注意G 和D 兩者之間的平衡,否則很容易失敗。針對GAN 的缺陷,Arjovsky 等將EM(Earth-Mover)距離代替了JS 散度,去掉損失中的對數(shù)函數(shù)同時(shí)在鑒別器D 中也去掉了sigmoid 層,由此提出了WGAN。WGAN的結(jié)構(gòu)足夠精巧簡單,克服了原始GAN 訓(xùn)練易失敗的問題,但還是存在訓(xùn)練困難,收斂速度慢的問題。WGAN-gp 網(wǎng)絡(luò)通過在WGAN 中添加梯度懲罰項(xiàng),進(jìn)一步提高了收斂速度。其中,判別器中用于衡量生成圖像和地面真實(shí)圖像間距離的EM 距離可以看成與生成樣本質(zhì)量高度相關(guān)的重要指標(biāo)。因此,本文使用WGAN-gp來指導(dǎo)訓(xùn)練進(jìn)程。
生成網(wǎng)絡(luò)是GAN 的核心部分,生成樣本質(zhì)量的高低直接關(guān)系到去噪的質(zhì)量。本文基于SRDenseNet[12]設(shè)計(jì)生成網(wǎng)絡(luò)的結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)如圖1 和圖2 所示。生成網(wǎng)絡(luò)包含一個(gè)卷積塊,八個(gè)密集 塊(DenseBlocks),一 個(gè) 瓶 頸 塊[13](bottleneck block)和一個(gè)輸出塊,每個(gè)塊包含一個(gè)批歸一化層,一個(gè)Relu 激活層[14]和一個(gè)卷積層。網(wǎng)絡(luò)使用跳躍連接[15]向每一層提供所有之前的層,這有效緩解了梯度消失/爆炸的問題,增強(qiáng)了深度網(wǎng)絡(luò)中特征的傳播。生成網(wǎng)絡(luò)的第一個(gè)卷積層從輸入的噪聲圖像中提取低階特征。在此基礎(chǔ)上,采用八個(gè)密集塊來學(xué)習(xí)高階特征,網(wǎng)絡(luò)的最后加入瓶頸層。1×1 卷積層非常適合于減少輸入特征圖的數(shù)量,這使得以較小的計(jì)算成本進(jìn)行特征融合。最后一部分是3×3 的卷積層用來構(gòu)造輸出圖像,生成器網(wǎng)絡(luò)學(xué)習(xí)噪聲圖像與地面真實(shí)圖像間的殘差校正,有助于加快訓(xùn)練速度。
圖1 生成器G網(wǎng)絡(luò)結(jié)構(gòu)
圖2 判別器D網(wǎng)絡(luò)結(jié)構(gòu)
判別器網(wǎng)絡(luò)的作用是鑒別輸入圖像是真實(shí)的還是生成器生成的,這有助于提高去噪圖像的質(zhì)量。因此,判別器網(wǎng)絡(luò)要盡可能使分配給真實(shí)圖像數(shù)據(jù)的概率值接近1,而使生成的圖像數(shù)據(jù)值接近0。
本文的判別器網(wǎng)絡(luò)結(jié)構(gòu)參考SRGAN 的網(wǎng)絡(luò)結(jié)構(gòu)并做相應(yīng)的改變。首先,由于WGAN-GP 的存在,batchnorm 層被替換為layernorm 層[16],包含有3×3 內(nèi)核的8 個(gè)卷積層。最后兩層是全連接層[17],給出了來自生成器網(wǎng)絡(luò)圖像或地面真實(shí)圖像的概率。最后一層由于使用了WGAN-GP[18],因此沒有使用Sigmod激活[19]。
MSE是最廣泛使用的圖像去噪損失函數(shù),通過最小化MSE 可以使得去噪后的圖像具有較高的PSNR。這種像素級的MSE計(jì)算公式為
其中W 和H分別為圖像的寬度和高度。然而,在使得PSNR 很高的同時(shí),使用MSE 來解決問題會使得在圖像紋理豐富的區(qū)域丟失一些重要的細(xì)節(jié)或過于平滑。
本文提出的改進(jìn)損失的思想為根據(jù)高級特征額外引入感知損失來更好地表征圖像的主觀質(zhì)量。感知損失包含兩部分:內(nèi)容損失lcon和判別損失lgen,其中判別損失來源于GAN,內(nèi)容損失通過計(jì)算經(jīng)過預(yù)處理的19層VGG網(wǎng)絡(luò)中提取的特征圖之間的歐式距離距離得到。由于這些更深層次的特征圖只關(guān)注于內(nèi)容,因此在去噪過程中最小化這些內(nèi)容損失有助于保留細(xì)節(jié)。
其中αcon和αgen分別是各自損失的權(quán)重。
其中D(·)代表判別器網(wǎng)絡(luò),x^ 代表去噪圖像。
其中φ5,4(·)表示VGG19 網(wǎng)絡(luò)中第5 個(gè)最大池化層之前的第4次卷積(激活后)得到的特征圖,W5,4和H5,4分別代表特征圖的寬度和高度。文獻(xiàn)[9]證明了從這一層提取的特征圖可以更好地恢復(fù)紋理細(xì)節(jié)。
為更好指導(dǎo)網(wǎng)絡(luò)的訓(xùn)練及圖像的生成,本文加入WGAN-gp 作為判別損失。WGAN-gp 的判別器損失為
其中l(wèi)MSE代表感知損失,αMSE代表MSE 損失的權(quán)重,lper代表感知損失,lWGAN-gp代表判別器損失。
生成器網(wǎng)絡(luò)以RGB 圖像作為輸入并輸出去噪圖像。在訓(xùn)練過程中,噪聲圖像的噪聲為均值為零的獨(dú)立同分布高斯噪聲,并使用DIV2K數(shù)據(jù)集[20]作為訓(xùn)練數(shù)據(jù)集。DIV2K 數(shù)據(jù)集是用于圖像恢復(fù)任務(wù)的高質(zhì)量(2K 分辨率)彩色圖像數(shù)據(jù)集。DIV2K數(shù)據(jù)集包含800張驗(yàn)證圖像、100張驗(yàn)證圖像和100張測試圖像。本文將提出的去噪網(wǎng)絡(luò)與其他取得先進(jìn)結(jié)果的去噪方法在不同的噪聲水平上進(jìn)行比較,結(jié)果證明了本文方法的優(yōu)越性。
本文所用的實(shí)驗(yàn)環(huán)境為NVIDIA TITAN XP GPU,對于每個(gè)小批量數(shù)據(jù)集采用從高分辨率訓(xùn)練數(shù)據(jù)集中隨機(jī)選取的16 個(gè)分辨率為100×100 的子圖像。本文將輸入噪聲圖像的范圍縮放到[0,1],并將地面真實(shí)圖像(不含噪聲的圖像)縮放到[-1,1]。因此,MSE損失是根據(jù)強(qiáng)度范圍[-1,1]的圖像計(jì)算出來的。本文使用β1=0.9 的參數(shù)進(jìn)行Adam算法[21]優(yōu)化。訓(xùn)練分為兩個(gè)階段。在第一階段,先預(yù)訓(xùn)練生成器網(wǎng)絡(luò)并使用值為1 的MSE 作為損失函數(shù)來指導(dǎo)優(yōu)化。生成器網(wǎng)絡(luò)以10-4的學(xué)習(xí)率和4×105的更新率進(jìn)行訓(xùn)練。在每2×105次迭代后將學(xué)習(xí)率除以10。在第二階段,使用最小化的細(xì)節(jié)損失來優(yōu)化生成器網(wǎng)絡(luò)。內(nèi)容損失和對抗損失的權(quán)重分別為0.007 和0.002,MSE 損失的權(quán)重為0.002。整個(gè)網(wǎng)絡(luò)的初始學(xué)習(xí)率為10-4,更新率為2×105。
圖3 為本文網(wǎng)絡(luò)的主觀去噪效果結(jié)果圖,測試圖像為Kodak數(shù)據(jù)集中隨機(jī)選取的4張圖像??梢钥闯鋈〉昧肆己玫娜ピ虢Y(jié)果,去噪結(jié)果與地面基準(zhǔn)圖像幾乎沒有差別,取得了相當(dāng)良好的實(shí)驗(yàn)結(jié)果。表1 顯示了在峰值信噪比(PSNR)通常用來衡量圖像的去噪性能。表1 比較了本文提出的去噪網(wǎng)絡(luò)和幾種當(dāng)今優(yōu)秀的去噪網(wǎng)絡(luò)的去噪性能,分別與CBM3D、MCWNNM、DnCNN 和DeepDenoising 網(wǎng)絡(luò)進(jìn)行比較,使用的測試數(shù)據(jù)為Kodak 數(shù)據(jù)集,加粗字體為結(jié)果較好的數(shù)據(jù)值。從表1 可以看出,本文提出的去噪網(wǎng)絡(luò)在不同的噪聲水平上顯示出一定的優(yōu)越性。
圖3 kodak不同測試圖像的去噪結(jié)果
表1 不同方法在Kodak數(shù)據(jù)集上的PSNR
圖4為來自Kodak數(shù)據(jù)集的圖像去噪效果。其中圖(a)為地面基準(zhǔn)圖像。圖(b)為CBM3D 針對圖(a)白框部分的去噪結(jié)果,圖(c)為DnCNN,圖(d)為DEEPDENOISING 去噪結(jié)果,圖(e)為IDGAN 去噪結(jié)果,圖(f)為本文網(wǎng)絡(luò)的去噪結(jié)果。在圖4可以觀察到,在細(xì)節(jié)上本文網(wǎng)絡(luò)去噪后的圖像更加清晰,雖然經(jīng)其他深度去噪處理后的圖像在細(xì)節(jié)上與本文的去噪網(wǎng)絡(luò)一樣清晰,但細(xì)節(jié)更像高頻偽影。相比之下,本文網(wǎng)絡(luò)去噪細(xì)節(jié)在清晰的同時(shí)更有真實(shí)感。
圖4 去噪效果對比圖
本文采用改進(jìn)型生成對抗網(wǎng)絡(luò)用于圖像去噪。該網(wǎng)絡(luò)生成器采用SRDenseNet,使得生成的去噪數(shù)據(jù)更具真實(shí)感。同時(shí)WGAN-gp 的采用加速了訓(xùn)練進(jìn)程,使得訓(xùn)練過程更為穩(wěn)定。本文提出的損失函數(shù)可以很好地衡量去噪圖像與地面真實(shí)圖像間的細(xì)節(jié)差異,同時(shí)損失函數(shù)的最小化使得處理后的邊緣圖像變得清晰,紋理豐富區(qū)域的細(xì)節(jié)得到更好的保留。在去噪過程中,如何應(yīng)對真實(shí)環(huán)境下的復(fù)雜噪聲,是本文今后要做的重點(diǎn)工作。