蘇進(jìn)勝,張明軍,俞文靜
(廣州軟件學(xué)院 網(wǎng)絡(luò)技術(shù)系,廣東 廣州 510990)
圖像超分辨率重建是通過單幅低分辨率圖像(low resolution,LR)或圖像序列重建超分辨率圖像(super resolution,SR)的過程。超分辨率圖像具有更多的細(xì)節(jié)信息和畫質(zhì),這些細(xì)節(jié)在軍事、公共安全、交通安全、氣象災(zāi)害預(yù)警、森林病蟲害識(shí)別、醫(yī)學(xué)檢驗(yàn)成像和計(jì)算機(jī)視覺等領(lǐng)域有著重要的應(yīng)用價(jià)值。
單幀圖像超分辨率重建(single image super resolution,SISR)[1-6]是從觀測(cè)到的一幅低分辨率圖像重建出相應(yīng)的超分辨率圖像,不依賴其他相關(guān)圖像的超分辨率技術(shù)。在監(jiān)控設(shè)備、數(shù)字高清、顯微成像、視頻編碼通信、衛(wèi)星圖像遙感、視頻復(fù)原和醫(yī)學(xué)影像等領(lǐng)域都有重要的應(yīng)用價(jià)值。這是一個(gè)“病態(tài)問題”,因?yàn)椴捎貌煌姆椒ㄖ亟ǔ龅膱D像不會(huì)完全一樣。SISR是一個(gè)反向問題,對(duì)于一幅低分辨率圖像,可以存在不同品質(zhì)的超分辨率圖像與其對(duì)應(yīng),因此在由低分辨圖像重建超分辨率圖像時(shí)通常會(huì)施加一個(gè)先驗(yàn)信息進(jìn)行規(guī)范化約束。在傳統(tǒng)的重建方法中,這種先驗(yàn)信息可以通過若干低—超分辨率圖像對(duì)的實(shí)例中習(xí)得。而基于深度學(xué)習(xí)的高分辨率重建方法是通過卷積神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)低分辨率圖像到超分辨率圖像的映射函數(shù)。近年來出現(xiàn)了基于生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)[7]的超分辨率重建的算法。重建方法的關(guān)鍵是學(xué)習(xí)低分辨率塊和超分辨率塊之間的映射關(guān)系。在重建方法上從早期的稀疏字典方法到現(xiàn)在的深度學(xué)習(xí)方法,其中使用生成對(duì)抗網(wǎng)絡(luò)重建的效果會(huì)更好,但是每一種方法都有其局限性。該文采用了針對(duì)不同的生成對(duì)抗神經(jīng)網(wǎng)絡(luò)重建的超分辨率方法進(jìn)行圖像融合,使用圖像融合算法將兩幅或多幅圖像進(jìn)行融合重建出相應(yīng)的超分辨率圖像。這種圖像融合能利用兩幅(或多幅) 圖像在時(shí)空上的相關(guān)性及信息上的互補(bǔ)性,使得融合后的圖像對(duì)一些應(yīng)用場(chǎng)景有更加全面和清晰的描述。融合兩種或多種方法進(jìn)行重建的圖像效果比融合前的單一方法重建的圖像效果要好。主要貢獻(xiàn)是基于集成學(xué)習(xí)的思想,提出了一種融合不同超分辨率重建的方法。 融合前的方法各有特點(diǎn)。根據(jù)超分辨率場(chǎng)景的要求,可以靈活選擇不同的算法進(jìn)行融合,仿真實(shí)驗(yàn)證明了該方法的有效性。
早期算法常用插值方法,比如最鄰近插值、雙線性插值、雙三次插值。這些濾波算法能產(chǎn)生過于平滑超分辨率圖像輸出,但是缺乏高頻信息。
基于稀疏信號(hào)表示的方法[8]。圖像統(tǒng)計(jì)表明圖像塊可以表示為選擇適當(dāng)超完備字典的稀疏線性組合形式,受此啟發(fā),該文尋求每個(gè)低分辨率輸入圖像塊的稀疏表示,然后用此稀疏表示的系數(shù)來生成超分辨率圖像。壓縮感知理論[9]表明,一幅圖像能夠在一些條件差的情況下由它的一組稀疏表示系數(shù)在超完備字典上進(jìn)行精確重建[8]。
基于學(xué)習(xí)的單幀超分辨率重建是近年來研究的一個(gè)熱點(diǎn)問題,又稱為圖像幻感(image hallucination)[10]或基于樣例(example-based)[11]的超分辨率重建。它通過使用神經(jīng)網(wǎng)絡(luò)方法從訓(xùn)練集樣本提取高頻信息,從而對(duì)未知樣本所需信息進(jìn)行預(yù)測(cè),提高圖像分辨率的重建質(zhì)量。
近些年來,隨著云計(jì)算、大數(shù)據(jù)和計(jì)算機(jī)算力的提高,深度學(xué)習(xí)逐漸興起,卷積神經(jīng)網(wǎng)絡(luò)也被應(yīng)用到超分辨率圖像重建應(yīng)用中。深度卷積神經(jīng)網(wǎng)絡(luò)能很好地學(xué)習(xí)低分辨率圖像和超分辨率圖像之間的映射關(guān)系。卷積神經(jīng)網(wǎng)絡(luò)采用單通道卷積核或者多通道卷積核,通過卷積運(yùn)算逐層提取輸入圖像的局部特征模式,前向傳遞給中間的隱藏層,隨著隱藏層層數(shù)的增加和網(wǎng)絡(luò)加深而逐步學(xué)習(xí)到高級(jí)的特征,最后經(jīng)過上采樣得以重建高分辨率圖像。典型的前饋深度網(wǎng)絡(luò)包括多層感知機(jī)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)。
常用的方法有基于卷積神經(jīng)網(wǎng)絡(luò)的方法(super resolution using convolution neural network,SRCNN)和基于極深網(wǎng)絡(luò)的方法(very deep networks for SR,VDSR)[12-15]。深度殘差網(wǎng)絡(luò)[16]的引入更是把深度一下子增加至152層,更深的網(wǎng)絡(luò)使用可以明顯提高重建圖像的質(zhì)量。SRCNN[17-19]首次提出了一種基于深度學(xué)習(xí)的單幅圖像超分辨率重建方法,采用端到端的方式學(xué)習(xí)超分辨率圖像和低分辨率圖像之間的映射,可以用一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)來表示,通過輸入低分辨率的影像輸出超分辨率的影像。
大多數(shù)超分辨率圖像重建方法一般都是放大較小的倍數(shù),例如2~4倍,當(dāng)放大倍數(shù)在4倍以上時(shí)就會(huì)出現(xiàn)過度平滑的現(xiàn)象,使得圖像出現(xiàn)一些非真實(shí)感。近年來,GAN(generative adversarial networks)[7]也被應(yīng)用到超分辨重建算法上,取得了非常不錯(cuò)的效果。SRGAN[1]首次借助于GAN的網(wǎng)絡(luò)架構(gòu)生成圖像中的細(xì)節(jié)。SRGAN的結(jié)構(gòu)如圖1所示。
生成對(duì)抗網(wǎng)絡(luò)是一種生成模型,是近年來深度學(xué)習(xí)中有創(chuàng)造性的一種影響深遠(yuǎn)的方法。生成對(duì)抗網(wǎng)絡(luò)模型主要包括兩部分:生成模型和判別模型。生成對(duì)抗網(wǎng)絡(luò)同時(shí)訓(xùn)練兩個(gè)模型:生成模型G捕捉數(shù)據(jù)隨機(jī)分布信息,判別模型D評(píng)估生成樣本以假亂真的概率大小。生成模型G訓(xùn)練過程是使D最大化的犯錯(cuò),判別模型最大化地判別出生成樣本,等兩者分別達(dá)到0.5的概率,訓(xùn)練結(jié)束[7]。
對(duì)于GAN,一個(gè)簡(jiǎn)單的理解是可以將其看作零和博弈的過程,該文可以將生成模型和判別模型看作博弈的雙方。比如在犯罪分子造假幣和警察識(shí)別假幣的過程中:生成模型G相當(dāng)于制造假幣的一方,其目的是根據(jù)看到的錢幣情況和警察的識(shí)別技術(shù),去盡量生成更加真實(shí)的、警察識(shí)別不出的假幣。判別模型D相當(dāng)于識(shí)別假幣的一方,其目的是盡可能識(shí)別出犯罪分子制造的假幣。這樣通過造假者和識(shí)假者雙方的較量和改進(jìn),使得最后能達(dá)到生成模型能生成盡可能真的錢幣、識(shí)假者判斷不出真假的納什均衡效果(真假幣概率都為0.5)。SRGAN是使用GAN網(wǎng)絡(luò)中的生成網(wǎng)絡(luò)直接生成超分辨率圖像。
GAN網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示。
圖1 SRGAN網(wǎng)絡(luò)結(jié)構(gòu)
圖2 生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)
GAN中的生成模型和判別模型一般都是卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)使用均方誤差(MSE)指標(biāo)作為損失函數(shù)進(jìn)行訓(xùn)練,能夠獲得較高的峰值信噪比(PSNR),但是這種算法生成的圖像往往會(huì)丟失一些高頻細(xì)節(jié)信息,視覺體驗(yàn)欠佳。SRGAN提出提升視覺體驗(yàn)的感知損失(perceptual loss)[19]和對(duì)抗損失(adversarial loss)[1],從而結(jié)合均方誤差損失來提升輸出圖像的質(zhì)量。
SRGAN的結(jié)果與真實(shí)圖像之間仍然存在明顯的差異,ESRGAN[20]從三個(gè)方面去提升這個(gè)模型。首先,通過引入密集殘差塊(RDDB)來提升模型的結(jié)構(gòu),使之具有更大的容量和更易于訓(xùn)練。去除了批量歸一化層,使用了殘差縮放(residual scaling)等來促進(jìn)訓(xùn)練一個(gè)深層次網(wǎng)絡(luò)。第二,提出了辨別器使用相對(duì)平均GAN(RaGAN),相對(duì)平均GAN學(xué)習(xí)判斷“是否一個(gè)圖像相比于另一個(gè)更真實(shí)”而不是“是否一個(gè)圖像是真或假”,這樣的改進(jìn)有助于生成器恢復(fù)更真實(shí)的紋理細(xì)節(jié)。第三,在ESRGAN提出了一種改進(jìn)的感知損失,通過激活之前使用VGG特征而不是在激活后使用。ESRGAN的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 ESRGAN網(wǎng)絡(luò)結(jié)構(gòu)
圖像融合(image fusion)是用圖像融合算法將兩幅或多幅圖像綜合成一幅新的圖像。目前應(yīng)用最多的是像素級(jí)融合算法。圖像融合能充分利用兩幅或多幅圖像的相似性及信息上的互補(bǔ)性,使得融合后的圖像具備更多的細(xì)節(jié)信息。實(shí)驗(yàn)證明對(duì)同一幅圖像像素有細(xì)微差別的圖像仍然可以進(jìn)行融合,融合后的圖像效果比融合前的效果要好。
子像素卷積方法(sub-pixel convolution)[21]對(duì)提取的圖像特征圖采用上采樣(upscale)方式建立超分辨率圖像,又叫做像素洗牌(pixel shuffle),它可以避免帶入過多人工因素,重建的圖像質(zhì)量高。
SRGAN和ESRGAN兩種方法均使用了生成對(duì)抗網(wǎng)絡(luò),結(jié)合子像素卷積方法進(jìn)行上采樣生成超分辨率圖像,生成的圖像質(zhì)量比較高。BasicSR(basic super restoration)[22]是一種開源的圖像和視頻還原工具箱,可以用于超分辨率、去噪等領(lǐng)域。SRGAN提出感知損失(perceptual loss)和對(duì)抗損失(adversarial loss)來提升恢復(fù)出的圖片的真實(shí)感,使得重建的超分辨圖像達(dá)到了照片級(jí)效果。正如前文所示,ESRGAN主要針對(duì)SRGAN作了三個(gè)方面的改進(jìn),生成的超分辨圖像比SRGAN更逼真、更自然,在紋理上獲得了更好的視覺感受。
超分辨率重建方法很多,該文選用這三種比較典型的方法各自重建超分辨率圖像,然后兩兩進(jìn)行融合,重建出最后的高分辨圖像。網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 融合不同超分辨率重建模塊的結(jié)構(gòu)
為了驗(yàn)證圖像融合后的超分辨率效果,該文采用BasicSR+SRGAN、BasicSR+ESRGAN和SRGAN +ESRGAN這三種組合,用每一種方法各自生成的超分辨圖像進(jìn)行融合,從峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)兩個(gè)指標(biāo)值對(duì)比融合后和融合前的超分辨圖像效果。
SRGAN和ESRGAN重建的超分辨率圖像,不論在像素級(jí)還是視覺感官上都到達(dá)了非常高的質(zhì)量。選用數(shù)據(jù)集Set5進(jìn)行圖像融合實(shí)驗(yàn),采用這兩種有代表性的算法及BasicSR方法在此測(cè)試數(shù)據(jù)集上重建的超分辨率圖像兩兩進(jìn)行融合,融合權(quán)重分別為0.4和0.6。
衡量圖像質(zhì)量標(biāo)準(zhǔn)主要有兩個(gè)指標(biāo):峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)。PSNR(peak signal to noise ratio)是應(yīng)用廣泛的一種圖像客觀評(píng)價(jià)指標(biāo),它是針對(duì)像素點(diǎn)間的誤差評(píng)價(jià)圖像質(zhì)量,其值越大圖像越接近原始圖像質(zhì)量。SSIM(structural similarity),是另一種圖像質(zhì)量評(píng)價(jià)指標(biāo),它分別從亮度、對(duì)比度和結(jié)構(gòu)三方面度量圖像相似性[23]。
表1~表3是用三種不同方法對(duì)重建的超分辨率圖像進(jìn)行融合仿真實(shí)驗(yàn)。在被選用的三種方法上分別進(jìn)行了BasicSR和SRGAN2倍上采樣超分辨率圖像重建、BasicSR和SRGAN4倍上采樣超分辨率圖像重建及SRGAN和ESRGAN4倍上采樣超分辨率圖像重建。主要從衡量圖像的兩個(gè)重要的客觀指標(biāo)上對(duì)比了融合前后的圖像質(zhì)量。實(shí)驗(yàn)表明用不同方法重建的高分辨圖像進(jìn)行融合后的效果要比單一方法建立的超分辨率圖像的效果好。
表1 BasicSR和SRGAN融合實(shí)驗(yàn)結(jié)果[2倍上采樣]
表2 BasicSR和SRGAN融合實(shí)驗(yàn)結(jié)果[4倍上采樣]
表3 SRGAN和ESRGAN融合實(shí)驗(yàn)結(jié)果[4倍上采樣]
從表1和表3可以看出,融合后的PSNR和SSIM指標(biāo)都比融合前的要好。從表2看融合后的PSNR比融合前的好,而SSIM指標(biāo)比融合前的一個(gè)好,比另一個(gè)要差一些,但是總體上來看融合后的效果要好于融合前的效果。實(shí)驗(yàn)結(jié)果證明了融合的有效性。
提出了一種使用不同生成對(duì)抗網(wǎng)絡(luò)生成的超分辨率圖像進(jìn)行圖像融合重建超分辨率圖像的方法,通過對(duì)不同方法重建的高分辨率圖像進(jìn)行融合生成最終的超分辨率圖像。實(shí)驗(yàn)結(jié)果表明融合后的圖像效果要比融合前采用不同方法單獨(dú)重建的圖像效果好。超分辨率圖像重建在醫(yī)學(xué)影像診斷、航天和氣象等領(lǐng)域都有廣泛的應(yīng)用。在融合不同的方法上還沒有完全采用集成學(xué)習(xí)的思想實(shí)現(xiàn),在后續(xù)研究中將深入研究,實(shí)現(xiàn)端到端的神經(jīng)網(wǎng)絡(luò)架構(gòu)生成超分辨率圖像。