李 麗 李旭健
(山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 青島 266590)
圖像超分辨率(Super Resolution)重建是指從單張或多張低分辨率圖像中重建出高分辨率圖像的一門技術(shù),在醫(yī)療圖像、監(jiān)控設(shè)備、衛(wèi)星遙感圖像等領(lǐng)域都有重要的應(yīng)用價(jià)值。目前圖像超分辨率技術(shù)主要分為三大類:基于插值(interpolation based)、基于重構(gòu)(reconstruction based)、基于學(xué)習(xí)(learning based)的方法。基于插值的方法[1]是指通過某個(gè)點(diǎn)周圍若干個(gè)已知點(diǎn)的值,以及周圍點(diǎn)和此點(diǎn)的位置關(guān)系,根據(jù)一定的公式算出此點(diǎn)的值,主要的插值法有最近鄰域插值法(nearest neighbor interpolation)、三次內(nèi)插法(bicubic interpolation)等?;谥貥?gòu)的方法常用于多幀圖像,旨在重建低分辨率圖像丟失的高頻信息,主要的方法有凸集投影法(Projection onto Convex Set,POCS)[2]、迭代反投影法(Iterative back projection,IBP)[3]、最大后驗(yàn)概率估計(jì)法(Maximum a posteriori estimation,MAP)、貝葉斯分析法(Bayesian Analysis)[4]等?;趯W(xué)習(xí)的方法充分利用了圖像的先驗(yàn)知識(shí),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[5~9]、稀疏編碼(Sparse Coding)[10~14]等方法已得到廣泛應(yīng)用。經(jīng)典的基于學(xué)習(xí)的方法,如Gu 等提出了一種基于超分辨率的卷積稀疏編碼方法[15]解決一致性問題;Yang等從壓縮感知的角度提出了基于稀疏編碼的方法[16],確保了高分辨率圖像塊之間的線性關(guān)系可以從它們的低維投影中精確恢復(fù);Zhang 等提出了一種協(xié)作表示級(jí)聯(lián)(Collaborative Representation Cas-cade,CRC)框架[17],學(xué)習(xí)LR 和HR 特征對(duì)之間的多層映射。目前基于學(xué)習(xí)的方法已成為圖像超分辨率領(lǐng)域的熱門研究方向,基于插值、基于重構(gòu)的方法為基于學(xué)習(xí)的方法起輔助作用。
本文在基于學(xué)習(xí)的方法中,針對(duì)單幅圖像超分辨率問題[18]提出了一種稀疏編碼與神經(jīng)網(wǎng)絡(luò)相結(jié)合的算法,比現(xiàn)有的方法在算法執(zhí)行速度和視覺效果上都有所提高。
稀疏編碼算法是一種無監(jiān)督學(xué)習(xí)方法,它的目的就是找到一組“超完備”基向量φi,使得將輸入向量x表示為這些基向量的線性組合(ai為稀疏表示系數(shù)),使用稀疏編碼可以更高效地表示樣本數(shù)據(jù)。如Timofte 等提出的基于實(shí)例的快速超分辨率的錨定鄰域回歸(Anchored neighborhood regression)算法[19],該算法將稀疏學(xué)習(xí)字典與鄰居嵌入方法相結(jié)合,使運(yùn)算速度得到提高。由于在單幅圖像超分辨率重建過程中,會(huì)出現(xiàn)“不適定性”,引入稀疏先驗(yàn)約束后,可以保證重建后的圖像有穩(wěn)定、唯一的解。如Zeyde 等[20]提出的使用主成分分析(Principal component analysis,PCA)算法減少低分辨率特征維度,并使用正交匹配追蹤(orthogonal matching pursuit)算法得到稀疏表示系數(shù),使重建圖像更加準(zhǔn)確。
卷積神經(jīng)網(wǎng)絡(luò)憑借其強(qiáng)大的自學(xué)習(xí)和自適應(yīng)的能力被廣泛應(yīng)用。其中,前饋神經(jīng)網(wǎng)絡(luò)從輸入層開始,各神經(jīng)元只從前一層接受信息傳遞到下一層,中間沒有任何反饋操作,這種類似于有向無環(huán)圖的結(jié)構(gòu)形式有利于提高稀疏編碼中字典訓(xùn)練的速度與精度。如Wohlberg 提出了卷積稀疏表示的有效算法[21],該算法利用一組卷積與字典過濾器的總和替換一組字典向量的線性組合來計(jì)算整個(gè)圖像的稀疏表示,對(duì)整個(gè)圖像進(jìn)行聯(lián)合優(yōu)化。
反向傳播算法是一種監(jiān)督學(xué)習(xí)算法,它通過激勵(lì)傳播、權(quán)重更新反復(fù)循環(huán)迭代,直到網(wǎng)絡(luò)對(duì)輸入的響應(yīng)達(dá)到預(yù)定的目標(biāo)范圍為止。利用反向傳播算法與前饋神經(jīng)網(wǎng)絡(luò),對(duì)稀疏編碼過程中的參數(shù)反復(fù)更新,可以更快速準(zhǔn)確地得到稀疏表示系數(shù)。
稀疏編碼的本質(zhì)是一個(gè)目標(biāo)向量由少量的基向量經(jīng)線性擬合表示的過程,且基向量空間存在一定的冗余。m 個(gè)輸入向量的稀疏編碼代價(jià)函數(shù)可以定義為
此處φi表示一組“超完備”基向量,S(.)是一個(gè)稀疏代價(jià)函數(shù),由它來對(duì)遠(yuǎn)大于零的ai進(jìn)行“懲罰”。稀疏編碼目標(biāo)函式的第一項(xiàng)可以解釋為一個(gè)重構(gòu)項(xiàng),這一項(xiàng)迫使稀疏編碼算法能為輸入向量x提供一個(gè)高擬合度的線性表達(dá)式,而公式第二項(xiàng)即稀疏懲罰項(xiàng),它使x的表達(dá)式變得稀疏。常量λ是一個(gè)變換量,由它來控制這兩項(xiàng)式子的相對(duì)重要性。
因此假設(shè)X表示高分辨率圖像,Y表示低分辨率圖像,為高分辨率圖像塊,為與x對(duì)應(yīng)的低分辨率圖像塊。x、y可以分別用超完備字典DX、Dy和一些稀疏表示系數(shù)αx、αy表示出來。由于x到y(tǒng)退化過程近似于線性,所以我們假設(shè)稀疏表示系數(shù)αx=αy=α。
為了快速得到稀疏表示系數(shù),提出了稀疏編碼與神經(jīng)網(wǎng)絡(luò)相結(jié)合的結(jié)構(gòu)。使用前饋神經(jīng)網(wǎng)絡(luò),使其每一層嚴(yán)格對(duì)應(yīng)稀疏編碼的每一步,這樣稀疏表示先驗(yàn)在網(wǎng)絡(luò)結(jié)構(gòu)中被有效地編碼,同時(shí)稀疏編碼的所有組成部分都可以通過反向傳播算法進(jìn)行聯(lián)合訓(xùn)練,至此構(gòu)成了一個(gè)稀疏編碼網(wǎng)絡(luò)。級(jí)聯(lián)多個(gè)稀疏編碼網(wǎng)絡(luò)[22],得到更加精確的稀疏表示系數(shù),對(duì)重建結(jié)果進(jìn)一步增強(qiáng)。
單幅圖像超分辨率解決的是給定一張低分辨率圖像Y,復(fù)原出其對(duì)應(yīng)的高分辨率圖像X的問題。在字典訓(xùn)練階段,對(duì)訓(xùn)練集中的每個(gè)原始圖像進(jìn)行下采樣得到對(duì)應(yīng)的低分辨率圖像,生成高低分辨率圖像對(duì),利用每個(gè)圖像對(duì)訓(xùn)練得到兩個(gè)超完備字典[23]DX、Dy。在特征編碼階段,利用訓(xùn)練得到的具有相同稀疏表示系數(shù)的DX、Dy,對(duì)于每個(gè)輸入的低分辨率圖像,將其劃分為3*3 大小的圖像塊,從左上角開始,每個(gè)方向上有一個(gè)像素的重疊。計(jì)算出圖像塊y的平均像素值,利用進(jìn)行約束優(yōu)化,得到α*,從而產(chǎn)生對(duì)應(yīng)的高分辨率圖像塊x=Dhα*,將各個(gè)高分辨率圖像塊組合成一個(gè)高分辨率圖像。為改善不適定性問題,使用梯度下降法[24],找到最接近原始圖像的高分辨率圖像。為提高算法對(duì)圖像復(fù)原的處理精度,提出了級(jí)聯(lián)稀疏編碼網(wǎng)絡(luò)的方法。實(shí)驗(yàn)中我們發(fā)現(xiàn)相比于直接使用較大的縮放因子,使用較小的縮放因子會(huì)產(chǎn)生更好的效果,對(duì)比結(jié)果如表1所示。
表1 三種縮放因子的平均PSNR(dB)
實(shí)驗(yàn)訓(xùn)練數(shù)據(jù)集為91 images 和BSD 200,共291張不同的彩色圖像,用于測(cè)試的數(shù)據(jù)集為Set5、Set14,共19 張不同的彩色圖像,字典采樣數(shù)目為50000,字典大小為1024。為了與現(xiàn)有的圖像超分辨率算法做比較,只對(duì)圖像的亮度通道(YCrCb 彩色空間,Y通道表示亮度通道)進(jìn)行訓(xùn)練和測(cè)試。
目前最常用的圖像超分辨率的評(píng)測(cè)標(biāo)準(zhǔn)[25~26]是峰值信噪比(Peak Signal to Noise Ratio,PSNR),單位為dB,通常會(huì)根據(jù)PSNR 衡量結(jié)果圖像相對(duì)于原圖像的復(fù)原程度,其值越大,就代表失真越少,復(fù)原圖像越逼真。
用于測(cè)試的三張彩色圖像分別為head(Set 5)、comic(Set 14)和woman(Set 5),其Y 通道(亮度通道)用本文算法進(jìn)行重建,Cr通道(紅色與亮度值的差異)和Cb 通道(藍(lán)色與亮度值的差異)利用雙三次插值算法進(jìn)行重建,并與Zhang 等提出的基于自適應(yīng)局部非參數(shù)回歸的快速單圖像超分辨率(Adaptive Local Nonparametric Regression for Fast Single Image Super-Resolution)[27]算法進(jìn)行比較,該方法利用字典、回歸和統(tǒng)計(jì)先驗(yàn)來提高圖像復(fù)原效果,減少了內(nèi)存利用率。這里僅展示了縮放因子為3 的情況下,兩種算法的圖像復(fù)原情況對(duì)比,如圖1所示。實(shí)驗(yàn)過程中,對(duì)兩種算法的復(fù)原時(shí)間也進(jìn)行了分析比較,對(duì)比結(jié)果如表2所示。
表2 兩種算法在縮放因子=3時(shí)平均運(yùn)行時(shí)間測(cè)試結(jié)果
觀察可知,本文算法的復(fù)原效果最明顯,與原圖較接近。如圖像woman,本文算法重建后的圖像噪聲最少,重建圖像邊緣最清晰;圖像comic,ALNR算法存在偽影,本文算法重建圖像邊緣較清晰;圖像head,兩種算法重建圖像相差不多,改善效果并不明顯。結(jié)果發(fā)現(xiàn),針對(duì)相同的彩色圖像,本文算法重建結(jié)果更加準(zhǔn)確,執(zhí)行速度更快速。
圖1 不同超分辨率算法放大圖像3倍對(duì)比
提出了一種稀疏編碼與神經(jīng)網(wǎng)絡(luò)相結(jié)合的超分辨率圖像復(fù)原算法。該算法利用前置神經(jīng)網(wǎng)絡(luò)對(duì)稀疏編碼階段的跟蹤,以及反向傳播算法對(duì)稀疏編碼所有組成部分的聯(lián)合訓(xùn)練,得到了更精確的稀疏表示系數(shù),從而得到更精準(zhǔn)的復(fù)原圖像。另外,級(jí)聯(lián)多個(gè)稀疏編碼網(wǎng)絡(luò)對(duì)重建結(jié)果進(jìn)行了進(jìn)一步的增強(qiáng)。從實(shí)驗(yàn)結(jié)果看,該算法重建圖像的PSNR超過了目前已存在的基于稀疏編碼算法的復(fù)原效果,從復(fù)原結(jié)果圖可以看出,該算法重建后的圖像邊緣更加清晰。綜上所述,稀疏編碼與神經(jīng)網(wǎng)絡(luò)相結(jié)合可以提高圖像的復(fù)原精度與重建速度。