崔 琛,張凱兵
(西安工程大學(xué) 電子信息學(xué)院,陜西 西安 710048)
圖像SR重建是一種利用一幅或多幅LR圖像重建一幅細(xì)節(jié)清晰、紋理豐富的HR圖像的圖像恢復(fù)技術(shù)。已有的超分辨算法可分為3種主要類型:基于插值的方法[1-2]、基于重構(gòu)的方法[3-5]和基于實(shí)例學(xué)習(xí)的方法[6-7]。
基于插值的方法主要利用特定的基函數(shù)或插值核估計(jì)高分辨率圖像中的未知像素。常見的插值方法有最近鄰插值、雙線性插值、雙立方插值、Lanczos插值等。盡管基于插值的方法簡單、高效,但該方法難以恢復(fù)LR圖像中丟失的高頻細(xì)節(jié),導(dǎo)致重建的圖像視覺效果模糊,通常情況下難以滿足實(shí)際應(yīng)用要求。
基于實(shí)例學(xué)習(xí)的方法借助機(jī)器學(xué)習(xí)技術(shù),通過學(xué)習(xí)LR與HR圖像之間的映射關(guān)系,實(shí)現(xiàn)LR圖像到HR圖像的轉(zhuǎn)換。典型的實(shí)例學(xué)習(xí)方法有基于K近鄰的方法、基于稀疏表示的方法[8-10]、基于流形學(xué)習(xí)的方法[11],以及基于深度學(xué)習(xí)的方法[12-14]。盡管基于K近鄰學(xué)習(xí)和基于流形學(xué)習(xí)的SR算法結(jié)構(gòu)簡單,但對每個輸入的LR圖像塊都需要搜索大量的訓(xùn)練集進(jìn)行相似性匹配,因此計(jì)算時間復(fù)雜度和空間復(fù)雜度均較高,不利于實(shí)際應(yīng)用。而基于稀疏表示的方法[15],首先從LR與HR圖像對中學(xué)習(xí)超完備字典,然后求解基于l0-或l1-范數(shù)正則化的最小二乘優(yōu)化問題實(shí)現(xiàn)SR重建。DONG等率先將深度卷積網(wǎng)絡(luò)(SRCNN)用于圖像超分辨重建,該方法通過特征表示層、非線性特征映射層和超分辨重建層實(shí)現(xiàn)端到端的SR重建,具有較好的重建效果[16]。盡管基于深度學(xué)習(xí)的SR方法能夠有效生成新的圖像細(xì)節(jié),但其訓(xùn)練過程計(jì)算復(fù)雜度和空間復(fù)雜度較高,且對樣本依賴性強(qiáng),因此難以在資源和設(shè)備受限的情況下使用。
基于重構(gòu)的方法通過求解圖像降質(zhì)逆過程恢復(fù)成像過程中丟失的高頻細(xì)節(jié)[17-18],代表性方法有最大后驗(yàn)概率(maximum a posteriori, MAP)方法[19]、非均勻插值法[20]和凸集投影(projection onto convex sets, POCS)方法[21]。相比于基于插值的方法和基于實(shí)例學(xué)習(xí)的方法,基于重構(gòu)的方法更有利于保持清晰的圖像邊緣,并有效抑制偽像的產(chǎn)生。文獻(xiàn)[22]中提出了一種基于自適應(yīng)稀疏域選擇(adaptive sparse domain selection, ASDS)的算法,并利用空間自適應(yīng)正則化和非局部結(jié)構(gòu)相似性正則化對模型進(jìn)行約束,進(jìn)而提高SR圖像的重建質(zhì)量。文獻(xiàn)[23]通過學(xué)習(xí)一組局部字典和非局部相似結(jié)構(gòu),進(jìn)一步增強(qiáng)了重建圖像的邊緣細(xì)節(jié)。通常情況下,為了獲得高質(zhì)量的圖像,基于重構(gòu)的SR方法需要構(gòu)造有效的先驗(yàn)知識約束未知超分辨圖像的估計(jì)。受文獻(xiàn)[23]的啟發(fā),采用圖像自相似性SR算法,將自然圖像中每一個小局部即圖像塊在這幅圖像自身的其他位置或在其他尺度內(nèi)搜索與其最相似的圖像塊,并計(jì)算相似性權(quán)值,并利用可控核、非局部相似權(quán)值和相關(guān)的局部字典,建立非局部字典回歸正則化項(xiàng)。盡管文獻(xiàn)[23]中方法有效,但不足之處是未利用到外部圖像的信息恢復(fù)高頻細(xì)節(jié)。
因此,為了獲得邊緣清晰、細(xì)節(jié)豐富的HR圖像,本文提出一種新的基于重構(gòu)的單幀圖像SR算法,該算法具有2個特點(diǎn):①考慮內(nèi)部圖像的局部正則化特性、非局部相似冗余特性和外部圖像正則化特性,并將上述具有互補(bǔ)性的特性分別構(gòu)造內(nèi)部和外部正則化項(xiàng)實(shí)現(xiàn)圖像的SR恢復(fù);②將構(gòu)建的內(nèi)部和外部正則化項(xiàng)嵌入到基于重構(gòu)的SR框架下,通過梯度下降算法求解局部最優(yōu)解,估計(jì)需要的SR圖像。
本文利用雙字典構(gòu)造正則化項(xiàng),提出了一種新的基于重構(gòu)的超分辨框架。首先,通過學(xué)習(xí)輸入LR圖像本身的局部結(jié)構(gòu)及自相似性[19],構(gòu)造基于內(nèi)部字典的正則化項(xiàng)。其次,對大量HR圖像進(jìn)行聚類,設(shè)計(jì)出基于外部字典的正則化項(xiàng)。再次,利用非局部可控核回歸(non-local steering kernel regression, NLSKR)來構(gòu)造2個正則化項(xiàng)。最后,將2個正則化項(xiàng)合并到基于MAP的SR框架中進(jìn)行優(yōu)化[23]。由于上述2種先驗(yàn)具有較強(qiáng)的互補(bǔ)性,因此提出的算法能夠根據(jù)給定的LR圖像重建出高質(zhì)量的SR圖像。本文方法的總體框架如圖1所示。
圖像從HR到LR的退化過程可用如下模型表示為
y=DHX+ε
(1)
式中:y為LR圖像;D為下采樣矩陣;H為模糊矩陣;ε為加性高斯噪聲;X為HR圖像。
單幀圖像SR重建是在已知一幅輸入LR圖像的情況下恢復(fù)出相應(yīng)的HR圖像的過程,其本質(zhì)為解決圖像降質(zhì)過程的病態(tài)逆問題。由于圖像降質(zhì)過程的不確定性,一幅LR圖像可能對應(yīng)于許多不同的HR圖像。因此,利用有效的圖像先驗(yàn)知識對該過程進(jìn)行正則化約束是解決圖像超分辨問題的關(guān)鍵。對一個給定的正則化項(xiàng)R(X),則SR問題的MAP估計(jì)可表示為
(2)
式中:γ為平衡重構(gòu)誤差項(xiàng)與正則化項(xiàng)的常數(shù)。
在內(nèi)部字典學(xué)習(xí)階段,首先,使用Bicubic插值算法將輸入的LR圖像放大到與所需HR圖像相同大小。其次,將放大后的圖像劃分為一組5×5的局部圖像塊。再次,采用K均值聚類算法將圖像塊劃分為K類。最后,學(xué)習(xí)對應(yīng)于每個類的局部字典,使其對類中的每個圖像塊具有較好的表示能力。因此,對于任一類別的圖像塊,可通過求解式(3)表示的最小化目標(biāo)函數(shù)找到用于擬合該圖像塊的最優(yōu)字典和擬合系數(shù),即:
(3)
(4)
(5)
式中:s1≥s2≥…≥sm≥0為數(shù)據(jù)矩陣F(k)的奇異值;p為常數(shù),p=2 048;n為圖像塊中的像素個數(shù);σ為圖像噪聲的標(biāo)準(zhǔn)差。
(6)
(7)
考慮到輸入圖像塊可能存在模糊和噪聲等退化因素,直接使用輸入圖像塊與聚類質(zhì)心進(jìn)行歐式距離相似性匹配時魯棒性較差。為了增強(qiáng)每個局部圖像塊選擇子字典的魯棒性,將式(7)進(jìn)一步改進(jìn),得
(8)
受文獻(xiàn)[23]的啟發(fā),本文采用類似的局部結(jié)構(gòu)正則化和非局部相似度相結(jié)合的方法設(shè)計(jì)內(nèi)部和外部正則化項(xiàng)。根據(jù)學(xué)習(xí)得到的內(nèi)部或外部字典,SR回歸模型可表示為
(9)
(10)
(11)
式中:c為一個中心位置元素為1、其他位置元素為0的向量,即[0…010…0];Xi為圖像塊第i個位置的像素。若將回歸形式表示為正則化項(xiàng)形式,則式(11)可改寫為
(12)
式中:第1項(xiàng)和第2項(xiàng)分別為內(nèi)部和外部正則化項(xiàng);Ω為X的整個圖像區(qū)域;ai和bi分別為由式(10)獲得的內(nèi)部和外部回歸系數(shù)組成的2個列向量;vi和Γi為由SN(i)中相似塊的高頻成分排列成的2個列向量。令I(lǐng)為單位矩陣,式(12)可進(jìn)一步表示為
(13)
其中,矩陣A和B的值由式(14)計(jì)算得出:
(14)
將1.5節(jié)中獲得的內(nèi)部和外部正則化項(xiàng)合并到式(2),對SR問題的MAP估計(jì),其目標(biāo)函數(shù)可表示為
(15)
X(t+1)=X(t)-τJ(X)
(16)
式中:t為迭代次數(shù);τ為迭代步長。目標(biāo)函數(shù)的梯度表示為
J(X)=(DH)T(DHX-y)+
λ(I-A)T((I-A)X)+
(17)
在算法實(shí)現(xiàn)過程中,采用Bicubic插值算法初始化HR圖像。相似性權(quán)重矩陣A和B每P次更新一次。當(dāng)?shù)螖?shù)達(dá)到1 000或相鄰2次迭代結(jié)果的均方誤差(mean square error, MSE)小于預(yù)設(shè)的閾值5×10-6時,則停止迭代過程。
本文提出的算法如下:
1) 輸入:LR圖像y,放大倍數(shù)m,正則項(xiàng)更新次數(shù)P,最大迭代次數(shù)T,MSE閾值E0。
2) 初始化:使用雙立方插值算法將輸入LR圖像放大m倍,得到初始HR圖像X(0),同時設(shè)置初始迭代次數(shù)t=0。
3) 學(xué)習(xí)內(nèi)部字典:利用K均值聚類算法將初始高分辨圖像分為k類;通過式(4)和式(5)構(gòu)造內(nèi)部字典。
4) 學(xué)習(xí)外部字典:利用K均值聚類算法將收集的高分辨圖像分為k類;計(jì)算每類的主成分;通過式(6)構(gòu)造外部字典。
6) 優(yōu)化:利用式(16)和(17)更新HR圖像X(t+1),當(dāng)t>T或X(t) 為了模擬成像系統(tǒng)的圖像退化過程,所有實(shí)驗(yàn)中首先對原始HR圖像使用大小為7×7、標(biāo)準(zhǔn)差為1.1的高斯核進(jìn)行模糊操作,然后使用3倍下采樣操作,生成相應(yīng)的LR圖像。為確保實(shí)驗(yàn)的公平性,將文獻(xiàn)[23]和本文方法的可控核回歸(steering kernel regression, SKR)權(quán)重的局部分析窗口的大小均設(shè)置為5×5,用于計(jì)算相似度權(quán)重的圖像塊大小均設(shè)置為5×5,相似性鄰域搜索半徑均為20×20像素,文獻(xiàn)[22]、文獻(xiàn)[23]局部字典的類別K與本文方法中內(nèi)部字典學(xué)習(xí)的類別K均設(shè)置為4。迭代過程中,文獻(xiàn)[22]中正則化參數(shù)λ設(shè)置為4.7;文獻(xiàn)[23]中迭代步長τ設(shè)置為1.25,正則化參數(shù)λ設(shè)置為0.05;本文中代步長τ設(shè)置為6.5,內(nèi)部正則化參數(shù)λ設(shè)置為0.08,外部正則化參數(shù)γ設(shè)置為0.05。在文獻(xiàn)[15]中將字典大小設(shè)置為1 024,相關(guān)的鄰域數(shù)p設(shè)置為2 048,正則化參數(shù)λ設(shè)置為0.01。文獻(xiàn)[16]中借鑒原文中參數(shù)設(shè)置。為了確保SR重建效率,正則項(xiàng)更新次數(shù)P均設(shè)置為200,最大迭代次數(shù)均為T=1 000。 為了驗(yàn)證本文方法的有效性,將本文方法與ASDS[22],A+[15],SRCNN[16]和LLD[23]在用于文獻(xiàn)[23]中的4個標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行比較,其中4個標(biāo)準(zhǔn)數(shù)據(jù)集分別為Set5、Set10、Set14和BSDS100。Set5、Set10、Set14和BSDS100分別由5、10、14和100個圖像組成。采用PSNR和SSIM指標(biāo)[24]對重建圖像進(jìn)行客觀質(zhì)量評估。表1給出了5種不同方法得到的測試圖像的PSNR和SSIM。如表1所示,本文方法的客觀圖像質(zhì)量評估指標(biāo)優(yōu)于其他方法。 表1 不同超分辨方法的PSNR和SSIM值 進(jìn)了進(jìn)一步評估所提出方法的有效性,圖2和圖3分別展示了Set5中Butterfly和Set10中Parrots經(jīng)不同算法處理后的SR比較結(jié)果。 (a)原圖 (b)ASDS (c)A+ (d)SRCNN (e)LLD (f)本文方法圖 2 不同方法處理后的Butterfly比較結(jié)果Fig.2 Comparison results of different methods on Butterfly (a)原圖 (b)ASDS (c)A+ (d)SRCNN (e)LLD (f)本文方法圖 3 不同方法處理后的Parrots比較結(jié)果Fig.3 Comparison results of different methods on Parrots 圖2、3中,基于ASDS的方法易生成模糊的邊緣。A+的方法雖然能生成許多高頻細(xì)節(jié),但不能抑制明顯的偽影和不期望的圖像細(xì)節(jié)。SRCNN使用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)LR和HR圖像之間的端到端映射,當(dāng)使用大量訓(xùn)練樣本時,該方法可以獲得較高的PSNR質(zhì)量評價結(jié)果,但實(shí)際生成的圖像較為模糊。LLD從給定的LR圖像本身中學(xué)習(xí)了一組局部字典,然而,因缺乏足夠的外部信息,該方法不能產(chǎn)生清晰的細(xì)節(jié)。根據(jù)圖2和圖3,可以看出本文方法能夠在得到最高的PSNR和SSIM的同時,能產(chǎn)生最少的偽影和最清晰邊緣,表現(xiàn)出最好的主觀感知質(zhì)量。 本文提出的SR方能法聯(lián)合使用內(nèi)部字典正則化項(xiàng)和外部字典正則化項(xiàng)提升SR重建質(zhì)量。為驗(yàn)證該方法的有效性,分別對內(nèi)部正則化項(xiàng)模型、外部正則化項(xiàng)模型和同時使用2個正則化項(xiàng)模型得到的SR重建圖像的質(zhì)量進(jìn)行比較。分別使用上述3種模型對4個數(shù)據(jù)集中的圖像進(jìn)行SR重建實(shí)驗(yàn),對比不同模型得到的PSNR和SSIM平均性能指標(biāo),對比結(jié)果如圖4和圖5所示。 圖4 不同正則化模型PSNR對比結(jié)果Fig.4 Comparison of PSNR results obtained from different regularization models 圖5 不同正則化模型SSIM對比結(jié)果Fig.5 Comparison of SSIM results obtained from different regularization models 從圖4、5可以看出,同時使用2個正則化項(xiàng)獲得的SR圖像質(zhì)量始終優(yōu)于單一正則化項(xiàng)獲得的SR圖像。由于內(nèi)、外部正則化項(xiàng)本質(zhì)上具有互補(bǔ)性,因此有利于重建邊緣更加清晰、紋理更加豐富的高質(zhì)量圖像。 本文提出了一種新的基于重構(gòu)的單幀圖像SR重建方法。該方法利用輸入圖像和外部HR圖像分別構(gòu)造內(nèi)部字典和外部字典作為圖像先驗(yàn)知識解決SR重建的不確定性問題,通過使用非局部回歸模型設(shè)計(jì)2個具有互補(bǔ)性的正則項(xiàng)實(shí)現(xiàn)高質(zhì)量的SR重建。在后續(xù)的研究中,可以考慮將多尺度相似性結(jié)構(gòu)信息引入到本文提出的SR重建模型中,以獲得更具競爭力的SR重建結(jié)果。2 實(shí)驗(yàn)與分析
2.1 實(shí)驗(yàn)設(shè)置
2.2 實(shí)驗(yàn)結(jié)果
2.3 正則項(xiàng)的有效性
3 結(jié) 語