国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

MSPRL:面向圖像逆半色調(diào)的多尺度漸進(jìn)式殘差學(xué)習(xí)網(wǎng)絡(luò)

2024-04-22 00:46:44李飛宇楊俊桑高麗
中國圖象圖形學(xué)報(bào) 2024年4期
關(guān)鍵詞:解碼器色調(diào)編碼器

李飛宇,楊俊,桑高麗

1.嘉興大學(xué)信息科學(xué)與工程學(xué)院,嘉興 314001;2.浙江理工大學(xué)信息科學(xué)與工程學(xué)院,杭州 310018

0 引言

半色調(diào)方法使用黑白二值表示連續(xù)色調(diào)圖像,由于其較低資源需求已廣泛使用在數(shù)字圖像打印、出版社和顯示應(yīng)用中(Mulligan 和Ahumada,1992)。常用的半色調(diào)方法包括誤差擴(kuò)散(Floyd,1976;Eschbach 和Knox,1991)、點(diǎn)擴(kuò)散(Knuth,1987)、有序抖動(dòng)(Bayer,1973)和直接折半查找法(Seldowitz 等,1987)。相比連續(xù)色調(diào)圖像,半色調(diào)圖像只有二種值,能夠節(jié)省大量的存儲(chǔ)空間和網(wǎng)絡(luò)帶寬,因此是一種可行和重要的圖像壓縮方法。圖1展示了原始連續(xù)色調(diào)灰度圖像、對(duì)應(yīng)的半色調(diào)圖像和逆半色調(diào)圖像。

圖1 半色調(diào)和逆半色調(diào)圖像Fig.1 The halftone and inverse halftone images((a)gray image;(b)halftone image;(c)inverse halftone image)

圖像逆半色調(diào)是一個(gè)經(jīng)典的圖像重建任務(wù),從相應(yīng)的半色調(diào)圖像中重建出連續(xù)色調(diào)圖像,即將{0,1}H×W空間的二值圖像轉(zhuǎn)換為RH×W空間的連續(xù)色調(diào)圖像,其中H和W分別代表圖像的高和寬。因?yàn)閳D像在半色調(diào)處理過程中丟失了大量的細(xì)節(jié)信息,所以逆半色調(diào)是一個(gè)具有挑戰(zhàn)性的病態(tài)問題。在過去幾十年中,許多方法被提出以提高逆半色調(diào)性能(Wong,1995;Analoui和Allebach,1992;Kite等,2000;Mese和Vaidyanathan,2001;Liu等,2011)。

隨著深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DCNN)在視覺任務(wù)中的成功應(yīng)用,以CNN 為基礎(chǔ)的圖像恢復(fù)方法取得了驚人的性能,基于深度學(xué)習(xí)的逆半色調(diào)方法的恢復(fù)效果也獲得顯著提升(Hou 和Qiu,2017;Xiao 等,2017;Xia 和Wong,2019;Yuan 等,2020)。這些方法主要基于經(jīng)典的UNet 架構(gòu)搭建CNN 模型。UNet 架構(gòu)是一個(gè)多層級(jí)的設(shè)計(jì),通過圖像的上下采樣能夠提取多尺度圖像的不同特征,其作為骨干網(wǎng)絡(luò)廣泛使用在多種視覺模型中。盡管現(xiàn)有的大多數(shù)逆半色調(diào)方法使用UNet 架構(gòu),但其模塊設(shè)計(jì)沒有充分利用多尺度圖像信息,無法高效地提取不同尺度圖像特征,不能有效地重建圖像紋理和細(xì)節(jié)特征,在圖像的細(xì)節(jié)重建上仍有提升空間。

為解決上述問題,本文提出一個(gè)有效的多尺度漸進(jìn)式殘差學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)(multiscale progressively residual learning network,MSPRL)。該模型接收不同尺度輸入圖像并使用淺層特征提取模塊提取多尺度圖像的注意力特征,同時(shí)編碼器和解碼器都由多個(gè)殘差塊組成,然后使用特征聚合模塊聚合不同層級(jí)編碼器的輸出并將其作為解碼器的輸入,最終通過漸進(jìn)式學(xué)習(xí)輸出連續(xù)色調(diào)圖像。

本文的主要貢獻(xiàn)如下:1)提出的MSPRL 包含編碼器和解碼器。編碼器主要恢復(fù)圖像信息和擦除影響圖像質(zhì)量的半色調(diào)噪聲。解碼器負(fù)責(zé)恢復(fù)編碼器階段中的不同特征的紋理細(xì)節(jié),并且輸出連續(xù)色調(diào)圖像。為了探索本文方法的性能,對(duì)比了不同激活函數(shù)、特征通道數(shù)和殘差塊數(shù)的性能差異;同時(shí)還比較編碼器和解碼器中3 種不同特征提取塊的重建性能。2)提出一個(gè)計(jì)算成本較低的淺層特征提取模塊以提取不同尺度圖像的注意力信息,從而恢復(fù)圖像內(nèi)容特征表達(dá);采用一個(gè)特征聚合模塊以聚合不同層級(jí)編碼器的特征信息,強(qiáng)化解碼器特征學(xué)習(xí),進(jìn)而重建連續(xù)色調(diào)圖像。3)不同于僅聚焦模型架構(gòu)的設(shè)計(jì),還深入研究訓(xùn)練策略的優(yōu)化,將提出的MSPRL與漸進(jìn)式殘差學(xué)習(xí)網(wǎng)絡(luò)(progressively residual learning network,PRL)進(jìn)行對(duì)比,研究不同的訓(xùn)練策略對(duì)模型性能的影響。實(shí)驗(yàn)表明,經(jīng)本文優(yōu)化訓(xùn)練后的PRL 在多個(gè)數(shù)據(jù)集上性能獲得顯著提升,并且優(yōu)化后的訓(xùn)練策略同樣適用其他方法,優(yōu)化訓(xùn)練后的方法相比未優(yōu)化訓(xùn)練的性能均有提高。

1 相關(guān)工作

1.1 傳統(tǒng)半色調(diào)方法

在過去幾十年中,研究者提出許多用于圖像逆半色調(diào)的方法。一些簡單的方法使用低通濾波擦除半色調(diào)噪聲(Wong,1995;Catté 等,1992),盡管這些方法能夠擦除大多數(shù)的半色調(diào)噪聲,但也消除了圖像的高頻邊緣信息。因此,Kite 等人(2000)提出基于梯度的空間變化濾波用于逆半色調(diào),以恢復(fù)更佳的圖像高頻細(xì)節(jié);Analoui 和Allebach(1992),Unal和Cetin(2001)提出用于逆半色調(diào)的凸集投影方法(projection onto the convex sets,POCS)。Liu 等 人(2011)基于貝葉斯方法建立相鄰點(diǎn)之間的相關(guān)性圖用于逆半色調(diào)?;谧值涞膶W(xué)習(xí)也成功地應(yīng)用于逆半色調(diào)(Zhang 等,2018a)。Son 和Choo(2014)提出一種面向邊緣的局部學(xué)習(xí)字典(local learned dictionaries,LLD)方法增強(qiáng)恢復(fù)圖像的邊緣細(xì)節(jié)??紤]到計(jì)算效率,Mese 和Vaidyanathan(2001)、Guo 等人(2013)進(jìn)一步提出一個(gè)預(yù)先計(jì)算的查找表(look-up table,LUT),以提高性能和利用效率。Huang 等人(2008)使用混合神經(jīng)網(wǎng)絡(luò)方法用于圖像半色調(diào)和逆半色調(diào)。傳統(tǒng)的逆半色調(diào)方法通?;谀P蛯W(xué)習(xí)擦除半色調(diào)噪聲,但設(shè)計(jì)的模型無法學(xué)習(xí)深層圖像特征并且在大數(shù)據(jù)集上計(jì)算效率不高,重建質(zhì)量的圖像仍不能滿足需要。

1.2 基于深度學(xué)習(xí)的逆半色調(diào)方法

深度卷積神經(jīng)網(wǎng)絡(luò)已成為解決各種圖像重建問題的主要方法,在多種視覺任務(wù)中實(shí)現(xiàn)最佳性能。Dong 等人(2014)提出SRCNN(super-resolution convolutional neural network),首次將CNN 應(yīng)用到圖像超分辨率任務(wù)中,該任務(wù)從相應(yīng)的低分辨率圖像中重建高分辨率細(xì)節(jié),與傳統(tǒng)圖像超分辨率方法相比獲得了優(yōu)越的性能。He 等人(2016)提出ResNet(residual learning network),在模型中引入殘差連接,減輕深度神經(jīng)網(wǎng)絡(luò)模型的退化,允許網(wǎng)絡(luò)學(xué)習(xí)更深層次的特征表示。VDSR(image super-resolution using very deep convolutional network)(Kim 等,2016)在圖像超分辨率中使用殘差學(xué)習(xí),實(shí)現(xiàn)良好的恢復(fù)效果。Lim 等人(2017)使用殘差塊構(gòu)建一個(gè)更寬的網(wǎng)絡(luò)EDSR(enhanced deep super-resolution network)用于圖像超分辨率。Zhang 等人(2017)提出DnCNN(denoising convolutional neural network)擦除圖像的高斯白噪聲。盧貝和蓋杉(2022)基于多尺度漸進(jìn)式網(wǎng)絡(luò)通過3 個(gè)改進(jìn)的空洞殘差子網(wǎng)絡(luò)逐步重建去雨圖像。MIMOUNet(multi-input multioutput UNet)(Cho 等,2021)基于UNet 恢復(fù)模糊圖像,設(shè)計(jì)模型為左編碼器和右解碼器,在編碼器的輸入端設(shè)計(jì)多尺度輸入以提供更多的圖像信息,在中間狀態(tài)設(shè)計(jì)兩個(gè)非對(duì)稱特征聚合模塊聚集多層級(jí)編碼器特征,同時(shí)在解碼器的輸出端計(jì)算多尺度混合損失函數(shù),實(shí)現(xiàn)了高效的去模糊效果?;赨Net的Restormer(restoration Transformer)(Zamir等,2022)設(shè)計(jì)Transformer 特征模塊用于多種圖像恢復(fù)任務(wù),Chen 等人(2022)基于UNet 提出NAFNet(nonlinear activation free network)處理多種圖像恢復(fù)問題,使用乘法替代激活函數(shù),簡化模型設(shè)計(jì),降低模型復(fù)雜度。

圖像逆半色調(diào)是一種圖像恢復(fù)任務(wù),因此,Hou和Qiu(2017)以及Xiao等人(2017)以UNet網(wǎng)絡(luò)為骨干網(wǎng)絡(luò),將CNN 用于逆半色調(diào)。Xia 和Wong(2019)提出一種漸進(jìn)式殘差學(xué)習(xí)網(wǎng)絡(luò)(PRL),包括兩個(gè)主要階段:內(nèi)容聚合階段恢復(fù)圖像內(nèi)容特征;細(xì)節(jié)增強(qiáng)階段恢復(fù)提取的紋理和細(xì)節(jié)。Yuan 等人(2020)提出梯度引導(dǎo)殘差學(xué)習(xí)網(wǎng)絡(luò)(gradient-guided residual learning,GGRL)用于逆半色調(diào)。GGRL使用兩個(gè)相同的子網(wǎng)絡(luò)結(jié)構(gòu),一個(gè)從輸入半色調(diào)圖像中學(xué)習(xí)不同Sobel方向的梯度圖;另一個(gè)輸出連續(xù)色調(diào)圖像的粗略圖。Shao 等人(2021)利用殘差通道注意力塊(residual channel attention block,RCAB)(Zhang 等,2018b)構(gòu)建注意力模型用于逆半色調(diào)。Xia 等人(2021)和Yen 等人(2021)將逆半色調(diào)與圖像著色方法相結(jié)合,從半色調(diào)圖像中恢復(fù)出具有更好視覺質(zhì)量的彩色連續(xù)色調(diào)圖像。

盡管基于深度學(xué)習(xí)的逆半色調(diào)方法取得了較好的成果,但該領(lǐng)域仍存在一些值得解決的問題。早期用于逆半色調(diào)的UNet模型設(shè)計(jì)較為簡單,模型特征學(xué)習(xí)能力不足,導(dǎo)致效果不佳;PRL 和GGRL 分別設(shè)計(jì)不同的子網(wǎng)絡(luò)提取圖像特征,增加模型復(fù)雜性。相比以上方法,本文使用UNet 作為骨干網(wǎng)絡(luò),聚焦多尺度圖像信息設(shè)計(jì)不同的特征模塊加強(qiáng)特征學(xué)習(xí),避免模型特征學(xué)習(xí)能力弱和復(fù)雜性高。值得注意的是,以上逆半色調(diào)方法更關(guān)注模型設(shè)計(jì),而忽略訓(xùn)練策略的重要性。

1.3 訓(xùn)練策略對(duì)模型性能的影響

好的訓(xùn)練策略可以提高模型性能,減少訓(xùn)練時(shí)間(Goyal 等,2018;He 等,2019;Qian 等,2022;Lin等,2022)。數(shù)據(jù)增強(qiáng)是提高神經(jīng)網(wǎng)絡(luò)性能的重要策略之一,通過提供更多的學(xué)習(xí)樣本提高模型的學(xué)習(xí)能力和泛化性(Cubuk 等,2020)。許多研究人員使用余弦退火衰減算法(Loshchilov 和Hutter,2017)優(yōu)化學(xué)習(xí)率以提高模型性能,同時(shí)在早期訓(xùn)練階段,使用預(yù)熱方法(warm-up)(Goyal 等,2018;He 等,2019)緩解模型初期訓(xùn)練的不穩(wěn)定。在許多視覺任務(wù)中,如圖像超分辨率和圖像去模糊(Lim 等,2017;Wang等,2019),移除批處理歸一化層(batch normalization,BN)可以提高性能降低計(jì)算復(fù)雜度。Zhao 等人(2017)展示了L1損失比L2損失具有更好的收斂效果和圖像感知質(zhì)量。

2 方法

2.1 模型架構(gòu)

如圖2所示,輸入半色調(diào)圖像X∈{0,1}H×W×1通過多個(gè)特征提取模塊,從左到右逐步學(xué)習(xí)不同尺度信息,進(jìn)而恢復(fù)清晰的連續(xù)色調(diào)圖像Y∈RH×W×1。模型分為左編碼器(encoder,EC)階段和右解碼器(decoder,DC)階段,從上到下劃分為3個(gè)層級(jí)。

圖2 MSPRL 模型架構(gòu)Fig.2 The model architecture of MSPR

2.1.1 模型概述

在編碼器階段,首先使用3×3卷積層來獲得淺層特征F1∈RH×W×C,其中H×W代表空間維度,C是特征通道數(shù),k代表第k層級(jí);然后通過由8個(gè)殘差塊(residual block,RB)組成的編碼器塊(encoder block,EB),將F1轉(zhuǎn)換為層級(jí)為1 的深度特征;然后通過下采樣模塊從得到下采樣輸出特征∈RH/2×W/2×2C,其中特征圖像的通道數(shù)翻倍,大小減半,下采樣和上采樣模塊分別應(yīng)用pixelunshuffle 和pixel-shuffle 操作(Shi等,2016)。為提取多尺度圖像的注意力信息,分別在第2、3 層級(jí)中使用淺層特征提取模塊(shallow feature extraction,SFE)提取的注意力特征,輸出融合注意力特征,k-1表示輸入圖像的層級(jí),然后通過EB獲得深層特征。左編碼階段過程定義為

式中,Xk是不同k層級(jí)輸入圖像,Conv3表示3×3 卷積層,EBk和SFEk分別表示第k層級(jí)的EB和SFE。

在MSPRL 中,解碼器將編碼器特征作為輸入,并逐步恢復(fù)連續(xù)色調(diào)圖像表示。首先,特征融合模塊(feature fusion module,F(xiàn)F)聚合不同層級(jí)編碼器的特征,并輸出聚合的特征代表編碼特征經(jīng)過上采樣模塊得到的特征;然后通過解碼器塊(decoder block,DB)來重建圖像細(xì)節(jié),其中DB 也由8 個(gè)RB 組成。經(jīng)過一系列的編碼和解碼得到深層特征;最后應(yīng)用一個(gè)3×3 卷積和殘差連接來獲得連續(xù)色調(diào)圖像Y。右側(cè)解碼階段定義為

式中,X和Y分別是輸入和輸出圖像,DBk和FFk分別表示第k=1,2層級(jí)的DB和FF輸出。

2.1.2 淺層特征提取和特征融合模塊

式中,k=2,3,Convstack、Conv1和?分別表示多個(gè)堆疊的卷積層、1×1卷積層和逐元素乘法。

特征融合模塊(FF)如圖3(b)所示,F(xiàn)F使用Concat和一個(gè)卷積層聚合的特征,具體為

圖3 SFE和FF子模塊結(jié)構(gòu)Fig.3 The structures of submodules:SFE and FF((a)shallow feature extraction module;(b)feature fusion module)

式中,k=1,2。

2.1.3 漸進(jìn)式學(xué)習(xí)

輸入的半色調(diào)圖像以不同尺度特征在模型中通過編碼器和解碼器,整個(gè)過程是漸進(jìn)式學(xué)習(xí),使得網(wǎng)絡(luò)充分利用不同尺度圖像的語義信息學(xué)習(xí)圖像的局部和全局特征,并且大大減少在小圖像塊中的運(yùn)算時(shí)間,提高模型計(jì)算效率。不同階段的特征圖如圖4所示。

圖4 Lena圖像不同階段的特征圖Fig.4 The feature maps of the Lena image in different stages((a)EBk=2;(b)DBk=2;(c)EBk=3)

2.2 損失函數(shù)

盡管PRL 使用L1損失、MSE(mean squared error)損失和感知損失(perceptual loss),但在感知損失中添加了非常大的懲罰系數(shù),對(duì)模型收斂影響甚微,并且MSE 損失函數(shù)具有平滑效果。本文僅使用L1損失,具體為

即計(jì)算真實(shí)灰度圖像Xgt和重建圖像Y之間的L1距離。此外,本文添加快速傅里葉變換(fast Fourier transform,F(xiàn)FT)損失函數(shù)來加強(qiáng)高頻細(xì)節(jié)提取,具體為

式中,F(xiàn)FT(·)表示將圖像信號(hào)轉(zhuǎn)換為頻域的快速傅里葉變換。訓(xùn)練模型的最終損失函數(shù)為

式中,本文實(shí)驗(yàn)設(shè)置λ=0.1。

2.3 訓(xùn)練策略

表1 展示了常用的訓(xùn)練策略配置以及本文方法與PRL 選用策略的比較,訓(xùn)練策略集中在以下幾個(gè)方面。

表1 PRL 和 MSPRL 訓(xùn)練策略的比較Table 1 Comparison of training strategies between PRL and MSPRL

1)數(shù)據(jù)增強(qiáng)。本文發(fā)現(xiàn)其他研究人員將圖像縮放到256×256 像素進(jìn)行訓(xùn)練,然而,縮放操作會(huì)丟失原始圖像的許多細(xì)節(jié)和紋理信息。本文在訓(xùn)練期間對(duì)數(shù)據(jù)使用隨機(jī)裁剪,以便模型可以學(xué)習(xí)不同區(qū)域的圖像信息。數(shù)據(jù)增強(qiáng)使模型能夠?qū)W習(xí)更豐富的特征表示,并提高模型的泛化能力。

2)更大的批量大小。PRL使用的最小批量大小為1,較小的批量會(huì)使模型訓(xùn)練不穩(wěn)定,并影響收斂速度,本文使用的批量大小為16。

3)優(yōu)化器和學(xué)習(xí)率。與PRL 不同,本文使用AdamW 優(yōu)化器(Loshchilov 和Hutter,2019)而非Adam 優(yōu)化器(Kingma 和Ba,2017),其中優(yōu)化動(dòng)量為(β1=0.9,β2=0.999)。學(xué)習(xí)率衰減使用余弦退火衰減(Loshchilov和Hutter,2017)而非線性衰減。

3 實(shí)驗(yàn)結(jié)果分析

3.1 實(shí)驗(yàn)配置

3.1.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

本文使用VOC2012(the pascal visual object classes challenge 2012)數(shù)據(jù)集(Everingham 等,2015)作為訓(xùn)練集,該數(shù)據(jù)集包括17 000多幅圖像。本文隨機(jī)選擇13 841 幅圖像進(jìn)行訓(xùn)練,3 000幅非重疊圖像進(jìn)行驗(yàn)證,剔除其中小于256×256 像素的圖像;此外測試集中加入Kodak 數(shù)據(jù)集和Place365小型數(shù)據(jù)集(Zhou 等,2018),其中Place365 包含5 000 幅256×256 像素的圖像;本文還添加9 幅經(jīng)典圖像到測試數(shù)據(jù)集中,如Lena、Barbara 和Baboon等;另外測試5 個(gè)標(biāo)準(zhǔn)的圖像超分辨率的測試數(shù)據(jù)集,包括Set5(Bevilacqua 等,2012)、Set14(Zeyde 等,2012)、BSD100(Berkeley segmentation dataset 100)(Martin 等,2001)、Urban100(Huang 等,2015)和Manga109(Matsui等,2017),其中部分圖像被適當(dāng)?shù)夭眉粢赃m應(yīng)PRL 模型。在實(shí)驗(yàn)中,所有數(shù)據(jù)集的半色調(diào)圖像均通過Floyd-Steinberg 誤差擴(kuò)散算法生成,并且使用峰值信噪比(peak signal-to-noise ratio,PSNR)和結(jié)構(gòu)相似性度量(structural similarity,SSIM)作為圖像質(zhì)量評(píng)估度量。本文的預(yù)訓(xùn)練模型和代碼公布在https://github.com/FeiyuLi-cs/MSPRL。

3.1.2 訓(xùn)練細(xì)節(jié)

在訓(xùn)練過程中,批量大小設(shè)置為16,隨機(jī)裁剪采樣圖像為128×128 像素,對(duì)于數(shù)據(jù)增強(qiáng),每幅圖像以0.5 的概率水平翻轉(zhuǎn)。此外使用迭代次數(shù)而不是迭代輪次表示訓(xùn)練長度,模型由AdamW 優(yōu)化器(β1=0.9,β2=0.999)訓(xùn)練300 K 次迭代。初始學(xué)習(xí)率設(shè)置為0.000 2,使用余弦退火算法將初始學(xué)習(xí)率逐漸衰減到10-6。模型在一張Nvidia RTX 3090 GPU上訓(xùn)練時(shí)間約為18 h。

3.2 消融實(shí)驗(yàn)

使用MSPRL 進(jìn)行消融實(shí)驗(yàn),以展示不同模塊、激活函數(shù)和特征塊的效果。MSPRL 在每個(gè)編碼器和解碼器中使用8個(gè)殘差塊。首先評(píng)估SFE和FF對(duì)MSPRL 的有效性,實(shí)驗(yàn)結(jié)果如表2 所示。與Kodak數(shù)據(jù)集中的SFE 相比,F(xiàn)F 將PSNR 提高0.02 dB,將FF 與SFE 相結(jié)合時(shí),性能增益進(jìn)一步提高0.05 dB。結(jié)果表明,聚合MSPRL 中不同編碼器的特征比僅計(jì)算注意力特征更為有效。

表2 SFE和FF的消融研究Table 2 Ablation study of SFE and FF

視覺網(wǎng)絡(luò)大多采用ReLU(rectified linear unit)(Nair 和Hinton,2010)或LeakyReLU(leaky rectified linear unit)(Maas 等,2013)作為激活函數(shù)。GELU(gaussian error linear unit)(Hendrycks 和Gimpel,2023)逐漸成為首選的激活函數(shù)。本文測試這3 個(gè)激活函數(shù),以探索提出模型的最佳性能,實(shí)驗(yàn)結(jié)果如表3 所示。結(jié)果展示了不同激活函數(shù)對(duì)模型性能的影響。ReLU 在多個(gè)數(shù)據(jù)集上總體表現(xiàn)更好;Leaky-ReLU 和GELU 的性能接近ReLU,但都增加了訓(xùn)練時(shí)間。因此,本文選擇ReLU 作為模型的激活函數(shù)。

表3 不同激活函數(shù)的性能比較Table 3 Performance comparison of different activation functions

本文還比較了3個(gè)常見的特征塊的PSNR 性能:殘差塊(RB)、殘差通道注意力塊(RCAB)和殘差的殘差稠密塊(residual-in-residual dense block,RRDB)(Wang 等,2019),以探索MSPRL 編碼器和解碼器的性能。特征塊的參數(shù)和性能如表4所示。其中RCAB和RRDB 都會(huì)增加模型的計(jì)算復(fù)雜度,并且RRDB會(huì)大大增加模型參數(shù),而RB將模型性能穩(wěn)定在較低的計(jì)算復(fù)雜度和參數(shù)之間。最后還在表5 中測試MSPRL不同特征通道和殘差塊數(shù)量的性能差異。

表4 不同特征塊的PSNR性能比較Table 4 Comparison of PSNR performance between different feature blocks/dB

表5 不同通道數(shù)和殘差塊(RBs)的性能比較Table 5 Performance comparison of different channel numbers and residual blocks(RBs)

3.3 訓(xùn)練策略

為了探索訓(xùn)練策略的影響,本文分別使用PRL和MSPRL 模型對(duì)不同圖像尺寸和損失函數(shù)進(jìn)行多次實(shí)驗(yàn)。發(fā)現(xiàn)使用較小的128×128 像素尺寸圖像訓(xùn)練模型不僅能夠縮短大約65%的訓(xùn)練時(shí)間,而且模型性能與訓(xùn)練256×256 像素尺寸的圖像相當(dāng)。本文推斷并驗(yàn)證這種現(xiàn)象是由于數(shù)據(jù)擴(kuò)充、隨機(jī)采樣和更多迭代造成的,這使得模型在小圖像尺寸上學(xué)習(xí)的特征信息與從大圖像尺寸學(xué)習(xí)的特征信息相當(dāng)。對(duì)于不同的損失函數(shù),本文加入最小化頻域中的快速傅里葉變換損失,與僅使用單個(gè)L1損失函數(shù)相比,可以在圖像細(xì)節(jié)方面進(jìn)一步優(yōu)化和改進(jìn)。本文將不同訓(xùn)練策略下重訓(xùn)練的PRL 命名為PRL-dt。在不同訓(xùn)練設(shè)置下的實(shí)驗(yàn)結(jié)果如表6 所示,L1表示僅使用單獨(dú)的L1損失函數(shù)。相比于PRL,PRL-dt 性能平均提高約為1.44 dB。

表6 不同訓(xùn)練設(shè)置下的性能比較Table 6 Performance comparison under different training setting

此外,PRL-dt 和MSPRL 在3 000 幅驗(yàn)證集上的PSNR 性能曲線如圖5 所示,圖中dim 為dimension,即圖像特征維度。

圖5 不同訓(xùn)練設(shè)置下驗(yàn)證集的性能曲線Fig.5 Validation curves of different training setting

3.4 性能對(duì)比

將MSPRL 與其他逆半色調(diào)方法和相關(guān)視覺任務(wù)的CNN 模型進(jìn)行比較,如DnCNN(Zhang 等,2017)、VDSR(Kim等,2016)和EDSR(Lim等,2017)。EDSR 的單基線模型包含16 個(gè)殘差塊和64 個(gè)卷積內(nèi)核通道,本文移除了數(shù)據(jù)預(yù)處理/后處理和上采樣層用于逆半色調(diào)任務(wù)。由于GGRL(Yuan 等,2020)預(yù)訓(xùn)練模型未公布,并且訓(xùn)練數(shù)據(jù)集大小是本文數(shù)據(jù)集的8 倍,因此只使用GGRL 架構(gòu)并重新訓(xùn)練一個(gè)GGRL 模型,導(dǎo)致其性能與原始論文相比存在差距。由于UNet 骨干網(wǎng)絡(luò)廣泛使用在圖像恢復(fù)任務(wù)中,為了區(qū)別架構(gòu)相似的模型,重新訓(xùn)練MIMOUNet(Cho 等,2021)用于逆半色調(diào)。為了進(jìn)行公平比較,這些方法均采用本文的訓(xùn)練策略,表7 展示了不同方法在7 個(gè)數(shù)據(jù)集上的結(jié)果。實(shí)驗(yàn)結(jié)果表明,MSPRL 在7 個(gè)數(shù)據(jù)集上獲得最佳的性能,相比PRLdt 增益均為0.2 dB。尤其是在Urban100 數(shù)據(jù)集上,MSPRL 比MIMOUNet 高0.69 dB,注意到其他模型應(yīng)用本文的訓(xùn)練策略后,其性能均優(yōu)于PRL,如DnCNN、VDSR 和EDSR 采用本文的訓(xùn)練策略,它們的結(jié)果高于Xia和Wong(2019)相應(yīng)模型的值,驗(yàn)證了本文訓(xùn)練策略的有效性。此外本文僅使用PRL基線模型,改用本文的訓(xùn)練策略進(jìn)行優(yōu)化重訓(xùn)練,最終PRL-dt的性能比PRL有較大提升,PRL-dt在多個(gè)數(shù)據(jù)集上相比PRL的PSNR 平均提高約1.44 dB。從表7 可以看出,MSPRL在所有數(shù)據(jù)集上也優(yōu)于PRL-dt。

表7 不同逆半色調(diào)方法的性能比較Table 7 Performance comparison of different inverse halftoning methods

圖6 展示了不同逆半色調(diào)方法的視覺比較。相比其他方法,MSPRL 可以獲得更明顯的紋理和結(jié)構(gòu)信息,有效地恢復(fù)圖像的細(xì)節(jié)。MSPRL 在建筑和線條中的還原視覺效果更為流暢和細(xì)致,避免彎曲和重疊;圖6 中的圖像Kodim24 和TetsuSan,其他模型

圖6 本文方法MSPRL與其他方法在不同圖像的質(zhì)量對(duì)比Fig.6 The quality comparison between the MSPRL and other methods in the different images

圖7 中,MSPRL 可以較好地恢復(fù)Lena 圖像的帽子紋理,更接近原始真實(shí)圖像;在Barbara 圖像中,其他模型恢復(fù)的布料紋理呈現(xiàn)出更多的彎曲現(xiàn)象;此外MSPRL 對(duì)文字的恢復(fù)更加平滑,視覺效果更佳。與其他模型相比,盡管半色調(diào)圖像的網(wǎng)絡(luò)信息無法恢復(fù)圖像中密集的圓形和點(diǎn)狀,顯示出不同方向的線型,而MSPRL 可以避免這個(gè)問題并能夠較為準(zhǔn)確地還原點(diǎn)狀圖像。損失非常嚴(yán)重,但MSPRL 仍然能夠恢復(fù)主要細(xì)節(jié)。

圖7 本文方法MSPRL與其他方法在不同圖像的質(zhì)量對(duì)比Fig.7 The quality comparison between the MSPRL and other methods in the different images

本文還對(duì)比了一些經(jīng)典圖像的恢復(fù)性能,實(shí)驗(yàn)結(jié)果展示在表8 中,其中圖像為512×512 像素。本文方法MSPRL 的性能明顯優(yōu)于其他逆半色調(diào)方法。

表8 不同逆半色調(diào)方法在9幅經(jīng)典圖像的性能比較(PSNR)Table 8 Performance comparison of different inverse halftoning methods on 9 classic images(PSNR)/dB

4 結(jié)論

本文提出一種用于逆半色調(diào)任務(wù)的多尺度漸進(jìn)式殘差學(xué)習(xí)架構(gòu)網(wǎng)絡(luò)(MSPRL)。其中編碼器從不同尺度的圖像中恢復(fù)內(nèi)容信息,解碼器收集編碼器特征以提取深層特征,逐步學(xué)習(xí)整個(gè)模型特征。提出的MSPRL 模型簡單高效,通過不同層級(jí)圖像分辨率,從左到右逐步學(xué)習(xí)不同尺度圖像的信息。與基于CNN 的逆半色調(diào)方法相比,本文通過提出的淺層特征提取模塊和特征融合模塊實(shí)現(xiàn)高效的重建性能,并且使用優(yōu)化后的訓(xùn)練策略訓(xùn)練模型,性能得到進(jìn)一步提升,此外還探討了模型在不同的通道維數(shù)、特征塊和激活函數(shù)之間的性能。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性,同時(shí)本文方法MSPRL 在7 個(gè)數(shù)據(jù)集上實(shí)現(xiàn)最佳性能,獲得顯著的視覺重建質(zhì)量。

盡管本文方法在多個(gè)數(shù)據(jù)集上獲得了最佳性能,但核心的編碼器解碼器使用的殘差塊仍有改進(jìn)空間,其參數(shù)量依舊存在冗余且計(jì)算效率仍可以進(jìn)一步優(yōu)化。最近許多研究人員在逆半色調(diào)灰度圖像中添加著色任務(wù),本文將進(jìn)行后續(xù)研究,以恢復(fù)更好視覺感知的彩色連續(xù)色調(diào)圖像。

猜你喜歡
解碼器色調(diào)編碼器
科學(xué)解碼器(一)
科學(xué)解碼器(二)
科學(xué)解碼器(三)
線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
湖光水色調(diào)
色調(diào)會(huì)說話
童話世界(2019年14期)2019-06-25 10:11:46
分離色調(diào)與色調(diào)曲線
基于FPGA的同步機(jī)軸角編碼器
基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
In Spring!春之色調(diào)
Coco薇(2016年4期)2016-04-06 02:00:19
石嘴山市| 兰州市| 贡嘎县| 景泰县| 炉霍县| 辽宁省| 县级市| 公安县| 延边| 宁城县| 益阳市| 天峨县| 宕昌县| 沁源县| 乌拉特中旗| 胶南市| 霍山县| 铜鼓县| 大悟县| 都昌县| 满洲里市| 静乐县| 达孜县| 新干县| 开原市| 嘉义县| 镇康县| 凤凰县| 阜平县| 麻城市| 绥芬河市| 金川县| 保定市| 富锦市| 景洪市| 玉溪市| 拉萨市| 周至县| 毕节市| 贺州市| 余姚市|