劉斌,方思嚴(yán)
基于不可分提升小波的雙U-Former圖像去雨網(wǎng)絡(luò)
劉斌,方思嚴(yán)*
(湖北大學(xué) 計算機(jī)與信息工程學(xué)院,武漢 430062)( ? 通信作者電子郵箱 fangsiyanfsy@163.com)
針對基于張量積小波的去雨方法無法捕獲所有方向的高頻雨紋的問題,提出基于不可分提升小波的雙U-Former網(wǎng)絡(luò)(DUFN)。首先,利用各向同性的不可分提升小波捕捉各個方向的高頻雨紋,相較于哈爾小波等張量積小波只能捕捉3個方向的高頻雨紋,DUFN能獲得更全面的雨紋信息;其次,在各尺度上串聯(lián)兩個由Transformer Block(TB)構(gòu)成的U-Net,將淺層解碼器的語義特征傳遞到深層階段,并更徹底地去除雨紋;同時,使用尺度引導(dǎo)編碼器通過淺層各尺度信息引導(dǎo)編碼階段,并利用基于CBAM(Convolutional Block Attention Module)的門控融合模塊(GFM)使融合過程更專注于有雨區(qū)域。實驗結(jié)果表明,相較于先進(jìn)方法SPDNet(Structure-Preserving Deraining Network),在Rain200H、Rain200L、Rain1200和Rain12這4個合成數(shù)據(jù)集上,DUFN的結(jié)構(gòu)相似度(SSIM)平均提高了0.009 7,在Rain200H、Rain200L和Rain12這3個合成數(shù)據(jù)集上,DUFN的峰值信噪比(PSNR)平均提高了0.657 dB;在真實世界數(shù)據(jù)集SPA-Data上,相較于先進(jìn)方法ECNetLL(Embedding Consistency Network+Layered Long short-term memory),DUFN的PSNR和SSIM分別提高了0.976 dB和0.003 1。驗證了DUFN可以通過增強(qiáng)捕捉高頻信息的能力提升去雨性能。
圖像去雨;不可分提升小波;多尺度;Transformer;尺度引導(dǎo)
雨天等惡劣天氣會造成圖像和視頻質(zhì)量退化,尤其是常見的雨紋會影響計算機(jī)視覺處理算法的性能,造成目標(biāo)檢測、語義分割等算法的可靠度和精確性下降。因此,研究圖像去雨網(wǎng)絡(luò)具有十分重要的意義。
現(xiàn)有的去雨方法主要分為基于視頻的方法[1-2]和基于圖像的方法?;谝曨l的方法[1-2]根據(jù)相鄰幀圖像之間的差異提取并去除雨紋,但是圖像去雨任務(wù)缺乏時空信息,只包含某一時刻的雨紋分布情況,去雨難度很大。
傳統(tǒng)的雨天模型由雨紋和背景組成,數(shù)學(xué)上可表示為:
其中:代表雨天圖像;代表干凈的背景圖像;代表雨紋圖像。
傳統(tǒng)的去雨方法主要通過探索先驗知識,利用雨紋的物理特征恢復(fù)無雨圖像。Kang等[3]通過稀疏編碼從高頻層中分離雨紋;Li等[4]利用高斯混合模型將雨紋從背景層中分離;Chen等[5]提出基于低秩表示的方法,通過利用低秩模型去除雨紋。
近年,許多基于深度學(xué)習(xí)的方法通過從人工合成的大量數(shù)據(jù)中學(xué)習(xí)復(fù)雜的模型用于去雨。如Fu等[6]較早地將深度學(xué)習(xí)用于圖像去雨,將雨天圖像通過導(dǎo)向濾波分解為低頻和高頻,對高頻部分使用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練;Fu等[7]又提出基于深度殘差結(jié)構(gòu)的網(wǎng)絡(luò),通過減少從輸入到輸出的映射范圍,使學(xué)習(xí)過程更容易;Li等[8]引入“雨嵌入一致性”思想,通過提高理想雨嵌入與編碼器導(dǎo)出雨嵌入之間的一致性提高去雨性能;Chen等[9]使用在大型數(shù)據(jù)集lmageNet上預(yù)訓(xùn)練的Transformer恢復(fù)干凈圖像。
由于不同雨紋在形狀、尺寸和密度上各不相同,一些方法通過多尺度策略利用不同層次特征的信息提取雨紋。Li等[10]通過循環(huán)利用具有擴(kuò)張因子的卷積核和擠壓激勵模塊消除密集雨紋。Jiang等[11]根據(jù)金字塔架構(gòu)提出了一種多尺度漸進(jìn)融合網(wǎng)絡(luò),并使用注意力機(jī)制指導(dǎo)不同尺度信息的融合。Wang等[12]探索跨尺度方式和內(nèi)部尺度融合方法,實現(xiàn)去雨目標(biāo)。Wang等[13]用尺度引導(dǎo)方式探索了不同尺度之間的相關(guān)性。然而,目前大部分多尺度方法采用具有不同內(nèi)核大小和步幅的池化操作獲取多尺度特征,這種方法雖然簡單但容易丟失信息。
小波多尺度分析在圖像處理領(lǐng)域被認(rèn)為是較好的多尺度策略。SPDNet(Structure-Preserving Deraining Network)[14]等方法通過哈爾小波獲取多尺度特征,有助于減少采樣期間信息丟失并保留更多紋理細(xì)節(jié);但是哈爾小波等由一維小波形成的張量積小波只強(qiáng)調(diào)水平、垂直和對角線方向上的高頻,不具有各向同性。在真實場景中,雨紋在風(fēng)或其他外力的作用下呈現(xiàn)的方向是隨機(jī)的,張量積小波只能捕獲3個方向上的高頻雨紋,忽略了其他方向的雨紋。具有各項同性的不可分提升小波[15]能捕捉各個方向的高頻雨紋。本文通過不可分提升小波實現(xiàn)多尺度策略,既有助于避免采樣過程中信息丟失的問題,還能捕獲各個方向的高頻雨紋。
U-Net[16]是目前廣泛使用的多尺度架構(gòu),已成功應(yīng)用于語義分割等多個領(lǐng)域。較近的MCW-Net(Multi-level Connection and Wide regional non-local block Network)[17]、A2Net(Adjacent Aggregation Network)[18]等方法采用基于U-Net的主干架構(gòu)去雨;但是傳統(tǒng)單U-Net的編碼?解碼模型和普通卷積模塊在處理復(fù)雜雨天圖像時容易遇到瓶頸,難以捕捉與背景相似的雨紋。DoubleU-Net[19]疊加組合兩個U-Net,在分割任務(wù)中取得了不錯效果。Uformer[20]將具有長距離依賴功能的Transformer嵌入U-Net,實現(xiàn)了高效圖像復(fù)原。因此,本文結(jié)合DoubleU-Net和Uformer的優(yōu)勢提出雙U-Former網(wǎng)絡(luò)(Dual U-Former Network, DUFN),多尺度串聯(lián)兩個由Transformer Block(TB)[21]構(gòu)成的U-Net,在捕獲遠(yuǎn)距離雨紋的同時讓淺層階段各尺度特征傳遞到深層階段,增強(qiáng)特征復(fù)用能力。DUFN利用基于CBAM(Convolutional Block Attention Module)[22]的門控融合模塊(Gated Fusion Module, GFM),在引導(dǎo)和融合階段根據(jù)特征的重要程度靈活調(diào)整來自不同特征圖的貢獻(xiàn),使網(wǎng)絡(luò)專注于有雨區(qū)域,提高雨紋捕捉能力。此外,由于淺層階段含有豐富雨紋細(xì)節(jié)信息,受文獻(xiàn)[13]啟發(fā),本文設(shè)計了尺度引導(dǎo)編碼器,利用淺層編碼階段多尺度信息指導(dǎo)去雨,使淺層豐富的雨紋細(xì)節(jié)更容易被捕獲。本文在合成數(shù)據(jù)集、真實雨天數(shù)據(jù)集和聯(lián)合目標(biāo)檢測任務(wù)中進(jìn)行了廣泛實驗,結(jié)果表明DUFN優(yōu)于目前先進(jìn)的方法。
二維不可分小波通過按行列同時進(jìn)行的方式處理圖像,具有各向同性的特點(diǎn),因此去雨時它能捕獲各個方向的雨紋,但是基于傅里葉變換理論和卷積運(yùn)算構(gòu)造的二維不可分小波計算量大。為節(jié)省計算資源,本文使用它的提升方式,即二維不可分提升小波,實現(xiàn)多尺度策略。它既可以較好地保留各向同性的特點(diǎn),又能提高運(yùn)算速度。同時,二維不可分提升小波在處理圖像時首先對像素點(diǎn)分類以實現(xiàn)分裂,其次把二維預(yù)測算子、更新算子或提升分解后的多相位矩陣作用于分裂后的子圖像,而不對圖像進(jìn)行抽樣和插值,因此可以避免信息的丟失。
圖1 有理數(shù)濾波器組
圖2 預(yù)測算子和更新算子
傳統(tǒng)的第一代小波先使用設(shè)計的低通濾波器和高通濾波器對圖像卷積,再進(jìn)行下2抽樣得到分解子圖;而重構(gòu)算法是先對圖像上2插值,再使用低通濾波器和高通濾波器卷積?;诙嘞辔痪仃嚨奶嵘桨?,通過對分裂后的子集分別使用左下三角矩陣和右上三角矩陣進(jìn)行連續(xù)作用,得到圖像的低頻和高頻部分,實現(xiàn)分解。該提升方案提高了圖像分解和重構(gòu)的速度,節(jié)省了運(yùn)算量。通過上述多相位矩陣對圖像分解和重構(gòu)的過程如圖3所示,具體步驟如下。
其中和分別表示像素點(diǎn)的橫、縱坐標(biāo)。
圖3 圖像的不可分提升小波分解與重構(gòu)過程
圖4 不可分提升小波和哈爾小波的分解效果
如圖5所示,DUFN由兩個基于TB構(gòu)成的U-Net通過多尺度串聯(lián)而成,主要分為淺層階段和深層階段。淺層階段負(fù)責(zé)去除圖像中簡單的雨紋,由尺度引導(dǎo)編碼器和淺層解碼器組成,尺度引導(dǎo)編碼器通過利用淺層多尺度信息引導(dǎo)編碼過程,使雨紋更容易被捕獲并保留細(xì)節(jié)特征;深層階段由串聯(lián)引導(dǎo)編碼器和深層解碼器組成,旨在利用淺層解碼器中豐富的語義信息去除結(jié)構(gòu)更復(fù)雜的殘留雨紋。TB憑借遠(yuǎn)程像素交互能力,可以捕捉更全面的雨紋信息。網(wǎng)絡(luò)中所有融合過程均使用門控融合模塊,以保留更多重要信息。
圖5 雙U-Former網(wǎng)絡(luò)
多尺度策略由如圖6所示的小波上下采樣實現(xiàn),不可分提升小波作為尺度變換的核心工具,可在減少信息丟失的同時捕獲各種方向的雨紋。
圖6 小波上采樣和小波下采樣
由于利用尺度的相關(guān)性引導(dǎo)去雨能取得更好的效果[13],且淺層網(wǎng)絡(luò)含有豐富的細(xì)節(jié)信息,因此本文設(shè)計了尺度引導(dǎo)編碼器,利用淺層多尺度信息以初步提取雨紋特征并保留更多細(xì)節(jié)信息。尺度引導(dǎo)編碼器由尺度引導(dǎo)分支和編碼分支組成。尺度引導(dǎo)分支先對圖像進(jìn)行不可分提升小波變換(Non-separable Lifting Wavelet Transform, NLWT),再將得到的子圖拼接后通過卷積調(diào)整通道數(shù),以實現(xiàn)緊湊表示。該過程可表示為如下形式:
Transformer憑借出色的性能在眾多視覺任務(wù)中取得杰出表現(xiàn)。Zamir等[21]提出用于圖像恢復(fù)的Transformer Block,能在高分辨率圖像中捕獲遠(yuǎn)程雨紋像素進(jìn)行交互。如圖7所示,Transformer Block由多深度卷積(Depth-wise Convolution, DConv)頭部轉(zhuǎn)置注意力(Multi-Dconv head Transposed Attention, MDTA)模塊和門控Dconv前饋網(wǎng)絡(luò)(Gated-Dconv Feed-forward Network, GDFN)組成。MDTA通過聚合局部和非局部像素交互,能夠有效處理高分辨圖像;GDFN通過抑制無用信息,允許有用信息通過,使網(wǎng)絡(luò)更關(guān)注雨紋區(qū)域,產(chǎn)生高質(zhì)量輸出。
其中:表示3×3深度卷積;GELU表示高斯誤差線性單元(Gaussian Error Linear Unit);LN表示層歸一化;表示逐元素乘法。
由于雨天圖像的不同通道所含信息量不同,不同像素上的雨紋分布也并不均勻,受文獻(xiàn)[24]啟發(fā),設(shè)計了基于CBAM[22]的門控融合模塊(GFM)。GFM使用通道注意力給不同通道分配不同權(quán)重,利用空間注意力根據(jù)像素的重要程度靈活調(diào)整相應(yīng)貢獻(xiàn),如圖8所示。
圖8 門控融合模塊
均方誤差(Mean Square Error, MSE)是圖像去雨任務(wù)中廣泛使用的損失函數(shù),但它沒有考慮邊緣、亮度等圖像局部特征,通常導(dǎo)致高頻細(xì)節(jié)模糊,而結(jié)構(gòu)相似度(Structure SIMilarity, SSIM)損失[25]能很好地保留高頻細(xì)節(jié)。為保持全局結(jié)構(gòu)的完整性和每個像素的相似性,本文采用MSE和SSIM作為損失函數(shù)。兩個損失函數(shù)用公式可以表示為:
通過結(jié)合均方誤差損失函數(shù)和SSIM損失函數(shù),本文總體損失函數(shù)可定義為:
1)合成數(shù)據(jù)集。本文在Rain200H[26]、Rain200L[26]、Rain1200[27]和Rain12[4]這4種廣泛使用的合成數(shù)據(jù)集上評估DUFN的性能。其中:Rain200H是合成大雨的數(shù)據(jù)集,Rain200L是合成小雨的數(shù)據(jù)集,Rain200H和Rain200L均包含1 800個用于訓(xùn)練的圖像對和200個用于測試的圖像對;Rain1200由不同密度的雨天圖像組成,包含12 000張訓(xùn)練對和1 200張測試對;Rain12包含12個圖像對,樣本數(shù)少不適合單獨(dú)訓(xùn)練,本文使用在Rain200H上訓(xùn)練的模型評估Rain12。消融實驗均在Rain200H數(shù)據(jù)集上進(jìn)行。
2)真實世界數(shù)據(jù)集。本文使用兩個真實世界數(shù)據(jù)集評估DUFN的性能。SPA-Data[28]包含638 492張用于訓(xùn)練的圖像對和1 000張用于測試的圖像對;Internet-Data[29]包含147張雨天圖像但缺乏干凈背景圖像。本文使用在Rain200H上訓(xùn)練的權(quán)重值定性評估。
3)評估標(biāo)準(zhǔn)。本文使用兩個廣泛使用的指標(biāo):峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)[30]和結(jié)構(gòu)相似度(SSIM)[25]作為合成數(shù)據(jù)集和真實世界SPA-Data的評估指標(biāo)。由于Internet-Data的雨天圖像沒有相應(yīng)的無雨背景圖,本文僅比較視覺效果。
3.3.1在合成數(shù)據(jù)集上的結(jié)果
本文與9種先進(jìn)方法在4個合成數(shù)據(jù)集上進(jìn)行比較,對比方法分別為RESCAN(REcurrent Squeeze-and-excitation Context Aggregation Net)[10]、PReNet(Progressive Recurrent Networks)[32]、SPANet(Spatial Attentive Network)[28]、BRN(Bilateral Recurrent Network)[33]、DCSFN(Deep Cross-Scale Fusion Network)[12]、RCDNet(Rain Convolutional Dictionary Network)[34]、EfDeRain (Efficient-Derain)[35]、SPDNet[14]、SSID-KD(Semi-Supervised Image Deraining using Knowledge Distillation)[36]。
表1展示了定量比較結(jié)果。在Rain200H、Rain200L和Rain12數(shù)據(jù)集上,DUFN的PSNR均優(yōu)于SPDNet,平均提升了0.657 dB;在Rain1200數(shù)據(jù)集上,略低于SPDNet,可能的原因是PSNR是基于像素點(diǎn)間誤差的評價指標(biāo),SPDNet所使用的殘差通道先驗會影響網(wǎng)絡(luò)的PSNR表現(xiàn),它在不同場景中的效果不同,能在Rain1200數(shù)據(jù)集中發(fā)揮出較好效果,但未能有效提升網(wǎng)絡(luò)的SSIM表現(xiàn);在4個數(shù)據(jù)集上,DUFN的SSIM均高于SPDNet,平均提升了0.009 7。綜合4個數(shù)據(jù)集上的結(jié)果,DUFN展現(xiàn)了最佳的去雨性能,表明DUFN能適應(yīng)不同降雨條件,具有更好的魯棒性和去雨效果。
表1 不同方法在合成數(shù)據(jù)集上的定量比較結(jié)果
注:粗體表示性能最好,下劃線表示性能次優(yōu)。
圖9展示了在合成數(shù)據(jù)集上去雨的主觀效果,可以看出,使用RESCAN、PReNet、SPANet去雨后的圖像殘留了過多雨紋;EfDeRain在恢復(fù)高頻細(xì)節(jié)時容易導(dǎo)致過平滑現(xiàn)象;RCDNet、SPDNet、DCSFN容易殘留與背景相似的雨紋;SSID-KD和BRN難以恢復(fù)高頻邊緣部分,而DUFN能更充分地去除雨紋并恢復(fù)出更清晰的細(xì)節(jié)信息。
3.3.2在真實雨天的結(jié)果
為了驗證DUFN適用于真實雨天場景,與6種先進(jìn)方法RESCAN、SPANet、RCDNet、EfDeRain、SPDNet和ECNetLL (Embedding Consistency Network+Layered Long short-term memory)[8]在SPA-Date上訓(xùn)練后進(jìn)行了定量和定性比較。結(jié)果如表2所示,DUFN的PSNR和SSIM比ECNetLL分別提高了0.976 dB和0.003 1,兩項指標(biāo)仍然優(yōu)于其他對比方法,在真實雨天數(shù)據(jù)集中維持了最佳性能。
圖10展示了不同方法在SPA-Date上的視覺效果,可以觀察到,相較于其他對比方法,DUFN能更充分地去除雨紋并保留更完整的背景信息。
由于Internet-Data中沒有對應(yīng)的干凈圖像,本文與9種先進(jìn)方法使用在Rain200H上訓(xùn)練的模型進(jìn)行定性分析。如圖11所示,DCSFN和EfDeRain的去雨結(jié)果殘留了較多雨霧,RESCAN、PReNet、SPANet、BRN、RCDNet、SPDNet和SSID-KD雖然能有效去除雨紋,但容易造成背景模糊和高頻細(xì)節(jié)部分丟失,DUFN能在有效去除雨紋的同時恢復(fù)出更精細(xì)的高頻細(xì)節(jié)。
圖9 不同方法在合成數(shù)據(jù)集上的定性比較
表2 不同方法在真實雨天數(shù)據(jù)集SPA-Data上的定量比較
圖10 不同方法在真實雨天數(shù)據(jù)集SPA-Data上的定性比較
圖11 不同方法在真實雨天數(shù)據(jù)集Internet-Date上的定性比較
3.4.1多尺度策略的消融實驗
為驗證不可分提升小波實現(xiàn)多尺度策略能減少信息丟失并保留更多細(xì)節(jié),本文對比了其他兩種不同的多尺度策略。實驗1~3的設(shè)置和在Rain200H上的結(jié)果如表3所示。
視覺效果如圖12所示:采用不可分提升小波實現(xiàn)多尺度的采樣方式(實驗1)取得了最佳性能;實驗2恢復(fù)高頻時使局部泛黃,實驗3嚴(yán)重破壞了原有結(jié)構(gòu);而實驗1通過不可分提升小波進(jìn)行采樣能減少信息丟失,保留更多細(xì)節(jié)。
表3 多尺度策略的消融實驗結(jié)果
注:DWT和IDWT分別表示使用哈爾小波作為基函數(shù)的離散小波變換(Discrete Wavelet Transform)及其逆變換。
3.4.2各模塊的消融實驗
本文將不同模塊進(jìn)行多種組合,驗證網(wǎng)絡(luò)中所使用門控融合模塊、尺度引導(dǎo)和多尺度串聯(lián)的有效性。實驗4~7的設(shè)置和在Rain200H上的實驗結(jié)果如表4所示,其中,實驗7中使用1×1卷積和LeakyReLU(0.2)激活函數(shù)代替門控融合模塊。
表4 不同模塊的消融實驗結(jié)果
從表4可以看出,本文方法所用的每個子模塊都有助于提升網(wǎng)絡(luò)的性能,本文方法實現(xiàn)了最佳性能。視覺效果如圖12所示,實驗5恢復(fù)的圖像在高頻邊緣部分變得模糊并丟失了紋理細(xì)節(jié),實驗6~7出現(xiàn)了色彩失真,而本文方法不僅能有效去除雨紋,還能恢復(fù)更詳細(xì)的紋理細(xì)節(jié)。
圖12 消融實驗的視覺效果
為了驗證所提方法能增強(qiáng)高級視覺算法在雨天應(yīng)用的性能,本文使用在Rain200H數(shù)據(jù)集上訓(xùn)練的模型對COCO350數(shù)據(jù)集[11]進(jìn)行去雨處理,再使用YOLOv5s[37]進(jìn)行目標(biāo)檢測。
表5展示了目標(biāo)檢測性能的定量結(jié)果,其中mAP50表示交并比(Intersection over Union, IoU)取值為0.5時的平均精度均值(mean Average Percision, mAP),值越高,效果越好。由表5可以看出,DUFN展現(xiàn)了最佳的去雨性能,大幅提升了檢測準(zhǔn)確度。視覺比較結(jié)果如圖13所示,雨紋大幅降低了目標(biāo)檢測的準(zhǔn)確度。本文方法生成的無雨圖像能恢復(fù)更多清晰場景和細(xì)節(jié)內(nèi)容,使目標(biāo)檢測算法識別出更多摩托車和行人目標(biāo),增強(qiáng)了目標(biāo)檢測的性能。
表5 不同方法在COCO350數(shù)據(jù)集上聯(lián)合圖像去雨和目標(biāo)檢測的比較結(jié)果 單位:%
圖13 不同方法在COCO350數(shù)據(jù)集上聯(lián)合圖像去雨和目標(biāo)檢測的視覺效果
本文提出的雙U-Former網(wǎng)絡(luò)(DUFN)使用不可分提升小波變換實現(xiàn)多尺度策略,在避免信息丟失的同時捕獲各方向的雨紋。DUFN利用TB作為基本模塊增強(qiáng)網(wǎng)絡(luò)捕獲遠(yuǎn)距離雨紋的能力。兩個基于TB構(gòu)造的U-Net在各尺度進(jìn)行串聯(lián),使淺層解碼器的語義信息充分傳遞到深層階段,加強(qiáng)對不同尺度雨紋的提取能力。其中尺度引導(dǎo)編碼器利用淺層各尺度特征對編碼過程進(jìn)行引導(dǎo),使捕獲到的雨紋位置更加準(zhǔn)確。網(wǎng)絡(luò)中所有特征融合過程均使用基于CBAM的門控融合模塊進(jìn)行,通過靈活調(diào)整不同特征的貢獻(xiàn)程度對各像素和通道進(jìn)行加權(quán)強(qiáng)化。定量和定性實驗結(jié)果證明,本文方法在合成數(shù)據(jù)集和真實世界數(shù)據(jù)集以及應(yīng)用于目標(biāo)檢測的結(jié)果都優(yōu)于其他先進(jìn)方法。本文方法的代碼地址為https://github.com/fashyon/DUFN。
由于不同頻域信息具有不同特點(diǎn),即低頻包含更多背景結(jié)構(gòu)和顏色信息,高頻包含更多細(xì)節(jié)信息,且雨紋更多存在于高頻中,如果U-Net能在不同頻域內(nèi)學(xué)習(xí),則能將圖像去雨任務(wù)分解為在多個頻域段進(jìn)行的子任務(wù),從而提高去雨效率。未來將結(jié)合頻域知識設(shè)計自監(jiān)督分頻網(wǎng)絡(luò),在提高網(wǎng)絡(luò)性能的同時節(jié)省收集數(shù)據(jù)集的人工成本。
[1] LIU J, YANG W, YANG S, et al. Erase or fill? deep joint recurrent rain removal and reconstruction in videos[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 3233-3242.
[2] YANG W, LIU J, FENG J. Frame-consistent recurrent video deraining with dual-level flow[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 1661-1670.
[3] KANG L W, LIN C W, FU Y H. Automatic single-image-based rain streaks removal via image decomposition[J]. IEEE Transactions on Image Processing, 2012, 21(4): 1742-1755.
[4] LI Y, TAN R T, GUO X, et al. Rain streak removal using layer priors[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 2736-2744.
[5] CHEN Y L, HSU C T. A generalized low-rank appearance model for spatio-temporally correlated rain streaks[C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2013: 1968-1975.
[6] FU X, HUANG J, DING X, et al. Clearing the skies: a deep network architecture for single-image rain removal[J]. IEEE Transactions on Image Processing, 2017, 26(6): 2944-2956.
[7] FU X, HUANG J, ZENG D, et al. Removing rain from single images via a deep detail network[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 1715-1723.
[8] LI Y, MONNO Y, OKUTOMI M. Single image deraining network with rain embedding consistency and layered LSTM[C]// Proceedings of the 2022 IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway: IEEE, 2022: 3957-3966.
[9] CHEN H, WANG Y, GUO T, et al. Pre-trained image processing transformer[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 12294-12305.
[10] LI X, WU J, LIN Z, et al. Recurrent squeeze-and-excitation context aggregation net for single image deraining[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018: 262-277.
[11] JIANG K, WANG Z, YI P, et al. Multi-scale progressive fusion network for single image deraining[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 8343-8352.
[12] WANG C, XING X, WU Y, et al. DCSFN: deep cross-scale fusion network for single image rain removal[C]// Proceedings of the 28th ACM International Conference on Multimedia. New York: ACM, 2020: 1643-1651.
[13] WANG C, ZHU H, FAN W, et al. Single image rain removal using recurrent scale-guide networks[J]. Neurocomputing, 2022, 467: 242-255.
[14] YI Q, LI J, DAI Q, et al. Structure-preserving deraining with residue channel prior guidance[C]// Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2021: 4218-4227.
[15] LIU B, LIU W. The lifting factorization of 2D 4-channel nonseparable wavelet transforms[J]. Information Sciences, 2018, 456: 113-130.
[16] RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]// Proceedings of the 2015 International Conference on Medical Image Computing and Computer-Assisted Intervention, LNCS 9351. Cham: Springer, 2015: 234-241.
[17] PARK Y, JEON M, LEE J, et al. MCW-Net: single image deraining with multi-level connections and wide regional non-local blocks[J]. Signal Processing: Image Communication, 2022, 105: No.116701.
[18] LIN H, JING C, HUANG Y, et al. A2Net: adjacent aggregation networks for image raindrop removal[J]. IEEE Access, 2020, 8: 60769-60779.
[19] JHA D, RIEGLER M A, JOHANSEN D, et al. DoubleU-Net: a deep convolutional neural network for medical image segmentation[C]// Proceedings of the IEEE 33rd International Symposium on Computer-Based Medical Systems. Piscataway: IEEE, 2020: 558-564.
[20] WANG Z, CUN X, BAO J, et al. Uformer: a general U-shaped Transformer for image restoration[C]// Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2022: 17662-17672.
[21] ZAMIR S W, ARORA A, KHAN S, et al. Restormer: efficient Transformer for high-resolution image restoration[C]// Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2022: 5718-5729.
[22] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018: 3-19.
[23] 劉斌,彭嘉雄. 基于四通道不可分加性小波的多光譜圖像融合[J]. 計算機(jī)學(xué)報, 2009, 32(2): 350-356.(LIU B, PENG J X. Fusion method of multi-spectral image and panchromatic image based on four channels non-sperable additive wavelets[J]. Chinese Journal of Computers, 2009, 32(2): 350-356.)
[24] QIN X, WANG Z, BAI Y, et al. FFA-Net: feature fusion attention network for single image dehazing[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 11908-11915.
[25] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
[26] YANG W, TAN R T, FENG J, et al. Deep joint rain detection and removal from a single image[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 1685-1694.
[27] ZHANG H, PATEL V M. Density-aware single image de-raining using a multi-stream dense network[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 695-704.
[28] WANG T, YANG X, XU K, et al. Spatial attentive single-image deraining with a high quality real rain dataset[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 12262-12271.
[29] WEI W, MENG D, ZHAO Q, et al. Semi-supervised transfer learning for image rain removal[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 3872-3881.
[30] HUYNH-THU Q, GHANBARI M. Scope of validity of PSNR in image/video quality assessment[J]. Electronics Letters, 2008, 44(13): 800-801.
[31] KINGMA D P, BA J L. Adam: a method for stochastic optimization[EB/OL]. (2017-01-30) [2022-05-15].https://arxiv.org/pdf/1412.6980.pdf.
[32] REN D, ZUO W, HU Q, et al. Progressive image deraining networks: a better and simpler baseline[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 3932-3941.
[33] REN D, SHANG W, ZHU P, et al. Single image deraining using bilateral recurrent network[J]. IEEE Transactions on Image Processing, 2020, 29: 6852-6863.
[34] WANG H, XIE Q, ZHAO Q, et al. A model-driven deep neural network for single image rain removal[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 3100-3109.
[35] GUO Q, SUN J, JUEFEI-XU F, et al. EfficientDeRain: learning pixel-wise dilation filtering for high-efficiency single-image deraining[C]// Proceedings of the 35th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2021: 1487-1495.
[36] CUI X, WANG C, REN D, et al. Semi-supervised image deraining using knowledge distillation[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(12): 8327-8341.
[37] Ultralytics. YOLOv5[EB/OL]. [2022-04-25].https://github.com/ultralytics/yolov5.
Dual U-Former image deraining network based on non-separable lifting wavelet
LIU Bin, FANG Siyan*
(,,430062,)
Aiming at the problem that the deraining methods based on tensor product wavelet cannot capture high-frequency rain streaks in all directions, a Dual U-Former Network (DUFN) based on non-separable lifting wavelet was proposed. Firstly, the isotropic non-separable lifting wavelet was used to capture high-frequency rain streaks in all directions. In this way, compared with tensor product wavelets such as Haar wavelet, which can only capture high-frequency rain streaks in three directions, DUFN was able to obtain more comprehensive rain streak information. Secondly, two U-Nets composed of Transformer Blocks (TBs) were connected in series at various scales, so that the semantic features of the shallow decoder were transferred to the deep stage, and the rain streaks were removed more thoroughly. At the same time, the scale-guide encoder was used to guide the coding stage by using the information of various scales in the shallow layer, and Gated Fusion Module (GFM) based on CBAM (Convolutional Block Attention Module) was used to make the fusion process put more focus on the rain area. Experimental results on Rain200H, Rain200L, Rain1200 and Rain12 synthetic datasets show that the Structure SIMilarity (SSIM) of DUFN is improved by 0.009 7 on average compared to that of the advanced method SPDNet (Structure-Preserving Deraining Network). And on Rain200H, Rain200L and Rain12 synthetic datasets, the Peak Signal-to-Noise Ratio (PSNR) of DUFN is improved by 0.657 dB averagely. On real-world dataset SPA-Data, PSNR and SSIM of DUFN are improved by 0.976 dB and 0.003 1 respectively compared with those of the advanced method ECNetLL (Embedding Consistency Network+Layered Long short-term memory). The above verifies that DUFN can improve the rain removal performance by enhancing the ability to capture high-frequency information.
image deraining; non-separable lifting wavelet; multi-scale; Transformer; scale-guide
This work is partially supported by National Natural Science Foundation of China (61471160).
LIU Bin, born in 1963, Ph. D., professor. His research interests include image processing, deep learning, wavelet analysis and application.
FANG Siyan, born in 1998, M. S. candidate. His research interests include image deraining, computer vision, wavelet analysis.
1001-9081(2023)10-3251-09
10.11772/j.issn.1001-9081.2022091422
2022?09?26;
2023?01?06;
國家自然科學(xué)基金資助項目(61471160)。
劉斌(1963—),男,湖北紅安人,教授,博士,主要研究方向:圖像處理、深度學(xué)習(xí)、小波分析與應(yīng)用; 方思嚴(yán)(1998—),男,湖北潛江人,碩士研究生,CCF會員,主要研究方向:圖像去雨、計算機(jī)視覺、小波分析。
TP391.4
A
2023?01?11。