段雅童,許光宇
(安徽理工大學(xué) 計算機科學(xué)與工程學(xué)院,安徽 淮南 232001)
在惡劣的天氣條件下,大氣中存在的懸浮顆粒物會吸收和散射太陽光,使戶外拍攝的照片失去對比度和色彩保真度,降低了場景的真實性,對高級計算機視覺任務(wù)產(chǎn)生了極大的不利影響。因此,圖像去霧具有重要的現(xiàn)實意義。目前,圖像去霧算法可分為3類,即基于圖像增強的去霧算法、基于圖像復(fù)原的去霧算法和基于深度學(xué)習(xí)的去霧算法。
基于圖像增強的去霧算法是通過增強圖像對比度和強化圖像信息來獲得干凈圖片,其典型的算法有基于Retinex理論的復(fù)原法[1]、直方圖均衡化法[2]和小波變換法[3]等。但由于該類算法并未考慮圖像有霧,恢復(fù)后的圖像易缺失部分細節(jié)信息。
基于圖像復(fù)原的去霧算法依賴大氣物理散射模型和先驗知識恢復(fù)清晰的圖片,其經(jīng)典算法有基于暗通道先驗(Dark Channel Prior,DCP)的圖像去霧算法和基于顏色衰減先驗(Color Attenuation Prior,CAP)的圖像去霧算法[4-5]。DCP算法認為,大多數(shù)非天空區(qū)域內(nèi)至少有1個顏色通道的像素強度接近于0,并以此來估計傳輸圖,但其估計霧濃度偏高,且對于含有大量天空區(qū)域的有霧圖像的去霧效果不理想。CAP算法利用亮度和飽和度之間的差異來估計霧的濃度,霧濃度越大,差異越大,并由此推算出透射率值,再利用大氣散射模型實現(xiàn)對有霧圖像的去霧處理。
基于深度學(xué)習(xí)的去霧算法可分為非端到端的去霧算法和端到端的去霧算法。非端到端的去霧算法首先利用卷積神經(jīng)網(wǎng)絡(luò)估計大氣光值和透射率值,然后依賴大氣散射模型恢復(fù)清晰圖像[6]。多尺度卷積神經(jīng)網(wǎng)絡(luò)(Multi Scale CNN,MSCNN)[7-8]由粗尺度卷積網(wǎng)絡(luò)和細尺度卷積網(wǎng)絡(luò)組成,實現(xiàn)了傳輸圖由粗到細的估計。多尺度融合的一體化網(wǎng)絡(luò)(All in One Dehazing Network,AOD-Net)[9]通過使大氣物理散射模型變形,將估計大氣光值和透射率變?yōu)橹恍韫烙嬐干渎屎痛髿夤庹盏暮喜⒅礙。非端到端的去霧算法雖取得了更好的去霧效果,但過于依賴大氣散射物理模型和先驗知識,會因參數(shù)估計不均衡產(chǎn)生累計誤差,使得去霧后的圖像色彩失真。端到端去霧網(wǎng)絡(luò)無需依賴大氣散射物理模型,直接從有霧圖像生成無霧圖像。Dong等[10]提出了基于融合鑒別器的生成對抗網(wǎng)絡(luò)單圖像去霧算法(FD-GAN),有效提高了去霧效果,但景深深處處理后的圖像會出現(xiàn)顏色突變。Li等[11]提出了增強型Pix2pix網(wǎng)絡(luò)(Enhanced Pix2pix Dehazing Network,EPDN),去霧效果比清晰圖片更亮。Yi等[12]提出的多尺度拓撲網(wǎng)絡(luò)(Multi-scale Topological Network,MSTN)實現(xiàn)了不同尺度特征的選擇和融合,很好地去除了圖像的霧霾,但含有濃霧的景深深處會有殘霧遺留。
針對以上問題,本文提出一種基于SKNet(Selective Kernel Networks)的增強型Pix2pixHD去霧方法,以生成的對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)為主干網(wǎng)絡(luò),并引入SKNet網(wǎng)絡(luò)作為增強器,對生成器最終輸出的圖片進行加強,使處理過的圖像更接近真實圖片。
SKNet網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示。在受到不同刺激時,其自身的接受域(Receptive Field)會動態(tài)調(diào)節(jié),對卷積核執(zhí)行注意力機制,即讓網(wǎng)絡(luò)動態(tài)選擇合適的卷積核。該網(wǎng)絡(luò)通過Split,F(xiàn)use和Select等操作使神經(jīng)元能夠自適應(yīng)地調(diào)整感受野大小[13]。
圖1 SKNet網(wǎng)絡(luò)結(jié)構(gòu)圖
1)Split操作:使原feature map分別通過不同尺度的深度卷積和空洞卷積生成feature map,即U1和U2。
2)Fuse操作:將U1和U2的feature map進行特征相加(Element-wise Summation),以整合所有分支的信息,然后通過全局平均池化嵌入全局信息S,再通過全連接得到向量Z,實現(xiàn)精確和自適應(yīng)的選擇。
式(1)~(2)中,H為特征圖的高度;W為特征圖的寬度;Fgp為全局平均池化函數(shù);Ffc為全連接層函數(shù);δ為ReLU函數(shù);B為Batch Normalization;w表示d×c維,w∈Rd×c,d表示為d=max(c/r,L),其中r為減速率,L為d的最小值。
3)Select操作:對向量Z進行softmax操作,得到ac和bc,再將a和b與原來的特征U1和U2相乘,并將結(jié)果進行特征相加得到V。因為ac和bc的函數(shù)值總和為1,實現(xiàn)了對各分支feature map設(shè)置權(quán)重。
(3)
(4)
Vc=ac·U1c+bc·U2c
(5)
式(3)~(5)中,A,B∈Rd×c;Ac∈R1×d,表示A的第c行;ac表示a的第c個元素;Bc和bc同上。
傳統(tǒng)的卷積結(jié)構(gòu)可以定義為:
(6)
式(6)中,p0為輸出特征圖的每個點,與卷積核中心點對應(yīng);pn為p0在卷積核大小范圍內(nèi)的每個偏移量;R為各分塊的索引值;w(pn)為權(quán)重;x(p0+pn)表示為原始圖。
可變形卷積是在公式(6)的基礎(chǔ)上,在鄰域內(nèi)的每個點都引入了1個偏移量△pn?!鱬n是通過端到端的學(xué)習(xí)進行迭代更新的,初始值是隨機數(shù),每次迭代之后產(chǎn)生新的值,具體值不確定??勺冃尉矸e公式為:
(7)
加入偏移量后的坐標位置通常不是整數(shù),并不對應(yīng)feature map上實際存在的特征點,因此需要使用插值的方法來獲得偏移后的特征值。通常采用雙線性插值法,其原理是分別在X軸和Y軸方向?qū)D像進行線性插值,得到待采樣圖像的像素值。
采用GAN作為主干網(wǎng)絡(luò),由多尺度生成器和多尺度鑒別器組成基于SKNet的增強型Pix2pixHD網(wǎng)絡(luò),其結(jié)構(gòu)圖如圖2所示。
圖2 基于SKNet的增強型Pix2pixHD網(wǎng)絡(luò)結(jié)構(gòu)圖
生成器主要是從有霧圖像中恢復(fù)出對應(yīng)的清晰圖像,不僅要去除霧,也要保留原有圖像的結(jié)構(gòu)以及顏色等細節(jié)信息。多尺度生成器采用UNet結(jié)構(gòu),由局部子生成器G1和全局子生成器G2組成,G={G1,G2}。G1和G2的結(jié)構(gòu)相似,都由卷積層、殘差層和反卷積層構(gòu)成。G2的輸入是有霧圖像經(jīng)過卷積層進行2倍下采樣的結(jié)果,然后經(jīng)過卷積核為7×7的卷積層,通道數(shù)變?yōu)?2,再經(jīng)過卷積核為3×3的卷積層,通道數(shù)變?yōu)?12。結(jié)果輸入殘差塊,最后再進行卷積核為3×3的去卷積操作,得到通道數(shù)為32的低分辨率特征圖。G1對有霧圖像分別進行卷積核為7×7和3×3卷積操作,通道數(shù)依次變?yōu)?6和32。將G1兩次卷積之后的結(jié)果與G2得到的結(jié)果進行特征相加輸入殘差塊中,最后進行卷積核為3×3的去卷積操作得到生成器生成的高分辨率去霧圖像。低分辨率生成器學(xué)習(xí)全局連續(xù)性,高分辨率生成器學(xué)習(xí)局部精細特征,因此生成的圖片將同時具有局部和全局的真實性。
多尺度鑒別器就是將不同尺度的圖像作為鑒別器的輸入,然后將鑒別結(jié)果返回給生成器,依次指導(dǎo)生成器生成更清晰的圖片。本文多尺度鑒別器由鑒別器D1和D2組成,鑒別器D1含有5個卷積核為4×4的卷積層,全連接層為1 024,最后使用sigmoid激活函數(shù)。D1和D2具有相同的結(jié)構(gòu),D1的輸入為生成器生成的結(jié)果和對應(yīng)的清晰圖片,D2的輸入是D1的輸入在2倍下采樣的結(jié)果。雖說鑒別器D1和D2有相同的結(jié)構(gòu),但在粗尺度下工作的鑒別器有大的接受域和更全局的圖像視圖,可以指導(dǎo)生成器生成全局一致的圖像;而在細尺度上工作的鑒別器專門指導(dǎo)生成器產(chǎn)生更精細的細節(jié)。
由GAN得到的去霧圖像雖然利用了多尺度特征,但仍缺乏細節(jié)信息。為了有效解決這一問題,本文引入SKNet網(wǎng)絡(luò)作為增強器,其結(jié)構(gòu)圖如圖3所示。增強器使得網(wǎng)絡(luò)可以對不同尺度的特征進行自適應(yīng)的選擇和融合,且不會帶來大量的冗余特征,有利于建立高效、準確的模型。此外,在增強塊中還引入2個卷積核為3×3的可變形卷積層,對圖像進行特征提取,使采樣網(wǎng)格變得更加自由,提高模型的變換能力,從而更好地去霧。
圖3 增強器結(jié)構(gòu)圖
為了優(yōu)化網(wǎng)絡(luò),使用對抗損失(LA)、特征匹配損失(LFM)、感知損失(LVGG)和保真度損失(LF)作為總體目標損失函數(shù)。對抗損失和特征匹配損失使GAN模塊學(xué)習(xí)全局信息,利用多尺度特征恢復(fù)原始圖像。感知損失和保真度損失用來增強圖像的細微特征,保持原始顏色信息??傮w目標損失函數(shù)可以表示為:
LEP=LA+λLPM+λLVGG+LF
(8)
初始化生成器將有霧圖像轉(zhuǎn)換為無霧圖像,而鑒別器的目的是區(qū)分圖像的真?zhèn)巍?紤]到存在雙尺度鑒別器D1和D2,將對抗損失表述為多任務(wù)學(xué)習(xí)損失,表示為:
(9)
(10)
通過引入基于鑒別器的特征匹配損失來提高對抗損失,使圖像具有真實感。利用這種損失使生成器產(chǎn)生自然的多尺度統(tǒng)計信息,學(xué)習(xí)中間特征映射,實現(xiàn)真實圖像與合成圖像的匹配。特征匹配損失函數(shù)可以表示為:
(11)
(12)
為了保持感知和語義的保真度,使用感知損失函數(shù)來度量有霧圖像和去霧圖像之間的高度差異,公式為:
(13)
將無霧圖像X與最終輸出Y之間的歐氏距離作為保真度損失,公式為:
(14)
1)實驗設(shè)置與數(shù)據(jù)集。算法的優(yōu)劣不僅與圖像特征的學(xué)習(xí)能力有關(guān),也跟訓(xùn)練模型所采用的軟硬件配置情況有關(guān)。在硬件配置方面,均采用型號為Intel CoreTM i9-9900K CPU的處理器、NVIDIA GeForce RTX 3080(10 GB)圖像處理器等;在軟件配置方面,均是在64位的Windows 10系統(tǒng)下通過CUDA11.0進行GPU加速,深度學(xué)習(xí)框架為Pytorch。采用批量大小為1的Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)為0.002,指數(shù)衰減率為(β1,β2)=(0.6,0.999),損失函數(shù)的超參數(shù)設(shè)λ=10。實驗總共訓(xùn)練了100個epoch,每20個epoch將學(xué)習(xí)速率降低一半。訓(xùn)練結(jié)束時,損失函數(shù)下降到0.000 5時認為達到了很好的收斂指標。實驗中,初始學(xué)習(xí)率與損失函數(shù)的超參數(shù)根據(jù)文獻[13]設(shè)值,對指數(shù)衰減率進行多次調(diào)參。
本文選取有霧圖像RESIDE數(shù)據(jù)集,由室內(nèi)訓(xùn)練集(Indoor Training Set,ITS)、室外訓(xùn)練集(Outdoor Training Set,OTS)、綜合客觀測試集(Synthetic Objective Testing Set,SOTS)、真實有霧圖像測試集(Real-world Task-driven Testing Set,RTTS)和混合主觀測試集(Synthetic Objective Testing Set,HSTS)5個子集組成。實驗選取ITS和SOTS進行訓(xùn)練和測試,并將本文方法與該數(shù)據(jù)集上的最新方法進行比較。其中,ITS數(shù)據(jù)集包含13 990張合成有霧圖像,由1 399張清晰圖像生成,其中設(shè)置每個通道大氣A在[0.7,1.0]之間、β在[0.6,1.8]之間。SOTS測試數(shù)據(jù)集共500張室內(nèi)與500張室外合成圖像。采用峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)作為圖像質(zhì)量評價指標,其值越高圖像去霧效果越好。不同指數(shù)衰減率對PSNR和SSIM指標結(jié)果的影響見表1。
表1 不同指數(shù)衰減率對PSNR和SSIM指標結(jié)果的影響
2)在合成數(shù)據(jù)集上實驗。在合成數(shù)據(jù)集上進行測試,并與經(jīng)典方法進行定量和定性比較。合成有霧圖的實驗結(jié)果如圖4所示,去霧網(wǎng)絡(luò)的PSNR和SSIM指標比較結(jié)果見表2。由表2可以看出,本文方法在PSNR和SSIM上都取得了最高值,其中在室內(nèi)訓(xùn)練集ITS上,PSNR值相較于次高的EPDN提高了1.77 db。
(a) Input (b) DCP (c) AOD-Net (d) EPDN (e) Ours
表2 去霧網(wǎng)絡(luò)的PSNR和SSIM指標比較結(jié)果 db
3)在真實數(shù)據(jù)上實驗。為了進一步驗證本算法的有效性,選取RESIDE數(shù)據(jù)集中的真實有霧圖像作為自然霧圖測試集,然后在自然霧圖測試集上進行比較。真實有霧圖的實驗結(jié)果如圖5所示。觀察圖5可知,DCP方法使天空區(qū)域亮度降低,并且出現(xiàn)色彩突變的現(xiàn)象;AOD-Net方法產(chǎn)生的圖像邊緣會出現(xiàn)偽影且去霧后的圖像有較低的亮度;EPDN方法相較AOD-Net方法,去除霧霾效果較好,但仍存在對比度高的問題。相較之下,本文方法得到的去霧圖像有更好的色彩效果和較少的偽影。
(a) Input (b) DCP (c) AOD-Net (d) EPDN (e) Ours
基于SKNet的增強型Pix2pixHD圖像去霧算法在GAN網(wǎng)絡(luò)之后引入SKNet網(wǎng)絡(luò)作為增強器,充分利用了多尺度含有特征信息更全的特點,同時在增強器之前添加了可變形卷積,增強了模型的可變換能力。與經(jīng)典的圖像去霧算法在SSIM和PSNR 2個評價指標下進行比較,本文算法優(yōu)于傳統(tǒng)的經(jīng)典去霧算法。