王 偉,胡淑嫻,裴 哲
(西安工程大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710048)
當(dāng)前,人們愈來(lái)愈重視海洋資源的開(kāi)發(fā)和利用,水下圖像處理已經(jīng)引起研究人員的極大興趣和關(guān)注。然而,水下圖像面臨光的選擇性吸收和光照不均勻等因素的影響,圖片顏色易失真并呈現(xiàn)藍(lán)、綠色基調(diào),降低了圖像的對(duì)比度。此外,介質(zhì)散射中的背景散射還會(huì)導(dǎo)致圖像呈現(xiàn)霧狀模糊現(xiàn)象,嚴(yán)重影響了水下圖像在實(shí)際應(yīng)用中的完整性和可用性[1]。因此,如何校正顏色失真、提高對(duì)比度、解決細(xì)節(jié)模糊等問(wèn)題是當(dāng)前水下圖像增強(qiáng)面臨的主要挑戰(zhàn)。
為了解決這些問(wèn)題,眾多科研工作者根據(jù)水下圖像的成像特性,提出了一系列針對(duì)水下圖像增強(qiáng)的研究方法,大致可以分為傳統(tǒng)方法和深度學(xué)習(xí)2類(lèi)。其中,傳統(tǒng)的水下圖像清晰化方法分為基于圖像增強(qiáng)的方法[2]和基于物理降解模型的增強(qiáng)方法[3]。前者不考慮物理成像過(guò)程,后者則依賴(lài)具體的物理模型,主要是建立光照散射造成的數(shù)學(xué)模型,再基于暗通道先驗(yàn)知識(shí)對(duì)水下圖像進(jìn)行改進(jìn)[4-5]。然而,由于水下環(huán)境復(fù)雜多變,上述傳統(tǒng)增強(qiáng)方法易出現(xiàn)過(guò)度增強(qiáng)、圖片曝光嚴(yán)重、增強(qiáng)效果不符合真實(shí)場(chǎng)景等問(wèn)題,且大多數(shù)方法普適性較差。
近年來(lái),深度學(xué)習(xí)以其高效性吸引了諸多研究人員的注意。如文獻(xiàn)[6]首先將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于單張圖像去霧,雖然霧天模型在一定程度上與水下圖像退化的過(guò)程類(lèi)似,但由于水下成像環(huán)境特殊,直接應(yīng)用去霧方法增強(qiáng)效果較差。為此,文獻(xiàn)[7]在循環(huán)生成對(duì)抗網(wǎng)絡(luò)(cycle-consistent generative adversarial networks,CycleGAN)基礎(chǔ)上提出了將類(lèi)似SegNet[8]的深度全卷積網(wǎng)絡(luò)結(jié)構(gòu)用于水下圖像增強(qiáng),此方法取得了較好的顏色校正效果,但該方法在訓(xùn)練網(wǎng)絡(luò)時(shí)需要的深度信息在真實(shí)場(chǎng)景下很難獲取。而文獻(xiàn)[9]提出了改進(jìn)的CycleGAN實(shí)現(xiàn)顏色校正,但在增強(qiáng)圖像清晰度方面不夠。文獻(xiàn)[10]聯(lián)合GAN和弱監(jiān)督學(xué)習(xí),提出一種針對(duì)校正圖像色彩以及保持細(xì)節(jié)的水下圖像增強(qiáng)模型,但水下圖像固有的物理性質(zhì)導(dǎo)致增強(qiáng)后的圖像易出現(xiàn)局部曝光的問(wèn)題。文獻(xiàn)[11]利用深度神經(jīng)網(wǎng)絡(luò)先估計(jì)水下圖像深度,再將其應(yīng)用于顏色校正,但大規(guī)模數(shù)據(jù)難以獲取,應(yīng)用面較窄。文獻(xiàn)[12]通過(guò)預(yù)處理將處理過(guò)的圖像作為GAN的訓(xùn)練標(biāo)簽,并改進(jìn)了生成器和判別器2個(gè)部分,進(jìn)一步提升了水下圖像的質(zhì)量,但運(yùn)行復(fù)雜度較高,計(jì)算效率低。文獻(xiàn)[13]在提出的神經(jīng)網(wǎng)絡(luò)中融合水下圖像的局部和全局信息,改善圖像色偏問(wèn)題,但增強(qiáng)后的圖像仍存在模糊的地方。
在某種程度上,水下圖像的退化過(guò)程類(lèi)似于霧化模型[6],兩者都會(huì)受到介質(zhì)散射的影響,受文獻(xiàn)[14]中基于U-Net結(jié)構(gòu)的去霧網(wǎng)絡(luò)啟發(fā),為了恢復(fù)水下圖像的顏色信息,并且補(bǔ)償圖像校正過(guò)程中細(xì)節(jié)信息的損失,本文在GAN和反向投影技術(shù)的基礎(chǔ)上,提出了一種可以融合多尺度密集特征的水下圖像增強(qiáng)算法—DFGAN算法。本文的主要貢獻(xiàn)如下:①針對(duì)水下低質(zhì)圖像特點(diǎn),在基于生成對(duì)抗網(wǎng)絡(luò)的架構(gòu)中改進(jìn)了生成器的結(jié)構(gòu),利用跳躍連接在圖像增強(qiáng)過(guò)程中融合了原始空間信息,提高顏色校正的視覺(jué)效果;②為了彌補(bǔ)編碼后的高級(jí)別特征中丟失的空間信息并充分利用非相鄰層的特征信息,該文基于反自有投影技術(shù),引入了密集特征融合模塊,以充分利用圖像中的特征信息。實(shí)驗(yàn)結(jié)果表明,DFGAN在實(shí)現(xiàn)改變低質(zhì)圖像藍(lán)綠色偏的同時(shí),能夠保持真實(shí)水下圖像邊緣細(xì)節(jié),恢復(fù)紋理特征。
GAN是一種不需要標(biāo)注大量訓(xùn)練數(shù)據(jù)的深度學(xué)習(xí)模型,本文是在此基礎(chǔ)上實(shí)現(xiàn)水下低質(zhì)圖像增強(qiáng)。GAN要同時(shí)訓(xùn)練一個(gè)生成器和一個(gè)判別器,在本文所設(shè)計(jì)的GAN模型中,直接將輸入圖像輸入到生成器中,判別器將生成器合成的樣本數(shù)據(jù)和真實(shí)的圖片數(shù)據(jù)作為輸入,同時(shí)對(duì)其輸入是否為真實(shí)圖片進(jìn)行判斷,將真實(shí)圖片的標(biāo)簽為1,合成圖片的標(biāo)簽為0,判別器通過(guò)訓(xùn)練盡量“蒙蔽”生成器的“眼睛”,使生成器不能對(duì)判別器的輸出圖像做出正常判斷。GAN的數(shù)學(xué)模型可表示為
El-Pl[log2(1-D(G(l)))]
(1)
式中:V(D,G)為生成器和判別器的最終優(yōu)化目標(biāo);E為數(shù)學(xué)期望;Pr為真實(shí)水下復(fù)原圖像數(shù)據(jù)分布;Pl為合成水下復(fù)原圖下l的先驗(yàn)分布;G(l)為生成器得到的水下增強(qiáng)圖像樣本;D(r)為判別器對(duì)水下增強(qiáng)圖像真實(shí)數(shù)據(jù)和生成數(shù)據(jù)的判定。GAN模型框架如圖1所示。
圖 1 GAN模型框架圖
生成器和判別器之間相互博弈,交替迭代優(yōu)化,通過(guò)對(duì)抗訓(xùn)練擬合分散的數(shù)據(jù),達(dá)到納什均衡狀態(tài)。最終使生成器對(duì)水下低質(zhì)圖像有較好的增強(qiáng)效果。針對(duì)水下低質(zhì)圖像的特點(diǎn),本文在此基礎(chǔ)上進(jìn)行改進(jìn),構(gòu)建的網(wǎng)絡(luò)模型如圖2所示。
圖 2 DFGAN網(wǎng)絡(luò)模型圖Fig.2 DFGAN network model
圖2中,為了盡可能保留顏色校正過(guò)程中真實(shí)圖像的細(xì)節(jié)信息和紋理結(jié)構(gòu),使改變色偏后的圖像可以得到進(jìn)一步處理,本文提出的DFGAN算法中將基礎(chǔ)的跳躍連接應(yīng)用于編碼器和解碼器結(jié)構(gòu)之間,還在生成器的解碼器中加入了一個(gè)密集特征融合模塊,更有效地利用來(lái)自非相鄰層間的水下圖像特征,彌補(bǔ)校正過(guò)程中丟失的細(xì)節(jié)信息。
在編碼器和解碼器之間,文中使用一個(gè)特征恢復(fù)模塊,用于恢復(fù)水下低質(zhì)圖像特征,得到增強(qiáng)圖像特征。DFGAN算法在將編碼器的特征圖跳躍連接到解碼器的特征圖上時(shí),利用圖像恢復(fù)模塊對(duì)兩者進(jìn)行融合:首先,將解碼器特征圖上采樣為原來(lái)尺寸的2倍的特征圖,并將其與編碼器特征圖相加;其次,將結(jié)果輸入到一個(gè)可訓(xùn)練的修復(fù)單元中,將修復(fù)結(jié)果與2倍上采樣解碼器特征圖相減,作為圖像修復(fù)模塊的輸出特征圖,此過(guò)程即為圖2解碼器中的圖像修復(fù)模塊;最后,將輸出特征圖和先前得到的密集融合特征圖共同傳入下一密集特征融合模塊中。
由于生成器的解碼器不能充分利用非相鄰層之間的特征,輸入圖片在下采樣過(guò)程中會(huì)丟失上層特征要素的空間信息,導(dǎo)致水下圖像在顏色校正后會(huì)損失其紋理結(jié)構(gòu),出現(xiàn)細(xì)節(jié)模糊的情況。因此,本文除了在編解碼器之間應(yīng)用了跳躍連接,還利用反向投影技術(shù),在生成器中加入了一個(gè)密集特征融合模塊[14],即圖2網(wǎng)絡(luò)模型圖里的灰色模塊,其具體網(wǎng)絡(luò)架構(gòu)如圖3所示。
圖 3 密集特征融合模塊Fig.3 Dense feature fusion module
反向投影技術(shù)以迭代的方式更新想要得到的水下圖像參數(shù),輸出參數(shù)的形變量后,通過(guò)多次迭代使預(yù)測(cè)的參數(shù)更加準(zhǔn)確。因此,本文將反向投影特征融合應(yīng)用于生成器網(wǎng)絡(luò)模型構(gòu)建中,在生成器的解碼器利用迭代誤差反饋,將多個(gè)上下采樣塊級(jí)聯(lián),將多對(duì)不同分辨率的密集融合特征圖進(jìn)行融合,用在圖像增強(qiáng)過(guò)程中保留圖像紋理細(xì)節(jié)。
(2)
(3)
因此,DFGAN算法在生成器中設(shè)計(jì)跳躍連接和密集特征融合模塊,能有效地融合多尺度的水下圖像特征。
生成器通過(guò)判別器輸出的判別數(shù)據(jù)不斷進(jìn)行反向傳播,兩者之間交替迭代優(yōu)化,在一方更新時(shí)均不改變對(duì)方的網(wǎng)絡(luò)權(quán)重。而損失函數(shù)作為卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化準(zhǔn)則,定義不同的損失函數(shù)可以為網(wǎng)絡(luò)模型設(shè)置不同的優(yōu)化目標(biāo)。本文提出的DFGAN算法在整個(gè)網(wǎng)絡(luò)模型中的損失函數(shù)包括生成器中的對(duì)抗損失、全局相似度損失和水下圖像信息損失這3部分,此外還包括判別器中的對(duì)抗損失。下面,具體介紹生成器和判別器的損失函數(shù)。
1) 對(duì)抗損失函數(shù)。本文定義的對(duì)抗損失函數(shù)為
Lc(G,D)=EX,Y[log2D(Y)+
EX,Y[log2(1-D(X,G(X)))]
(4)
該損失函數(shù)存在于生成器和判別器中,生成器的目標(biāo)是最小化Lc的數(shù)值,而判別器的目標(biāo)則是最大化Lc。
2) 全局相似度損失函數(shù)。GAN的生成器模型中使用的損失函數(shù)是像素級(jí)L1或L2,由于L1能讓生成器生成的增強(qiáng)圖像產(chǎn)生符合人眼視覺(jué)更真實(shí)的效果,所以文中定義全局相似度損失函數(shù)為
L1(G)=EX,Y[‖Y-G(X)‖1]
(5)
式中:X為輸入低質(zhì)水下圖像;Y為真實(shí)增強(qiáng)圖像;生成器中,X、Y之間存在單向映射。
3) 水下圖像信息損失函數(shù)。為盡可能地保留顏色校正過(guò)程中原圖像所包含的真實(shí)信息,本文在生成器中添加了一個(gè)針對(duì)丟失的水下圖像內(nèi)容信息的損失函數(shù),使生成器生成更多具有相似特征的增強(qiáng)水下圖像,該損失函數(shù)采用單峰的高斯函數(shù)擬合產(chǎn)生均方誤差,能直接優(yōu)化峰值信噪比數(shù)值,水下圖像信息損失函數(shù)表示為
Li(G)=EX,Y[‖P(Y)-P(G(X))‖2]mi
(6)
式中:P函數(shù)為圖片輸入到訓(xùn)練好的VGG-19中輸出的block5_conv2的高級(jí)圖像特征。
在生成器和判別器的博弈訓(xùn)練過(guò)程中,為了使生成器在不斷優(yōu)化的過(guò)程中感知到更高質(zhì)量的水下圖像,讓判別器判定其生成的圖像在各個(gè)方面無(wú)限接近于真實(shí)增強(qiáng)圖像,本文將生成器的目標(biāo)函數(shù)定義為
λ1L1(G)+λ2Li(G)
(7)
式中:λ1和λ2這2個(gè)比例因子的參數(shù)分別設(shè)置為0.7和0.3。
EUVP數(shù)據(jù)集[15]包含多組不同地點(diǎn)、不同能見(jiàn)度等各種自然變化條件下研究人員經(jīng)探索保存下來(lái)的水下圖像;PyTorch來(lái)實(shí)現(xiàn)DFGAN模型,在具有超11 000張成對(duì)圖片的EUVP訓(xùn)練集上進(jìn)行訓(xùn)練,并在對(duì)應(yīng)的測(cè)試樣本上進(jìn)行測(cè)試。訓(xùn)練使用1個(gè)NVIDIA TITAN RTX,訓(xùn)練模型時(shí),batch設(shè)為8,訓(xùn)練500代后得到最終DFGAN模型。為了全面驗(yàn)證DFGAN算法的性能,對(duì)水下低質(zhì)圖像與增強(qiáng)后的圖像分別從主觀視覺(jué)感受和客觀量化指標(biāo)2個(gè)方面進(jìn)行評(píng)價(jià),并與現(xiàn)有的水下圖像增強(qiáng)方法進(jìn)行對(duì)比評(píng)估。
利用反向投影技術(shù),基于GAN重新構(gòu)建了針對(duì)水下低質(zhì)圖像顏色校正和邊緣細(xì)節(jié)保留的增強(qiáng)方法,其增強(qiáng)效果如圖4所示。
圖 4 DFGAN增強(qiáng)效果圖Fig.4 DFGAN enhancement rendering
拍攝到的水下圖像如圖4(a)所示,圖片偏藍(lán)、綠色,細(xì)節(jié)模糊,將這些低質(zhì)圖像輸入生成器后,由于本文的DFGAN算法中的圖像恢復(fù)模塊和密集特征融合模塊可以有效地提取水下圖像特征,讓接下來(lái)的處理得到了更多的層次,使DFGAN算法最終性能增益得到顯著提高,即處理后得到的圖4(b)在顏色、風(fēng)格和細(xì)節(jié)方面更接近真實(shí)的脫水圖像,見(jiàn)圖4(c),證明DFGAN算法在水下圖像增強(qiáng)方面的有效性。
主觀視覺(jué)感受評(píng)價(jià)是通過(guò)人眼對(duì)水下圖像增強(qiáng)效果最直接的反饋,本文將通過(guò)主觀視覺(jué)感受評(píng)測(cè)將DFGAN算法與當(dāng)前主流的3種水下圖像增強(qiáng)算法進(jìn)行比對(duì),即與基于Retinex理論的MSR算法[16]基礎(chǔ)上改進(jìn)的具有色彩恢復(fù)效果的MSRCR算法[17],針對(duì)水下暗通道先驗(yàn)的UDCP算法[18],以及基于循環(huán)生成對(duì)抗網(wǎng)絡(luò)CycleGAN算法[19]的實(shí)驗(yàn)效果進(jìn)行對(duì)比。4種不同算法的增強(qiáng)效果對(duì)比如圖5所示。
(a)原圖 (b)MSRCR算法 (c)UDCP算法 (d)CycleGAN算法 (e)DFGAN算法圖 5 不同算法水下增強(qiáng)效果對(duì)比Fig.5 Comparison of underwater enhancement effects of different algorithms
從圖5可以看出,MSRCR算法雖然可以有效校正藍(lán)綠色偏,但圖像會(huì)因?yàn)樵黾恿嗽肼晫?dǎo)致校正過(guò)度,使恢復(fù)的圖片總體來(lái)看顏色偏白,圖像色彩失真嚴(yán)重。UDCP算法雖然保留了圖片的紋理結(jié)構(gòu),但由于大氣光成分出現(xiàn)易出現(xiàn)較大誤差,沒(méi)有解決紅色分量較少的問(wèn)題,對(duì)水下圖像的白平衡校正效果不理想,處理后的圖片仍存在色偏問(wèn)題。而CycleGAN算法雖然在圖像風(fēng)格遷移方面有較好的結(jié)果,但由于其在圖像亮度和對(duì)比度上進(jìn)行了與真實(shí)情況不符的強(qiáng)制相似,使增強(qiáng)過(guò)的圖像與理想圖像顏色有一定差距。相比之下,DFGAN算法改進(jìn)了傳統(tǒng)的生成對(duì)抗網(wǎng)絡(luò),加入特征恢復(fù)模塊的同時(shí),基于反向投影技術(shù)設(shè)計(jì)了密集特征融合模塊,并且保留跳躍連接,有效地融合多尺度的水下圖像特征,在校正圖像色偏的同時(shí)保留了更多的邊緣細(xì)節(jié)和紋理結(jié)構(gòu)。
由于不同個(gè)體對(duì)圖片的主觀視覺(jué)不同,主觀評(píng)估具有一定的差異性,所以引入客觀評(píng)估方法能更全面的驗(yàn)證本文算法的性能。為此,本文采用了4種通用的圖像質(zhì)量評(píng)估準(zhǔn)則:結(jié)構(gòu)相似性[20]、峰值信噪比[21]、水下彩色圖像質(zhì)量評(píng)價(jià)指標(biāo)[22]和信息熵[23]。前2個(gè)指標(biāo)屬于全參考評(píng)價(jià)指標(biāo),后2個(gè)指標(biāo)屬于無(wú)參考評(píng)價(jià)指標(biāo)。
結(jié)構(gòu)相似性用來(lái)表示圖像的退化程度,它基于圖像結(jié)構(gòu)進(jìn)行建模,從亮度、對(duì)比度和結(jié)構(gòu)相似度這3個(gè)方面來(lái)衡量圖像之間的相似性。結(jié)構(gòu)相似性S的值為
S=[L(x,y)α×C(x,y)β×T(x,y)γ]
(8)
式中:L(x,y)、C(x,y)、T(x,y)分別為圖像的亮度、對(duì)比度和結(jié)構(gòu);α、β、γ為權(quán)重參數(shù),均設(shè)為1。
峰值信噪比通過(guò)水下低質(zhì)圖像與處理后圖像之間的均方誤差對(duì)兩幅圖像的相似性進(jìn)行評(píng)測(cè),均方誤差M和峰值信噪比P的值為
式中:m和n分別為水下圖像的長(zhǎng)和寬;I(i,j)和K(i,j)為處理前后的圖像在該位置的像素值;Imax為像素點(diǎn)的最大值。
E表示離散信源的熵,可以衡量圖像信息的豐富程度,反映了圖像的灰度統(tǒng)計(jì)特性,信息熵E的值為
(10)
式中:Pm為灰度圖像中灰度值為m的像素在全部像素中出現(xiàn)的概率;k為灰度級(jí)總數(shù)。
水下彩色圖像質(zhì)量評(píng)價(jià)度量是如今水下圖像研究領(lǐng)域里應(yīng)用最廣泛的評(píng)測(cè)準(zhǔn)則,以更貼合人眼視覺(jué)感知的CIELab顏色空間為基礎(chǔ),通過(guò)線性組合飽和度、色度、對(duì)比度這3個(gè)測(cè)量分量對(duì)水下圖像增強(qiáng)質(zhì)量進(jìn)行評(píng)估,其值U為
U=c1×S1+c2×C2+c3×C3
(12)
式中:c1、c2、c3分別為線性組合里各分量的權(quán)重因子;S1為飽和度測(cè)量分量;C2為色度測(cè)量分量;C3為對(duì)比度測(cè)量分量。
結(jié)構(gòu)相似性、峰值信噪比、信息熵和水下彩色圖像質(zhì)量這4個(gè)客觀指標(biāo)的數(shù)值越高,表示處理后的水下的圖像保留下來(lái)的信息越多,越接近真實(shí)情況,增強(qiáng)效果越好。
本文隨機(jī)選取了EUVP深海數(shù)據(jù)集[15]中的20張水下圖像作為測(cè)試集,表1展示了本文DFGAN算法與MSR算法、MSRCR算法、UDCP算法和CycleGAN算法在測(cè)試集上各項(xiàng)評(píng)估指標(biāo)的平均數(shù)值。
表1 客觀評(píng)價(jià)指標(biāo)數(shù)值
從表1可以看出,本文DFGAN算法與其他3種水下圖像處理方法相比,在結(jié)構(gòu)相似性和峰值信噪比的測(cè)量數(shù)值上高于其他3種算法,表明DFGAN算法增強(qiáng)后的圖像的真實(shí)性最高。本文DFGAN算法的信息熵平均值在4種算法中最高,說(shuō)明該算法處理后的水下圖像豐富度高,細(xì)節(jié)保留較為完善。與其余3種算法相比,DFGAN算法的水下彩色圖像質(zhì)量評(píng)價(jià)指標(biāo)數(shù)值更高,這也表示該算法能生成在視覺(jué)上與水下真實(shí)圖像色彩相似度更高、邊緣信息保留更完整的增強(qiáng)圖像??陀^評(píng)價(jià)數(shù)值證明,DFGAN算法在不同水下場(chǎng)景下能較為自然的恢復(fù)水下圖像顏色,增強(qiáng)效果更好,便于后續(xù)操作。
針對(duì)水下復(fù)雜多變的成像環(huán)境,因水下低質(zhì)圖像顏色失真和校正過(guò)程中細(xì)節(jié)信息丟失的問(wèn)題,在深度學(xué)習(xí)和特征融合的基礎(chǔ)上,提出了一種基于GAN的密集特征融合水下圖像增強(qiáng)方法。首先,通過(guò)改進(jìn)生成對(duì)抗網(wǎng)絡(luò),校正藍(lán)綠色差,提高可視性;其次,受去霧網(wǎng)絡(luò)啟發(fā),將反向投影技術(shù)應(yīng)用于生成器的解碼器中,以此彌補(bǔ)色差校正過(guò)程中細(xì)節(jié)信息的損失,盡可能保持圖像邊緣細(xì)節(jié),恢復(fù)紋理信息。文中DFGAN算法不但具有易理解和易操作特點(diǎn),而且通過(guò)主、客觀兩方面的評(píng)估,結(jié)果均表明了其較現(xiàn)有的一些典型算法具有明顯的優(yōu)勢(shì)。盡管如此,該算法還需要提高對(duì)專(zhuān)業(yè)水下圖像數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)訓(xùn)練的速度,以期達(dá)到面向?qū)嶋H應(yīng)用的需求,這也是下一步要開(kāi)展的研究工作之一。