王德興,楊鈺銳,袁紅春,高 凱
(上海海洋大學(xué) 信息學(xué)院,上海 201306)
隨著社會(huì)和科學(xué)的發(fā)展,有著豐富資源和眾多未知生物的海洋吸引著各個(gè)國(guó)家的探索和研究[1-2]。深海環(huán)境的圖像通常通過(guò)電子攝像設(shè)備獲取,然而水下拍攝得到的圖像存在色偏、能見度低、邊緣細(xì)節(jié)缺失等嚴(yán)重問(wèn)題。呈現(xiàn)色偏的主要原因是水對(duì)不同的波長(zhǎng)的光具有不同的吸收能力。隨著水深增加,紅色長(zhǎng)波最先被吸收,藍(lán)色和綠色的短波穿透力弱,易擴(kuò)散分散,因此拍攝的圖像呈現(xiàn)了藍(lán)綠色[3]。由于海水是一種相當(dāng)復(fù)雜的混合介質(zhì),海水中分布著不均勻的懸浮物質(zhì),比如微型浮游植物和非藻類顆粒[4],所以水下圖像還會(huì)呈現(xiàn)色彩失真、對(duì)比度低、細(xì)節(jié)特征模糊等問(wèn)題。同時(shí)人工光源的使用也是造成圖像低質(zhì)量的重要原因之一。在現(xiàn)實(shí)中,水下圖像具有重要的理論價(jià)值和實(shí)際應(yīng)用意義[5],增強(qiáng)和復(fù)原低質(zhì)量的水下圖像是一項(xiàng)有價(jià)值且具有挑戰(zhàn)性的任務(wù)。提供高質(zhì)量水下圖像能為海洋勘探、資源開發(fā)、海洋救援等眾多工程帶來(lái)工作效率的提升。
水下圖像增強(qiáng)和復(fù)原的方法按其原理可分為3 類:基于物理模型的方法、基于物理的方法和基于的深度學(xué)習(xí)的方法。基于物理模型的方法依據(jù)物理成像模型,將水下圖像增強(qiáng)看作是水下成像的反向問(wèn)題,通過(guò)反向求解水下成像模型以復(fù)原高質(zhì)量的水下圖像。該方法需要依據(jù)水下成像原理、大氣散射模型[6-9]等。暗通道先驗(yàn)[10]的提出對(duì)水下圖像增強(qiáng)領(lǐng)域的研究具有重要的意義[11-12]。Xu 等人[13]提出新的基于視網(wǎng)膜的光估計(jì)方法。Zhou等[14]提出基于多尺度Retinex算法的色彩校正模塊恢復(fù)水下圖像的色偏。基于物理的方法是直接修改圖像的像素值來(lái)改善水下圖像的顏色和對(duì)比度。基于直方圖統(tǒng)計(jì)的方法在細(xì)節(jié)增強(qiáng)方面表現(xiàn)出色[15-17]。Ulutas 等人[18]根據(jù)相鄰元素的空間關(guān)系提出全局對(duì)比度校正和局部顏色校正模塊,能夠提高水下圖像的視覺質(zhì)量。Wang 等人[19]分析圖像直方圖位置關(guān)系提出了還原圖像自然顏色和細(xì)節(jié)方法。融合方法被認(rèn)為是一種不錯(cuò)的策略[20]。Zhu 等人[21]提出使用小波變換融合兩張分別被經(jīng)典白平衡和改進(jìn)先驗(yàn)方法預(yù)處理過(guò)的水下圖像來(lái)改善圖像的自然表達(dá)的方法。Gao 等人[22]提出使用不同物理方法預(yù)處理的兩張圖像根據(jù)權(quán)重不同進(jìn)行多尺度特征融合的方法?;谏疃葘W(xué)習(xí)的方法依托于強(qiáng)大的建模工程和大量的訓(xùn)練數(shù)據(jù)。深度學(xué)習(xí)在圖像處理和一些高級(jí)視覺任務(wù)上顯示出卓越的性能,根據(jù)模型主體結(jié)構(gòu)可將其進(jìn)一步分為基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和基于生成對(duì)抗神經(jīng)網(wǎng)絡(luò)(GAN)的方法。Wang 等人[23]提出基于兩種顏色空間的端到端的CNN 方法。Li等人[24]提出了門控融合網(wǎng)絡(luò)方法,將3 個(gè)輸入圖像組合實(shí)現(xiàn)水下圖像的增強(qiáng)。Li等人[25]提出基于GAN 的算法,其核心是提高整個(gè)水下圖像的感知質(zhì)量。Wang 等人[26]提出的基于Inception-Residual 的GAN 算法,把殘差思想和Inception 模塊嵌入到GAN 中去增強(qiáng)水下圖像。
物理方法操作簡(jiǎn)單且易于應(yīng)用,能夠根據(jù)像素之間的位置關(guān)系和像素統(tǒng)計(jì)策略來(lái)恢復(fù)圖像的細(xì)節(jié),提高圖像對(duì)比度和亮度,但在嚴(yán)重失真的圖像和大量相同色偏風(fēng)格的圖像中很難做到。深度學(xué)習(xí)是基于大量的數(shù)據(jù)驅(qū)動(dòng)并由人工神經(jīng)網(wǎng)絡(luò)研究升級(jí)得到的方法。人工神經(jīng)網(wǎng)絡(luò)通常包括反向傳播的思想,能夠把正向傳播的結(jié)果作為反饋信息對(duì)網(wǎng)絡(luò)的最終輸出結(jié)果進(jìn)行優(yōu)化。在水下圖像處理中,基于深度學(xué)習(xí)的方法能夠靈活地學(xué)習(xí)處理多變的水下環(huán)境,泛化能力強(qiáng),訓(xùn)練優(yōu)秀的模型能夠應(yīng)用在相同類型的其他場(chǎng)景,然而模型龐大的深度學(xué)習(xí)方法需要大量的參數(shù),對(duì)計(jì)算機(jī)配置的要求較高,因此在實(shí)際應(yīng)用中受到限制。
由于單一的方法處理復(fù)雜的水下圖像相對(duì)困難,受文獻(xiàn)[26-31]的啟發(fā),為了有效提高水下圖像的質(zhì)量,本文提出結(jié)合輕量級(jí)特征融合網(wǎng)絡(luò)和多顏色模型校正的水下圖像增強(qiáng)方法。該方法采用模塊化設(shè)計(jì),可減少代碼的冗余,降低方法的理解難度。在輕量級(jí)特征融合網(wǎng)絡(luò)部分,改進(jìn)的特征融合模塊不僅能夠更好地保護(hù)圖像的空間細(xì)節(jié)特征,而且能在不降低特征信息提取能力的前提下減少模塊的參數(shù)量。改進(jìn)的注意力模塊采用兩種池化方式分別對(duì)中間特征圖權(quán)重再分配,再將兩個(gè)新特征圖融合,既能提取重要特征紋理又能保留特征圖背景信息。該部分的輕量級(jí)體現(xiàn)在參數(shù)量的大幅度減少。與改進(jìn)前的算法相比,參數(shù)量由0.15M 減少到0.03M(減少約80%),模型訓(xùn)練速度提高。多顏色模型校正部分是基于物理方法對(duì)RGB 和HIS顏色空間中各顏色通道和重要參數(shù)進(jìn)行校正,均衡圖像顏色,最終得到色彩自然真實(shí)、質(zhì)量更高的圖像。本文方法不僅解決了深度學(xué)習(xí)網(wǎng)絡(luò)的計(jì)算機(jī)高配置要求和參數(shù)量龐大等問(wèn)題,還具備了神經(jīng)網(wǎng)絡(luò)的強(qiáng)泛化能力和物理方法增強(qiáng)圖像細(xì)節(jié)、提高圖像對(duì)比度和亮度的能力。
本文提出的方法由輕量級(jí)特征融合網(wǎng)絡(luò)和多顏色模型校正兩部分組成。輕量級(jí)特征融合網(wǎng)絡(luò)部分的主體架構(gòu)采用類似于U-Net 的網(wǎng)絡(luò)模型。本文提出自構(gòu)建模塊代替U-Net 中的卷積層以提高網(wǎng)絡(luò)的特征提取能力。多顏色模型校正部分在RGB 顏色模型和HIS 顏色模型中通過(guò)拉伸像素值和重要參數(shù)的范圍來(lái)實(shí)現(xiàn)對(duì)圖像質(zhì)量的提升。總體架構(gòu)圖如圖1 所示。
圖1 網(wǎng)絡(luò)總體架構(gòu)Fig.1 Overall network architecture
本文設(shè)計(jì)4 種類型的自構(gòu)建模塊,包括改進(jìn)的特征融合模塊(Improved Feature Fusion Module,IFFM)、殘差模塊(Residual Module,RM)、改進(jìn)的注意力模塊(Improved Attention Module,IAM)和物理增強(qiáng)模塊(Physical Enhancement Module,PEM)。按照自構(gòu)建模塊的組合順序的不同,將其組合成4 種類型,共計(jì)10 個(gè)局部塊。前9 個(gè)局部塊屬于輕量級(jí)特征融合網(wǎng)絡(luò),第10 個(gè)局部塊屬于多顏色模型校正。按從左到右的順序,第1、3、5、7 和第9 個(gè)局部塊是按照RM、IFFM、IAM 和RM 的順序連接而成,第2、4、6 和第8 個(gè)局部塊由3 個(gè)RM連續(xù)拼接而成,第10個(gè)局部塊是單獨(dú)的PEM。
傳統(tǒng)U-Net 網(wǎng)絡(luò)的卷積層通過(guò)上采樣和下采樣的方式實(shí)現(xiàn)。但是上采樣計(jì)算量和參數(shù)量呈正相關(guān),參數(shù)量越多計(jì)算量越大;下采樣方法會(huì)因?yàn)閰?shù)量少而丟失特征圖中某些重要的信息。為了解決上述問(wèn)題,提出了改進(jìn)的特征融合模塊來(lái)代替卷積層。該模塊采用不同大小卷積核生成不同比例的特征圖,再與相匹配的通道特征融合得到具有多尺度語(yǔ)義信息的特征圖。特征融合能夠減輕多層網(wǎng)絡(luò)的訓(xùn)練難度,提高網(wǎng)絡(luò)的魯棒性和準(zhǔn)確性。與改進(jìn)前的模塊相比,模塊中使用SigMoid 激活函數(shù)代替全連接層,一方面降低全連接層對(duì)圖像空間結(jié)構(gòu)的破壞程度,更好地保護(hù)圖像空間特征,保留了更多的細(xì)節(jié)紋理;另一方面減少模塊中的訓(xùn)練參數(shù)量,加快訓(xùn)練速度。模塊結(jié)構(gòu)如圖2 所示。
圖2 改進(jìn)的特征融合模塊Fig.2 Improved feature fusion module
該模塊將輸入的特征圖X變換為特征圖Y,實(shí)現(xiàn)多尺度的語(yǔ)義信息特征的提取。在該模塊中,首先分別用1×1、3×3 和5×5 的卷積核對(duì)特征圖X進(jìn)行卷積運(yùn)算,然后經(jīng)過(guò)激活函數(shù),最后再使用同樣大小的卷積核再次卷積運(yùn)算,得到3 種不同尺度的特征圖Xi,Xi的計(jì)算如式(1)所示:
其中:i∈(1,3,5),Convi×i表示使用i×i大小的卷積核進(jìn)行的卷積運(yùn)算,LR 表示 LeakyReLU 激活函數(shù)。使用逐元素求和的方式將特征圖X1、X3和X5融合為XA,XA的計(jì)算方式如式(2)所示:
式中,+表示逐元素求和計(jì)算。對(duì)特征圖XA使用全局最大池化和全連接層計(jì)算,再由函數(shù)激活獲得張量Ci。其計(jì)算公式如式(3)所示:
其中:i∈(1,3,5),公式(3)可得到自適應(yīng)選擇的通道張量C1、C3和C5,GP 為全局最大池化計(jì)算,F(xiàn)C 為全連接計(jì)算,SM 為SigMoid 激活函數(shù)。最終該模塊輸出的特征圖Y是由特征圖Xi與之相適應(yīng)的Ci逐通道相乘再融合得到:
其中:Y是該模塊最終輸出的特征圖,·表示逐通道相乘操作,+表示特征圖逐元素求和。
殘差模塊不僅能夠解決深度神經(jīng)網(wǎng)絡(luò)退化問(wèn)題而且還能加快其收斂速度,保持?jǐn)?shù)據(jù)保真度[32],學(xué)習(xí)更深層次的特征。模塊結(jié)構(gòu)如圖3 所示。
圖3 殘差模塊Fig.3 Residual module
圖中X為輸入的特征圖,Y為輸出的特征圖。Y的計(jì)算公式如式(5)所示:
式中使用兩個(gè)卷積層Conv 對(duì)特征圖X卷積運(yùn)算,然后再與X逐元素相加得到Y(jié)。
注意力機(jī)制是對(duì)權(quán)重資源重新分配的機(jī)制,將原本平均分配的資源根據(jù)注意力對(duì)象的程度高低實(shí)現(xiàn)再分配。在該模塊中,使用兩種池化策略關(guān)注圖像在通道方面的權(quán)重分配,首先使用具有不同池化效果的分支對(duì)該模塊的輸入特征圖計(jì)算,然后將兩個(gè)分支得到的中間特征圖融合,最后融合圖像與該模塊的輸入特征圖逐元素相乘得到包含有重要信息特征的輸出特征圖。圖4是改進(jìn)的注意力模型。
圖4 改進(jìn)的注意力模型Fig.4 Improved attention module
該模塊的輸入特征圖為X,輸出的特征圖是Y。第一個(gè)分支對(duì)特征圖采用全局最大池化計(jì)算,全局最大池化能夠提取特征紋理,減少無(wú)用信息的影響,然后對(duì)16 通道的特征圖進(jìn)行卷積映射為4 通道的特征圖,并由激活函數(shù)激活重要特征,最后再將4 通道特征圖轉(zhuǎn)換為16 通道特征圖得到Sh。另一個(gè)分支是采用全局平均池化計(jì)算,全局平均池化能夠保留背景信息,減少過(guò)擬合現(xiàn)象,后續(xù)操作同第一分支一樣,得到Bh。Sh和Bh的計(jì)算公式如式(6)所示:
式中:MP 為全局最大池化計(jì)算,AP 為全局平均池化計(jì) 算,Conv 為1×1 大小的 卷積層,LR 為L(zhǎng)eakyReLU 激活函數(shù)。最終輸出的特征圖Y是由Sh和Bh逐元素相加后與特征圖X逐元素相乘得到。特征圖Y的計(jì)算公式如式(7)所示:
其中:+表示逐元素求和計(jì)算,SM 是SigMoid 激活函數(shù),?表示逐元素相乘操作。
特征融合網(wǎng)絡(luò)在RGB 顏色空間中能夠解決紋理細(xì)節(jié)不足、背景色偏不能還原等問(wèn)題,但也會(huì)伴隨有色彩不均衡、對(duì)比度低等問(wèn)題,因此設(shè)計(jì)物理增強(qiáng)模塊解決這個(gè)問(wèn)題。首先在RGB 顏色模型中對(duì)各顏色通道做顏色均衡化,對(duì)各顏色通道的像素在合適范圍調(diào)整來(lái)增加對(duì)比度。由于RGB顏色空間不能直接反應(yīng)一些重要參數(shù),如飽和度、色調(diào)和亮度,因此需要將圖像再轉(zhuǎn)換到HIS 顏色模型并對(duì)這些參數(shù)進(jìn)行校正,以進(jìn)一步增強(qiáng)圖像的自然表現(xiàn)力。在該模塊中,分別使用RGB 和HIS 顏色模型對(duì)各顏色通道、亮度和飽和度在適度的范圍內(nèi)拉伸以達(dá)到增強(qiáng)圖像效果的目的。物理增強(qiáng)模塊的流程圖如圖5 所示。
圖5 物理增強(qiáng)模塊的流程圖Fig.5 Flowchart of the physical enhancement module
輸入圖像后,首先進(jìn)行RGB 顏色均衡化處理,其次判斷圖像的主色偏是否為綠色。如果為綠色,則進(jìn)行綠色通道單邊校正和藍(lán)色通道雙邊校正,否則進(jìn)行藍(lán)色通道單邊校正和綠色通道雙邊校正,然后對(duì)圖像的紅色通道單邊校正,最后在HIS 顏色模型中對(duì)飽和度和亮度進(jìn)行雙邊校正并輸出圖像。
2.4.1 RGB 顏色均衡化
水下圖像的主色偏通常為綠色或者藍(lán)色兩類。經(jīng)過(guò)上一步特征融合網(wǎng)絡(luò)的處理能夠解決大部分的色偏,可能還會(huì)留有輕微色偏問(wèn)題,這一步可對(duì)圖像顏色做均衡化,消除輕微色偏。首先計(jì)算圖像在RGB 模型中各個(gè)顏色通道中像素最大值Rmax、Gmax和Bmax,三者中值最大就代表該圖像的色偏通道。其計(jì)算公式如式(8)所示:
其中:輸入圖像X的尺寸為M×N,i∈(0,M),j∈(0,N),(i,j)為圖像的像素點(diǎn)位置坐標(biāo),IR(i,j)、IG(i,j)和IB(i,j)分別代表圖像的紅色通道像素值、綠色通道像素值和藍(lán)色通道像素值。
本文以綠色為圖像的主色偏為例詳細(xì)描述均衡化計(jì)算過(guò)程。保持主色偏通道不變,需要調(diào)整藍(lán)色和紅色通道的像素值使圖像顏色均衡,因此需要計(jì)算基于主色偏在其他兩個(gè)顏色通道的增益因子。首先計(jì)算三顏色通道上像素值的平均值,計(jì)算公式如式(9)所示:
其中:IR(i,j)、IG(i,j)和IB(i,j)分別代表圖像在各顏色通道(i,j)位置的像素值,Ravg、Gavg和Bavg表示紅綠藍(lán)三顏色通道上像素值的平均值。增益因子是基于3 個(gè)像素平均值得到:
其中:a表示紅色通道的增益因子,b表示藍(lán)色通道增益因子。新的藍(lán)色和綠色通道的像素值由乘數(shù)來(lái)確定,由公式(11)計(jì)算得出:
其中:R和B為原來(lái)圖像的紅色和藍(lán)色像素值,R*和B*是圖像均衡化后的紅色和藍(lán)色像素值。
2.4.2 RGB 顏色模型對(duì)比度校正
整體顏色做均衡化能解決輕微色偏問(wèn)題,圖像的對(duì)比度需要進(jìn)一步增強(qiáng)。這一部分主要是在RGB 顏色模型中采用拉伸強(qiáng)度值范圍的方式校正對(duì)比度。
RGB 顏色模型中各顏色通道的像素取值范圍為0~255,統(tǒng)計(jì)各個(gè)顏色通道的不同像素值出現(xiàn)的次數(shù)并畫出像素分布折線圖,如圖6 所示。圖6 中橫坐標(biāo)表示像素點(diǎn)的像素值,縱坐標(biāo)表示像素點(diǎn)個(gè)數(shù),其中紅色折線代表紅色通道,藍(lán)色代表藍(lán)色通道,綠色代表綠色通道。
圖6 RGB 像素分布折線圖Fig.6 RGB pixel distribution line diagram
對(duì)比度的增強(qiáng)采用拉伸特定范圍內(nèi)的像素值實(shí)現(xiàn)。該方法先確定拉伸后圖像的上下限,通常用歸一化的方式確定折線圖中的最小和最大像素值,將不同通道的像素點(diǎn)按照值從小到大排序,在排序后的兩端分別舍棄總像素點(diǎn)總數(shù)的0.2%的像素點(diǎn),僅保留中間的0.2%~99.8%的像素點(diǎn)。圖7 是綠色通道標(biāo)有裁剪點(diǎn)像素分布的折線圖。
圖7 綠色通道的像素分布折線圖Fig.7 Pixel distribution line diagram of the green channel
通常過(guò)高或者過(guò)低的像素值會(huì)嚴(yán)重影響圖像的質(zhì)量,導(dǎo)致不具代表性的縮放,因此圖7 中標(biāo)注lower_limit 箭頭所指左邊的所有點(diǎn)都將被舍棄,upper_limit 右側(cè)的點(diǎn)也將舍棄,僅選在0.2%和99.8%范圍內(nèi)的像素點(diǎn),并將其應(yīng)用在校正公式中,對(duì)圖像分3 個(gè)步驟進(jìn)行校正。校正公式如式(12)所示:
其中:Po是對(duì)比度校正后圖像的像素值;Pi為參考像素值;a表示下限值,其最小為0;b是上限值,其最大為255;c表示當(dāng)前顏色通道中最小像素值;d表示當(dāng)前顏色通道中最大像素值。
如果顏色均衡化時(shí)確定主色偏為綠色,那么第一步進(jìn)行綠色的單邊校正,第二步進(jìn)行藍(lán)色雙邊校正,第三步進(jìn)行紅色單邊校正。否則按照藍(lán)色單邊校正,綠色雙邊校正,紅色單邊校正的順序校正。以綠色色偏為例,各顏色通道校正方式和方向如圖8 所示。
圖8 各顏色通道像素分布圖。(a)綠色通道像素分布圖;(b)藍(lán)色通道像素分布圖;(c)紅色通道像素分布圖。Fig.8 Pixel distribution of each color channel.(a)Green channel pixel distribution map;(b)Blue channel pixel distribution map;(c)Red channel pixel distribution map.
第一步,圖8(a)為綠色通道像素分布圖,校正方式為單邊校正,校正方向是朝向像素值最小側(cè),通過(guò)向像素值最小側(cè)來(lái)解決偏綠問(wèn)題,校正公式如式(13)所示:
公式(13)與公式(12)對(duì)比,b為Gup,Gup代表綠色通道中upper_limit 指向的像素點(diǎn)的像素值,該像素值作為上限。a為0,把0 作為下限。c為Min 表示當(dāng)前圖像中最小像素值。d為Max,表示當(dāng)前圖像中最大像素值。
第二步,圖8(b)為藍(lán)色通道像素分布圖,校正方式為雙邊校正,朝向像素值最大和最小兩側(cè)。校正公式如式(14)所示:
公式(14)與公式(12)對(duì)比,b為255,255 作為藍(lán)色像素值的上限代表藍(lán)色通道的最大像素值。a為0,0 作為藍(lán)色像素值的下限。c為Min 表示當(dāng)前圖像中最小像素值。d為Max,表示當(dāng)前圖像中最大像素值。
第三步,圖8(c)為紅色通道像素分布圖,校正方式為單邊校正,校正方向是朝向像素值最大側(cè)。校正公式如式(15)所示:
該公式與公式(12)對(duì)比,b為255,因?yàn)橐蛳袼刂底畲髠?cè)拉伸,把255 作為上限。a為Rlo,Rlo代表紅色通道中l(wèi)ower_limit 指向的像素點(diǎn)的像素值,該像素值作為下限。c為Min 表示當(dāng)前圖像中最小像素值。d為Max,表示當(dāng)前圖像中最大像素值。
2.4.3 HIS 顏色模型
將圖像的RGB 顏色模型轉(zhuǎn)換為HIS 顏色模型,在HIS 顏色模型中繼續(xù)提高圖像的質(zhì)量。HIS 顏色模型即色調(diào)(H)、飽和度(S)和亮度(I),色調(diào)是純色成分,飽和度是顏色的純正度,亮度是照明成分[25]。對(duì)飽和度和亮度兩個(gè)參數(shù)用校正公式(12)來(lái)獲得新的值,校正方向朝向亮度暗側(cè)和亮側(cè)兩個(gè)方向,這種調(diào)整有助于具體的數(shù)據(jù)分布圖更好地?cái)U(kuò)展到兩個(gè)方向,使其可見度增大且更加清晰。
本文方法在輕量級(jí)特征融合網(wǎng)絡(luò)部分,因?yàn)橹黧w架構(gòu)與U-NET 網(wǎng)絡(luò)相似,所以前5 個(gè)局部塊充當(dāng)?shù)奶卣魈崛∑鞯木幋a器部分,第6 到第9個(gè)局部塊是融合信息重建清晰圖像的解碼器部分。原始水下圖像通過(guò)該網(wǎng)絡(luò)能夠提升圖像的質(zhì)量,既能夠解決水下圖像色偏的主要問(wèn)題,又能夠不破壞圖像空間結(jié)構(gòu),盡可能多地保留圖像的紋理細(xì)節(jié)。水下圖像增強(qiáng)不同于高級(jí)機(jī)器視覺任務(wù),如目標(biāo)檢測(cè)、目標(biāo)識(shí)別等,因此不需要高維度的信息特征,故減少卷積中的通道數(shù)能減少特征融合網(wǎng)絡(luò)的訓(xùn)練時(shí)間,同時(shí)也能降低網(wǎng)絡(luò)的復(fù)雜性。該網(wǎng)絡(luò)把相鄰兩個(gè)模塊間的通道設(shè)置為16,再加上對(duì)特征融合模塊的改進(jìn),因此特征融合網(wǎng)絡(luò)的參數(shù)量進(jìn)一步地減少,由0.15M 減小到0.03M,約減少了80%。在多顏色模型校正部分,對(duì)前一部分的圖像先進(jìn)行顏色均衡化處理,然后在適度的范圍內(nèi)拉伸RGB 顏色模型中各個(gè)顏色通道和HIS 顏色模型中飽和度和亮度參數(shù),最后得到自然清晰、色彩豐富的無(wú)色偏圖像。
所有實(shí)驗(yàn)均使用PyCharm 編譯器,運(yùn)行在Win10 PC,AMD Ryzen Threadripper 1950X 16-Core Processor 3.40 GHz 處理器,NVIDIA GeForce GTX 1080Ti GPU,使 用Tensorflow1.4 作為深度學(xué)習(xí)框架。輸入圖像大小為256×256 像素值,優(yōu)化器選用Adam 優(yōu)化器,學(xué)習(xí)速率設(shè)為0.01,批量大小設(shè)置為5,訓(xùn)練周期設(shè)置為100。
因?yàn)楝F(xiàn)實(shí)世界中獲取真實(shí)的水下圖像的高質(zhì)量的參考圖像是困難的,因此Islam 等人[33]提出了真實(shí)世界水下圖像及可參考的高質(zhì)量圖像的數(shù)據(jù)集EUVP。從該數(shù)據(jù)集中組合選用3 235 組成對(duì)的水下生物圖像,其中一張是具有偏色、低對(duì)比度和霧狀效果等問(wèn)題的水下真實(shí)圖像,另一張是可供參考的圖像,該圖像是利用域遷移技術(shù)CycleGAN 方法獲得的具有參考意義的低色偏的高質(zhì)量圖像。本文將3 235 組圖像分成訓(xùn)練集和A 組測(cè)試集。訓(xùn)練集包含3 150 組圖像,用于本文方法訓(xùn)練出模型;A 測(cè)試集有85 組圖像,用于模型的測(cè)試。數(shù)據(jù)集EUVP 中包含了無(wú)參考的真實(shí)水下圖像。為了驗(yàn)證方法的泛化性和有效性,從中隨機(jī)選出350 張用作B 組測(cè)試數(shù)據(jù),測(cè)試數(shù)據(jù)中包含了水下生物和水下環(huán)境等內(nèi)容。
在評(píng)價(jià)指標(biāo)方面,水下圖像增強(qiáng)的目的是直觀地改善圖像的顏色,去除色偏,增強(qiáng)對(duì)比度,提高整體的視覺效果。根據(jù)有無(wú)參考圖像,本文采用兩套指標(biāo)對(duì)本文算法進(jìn)行客觀評(píng)價(jià)。
A 組測(cè)試數(shù)據(jù)包含可參考的圖像,因此采用全參考圖像質(zhì)量評(píng)估:計(jì)算預(yù)測(cè)圖像和參考圖像各個(gè)通道的像素位置的標(biāo)準(zhǔn)均方根誤差檢驗(yàn)值(NRMSE),NRMSE 的值越小代表兩張圖像在同一像素點(diǎn)的值越接近,即空間細(xì)節(jié)信息越相似;峰值信噪比(PSNR)是最常用的用于反應(yīng)圖像是否失真的客觀評(píng)價(jià)指標(biāo),PSNR 的值越大表示圖像的質(zhì)量越好,失真度越??;結(jié)構(gòu)相似性(SSIM)衡量增強(qiáng)后的圖像和可供參考的圖像在亮度、結(jié)構(gòu)和相似度方面的差異,其值越大代表增強(qiáng)后的圖像與參考圖像越相似。
由于B 組測(cè)試集是無(wú)參考圖像的水下圖像,采用無(wú)參考的水下圖像度量評(píng)估:水下彩色圖像質(zhì)量度量(UCIQE)表示圖像在色度、亮度和飽和度3 方面的平衡程度,其值越大圖像質(zhì)量越高;信息熵(IE)表示圖像信息豐富程度的度量,信息越豐富的圖像則該值越高;自然圖像質(zhì)量評(píng)價(jià)器(NIQE)表示圖像中觀察到的信息是否自然,該值越低代表圖像整體表現(xiàn)更自然。
為了驗(yàn)證所提出方法的可行性和創(chuàng)新性,本文設(shè)計(jì)了消融實(shí)驗(yàn)來(lái)證明:第一個(gè)實(shí)驗(yàn)僅使用特征融合網(wǎng)絡(luò)增強(qiáng)水下圖像;第二個(gè)實(shí)驗(yàn)把原始水下圖像只進(jìn)行多顏色模型校正方法增強(qiáng);第三個(gè)實(shí)驗(yàn)使用特征融合網(wǎng)絡(luò)和多顏色模型校正相結(jié)合的方法。3 個(gè)實(shí)驗(yàn)均在A 組測(cè)試數(shù)據(jù)上進(jìn)行,最后對(duì)實(shí)驗(yàn)增強(qiáng)后的結(jié)果進(jìn)行定性和定量的分析。實(shí)驗(yàn)結(jié)果部分圖像展示如圖9 所示。
圖9 消融實(shí)驗(yàn)定性比較。(a)水下圖像;(b)第一個(gè)實(shí)驗(yàn);(c)第二個(gè)實(shí)驗(yàn);(d)第三個(gè)實(shí)驗(yàn);(e)參考圖像。Fig.9 Qualitative comparison of ablation experiments.(a)Underwater image;(b)First experiment;(c)Second experiment;(d)Third experiment;(e)Reference image.
首先對(duì)圖9 的實(shí)驗(yàn)結(jié)果做定性分析。第一個(gè)實(shí)驗(yàn)的結(jié)果顯示,增強(qiáng)后的水下圖像本身存在的色偏問(wèn)題得到解決,可以消除圖像中大部分區(qū)域的色偏,圖像紋理和細(xì)節(jié)較大程度上得到了保留。但是增強(qiáng)后的圖像存在明顯的模糊感,整體的亮度和對(duì)比度表現(xiàn)不佳。第二個(gè)實(shí)驗(yàn)的結(jié)果顯示,校正后的水下圖像在對(duì)比度和亮度方面得到很大的提升,但是對(duì)水下圖像存在的色偏問(wèn)題沒有得到完全解決。第三組實(shí)驗(yàn)的結(jié)果顯示,增強(qiáng)后的圖像色偏問(wèn)題被解決,整體色彩顯示與參考圖像一致;圖像的對(duì)比度、飽和度和亮度方面的視覺呈現(xiàn)更好,圖像表現(xiàn)清晰自然,色彩豐富。
定量分析結(jié)果如表1 所示。通過(guò)數(shù)據(jù)分析,第3 個(gè)實(shí)驗(yàn)在NRMSE 取得的平均值為0.203 6,小于前兩個(gè)實(shí)驗(yàn)結(jié)果,說(shuō)明第三個(gè)實(shí)驗(yàn)得到的增強(qiáng)圖像和參考圖像在像素位置關(guān)系上相似,空間細(xì)節(jié)信息更接近。PSNR 和SSIM 的均值分別是22.140 7 和0.797 8,數(shù)值上都超過(guò)前兩個(gè)實(shí)驗(yàn),說(shuō)明增強(qiáng)后的水下圖像在亮度、結(jié)構(gòu)和相似度方面與參考圖像更相似,細(xì)節(jié)紋理方面表現(xiàn)得更好。UCIQE、IE 和NIQE 分別取得0.479 1、7.381 9 和13.121 3 的平均值,均優(yōu)于前兩組實(shí)驗(yàn),說(shuō)明本文方法增強(qiáng)后的圖像包含的信息更豐富,圖像質(zhì)量更高,圖像表現(xiàn)更自然。
表1 消融實(shí)驗(yàn)數(shù)據(jù)表Tab.1 Ablation experiment data table
無(wú)論是主觀分析還是客觀分析,第三個(gè)實(shí)驗(yàn)結(jié)果要優(yōu)于前兩個(gè)實(shí)驗(yàn)結(jié)果,說(shuō)明本文提出的特征融合網(wǎng)絡(luò)和多顏色模型校正相結(jié)合的方法是可行的且具有創(chuàng)新性,能夠更好地解決水下圖像出現(xiàn)的嚴(yán)重色偏、對(duì)比度低等質(zhì)量問(wèn)題。
本文提出的圖像增強(qiáng)方法與現(xiàn)有的水下圖像增強(qiáng)方法做對(duì)比分析,對(duì)比方法包括基于物理模型的方法(UDCP[12])、基于物理的方法(DBFusion[21])和 基于深度學(xué)習(xí)的方法(Water-Net[24],Global-Local Net[2],Ucolor[25],LAFFNet[27])。具 體實(shí)驗(yàn)操作如下:首先分別在A 組測(cè)試集和B 組測(cè)試集中對(duì)水下圖像做增強(qiáng)處理,然后將各方法的實(shí)驗(yàn)結(jié)果進(jìn)行定性和定量的分析,最后對(duì)各方法的復(fù)雜度進(jìn)行比較。
3.3.1 A 組測(cè)試集對(duì)比實(shí)驗(yàn)
圖10為含有參考圖像的A 組測(cè)試集定性分析對(duì)比圖,圖10(a)顯示了具有偏色、低對(duì)比度、模糊和噪音的水下退化圖像,圖10(b~h)展示了7 種比較方法的增強(qiáng)水下圖像后的效果圖,圖10(i)是提供的高質(zhì)量的參考圖像。圖10(b)是UDCP增強(qiáng)結(jié)果,該方法不能還原圖像,沒有解決最基本的色偏問(wèn)題,反而加重了綠色色偏,另外整體顏色表現(xiàn)暗淡。圖10(c)是Water-Net 方法增強(qiáng)結(jié)果,該方法能夠?qū)λ聢D像的色偏進(jìn)行校正,清晰度有所提升,但是與給出的參考圖像相比,表現(xiàn)出輕微暗色調(diào),亮度和飽和度敏感度低。圖10(d)是DBFusion 方法,其增強(qiáng)結(jié)果和UDCP 相似,不僅沒有對(duì)色偏進(jìn)行校正,而且對(duì)比度表現(xiàn)得也不佳,整體色彩表現(xiàn)暗淡無(wú)光,細(xì)節(jié)表達(dá)欠缺。從Global-Local Net的結(jié)果(圖10(e))來(lái)看,雖然有效地改善了水下圖像的色偏問(wèn)題,但是圖像部分區(qū)域色調(diào)偏白,過(guò)度曝光顯得圖像不夠自然。與提供的參考圖像對(duì)比,圖像亮度僅在部分區(qū)域得到提升。圖10(f)為Ucolor 方法的結(jié)果,其能夠有效改善水下圖像的色偏問(wèn)題,對(duì)比度也有所提升,但是亮度方面僅在部分區(qū)域提升,與參考圖像相比,整體圖像的色調(diào)偏白,增加了圖像的模糊感。圖10(g)為L(zhǎng)AFFNet 方法的結(jié)果,圖像整體得到了改善,能夠解決基本的色偏問(wèn)題,但是部分圖像表層出現(xiàn)了類似黃色煙霧,嚴(yán)重影響到視覺體驗(yàn)。圖10(h)為本文提出方法的結(jié)果,一方面能夠解決水下圖像色偏問(wèn)題,整體色調(diào)更加接近提供的參考圖像;另一方面整體保持顏色豐富,增強(qiáng)了對(duì)比度和亮度,色彩自然豐富,紋理細(xì)節(jié)清晰,進(jìn)一步提升了圖像視覺感知,更接近于真實(shí)的參考圖像。
圖10 A 組測(cè)試集上不同方法的定性比較。(a)水下圖像;(b)UDCP;(c)Water-Net;(d)DBFusion;(e)Global-Local Net;(f)Ucolor;(g)LAFFNet;(h)本文方法;(i)參考圖像。Fig.10 Qualitative comparison of different methods in group A test set.(a)Underwater image;(b)UDCP;(c)Water-Net;(d)DBFusion;(e)Global-Local Net;(f)Ucolor;(g)LAFFNet;(h)Our method;(i)Reference images.
為了客觀分析各個(gè)方法在A 組測(cè)試集的表現(xiàn),采用全參考評(píng)價(jià)指標(biāo)對(duì)增強(qiáng)后的圖像進(jìn)行定量分析,7 種方法的定量分析結(jié)果如表2 所示。從表2 可以看出,本文提出的方法在3 個(gè)評(píng)價(jià)指標(biāo)的平均值上均優(yōu)于其他的對(duì)比算法,其中NRMSE的平均值為0.203 6,說(shuō)明本文方法的增強(qiáng)效果在像素級(jí)別上接近真實(shí)參考的圖像。PSNR 的均值為22.140 9,說(shuō)明本文方法失真更少,圖像質(zhì)量更好。SSIM 取得0.797 9,表示輸出圖像在細(xì)節(jié)和紋理上更接近參考圖像,在圖像結(jié)構(gòu)層面上與參考圖像更相似。3 個(gè)指標(biāo)的表現(xiàn)說(shuō)明本文提出的方法增強(qiáng)后的圖像質(zhì)量更好且更接近于參考圖像。
表2 A 組測(cè)試集增強(qiáng)圖像的指標(biāo)對(duì)比Tab.2 Index comparison of enhanced images in group A test set
3.3.2 B 組測(cè)試集對(duì)比實(shí)驗(yàn)
事實(shí)上水下獲取到的圖像往往沒有真實(shí)的陸地對(duì)照?qǐng)D像,因此為了驗(yàn)證本文方法的泛化性,在B 組測(cè)試集上分別進(jìn)行主觀分析和客觀分析。7 種對(duì)比方法在B 組測(cè)試集上的定性對(duì)比分析圖如圖11 所示。UDCP(圖11(b))和DBFusion(圖11(d))不僅不能對(duì)圖像做到最基礎(chǔ)的色偏校正,還進(jìn)一步加深了綠色色偏,出現(xiàn)了暗色的偽影,對(duì)比度和亮度方面不如原始的水下圖像。在UDCP圖像集中,部分圖像還出現(xiàn)局部泛紅和顏色失真等情況,DBFusion 方法的表現(xiàn)好于UDCP。Water-Net(圖11(c))和Ucolor(圖11(f))能夠很好地對(duì)基礎(chǔ)色偏進(jìn)行校正,但是校正的力度不夠,部分區(qū)域還會(huì)有色偏,近景表現(xiàn)正常,遠(yuǎn)景會(huì)出現(xiàn)色偏,在亮度和對(duì)比度方面表現(xiàn)出色,Ucolor 方法表現(xiàn)要優(yōu)于Water-Net方法。Global-Local Net(圖11(e))和LAFFNet(圖11(g))這兩種方法能夠解決基本的色偏問(wèn)題,但是圖像中在遠(yuǎn)景部分還是會(huì)有綠色的色偏。Global-Local Net 局部區(qū)域亮度過(guò)亮,因此圖像亮度不夠柔和,自然表現(xiàn)有些欠缺。LAFFNet 結(jié)果在亮度和對(duì)比度上有很好的改進(jìn),但是在圖像表層出現(xiàn)了霧狀噪音,表現(xiàn)為圖像模糊不清晰。與其他方法相比,本文方法無(wú)論是在遠(yuǎn)景還是近景部分都能解決色偏,在圖像亮度、對(duì)比度和飽和度方面均優(yōu)于前6 種方法,圖像由遠(yuǎn)到近顏色均衡自然,圖像中近處生物和環(huán)境細(xì)節(jié)紋理清晰,圖像全局對(duì)比度高,自然真實(shí),視覺感知效果更好。
圖11 B 組測(cè)試集的不同方法的定性比較。(a)水下圖像;(b)UDCP;(c)Water-Net;(d)DBFusion;(e)Global-Local Net;(f)Ucolor;(g)LAFFNet;(h)本文方法。Fig.11 Qualitative comparison of different methods for group B test set.(a)Underwater image;(b)UDCP;(c)Water-Net;(d)DBFusion ;(e)Global-Local Net ;(f)Ucolor ;(g)LAFFNet;(h)Our method.
對(duì)沒有參考圖像的B 組測(cè)試集數(shù)據(jù),我們采用無(wú)參考的水下圖像質(zhì)量評(píng)價(jià)指標(biāo)UCIQE、IE 和NIQE,7 種方法在各評(píng)價(jià)指標(biāo)上的平均得分如表3 所示。UCIQE 取得高于其他方法的平均分值0.584 3,表明色度、亮度和飽和度3 個(gè)指標(biāo)較平衡,圖像質(zhì)量更高。IE 平均值7.485 3 表明圖像信息豐富度高,在細(xì)節(jié)紋理上表現(xiàn)更好、更清晰。NIQE 得分31.494 6 低于其他對(duì)比方法,說(shuō)明圖像中的信息更加自然真實(shí)。
表3 B 組測(cè)試集增強(qiáng)圖像的指標(biāo)對(duì)比Tab.3 Index comparison of enhanced images in group B test set
3.3.3 各方法復(fù)雜度的比較
深度學(xué)習(xí)算法用參數(shù)數(shù)量(Parameters)和浮點(diǎn)運(yùn)算 數(shù)(Floating point operations,F(xiàn)LOPs)指標(biāo)來(lái)衡量其復(fù)雜度。參數(shù)數(shù)量用來(lái)形容模型大小程度,模型中包含的參數(shù)的總數(shù)量越多說(shuō)明模型越大,單位為M(106)。FLOPs也是理論計(jì)算量,用于衡量算法的運(yùn)算速度,該值越小說(shuō)明模型的運(yùn)算速度越快,單位為G(109)。由于UDCP 和DBFusion 方法不屬于深度學(xué)習(xí),無(wú)法計(jì)算其指標(biāo),最后得到其他算法的參數(shù)數(shù)量和FLOPs 如表4 所示。由表4 可知,本文提出的算法在參數(shù)數(shù)量和浮點(diǎn)運(yùn)算數(shù)指標(biāo)上僅次于Global-Local Net算法,與改進(jìn)前的LAFFNet 算法相比,參數(shù)數(shù)量由0.15M 減少到0.03M(減少約80%),浮點(diǎn)運(yùn)算數(shù)由9.77G 減少到5.95G(減少約39%)。說(shuō)明本文算法得到的模型在參數(shù)量方面更小,運(yùn)算速度有一定的提升,滿足在低配置設(shè)備部署的要求。
表4 各方法復(fù)雜度的比較Tab.4 Comparison of the complexity of each method
針對(duì)低質(zhì)量(存在嚴(yán)重色偏、能見度低和低對(duì)比度等問(wèn)題)的水下圖像,本文提出一種輕量級(jí)特征融合網(wǎng)絡(luò)與多顏色模型校正相結(jié)合的水下圖像增強(qiáng)方法。該方法屬于模塊化設(shè)計(jì),使用自構(gòu)建模塊可減少代碼的冗余,提高其可閱讀性,提升網(wǎng)絡(luò)的性能。改進(jìn)的特征融合模塊減少了全連接層帶來(lái)的圖像空間結(jié)構(gòu)的破壞,而且能在不降低圖像特征信息提取能力的前提下減少模塊的參數(shù)量,減輕多層網(wǎng)絡(luò)的訓(xùn)練難度。增加的改進(jìn)的注意力模型對(duì)水下圖像既能提取特征紋理又能保住背景信息。物理增強(qiáng)模塊能在多顏色模型中對(duì)各顏色通道、亮度和對(duì)比度的值在合適的范圍內(nèi)進(jìn)行校正,進(jìn)一步減少色偏,增強(qiáng)對(duì)比度和亮度,使圖像自然真實(shí)。本文方法為輕量級(jí)水下圖像增強(qiáng)方法,一方面改進(jìn)的特征融合模塊能夠減少參數(shù)量,另一方面模塊間通道數(shù)降低為16,使本文方法的參數(shù)量從0.15M 下降到0.03M(降低約80%),有效提升訓(xùn)練速度。實(shí)驗(yàn)結(jié)果表明,同最新的圖像增強(qiáng)方法對(duì)比,在有參考圖像數(shù)據(jù)集上,NRMSE、PSNR 和SSIM 評(píng)價(jià)指標(biāo)的平均值分別是0.203 6、22.140 7和0.797 9,比第二名對(duì)比算法提升了9.3%、3.7%和2.3%。在無(wú)參考圖像的數(shù)據(jù)集上,UCIQE、IE 和NIQE 評(píng)價(jià)指標(biāo)的平均值分別是0.584 3、7.485 3 和31.494 6,比第二名對(duì)比算法提升了6%、2.9%和4.5%。本文提出的方法可以有效校正色偏,同時(shí)提升亮度、飽和度和對(duì)比度,使增強(qiáng)后的圖像色彩更自然豐富。