王德興,黃梓陽(yáng),袁紅春
(上海海洋大學(xué)信息學(xué)院,上海 201306)
海洋占據(jù)地球70%以上的表面積,包含著大量豐富的資源[1]。而水下生物圖像作為重要的信息載體,可以協(xié)助人們提高海洋資源開(kāi)采的效率。根據(jù)水下光學(xué)成像原理[2],在采集水下圖片時(shí),隨著水深的增加,不同波長(zhǎng)的光在水中的衰減是非線性的,水對(duì)紅光吸收能力最強(qiáng),一般在水深5 m左右時(shí)就會(huì)消失,而藍(lán)光、綠光分別在30 m以及40 m處才逐漸消失。并且由于白色霧狀團(tuán)往往出現(xiàn)在淺水區(qū),獲取的水下生物圖像不僅在色彩上存在偏藍(lán)、偏綠的失真,還存在對(duì)比度低和細(xì)節(jié)模糊等問(wèn)題。雖然專業(yè)的硬件設(shè)備[3-4]可以解決一些水下圖像退化問(wèn)題,但其成本高昂,無(wú)法大規(guī)模普及。于是使用圖像處理技術(shù)恢復(fù)水下圖像成為研究熱點(diǎn),該方法克服了硬件平臺(tái)方法的高昂成本;同時(shí),可為后續(xù)高階視覺(jué)任務(wù),如水下目標(biāo)探測(cè)[5]、水下機(jī)器人作業(yè)[6]做了圖像預(yù)處理,提高了這些高級(jí)視覺(jué)任務(wù)的性能。
目前主流的水下圖像增強(qiáng)算法主要分為三類(lèi):基于非物理模型、基于物理模型和基于深度學(xué)習(xí)的方法?;诜俏锢砟P偷姆椒ㄖ饕ㄟ^(guò)調(diào)整水下圖像的像素值來(lái)改善其視覺(jué)質(zhì)量,如直方圖均衡[7](HE),對(duì)比度受限自適應(yīng)直方圖均衡[8](CLAHE)。相較于單色的RGB模型,Ancuti等[9]與Ma等[10]融合多種色彩模型,提高水下圖像的對(duì)比度。Huang[11]提出了相對(duì)全局直方圖拉伸(RGHS),進(jìn)行線性自適應(yīng)拉伸優(yōu)化,避免增強(qiáng)出過(guò)飽和的區(qū)域。但是這些方法忽略了水下成像原理,會(huì)引起其他色偏噪聲等問(wèn)題。而基于物理模型的方法利用不同的先驗(yàn)知識(shí)快速估計(jì)出原始圖像的背景光(Back Light)和深度圖(Transmission Map)實(shí)現(xiàn)水下圖像有效的復(fù)原,其中包括暗通道先驗(yàn)(DCP)[12],水下暗通道先驗(yàn)UDCP[13]紅色通道先驗(yàn)(RCP)[14],水下光光衰減先驗(yàn)(ULAP)[15]。但是當(dāng)先驗(yàn)知識(shí)不適用時(shí),圖像恢復(fù)的效果會(huì)變差,泛化性不高。
在過(guò)去的幾年里,隨著人工智能在水下圖像增強(qiáng)的廣泛運(yùn)用。Du等[16]利用多尺度模塊的特征提取能力,實(shí)現(xiàn)水下圖像的實(shí)時(shí)感知增強(qiáng)。Li等[17]提出水網(wǎng) (Water-Net),把經(jīng)過(guò)WB(白平衡),HE(直方圖均衡),GC(伽馬校正)的三幅圖像作為模型的輸入。Li等[18]將不同色彩空間的特征整合提出了U-color方法。除了上述的卷積神經(jīng)網(wǎng)絡(luò)(CNN)的思想,Sun等[19]首次提出Pixel2Pixel生成對(duì)抗網(wǎng)絡(luò)進(jìn)行水下圖像增強(qiáng)。而循環(huán)對(duì)抗網(wǎng)絡(luò)Cycle-GAN[20]在網(wǎng)絡(luò)結(jié)構(gòu)和循環(huán)損失上提供了一種新的思路。Fabbri等[21]提出了水下生成對(duì)抗性網(wǎng)絡(luò)(UGAN)并利用Cycle-GAN訓(xùn)練生成配對(duì)的數(shù)據(jù)集。UWGAN[22]利用UGAN訓(xùn)練配對(duì)的數(shù)據(jù)集,在生成器中添加多尺度特征提取模塊,增強(qiáng)圖像質(zhì)量。Islam等[23]使用5個(gè)編碼解碼器與殘差連接構(gòu)建模型FUnIE-GAN。Naik等[24]提出Shallow-Uwnet使用了最少的模型參數(shù)獲得了與當(dāng)時(shí)最優(yōu)模型相當(dāng)?shù)男阅?。Huang等[25]提出一個(gè)基于半監(jiān)督mean-teacher網(wǎng)絡(luò)模型,將未標(biāo)記的數(shù)據(jù)納入網(wǎng)絡(luò)訓(xùn)練,解決了水下圖像增強(qiáng)領(lǐng)域缺少真實(shí)的配對(duì)的數(shù)據(jù)集等問(wèn)題。Peng等[26]利用U形狀結(jié)構(gòu)的Transformer模型有效的消除水下圖像的偽影和色偏,并發(fā)布了包含4 279個(gè)圖像對(duì)的大規(guī)模水下數(shù)據(jù)集LSUI,有利于水下圖像領(lǐng)域的進(jìn)一步發(fā)展。然而,目前的基于深度學(xué)習(xí)的模型通常具有大量的參數(shù)和復(fù)雜的結(jié)構(gòu),難以在低配置設(shè)備部署,若追求模型的輕量化,往往達(dá)不到很好的增強(qiáng)效果。
針對(duì)上述方法的局限性,提出了一種輕量級(jí)神經(jīng)網(wǎng)絡(luò)模型,其中包含2個(gè)結(jié)構(gòu)。設(shè)計(jì)了一個(gè)色溫調(diào)整模塊,通過(guò)兩種池化方法對(duì)特征圖的全局空間信息進(jìn)行壓縮并與Ghost卷積模塊融合更好的提取圖片特征。設(shè)計(jì)了一個(gè)多色彩模型校正結(jié)構(gòu),通過(guò)動(dòng)態(tài)卷積模塊對(duì)色彩的拉伸,將RGB顏色模型分別轉(zhuǎn)換為HSI和LAB色彩模型進(jìn)行動(dòng)態(tài)自適應(yīng)調(diào)整。最后進(jìn)行圖像融合,進(jìn)一步增加水下生物圖像對(duì)比度并去除色偏。
輕量級(jí)神經(jīng)網(wǎng)絡(luò)的總體架構(gòu)如圖1所示。
圖1 網(wǎng)絡(luò)總體架構(gòu)Fig.1 Overall network architecture
該神經(jīng)網(wǎng)絡(luò)由色溫調(diào)整模塊和動(dòng)態(tài)卷積多色校正模型兩部分組成。原始圖像將被壓縮成256×256的尺寸大小。該圖像經(jīng)過(guò)2個(gè)模塊對(duì)原始圖像進(jìn)行增強(qiáng)。2個(gè)模塊分別基于圖像的最大像素值和平均像素值為基準(zhǔn)進(jìn)行調(diào)整。在得到初步增強(qiáng)的兩幅圖像后,為了不增加網(wǎng)絡(luò)復(fù)雜度,利用Ghost卷積模塊將兩部分特征圖進(jìn)行融合。為了更好地提取圖片特征,殘差增強(qiáng)模塊采用基于Ghost卷積構(gòu)成以加強(qiáng)模型的非線性能力。將合并的特征圖結(jié)果饋送到動(dòng)態(tài)卷積多色校正模塊,在該模塊中,首先將合并的特征圖分別轉(zhuǎn)換到HSI和LAB的色彩空間上,在每個(gè)色彩空間中通過(guò)動(dòng)態(tài)卷積模塊對(duì)圖像進(jìn)一步進(jìn)行拉伸增強(qiáng)。其次,在動(dòng)態(tài)卷積拉伸模塊中動(dòng)態(tài)融合不同階段的特征,從而幫助模型更好地進(jìn)行圖像增強(qiáng),最后將圖像全部轉(zhuǎn)為RGB色彩空間,同樣利用基于Ghost的殘差增強(qiáng)模塊進(jìn)行圖片融合。該模型利用Ghost色溫調(diào)整在保證圖像增強(qiáng)的同時(shí)使模型具備輕量化的結(jié)構(gòu),使用動(dòng)態(tài)卷積核和多色彩空間的融合能實(shí)現(xiàn)對(duì)輸入圖像的自適應(yīng)力更全面地對(duì)圖像進(jìn)行校正,緩解模型對(duì)不同階段特征的提取,有效地提高水下生物圖像增強(qiáng)模型的表征能力。
1.2.1 全局平均池化和全局最大池化模塊
水下的生物圖像色溫往往是不平衡的,由于不同波長(zhǎng)的光在水中以不同的速率衰減,可見(jiàn)光中的紅色光隨著水深增加首先會(huì)被吸收,因?yàn)槠渚哂凶铋L(zhǎng)的波長(zhǎng)或最小的能量,一般來(lái)說(shuō)在3~4 m的深度就開(kāi)始消失,到達(dá)10 m會(huì)完全消失。藍(lán)色和綠色波長(zhǎng)較短,穿透能力不如紅色,在水中也易擴(kuò)散分散,正是因?yàn)樗畬?duì)光的吸收特性導(dǎo)致水下生物圖像呈現(xiàn)藍(lán)色或者綠色的色偏。所以首先對(duì)初始圖像進(jìn)行色溫平衡校正,色溫調(diào)整模塊主要由全局平均池化和全局最大池化兩個(gè)模塊構(gòu)成,能對(duì)圖像進(jìn)行初步的平衡。其具體結(jié)構(gòu)如圖2所示。圖中AVG表示全局平均池化,GMP表示全局最大池化,兩種池化方法與Ghost卷積進(jìn)行相除形成線性組合,可以減少輸入圖像的無(wú)用的特征權(quán)重,強(qiáng)化模型對(duì)關(guān)鍵特征的關(guān)注度。
圖2 全局平均池化和全局最大池化模塊Fig.2 Global average pooling and global max pooling modules
該結(jié)構(gòu)通過(guò)對(duì)圖片的全局特征信息進(jìn)行全局最大池化和平均池化操作,得到通道描述符,用于實(shí)現(xiàn)整體和局部的非線性特征,進(jìn)而對(duì)圖片的色溫進(jìn)行調(diào)整以提高對(duì)比度。這一步驟旨在滿足灰色世界理論和白色補(bǔ)丁假設(shè),而兩者都是基于Von Kries假設(shè)。該假設(shè)[27]是一種應(yīng)用于色彩適應(yīng)的方法,該理論說(shuō)明自動(dòng)白平衡AWB使用對(duì)角矩陣就能進(jìn)行色彩矯正。具體來(lái)說(shuō),該方法需要一個(gè)將增益獨(dú)立地應(yīng)用于每個(gè)錐體響應(yīng),以保持參考白色的適應(yīng)外觀恒定。其將眼球中3個(gè)視錐響應(yīng)分別表示為L(zhǎng)、M、S,將視錐的光譜靈敏度表示為l(λ),m(λ)和s(λ)。對(duì)于入射到視網(wǎng)膜上的任何給定刺激ir(λ)假定圓錐響應(yīng)如公式(1)所示。
(1)
(2)
式中:k表示獨(dú)立應(yīng)用三個(gè)錐體的比例因子。
Von Kries假設(shè)雖然是在LMS錐函數(shù)空間來(lái)表示原始光源和新光源之間的適應(yīng)性關(guān)系,在圖像增強(qiáng)中,根據(jù)比色法定義可以擴(kuò)展到其他三色顏色通道中使用,來(lái)調(diào)整色溫平衡。在水下圖像中,使用LMS基本原理能夠?qū)⒒赗GB色彩通道的圖像與真實(shí)圖像之間形成對(duì)應(yīng)關(guān)系。但為了更進(jìn)一步使得圖像在水下不同光照的條件下,根據(jù)圖像中的光譜分布自適應(yīng)地調(diào)整圖像的色彩平衡,考慮每一個(gè)顏色通道之間的校正關(guān)系,修改不同顏色通道的增益以獲得更準(zhǔn)確的顏色表現(xiàn)。利用神經(jīng)網(wǎng)絡(luò)的CNN的卷積思想Von Kries假設(shè)可以被寫(xiě)作公式(3):
I′=Conv1×1(I)
(3)
式中:I表示原始水下生物圖像的像素,I′表示真實(shí)的圖像像素,通過(guò)卷積操作可以更好地映射顏色之間的關(guān)聯(lián)。相對(duì)于傳統(tǒng)卷積而言,為了獲得全面的特征提取能力,需要增加大量的卷積核數(shù)量和通道數(shù),這會(huì)帶來(lái)冗余和高計(jì)算量的問(wèn)題。即使是使用1×1的卷積核,也難以避免冗余的情況。為了解決這些問(wèn)題,可以使用Ghost卷積[28]這一輕量級(jí)的卷積模塊。Ghost卷積通過(guò)僅運(yùn)用少量的卷積核生成部分特征圖,然后使用線性變換代替生成相似特征圖的過(guò)程,從而在保證一定性能的前提下盡量減少計(jì)算量和參數(shù)量。因此,Ghost卷積可用于取代傳統(tǒng)卷積層中的1×1卷積核。由于生成中間圖的過(guò)程中會(huì)產(chǎn)生相似的特征圖,Ghost卷積會(huì)將傳統(tǒng)卷積分為兩部分。首先,利用小卷積生成部分的特征圖,以減少冗余。通過(guò)第二部分的分組卷積操作可以得到總特征圖當(dāng)中的一部分輸出特征圖,最后通過(guò)Identity恒等映射將前兩部分得到的特征圖進(jìn)行相加。這樣可以顯著減少計(jì)算量和參數(shù)量。Ghost卷積與傳統(tǒng)卷積的對(duì)比如圖3所示。
圖3 傳統(tǒng)卷積和Ghost卷積的對(duì)比Fig.3 Comparison of ordinary convolution and Ghost convolution
Ghost卷積具有一個(gè)恒等映射。假設(shè)輸出特征圖數(shù)量為n,輸入特征圖的大小為h·w·c,輸出特征圖大小為h′·w′·n,卷積核大小為k·k可以推理出Ghost模塊和標(biāo)準(zhǔn)卷積得到相同數(shù)量的特征圖的理論加速比為公式(4):
(4)
式中:s表示線性運(yùn)算的數(shù)量,每個(gè)線性運(yùn)算核的平均內(nèi)核大小為d×d。
普通卷積的計(jì)算量約為Ghost卷積的s倍,同樣參數(shù)量的計(jì)算也約為s倍,這充分展示了Ghost卷積在計(jì)算量方面的優(yōu)勢(shì)。綜上所述,利用Ghost卷積代替?zhèn)鹘y(tǒng)的1×1卷積可以加速模型的收斂速度和效率,同時(shí)又能保證對(duì)水下生物圖像色溫的校正??梢詫⒐?3)的校正關(guān)系可以進(jìn)一步寫(xiě)作公式(5):
I′=GhostConv1×1(I)
(5)
使用Ghost卷積可以減少特征圖的冗余,從而加快模型的收斂速度。為了進(jìn)一步學(xué)習(xí)水下生物圖像和真實(shí)圖像之間的聯(lián)系,受白色補(bǔ)丁算法的啟發(fā),在Ghost卷積的基礎(chǔ)上引入特征圖的像素最大值,以更好地恢復(fù)圖像。白色補(bǔ)丁算法是一種基于圖像全局亮度的增強(qiáng)方法,其核心思想是找到圖像中亮度最高的區(qū)域,將該區(qū)域的像素值作為參考值,然后對(duì)整個(gè)圖像進(jìn)行線性變換,來(lái)調(diào)整圖像的亮度和對(duì)比度。經(jīng)過(guò)白色補(bǔ)丁算法處理后,圖像變得相對(duì)更亮,能有效提高圖片亮度。利用該思想相當(dāng)于對(duì)Von Kries模型中的比例因子k進(jìn)行優(yōu)化,其優(yōu)化后的結(jié)果如公式(6)所示:
GMPa=maxIa(x),a∈{R,G,B}
(6)
(7)
受到公式(6)啟發(fā),在公式(5)中添加GMP作為原始圖片中像素中最大的值,意圖在色溫不平衡的區(qū)域中給予圖像最大響應(yīng)規(guī)范的白色刺激。實(shí)際模型中是通過(guò)對(duì)圖像的高頻部分進(jìn)行全局最大池化操作,增強(qiáng)圖像的紋理和邊緣信息,讓模型更加關(guān)注感興趣的區(qū)域,取感興趣區(qū)域內(nèi)的最大值作為輸出得到Igmp,利用全局最大池化思想,進(jìn)一步將公式(5)的校正關(guān)系寫(xiě)作公式(8):
(8)
(9)
同理,受灰色世界理論的啟發(fā),灰色世界是一種基于圖像全局顏色平衡的增強(qiáng)方法,其核心思想是假設(shè)圖像中所有顏色的平均值相等,即整個(gè)圖像的顏色是灰色的。通過(guò)對(duì)圖像中的每個(gè)像素進(jìn)行色彩平衡調(diào)整,使其顏色變得更加自然和準(zhǔn)確。引入AVG作為原始圖片中像素中平均的像素值,對(duì)Von Kries模型中的比例因子k進(jìn)行優(yōu)化,其優(yōu)化后的結(jié)果如公式(10)所示:
(10)
(11)
受公式(10)的啟發(fā),在公式(5)中添加AVG作為每一種顏色通道的像素均值,通過(guò)調(diào)整圖像中暗部和亮度的平均值讓水下生物圖像的色溫變的平衡。實(shí)際模型中,使用全局平均池化思想計(jì)算特征圖每個(gè)通道的平均值,并將其作為圖像的灰度值。通過(guò)訓(xùn)練圖像的局部對(duì)比度和細(xì)節(jié)信息,可以得到最終的輸出特征圖Iavg。全局平均池化是將感興趣的區(qū)域進(jìn)行平均值操作,進(jìn)一步將公式(5)的校正關(guān)系寫(xiě)作公式(12):
(12)
(13)
最后將經(jīng)過(guò)AVG和GMP的輸出特征圖與殘差模塊進(jìn)行連接,將輸出的兩幅特征圖通過(guò)3×3的Ghost卷積合并在一起得到經(jīng)過(guò)最終校正的色溫調(diào)整圖。
1.2.2 殘差模塊
為了解決模型中梯度消失和爆炸而導(dǎo)致的模型無(wú)法繼續(xù)優(yōu)化,同時(shí)為了學(xué)習(xí)從X(失真圖像)到期望Y(增強(qiáng)圖像)的映射關(guān)系,便于更好加強(qiáng)水下生物圖像與真實(shí)圖像之間的聯(lián)系,加強(qiáng)模型的性能,在GMP和AVG模塊上引入殘差增強(qiáng)模塊。如圖4所示。
圖4 殘差模塊示意圖Fig 4 Picture of Residual module
圖中X為輸入的特征圖,Y為輸出的特征圖,其對(duì)應(yīng)關(guān)系為公式(14):
Y=Tanh(GhostConv(X))
(14)
引入殘差模塊能進(jìn)一步提升收斂速度,該結(jié)構(gòu)由Tanh激活函數(shù)和3×3的Ghost卷積層實(shí)現(xiàn)的,旨在增加相鄰像素之間的聯(lián)系。3×3的Ghost卷積在輕量化的同時(shí)增加了模型的非線性度,提高模型擬合能力。Tanh激活函數(shù)可以將任意實(shí)數(shù)映射在-1到1之間,使神經(jīng)元輸出更加穩(wěn)定。與具有相同值域的Sigmod激活函數(shù)相比,Tanh激活函數(shù)對(duì)輸入信號(hào)的響應(yīng)曲線更陡峭,使得它對(duì)特征圖微小的變化更敏感,從而在一定程度上提高了模型的表達(dá)能力。
由于不同水深光的吸收程度不同,與真實(shí)圖像對(duì)比之下,水下生物圖像會(huì)產(chǎn)生藍(lán)色綠色等不同的色偏,圖像通常是由RGB色彩空間中存儲(chǔ)和顯示的。由于RGB三個(gè)分量高度相關(guān),容易受到亮度、遮擋、陰影等因素變化的影響。相比之下,HSI色彩空間直觀地反映了圖像的色調(diào)、飽和度、亮度和對(duì)比度。LAB色彩空間使顏色分布更好,能夠表達(dá)人眼可以感知的所有顏色。在動(dòng)態(tài)卷積多色校正模塊中,將經(jīng)過(guò)色溫調(diào)整的特征圖分別轉(zhuǎn)換到HSI路徑,RGB路徑和LAB路徑,在每條路徑中輸入的特征圖將經(jīng)過(guò)動(dòng)態(tài)卷積拉伸模塊進(jìn)行調(diào)整。動(dòng)態(tài)拉伸模塊如圖5所示。
圖5 動(dòng)態(tài)卷積拉伸模塊示意圖Fig.5 Picture of dynamic convolution and stretching module
該公式設(shè)計(jì)的原理是有直方圖拉伸演變而來(lái),直方圖拉伸常用于改善圖像的對(duì)比度。直方圖拉伸的目的是通過(guò)線性伸縮直方圖的像素值范圍,使得像素值分布更加均勻,從而增強(qiáng)圖像的對(duì)比度。直方圖拉伸將圖像的像素值通過(guò)以下的數(shù)學(xué)變換映射到新的像素值范圍中如公式(15)所示:
(15)
該方法的優(yōu)點(diǎn)在于簡(jiǎn)單易實(shí)現(xiàn),能夠有效地增強(qiáng)圖像的對(duì)比度。缺點(diǎn)是它可能會(huì)導(dǎo)致一些像素值被拉伸到極端值,從而失去細(xì)節(jié)。omax和omin的定義必須經(jīng)過(guò)人工設(shè)置。為了增強(qiáng)圖像的對(duì)比度,可以將omax設(shè)置為1,omin設(shè)置為0。但是缺點(diǎn)是可能無(wú)法實(shí)現(xiàn)最佳的效果。為了解決這一問(wèn)題,受到Lin等[29]的啟發(fā),利用注意力機(jī)制對(duì)輸入的圖片進(jìn)行Global Max Pooling操作,GMP是對(duì)全局求最大,只去找圖片中像素分?jǐn)?shù)最高的那個(gè)區(qū)域。而去忽略其他分?jǐn)?shù)低的區(qū)域,在單個(gè)色彩空間中的特征圖可以由經(jīng)過(guò)公式(16)的轉(zhuǎn)換,在不失去特征圖細(xì)節(jié)的同時(shí)增強(qiáng)圖像對(duì)比度:
(16)
為了更好地適應(yīng)圖像中不同的特征,在公式(3)中加入動(dòng)態(tài)卷積[30]以便對(duì)后續(xù)的網(wǎng)絡(luò)進(jìn)行訓(xùn)練。校正關(guān)系可以進(jìn)一步寫(xiě)出公式(17):
(17)
式中:Id表示 RGB 色彩空間中的直方圖拉伸像素值。動(dòng)態(tài)卷積利用了注意力機(jī)制,結(jié)合預(yù)先初始化好的卷積參數(shù),可以實(shí)現(xiàn)動(dòng)態(tài)變更,從而降低重復(fù)率。使用動(dòng)態(tài)卷積可以提升卷積核生成的計(jì)算量而不是添加更多卷積或更多通道數(shù)來(lái)提升模型的精度。其結(jié)構(gòu)如圖6所示。
圖6 動(dòng)態(tài)卷積原理示意圖Fig 6 Picture of dynamic convolution Principle
動(dòng)態(tài)卷積的邏輯結(jié)構(gòu)中包含一個(gè)attention模塊控制每一個(gè)分卷積的權(quán)重,這里的Conv1和Conv2表示的是卷積層里的核大小k,把每一個(gè)k乘對(duì)應(yīng)的權(quán)重πk,使用k個(gè)加和的權(quán)重對(duì)輸入的特征圖進(jìn)行卷積操作得到最后的輸出結(jié)果。由于動(dòng)態(tài)卷積是根據(jù)關(guān)注度動(dòng)態(tài)聚合多個(gè)平行卷積核,這些卷積核尺寸小,組合多個(gè)卷積核不僅計(jì)算效率高,而且由于這些內(nèi)核通過(guò)注意力以非線性方式聚合,因此具有更強(qiáng)的表示能力。
同樣的,將輸出特征圖與殘差模塊相結(jié)合,最后通過(guò)3×3的Ghost卷積將RGB路徑的特征與HSI, LAB路徑的相應(yīng)特征緊密連接后形成最終的輸出圖像,可以更好地提升水下生物圖像的對(duì)比度。
(18)
(19)
(20)
最終的組合損耗是MAE損耗、SSIM損耗和VGG感知損耗的線性組合,公式(21)如下:
Lfinal=LMAE+λ1LSSIM+λ2LVGG
(21)
式中:λ1和λ2根據(jù)經(jīng)驗(yàn)分別設(shè)置為 0.25 和 1,以平衡不同損失的規(guī)模。
在深度學(xué)習(xí)模型訓(xùn)練中,數(shù)據(jù)集的數(shù)量和質(zhì)量將對(duì)模型性能產(chǎn)生一定的影響,由Islam等[23]提出的EUVP數(shù)據(jù)集包含單獨(dú)的成對(duì)和未成對(duì)圖像樣本集,EUVP數(shù)據(jù)集包含了大量的成對(duì)和未成對(duì)水下圖像,這些圖像雖然感知質(zhì)量較差,但展現(xiàn)了良好的效果。該數(shù)據(jù)集使用了7種不同的相機(jī),并在多個(gè)地點(diǎn)以及不同能見(jiàn)度下進(jìn)行了采集。這些圖像經(jīng)過(guò)人工挑選,以適應(yīng)數(shù)據(jù)中的各種自然變化。其中未配對(duì)的數(shù)據(jù)是由6個(gè)參與者進(jìn)行目視檢查后分開(kāi)準(zhǔn)備的,以支持對(duì)水下圖像質(zhì)量的人類(lèi)感知偏好進(jìn)行建模。同時(shí),配對(duì)數(shù)據(jù)則是基于CycleGAN模型進(jìn)行訓(xùn)練,以學(xué)習(xí)質(zhì)量好和質(zhì)量差的圖像之間的域轉(zhuǎn)換。EUVP數(shù)據(jù)集中共有超過(guò)12 000對(duì)配對(duì)實(shí)例和8 000個(gè)未配對(duì)實(shí)例。該數(shù)據(jù)集的重點(diǎn)在于促進(jìn)感知圖像增強(qiáng),以增強(qiáng)機(jī)器人對(duì)場(chǎng)景的理解。本訓(xùn)練集采用了EUVP數(shù)據(jù)集中2 185張訓(xùn)練對(duì)進(jìn)行訓(xùn)練,測(cè)試集方面采用EUVP數(shù)據(jù)集中已配對(duì)的515張包含了水下場(chǎng)景圖像作為測(cè)試集A以及在3 700張水下生物圖像隨機(jī)挑選的90張圖像作為測(cè)試集B。以求還原水下機(jī)器人拍攝的真實(shí)的水下圖像拍攝環(huán)境。
本模型在ubuntu系統(tǒng),CPU為AMD5950X,運(yùn)行內(nèi)存64GB,圖形計(jì)算卡為NVIDIA GeForce RTX3090(24GB)的計(jì)算機(jī)上訓(xùn)練,使用PyTorch深度學(xué)習(xí)框架。訓(xùn)練時(shí),批處理大小為 8,所有輸入圖像像素縮放為 256×256 像素,使用 Adam優(yōu)化器對(duì)模型進(jìn)行訓(xùn)練,設(shè)置初始學(xué)習(xí)率設(shè)置為0.01,訓(xùn)練輪數(shù) epoch 為 100,在每個(gè)epoch之后,學(xué)習(xí)率會(huì)按照當(dāng)前數(shù)值的5%進(jìn)行遞減,使訓(xùn)練過(guò)程更加穩(wěn)定。
為了評(píng)估模型增強(qiáng)后的圖像結(jié)果,本研究采用峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)作為評(píng)價(jià)指標(biāo)。PSNR是基于圖像的均方誤差(Mean Squared Error,MSE)計(jì)算的,可以量化地描述圖像重建的精確度,而SSIM是一種用于衡量增強(qiáng)后圖像與參考圖像相似度的指標(biāo),它考慮了圖像的亮度、對(duì)比度和結(jié)構(gòu)信息,更接近于人類(lèi)視覺(jué)系統(tǒng)的感知特性,因此可以更好地反映圖像的視覺(jué)質(zhì)量。PSNR指標(biāo)越大意味著輸出圖像和標(biāo)簽圖像的內(nèi)容更接近,而較高的SSIM分?jǐn)?shù)意味著兩個(gè)圖像在結(jié)構(gòu)上更相似。這兩種評(píng)價(jià)指標(biāo)從不同的角度評(píng)價(jià)圖像質(zhì)量,具有一定的互補(bǔ)性。既能全面地評(píng)估水下圖像的質(zhì)量,也便于與其他方法進(jìn)行比較。此外,為了衡量本模型的復(fù)雜度,對(duì)于基于深度學(xué)習(xí)的模型,采用參數(shù)(Parameters)和浮點(diǎn)運(yùn)算數(shù)(Floating point operations,FLOPs)兩種指標(biāo)。Parameters用來(lái)形容模型大小程度,模型中包含的參數(shù)的總數(shù)量越多說(shuō)明模型越大,單位為M(10的6次方)。FLOPs也是理論計(jì)算量,用于衡量算法的運(yùn)算速度,該值越小說(shuō)明模型的運(yùn)算速度越快,單位為G(109)。這兩個(gè)指標(biāo)分別從模型大小和計(jì)算效率的角度提供了對(duì)深度學(xué)習(xí)模型復(fù)雜度評(píng)估,通過(guò)綜合考慮這兩個(gè)指標(biāo),可以更全面地了解和對(duì)比不同模型的復(fù)雜度。
為了評(píng)估本研究提出方法的有效性并體現(xiàn)輕量化的特點(diǎn),將本模型與現(xiàn)有的水下圖像增強(qiáng)方法做對(duì)比分析,其中對(duì)比方法包括非物理模型的方法 (CLAHE[8]、HE[7]、RayleighDistribution[33]、UCM[34]、ICM[35]、RGHS[11])基于物理模型的典型方法(DCP[12]、UDCP[13]、IBLA[36]、ULAP[15]、MIP[37]) 基于深度學(xué)習(xí)的方法(Water-Net[17]、Shallow-Uwnet[24])。其中,直方圖均衡HE,對(duì)比度受限自適應(yīng)直方圖均衡CLANE是典型的對(duì)比度增強(qiáng)方法,可改善低光圖像的對(duì)比度。這兩種方法采用單一顏色模型,能夠與本研究模型的多色校正模塊參照對(duì)比。RGHS使用了RGB和LAB兩種顏色模型進(jìn)行全局直方圖拉伸,且同樣采用灰色世界理論預(yù)處理圖像與本模型的色溫調(diào)整模塊有相似處。ICM是基于集成顏色的模型,將水下圖像里衰減最嚴(yán)重的藍(lán)色和綠色通道進(jìn)行拉伸,最后在轉(zhuǎn)變成HSI顏色模型。UCM與本模型更接近,同樣是基于Von Kries假設(shè)的選擇性直方圖拉伸色彩校正的方法。Rayleigh Distribution是利用Rayleigh函數(shù)結(jié)合ICM和UCM的變化對(duì)輸入圖像重新分布,提高對(duì)比度的方法。這4種方法都屬于多種顏色模型,更加貼近人類(lèi)視覺(jué),能有效增加圖像顏色的自然表現(xiàn)并增加圖片亮度,減少過(guò)度增強(qiáng)和過(guò)飽和區(qū)域的引入。在此之上,與其對(duì)比能夠突顯出動(dòng)態(tài)卷積模塊自適應(yīng)校正的優(yōu)勢(shì)。從水下光吸收的特性考慮,DCP、UDCP、MIP、ULAP、IBLA這5種模型分別基于暗通道先驗(yàn)、水下暗通道先驗(yàn)、最大強(qiáng)度先驗(yàn)、水下光衰減先驗(yàn)、模糊與光吸收先驗(yàn)的物理模型進(jìn)行水下圖像恢復(fù)。通過(guò)不同先驗(yàn)知識(shí)推導(dǎo)構(gòu)建模型的關(guān)鍵參數(shù),通過(guò)保留補(bǔ)償恢復(fù)圖像。這些方法通過(guò)水下成像機(jī)制,對(duì)于衰減的藍(lán)綠色光有更好的校正效果,與這些方法比較旨在展示本模型的色彩恢復(fù)上的效果。與本模型相比,Water-Net網(wǎng)絡(luò)模型同樣采用了卷積神經(jīng)網(wǎng)絡(luò)并將圖像的白平衡,直方圖均衡,伽馬校正與原始圖像一起融合作為模型的特征輸入,所以該模型的水下圖像增強(qiáng)性優(yōu)于大部分現(xiàn)有水下圖像處理方法,能夠很好地恢復(fù)色偏和圖像細(xì)節(jié)。最后為了體現(xiàn)本模型在輕量化的同時(shí)仍具有較優(yōu)的水下圖像增強(qiáng)效果,與同樣在使用較少參數(shù)條件下取得與當(dāng)時(shí)最優(yōu)效果的Shallow-Uwnet進(jìn)行比較。這些方法在水下圖像增強(qiáng)和恢復(fù)領(lǐng)域具有一定的代表性,并涵蓋了多種技術(shù)特點(diǎn)和思路,與這些方法對(duì)比旨在展示本輕量化模型能夠有效地復(fù)并修正圖像的色偏與對(duì)比度。
圖7為含有參考圖像的測(cè)試集定性分析對(duì)比圖,從圖中可以看出,第一列圖片顯示了具有偏色、低對(duì)比度、模糊和噪聲的水下退化圖像,第二列到第七列展示了6種非物理模型的增強(qiáng)水下圖像后的效果圖,最后一列GT表示的是提供的高質(zhì)量的參考圖像。對(duì)比本研究提出的方法即倒數(shù)第二列圖片(Ours),一方面能夠解決水下圖像色偏問(wèn)題,整體色調(diào)更加接近提供的參考圖像。另一方面整體保持顏色豐富,增強(qiáng)了對(duì)比度和亮度,色彩自然豐富,進(jìn)一步提升了圖像視覺(jué)感知,使得更接近于真實(shí)的參考圖像。
圖7 基于非物理模型方法在測(cè)試集A上的定性對(duì)比Fig 7 Qualitative comparison of methods based on non-physical models on the test setA
對(duì)圖中各個(gè)方法進(jìn)行主觀分析可以得出,CLANE方法在處理圖像色彩還原上飽和度較高色彩還原不真實(shí),對(duì)于處理綠色色偏效果不理想,經(jīng)過(guò)HE方法處理后的圖片無(wú)法準(zhǔn)確還原真實(shí)色彩圖像,對(duì)于圖像局部有亮度提升,在邊緣細(xì)節(jié)上存在一定偏色。Rayleigh方法在圖片上表現(xiàn)泛白,對(duì)于局部的顏色表現(xiàn)飽和度過(guò)高沒(méi)有充分還原綠色色偏。UCM方法也存在相同的問(wèn)題,對(duì)于深色圖片退化表現(xiàn)較好,在視覺(jué)表現(xiàn)方面圖像內(nèi)容泛紅,有些許失真。ICM在處理綠色圖像時(shí)表現(xiàn)不錯(cuò),但是對(duì)于淺色水下圖像時(shí),存在一定的泛白對(duì)深藍(lán)色圖像還原的也不夠精準(zhǔn)。RGHS方法增強(qiáng)效果還可以,但是視覺(jué)效果上還原的效果與真實(shí)圖像還存在一定差異。在處理深藍(lán)色圖像的效果并不理想。對(duì)比其余的方法,本方法在對(duì)偏綠偏藍(lán)的圖像校正都有很好的視覺(jué)效果呈現(xiàn),與參考圖像效果最為接近,圖像對(duì)比度較高,色彩較為準(zhǔn)確。
同樣圖8為含有參考圖像的測(cè)試集定性分析對(duì)比圖,第二列到第六列展示了5種物理模型的增強(qiáng)水下圖像后的效果圖,最后一列提供的高質(zhì)量的參考圖像。
圖8 基于物理模型方法在測(cè)試集A上的定性對(duì)比Fig.8 Qualitativecomparison of physics-based model methods on the test setA
可以很直觀地看出本模型與參考圖像無(wú)論是色溫還是色彩對(duì)比度都最為接近。DCP的方法對(duì)色彩的校正很輕微,只有個(gè)別區(qū)域的色彩飽和度提升,UDCP不僅沒(méi)消除應(yīng)有的綠色藍(lán)色色偏,圖像反而變得更深效果很不理想。IBLA方法在個(gè)別圖像上效果有提升,帶來(lái)了更好的亮度和清晰度但是第一張圖片產(chǎn)生了明顯的偏色,綠色的背景增強(qiáng)后變成了亮藍(lán)色。ULAP方法雖然在某些圖片上消除了一定的綠色色偏,但是對(duì)于綠色背景的暗處細(xì)節(jié)表現(xiàn)很差,原圖的細(xì)節(jié)已經(jīng)喪失,MIP的方法在4副水下圖像上都呈現(xiàn)出深綠色對(duì)圖像的校正效果不好。從主觀上看,本模型對(duì)綠色藍(lán)色的色偏消除的很好,對(duì)色彩還原的很精準(zhǔn),沒(méi)有加重或過(guò)多曝光圖像的其他通道顏色產(chǎn)生明顯色偏,與參考圖像相比較下本文提出的方法在還原水下圖像方面有很不錯(cuò)的效果。
為了更好地客觀地評(píng)估各種方法的效果,表1展示了上述11種方法在515張圖片上的平均指標(biāo)值。
表1 傳統(tǒng)方法在測(cè)試集A上指標(biāo)值Tab.1 The index value of the traditional method on the test set A
表2 深度學(xué)習(xí)方法在測(cè)試集B上指標(biāo)值Tab.2 The index value of the deep learning method on the test set B
對(duì)于有參考圖像的測(cè)試集對(duì)比下,本模型在PSNR和SSIM的指標(biāo)上都得到了最高的值,與非物理模型和基于物理模型的方法相比,本模型在對(duì)水下圖像進(jìn)行定量分析時(shí)取得了最好的效果,能夠準(zhǔn)確還原真實(shí)水下圖像的色彩。
為了體現(xiàn)本模型在其他不同水下數(shù)據(jù)集上的適應(yīng)能力,使用測(cè)試集B與深度學(xué)習(xí)方法Water-Net和Shallow-Uwnet進(jìn)行了對(duì)比分析。Water-Net能自動(dòng)學(xué)習(xí)水下圖像特征并適應(yīng)各種環(huán)境,在測(cè)試集B上的表現(xiàn)優(yōu)于大多數(shù)現(xiàn)有的深度學(xué)習(xí)方法。但是,該方法具有較大的模型參數(shù)量。Shallow-Uwnet是一種輕量級(jí)的水下圖像增強(qiáng)模型,適用于計(jì)算資源受限的場(chǎng)景。盡管其模型較簡(jiǎn)單,但它仍然具備自動(dòng)學(xué)習(xí)和提取水下圖像特征的能力,從而實(shí)現(xiàn)較為滿意的圖像增強(qiáng)效果,是一種在保持性能表現(xiàn)的同時(shí),具有較高計(jì)算效率的水下圖像增強(qiáng)方法。
圖9是基于深度學(xué)習(xí)方法在測(cè)試集上的對(duì)比圖,對(duì)圖9進(jìn)行主觀分析可以看出,Water-Net對(duì)于藍(lán)色綠色的消除有較好的效果,但是由于該方法是多幅圖像融合的模型,第一幅圖出現(xiàn)了重影,對(duì)第三幅魚(yú)的圖片出現(xiàn)了偏粉,在一些暗部細(xì)節(jié)表現(xiàn)不好。Shallow-Uwnet和本方法都有不錯(cuò)的效果校正,盡管對(duì)于第三幅的顏色還原不夠準(zhǔn)確,但是都能有效消除色偏,提升圖片的局部亮度,細(xì)節(jié)清楚。
圖9 基于深度學(xué)習(xí)方法在測(cè)試集B上的定性對(duì)比Fig.9 Quantitative comparison of deep learning methods on the test set B
同樣也對(duì)基于深度學(xué)習(xí)的方法進(jìn)行了定性分析比較,雖然本文方法在PSNR指標(biāo)上不是最優(yōu)的但是在SSIM指標(biāo)上達(dá)到了最優(yōu)的結(jié)果。
除了增強(qiáng)結(jié)果的質(zhì)量,對(duì)于基于深度學(xué)習(xí)的模型,GFLOPs 和參數(shù)量也是重要的評(píng)估指標(biāo),通過(guò)這兩個(gè)評(píng)價(jià)指標(biāo)能準(zhǔn)確反映出深度學(xué)習(xí)網(wǎng)絡(luò)模型的復(fù)雜度。如表3所示,可以看出本模型采用最少的參數(shù)量和 GFLOP。與Water-Net對(duì)比本模型在參數(shù)量上比其少了106個(gè)參數(shù),而Shallow-Uwnet作為很輕量化的深度學(xué)習(xí)模型,本研究模型在參數(shù)量上也比其少了105個(gè)參數(shù)。同時(shí),本研究模型在GFLOPs參數(shù)上僅為Shallow-Uwnet方法的0.27%,是Water-Net方法的0.04%。說(shuō)明了本算法得到的模型在參數(shù)量方面更小的同時(shí),運(yùn)算速度有一定的提升,滿足在低配置設(shè)備部署的要求。
表3 模型的GFLOPs和參數(shù)量Tab.3 the model GFLOPS and parameters
2.5.1 色溫調(diào)整模塊
為了驗(yàn)證本研究設(shè)置的色溫調(diào)整模塊對(duì)本模型的性能影響,將含有完整色溫調(diào)整模塊的模型、只含有全局最大池化模塊的模型、只含有全局平均池化模塊的模型、完全不含有全局最大池化和平均模塊的模型以及去除Ghost卷積的模型分別進(jìn)行消融試驗(yàn)以證明本模型對(duì)水下圖像增強(qiáng)的有效性。首先,分別在同樣的條件下訓(xùn)練4個(gè)模型,然后在相同測(cè)試集進(jìn)行指標(biāo)定量分析,得到的結(jié)果如表4。色溫調(diào)整模塊的消融試驗(yàn)對(duì)比如圖10所示。
表4 色溫調(diào)整模塊的消融試驗(yàn)Tab.4 Ablation test of color temperature adjustment module
圖10 色溫調(diào)整模塊的消融試驗(yàn)對(duì)比圖Fig.10 Comparison chart of ablation test of color temperature adjustment module
完整模型的增強(qiáng)圖像具有最好的PSNR和SSIM指標(biāo),說(shuō)明增強(qiáng)后的圖像最接近真實(shí)圖像。進(jìn)一步分析消融試驗(yàn)結(jié)果,通過(guò)圖10可以發(fā)現(xiàn)完整模塊的輸出圖片在色彩最鮮艷與參考圖像最為接近,部分不含與全都不含的模塊在色彩表現(xiàn)上與參考圖像上都存在一些差距。缺少GMP或者AVG模塊在個(gè)別圖像中出現(xiàn)了明顯的偏色,圖片的對(duì)比度比較低。在不包含Ghost卷積模塊的模型上與完整模型仍存在一點(diǎn)差距,與真實(shí)圖片相比,完整模型在圖片細(xì)節(jié)上的表現(xiàn)更加鮮艷,對(duì)比度更高。但是個(gè)別圖像與真實(shí)圖片存在一定的色差。通過(guò)色溫調(diào)整模塊的消融試驗(yàn)表明,含有Ghost卷積和AVG,GMP兩個(gè)模塊的完整模型最能恢復(fù)并增強(qiáng)圖像的顏色表現(xiàn)。
2.5.2 動(dòng)態(tài)卷積多色校正模塊
為了驗(yàn)證本研究設(shè)置的動(dòng)態(tài)卷積多色校正模塊對(duì)本模型的性能影響,將含完整動(dòng)態(tài)卷積多色校正模塊的模型,不含有HSI顏色通道的模型,不含有LAB顏色通道的模型,不含有HSI和LAB顏色通道的模型以及不含有動(dòng)態(tài)卷積的普通卷積模型分別進(jìn)行消融試驗(yàn)以證明本文提出的模塊對(duì)水下圖像增強(qiáng)的有效性。首先,分別在同樣的條件下訓(xùn)練4個(gè)模型,在相同測(cè)試集進(jìn)行指標(biāo)定量分析,得到的結(jié)果如表5。
表5 動(dòng)態(tài)卷積模塊的消融試驗(yàn)Tab.5 Ablation experiment of dynamic convolution module
從表5的試驗(yàn)結(jié)果可以分析出,含有動(dòng)態(tài)卷積和3種顏色空間的完整模型在PSNR和SSIM指標(biāo)上達(dá)到了最好的效果,說(shuō)明完整模型增強(qiáng)后的圖像效果最好。
通過(guò)觀察圖11可以發(fā)現(xiàn)完整模型通過(guò)動(dòng)態(tài)卷積自適應(yīng)地從3個(gè)色彩空間增強(qiáng)圖像,有效地恢復(fù)圖像的自然色彩,與參考圖像最為接近。全都不含HSI和LAB的圖像在藍(lán)綠色通道上能進(jìn)行有效的校正但是出現(xiàn)了較明顯的黃色色偏,分析表中數(shù)據(jù),缺失LAB和HSI的單顏色通道的模型效果最差。
圖11 動(dòng)態(tài)卷積多色校正模塊的消融試驗(yàn)對(duì)比圖Fig 11 Comparison chart of ablation test of dynamic convolution multi-color correction module
雖然不含LAB和不含HSI的模型在指標(biāo)上數(shù)值接近,但是觀察圖中可以發(fā)現(xiàn),不含HSI的圖像存在明顯的綠色色偏,不含LAB的圖像色溫偏冷。不含動(dòng)態(tài)卷積的圖像在局部存在黃色色偏與參考圖像存在一些差距。根據(jù)動(dòng)態(tài)卷積多色校正模塊消融試驗(yàn)表明,含有動(dòng)態(tài)卷積的完整多彩校正模塊具有最好的色彩飽和度和亮度,能夠最有效地恢復(fù)增強(qiáng)圖像色彩。
針對(duì)水下生物圖像存在的色偏和對(duì)比度低等問(wèn)題,本研究提出了一種端到端的輕量級(jí)神經(jīng)網(wǎng)絡(luò)模型,通過(guò)在色溫調(diào)整模塊中以非線性的方式,將兩種全局池化方法與Ghost卷積組合,補(bǔ)償了圖像像素的色彩失真,有效減少了輸入圖像的冗余特征,降低了模型的復(fù)雜度。并且利用動(dòng)態(tài)卷積自適應(yīng)地調(diào)整網(wǎng)絡(luò)參數(shù),將多色模型各自的優(yōu)勢(shì)對(duì)色彩進(jìn)行拉伸校正,進(jìn)一步減少色偏,增強(qiáng)了對(duì)比度。本模型主要通過(guò)在對(duì)像素值直接調(diào)整從而進(jìn)行水下圖像色彩的還原,所以本模型僅占用41 KB大小的存儲(chǔ)空間,有利于水下機(jī)器人的部署。在具有各種水下場(chǎng)景和水下生物圖像的數(shù)據(jù)集EUVP上進(jìn)行測(cè)試,本輕量化模型在PSNR和SSIM指標(biāo)上分別達(dá)到了24.298和0.891,表現(xiàn)均優(yōu)于基于非物理和物理模型的對(duì)比方法。對(duì)于Shallow-Uwnet和Water-Net兩種深度學(xué)習(xí)模型,本模型的計(jì)算量?jī)H各占兩者的0.27%和0.04%,同時(shí)在參數(shù)量上分別少了105和106的情況下,經(jīng)本模型增強(qiáng)后的圖像在SSIM指標(biāo)上分別比它們各提高了3.77%和6.72%。研究表明,本模型能在大幅度降低模型的參數(shù)量和復(fù)雜度的同時(shí),保證水下生物圖像的增強(qiáng)質(zhì)量,具有一定的實(shí)用價(jià)值,未來(lái)可進(jìn)一步優(yōu)化模型的性能和適用范圍,以更好地解決水下生物圖像復(fù)原中的挑戰(zhàn)。