彭小紅,梁子祥,張 軍,陳榮發(fā)
廣東海洋大學 數(shù)學與計算機學院,廣東 湛江524088
地球71%的面積都是海洋,海洋與地球上每個人的生活都息息相關。我國除了國土面積遼闊,更是擁有豐富的海洋資源,其中有6 500 多個島嶼,主要分布在渤海,黃海,東海,南海附近。我國是世界上海岸線最長的國家之一,大陸海岸線長約18 000 千米,島嶼海岸線長達14 000 千米,海岸線的總長度排在世界第四。200 海里的水域面積約有250 萬平方千米,位居世界第十,這都是世界性的優(yōu)勢[1]。隨著國家實力的日益增強,國際社會對海洋資源開發(fā)的不斷重視,在未來,各個國家之間對于海洋資源的競爭必然會越來越激烈。目前,深度學習已廣泛應用于水產養(yǎng)殖[2-4]、海洋資源勘測[5-7]以及海洋災害防治[8-9]等領域,同時水下圖像是海洋信息的一個重要載體,海洋資源的信息可以通過圖像進行展示,如何將深度學習技術應用到水下圖像中,成為一個至關重要的問題。
水下圖像的成像環(huán)境較陸地復雜,由于水中的浮游生物、懸浮顆粒以及光照條件差等因素的影響,水下圖像會呈現(xiàn)出對比度低、顏色失真、細節(jié)模糊等問題[10],因此對水下檢測任務提出了嚴峻的挑戰(zhàn),如何對水下圖像進行預處理成為了許多國內外學者迫切需要解決的問題。近些年,國內外有許多的學者對水下圖像預處理做過大量的研究,克服了水下圖像預處理中的種種技術難題,為水下圖像預處理技術的發(fā)展做出了顯著的貢獻。有一些學者已經對水下圖像預處理的相關技術進行了總結和歸納。林明星等[11]介紹了水下成像模型,以及水下圖像預處理的兩種方法:水下圖像復原和水下圖像增強,總結了這兩種方法的優(yōu)缺點,并對水下圖像處理技術的發(fā)展進行了展望。郭繼昌等[12]指出了水下圖像退化的原因,并總結了水下圖像增強和復原的相關算法,并通過實驗,對不同的算法之間進行比較。近年來,隨著深度學習研究的不斷發(fā)展,深度學習被越來越多的學者應用到水下圖像預處理領域,推動了水產養(yǎng)殖智能化,海洋資源勘測智能化以及海洋災害防治智能化的發(fā)展。本文將重點介紹基于深度學習的水下圖像預處理方法。
本文第1 章主要介紹水下圖像成像的過程并對水下圖像預處理方法進行分類。第2 章將傳統(tǒng)的水下預處理方法分為基于非物理模型的增強方法和基于物理模型的復原方法,并對這兩類方法進行介紹。第3章主要闡述深度學習在水下圖像預處理方面的研究應用進展,大致可以分為結合物理模型的方法和非物理模型的方法[13]。第4章主要介紹了深度學習方法的改進。第5章主要指出現(xiàn)有方法存在的問題,并對未來研究發(fā)展進行展望。
可見光具有選擇吸收性,可見光在水下傳播時,其中波長較長的紅光部分相較于藍光和綠光被海水吸收的更多,因此水下拍攝出來的圖像總是呈藍綠色,這樣就造成了顏色失真。另一方面,水下圖像的成像環(huán)境十分復雜,水體中漂浮著許多懸浮顆粒以及充滿了大量的浮游生物,光線經過懸浮顆粒的散射,進入成像系統(tǒng),會使得圖像的邊緣細節(jié)模糊。根據(jù)Jaffe-McGlamery的水下模型[14],水下圖像的成像過程如圖1 所示。水下圖像可以分為三個分量的線性組合,即直接衰減分量、前向散射分量和后向散射分量。直接衰減分量是經過目標物體反射而沒有發(fā)生散射直接進入相機的光;前向散射分量是經過目標物體反射,同時反射過程中由于水中懸浮顆粒的影響發(fā)生散射而進入到相機的光;后向散射分量是由周圍環(huán)境反射,并且發(fā)生散射而進入相機的光[15]。
圖1 水下成像過程
在真實的水下圖像拍攝過程中,通常相機與目標物體的間隔距離比較小,所以常忽略前向散射分量造成的影響,因此,得出水下成像模型[8]:
其中,Ic(x,y)表示的是相機捕捉到的水下圖像;Jc(x,y)表示的是原始的清晰水下圖像;tc(x,y)表示的是水下光傳輸率;Bc表示的是水下環(huán)境反射的光。則Jc(x,y)tc(x,y)代表了直接衰減分量,Bc(1-tc(x,y))代表了后向散射分量,同時,c∈{R,G,B} 代表了不同的顏色通道。
傳統(tǒng)的圖像預處理方法可以分為基于物理模型的復原方法和基于非物理模型的增強方法[16]。隨著深度學習的不斷發(fā)展,其在圖像預處理領域也發(fā)揮出了巨大的作用。根據(jù)是否與物理模型相結合,基于深度學習的水下圖像預處理劃分為兩類:一類結合了物理模型,將成像模型和數(shù)據(jù)驅動結合,實現(xiàn)了圖像的復原;一類是沒有結合物理模型,僅僅依靠數(shù)據(jù)驅動對圖像進行恢復。按照所采用的模型不同,結合物理模型的方法又可以分為基于卷積神經網絡(Convolutional Neural Networks,CNN)的方法和基于生成對抗網絡(Generative Adversarial Networks,GAN)的方法。同樣的,非物理模型的方法也可以分為基于CNN 的方法和基于GAN的方法。如圖2是水下圖像預處理方法分類圖。
圖2 水下圖像預處理方法分類圖
基于物理模型的復原方法,需要考慮圖像退化的過程。該方法需要對水下圖像的退化過程進行數(shù)學建模,并估計模型的參數(shù),即tc(x,y)和Bc,最后根據(jù)模型逆轉水下圖像的退化過程,得到清晰的水下圖像Jc(x,y)。將復原方法進一步細分,又可以分為基于先驗知識的方法、偏振成像方法和立體成像方法。基于先驗知識的方法也被認為是軟件的方法,該類方法投資成本低,并且易于使用[16]。偏振成像方法和立體成像方法屬于硬件的方法,利用硬件設備對水下圖像進行恢復,所用的硬件設備是傳感器、偏振器和立體成像設備。
2.1.1 基于先驗知識的方法
基于先驗知識的方法主要有暗通道先驗方法(Dark Channel Prior,DCP)以及DCP 算法的一些變體。DCP算法是一種基于Jaffe-McGlamery 模型的算法,由He等[17]人于2009年提出,該算法的目的在于準確地估計傳輸圖(Transmission Map,TM)和背景光(Background Light,BL)。DCP 算法一經提出便引起轟動,后續(xù)有許多研究人員在DCP 算法的基礎上進行改進[18-22]。除了DCP 算法,還有一些其他的算法被用于水下圖像的復原。Carlevaris 等[23]提出了最大強度先驗(Maxmum Intensity Prior,MIP)算法;Peng 等[24]提出了模糊先驗(Blurred Prior,BP)算法;Song 等[25]提出了水下光衰減先驗(Underwater Light Attenuation Prior,ULAP)算法,這些算法都可以準確地估計TM和BL。當先驗知識不準確時,基于先驗知識的方法往往會導致較大的估計誤差。水下圖像缺乏可靠的先驗知識,已經成為阻礙該方向研究的一大障礙。
2.1.2 偏振成像方法
偏振是指橫波的振動矢量偏于某些方向的現(xiàn)象,是光的固有屬性,它能提供比顏色和光強分布更具有價值的信息。通過在同一水下場景的不同偏振狀態(tài)下收集偏振圖像,水下偏振成像技術可以準確地估計偏振特征的反向散射光,因此在反相退化過程中,獲取背景散射光強度和透射系數(shù),提高圖像的清晰度。Schechner等[26]人首先使用偏振成像方法對水下圖像進行處理,后人在其基礎上也做了大量相關的研究和改進[27-32]。偏振成像方法可以在不計算環(huán)境參數(shù)或自然光的情況下恢復場景的結構信息,提高圖像的可見性,但對水下運動物體進行采集圖像信息時,很難采集到相同的偏振圖像。
2.1.3 立體成像方法
立體成像技術是在海床上放置立體攝像機來捕捉圖像。近年來,3D圖像技術發(fā)展迅速,但是使用立體圖像技術對水下圖像進行處理的研究還較少。Roser 等人[33]于2014 提出了用于自主水下航行器(Autonom-ous Underwater Vehicle,AUV)的立體成像方法,主要是通過估計能見度系數(shù)來恢復水下圖像。Lee等人[34]提出了一種利用立體霧日圖像提取去霧圖像的新方法,主要是通過計算散射系數(shù)和深度信息來估計水下圖像的TM。立體成像方法不需要先驗知識,也不需要在不同時間拍攝大量圖像,由于估計的視差層在遠景物中表現(xiàn)為不連續(xù)現(xiàn)象,無法獲得自然景物的結構信息。
三種復原方法其原理和屬性的不同,則其適用的場景也有所不同?;谙闰炛R的方法其成本低廉,算法簡單,但是需要估計大量參數(shù),這些參數(shù)會隨場景的變化而變化,因此可以嵌入至小型嵌入式設備中用于水產養(yǎng)殖監(jiān)控。偏振成像方法和立體成像方法需要特殊的硬件設備,因此成本較高,由于偏振成像方法難以采集到運動物體的相同偏振圖像,可以用于海底生態(tài)環(huán)境或者珊瑚群的監(jiān)控。立體成像方法不需要在不同時間拍攝大量圖像,可用于海洋軍事領域[33]。
水下圖像的增強方法不考慮圖像的成像過程,也無需考慮成像模型的一系列參數(shù),直接運用圖像處理的方法,通過主觀去調整圖像中的像素值,從而消除噪聲,改善邊緣模糊,加強目標物體的特征,削弱不相干環(huán)境特征對目標的影響。近年來,研究人員提出了許多水下圖像的增強方法,如直方圖均衡化方法、顏色校正方法、基于融合的方法等。
2.2.1 直方圖均衡化方法
直方圖表示圖像的色調分布。直方圖均衡化是一種典型的圖像增強方法,常被用來解決低對比度問題。Hummel[35]于1977年提出通過改變直方圖的分布來增強圖像,自此直方圖均衡化受到研究者廣泛關注。在其基礎上,Pizer 等[36]提出了自適應直方圖均衡化(Adaptive Histogram Equalization,AHE);Kim 等[37]提出了局部直方圖均衡化(Local Histogram Equalization,LHE);Reza等[38]提出了對比度受限自適應直方圖均衡化(Contrast Limited Adaptive Histogram Equalization,CLAHE),還有一些相關的演變算法[39-42]。直方圖均衡化方法雖然可以提高圖像的對比度,但是由于沒有考慮水下光學成像模型,會引入一些額外的噪聲。在需要提高對比度的場景下,可作為復原方法的后處理使用。
2.2.2 顏色校正方法
直方圖均衡化方法可以解決水下圖像對比度低的問題,但是不能解決顏色失真的問題,顏色校正方法中白平衡方法和Retinex 方法可以很好地解決該問題。白平衡方法的目的是為了消除可見光在水下的選擇吸收性而引起的色移,常見的方法有MaxRGB[43]、灰度世界假設[44]、自動白平衡[45]以及一些其他的方法[46-48]。Retinex 方法在1963 年就被提出,該方法模擬了人類視覺的感知機制,通過對場景中光照的估計,實現(xiàn)色彩的恒定。常見的方法有單尺度Retinex 算法(Single Scale Retinex,SSR)[49]、多尺度加權平均Retinex 算法(Multi-Scale Retinex,MSR)[50]、帶彩色恢復的多尺度Retinex算法(Multi-Scale Retinex with Color Restoration,MSRCR)[51]以及一些其他相關的方法[52-55]。
2.2.3 基于融合的方法
基于融合的方法采用融合策略將具有不同特征的圖像進行融合。Ancuti 等[56]首先提出融合的方法對水下圖像和視頻進行增強,該方法可以很好地解決顏色失真的問題和提高對比度。近年來,有許多研究者在其基礎上做了大量的改進[57-59]?;谌诤系姆椒ú捎枚喑叨热诤喜呗?,可以有效避免線性融合造成的暈影,從而增強圖像,但是該方法忽視了物理模型,在圖像的不同區(qū)域會造成過飽和的現(xiàn)象。
增強方法可以方便快速地提高水下圖像的視覺效果,但是由于沒有考慮物理模型,不能完全解決圖像的退化問題,噪聲、顏色失真、暈影的問題依舊存在。三種增強方法由于其原理不同,適用的場景也有所不同。直方圖均衡化方法常用在需要提高圖像對比度的場景,比如水下考古[60]。顏色校正方法可以很好地解決顏色失真的問題,常被應用在水下堤壩裂縫檢測[61]、河蟹[62]、海膽[63]等識別?;谌诤系姆椒梢员苊鈺炗暗漠a生,常被應用于水下機器人[64]以及海參[65]識別。
近些年來,深度學習方面的研究取得重大進展。由于深度學習強大的特征學習能力,常常被應用于各類視覺任務中,本章主要介紹基于深度學習的水下圖像預處理方法。根據(jù)是否與物理模型相結合,可以分為物理模型的深度學習方法和非物理模型的深度學習方法。
通常在特定的數(shù)據(jù)集中,基于深度學習的方法具有強大的學習能力,其性能優(yōu)于傳統(tǒng)的基于物理模型的方法。但是,當測試圖像和訓練圖像之間的域間隙較大時,性能會降低。此外,部分網絡缺乏物理模型的約束,網絡會生成意外的偽像,這對圖像質量和后續(xù)的視覺任務有害;另一方面,對于基于物理模型的方法,估計模型中的圖像衰減系數(shù)并非易事,其中神經網絡可能是推斷參數(shù)和學習潛在相關因素的重要工具。因此,將這些方法結合起來將具有顯著的效果。
3.1.1 CNN與物理模型相結合的方法
CNN模型最早是由日本學者福島邦彥于1982年提出[66-67]。經過多年的研究和發(fā)展,CNN模型逐漸發(fā)展成為深度學習的代表算法之一,常被應用于各類視覺任務之中。CNN 模型的主要結構是輸入層、卷積層、池化層、全連接層和輸出層。在輸入層輸入數(shù)據(jù),通過卷積層和池化層提取數(shù)據(jù)中的特征,最后在輸出層對不同特征進行分類輸出,從而實現(xiàn)不同任務[68]。
CNN結合物理模型的方法也被稱為基于CNN的復原方法。該方法主要是通過構建CNN 模型并訓練,在輸入層輸入一張水下圖像,輸出層輸出該水下圖像的TM和BL,將TM和BL代入至水下成像模型中,經過反演得到真實清晰的水下圖像。主要流程如圖3所示。
圖3 基于CNN的復原方法
傳統(tǒng)的物理模型方法常常要基于一些先驗知識,這種方法估計出來的TM以及BL會受到人為主觀因素的干擾,并不是十分準確。由CNN 網絡得出的TM 和BL具有更好的準確性,因此可以反演出更清晰真實的水下圖像。為了解決水下圖像顏色失真和霧化問題,Cao等人[69]提出了兩種神經網絡結構用以估計TM和BL,為了估計BL,采用了一個五層CNN,該網絡前三層是卷積層,具有5×5、5×5和3×3的篩選器大小,每個層具有2×2的池化層和規(guī)范化層,最后兩個圖層完全連接,并輸出BL。為了估計TM,提出了一個多比例架構,該架構堆疊了兩個深度網絡,分別是粗糙的全局網絡和精煉網絡。粗糙的全局網絡首先具有五個卷積層,前兩個卷積層具有2×2的池化層和規(guī)范化層,最后一個卷積層只有2×2的池化層。全局網絡的最后兩層是完全連接層,網絡的輸出與精煉網絡第一層的輸出進行串聯(lián)。精煉網絡有三個卷積層和一個上采樣層,最后一個卷積層之前放置一個上采樣層,期望上采樣要素圖,網絡的最終輸出是預測的TM。Cai 等[70]人提出了一種端到端的去霧模型(Dispel Haze Networks,DehazeNet),該模型以模糊圖像作為輸入,輸出TM,并通過大氣模型對水下圖像進行恢復。該模型采用了深層次的CNN 架構,并提出了一個新的非線性激活函數(shù),稱為雙側校正線性單元(Bilateral Rectified Linear Unit,BReLU),以提高模型的收斂性。
結合殘差學習,Hou等人[71]提出了水下殘差卷積神經網絡模型(Underwater Residual Convolutional Neural Neworks,URCNN)用于水下圖像復原。該網絡將水下圖像復原任務分為了TM學習和場景殘差學習,其模型結構包括了用于TM 估計的數(shù)據(jù)驅動殘差架構和用于水下照明平衡的知識驅動場景殘差公式。因此,該方法可以匯總先驗知識和數(shù)據(jù)信息,推測出潛在的水下圖像分布。將先驗知識和數(shù)據(jù)信息整合在一起,旨在學習精確的傳輸圖。在訓練過程中,采用殘差學習策略的制定和批次規(guī)范化以提高學習效果。最后基于灰度世界假設和多尺度局部最大飽和度的特征,提出了一種有效的照明平衡解決方案來矯正圖像顏色?;贑NN 的復原方法考慮了圖像的退化過程,使得模型更具解釋性,但同時也受到物理模型的限制,其魯棒性和適應性較差。
3.1.2 GAN與物理模型相結合的方法
GAN 被廣泛認為是近年來最重要的想法之一[72]。在2016 年,Yann LeCun 甚至說這是“近十年來機器學習中最有趣的想法”。GAN主要由兩個神經網絡組成:一個試圖生成看起來與訓練數(shù)據(jù)相似的數(shù)據(jù)的生成器,另一個試圖從虛假數(shù)據(jù)中分辨出真實數(shù)據(jù)的判別器。生成器和判別器之間相互博弈,生成器不斷生成與訓練數(shù)據(jù)相似的數(shù)據(jù)去“欺騙”判別器,判別器則判斷該數(shù)據(jù)的真假,如果無法欺騙判別器,則繼續(xù)訓練生成器,直至判別器無法辨別數(shù)據(jù)的真假。
GAN與物理模型相結合的方法也被稱為基于GAN的復原方法。該方法主要是將物理模型作為設計生成器的指導,通過生成器合成水下圖像,并將合成的水下圖像送入判別器中進行判斷,最終得到復原后的圖像,其主要流程如圖4所示。
圖4 基于GAN的復原方法
Li 等人[73]提出了一種基于學習的單目水下圖像顏色校正生成對抗模型(Water Generative Advsarial Networks,Water-GAN),該模型使用了兩階段策略來最終消除水下圖像中的顏色失真問題,并應用于水下巖石資源圖片的顏色處理。首先,WaterGAN將空中的RGB-D圖像和一組水下圖像樣本作為輸入,WaterGAN 的生成器具有三個主要階段,每個階段都是以水下圖像的物理形成過程進行建模:衰減(G-I)、散射(G-II)、相機模型(G-III),此結構的目的是確保生成的圖像與輸入的RGB-D圖像的基礎結構相同。通過生成器生成相應的合成水下圖像作為輸出。然后,將合成的水下圖像和水下圖像樣本都輸入到顏色校正網絡中對圖像色彩進行恢復。Lu 等人[74]提出使用多尺度循環(huán)生成對抗網絡(Multi-scale Cycle Generative Adversarial Networks,MCycleGAN)對水下圖像進行復原。該方法是將DCP算法與循環(huán)生成對抗網絡(Cycle Generative Adversarial Networks,CycleGAN)結合,首先通過DCP 算法得到圖像的TM,然后將TM送入到CycleGAN網絡中進行多尺度計算,通過結構相似性指標度量值(Structural Similarity Index Measure,SSIM)損失可以使輸入與輸出的圖像的內容與結構相似,得到更清晰的水下圖像。
由于有條件信息,條件生成對抗網絡(conditional Generative Adversarial Networks,cGAN)[75]比原始GAN具有更好的穩(wěn)定性和更強大的表示能力,尤其是對于生成逼真圖像的圖像增強和恢復任務而言。在cGAN 模型框架基礎下,Liu 等人[76]提出了一種用于水下圖像復原的新型物理模型集成網絡框架,并對水下ImageNet數(shù)據(jù)集中的魚類及潛水員圖片進行了處理,證明了該方法在實際應用中具有巨大發(fā)展前景。該框架基于Akkaynak-Treibitz物理模型[77]和最新的全局和局部特征融合網絡[78]進行設計,此網絡設計與當前現(xiàn)有的網絡明顯不同,Akkaynak-Treibitz 物理圖像退化模型被認為是設計生成器的指導,通過生成器網絡訓練學習圖像退化模型中的參數(shù)和系數(shù),以重建清晰的水下圖像,并將重建的水下圖像送入判別器中進行判別,最終輸出清晰的水下圖像。基于GAN的復原方法可以很好地恢復圖像的顏色特征,解決顏色失真的問題,但由于網絡體系結構復雜,訓練將耗費大量時間,實際使用時受到一定的限制。
水下環(huán)境十分復雜,不同的水域其水下環(huán)境都有所不同,傳統(tǒng)的基于物理模型的方法對不同水域的適應性極差。當深度學習與物理模型相結合時,會受到物理模型的約束,降低其適應性,非物理模型的深度學習方法則在適應性方面具有較好的表現(xiàn)。
3.2.1 非物理模型的CNN方法
非物理模型的CNN方法其主要核心是構建深度學習神經網絡框架和損失函數(shù),通過CNN 模型的強大學習能力,將相機捕獲到的原始水下圖像送入到網絡模型中,在輸出層輸出真實清晰的水下圖像。這種方法不需要建立數(shù)學模型,擺脫了各種先驗知識和前提條件的限制,通過CNN 模型直接學習原始水下圖像和真實水下圖像的直接映射關系。非物理模型的CNN方法也被稱為基于CNN的增強方法,其流程如圖5所示。
圖5 基于CNN的增強方法
Sun 等人[79]提出了一個具有編碼器-解碼器結構的卷積神經網絡(Encoder Decoder Alexnet,ED-Alex-net),ED-Alexnet 可以自發(fā)地學習低質量水下圖像和高質量水下圖像之間的映射規(guī)律,以端到端自適應的方式實現(xiàn)圖像增強,而不考慮物理環(huán)境。該模型是一個編碼解碼對稱的網絡,主要由兩個部分組成,分別是卷積層和去卷積層,卷積層作為編碼,而去卷積層作為解碼。在卷積層通過多對一的映射操作,過濾圖像的噪聲并保留了關鍵的特征,在去卷積層通過一對多的映射操作,恢復對應卷積層缺失的細節(jié)。Wang等人[80]提出了一個基于CNN的水下圖像增強網絡(Underwater Image Enhancement Networks,UIE-Net)。UIE-Net網絡主要由兩個子網絡組成,分別是顏色校正子網絡(Color Correction Networks,CC-Net)和去霧子網絡(Haze Removal Networks,HR-Net),該網絡利用像素中斷策略顯著提高了網絡的收斂速度,通過統(tǒng)一訓練的方式實現(xiàn)了水下圖像的顏色矯正和去霧。
一般情況下,很難獲取到清晰的水下圖像,為了使訓練能正常進行,通常采用合成的圖像,合成的圖像與真實圖像具有一定差別,所以此類方法具有一定局限性。Yeh等人[81]提出了一種基于色相保留的深度學習框架,該框架包含用于水下圖像顏色恢復的三個卷積神經網絡。首先,使用第一個CNN 網絡將輸入的水下圖像轉換為灰度圖像,再通過第二個CNN 網絡增強灰度水下圖像,然后通過第三個CNN 網絡對輸入的水下圖像進行顏色校正,最后通過色相保留對三個CNN 網絡的輸出進行融合,可以獲得色彩校正的圖像。用于水下圖像處理的CNN網絡其主要問題在于水下訓練圖像太少,并且缺少相應的地面真實圖像,因此其使用CycleGAN來訓練水下CNN網絡,該方法將三個CycleGAN組合在一起,可以同時訓練三個CNN 網絡,以共享回歸狀態(tài),使得三個CNN 網絡互相支持,從而避免訓練過擬合且沒有約束。基于CNN的增強方法的主要目標是忠于原始圖像,由于其完全依賴訓練數(shù)據(jù)的特點,當面對不同水域類型或退化程度的圖像時,性能會降低。
3.2.2 非物理模型的GAN方法
GAN 是一種數(shù)據(jù)驅動的訓練方式,如今常被應用于圖片生成和風格學習的任務中,在水下圖像預處理領域也有廣泛的應用。非物理模型的GAN方法也被稱為基于GAN的增強方法,其與基于GAN的復原方法的主要區(qū)別是生成器:基于GAN 的復原方法的生成器是由物理模型指導設計的,受到物理模型的限制,基于GAN的增強方法其生成器一般是編碼器-解碼器結構。其流程圖如圖6所示。
圖6 基于GAN的增強方法
水下環(huán)境復雜,獲取水下成對的圖像需要耗費大量的人力物力。Zhu 等人[82]基于端到端的思想,提出了CycleGAN 模型,該模型不需要配對數(shù)據(jù)即可進行訓練。對于水下圖像的增強任務,經過Fabbri等人[83]的實驗驗證,證明了CycleGAN在水下圖像的增強任務中是有效的,因此解決了模型需要成對數(shù)據(jù)訓練的難題。近年來,CycleGAN 已經被廣泛地應用于水下圖像預處理任務中。在CycleGAN 的基礎上,Han 等人[84]提出了一種端到端的螺旋生成對抗模型(Spiral Generative Adversarial Networks,Spiral-GAN),用于水下圖像增強任務以恢復水下圖像。該模型具有許多卷積-去卷積塊生成器,可以在原始的水下圖像中保留更多有意義的細節(jié)。同時還采用了由均方誤差和角度誤差組成的像素級損失函數(shù)來穩(wěn)定地訓練模型,以克服過度曝光不足問題和避免顏色失真。Liu等人[85]提出了一種基于深度殘差模型的水下圖像增強解決方法,與其他基于深度學習的增強方法不同,該方法專注于生成對抗網絡與弱監(jiān)督學習網絡之間的合作,旨在建立更深的網絡并改善水下圖像增強的性能。首先采取Cycle-GAN 網絡生成大約4 000 張合成的水下圖像,作為水下圖像增強的訓練集。其次,根據(jù)殘差學習的思想提出了水下殘差網絡(Underwater Residual networks,UResnet)用于水下圖像增強,同時提出了邊緣差損失[86](Edge Difference Loss,EDL)以提高深度學習網絡的細節(jié)增強能力。Li 等人[87]根據(jù)圖像到圖像轉換網絡的最新研究進展提出了一種弱監(jiān)督的顏色傳遞方法,以糾正顏色失真。該方法的目標是學習源域(即水下)和目標域(即空氣)之間的映射關系,模型包括了前向和后向兩個映射,以及兩個判別器。受CycleGAN 的啟發(fā),設計了一個多端損耗函數(shù),包括對抗性損耗、周期一致性損耗和結構相似性指數(shù)測量損耗,這使得輸出的內容和結構與輸入相同,同時輸出圖像的顏色與陸地拍攝的圖像顏色相似。
cGAN 比原始的GAN 具有更強的表示能力,也被研究人員應用于水下圖像的增強任務中。Yang 等人[88]提出了基于cGAN 的方法解決水下圖像增強問題,該方法的cGAN 網絡由多尺度生成器和雙重判別器組成,多尺度生成器包括多尺度特征提取單元、特征細化單元和殘差圖估計單元,可以生成清晰的水下圖像。雙重判別器包括了兩個子判別器,子判別器的網絡結構相同但權值不同,目的是使判別器能夠引導生成器生成全局語義級別和局部細節(jié)級別的真實圖像。在訓練階段,將一批水下圖像輸入到多尺度生成器中可以輸出相應的殘差圖,殘差圖添加至輸入的水下圖像后,可以獲得潛在的清晰圖像。將結果送至雙重判別器,然后判別器在不同的尺度下判斷生成的結果是真還是假。在推斷階段,通過多尺度生成器以端到端的方式增強輸入的水下圖像?;贕AN 的增強方法的主要目標是提高圖像的感知質量,但由于未考慮水下圖像退化過程,所以不能完全恢復圖像的一些物理特征,噪聲可能依舊存在。
傳統(tǒng)算法及深度學習算法比較見如表1所示。
表1 各種算法比較
深度學習方法為了提高水下圖像的恢復質量,不斷增加模型深度,WaterGAN[73]可以很好地復原圖像,解決顏色失真問題,但其網絡深度有42 層,模型結構復雜。該類方法在實驗室取得了令人矚目的成績,但在實際應用中受到了一定的限制。小型嵌入式設備計算能力有限,但在實際應用中更為廣泛,因此輕量化的深度學習方法也是研究的一大熱點之一。
結合物理模型,Li等人[89]提出了水下圖像增強卷積神經網絡模型(Uderwater Convolutional Neural Neworks,UWCNN),該模型網絡深度有10層,同時采用塊結構和殘差學習策略,可以有效地復原圖像。候岷君[90]提出了一種數(shù)據(jù)與先驗聚合的傳輸網絡(Data-and-Prior-Aggregated Transmission Networks,DPAT-N),該網絡利用了特定領域知識,從而獲得更準確的TM,且該網絡深度只有6層,是一個輕量級的模型。
不結合物理模型,F(xiàn)u 等人[91]提出了全局-本地網絡(Global-Local Networks,GLNet),該模型網絡深度只有4層,與壓縮直方圖均衡化配合使用,可以有效地恢復水下圖像。Sun等人[92]提出了像素到像素網絡(Pixel to Pixel Networks,P2PNet),該模型網絡深度有6 層,并采用了編碼器-解碼器的體系結構對水下圖像進行增強。Fabbri等人[83]提出了一種水下生成對抗網絡(Underwater Generative Adversarial Networks,UGAN),該模型的網絡深度為9層,其生成器受CycleGAN啟發(fā)設計,判別器是完全卷積的。Li 等[93]人提出了融合生成對抗網絡(Fusion Generative Adversarial Networks,F(xiàn)GAN),該模型的網絡深度有8 層,可以接受多個輸入,并將其通過同一個網絡的不同分支,其生成器是基本的塊結構,判別器由采用頻譜歸一化的卷積層組成。
輕量化算法比較如表2所示。
表2 輕量化算法比較
盡管現(xiàn)在深度學習的方法已經取得了較好的成果,但在實際情況中,這些方法的適應性和魯棒性仍有很大的欠缺。由先驗驅動的水下圖像增強模型需要特定的領域知識,當其假設在該場景不匹配時,該方法可能會失效,另一方面,純數(shù)據(jù)驅動的深度學習方法,其網絡的性能與訓練數(shù)據(jù)的質量和數(shù)量緊密相連,由于完全依靠數(shù)據(jù)驅動,當訓練圖像和測試圖像的域間隙較大時,模型將在不同色偏,渾濁度的圖像上失敗。目前對深度學習方法魯棒性和適應性改進的研究比較少,主要有兩個改進方向:一是通過改進網絡的結構,使模型能夠適應各種水下環(huán)境;二是采用覆蓋面更廣的訓練集。
改進網絡結構的方法主要有兩種方式,一種是采用編碼器-解碼器結構,利用編碼器學習與海水類型無關的圖像特征,解碼器通過這些特征還原清晰的水下圖像。Chen 等人[94]提出了一種基于GAN 的復原方案(GANRecovery Scheme,GAN-RS),該方法的生成器采用了編碼器-解碼器結構,并開發(fā)了一個包括對抗分支和批評分支的多分支判別器,以同時去除水下噪聲和保持圖像內容,為了訓練批評分支還提出了水下索引損失函數(shù)。除了對抗學習,通過一種新穎的暗通道先驗損失也促使了生成器產生更真實的圖像。張墨華[95]提出了一種判別式學習的水下圖像復原模型,稱為URM_AEDN,該模型基于結合對抗學習的編碼器-解碼器網絡,采用了監(jiān)督學習的方式。URM_AEDN 網絡由三部分組成:編碼器、解碼器、判別器。編碼器提取圖像特征,解碼器根據(jù)特征復原圖像,判別器判別海水類型,編碼器與判別器互相博弈進化,最終達到均衡。另一種是采用域自適應機制,通過將測試的水下圖像和訓練的數(shù)據(jù)集特征相結合,消除訓練圖像和測試圖像之間的域間隙,提高模型的魯棒性和適應性。Zhou 等人[96]提出了一種基于物理模型的反饋控制和域自適應機制的魯棒對抗學習模型,該模型將物理模型和GAN 網絡結合。通過域自適應機制消除測試圖像和訓練圖像的域間隙,滿足魯棒性和適應性的要求,再通過反饋控制控制GAN的訓練,使得復原的圖像在物理上是正確的。域自適應機制可以很好地提高模型魯棒性,但由于其復雜性,往往不滿足輕量化的要求,Zhou等人[96]提出的方法其網絡深度有29 層,在實際應用中具有一定局限。編碼器-解碼器結構不失為一種很好的選擇,既滿足魯棒性和適應性的要求,又符合輕量化的要求,實際應用中使用的較為廣泛。
采用覆蓋面更廣的訓練集,模型可以學習不同類型水域的特征,從而以提高模型的魯棒性和適應性。Li等人[89]提出將水下成像模型與水下場景的光學特征相結合,合成涵蓋了不同水域類型和退化水平的水下圖像退化數(shù)據(jù)集,通過該數(shù)據(jù)集訓練輕量化模型UWCNN,通過在現(xiàn)實世界的水下圖像和視頻上進行實驗表明,該方法可以很好地推廣到不同水下場景。張墨華[95]通過水下圖像生成模型合成包含十種類型的水下圖像數(shù)據(jù)集,并使用該數(shù)據(jù)集訓練URM_AEDN模型,以提高模型魯棒性。想要獲取大量的不同水域類型及退化水平的真實水下圖像十分困難,所以一般采用物理模型合成水下圖像,但合成的圖像和真實圖像往往具有一定差異,會對模型性能造成一定影響。
隨著國家對海洋資源的重視,水下圖像預處理技術在海洋資源開發(fā),水產養(yǎng)殖以及海洋災害防治領域顯得越發(fā)重要,受到國內外許多學者的廣泛關注。深度學習經過多年的研究發(fā)展,在水下圖像預處理領域中已經取得巨大進步,本文對現(xiàn)有基于深度學習的水下圖像預處理方法進行了總結和歸納,并重點分析了這些方法的優(yōu)缺點,還介紹了深度學習方法的相關改進。深度學習雖然在水下圖像預處理領域中理論方面取得了巨大的進步,但是在水產養(yǎng)殖,海洋資源開發(fā)等實際應用情況下,依舊存在一些問題需要解決:
(1)提高水下圖像預處理方法的實時性?;谏疃葘W習的水下圖像預處理方法往往網絡結構復雜,需要耗費大量的時間進行計算,無法保證預處理的實時性,因此需要在保證預處理的效果的同時簡化模型,設計一個高效的深度學習模型是未來的一大研究方向。
(2)提高水下圖像預處理方法的魯棒性和適應性。水下環(huán)境復雜多變,現(xiàn)有的方法不具備很好的魯棒性和適應性,大部分預處理方法僅對某一類水下環(huán)境有效,無法對不同的水下環(huán)境做出自適應的調整,因此如何提高水下圖像預處理方法的魯棒性和適應性,還需要進一步的研究。
(3)深度學習需要與物理模型進行結合?,F(xiàn)在大部分深度學習的方法沒有結合物理模型,只是在視覺上對圖像進行了增強,不能很好地反應真實水下環(huán)境。因此,深度學習需要和物理模型進行結合,才能復原真實原始的水下圖像。深度學習與物理模型結合的方法,往往會受到物理模型的限制,因此如何設計一個合理的物理模型也是一大難題。
(4)建立預處理和識別一體化模型。水下圖像預處理的目的是提高水下目標識別的準確率,因此,將水下圖像預處理方法和水下目標識別方法結合,滿足了實用性的要求。
(5)降低水下圖像預處理模型的復雜度?,F(xiàn)有的水下圖像預處理模型比較復雜,在水產養(yǎng)殖監(jiān)控和海洋資源勘探等情形下,往往要將復雜的模型載入一些小型的嵌入式設備,這些小型嵌入式設備的運算處理能力較弱,因此無法裝載復雜度較高的模型。如何保證預處理效果的前提下,降低模型復雜度,是未來科研人員需要解決的一大難題。