陸地 陳偉 魏慶宇
摘? 要: 有纜水下機(jī)器人ROV是水下工程作業(yè)的重要工具,但由于不同水質(zhì)特性及水中散射折射的影響,ROV水下圖像普遍存在失真模糊、分辨率低等問題。為此構(gòu)建深度分離可變形卷積代替原始卷積,采用高效表達(dá)稀疏性的特征提取結(jié)構(gòu)實現(xiàn)對ROV水下目標(biāo)的特征提取;再運用多深度機(jī)制的改進(jìn)GAN網(wǎng)絡(luò)生成器和類似馬爾可夫架構(gòu)的判別器建立數(shù)據(jù)集,增強(qiáng)水下圖像;最后構(gòu)建多項損失函數(shù),提升網(wǎng)絡(luò)的泛化性能并實現(xiàn)對ROV目標(biāo)的快速檢測。水下實驗結(jié)果表明,該水下圖像增強(qiáng)方法提高了ROV目標(biāo)檢測精度,符合預(yù)期要求。
關(guān)鍵詞: 圖像增強(qiáng); 深度分離可變形; 多深度機(jī)制; 深度學(xué)習(xí)
中圖分類號:TP242.6? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ?文章編號:1006-8228(2023)04-05-06
Abstract: The cabled underwater robot ROV is an important tool for underwater engineering operations, but due to different water quality characteristics and the influence of scattered refraction in water, ROV underwater images generally have problems such as distortion blur and low resolution. To this end, depthwise separable and deformable convolution is constructed instead of the original convolution, and the feature extraction structure that efficiently expresses the sparsity is used to achieve feature extraction of the ROV underwater target. Then the improved GAN network generator with multi-depth mechanism and the discriminator similar to the Markov architecture are used to establish the data set to enhance the underwater image. Finally, a number of loss functions are constructed to improve the generalization performance of the network and realize the rapid detection of the ROV target. The results of underwater experiments show that the proposed ROV underwater image enhancement method improves the accuracy of ROV target detection, and meets the expected requirements.
Key words: image enhancement; depthwise separable and deformable; multi-depth mechanism; deep learning
0 引言
有纜水下機(jī)器人(Remotely operated submersible,ROV)廣泛應(yīng)用于漁業(yè)、軍事、水下工程等領(lǐng)域。ROV作為水下探索的重要裝備,具有穩(wěn)定性高,安全可靠等優(yōu)勢,可以代替潛水員進(jìn)行水下危險作業(yè)[1-2]。水下目標(biāo)檢測能力是衡量ROV的重要指標(biāo),然而由于水體環(huán)境復(fù)雜以及水下光的散射、折射現(xiàn)象,嚴(yán)重影響了ROV作業(yè)能力,因此ROV水下圖像增強(qiáng)方法研究是開發(fā)ROV的必要前提[3-5]。
目前,國內(nèi)外水下機(jī)器人圖像處理一般采用圖像增強(qiáng)和圖像恢復(fù)的方法。但是不同波長的光在水中衰減速率不同,會讓水下圖像產(chǎn)生不同程度的失真[6-8]。水中顆粒物的散射會使圖像產(chǎn)生模糊“霧化”現(xiàn)象,而深水處的弱光性也會使水下圖像對比度將低,這嚴(yán)重影響了水下圖像的真實性[9-11]。然而傳統(tǒng)的水下圖像處理方法往往達(dá)不到預(yù)期效果。
針對ROV在不同水環(huán)境的目標(biāo)檢測,可采用不同的水下圖像增強(qiáng)方法。例如針對水下圖像紋理細(xì)節(jié)發(fā)散,光照不均勻/失真、圖像對比度低相關(guān)問題,Peng[12]等提出了一種水下圖像光學(xué)成像自適應(yīng)優(yōu)化算法,能有效恢復(fù)水下圖像結(jié)構(gòu),但算法較復(fù)雜,實時性不夠好。Dong[13]提出SRCNN算法,用低分辨率的卷積神經(jīng)網(wǎng)絡(luò)(CNN)輸入,重建算法映射函數(shù)解決超分辨率重建問題,得到了高分辨率輸出。此后基于CNN網(wǎng)絡(luò)的圖像超分辨重建取得了重大進(jìn)展,卷積神經(jīng)網(wǎng)絡(luò)殘差模塊和生成對抗網(wǎng)絡(luò)的模型相繼被提出[14-15]。也有些用于特定條件下的特定的圖像復(fù)原算法,這些算法可以在特定的場景下對圖像復(fù)原起到不錯的效果,不過局限性稍差。Liu等提出一種錨定鄰域回歸和CNN相結(jié)合的圖像重建方法[16-17],重建效果得到了進(jìn)一步改善,其算法特別針對有效特征選取,提高了測試結(jié)果的準(zhǔn)確度,但這些水下圖像增強(qiáng)方法在顏色校正方面還有待提升。Gao[18]等提出了一種有效生成對抗網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)模型可以實時增強(qiáng)水下圖像。但是增強(qiáng)后的水下圖像會使顏色失真。
本文以實際ROV系統(tǒng)視覺感知為背景,基于深度學(xué)習(xí),研究適合水下作業(yè)環(huán)境的ROV目標(biāo)檢測方法。針對現(xiàn)有ROV水下圖像處理方法所存在的不足,提出一種基于可變形卷積對GAN(對抗網(wǎng)絡(luò))改進(jìn),將深度分離卷積與可變形卷積相融合,并且在生成器網(wǎng)絡(luò)中提出一種新的特征提取模塊,利用生成網(wǎng)絡(luò)學(xué)習(xí)退化水下圖像與清晰水下圖像間的映射關(guān)系,結(jié)合了殘差學(xué)習(xí)模塊多深度提取有效特征值,對圖像偏色來校正,恢復(fù)圖像輪廓細(xì)節(jié),判別對抗損失函數(shù),保留地面真實情況的圖像特征;使用頻譜歸一化穩(wěn)定判別器的訓(xùn)練,快速并入GAN訓(xùn)練中,進(jìn)而提高主觀和客觀視覺感受指標(biāo),最終通過建立數(shù)據(jù)集在真實水下環(huán)境對ROV實驗證明了該方法的有效性。
1 基于對抗網(wǎng)絡(luò)的ROV水下目標(biāo)檢測
1.1 基于可變形卷積對網(wǎng)絡(luò)的改進(jìn)
ROV采集的水下圖像上存在光斑映射與畸變發(fā)生,質(zhì)量往往不高,原有目標(biāo)檢測方法在使用時,檢測效果較差,目標(biāo)召回率低,檢測精度不高。傳統(tǒng)卷積遵循卷積核按固定路線平移的規(guī)則,池化層中池化比例固定,當(dāng)圖像發(fā)生形變時,依然會機(jī)械的按照固定軌跡進(jìn)行卷積運算,整個網(wǎng)絡(luò)運行效率過低??勺冃尉矸e為每個卷積核增加偏移變量,采樣區(qū)域更貼近檢測目標(biāo)的輪廓[19-20]。學(xué)習(xí)過程如圖1所示。首先根據(jù)輸入圖像數(shù)據(jù)信息,使用傳統(tǒng)卷積核進(jìn)行特征圖提取。接著對特征圖進(jìn)行卷積操作,結(jié)果作為可變形卷積核偏移量。然后根據(jù)卷積核與偏移量進(jìn)行卷積操作,此時,卷積核將根據(jù)偏移量進(jìn)行可變形卷積操作。ROV在運行目標(biāo)檢測時,需要較高的實時性,處理后的視頻幀數(shù)在30FPS以上才可滿足水下目標(biāo)實時檢測的需求??勺冃尉矸e的運用既增加網(wǎng)絡(luò)對復(fù)雜環(huán)境的適應(yīng)能力,提高目標(biāo)檢測準(zhǔn)確性,又可以降低網(wǎng)絡(luò)參數(shù),加快網(wǎng)絡(luò)運行速度。
1.2 特征提取結(jié)構(gòu)
為解決復(fù)雜環(huán)境下ROV進(jìn)行目標(biāo)實時檢測困難的問題。本文提出一種新的特征提取模塊,利用不同大小卷積核實現(xiàn)不同尺度的特征提取。如圖2所示。
該模塊加入了跳躍連接,增強(qiáng)了信息的傳遞,是一種高效表達(dá)特征的稀疏性結(jié)構(gòu)。充分利用圖像特征,其上一層的輸出可以直接為下一場的輸入;三條中間路徑的內(nèi)核大小不同,以便檢測不同比例的特征圖;引入1×1卷積,促進(jìn)了特征融合并提高了計算效率。其結(jié)構(gòu)如圖2所示,生成器模型負(fù)責(zé)生成圖片及其網(wǎng)絡(luò)結(jié)構(gòu)前面兩層編碼部分(卷積層)。第一層由64個5×5大小的卷積核組成,第二層由128個3×3大小的卷積核組成。卷積層后面跟隨了歸一化BN層。卷積層后的LReLU(Leaky-ReLU) 激活函數(shù)使得輸入映射到輸出。FEM(Feature extraction module)可以通過前層結(jié)構(gòu)獲得富余特征。而圖像重組部分則通過解碼部分完成。用雙曲正切函數(shù)Tanh來調(diào)配[-1,1]的傳入部分,并通過反卷積層映射到輸入通道數(shù)。
1.3 判別器網(wǎng)絡(luò)結(jié)構(gòu)
判別器包含五層,其結(jié)構(gòu)是基于馬爾科夫判別器的改進(jìn),第一層和最后一層沒有使用BN,第二、三、四層使用BN[19-20]。即BN-LReLU結(jié),網(wǎng)絡(luò)結(jié)構(gòu)如圖3。判別器網(wǎng)絡(luò)的輸入是生成器生成的圖像和參考圖像,輸出結(jié)果是16×16×1的補(bǔ)丁塊。如果判別結(jié)果為1,則說明生成結(jié)果與真實圖像相似。如果判別結(jié)果為0,則說明生成結(jié)果與真實圖像存在差異。由于補(bǔ)丁塊是與圖像局部進(jìn)行對比,所以減少了人為干擾。
對判別器進(jìn)行頻譜歸一化操作,使數(shù)據(jù)指標(biāo)之間具有可比性,由于判別器的利普希茨常數(shù)問題,使得判別器的訓(xùn)練穩(wěn)定性較差。而該過程類似于向量的歸一化操作,可以有效解決該問題。
2 ROV目標(biāo)檢測算法研究
2.1 特征提取
利用卷積層提取相關(guān)特征值,每層輸出特征值的計算公式為:
其中,O代表輸出特征圖的尺寸;n代表輸入特征圖的尺寸;k代表卷積核的尺寸;p代表零填充數(shù);s代表步長。當(dāng)s的值等于2時,該卷積操作相當(dāng)于步長為2的池化操作,得到的輸出特征圖尺寸為輸入特征圖尺寸的一半。網(wǎng)絡(luò)包括了生成器和判別器,GAN目標(biāo)函數(shù)為:
2.2 總損失函數(shù)
由于ROV獲取圖像質(zhì)量偏低,通過選定目標(biāo)函數(shù)引導(dǎo)生成器學(xué)習(xí)圖像增強(qiáng),判別器在和生成器不斷的對抗訓(xùn)練中選擇出與參考圖像相似的圖像。總損失函數(shù)為:
LWGAN-GP(G,D)是GAN損失函數(shù),LVGG(G)是生成圖像與處理圖像間的感知損失函數(shù),L1是真實圖像與生成圖像之間的結(jié)構(gòu)損失函數(shù)。在一般的GAN訓(xùn)練基礎(chǔ)上增加了抗擾能力。網(wǎng)絡(luò)結(jié)構(gòu)包含了多種損失函數(shù),L1使真實圖像與生成圖像之間的誤差最小化,把預(yù)處理圖像設(shè)定為偽真值,使感知損失下降。
2.3 對抗損失函數(shù)
對抗損失函數(shù)的作用是:使生成模型學(xué)習(xí)目標(biāo)樣本的數(shù)據(jù)分布。生成器和判別器的損失函數(shù)如下:
在網(wǎng)絡(luò)訓(xùn)練中不斷更新生成器和判別器的參數(shù),使其達(dá)到穩(wěn)態(tài)后,得到增強(qiáng)后的圖像。對GAN的重要特征及相應(yīng)標(biāo)準(zhǔn)產(chǎn)生了相應(yīng)的評判準(zhǔn)則,此評判指標(biāo)數(shù)越大,表示GAN訓(xùn)練的效果越好,反之越差。此時WGAN-GP損失函數(shù)可以表示為:
其中,[?x]為梯度,[λGP]為權(quán)重因子,[Ex~px]為樣本分布,PX為生成數(shù)據(jù)與真實數(shù)據(jù)之間的點對直線樣本。L1為絕對誤差損失,即生成圖像和真實圖像之間的損失。L1損失對于異常值的抗擾能力較強(qiáng),因此,引入L1損失,使生成圖像和真實圖像盡可能相似。其損失函數(shù)為:
3 實驗與分析
3.1 ROV實驗平臺
設(shè)計開發(fā)的20kg級ROV系統(tǒng)由水下運動部分和水上控制平臺兩大部分組成,水下運動部分搭載一部1080p低照度攝像機(jī),攝像頭能見度達(dá)三米直接與工控機(jī)相連,實時獲取水下及機(jī)體運行信息。水上控制平臺搭載一臺英偉達(dá)3080圖像處理器。ROV系統(tǒng)實物如圖4所示。
3.2 網(wǎng)絡(luò)訓(xùn)練
⑴ 數(shù)據(jù)集建立
基于深度學(xué)習(xí)的水下目標(biāo)檢測網(wǎng)絡(luò)需要使用數(shù)據(jù)集進(jìn)行訓(xùn)練,因此需事先準(zhǔn)備數(shù)據(jù)集進(jìn)行模型的訓(xùn)練與測試。以海參、海膽和貝殼為水下目標(biāo)檢測典型來構(gòu)建數(shù)據(jù)集。在URPC水產(chǎn)品數(shù)據(jù)集基礎(chǔ)上,使用爬蟲收集海參、海膽和貝殼圖片,后期通過人工篩選,擴(kuò)充數(shù)據(jù)集。準(zhǔn)備的數(shù)據(jù)集共分為三部分,第一部分為URPC水產(chǎn)品數(shù)據(jù)集,第二部分為收集的水下目標(biāo)陸地圖像,第三部分為復(fù)原處理后的URPC水產(chǎn)品數(shù)據(jù)集圖像,共9000張圖,部分?jǐn)?shù)據(jù)集如圖5所示。多種環(huán)境下的水下目標(biāo)圖像,有利于增加水下目標(biāo)檢測模型魯棒性,數(shù)據(jù)集中的8000張圖片作為訓(xùn)練集,1000張圖片作為測試集。使用圖片標(biāo)注工具LabelImge對每個圖像中的海參、海膽與貝殼進(jìn)行標(biāo)注,生成xml文件,記錄水下目標(biāo)所在位置與類別名稱等信息。
⑵ 訓(xùn)練細(xì)節(jié)
訓(xùn)練過程中,首先在[-1,1]之間進(jìn)行數(shù)據(jù)規(guī)范化處理。將用于進(jìn)行實驗的圖像的大小為256×256×3。初始學(xué)習(xí)率為0.0001,我們使用λg= 10,λ1= 60和LReLU(斜率為0.2)。用Adam算法進(jìn)行網(wǎng)絡(luò)優(yōu)化, Batch設(shè)置為16;使用TensorFlow架構(gòu)在GTX 1080 Ti上完成了網(wǎng)絡(luò)訓(xùn)練60個epoch。在生成器完成生成時,鑒別器將迭代五次。
3.3 水下圖像復(fù)原處理實驗
將改進(jìn)的水下圖像除水處理方法應(yīng)用于水下圖像數(shù)據(jù)集,得到的部分結(jié)果如圖6所示,上方為URPC水產(chǎn)品數(shù)據(jù)集原始圖像,下方為處理后的圖像。處理后的水下數(shù)據(jù)集圖像具有較好的觀感,同時保留物理成像特征,后期可進(jìn)行深度等信息提取。
ROV采集的原始圖像經(jīng)水下圖像復(fù)原處理方法優(yōu)化后,部分結(jié)果如圖7所示,上方為采集的原始水下視頻圖像,下方為處理后的視頻圖像。優(yōu)化后的視頻圖像具有更好的視覺效果,可以去除水下氣泡雜質(zhì)的干擾,增加對比度,還原圖像顏色,降低操作人員觀測水下環(huán)境圖像難度。
由圖6、圖7可以看出,水下圖像處理方法可以提高水下數(shù)據(jù)集和ROV采集的水下視頻圖像質(zhì)量。擴(kuò)充后的數(shù)據(jù)集可用于水下目標(biāo)檢測網(wǎng)絡(luò)訓(xùn)練,可使用處理后的水下視頻圖像作為檢測網(wǎng)絡(luò)輸入。同時,使用Xavier權(quán)重初始化方法,減少梯度消失問題,提升訓(xùn)練效率,保證訓(xùn)練成功率。
我們先后使用原始數(shù)據(jù)集與圖像處理擴(kuò)充后的數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò),檢測結(jié)果如表1所示。由表1實驗結(jié)果可知,在原始目標(biāo)檢測方法基礎(chǔ)上增加水下圖像復(fù)原處理方法,可有效提高ROV水下目標(biāo)檢測效果。最后通過人工水池實驗同時放入多個海參、海膽和扇貝,操作地面控制臺遙控 ROV進(jìn)行巡游,檢測結(jié)果如圖8所示。海參、海膽和扇貝水下目標(biāo)物各類數(shù)量較多,同類之間顏色、大小和形狀等方面存在差異性的情況下,水下攝像頭視野內(nèi)水下目標(biāo)物均可被 ROV 同時檢測到。即使水下目標(biāo)物尺寸較小且位于距離較遠(yuǎn)處,依然具有較好的檢測效果。
4 結(jié)論
為了提高水下機(jī)器人自主能力,對ROV圖像檢測方法進(jìn)行深入研究。提出了一種基于深度分離可變形卷積對GAN的改進(jìn),以及多深度對抗網(wǎng)絡(luò)下的圖像增強(qiáng)方法,提高了網(wǎng)絡(luò)的檢測速度、增加了檢測適應(yīng)性、提升了檢測精度。在生成器網(wǎng)絡(luò)加入FEM模塊來提升網(wǎng)絡(luò)性能,有效的減少了由于訓(xùn)練度過產(chǎn)生的過擬合現(xiàn)象。通過構(gòu)造損失函數(shù),搭建ROV實驗平臺,建立水下目標(biāo)數(shù)據(jù)集,通過網(wǎng)絡(luò)訓(xùn)練有效的增強(qiáng)了ROV水下目標(biāo)圖像質(zhì)量。最后通過實驗,選擇實驗參數(shù)與測試結(jié)果對比,將提出的圖像復(fù)原處理方法應(yīng)用在ROV水下目標(biāo)檢測上,ROV水上控制平臺顯示圖像與圖像數(shù)據(jù)集質(zhì)量得到明顯提升,水下目標(biāo)檢測效果相比之前有明顯改進(jìn),驗證了本文方法改進(jìn)的有效性。未來可進(jìn)一步優(yōu)化網(wǎng)絡(luò),減少其所需計算資源,在控制成本的同時加大應(yīng)用范圍。
參考文獻(xiàn)(References):
[1] Nomura K, Sugimura D, Hamamoto T. Underwater imagecolor correction using exposure-bracketing imaging[J]. IEEE Signal Processing Letters,2018,25(6):893-897
[2] Zhang H, Patel V M. Densely connected pyramid dehazing network[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Salt Lake City, Utah:IEEE,2018:3194-3203
[3] Chen X, Yu J, Wu Z. Temporally identity-aware SSD with attentional LSTM[J]. IEEE transactions on cybernetics, 2019,50(6):2674-2686
[4] Yang M, Hu K, Du Y, et al. Underwater image enhancement based on conditional generative adversarial network[J].Signal Processing:Image Communication,2020,81:115723.188-194
[5] Li C, Guo J, Guo C. Emerging from water: Underwater image color correction based on weakly supervised color transfer[J]. IEEE Signal processing letters,2018,25(3):323-327
[6] Wang Y, Zhang J, Cao Y, et al. A deep CNN method for underwater image enhancement[C]//2017 IEEE International Conference on Image Processing (ICIP). Beijing, China:IEEE,2017:1382-1386
[7] Zhuang P, Ding X. Underwater image enhancement using an edge-preserving filtering Retinex algorithm[J]. Multimedia Tools and Applications,2020,79(25):17257-17277
[8] Akkaynak D, Treibitz T. Sea-thru: A method for removing?water from underwater images[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. CA, USA: IEEE,2019:1682-1691
[9] Liu M Y, Breuel T, Kautz J. Unsupervised image-to-image translation networks[J]. Advances in neural information processing systems,2017,30:1579-1594
[10] Song W, Wang Y, Huang D, et al. Enhancement of?underwater images with statistical model of background light and optimization of transmission map[J]. IEEE Transactions on Broadcasting,2020,66(1):153-169
[11] Liu W, Anguelov D, Erhan D, et al. Ssd: Single shotmultibox detector[C] //European conference on computer vision. Springer, Cham,2016:21-37
[12] Peng Y T, Cosman P C. Underwater image restorationbased on image blurriness and light absorption[J]. IEEE transactions on image processing,2017,26(4):1579-1594
[13] Berman D, Levy D, Avidan S, et al. Underwater singleimage color restoration using haze-lines and a new quantitative dataset[J]. IEEE transactions on pattern analysis and machine intelligence,2020,43(8):2822-2837
[14] Van Noord N, Postma E. A learned representation of artist-specific colourisation[C]//Proceedings of the IEEE International Conference on Computer Vision Workshops. Hawaii,USA:IEEE,2017:2907-2915
[15] Berman D, Treibitz T, Avidan S. Diving into haze-lines:?Color restoration of underwater images[C]//Proc. British Machine Vision Conference (BMVC). London:IEEE,2017,1(2):88-95
[16] Yoon J, Shin M, Lee J Y, et al. RNA interference (RNAi)-based plasmonic nanomaterials for cancer diagnosis and therapy[J]. Journal of Controlled Release,2022:181-188
[17] Liu R, Fan X, Zhu M, et al. Real-world underwater enhancement: Challenges, benchmarks, and solutions under natural light[J]. IEEE Transactions on Circuits and Systems for Video Technology,2020,30(12): 4861-4875
[18] Gao S B, Zhang M, Zhao Q, et al. Underwater image enhancement using adaptive retinal mechanisms[J]. IEEE Transactions on Image Processing,2019,28(11): 5580-5595
[19] Dong H, Neekhara P, Wu C, et al. Unsupervised image-to-image translation with generative adversarial networks[J]. arXiv preprint arXiv:1701.02676,2017:108-115
[20] Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE international conference on computer vision. Hawaii,USA:IEEE,2017:2223-2232
*基金項目:常州市科技支撐計劃項目(CE20212025); 常州市國際科技合作項目(CZ20210013)
作者簡介:陸地(1995-),男,安徽省合肥人,碩士研究生,主要研究方向:水下機(jī)器人視覺。