徐慧芳,黃冬梅,賀琪,杜艷玲,覃學標,時帥,胡安鐸
(1.上海海洋大學 信息學院,上海 201306;2.上海建橋?qū)W院 信息技術學院,上海 201306;3.上海電力大學,上海 201306;4.上海電力大學 國際交流與合作處,上海 201306)
海洋鋒作為海洋中不同水系或水團之間的狹窄過渡帶,是海洋中最具代表性的中尺度動力過程之一。在形成海洋鋒面的水團中,溫度、鹽度、營養(yǎng)鹽、水色等水文要素會發(fā)生劇烈變化,因此可以用溫度、鹽度、密度、水色、葉綠素等要素的水平梯度來描述海洋鋒。根據(jù)要素不同,分別記作溫度鋒、鹽度鋒、水色鋒、營養(yǎng)物質(zhì)鋒等,而海表溫度鋒(Sea Surface Temperatures Front,SSTF)是海洋鋒的重要表現(xiàn)形式,常用來研究海洋鋒[1]。在海洋鋒區(qū),由不同水體攜運的營養(yǎng)鹽類在鋒區(qū)較為豐富,常有浮游植物在此大量繁殖,這為浮游動物和魚類提供了充足的餌料,而海洋鋒區(qū)的浮游生物富聚為深遠海海上風電的合理規(guī)劃及選址提供了重要的指導意義[2-3]。此外,有專家指出臺風路徑的形成與海洋鋒面有很大關系[4]。因此,研究中尺度海洋鋒的檢測及變化,對海洋物理生態(tài)環(huán)境變化、漁業(yè)資源評估、漁情預報、軍事及臺風路徑的預測、深遠海風電等均有重要意義,這已成為物理海洋學以及海洋交叉學科中的重要課題之一[5-6]。
自20 世紀70 年代以來,海洋鋒的檢測研究已取得了很大進展。在海洋鋒檢測任務中,人們常利用SST 遙感影像檢測海洋鋒,旨在從影像中提取海溫過渡帶和鋒線。目前,傳統(tǒng)檢測海洋鋒的方法集中在梯度閾值法及邊緣檢測算法,基于梯度閾值法的海洋鋒檢測,閾值的選擇標準不統(tǒng)一,且依賴于人為設定,主觀性強,無法滿足對復雜多樣的海洋鋒的準確檢測;基于傳統(tǒng)邊緣檢測方法的常用算法主要有Canny 算子、sobel 算子等,這些算子較適用于有固定邊緣(如陸地等)的物體檢測[7]。由于海洋鋒是SST 遙感影像中的小目標實體,邊緣信息不明顯、多變、對比度不強,呈現(xiàn)弱邊緣性,使用傳統(tǒng)的邊緣檢測算法使得海洋鋒的漏檢及誤檢率高[8-11]。小波理論作為一種非平穩(wěn)信號的時間-尺度分析手段,被廣泛用于海洋鋒的檢測,其核心思想是基于多尺度分析,大尺度能夠提取出信號邊緣信息,抗干擾性較強,但邊緣的定位精度較差,小尺度影像邊緣定位較準確,但噪聲較大[12]。
隨著深度學習研究的不斷深入,卷積神經(jīng)網(wǎng)絡(CNN)和R-CNN 在圖像識別、語音識別、目標識別等各種場景上取得了巨大的成功。多種融合深度學習的海洋鋒檢測方法也相繼被提出,并取得了較高的檢測精度[13-15]。在CNN 基礎上,He 等提出的Mask R-CNN 網(wǎng)絡實現(xiàn)了對圖像的像素級實例分割[16]。歐攀等利用Mask RCNN 算法對RGB 圖像上的目標進行識別與分割,通過對目標物體進行三維建模,實現(xiàn)對目標的準確定位[17]。胡炎等融合深度學習研究多尺度SAR 艦船目標檢測,實現(xiàn)艦船的高效識別[18]。Deng 等基于CNN 提出了一種的渦旋檢測方法,將傳統(tǒng)渦旋檢測問題轉化為一種二分類問題,最終實現(xiàn)中尺度渦旋的高精度識別[19]。Estanislau 等將CNN 應用到海洋鋒識別過程中,針對海洋鋒的數(shù)據(jù)集匱乏問題,提出一種遷移式的神經(jīng)網(wǎng)絡,可以有效識別出目標海域中是否存在海洋鋒[13]。Sun 等提出了海洋鋒檢測和細粒度位置的多尺度檢測框架[20]。考慮到AlexNet、CaffeNet、Goog LeNet 和VGGNet 等深度網(wǎng)絡在有限的訓練數(shù)據(jù)下容易出現(xiàn)過擬合的實際情況,Lima 等在前期研究基礎上提出一種微調(diào)的神經(jīng)網(wǎng)絡,用于海洋鋒的檢測[21]。針對海洋鋒面的弱邊緣性,Li 等基于CNN提出了一種海洋鋒識別網(wǎng)絡,該網(wǎng)絡將每階段卷積后的特征進行融合,并使用二元交叉熵損失函數(shù)和IoU 損失函數(shù),修正模型誤差,最終識別出更精確的海洋鋒[22]。曹維東等基于Mask R-CNN 提出一種自動化識別海洋鋒的方法,該方法在對海洋鋒進行像素級的識別基礎上,基于閾值法對鋒面識別結果進行精細化調(diào)整,得出了較好的海洋鋒識別結果[14]。Xu 等針對海洋鋒數(shù)據(jù)量小、弱邊緣性等自身特性,將一種改進的Mask R-CNN 網(wǎng)絡應用于海洋鋒的檢測,通過多次迭代訓練及參數(shù)修正,實現(xiàn)了海洋鋒的高精度檢測[23]。
基于深度學習的目標檢測,目標特征的有效表達和提取是提高目標檢測的關鍵。隨著SENet(Squeeze and Excitation Net)新型網(wǎng)絡的提出,SE(Squeeze and Excitation)被廣泛應用于基于深度學習的目標檢測任務,它通過采用一種全新的“特征重標定”策略對每個通道的重要程度進行評估,增強特征提取效果[24]。Roy 等基于SE 模塊提出了一種新型的scSE 模塊,用于目標的檢測,實驗結果表明在實際檢測分割任務中,scSE 模塊的性能明顯優(yōu)于SE 模塊[25]。Lee 等提出了一種空間注意力引導的Mask 分割方法,提升網(wǎng)絡對圖像中重要特征的關注度,增強目標特征的提取[26]。
基于SST 遙感影像提取海洋鋒線信息屬于海洋要素場高頻信息的提取,使用傳統(tǒng)方法和一般的融合深度學習的方法難度很大,且難以達到理想的檢測效果。受scSE 注意力機制的啟發(fā),本文基于Mask R-CNN 提出一種注意力引導的海洋鋒檢測方法,通過加權策略提升網(wǎng)絡對重要通道特征和重要空間位置特征的關注度,增強目標特征的提取效果,從而提高模型的檢測精度;并通過引入優(yōu)化損失函數(shù),提高海洋鋒目標邊緣定位準確率。最后,為驗證本文算法檢測性能,構建不同數(shù)據(jù)集,并設計多組對比實驗,不斷修正模型參數(shù)及優(yōu)化損失函數(shù),提高海洋鋒檢測精度。
Mask R-CNN 是一種典型的二階段目標檢測網(wǎng)絡,由Backbone、RPN(Region proposal network)、ROIAlign 和Classifier 四部分組成,網(wǎng)絡結構如圖1所示[16]。Backbone 作為Mask R-CNN 的骨干網(wǎng)絡,由殘差網(wǎng)絡(Residual network,ResNet)和特征金字塔網(wǎng)絡(Feature pyramid network,F(xiàn)PN) 組成,用于提取輸入圖像的特征;RPN 用于生成候選區(qū)域(Region proposal),并對每個特征區(qū)域進行類別可能性判斷和回歸;ROIAlign 用于收集圖像特征和候選區(qū)域特征,作為后續(xù)全連接層的輸入,而后進行目標類別判定;Classifier 通過計算候選區(qū)域類別,再次進行框回歸,精確定位檢測框,并為目標生成掩碼。
圖1 Mask R-CNN 網(wǎng)絡結構圖
scSE 注意力模塊作為一種突出目標特征和抑制噪聲的重要手段,是空間壓縮通道激勵模塊(Channel Squeeze and Spatial Excitation,sSE)和通道壓縮空間激勵模塊(Spatial Squeeze and Channel Excitation,cSE)的并行組合[25]。通過計算特征圖通道和空間特征的重要性程度,增強網(wǎng)絡對特征圖中重要通道和空間特征的學習能力,優(yōu)化目標檢測效果。scSE 注意力模塊對于輸入的特征圖,首先進行空間特征的壓縮,根據(jù)各通道之間的依賴關系對特征圖進行調(diào)整,并通過全局池化及歸一化操作后計算各通道的重要性,提高網(wǎng)絡對重要通道特征的學習能力。其次,壓縮特征圖的通道特征,經(jīng)過歸一化操作計算特征圖中各個位置的空間信息重要性,增強重要空間位置特征?;谏鲜雒枋?,將得到的同時具有重要通道特征和重要空間特征的特征子圖進行更強的激勵,引導網(wǎng)絡在訓練過程中對目標重要特征的學習。具體算法步驟如下:
輸入:特征圖U= [u1,u2,…,uc];
輸出:具有高重要性的特征子圖U′= [u′1,u′2,…,u′c]。
海洋鋒作為SST 影像中的弱邊緣小目標,經(jīng)過多次卷積和池化操作后,大量的小目標特征信息易被丟棄,導致檢測結果存在較多的錯檢和漏檢。針對此問題,對Mask R-CNN 中的特征提取網(wǎng)絡結構進行改進,設計scSE 注意力模塊引導的特征提取網(wǎng)絡,提升網(wǎng)絡的特征提取效果;此外,針對實例分割時目標邊緣定位不準確的問題,引入IoU boundary loss 構建新的Mask 損失函數(shù),提高邊界檢測精度。
1.3.1 scSE 模塊嵌入設計 Resnet-50 與Resnet-101 作為Mask R-CNN 常用的殘差網(wǎng)絡,其網(wǎng)絡的深度對海洋鋒檢測效果具有很大的影響。深層殘差網(wǎng)絡在有限的訓練數(shù)據(jù)下容易出現(xiàn)過擬合,目標檢測效果差。因此,文中選用淺層的Resnet-50 網(wǎng)絡提取特征,并將scSE 注意力模塊嵌入Resnet 網(wǎng)絡中,通過加權策略提升網(wǎng)絡對海洋鋒重要特征的關注度,增強骨干網(wǎng)絡對重要的空間和通道特征的表征能力,并有效緩解淺層網(wǎng)絡對復雜高層特征提取效果差的問題,融合scSE 模塊的網(wǎng)絡結構如圖2 所示。
圖2 融合scSE 空間注意力模塊的Mask R-CNN 網(wǎng)絡結構圖
1.3.2 損失函數(shù)的優(yōu)化設計 在深度學習中,損失函數(shù)是衡量一個模型學習能力強弱的重要指標,它代表著真實值與預測值的差異。傳統(tǒng)的Mask RCNN 網(wǎng)絡的損失函數(shù)由分類誤差(Lcls)、回歸框誤差(Lbox)和掩膜誤差(Lmask)3 部分組成,其公式如下:
Lcls使用Softmax 損失函數(shù)計算目標的分類概率,Lbox使用SmoothL1函數(shù)計算邊框損失,公式如下:
式中:x 為輸入值。在進行檢測任務時,網(wǎng)絡輸出每類對象的mask,Lmask為所有像素平均二值交叉熵(Binary crossentropy)損失函數(shù),計算公式如下:
在海洋鋒檢測的任務中,利用LabelMe 軟件進行實際目標標注時,僅關注海洋鋒的邊緣信息就能很好地表征目標對象,因此邊緣信息對于海洋鋒檢測十分重要。原始Mask R-CNN 損失函數(shù)依賴于區(qū)域信息,造成邊緣信息的檢測不準確。針對此問題,本文對Lmask進行優(yōu)化,引入IoU boundary loss構建新的Mask 損失函數(shù),通過提取Mask 掩碼的邊界像素,計算真實Mask 邊界與預測Mask 邊界的重合情況[28],記為Lboundary:
式中:|Cj|表示真實Mask 邊界像素強度之和,||表示預測Mask 邊界像素強度之和。優(yōu)化后Mask 部分的損失函數(shù)記為Lmask-boundary:
式中:y 表示二值化后的實際輸出,y^表示二值化后的預測輸出。
本文在TensorFlow-keras 深度學習框架下,融合scSE 空間注意力模塊構建了一種改進Mask RCNN 的海洋鋒自動檢測模型。根據(jù)海洋鋒邊緣信息的強弱不同,本文將海洋鋒預先劃分為2 類,分別記為Sfront 和Wfront,Sfront 表示強海洋鋒,Wfront 表示弱海洋鋒。其中,參考專家經(jīng)驗將鋒面兩側溫度差為3~6 ℃,水平溫度梯度在1.5~3 ℃/km區(qū)間視為強鋒;將鋒面兩側溫度差為1~3 ℃,水平溫度梯度在0.1~1.5 ℃/km 區(qū)間視為弱鋒[29-30]。
充足的訓練樣本是基于深度學習的海洋鋒檢測的基礎,海洋鋒作為SST 遙感影像上的小尺度、弱邊緣目標檢測對象,構建充足有效的訓練數(shù)據(jù)集成本高、難度大,尤其在海洋鋒面的邊緣信息多變且不明顯的弱海洋鋒區(qū)域,數(shù)據(jù)集構建難度更大。針對此問題,本文收集全球海洋鋒多發(fā)地SST 影像(文中選取海洋鋒聚集多發(fā)的墨西哥灣及加利福尼亞灣影像),如圖3(a)所示,分別進行有效擴增和特征增強處理。根據(jù)海洋鋒的呈現(xiàn)形式,對含有海洋鋒的遙感影像進行旋轉、翻轉及批量裁剪的擴充和基于CLAHE(Contrast Limited Adaptive Histogram Equalization) 算法的特征增強處理,得到2010—2020 年2100 景的紅外與微波融合的SST 增強遙感影像,如圖3(b)所示;紅外波段數(shù)據(jù)來自Terra 和Aqua 衛(wèi)星的MODIS 數(shù)據(jù),微波波段數(shù)據(jù)來自AMSR-E 和AMSR2 傳感器,數(shù)據(jù)空間分辨率為9 km,時間分辨率為1d;為驗證不同數(shù)據(jù)對模型性能的影響,文中計算增強影像的灰度影像和梯度影像,如圖3(c)、(d)所示。
圖3 數(shù)據(jù)集
數(shù)據(jù)集建立完成后,使用LabelMe 軟件按照COCO(Common Objects in Context)數(shù)據(jù)集的格式對三種數(shù)據(jù)集分別進行標注,并盡量將連續(xù)的鋒區(qū)劃為一體,圖4 為標注示例圖。標注完成后,使用本文提出的融合scSE 注意力的Mask R-CNN 網(wǎng)絡分別進行訓練。為滿足訓練與測試要求,將75%樣本作為訓練集(train set) 用于模型的訓練,25%作為測試集(test set),用來評估訓練后模型的泛化誤差。
圖4 標注示例圖
為滿足海洋鋒檢測精度的需求,首先將COCO數(shù)據(jù)集訓練好的通用圖像分類網(wǎng)絡模型作為預訓練模型,COCO 數(shù)據(jù)集是一個含有328 000 景影像及2 500 000 個標簽的大型數(shù)據(jù)集,常作為目標檢測、物體分割等識別模型的預訓練數(shù)據(jù)集;并利用構建好的三種訓練數(shù)據(jù)集,對預訓練好的模型進行多次迭代訓練及參數(shù)調(diào)整(表1)。批量大小(batch_size)設置為16、32、64、128;學習率(Learning rate)設置為0.01、0.001、0.0001;1000×n 表示模型的迭代次數(shù),1≤n≤30。通過不斷調(diào)整模型訓練時的batch_size、Learning rate 及迭代次數(shù)三個參數(shù),根據(jù)海洋鋒的檢測效果,選擇最優(yōu)的參數(shù)組合。
表1 模型的參數(shù)設置
準確率(Accuracy)反映了檢測模型對所有目標類別的檢測性能,是模型預測正確的個數(shù)和所有預測個數(shù)的比值。而在實際檢測任務中,研究者更關注檢測目標的檢測結果。為客觀、全面地評價網(wǎng)絡模型,文中選用平均精確度mAP(Mean Average Precision)值和IoU(Intersection-over-union)值對模型的整體性能進行評估。mAP 是預測多個目標類別的平均查準率,通過精確率(Precision,P),召回率(Recall,R)計算得出,以P 為縱坐標,R為橫坐標,繪制P-R(Presicion-recall) 曲線,mAP 則為多類別P-R 曲線下的面積平均值。P 為檢測出的實際目標數(shù)與檢測出的樣本總數(shù)之比,R為檢測出的實際目標數(shù)與樣本中實際目標總數(shù)之比。公式如下:
式中:TP 表示實際目標圖像被正確檢測出來的樣本個數(shù);FP 為不是實際目標圖像,卻被檢測為目標圖像的樣本個數(shù);FN 為實際目標圖像中未檢測出來的樣本個數(shù);C 為目標種類個數(shù)。
在大多數(shù)的目標檢測任務中,mAP 可以很好地表征模型的檢測性能,無法對目標的位置進行有效評估。針對此問題,文中選用交并比(Intersection-over-union)指標對Mask 掩碼位置進行評估。IoU 是用來衡量真實目標框與實際檢測目標框差異的參數(shù),真實目標框和實際檢測目標框分別記作A和B,即用來表示實際檢測目標框與真實海洋鋒的重合情況,IoU=1 表示完全重合,IoU= 0 表示無任何交集,其公式為:
經(jīng)過多次參數(shù)調(diào)整訓練,文中將網(wǎng)絡學習率設為0.001,每次迭代的批處理量(Batch size)設為32,每迭代1000 次,對海洋鋒進行一次預測。經(jīng)過25 000 次迭代后,訓練網(wǎng)絡已具備檢測海洋鋒的能力。表2 中給出不同迭代次數(shù),網(wǎng)絡的訓練損失(loss) 及識別精度(mAP)。從表2 中可以看出,經(jīng)過25 000 次迭代后,訓練損失得到有效收斂,并逐步下降,模型的檢測精度也隨之提高,達0.89 以上。
表2 訓練網(wǎng)絡損失和識別精確率
為了驗證數(shù)據(jù)對海洋鋒檢測結果的影響,本文按照數(shù)據(jù)標注時對強、弱海洋鋒的分類分別對三種數(shù)據(jù)集進行訓練,并計算IoU 和mAP 評估模型的定位準確率和檢測準確率。IoU 作為海洋鋒識別的量化精度結果,可通過計算圖5(b)與5(c)的交并比得到。三種數(shù)據(jù)集下的模型定位準確率及檢測準確率測試結果如表3 所示。圖5(b)為人工標注結果,圖5(c)為本文提出模型的檢測結果。
表3 模型定位準確率及檢測準確率測試結果
圖5 海洋鋒識別精度量化過程
表3 展示了不同數(shù)據(jù)集下迭代30 000 次后海洋鋒檢測結果,研究發(fā)現(xiàn),利用梯度影像進行海洋鋒檢測時,其定位準確率和檢測準確率均高于增強影像和灰度影像。這一實驗結果表明,海表面溫度變化的梯度差異更能準確地描述海洋鋒存在與否。對比三種數(shù)據(jù)集的強、弱鋒的檢測精度和定位準確率,進一步表明了本文提出的模型也適用于弱鋒的檢測。
為體現(xiàn)本文模型對海洋鋒檢測效果的優(yōu)勢,將其與傳統(tǒng)Mask R-CNN 模型、Xu 等提出的Mask R-CNN[23]及YOLOv3 模型在三種數(shù)據(jù)集上進行對比實驗。本文模型在原始Mask R-CNN 網(wǎng)絡基礎上融合了scSE 空間注意力模塊,同時優(yōu)化了損失函數(shù)。通過迭代30 000 次訓練,得到模型定位準確率及模型精度,分別如表4、表5 所示。圖6 給出部分測試數(shù)據(jù)集的檢測結果及原始影像的對照圖,其中圖6(a)為部分標注數(shù)據(jù),圖6(b)為標注數(shù)據(jù)對應的輸出檢測結果。為檢驗Lboundary損失函數(shù)對海洋鋒定位效果,文中在相同的數(shù)據(jù)集下,分別利用模型中原有損失函數(shù)Lmask和優(yōu)化的Lmask-boundary損失函數(shù)進行對比實驗,具體實驗對比結果見表4。
表4 模型定位準確率對比
表5 模型精度對比
圖6 測試數(shù)據(jù)的輸出結果
如表4、表5 結果所示,相比YOLOv3、傳統(tǒng)Mask R-CNN 算法及Xu 等[23]的方法,本文提出的海洋鋒檢測方法的定位準確率和檢測精度都有一定提高。且無論采用哪種模型,使用梯度影像數(shù)據(jù)集訓練得到的模型的定位準確率及檢測精度均最高,灰度影像檢測效果最差。此外,本文方法平均定位準確率為89.13%,平均mAP 為88.87%。相比YOLOv3、Mask R-CNN 及Xu 等[23]算法mAP 值分別提高了6.57%、5.31%和1.97%。通過對比不同損失函數(shù)下本文方法的IoU 值,在三種數(shù)據(jù)集下,Lmask-boundary損失函數(shù)下的IoU 均高于原有Lmask損失函數(shù),分別提升2.04%、4.40%和3.30%。而mAP 值的提升僅在0.03%左右。綜合考慮模型的定位準確率及檢測精度評價指標,本文方法的檢測效果優(yōu)于已有模型,證明了方法的可行性和有效性。
在海洋鋒的檢測任務中,快速識別海洋鋒是實際漁業(yè)應用的關鍵。為有效評估模型的檢測效率,文中給出了特征增強影像集在不同網(wǎng)絡模型、不同迭代次數(shù)下運行的所用時長,如圖7 所示。在不同迭代次數(shù)的情況下,本文模型消耗時間最短,并遠遠低于YOLOv3 完成模型時所消耗的時間。
圖7 不同模型的訓練時間對比圖
海洋鋒作為一種重要的海洋現(xiàn)象,快速、精確檢測海洋鋒對海洋生態(tài)及深遠海海上風電選址、漁業(yè)資源、臺風路徑預測等都有重要意義。結合深度學習技術在圖像識別、目標檢測等領域的發(fā)展,本文融合scSE 空間注意力模塊構建了一種改進Mask R-CNN 的海洋鋒自動檢測模型,并針對邊緣目標定位不準確的問題,構建了新的Mask 損失函數(shù),以實現(xiàn)海洋鋒像素級的高精度檢測。為適應融合深度學習的海洋鋒檢測需求,針對海洋鋒數(shù)據(jù)稀缺、小目標及弱邊緣特性,在訓練數(shù)據(jù)集準備階段對數(shù)據(jù)分別進行多種形式的擴充及特征增強預處理操作。其次,模型訓練階段,采用淺層殘差網(wǎng)絡和融合scSE 空間注意力模塊對不同數(shù)據(jù)集進行重要特征的提取,實現(xiàn)強弱海洋鋒的高精度識別。針對海洋鋒目標邊緣定位不準確的問題,引入IoU boundary loss 構建新的Mask 損失函數(shù),提高邊界檢測精度。實驗結果表明,本文方法利用梯度影像對海洋鋒識別的平均定位準確率和檢測精度分別為91.6%、91.4%,且在不同網(wǎng)絡、不同迭代次數(shù)下,本文模型消耗時間最短。此外,根據(jù)專家經(jīng)驗設立合理的海洋鋒檢測標準,篩選海洋強、弱鋒數(shù)據(jù)集,分別利用不同強度的海洋鋒驗證模型的有效性,結果顯示強鋒和弱鋒的檢測精度和定位準確率非常接近,表明本文提出的模型也適用于弱鋒的檢測。