羅逸豪,孫 創(chuàng),邵 成,張鈞陶
(1.中國船舶集團(tuán)有限公司第七一〇研究所,湖北 宜昌 443003;2.清江創(chuàng)新中心,湖北 武漢 430076;3.軍事科學(xué)院系統(tǒng)工程研究院,北京 100141)
水面無人艇(Unmanned Surface Vehicles,USV)作為一種無人操作的水面艦艇,具有體積小、航速快、機(jī)動(dòng)性強(qiáng)、模塊化等特點(diǎn),可用于執(zhí)行危險(xiǎn)以及不適于有人船執(zhí)行的任務(wù)[1]。USV可實(shí)現(xiàn)自主規(guī)劃與航行、環(huán)境感知、目標(biāo)探測(cè)、自主避障等功能,在軍事作戰(zhàn)和民用領(lǐng)域中具備極高的應(yīng)用價(jià)值[2]。其中無人艇自主目標(biāo)檢測(cè)算法是支撐任務(wù)完成的核心技術(shù)[3]。目前國內(nèi) USV尚未進(jìn)行大規(guī)模應(yīng)用,一個(gè)重要的原因就是水面目標(biāo)檢測(cè)算法性能不足。如何提高目標(biāo)檢測(cè)的精度和速度,增強(qiáng)應(yīng)對(duì)復(fù)雜場(chǎng)景的穩(wěn)定性,以及擴(kuò)充識(shí)別目標(biāo)的種類,都是水面目標(biāo)識(shí)別中需要解決的問題。
USV的感知模塊通??刹捎靡韵聜鞲衅鞑杉畔ⅲ簩?dǎo)航雷達(dá)、激光雷達(dá)、聲吶、紅外熱成像儀、可見光傳感器??梢姽庀鄼C(jī)作為輕量級(jí)、低功耗和信息豐富的傳感器,雖然容易受到光照、天氣等環(huán)境影響,但已成為USV水面目標(biāo)檢測(cè)的主流傳感設(shè)備[4]。
可見光圖像目標(biāo)檢測(cè)的研究可以追溯到20世紀(jì)90年代,早期的傳統(tǒng)目標(biāo)檢測(cè)算法基于人工設(shè)計(jì)的特征,比如十分經(jīng)典的SIFT[5]、HOG[6]、Haar[7]特征。然而,它們能夠提取的特征信息往往局限于紋理、輪廓等,只適用于特定任務(wù),并且需要大量的專業(yè)經(jīng)驗(yàn)和知識(shí)進(jìn)行手工設(shè)計(jì)[8]。而目前各式各樣的應(yīng)用環(huán)境充滿著許多復(fù)雜因素和干擾,傳統(tǒng)方法已經(jīng)顯得無能為力。2012年,AlexNet[9]采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在 ImageNet[10]大規(guī)模圖像分類數(shù)據(jù)集上取得了突破性的效果,引發(fā)了深度學(xué)習(xí)(Deep Learning)的火熱浪潮。深度學(xué)習(xí)利用大數(shù)據(jù)對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,克服了傳統(tǒng)特征的諸多缺點(diǎn),已成為當(dāng)下各個(gè)應(yīng)用領(lǐng)域中目標(biāo)檢測(cè)任務(wù)的主流算法。
USV水面目標(biāo)檢測(cè)任務(wù)是通用目標(biāo)檢測(cè)算法的一個(gè)重要應(yīng)用方向。已有一些綜述文獻(xiàn)[11-14]對(duì)傳統(tǒng)或基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法研究現(xiàn)狀進(jìn)行了綜述,但它們僅采用經(jīng)典的算法類型定義,并未囊括在此類型之外的最新相關(guān)工作。另一方面,文獻(xiàn)[15-17]對(duì)無人水面艇感知技術(shù)發(fā)展進(jìn)行了調(diào)研與展望,包含了檢測(cè)、跟蹤、定位、導(dǎo)航等多項(xiàng)技術(shù),但未對(duì)水面目標(biāo)檢測(cè)進(jìn)行全面深入的分析。
目標(biāo)檢測(cè)算法需要輸出給定圖像中所有物體的類別,還需用緊密的外接矩陣定位每一個(gè)目標(biāo),即分類+回歸。通俗來講,目標(biāo)檢測(cè)就是解決圖像中所有物體“是什么”以及“在哪里”的問題。在2012年以前,傳統(tǒng)的目標(biāo)檢測(cè)算法采用手工方式提取特征,其框架圖如圖1所示。
圖1 傳統(tǒng)目標(biāo)檢測(cè)模型框架Fig.1 Framework of traditional object detection model
基于滑動(dòng)窗口的篩選方法旨在枚舉出輸入圖像中所有可能的目標(biāo)外接矩形框,最終得到一系列不同大小和尺寸的初始候選框(Anchor,也稱為錨框,樣本參考框)。然后從輸入圖像中截取每一個(gè)候選框中的圖像輸入特征提取算法得到圖像特征。得到的特征(比如SIFT、HOG等手工特征)被輸入到分類器(比如SVM[18]等)中以執(zhí)行圖像分類。最后通過后處理步驟(比如非極大值抑制[19],Non-Maximum Suppression,NMS)根據(jù)分類得分篩選出置信度高的候選框以得到最終的檢測(cè)結(jié)果。
伴隨著 2012 年 AlexNet[9]興起的深度學(xué)習(xí)研究熱潮,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)已經(jīng)成為了計(jì)算機(jī)視覺領(lǐng)域中提取圖像特征的主流模型。在圖像分類任務(wù)中DNN取得了杰出的精度提升,因此人們自然而然地將其引入到目標(biāo)檢測(cè)問題中,將傳統(tǒng)目標(biāo)檢測(cè)框架中的各個(gè)組件由DNN進(jìn)行替換,最終實(shí)現(xiàn)“輸入→深度學(xué)習(xí)模型→結(jié)果”的端到端模型,具體框架如圖2所示。
圖2 基于深度神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)模型框架Fig.2 Framework of object detection model based on DNN
不同類型的目標(biāo)檢測(cè)算法具有不同的采樣策略。根據(jù)是否存在顯式的候選框提取過程,目標(biāo)檢測(cè)模型可以分為兩階段(Two-stage)和一階段(One-stage)檢測(cè)方法。兩階段檢測(cè)器通過候選框提取方法首先篩選出一批感興趣區(qū)域(Region of Interest,ROI),然后再進(jìn)行識(shí)別定位,整體上是一種由粗到精的檢測(cè)過程;而一階段檢測(cè)器是直接使用固定的錨框進(jìn)行識(shí)別定位,屬于“一步到位”。這也是經(jīng)典的目標(biāo)檢測(cè)算法分類方法。
另一方面,根據(jù)是否需要顯式定義先驗(yàn)錨框,目標(biāo)檢測(cè)模型還可以分為基于錨框(Anchor-based)和無錨框(Anchor-free)檢測(cè)方法?;阱^框的方法需要預(yù)先定義一定數(shù)量、尺寸、長(zhǎng)寬比例的錨框以進(jìn)行采樣,而無錨框方法則不需要。大部分兩階段目標(biāo)檢測(cè)模型屬于基于錨框的方法,而一階段目標(biāo)檢測(cè)模型則兩者皆有。在2018年左右,無錨框檢測(cè)方法逐漸受到研究者的重視。
除此之外,Transformer[20]作為一種最早用于序列建模和機(jī)器翻譯任務(wù)的基于注意力結(jié)構(gòu),在最近兩年被廣泛應(yīng)用于圖像目標(biāo)檢測(cè)領(lǐng)域。它提供了一個(gè)新的基于目標(biāo)查詢的采樣方式,將目標(biāo)檢測(cè)作為一個(gè)集合預(yù)測(cè)問題。
接下來本章對(duì)上述類型的目標(biāo)檢測(cè)算法分別進(jìn)行闡述。
R-CNN[21]是基于深度學(xué)習(xí)的兩階段目標(biāo)檢測(cè)器開山之作,在傳統(tǒng)檢測(cè)框架上,它采用CNN來提取圖像特征。R-CNN檢測(cè)器在第一個(gè)階段中采用選擇性搜索算法[22]生成約2 000個(gè)ROI。不同于傳統(tǒng)的滑動(dòng)窗口,選擇性搜索算法可以排除掉一部分背景區(qū)域的干擾而盡可能篩選出目標(biāo)區(qū)域。在第二階段中R-CNN將每一個(gè)ROI裁剪并縮放至同樣的大小,然后使用CNN提取圖像特征。最后將特征向量輸入到訓(xùn)練好的SVM分類器和回歸器中得到分類置信度得分和目標(biāo)邊界框的坐標(biāo)參數(shù)。雖然R-CNN相比傳統(tǒng)檢測(cè)算法實(shí)現(xiàn)了更高的精度,但是它將每一個(gè)ROI分別輸入CNN提取特征,這導(dǎo)致了大量的重復(fù)計(jì)算,致使算法實(shí)時(shí)性過低,每張圖像的計(jì)算時(shí)間接近一分鐘。同時(shí)R-CNN中的各個(gè)組件是獨(dú)立的,無法以端到端的方式進(jìn)行訓(xùn)練和推理。
針對(duì)R-CNN的推理速度不足,SPPNet[23]直接使用CNN提取整張輸入圖像的特征,然后將特征圖輸入空間金字塔池化層得到固定長(zhǎng)度的特征,最后進(jìn)行分類和回歸。類似地,F(xiàn)ast R-CNN[24]采用ROI池化層處理整張?zhí)卣鲌D以提取固定大小特征,然后輸入到由全連接層構(gòu)造的分類器和回歸器中。雖然它們?cè)谝欢ǔ潭壬咸嵘藱z測(cè)器的速度,但是由于候選框提取算法的限制依然無法實(shí)現(xiàn)端到端檢測(cè)。
為了實(shí)現(xiàn)快速的端到端目標(biāo)檢測(cè)模型,F(xiàn)aster R-CNN[25]提出了一種新的候選框提取算法——區(qū)域推薦網(wǎng)絡(luò)(Region Proposal Network,RPN)。RPN由全卷積神經(jīng)網(wǎng)絡(luò)[26]構(gòu)成,它在輸入的特征圖中每一個(gè)坐標(biāo)點(diǎn)設(shè)置不同比例的固定錨框,輸出帶有前景/背景二分類結(jié)果的候選框。然后,根據(jù)所提取的候選框和映射機(jī)制可以從特征圖上提取一系列ROI特征,輸入到分類層和回歸層得到檢測(cè)結(jié)果。Faster R-CNN能夠以端到端的方式進(jìn)行訓(xùn)練和推理,極大地提升了檢測(cè)速度和精度,并且擴(kuò)展性和泛化性強(qiáng),成為了經(jīng)典的兩階段目標(biāo)檢測(cè)器范式,被廣泛地應(yīng)用于學(xué)術(shù)界和工業(yè)界。
后續(xù)的兩階段目標(biāo)檢測(cè)研究主要是基于Faster R-CNN的改進(jìn)工作。R-FCN[27]生成位置敏感度得分圖對(duì)每個(gè)候選框進(jìn)行編碼來提取空間感知區(qū)域特征,同時(shí)用卷積層替換了分類層和回歸層中的全卷積層,實(shí)現(xiàn)了更快更準(zhǔn)確的檢測(cè)。Cascade R-CNN[28]提出了一種多階段的檢測(cè)模式,通過級(jí)聯(lián)的方式結(jié)合多個(gè)R-CNN結(jié)構(gòu)對(duì)回歸結(jié)果不斷地優(yōu)化,實(shí)現(xiàn)了更精準(zhǔn)的預(yù)測(cè)框。Dynamic R-CNN[29]采用動(dòng)態(tài)訓(xùn)練方法來調(diào)整訓(xùn)練過程中的IoU閾值,逐步提高錨框的質(zhì)量。RL-RPN[30]引入了一個(gè)順序區(qū)域建議網(wǎng)絡(luò),該網(wǎng)絡(luò)與檢測(cè)器一起改進(jìn)搜索策略,優(yōu)化RPN結(jié)構(gòu)。近幾年越來越多的兩階段目標(biāo)檢測(cè)器被提出,比如CBNet[31]、DetNet[32]等。
兩階段目標(biāo)檢測(cè)器雖然檢測(cè)精度較高,但是候選區(qū)域生成模塊會(huì)帶來更大的計(jì)算消耗,降低實(shí)際場(chǎng)景應(yīng)用中的實(shí)時(shí)性。一階段檢測(cè)器沒有用于候選框生成的單獨(dú)階段,將圖像上所有位置都視為可能存在目標(biāo),以降低檢測(cè)精度為代價(jià)來提升速度。
OverFeat[33]是第一個(gè)采用全卷積神經(jīng)網(wǎng)絡(luò)的一階段目標(biāo)檢測(cè)器,它將目標(biāo)檢測(cè)看作是多區(qū)域分類,直接使用CNN來代替滑動(dòng)窗口。全卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)在于可以接受任意尺寸的圖像輸入,而全連接層的劣勢(shì)正是只支持固定尺寸的輸入。盡管OverFeat大大提升了檢測(cè)速度,其粗糙的錨框生成策略和非端到端的訓(xùn)練策略使得它的檢測(cè)精度不高。
后來Redmon等人提出了YOLO[34],把輸入圖像在長(zhǎng)寬維度上劃分為預(yù)設(shè)的N×N個(gè)網(wǎng)格單元。YOLO將目標(biāo)檢測(cè)視為回歸問題,并規(guī)定每一個(gè)網(wǎng)格中都存在同一個(gè)類別的一個(gè)或者多個(gè)預(yù)測(cè)框,由框的中心點(diǎn)來確定目標(biāo)所屬于的網(wǎng)格。最終每一個(gè)網(wǎng)格都會(huì)得到C個(gè)類別的one-hot編碼概率,B個(gè)預(yù)測(cè)框的坐標(biāo)信息和其對(duì)應(yīng)的置信度,輸出的特征圖尺寸(長(zhǎng)×寬×通道)為 N×N×(5B+C)。YOLO因?yàn)槠漭^高的準(zhǔn)確率和極快的速度成為了最受歡迎的目標(biāo)檢測(cè)模型之一。然而它也有明顯的缺點(diǎn):對(duì)于小目標(biāo)和聚集的物體檢測(cè)精度不高。這些問題在其后續(xù)的版本v2–v4[35-37]中陸續(xù)得到了改善。直至2022年,YOLO已經(jīng)發(fā)展到了第七代[38],逐漸與無錨框方法相融合。YOLO系列模型對(duì)數(shù)據(jù)集依賴度不高,運(yùn)行速度快,是工業(yè)界應(yīng)用最廣泛的一階段目標(biāo)檢測(cè)算法。
為了在保證實(shí)時(shí)性的同時(shí)盡可能地提高檢測(cè)精度,SSD[39]有效地借鑒了RPN,YOLO和多尺度檢測(cè)的思想,仍然將輸入圖像劃分為固定的網(wǎng)格單元,并設(shè)定一系列具有多個(gè)長(zhǎng)寬比例的錨框以擴(kuò)充預(yù)測(cè)框的輸出空間。每一個(gè)預(yù)設(shè)的錨框都會(huì)通過回歸器訓(xùn)練得到預(yù)測(cè)框的坐標(biāo),并且由分類器得到(C+1)個(gè)類別的概率(1代表背景類別)。同時(shí),SSD在多張不同尺寸的特征圖上執(zhí)行目標(biāo)檢測(cè),以更好地發(fā)現(xiàn)大、中、小尺寸的目標(biāo)。SSD的精度甚至超過了早期的Faster R-CNN,檢測(cè)速度比YOLO更快,因此備受推崇?;?SSD模型的后續(xù)研究有 DSOD[40]、RefineDet[41]、MT-DSSD[42]等,它們針對(duì)原始方法的跨域預(yù)訓(xùn)練、正負(fù)樣本比例失衡、特征表達(dá)能力不強(qiáng)等問題進(jìn)行優(yōu)化。
考慮到一階段探測(cè)器和兩階段探測(cè)器的精度之間的差異,普遍的觀點(diǎn)是認(rèn)為一階段目標(biāo)檢測(cè)器在訓(xùn)練的過程中存在嚴(yán)重的正負(fù)樣本不平衡問題,因?yàn)槲唇?jīng)過篩選的大量錨框只有少量才包含待檢測(cè)的目標(biāo)。針對(duì)這一現(xiàn)象,RetinaNet[43]改進(jìn)了交叉熵?fù)p失函數(shù)的表達(dá)式,提出了新的Focal Loss。它減少了訓(xùn)練過程中簡(jiǎn)單樣本(可以被輕易識(shí)別的樣本)對(duì)于梯度的貢獻(xiàn),使得檢測(cè)器更加關(guān)注容易判錯(cuò)的困難樣本。同時(shí),RetinaNet引入了特征金字塔網(wǎng)絡(luò)[44]來進(jìn)行多尺度檢測(cè),大幅提高了檢測(cè)精度。RetinaNet部署簡(jiǎn)單,泛化能力強(qiáng),收斂速度快且易于訓(xùn)練,成為了學(xué)術(shù)界一階段目標(biāo)檢測(cè)器研究的基線。近幾年一階段檢測(cè)算法 ATSS[45]、GFL[46]、GFLv2[47]在損失函數(shù)上進(jìn)一步優(yōu)化,檢測(cè)精度已與兩階段方法沒有差距。
先前介紹的方法多是基于錨框的目標(biāo)檢測(cè)算法,這也是自深度學(xué)習(xí)目標(biāo)檢測(cè)研究以來的主流方法。然而,基于錨框的檢測(cè)算法十分依賴人工預(yù)先設(shè)置的錨框,需要考慮其數(shù)量、尺度、長(zhǎng)寬比等因素。當(dāng)更換數(shù)據(jù)集之后,預(yù)先設(shè)置好的錨框參數(shù)則需要重新進(jìn)行設(shè)計(jì),這帶來了巨大的工作量,使得檢測(cè)器可擴(kuò)展性不高。人工設(shè)置的錨框參數(shù)并不能保證最優(yōu),可能會(huì)導(dǎo)致訓(xùn)練樣本失衡等問題而引起精度下降。同時(shí),生成大量密集的錨框會(huì)使得檢測(cè)器訓(xùn)練和推理的速度降低。因此,近幾年無錨框檢測(cè)算法受到了越來越多研究者的關(guān)注,成為了目標(biāo)檢測(cè)未來的研究方向之一。
在早期的無錨框方法研究中,UnitBox[48]率先提出了基于交并比(Intersection over Union,IoU)的回歸損失函數(shù)。交并比是指在圖像中預(yù)測(cè)框與真實(shí)框的交集和并集的面積比值,這也是評(píng)價(jià)目標(biāo)檢測(cè)器精度的主要依據(jù)。而主流基于錨框的檢測(cè)器主要是采用L1損失函數(shù),以預(yù)測(cè)框與真實(shí)框的4個(gè)頂點(diǎn)坐標(biāo)差的絕對(duì)值來計(jì)算誤差,這與IoU不是等價(jià)的。極有可能存在具有相同L1損失值樣本的IoU值差異大。IoU損失函數(shù)使得檢測(cè)器不需要預(yù)先設(shè)置的錨框,而以像素點(diǎn)為單位來進(jìn)行預(yù)測(cè),開辟了一個(gè)新的回歸損失范式。
無錨框方法的另一條思路是預(yù)測(cè)目標(biāo)框的關(guān)鍵點(diǎn)。CornerNet[49]采用CNN提取輸入圖像特征之后又續(xù)接了2個(gè)獨(dú)立的分支,上分支負(fù)責(zé)預(yù)測(cè)目標(biāo)框的左上角,下分支則負(fù)責(zé)預(yù)測(cè)右下角。上下兩分支生成位置熱圖和嵌入向量,用來判定左上角和右下角是否屬于同一個(gè)目標(biāo),最終使用偏移量誤差來進(jìn)行訓(xùn)練,提升了模型精度。在后續(xù)研究中,CenterNet[50]又引入了物體中心點(diǎn)預(yù)測(cè)來提高檢測(cè)精度,ExtremeNet[51]則是采用最頂部、最左側(cè)、最底部、最右側(cè)4個(gè)極值點(diǎn)進(jìn)行預(yù)測(cè)。
之后,F(xiàn)COS[52]在結(jié)合了Focal Loss和IoU Loss的基礎(chǔ)上,又提出了Center-ness Loss。它將落入真實(shí)框內(nèi)的坐標(biāo)點(diǎn)視作正樣本,以坐標(biāo)點(diǎn)到真實(shí)框四條邊的距離進(jìn)行回歸,有助于抑制低質(zhì)量邊界框的產(chǎn)生,大幅提高檢測(cè)器的整體性能。Center-ness Loss還保證了不同尺度的目標(biāo)都具有足夠數(shù)量的正樣本,在一定程度上解決了正負(fù)樣本不平衡問題,成為了代表性的無錨框檢測(cè)算法配置。FSAF[53]和Foveabox[54]同樣也是采取與FCOS類似的思路:在RetinaNet檢測(cè)器上添加無錨檢測(cè)分支以優(yōu)化預(yù)測(cè)框。最近ObjectBox[55]不僅泛化性良好,而且超越了以往絕大多數(shù)方法的檢測(cè)精度。
Transformer模型最早出現(xiàn)在自然語言處理領(lǐng)域,最近兩年許多研究者將其應(yīng)用于計(jì)算機(jī)視覺,在檢測(cè)、分割、跟蹤等任務(wù)中均取得了優(yōu)異的性能。
DETR[56]是端到端 Transformer檢測(cè)器的開山之作,它消除了手工設(shè)計(jì)的錨框和NMS后處理,并通過引入目標(biāo)查詢和集合預(yù)測(cè)直接檢測(cè)所有對(duì)象,開辟了新的檢測(cè)算法框架。具體地,DETR使用編碼器-解碼器作為頸部模塊,使用前饋網(wǎng)絡(luò)(Feed Forward Networks,F(xiàn)FN)作為檢測(cè)頭部。輸入由CNN主干提取,展平成一維序列,附加位置編碼,然后輸入到編碼器。設(shè)計(jì)基于目標(biāo)查詢的可學(xué)習(xí)位置編碼附加到輸入,然后并行地傳輸給解碼器。訓(xùn)練過程中,在預(yù)測(cè)框和真實(shí)框之間應(yīng)用二分匹配損失匹配,以識(shí)別一對(duì)一標(biāo)簽分配。DETR實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的檢測(cè)精度,但在小型目標(biāo)上存在收斂速度慢和性能差的問題。
為了解決此問題,可變形DETR[57]提出了可學(xué)習(xí)的稀疏注意力機(jī)制,用于加速收斂,并引入了多尺度檢測(cè)結(jié)構(gòu),提升了小目標(biāo)進(jìn)車精度并將訓(xùn)練次數(shù)減少了10倍。ACT[58]消除編碼器的冗余查詢,提出了一種自適應(yīng)聚類轉(zhuǎn)換器,基于多輪精確歐幾里德局部敏感度哈希方法,ACT可以動(dòng)態(tài)地將查詢聚類到不同的原型中,然后通過將每個(gè)原型廣播到相應(yīng)的查詢中,使用這些原型來近似查詢關(guān)鍵注意力熱圖。與DETR相比,ACT降低15 GFLOPs的運(yùn)算量,僅損失0.7%的平均精度。
DETR還可以引入空間先驗(yàn)知識(shí),與基于錨框的方法相結(jié)合。為了增強(qiáng)目標(biāo)查詢和邊界框與經(jīng)驗(yàn)空間先驗(yàn)的關(guān)系,SMCA[59]提出了一種基于空間交叉注意力機(jī)制的一階段檢測(cè)方法。其訓(xùn)練次數(shù)比DETR少5倍。Meng等人提出了條件空間嵌入[60]方法,以空間先驗(yàn)明確表示目標(biāo)的極端區(qū)域,從而縮小了定位不同區(qū)域的空間范圍,使DETR收斂速度加快了8倍。Yao等人觀察到不同的初始化點(diǎn)總是傾向于類似地分布,提出了一種兩階段高校DETR[61],包括密集建議生成和稀疏集預(yù)測(cè)部分,將DETR訓(xùn)練次數(shù)減少14倍。
Transformer結(jié)構(gòu)還可以應(yīng)用于目標(biāo)檢測(cè)模型的骨干網(wǎng)絡(luò)和頸部模塊,適用于兩階段、一階段、無錨框等框架中。PVT[62-63]將 Transformer構(gòu)造為一個(gè)從高到低分辨率的過程,以學(xué)習(xí)多尺度特征。基于局部增強(qiáng)的結(jié)構(gòu)將骨干網(wǎng)絡(luò)構(gòu)造為局部到全局的組合,以有效地提取短距離和長(zhǎng)距離視覺相關(guān)性,并避免二次計(jì)算開銷,如Swin Transformer[64]、ViL[65]和 Focal Transformer[66]。與特征金字塔網(wǎng)絡(luò)[44]類似,ZHANG等人通過結(jié)合非局部特征和多尺度特征,提出了FPT[67]用于密集預(yù)測(cè)任務(wù)。在模型網(wǎng)絡(luò)構(gòu)造過程中,Swin Transformer作為通用的視覺骨干網(wǎng)絡(luò),可以廣泛應(yīng)用于圖像分類、目標(biāo)檢測(cè)和語義分割等任務(wù),突破了 Transformer檢測(cè)器的應(yīng)用局限性。
然而,基于Transformer的目標(biāo)檢測(cè)算法通常只能在大規(guī)模數(shù)據(jù)集上實(shí)現(xiàn)較大的性能提升,無法在訓(xùn)練數(shù)據(jù)不足的情況下進(jìn)行良好的推廣[68]??梢圆捎眠w移學(xué)習(xí)[69]的方法,從足夠的數(shù)據(jù)集中預(yù)先訓(xùn)練,然后在小型和特定的下游任務(wù)中進(jìn)行微調(diào)。
與傳統(tǒng)目標(biāo)檢測(cè)算法類似,一些早期的研究工作利用人工設(shè)計(jì)的特征對(duì)水面目標(biāo)檢測(cè)進(jìn)行了研究。許多方法將海上物體的檢測(cè)視為顯著性估計(jì)問題[70-73]。這些方法假設(shè)目標(biāo)與其所處的直接背景有很好的區(qū)別。然而,此假設(shè)在很多情況下都不成立,比如在起霧和強(qiáng)光的環(huán)境下,以及需要檢測(cè)視覺上接近于水的物體。經(jīng)典的背景建模法和幀間差分法也不適合USV,因?yàn)槠鸱暮C鎸?dǎo)致USV的持續(xù)晃動(dòng),違反了靜態(tài)相機(jī)假設(shè),導(dǎo)致誤報(bào)率很高[74]。RAJAN 等人[75]對(duì)基于傳統(tǒng)視覺的水面目標(biāo)物體檢測(cè)和跟蹤做了更為全面的綜述,本文不再進(jìn)行贅述。
因?yàn)楝F(xiàn)實(shí)水面環(huán)境復(fù)雜多變,USV拍攝的可見光圖像的圖像質(zhì)量有所欠缺,包括天氣起霧、運(yùn)動(dòng)模糊、光照變化等;另外,同一類別的水面目標(biāo)物也可能在尺度、形狀、紋理、大小等方面具有較大差異性。這增加了不同環(huán)境下的水面目標(biāo)檢測(cè)難度,在一定程度上限制了傳統(tǒng)目標(biāo)檢測(cè)算法的應(yīng)用范圍。而深度學(xué)習(xí)目標(biāo)檢測(cè)算法迅速發(fā)展,已成為目前水面目標(biāo)檢測(cè)的主流技術(shù)。本章將從3個(gè)方面總結(jié)基于深度學(xué)習(xí)的水面目標(biāo)檢測(cè)技術(shù)進(jìn)展。
基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法在2018年之前大多數(shù)分為兩階段或一階段檢測(cè)方法,因其技術(shù)成熟且易于實(shí)現(xiàn),被廣泛應(yīng)用于各個(gè)領(lǐng)域。而在無人艇水面目標(biāo)檢測(cè)領(lǐng)域,應(yīng)用深度學(xué)習(xí)技術(shù)起步較晚。
2017年 KUMAR 等人[76]提出了一種改進(jìn)的VGG16[77]骨干網(wǎng)絡(luò)用于海面物體的視覺目標(biāo)檢測(cè)。該工作發(fā)現(xiàn)由于訓(xùn)練數(shù)據(jù)的缺乏,CNN規(guī)模過大可能會(huì)造成過擬合現(xiàn)象。為了解決此問題,LEE等人[78]采用了預(yù)訓(xùn)練的方式,將通用目標(biāo)數(shù)據(jù)集上訓(xùn)練好的模型進(jìn)行微調(diào),以適用于海事目標(biāo)。
在之后的研究工作中,經(jīng)典的兩階段檢測(cè)模型Faster R-CNN被頻繁采用。FU 等人[79]使用了一種改進(jìn)的 Faster R-CNN 方法用于海上目標(biāo)檢測(cè),使用層數(shù)更深、功能更強(qiáng)大的 ResNet[80]骨干網(wǎng)絡(luò)提取特征,并利用深度歸一化層、在線難樣本挖掘?qū)δP瓦M(jìn)行優(yōu)化。CHEN等人[81]將多尺度策略融合到了 ResNet的多層卷積中,并在特征圖上添加了雙線性插值進(jìn)行上采樣,以增強(qiáng)小目標(biāo)檢測(cè)的效果。Yang等人[82]提出了一個(gè)基于 CNN的水面目標(biāo)檢測(cè)和跟蹤定位系統(tǒng),以Faster R-CNN模型檢測(cè)目標(biāo)位置,然后使用KFC算法[83]在視頻序列中連續(xù)跟蹤該目標(biāo)。在后續(xù)研究中,MA等人[84]采用了混合骨干網(wǎng)絡(luò)架構(gòu),通過DenseNet[85]與ResNet結(jié)合的策略,再結(jié)合雙向特征金字塔網(wǎng)絡(luò),進(jìn)一步增強(qiáng)了兩階段檢測(cè)模型的精度。
基于兩階段的檢測(cè)方法傾向于算法精度,但計(jì)算復(fù)雜度相對(duì)更大;相反,一階段的目標(biāo)檢測(cè)識(shí)別算法在訓(xùn)練和推理過程占用內(nèi)存更低,模型計(jì)算更快。在不追求更高的檢測(cè)精度時(shí),一階段檢測(cè)方法更受偏愛。陳欣佳等人[86]使用SSD模型執(zhí)行快速的無人艇目標(biāo)檢測(cè)任務(wù),并借助相關(guān)濾波(Correlation Filter)方法進(jìn)行快速跟蹤。YANG 等人[87]使用YOLOv3模型實(shí)現(xiàn)了實(shí)時(shí)的水面無人艇檢測(cè),然后通過卡爾曼濾波器將外觀特征與運(yùn)動(dòng)狀態(tài)估計(jì)相結(jié)合,實(shí)現(xiàn)了一種基于數(shù)據(jù)關(guān)聯(lián)的多目標(biāo)跟蹤方法。無獨(dú)有偶,王飛等人[88]也基于 YOLOv3開發(fā)了海霧氣象條件下海上船只實(shí)時(shí)檢測(cè)的深度學(xué)習(xí)算法。王孟月[89]借助DenseNet改進(jìn)YOLOv3的骨干網(wǎng)絡(luò),以增強(qiáng)特征傳播效率、促進(jìn)有效特征重用以及提高網(wǎng)絡(luò)性能。
圖3 基于語義分割的檢測(cè)示意圖Fig.3 Schematic diagram of detection based on semantic segmentation
由于基于深度學(xué)習(xí)的語義分割網(wǎng)絡(luò)模型在城市與道路場(chǎng)景中取得了良好的效果,一些工作[90-91]將CNN分割框架用于海上圖像分割。為了改進(jìn)早期方法在小障礙物上分割表現(xiàn)不佳以及鏡像混淆的問題,KIM 等人[92]將跳躍連接和白化層應(yīng)用于E-Net[93]以改進(jìn)小目標(biāo)檢測(cè),雖然精度和效率高于同期其他的分割方法,但每秒10幀的計(jì)算速度依然無法達(dá)到實(shí)時(shí)的檢測(cè)效果。
在后續(xù)的研究中,STECCANELLA等人[94]提出用深度卷積替換 U-Net[95]中的傳統(tǒng)卷積層以改進(jìn)水線分割效果。在生成了水和非水區(qū)域的二進(jìn)制掩碼后,繼續(xù)檢測(cè)水中區(qū)域的障礙物。為了進(jìn)一步解決小目標(biāo)檢測(cè)精度低和水反射誤報(bào)率高的問題,BOVCON等人[96]提出了一種新的深度非對(duì)稱編碼器–解碼器架構(gòu),設(shè)計(jì)了注意力機(jī)制和新的損失函數(shù),并通過視覺和慣性信息融合提高了整體分割精度。但是基于分割的方法始終難以達(dá)到實(shí)時(shí)檢測(cè)的效果。
早期有一些數(shù)據(jù)集用來評(píng)估海上監(jiān)視和機(jī)器人導(dǎo)航的各種算法。FEFILATYEV等人[97]提出了一個(gè)數(shù)據(jù)集,該數(shù)據(jù)集包含在同一天記錄的10個(gè)序列,在同一片公海采集。然而它僅用于地平線檢測(cè)評(píng)估,不包含障礙物,限制了它們的視覺多樣性。BLOISI等人[98]采集了10種海上目標(biāo)跟蹤序列。通過在一天中的不同時(shí)間進(jìn)行記錄,增加視覺多樣性,并對(duì)船舶、船只和噴氣式飛機(jī)等動(dòng)態(tài)障礙物進(jìn)行注釋。然而,由于所有障礙物在非常明亮的水面上都是黑暗的,它們對(duì)目標(biāo)檢測(cè)幾乎沒有挑戰(zhàn)性。MARQUES等人[99]和 RIBEIRO 等人[100]記錄了 2個(gè)視覺上不同的海上機(jī)載探測(cè)數(shù)據(jù)集。該數(shù)據(jù)集是為無人機(jī)應(yīng)用而設(shè)計(jì)的,它不具有在自主船上觀察到的有利位置。
為了使數(shù)據(jù)集信息更加豐富,PATINO等人[101]提出了一個(gè)包含14個(gè)多傳感器序列的數(shù)據(jù)集,用于障礙物檢測(cè)、跟蹤和威脅識(shí)別評(píng)估。數(shù)據(jù)集包含地平線和動(dòng)態(tài)障礙物的注釋,但不包含小型障礙物,如浮標(biāo)。KRISTAN等人[102]構(gòu)建了一個(gè)海上障礙物檢測(cè)數(shù)據(jù)集,其中包含從USV捕獲的12個(gè)不同序列,后來 BOVCON等人[103]將其擴(kuò)展為與慣性測(cè)量單元同步的 28個(gè)立體攝像機(jī)序列。2個(gè)數(shù)據(jù)集都記錄在同一個(gè)場(chǎng)景,并包含地平線、水邊和大小動(dòng)態(tài)障礙物的注釋,通過在不同天氣條件下進(jìn)行記錄,保持視覺多樣性。
由于深度學(xué)習(xí)模型需要數(shù)據(jù)驅(qū)動(dòng),小型數(shù)據(jù)集會(huì)使得深度學(xué)習(xí)模型出現(xiàn)過擬合的問題。因此,PRASAD等人[104]提出了一個(gè)大型海上監(jiān)視數(shù)據(jù)集,包含51個(gè)RGB和30個(gè)紅外光譜序列,在一天的不同時(shí)間和不同天氣條件下記錄。大多數(shù)序列是從固定的岸上觀測(cè)點(diǎn)記錄的,而有些是從比機(jī)器人船更高的有利位置拍攝的。由于它主要是為監(jiān)視而設(shè)計(jì)的,所以場(chǎng)景非常靜態(tài),幾乎沒有運(yùn)動(dòng)。為了使動(dòng)態(tài)障礙物和地平線被很好地注釋,最近MOOSBAUER等人[105]提供了通過基于顏色的半自動(dòng)方法計(jì)算的粗略實(shí)例分割標(biāo)簽。GUNDOGDU等人[106]提出了一個(gè)具有400 000補(bǔ)丁的數(shù)據(jù)集,用于輪船分類任務(wù),但該數(shù)據(jù)集不能用于檢測(cè)器評(píng)估,因?yàn)檩喆恢脹]有注釋。SOLOVIEV等人[107]最近構(gòu)建了具有接近2 000張圖像的數(shù)據(jù)集,用于評(píng)估預(yù)訓(xùn)練的船舶探測(cè)器,因此不標(biāo)注靜態(tài)障礙物(如海岸)和動(dòng)態(tài)障礙物(例如邊界)。
大多數(shù)數(shù)據(jù)集被提出用于評(píng)估目標(biāo)檢測(cè)算法,只有少數(shù)數(shù)據(jù)集被設(shè)計(jì)用于訓(xùn)練分割方法。STECCANELLA等人[108]提出了一個(gè)由 191幅圖像組成的逐像素注釋數(shù)據(jù)集,這些圖像在 7種海域中分別單獨(dú)記錄,用于訓(xùn)練和測(cè)試分割方法。數(shù)據(jù)集包含水域和非水域 2個(gè)語義標(biāo)簽,并且測(cè)試集與訓(xùn)練集沒有很好地分離,視覺多樣性有限。BOVCON 等人[109]提出了目前用于海面圖像分割的最大和最詳細(xì)的數(shù)據(jù)集。數(shù)據(jù)集是在不同時(shí)間和不同天氣條件下記錄的,歷時(shí)2年,包含接近1 300張圖像,每個(gè)像素點(diǎn)標(biāo)記水、天空或者障礙物。
5.2 推廣秸稈氣化技術(shù),有利于秸稈資源的綜合利用,實(shí)現(xiàn)農(nóng)業(yè)可持續(xù)發(fā)展。農(nóng)民每年直接燃燒秸稈占全部秸稈總量的64%,大量的秸稈直接燃燒,不僅造成資源的嚴(yán)重浪費(fèi),也導(dǎo)致秸稈養(yǎng)畜、秸稈然掃后,還產(chǎn)生大量的co2氣體和煙塵,造成空氣污染,而秸稈氣化技術(shù)可以有效解決這些問題。同時(shí)秸稈燃?xì)獗葌鹘y(tǒng)的直接燃燒熱效率提高近一倍,可明顯減小秸稈和森林資源的消耗,對(duì)退耕還林、天然林保護(hù)工程、控制水土流失,起到積極地促進(jìn)作用。
由于在海洋試驗(yàn)現(xiàn)場(chǎng)采集數(shù)據(jù)成本高昂,許多數(shù)據(jù)集包含的圖像數(shù)量較少。在 2022年,RAZA等人[110]使用 3D仿真平臺(tái) AILiveSim構(gòu)建了一個(gè)艦船檢測(cè)仿真數(shù)據(jù)集,包含 9471張高分辨率(1920×1080)圖像,具有船舶、巖石、浮標(biāo)等動(dòng)態(tài)和靜態(tài)目標(biāo),并使用 YOLOv5測(cè)試了模擬數(shù)據(jù)的可行性。最近,BOVCON 等人[111]構(gòu)建了目前規(guī)模最大、最具挑戰(zhàn)性的水面目標(biāo)檢測(cè)數(shù)據(jù)集MODS,包含了超過 8萬張圖像,記錄了高度多樣化的目標(biāo),并且設(shè)計(jì)了相應(yīng)的評(píng)估方法、訓(xùn)練集和測(cè)試集,形成了一項(xiàng)新基準(zhǔn)。這項(xiàng)研究工作在開源網(wǎng)站上進(jìn)行了公開發(fā)布,系統(tǒng)地評(píng)估了19項(xiàng)兩階段、一階段、基于語義分割的目標(biāo)檢測(cè)算法在該基準(zhǔn)上的性能并進(jìn)行排名,使得不同方法的跨論文比較更易實(shí)現(xiàn)。該工作使水面無人艇目標(biāo)檢測(cè)領(lǐng)域取得了關(guān)鍵進(jìn)展。
雖然有許多研究工作將深度學(xué)習(xí)方法應(yīng)用于水面目標(biāo)檢測(cè)任務(wù)中,但仍有一些缺陷和關(guān)鍵問題亟需解決。本章對(duì)關(guān)鍵問題進(jìn)行歸納總結(jié),并對(duì)可行的方案以及未來發(fā)展做了進(jìn)一步的展望。
1)缺乏大規(guī)模數(shù)據(jù)集和統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)。
在通用目標(biāo)檢測(cè)研究中,PASCAL VOC[112]數(shù)據(jù)集是 2015年以前評(píng)價(jià)檢測(cè)算法的金標(biāo)準(zhǔn),MS COCO[113]數(shù)據(jù)集則是2015年以后的金標(biāo)準(zhǔn),他們分別具有約2萬和16萬張圖像。由于其涵蓋類別多、場(chǎng)景復(fù)雜性高,被研究者們廣泛采用,不同算法工作可以輕易地進(jìn)行性能橫向?qū)Ρ取?/p>
然而目前的許多海事數(shù)據(jù)集不能充分捕捉真實(shí)世界 USV 場(chǎng)景的復(fù)雜性,并且沒有標(biāo)準(zhǔn)化評(píng)估方法,這使得不同方法的跨論文比較變得困難,阻礙了相關(guān)研究的進(jìn)展。
2)深度學(xué)習(xí)方法陳舊。
人臉識(shí)別[114]和行人檢測(cè)[115]也作為通用目標(biāo)檢測(cè)算法的2個(gè)應(yīng)用子問題,分別衍生出了各自的特異性問題和新穎的算法,在現(xiàn)實(shí)應(yīng)用場(chǎng)景中取得了良好的效果。而由前文內(nèi)容可知,USV水面目標(biāo)檢測(cè)算法的應(yīng)用相較于通用目標(biāo)檢測(cè)算法研究滯后 2年左右,并且所使用的方法通常為 Faster R-CNN和YOLOv3等經(jīng)典模型,未引入新的模型和針對(duì)于水面情況的算法,性能有待進(jìn)一步提高。
3)現(xiàn)實(shí)場(chǎng)景圖像質(zhì)量不佳。
無人艇面臨著不斷變化的外部環(huán)境和突發(fā)因素的影響,例如起霧、雨水、強(qiáng)光、海浪等因素的干擾,復(fù)雜的背景以及快速變化的視角,或是攝像設(shè)備的突然失焦。這均會(huì)使得采集的圖像質(zhì)量不佳,極有可能導(dǎo)致算法誤判,在應(yīng)用場(chǎng)景中產(chǎn)生嚴(yán)重后果。盡管深度學(xué)習(xí)算法比傳統(tǒng)算法的精度和魯棒性更強(qiáng),在直接處理受損圖像時(shí)依然不能達(dá)到令人滿意的效果。
4)可見光相機(jī)信息單一。
單一的傳感器不能全面地反映復(fù)雜海況,單目可見光相機(jī)僅能獲取彩色圖像,無法獲取距離、溫度等信息。無人艇系統(tǒng)由各體系模塊化組成,可以搭載不同的傳感器進(jìn)行感知探測(cè)。因此需要利用雷達(dá)、聲吶、紅外等多種傳感器信息進(jìn)行協(xié)同、融合分析,提升系統(tǒng)的整體性能。
5)無法應(yīng)對(duì)特定目標(biāo)檢測(cè)任務(wù)。
目前水面無人艇目標(biāo)檢測(cè)數(shù)據(jù)集涵蓋的目標(biāo)類別通常為船舶、人、浮標(biāo)、巖石等常見水面目標(biāo)。然而,當(dāng)某些具體的應(yīng)用場(chǎng)景需要檢測(cè)數(shù)據(jù)集中未涵蓋的特定目標(biāo),現(xiàn)有的USV水面目標(biāo)檢測(cè)算法難以滿足需求。比如,需要檢測(cè)海域中的冰山,搜尋水域和岸邊的瀕危兩棲動(dòng)物,在海域作戰(zhàn)中檢測(cè)信號(hào)彈、導(dǎo)彈、飛機(jī)等空中目標(biāo)。
1)大規(guī)模數(shù)據(jù)集下的Transformer模型。
由于歸納偏差通常表示為關(guān)于數(shù)據(jù)分布或解空間的一組假設(shè),在CNN中表現(xiàn)為局部性和平移不變性。局部性關(guān)注空間上緊密的元素,并將它們與遠(yuǎn)端元素隔離,變換不變性表明在輸入的不同位置重復(fù)使用相同的匹配規(guī)則。因此CNN在處理圖像數(shù)據(jù)中更關(guān)注于局部信息,卻限制了數(shù)據(jù)集規(guī)模的上限。Transformer可以關(guān)注圖像全局信息,在大規(guī)模數(shù)據(jù)集上表現(xiàn)出了更優(yōu)越的性能。深層Transformer骨干網(wǎng)絡(luò)和編碼器–解碼器結(jié)構(gòu)可有效降低計(jì)算復(fù)雜度,避免深層特征過度平滑。
最新提出的 MODS大規(guī)模水面目標(biāo)檢測(cè)數(shù)據(jù)集包含8萬張圖像和超過6萬個(gè)目標(biāo)標(biāo)注,有望成為評(píng)價(jià)水面目標(biāo)檢測(cè)算法的金標(biāo)準(zhǔn)。因此,在大規(guī)模數(shù)據(jù)驅(qū)動(dòng)下,可以引入 Transformer進(jìn)行模型設(shè)計(jì),進(jìn)一步提升水面目標(biāo)檢測(cè)算法的精度和泛化性。
2)新算法與模型的應(yīng)用。
近幾年目標(biāo)檢測(cè)算法在多個(gè)層面迅速發(fā)展。在骨干網(wǎng)絡(luò)方面,ResNext[116]和Res2Net[117]已經(jīng)成為了常用的模型,可以提取表達(dá)能力更強(qiáng)的圖像特征,并且可變形卷積[118]也被廣泛使用。在頸部模塊方面,AugFPN[119]和 RCNet[120]聯(lián)合設(shè)計(jì)了上下文和注意力模塊大幅豐富了多尺度特征信息。在檢測(cè)頭部方面,DOOD[121]和TOOD[122]分別采用了解耦和聯(lián)合的策略,進(jìn)一步提高分類和定位的精度。除此之外還有許多訓(xùn)練策略[123-124]改善了正負(fù)樣本不平衡問題。對(duì)于USV水面目標(biāo)檢測(cè)任務(wù)中環(huán)境復(fù)雜、小目標(biāo)漏檢、背景區(qū)域大等問題,需要借鑒通用目標(biāo)檢測(cè)算法,針對(duì)性的選擇和設(shè)計(jì)解決方案。
3)基于圖像重建與目標(biāo)檢測(cè)的多任務(wù)模型。
為解決圖像質(zhì)量不佳的問題,最直觀的方法是引入圖像重建算法對(duì)采集的圖像進(jìn)行預(yù)處理。CHEN等人[125]采用偏振成像技術(shù)對(duì)強(qiáng)反光區(qū)域進(jìn)行抑制,QIAN 等[126]結(jié)合生成對(duì)抗網(wǎng)絡(luò)和注意力機(jī)制對(duì)雨天采集的圖像進(jìn)行去雨處理。然而他們僅針對(duì)單一的圖像受損因素進(jìn)行預(yù)處理操作,適用范圍較小。設(shè)計(jì)多任務(wù)模型[127]進(jìn)一步提升算法性能十分有必要。
深度學(xué)習(xí)領(lǐng)域中的多任務(wù)學(xué)習(xí)是指讓一個(gè)神經(jīng)網(wǎng)絡(luò)同時(shí)學(xué)習(xí)多項(xiàng)任務(wù),目的是讓每個(gè)任務(wù)之間能夠互相幫助。這有利于提高模型實(shí)時(shí)性和減少算力消耗。其主要實(shí)現(xiàn)方式為參數(shù)共享,多個(gè)任務(wù)之間共用網(wǎng)絡(luò)模型的部分參數(shù),共同進(jìn)行端到端訓(xùn)練,產(chǎn)生隱式訓(xùn)練數(shù)據(jù)增加的效果,增強(qiáng)模型的能力并降低過擬合的風(fēng)險(xiǎn)。多任務(wù)模型比獨(dú)立地訓(xùn)練單個(gè)任務(wù)能實(shí)現(xiàn)更好的效果。
因此,圖像重建和目標(biāo)檢測(cè)任務(wù)可以作為子任務(wù)統(tǒng)一至端到端模型,在大規(guī)模數(shù)據(jù)驅(qū)動(dòng)下進(jìn)行多任務(wù)聯(lián)合學(xué)習(xí),提高檢測(cè)器在惡劣天氣條件下的性能。
4)多模態(tài)融合算法。
多模態(tài)學(xué)習(xí)即是從多個(gè)模態(tài)表達(dá)或感知事物[128],比如通過2種不同成像原理的相機(jī)拍攝的圖像,通過圖像、音頻、字母理解視頻。多模態(tài)學(xué)習(xí)通常具有2種方式:協(xié)作和融合。
在水面目標(biāo)檢測(cè)任務(wù)中,基于協(xié)作的方法可以對(duì)相機(jī)、雷達(dá)、聲吶、紅外等多種數(shù)據(jù)的算法輸出結(jié)果執(zhí)行進(jìn)一步分析,采用加權(quán)等方式得到最終的檢測(cè)結(jié)果。基于融合的方法可以將多種傳感器采集的圖像進(jìn)行融合,進(jìn)一步探究多模態(tài)數(shù)據(jù)深層特征之間的關(guān)系,提高數(shù)據(jù)的利用率,構(gòu)建魯棒的算法系統(tǒng)。例如,MA等人[129]提出了Fusion GAN 模型,采用生成對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)紅外與可見光圖像融合。同時(shí),隨著3D目標(biāo)檢測(cè)[130]研究的興起,可以將彩色圖像與雷達(dá)點(diǎn)云數(shù)據(jù)進(jìn)行配準(zhǔn)融合[131-132]作為深度神經(jīng)網(wǎng)絡(luò)的輸入。為提高USV感知環(huán)境的整體能力,多模態(tài)融合算法必將成為重要的發(fā)展趨勢(shì)。
5)小樣本、弱監(jiān)督訓(xùn)練算法。
在特定目標(biāo)檢測(cè)任務(wù)中存在樣本數(shù)量少、標(biāo)注缺失、類別不明確、標(biāo)注錯(cuò)誤等問題??梢越柚疃葘W(xué)習(xí)小樣本學(xué)習(xí)[133]和弱監(jiān)督訓(xùn)練[134]的方法,針對(duì)特定的水面檢測(cè)任務(wù)充分利用已有的少量圖像數(shù)據(jù),解決深度學(xué)習(xí)模型欠擬合和過擬合的問題,提高目標(biāo)檢測(cè)算法精度。
水面無人艇在軍事作戰(zhàn)和民用領(lǐng)域中具備極高的應(yīng)用價(jià)值,目標(biāo)檢測(cè)算法是支撐任務(wù)完成的核心技術(shù)。本文首先回顧了當(dāng)前基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法的發(fā)展現(xiàn)狀,從兩階段、一階段、無錨框、Transformer 4個(gè)類別進(jìn)行了全面的總結(jié);然后從兩階段/一階段方法、基于語義分割的方法、海事視覺感知數(shù)據(jù)集 3個(gè)方面歸納無人艇水面目標(biāo)檢測(cè)技術(shù)的研究現(xiàn)狀;最后闡述了水面目標(biāo)檢測(cè)任務(wù)面臨的4個(gè)關(guān)鍵問題:缺乏大規(guī)模數(shù)據(jù)集和統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)、深度學(xué)習(xí)方法陳舊、現(xiàn)實(shí)場(chǎng)景圖像質(zhì)量不佳、可見光相機(jī)信息單一、無法應(yīng)對(duì)特定目標(biāo)檢測(cè)任務(wù),并對(duì)多任務(wù)、多模態(tài)、弱監(jiān)督等新技術(shù)進(jìn)行了可行性分析和展望。未來,高度智能化的水面無人艇將會(huì)成為海事任務(wù)的重要力量。