李俊文,張紅英,韓 賓
1.西南科技大學 信息工程學院,四川 綿陽 621010
2.西南科技大學 特殊環(huán)境機器人技術四川省重點實驗室,四川 綿陽 621010
在深度學習還未廣泛應用之前,早期的顯著性目標檢測(salient object detection,SOD)方法主要是依靠手工制作的特征信息對像素進行搜索并檢測顯著對象。這種傳統(tǒng)方法不僅費時又費力,而且手工制作的特征主要是低層特征信息,缺乏高層語義信息的表征能力,這會導致對于復雜場景下的圖像很難保持高精度的預測。近年來,卷積神經網絡(convolutional neural network,CNN)在計算機視覺中取得了巨大的成功,特別是全卷積神經網絡(fully convolutional network,F(xiàn)CN)[1]的出現(xiàn),為SOD 研究開辟了新的道路。目前基于深度學習的SOD 研究相比于傳統(tǒng)方法已經取得了巨大的進步,可以獲得更為精確的預測結果圖。SOD 作為一種有效的圖像預處理技術,在計算機視覺中得到了廣泛的應用場景,例如圖像分割、圖像理解、視覺跟蹤[2]、物體檢測[3]等。
自FCN和U-Net[4]提出以來,利用編碼器-解碼器的結構將特征信息恢復到原始輸入圖像大小,實現(xiàn)了端到端的操作,并且網絡中逐次將低層特征信息和高層特征信息進行相加或拼接的特征融合操作,已被證明了其對于最終性能有很大的幫助。現(xiàn)有的研究大都受此啟發(fā),F(xiàn)eng 等人[5]引入全局感知模塊來獲得豐富的上下文信息,并將低層信息和高層信息進行有效融合來細化預測圖。Qin等人[6]受U-Net的啟發(fā),構造了一種新殘差模塊RSU(residual U-blocks)來獲得多尺度信息。Zhao 等人[7]利用漸進融合方式將全局信息和局部信息進行互補,能夠更加有效地定位顯著目標。Liu等人[8]在特征金字塔(feature pyramid network,F(xiàn)PN)[9]結構的基礎上,引入了一個全局池化模塊來獲得更加豐富的語義信息,并設計了一種新的池化模塊來更好地融合各層特征。Pang等人[10]將編碼階段相鄰特征全都進行交互融合,以獲得更豐富的特征信息,并將融合后的特征進行殘差優(yōu)化,來適應目標尺度變換。Wei 等人[11]提出一種級聯(lián)反饋解碼器,來迭代細化特征融合后的信息,以獲得更精細的預測圖。Chen等人[12]在U-Net的基礎上,提出一種上下文感知特征信息聚合模塊,能夠有效地將全局上下文信息、低層細節(jié)信息和高層語義信息進行融合。Zhang 等人[13]設計了一個自動搜索框架,使網絡能夠獲得更棒的多尺度特征融合。
上述方法都獲得了相當不錯的檢測精度,但由于其繁重的特征提取網絡以及復雜的解碼結構,不可避免地增大了參數(shù)量和計算成本,這種繁重的網絡很明顯不適用于實時以及資源有限的應用,如機器人應用、用戶界面優(yōu)化和自動駕駛等。隨著深度學習的發(fā)展逐漸成熟,落地應用的需求也逐漸增加,網絡效率開始成為最近的研究熱點。Liu 等人[14]模仿靈長類動物的視覺層次結構,提出了層次視覺感知網絡來進行更好的多尺度學習。Zhou 等人[15]提出一種交互式雙流解碼器來探索網絡中的各種信息,并學習特征之間的相關性來達到更好的預測結果。Wu 等人[16]只利用高層特征相互細化,舍棄編碼部分的低層特征來獲得更高的效率。Liu等人[17]提出一種基于立體注意力機制的輕量級網絡用于SOD任務。以上研究雖然對網絡效率有了較大的提升,但相比之下網絡性能卻遜色許多。為此,本文對性能與效率進行綜合考慮,旨在設計一種能夠在精度、速度和參數(shù)量之間達到平衡的網絡模型。
此外,顯著性目標和背景之間的邊界問題一直是SOD 任務的一大難點,近年來許多研究也正在關注該點。目前對于邊界的研究方法大致可以分為兩種:一種是對于訓練損失函數(shù)的改進,如Qin 等人[18]提出一種可用于邊界感知的混合損失函數(shù),主要由BCE、ⅠOU 和SSⅠM 組成。Feng等人[5]采用一種邊界增強損失來對顯著性目標進行更好的邊界分割。另一種是設計額外的邊界細化模塊,如Zhao等人[7]使用輪廓信息來單獨作為一個監(jiān)督分支,來提升低層網絡對于邊界信息的感知能力。Wang等人[19]構建了一個殘差分支來進行邊緣的預測。以上的研究都對最終性能取得一定的優(yōu)化,同時也證明了邊緣信息的重要性。但邊界損失函數(shù)未考慮到顯著性目標的空間相關性,邊緣細化模塊僅利用邊緣信息來細化預測圖,效果通常有限。
因此,綜合上述分析,為了在精度、速度和參數(shù)量之間來達到平衡,本文提出一種基于深層特征聚合和邊界優(yōu)化的輕量級顯著性目標檢測模型。該方法首先針對當前輕量級特征提取網絡MobileNetV3[20]存在網絡深度較淺、結構簡單、提取信息不足的問題,構造一種回環(huán)特征復用模塊(loop feature reuse module,LFRM)來增強網絡高層語義表達,并減少特征信息的流失;其次,對于不同層級存在的信息差異,提出一種跨層交互聚合模塊(cross-layer interactive aggregation module,CⅠAM)來降低特征融合時噪聲信息的干擾,可以更好地利用各個層級的有效信息;此外,對于邊緣輪廓信息,本文首先對網絡淺層進行輪廓監(jiān)督訓練,來增強淺層網絡對邊緣信息的關注度,其次構建了一種邊緣細化模塊(edge refinement module,ERM)來改善融合后的特征圖,并且考慮到網絡整體的空間相關性,使用一種漸進式自引導損失(progressive self-guided loss,PSG loss)[21]作為輔助訓練監(jiān)督來逐漸指導網絡生成更完整的顯著對象。如圖1 展示了本文方法和當前最先進方法的性能與效率。本文所提出的模型參數(shù)只有3.48×106,對于尺寸大小為352×352的圖片,在單個1080Ti顯卡上運行速度能達到108 FPS,并且能夠達到與當前最先進SOD方法相當,甚至更好的性能。
圖1 性能與效率對比Fig.1 Performance vs.efficiency
如圖2 所示,本文將特征提取網絡分為五個階段E1、E2、E3、E4、E5,先將E3、E4、E5傳入回環(huán)特征復用模塊(LFRM)中來充分增強高級特征表達,其結果一邊與淺層特征E1來進行有效融合,并通過顯著目標輪廓監(jiān)督訓練來獲得邊緣信息。一邊輸入到跨層交互聚合模塊(CⅠAM)中與E2有效融合空間信息和語義信息,并降低噪聲干擾。最后將邊緣信息和CⅠAM 的輸出一起輸入到邊界細化模塊(ERM)來得到更為精確的預測圖。為了優(yōu)化網絡訓練,對LFRM和CⅠAM的輸出額外使用兩個分支來進行監(jiān)督訓練。此外,引入PSG loss作為輔助損失來逐步引導各訓練階段,來獲得更完整的預測圖。接下來將詳細介紹各個部分。
圖2 整體算法結構框圖Fig.2 Overall algorithm structure block diagram
對于SOD這種像素級任務來說,感受野不夠,會導致上下文信息的缺失,從而影響網絡對于多尺度目標的表征能力。為此,許多研究工作都會選擇在特征提取網絡頂層后添加一個全局信息模塊來獲得更大的感受野以及更豐富的全局上下文信息。而對于輕量級特征提取網絡而言,由于其網絡結構相比之下較淺、較簡單,會導致不僅頂層實際感受野過小,而且深層的特征信息提取有限,即使在網絡頂層再加上一個全局信息提取模塊,也很難充分使網絡理解上下文信息。此外,特征提取網絡各個階段信息存在差異,如感受野不同。直接讓各階段的特征進行跨層融合,會由于其差異性而帶來許多干擾信息,其有限的特征信息和諸多干擾信息是導致最終性能不理想的關鍵之一。為了解決上述問題,本文提出一種回環(huán)特征復用模塊。它主要有兩種作用:一是聚合相鄰輸入特征,因為相鄰特征具有一定的相似性,而相似特征往往就是需要的有用信息。通過有效聚合,可以增強有用信息的特征表示,并降低干擾信息。二是進行特征細化,與其他方法不同,不將聚合后的特征直接進行自頂向上的操作,而是先重用聚合特征進行進一步的特征提取,來獲得更為有效的高級語義信息。此外,在后續(xù)的特征融合中,由于之前進行的相鄰特征聚合和重用特征提取的操作,用于融合的兩個特征圖基本都包含了共同的有用信息,故融合后的特征圖擁有更強的表征能力,而直接與骨干網絡的特征圖進行融合,會因為差異過大,干擾信息較多,而造成融合后的特征圖存在諸多問題。同時考慮到參數(shù)和計算量,降低了通道數(shù),但通道數(shù)的減少會導致一些重要信息的丟失,為此本文和大多數(shù)研究一樣,在網絡頂層采用全局信息模塊來保留有效信息,這里采用的是輕量級的LR-ASPP。
本文提出的回環(huán)特征復用策略并沒有用太過復雜的模塊,保持著網絡的輕量化。具體來說,對于編碼網絡階段E3,輸入兩個3×3 卷積層,而后使用最大池化maxpool來降低特征圖分辨率,然后與E4進行乘法聚合操作來獲取相同的有用特征信息,減少干擾信息。隨后經過一個3×3卷積層來平滑聚合后的特征,再進行最大池化maxpool與經過全局上下文模塊的C5進行乘法聚合,并使用兩個3×3卷積層進行平滑操作。隨后使用類似于FPN的結構將這些特征進行逐層細化融合,同時從連續(xù)高級聚合特征中生成一個初始粗糙顯著預測圖,與標準FPN結構相比,其預測圖對顯著對象的定位更加完整,后續(xù)可以更好地幫助CⅠAM進行空間信息與語義信息的融合以及ERM進行顯著對象邊緣輪廓信息的提取。CⅠAM 和ERM 將在后續(xù)章節(jié)進行詳細介紹。LFRM的更多的細節(jié)如圖2所示。
總體來說,LFRM通過像素相乘的方式來提取相鄰深層特征之間的共同信息,并以下采樣的方式再次處理這些高級特征,可以進一步增強高級特征信息的提?。浑S后將各相鄰層融合后的特征信息通過像素相加和上采樣的方式來進行聚合,以進一步細化高級特征。使用聚合后重用特征來代替骨干網絡的特征來進行融合,這種設計可以在減少各階段特征信息的跨層差異,有利于在各層特征融合時獲得更加有效的多尺度信息,并減少全局上下文信息的丟失,增強特征信息表征能力。由于大多數(shù)操作都在下采樣特征圖上,且減少了一定的通道數(shù)量,該設計的計算開銷很小,跟常規(guī)FPN 結構加上LR-ASPP 相比,使用更小的計算量獲得更好的性能,詳細數(shù)據在下面實驗部分給出。
淺層特征包含著更具體的空間結構信息,但同時也會有許多像背景這一類的噪聲存在;深層特征包含更豐富的語義信息,但帶來了空間上的粗略分辨率,這都會對后續(xù)特征融合造成一定的混疊影響。因此,本文設計了一種跨層交叉聚合模塊來更加有效地融合各階段的特征信息,具體結構如圖3所示。首先為了減少各層之間存在的差異,先使用更加有效的乘法運算來分別增強各階段的顯著信息,同時抑制干擾信息。為了乘法運算的一致性,先將淺層特征輸入到一個下采樣兩倍的3×3卷積層中,再與高層特征信息相乘,隨后經過一個普通3×3 卷積層進行平滑,以此來增強淺層特征的顯著對象。另一邊將高層特征上采樣兩倍后再與低層特征相乘,隨后同樣經過一個普通3×3 卷積層進行平滑,以此來彌補高層特征丟失的一些與顯著對象相關的細節(jié)信息。之后將處理后兩個特征逐元素相加得到融合特征圖,再把它依次經過一個全局平均池化層、1×1 卷積和softmax函數(shù),來生成一個權重向量,然后把該權重向量與融合特征圖相乘,再經過一個3×3 卷積,得到最后的加權特征圖。上述過程可以描述為:
圖3 跨層交互聚合模塊Fig.3 Cross-layer interactive aggregation module
其中,Down3×3和Conv3×3分別表示下采樣兩倍的3×3卷積層和普通3×3 卷積層,都包含一個3×3 卷積、batch normalization 和ReLU 激活函數(shù),upsample 是通過雙線性插值的上采樣操作,⊙和⊕分別表示逐元素相乘和逐元素相加,GAP是全局平均池化操作,δ表示softmax激活函數(shù)??傮w來說,依靠上節(jié)LFRM所獲得的初始顯著目標預測圖,CⅠAM首先將其與淺層特征信息通過像素相乘的方式來突出彼此的共同特征,由于初始顯著目標預測圖已經具備較為完整的顯著對象,故進一步增強其共同特征可以減少淺層特征所包含的干擾信息。同時兩個階段的特征信息通過像素相乘的方式可以減少彼此之間的差異,后續(xù)再通過像素相加的方式來進行融合,增強顯著特征表達能力,再對融合特征圖進行全局平均池化的加權操作,讓顯著特征元素得到更大的權重,充分實現(xiàn)讓最后的輸出特征圖保留更多有效顯著特征信息。
1.3.1 邊緣細化模塊
之前的研究是將淺層特征直接進行邊緣輪廓監(jiān)督訓練,但由于其有效的感受野,淺層特征對所有目標幾乎是一視同仁的,而這里只想要網絡關注需要的顯著性對象。為此,本文先將淺層特征與具有高級語義信息的回環(huán)特征復用模塊的輸出特征相乘,再經過兩個3×3卷積層,以此來突出顯著目標的空間信息,更好地進行邊緣輪廓監(jiān)督訓練,具體細節(jié)如圖4 所示。此外,自然場景圖像中往往擁有許多尺寸不一的復雜對象,受局部卷積運算的限制,每個卷積層僅具有處理特定尺度的能力。因此,提出一種邊緣細化模塊,將上述經過邊緣輪廓監(jiān)督訓練后的邊界信息與CⅠAM 的輸出特征圖進行有效互補后,引入多尺度通道注意力機制思想[21]來獲得多尺度特征,從而緩解顯著對象尺度變換的影響。先將上述模塊分別獲取的兩個特征圖進行逐元素相加,然后分別傳入兩個分支,一個使用全局平均池化層、1×1 卷積和batch normalization 來獲得全局上下文信息,另一個使用1×1 卷積和batch normalization 來保留局部信息,兩個分支再融合得到更全面的特征信息。隨后經過Sigmoid 激活函數(shù)與原始特征逐元素相乘進行特征加權,從而獲取更加全面的特征表達。上述過程可以描述為:
其中,Conv3×3表示3×3 卷積層,包含一個3×3 卷積、batch normalization和ReLU激活函數(shù),upsample是通過雙線性插值的上采樣操作,Conv1×1包含一個1×1 卷積和batch normalization,⊙和⊕分別表示逐元素相乘和逐元素相加,δ是Sigmoid激活函數(shù)。ERM通過融合邊緣輪廓信息來補充在訓練期間獲得的多尺度特征信息,豐富的多尺度信息又可以反過來幫助更好地定位目標邊界,從而獲得更加精細的特征圖。
1.3.2 漸進式自引導損失
之前對邊界信息的優(yōu)化大都是一種“強制”操作,只對網絡最終輸出特征圖進行細化,相當于一種強行矯正,而網絡自生對空間邊界的敏感度并沒有得到多大提升。一種解決方案是對解碼部分的每一層都加入邊緣細化模塊并進行監(jiān)督訓練,來全程引導網絡關注空間信息,然后這種方法會帶來大量的計算復雜度,這違背了本項工作的初衷。相反,引入一種漸進式自引導損失,先讓網絡生成的預測圖進行最大池化膨脹操作,將前景像素添加到邊界上,然后將膨脹后的預測圖與其對應的標簽圖進行相交的并集操作,從而獲得一個跟原始預測圖相似,但更加完整、精確的結果。利用這個結果與原始預測圖進行監(jiān)督訓練,可以指導網絡從訓練開始到結束一直逐步探索當前預測的目標邊界區(qū)域,增強網絡自身的對顯著對象的空間依賴性,從而提升模型性能。上述的描述可以表示為:
其中,?(?,?)表示本文使用的訓練損失函數(shù),Mpred是預測圖,Mgt是對應的groundtruth??梢园褲u進式自引導損失看作是一種輔助損失函數(shù),在提升模型性能的同時也不增加網絡的推理速度。
在SOD 任務中,廣泛使用的二元交叉熵損失函數(shù)(BCE loss)僅僅只是累積整個批次的像素損失,忽略了圖像的整體結構。Qin 等人[18]引入了交占比損失函數(shù)(ⅠoU)來彌補BCE的不足,使網絡更關注整體結構。為此,本文模型的損失函數(shù)定義為:
其中,β是超參數(shù),根據文獻[22]將其設置為0.6來讓網絡更加關注整體結構。此外,本文采用深度監(jiān)督來判斷隱藏層特征圖質量的好壞,以提高各層之間的學習能力。具體來說,對于解碼部分各層融合后的特征圖,依次通過單個輸出通道的3×3卷積、Sigmod激活函數(shù)以及上采樣到與輸入圖片一樣大小,即輸出多個預測圖。邊界監(jiān)督分支只使用?bce,其余監(jiān)督分支結合上述的PSG loss使用?main,其網絡的總損失表達式如下:
其中,Mp-edge和Me-dget分別表示邊界預測圖和對應groundtruth,αi表示各監(jiān)督分支所占的權重比例。
為了充分證明本文網絡的有效性,在SOD 領域中最常用的5個公開基準數(shù)據集上進行評估。這5個數(shù)據集分別為DUTS、DUT-OMRON、PASCALS、HKU-ⅠS 和ECSSD。其中DUTS 數(shù)據集包含兩部分:DUTS-TR 和DUTS-TE。DUTS-TR有10 553張圖像,均是從ⅠmageNet DET訓練集和驗證集中收集的,是目前顯著性目標檢測研究領域中最大且最常用的訓練集;DUTS-TE 包含5 019 幅具有復雜背景與結構的圖像,這些圖像都是從ⅠmageNet DET 測試集和SUN 數(shù)據集中收集的。DUTOMRON 包含5 168 幅背景復雜、內容豐富的圖像。PASCALS包含擁有多個目標且具有復雜場景挑戰(zhàn)性的圖像。HKU-ⅠS由4 447張具有復雜場景的圖像組成,這些場景包含多個顯著目標和相似的前景與背景外觀。ECSSD包含1 000幅具有結構復雜的自然圖像。
為了綜合評估本文所提出的模型,使用3個指標來作為性能度量:平均F-measure (Favg) 、mean absolute error(MAE)和E-measure(Em)。具體來說,平均F-measure可以評估整體性能,F(xiàn)avg越大,表示性能越好。MAE表示預測顯著圖與groundtruth 之間的平均絕對誤差,MAE越小,性能越好。Em將局部像素值和圖像的全局平均值相結合,用于評估顯著性概率圖與groundtruth之間的相似性,Em越大,性能越好。此外,本文還采用Params和FPS來評估模型大小和推理速度。
本文提出的模型基于PyTorch 框架實現(xiàn),GTX 1080Ti GPU用于加速。使用DUTS-TR來作為訓練集,將輸入圖像統(tǒng)一調整為352×352,并且采用多種策略(包括對圖片進行不同尺度的擴張與收縮、隨機裁剪、隨機翻轉等)來進行數(shù)據增強。使用在ⅠmageNet 上進行了預訓練處理的MobileNetV3 作為backbone 網絡。把backbone 網絡的學習率設置為0.005,其他部分設置為0.05,并采用預熱和線性衰減策略。使用隨機梯度下降(SGD)優(yōu)化器,其中batchsize 設置為32,momentum 和weight decay 分別設定為0.9 和0.000 5,在40 個epoch后結束訓練。
為了展現(xiàn)所提方法的優(yōu)越性,與近年來最先進的顯著性目標檢測方法進行比較,包括AFNet、U2Net、EGNet、PoolNet、MⅠNet、GCPANet、PFSNet、ⅠTSDNet、SAMNet、BASNet、PSGLNet、DFⅠ[23]和BANet[24]。為了公平比較,對于所有方法都使用同樣的評估代碼來進行計算,且測試所需的顯著性預測圖都是由作者提供或由公開源代碼生成。
2.4.1 定量比較
表1展示了5個數(shù)據集上3個評估指標的定量比較結果,此外,還展示了各方法的模型大小與運行速度??梢钥闯觯疚乃岢龅姆椒ū憩F(xiàn)出了非常好的性能與效率。在模型大小上,本文所提出的網絡只有3.48×106,遠遠小于其他方法,而對比SAMNet,雖然它的模型(1.33×106)更小,但其網絡性能遠遠無法與本文以及其他方法相比。在效率上,本文所提出的模型以108.7 FPS 的速度領先于其他方法,與本文接近的PSGLNet擁有73.4 FPS,但其模型參數(shù)量(25.55×106)是本文的8倍左右。在性能上,本文的方法也保持著極強的競爭能力,跟其他先進方法相比,在3 個指標上都具有相當甚至更好的結果,尤其是Favg和MAE,本文方法在DUT-OMRON、HKU-ⅠS、DUTS-TE、PASCAL-S、ECSSD 數(shù)據集上都能獲得最優(yōu)或者次優(yōu)的結果(黑體為最優(yōu),下劃線為次優(yōu))。
表1 各數(shù)據集定量對比結果Table 1 Quantitative comparison results of each dataset
2.4.2 定性比較
為了進行更好的直觀感受,提供一些不同場景下的可視化例子,如圖5所示。本文所提出的方法能夠良好處理各種具有挑戰(zhàn)性的場景,從圖5第一行和第二行可以看出,對于顯著對象所占比例較大的圖像場景中,本文方法相較于其他方法,能夠分割出更加完整的顯著對象;圖5 第三行給出了難以區(qū)分邊界的前景與背景,其他方法雖然可以準確定位到顯著對象,但其中草遮掩住貓部分的邊界卻很模糊,而本文方法可以獲得邊緣輪廓更為精細的顯著對象;圖5第四行給出了強光影響下的場景,由于狗身上的顏色會與太陽光進行反射影響,其他方法都難以進行準確定位,而本文方法可以在連續(xù)的高級特征聚合中精確定位顯著對象;圖5第五行和第六行給出了易于混淆的前景干擾場景,可以看出,鳥腳下的樹枝和狗旁邊的盤子都很容易被判定成顯著對象,而本文方法可以有效抑制這些干擾信息,并得到精確的顯著對象。
圖5 定性比較Fig.5 Qualitative comparison
2.4.3 消融實驗
在本小節(jié)進行一系列的對照實驗,來證明研究工作中每個模塊的有效性。采用FPN 這種自頂向上地將高層特征與低層特征逐元素相加的結構作為本文的基線模型(basic)。在該基線模型上,逐步加入各個模塊,結果如表2 所示??梢钥闯觯斨辉诰W絡頂層使用LR-ASPP時,各項指標相比于基線網絡并沒有太大的提升,這證實了對于輕量級特征提取網絡,單單使用全局信息模塊并不足以解決深層信息提取能力不足的問題。相反,當使用本文提出的LFRM 時,與使用LR-ASPP 相比,不僅網絡性能得到了提高,模型參數(shù)還有所下降,而推理速度也只略微下降。具體來說,F(xiàn)avg、MAE 和Em分別提升了0.012、0.004 和0.003,模型參數(shù)減少了0.03×106,推理速度減低了12 FPS,這充分證明了LFRM的高效性。其次,在后續(xù)的各階段特征融合使用CⅠAM,讓各層特征信息可以更為高效地融合,并同時抑制干擾信息,其中Favg、MAE 和Em分別提升了0.010、0.003 和0.003,參數(shù)量增加了0.02×106,速度降低了23 FPS。之后將第一個淺層階段的CⅠAM 換成ERM 來進行邊界細化,F(xiàn)avg、MAE 和Em分別提升了0.003、0.002和0.003,參數(shù)量增加了0.04×106,速度降低了17 FPS,這是由于淺層階段特征圖分辨率較大,不可避免地帶來了一定的計算復雜度。最后,再加上PSG來輔助監(jiān)督訓練,增強網絡自身的對顯著對象的空間依賴性,能夠在不影響模型大小和速度的情況下有效提升性能。當使用本文研究所提的所有方法(即LFRM、CⅠAM、ERM、PSG)時,模型表現(xiàn)出最佳性能,這表明了每個模塊對于網絡的必要性。
表2 模塊消融實驗結果對比Table 2 Experimental results comparison of architecture ablation
本文針對當前SOD 方法普遍存在效率較低的問題,提出了一種快速而準確的輕量級顯著性目標檢測模型。為了使用輕量級網絡也能獲得充足的高層語義特征信息,設計了一種回環(huán)特征復用模塊(LFRM)來作為特征提取子網絡,同時高效聚合語義特征信息來為指導后續(xù)淺層特征進行目標定位。然后,跨層交互聚合模塊(CⅠAM)被用于讓LFRM的高層語義特征與淺層空間細節(jié)特征進行更加有效的交互學習。最后,利用邊界細化模塊(ERM)和漸進式自引導(PSG)損失來增強邊界相關性,進一步細化最終輸出顯著預測圖。本文方法與當前最先進的SOD 研究相比,以更少的參數(shù)和更快的速度達到了相當甚至更好的性能。