基于跨模態(tài)特征融合的RGB-D花椒圖像顯著性檢測

2024-12-28 00:00:00李節(jié)孫成龍王逸涵楊前李柏林

機(jī)械制造與自動化 2024年6期

摘要：針對現(xiàn)有顯著性檢測模型無法有效地協(xié)同花椒枝干彩色圖像和深度圖像特征，建立基于注意力的RGB-D圖像花椒枝干顯著性檢測模型。由兩個單流卷積網(wǎng)絡(luò)分別提取彩色和深度圖像特征；設(shè)計基于空間和通道注意力機(jī)制的跨模態(tài)融合模塊，用于融合多尺度的彩色流和深度流特征；研發(fā)多尺度監(jiān)督機(jī)制，用于緩解由于采用最近鄰域上采樣的解碼方式導(dǎo)致邊緣預(yù)測不準(zhǔn)確的問題。實驗結(jié)果表明：該方法的平均精確度、平均召回率、綜合評價指標(biāo)和平均絕對誤差均優(yōu)于對比顯著性目標(biāo)檢測方法。

關(guān)鍵詞：花椒自動化采摘；圖像處理；RGB-D顯著性目標(biāo)檢測；跨模態(tài)融合；注意力機(jī)制；多尺寸監(jiān)督

中圖分類號：TP391.41文獻(xiàn)標(biāo)志碼： A文章編號：1671-5276（2024）06-0211-07

Abstract：To address the inability of existing saliency detection models to utilize the features of pepper branch color images and depth images effectively， an attention-based RGB-D image pepper branch saliency detection model is proposed. Color and depth image features are extracted separately by two single-stream convolutional networks. A cross-modal fusion module based on spatial and channel attention mechanisms is designed to fuse multi-scale color stream and depth stream features. A multi-scale supervision mechanism is developed to alleviate the inaccurate edge prediction caused by the use of nearest-neighbor upsampling decoding. Experimental results show that the average accuracy， average recall rate， comprehensive evaluation index and average absolute error of the proposed method are all superior to the compared salient object detection methods.

Keywords：automated pepper harvesting; picture processing; RGB-D significance target detection; cross-mode fusion; attention mechanism; multi-dimension supervision

0引言

花椒是四川省重要經(jīng)濟(jì)作物，提升花椒采摘的自動化水平對于我國西部鄉(xiāng)村振興具有重要意義。得益于近些年來計算機(jī)軟硬件的發(fā)展，基于視覺的采摘機(jī)器人被廣泛地應(yīng)用于蘋果、柑橘和葡萄的自動化采摘。作為智能采摘機(jī)器人［1］的重要組成部分，視覺系統(tǒng)通常被設(shè)計用于識別并定位果實位置，從而引導(dǎo)機(jī)械部分完成采摘。不同于蘋果、柑橘等的采摘，簇狀花椒的采摘點無法直接被觀測到，而采摘點的估計需要利用枝干和花椒簇的交點來確定。

如圖1所示，考慮到機(jī)械臂的運(yùn)動空間及復(fù)雜采摘場景中的干擾物（枝條、葉子等），合理的花椒采摘規(guī)劃應(yīng)為采摘明顯的近景花椒，忽略遠(yuǎn)景花椒。由于近景花椒一般位于前景中較粗的主枝干上，因此前景主枝干的提取是花椒采摘點估計的重要前提。

花椒前景的主枝干提取任務(wù)是一種顯著性目標(biāo)檢測［2］（salient object detection， SOD）問題，旨在實現(xiàn)圖像場景中感興趣區(qū)域的快速提取并過濾背景噪聲的干擾。文獻(xiàn)［3］提出了一種RGB-SOD算法用于農(nóng)田中的昆蟲檢測并取得了良好的效果，但易受到復(fù)雜環(huán)境的干擾，無法有效用于具有低對比度、相似前景與背景、復(fù)雜背景等特點的花椒主枝干提取。為了實現(xiàn)復(fù)雜農(nóng)業(yè)場景中SOD，文獻(xiàn)［4］提出了雙流主干網(wǎng)絡(luò)用于同時提取柑橘圖像的彩色和深度特征，提供具有魯棒性的顯著性線索。文獻(xiàn)［5］以跳層結(jié)構(gòu)為基礎(chǔ)提取跨模態(tài)間的多層次互補(bǔ)信息。為了更好地獲取跨模態(tài)間的互補(bǔ)信息用于顯著性推理，文獻(xiàn)［6］提出了一種流體金字塔結(jié)構(gòu)用于引導(dǎo)深度圖像和彩色圖像的信息融合。復(fù)雜的農(nóng)作環(huán)境中采集到的彩色圖像和深度圖像中跨模態(tài)信息往往是非耦合的（圖1），采集到的花椒深度圖像中還包含了與前景相似的噪聲，而現(xiàn)有的一些研究表明線性的跨模態(tài)融合方法無法有效地抑制相似噪聲的干擾，從而影響最終的識別結(jié)果。為了抑制深度圖像中的噪聲對顯著推理造成的影響，文獻(xiàn)［7］利用邊緣一致性、區(qū)域不確定性和模型方差來評估深度圖質(zhì)量，并以此指導(dǎo)深度圖與彩色圖的選擇性融合。然而，該方法依賴手動設(shè)計的質(zhì)量評價標(biāo)準(zhǔn)，無法應(yīng)對花椒采摘場景中的各種復(fù)雜背景的干擾。

針對相似前景與背景、復(fù)雜背景中的花椒枝干提取問題，本文提出基于注意力機(jī)制［8］和多尺度監(jiān)督［9］的花椒主枝干顯著性檢測模型。模型的編碼器采用主流的雙分支主干網(wǎng)絡(luò)來提取彩色圖像特征和深度圖像特征。此外，在多個尺度上，本文提出特征融合增強(qiáng)模塊（feature fusion enhancement module，F(xiàn)FEM）并將其嵌入到兩個分支網(wǎng)絡(luò)中，利用空間與通道注意力模式來實現(xiàn)跨模態(tài)特征的判別融合。在多尺度分割標(biāo)簽的監(jiān)督下，特征融合增強(qiáng)模塊能夠自動學(xué)習(xí)空間權(quán)值圖和通道權(quán)值向量。本文方法如下。

1）針對復(fù)雜的農(nóng)作環(huán)境中花椒主枝干的檢測問題，提出一種基于跨模態(tài)特征融合的RGB-D花椒枝干圖像顯著性檢測模型。

2）所提模型在多個編碼層級采用通道權(quán)值向量調(diào)整彩色和深度圖像的串聯(lián)特征，并計算調(diào)整后特征的空間權(quán)值圖，提取主枝干的形狀特征并抑制背景噪聲。

3）采用多尺度監(jiān)督的方式來緩解上采樣過程中的邊緣信息丟失，提高模型對主枝干的分割效果。

1所提模型

1.1網(wǎng)絡(luò)結(jié)構(gòu)

花椒主枝干的精確提取是預(yù)測花椒采摘點的重要前提。為了在復(fù)雜農(nóng)作環(huán)境下完成花椒主枝干的精確提取，本文提出了一種跨模態(tài)的枝干顯著性檢測模型，如圖2所示。模型采用花椒彩色和深度圖像兩種輸入信息，由兩個單流卷積網(wǎng)絡(luò)獲取多尺度的編碼特征。單流卷積網(wǎng)絡(luò)采用類似Unet編碼器架構(gòu)，通過連續(xù)地組合卷積編碼層（包括卷積層、批歸一化層、線性整流層和最大池化層）來編碼彩色圖像和深度圖像特征。為了有效地利用彩色和深度編碼特征，提出特征融合增強(qiáng)模塊用于實現(xiàn)跨模態(tài)特征的判別融合并剔除特征中相似背景的噪聲干擾。該模塊借鑒了注意力機(jī)制聚焦于感興趣區(qū)域的特性，通過在線性融合過程中嵌入非線性注意力單元來改善融合后特征的顯著性表達(dá)。在上采樣過程中，一個反向的解碼網(wǎng)絡(luò)被用于解碼圖像特征，非線性注意力單元被嵌入到網(wǎng)絡(luò)的每一層級來進(jìn)一步精煉特征表示。最終，通過多級監(jiān)督的方式，顯著性推理模塊完成最終的預(yù)測輸出。

1.2基于注意力的跨模態(tài)融合模塊

彩色花椒圖像中主枝干的提取會受到相似前景枝干的干擾。因此，為準(zhǔn)確地區(qū)分主枝干還需要深度圖像提供額外的顯著性線索。然而，復(fù)雜的農(nóng)作環(huán)境易導(dǎo)致深度圖的深度線索缺失，使得深度圖像中枝干與附近葉子、花椒等對象融為一體。從低質(zhì)量的深度圖像中分辨出目標(biāo)枝干仍然需要借助顏色、紋理等外觀信息。因此，本文設(shè)計了跨模態(tài)融合模塊來同時提取彩色模態(tài)和深度模態(tài)中包含的與主枝干相關(guān)的編碼信息。為了減少彩色模態(tài)和深度模態(tài)中與顯著性目標(biāo)相似的背景信息對主枝干提取的干擾，本文在融合模塊中嵌入注意力機(jī)制來精煉融合后的編碼特征。

單一層級跨模態(tài)融合模塊的結(jié)構(gòu)如圖3所示。該模塊首先接收來自同層級的彩色模態(tài)和深度模態(tài)特征XRGBi∈RCi×（H/2i）×（W/2i）和XDEPi∈RCi×（H/2i）×（W/2i），其中參數(shù)C、H、W和i分別表示編碼特征的通道數(shù)量、尺度和層級系數(shù)，R表示實數(shù)空間。

針對雙模態(tài)的特征，首先采用拼接操作聚合跨模態(tài)特征，并采用卷積操作對聚合特征進(jìn)行非線性映射：

式中：Conv3×3表示采用3×3尺寸的卷積核進(jìn)行步長為1的標(biāo)準(zhǔn)卷積操作；BN（·）和ReLU（·）分別代表批歸一化和線性整流操作。

對于聚合后的跨模態(tài)特征Ffusion，分別采用通道注意模塊和空間激活模塊來計算該特征的通道權(quán)值圖和空間權(quán)值圖。最終，融合模塊的編碼輸出將表示為輸入編碼在權(quán)值圖上的加權(quán)映射。具體的計算過程如下：

式中：CAM表示通道注意力模塊；表示對應(yīng)元素相乘；通道權(quán)值圖FCAM∈RCi×（H/2i）×（W/2i）。

式中：SAM表示空間注意力模塊；空間權(quán)值圖FSAM∈RCi×（H/2i）×（W/2i）；模塊最終輸出的編碼特征XRGB′i∈RCi×（H/2i）×（W/2i）。

通道注意力通過自適應(yīng)地計算輸入特征通道權(quán)值圖來為判別力強(qiáng)的重要通道賦予較高權(quán)值，從高維冗余的特征圖中選擇對顯著性表達(dá)更加有利的特征表示?？臻g注意力機(jī)制通過自適應(yīng)計算來增強(qiáng)顯著性區(qū)域的特征表示。由于顯著性區(qū)域被賦予更高的空間權(quán)值，多模態(tài)特征中與主枝干相似的背景噪聲能夠被更好地抑制。

1.3通道注意機(jī)制和空間激活機(jī)制

卷積網(wǎng)絡(luò)輸出的中間層特征中包含反映不同內(nèi)容的通道，例如彩色模態(tài)中枝干的主要形狀、細(xì)節(jié)輪廓、語義信息，深度模態(tài)中主枝干與背景的深度差異性、目標(biāo)的深度輪廓等。在主枝干的顯著性檢測中，特征圖中背景的細(xì)節(jié)輪廓信息會干擾顯著性目標(biāo)的檢測，造成分割結(jié)果中出現(xiàn)與主枝干結(jié)構(gòu)相似的背景枝干，甚至花椒和葉子等背景對象。因此，對多通道編碼特征進(jìn)行差異化關(guān)注，可以增強(qiáng)其中與顯著性預(yù)測相關(guān)的特征表達(dá)，起到抑制多模態(tài)特征中背景信息的干擾作用，有利于前景主枝干提取。因此在跨模態(tài)融合模塊每個層級中，通道注意機(jī)制被嵌入用于引導(dǎo)網(wǎng)絡(luò)對融合后的跨模態(tài)編碼特征中與顯著性預(yù)測相關(guān)的通道，進(jìn)行重點關(guān)注，其結(jié)構(gòu)如圖4所示。

首先，對輸入的串聯(lián)特征Ffusion進(jìn)行轉(zhuǎn)置：

式中Permute（·）表示轉(zhuǎn)置操作，轉(zhuǎn)置后的編碼特征FTfusion∈R（H/2i）×（W/2i）×Ci。

然后，采用包含一個隱含層的多層感知機(jī)對轉(zhuǎn)置特征進(jìn)行非線性映射：

式中MLP由兩個全連接層與一個ReLU激活函數(shù)層組成。與CBAM［10］類似，本文在MLP進(jìn)行特征映射時，采用reduction為r的調(diào)節(jié)通道衰減系數(shù)。MLP輸出的編碼FT∈R（H/2i）×（W/2i）×Ci。

隨后，采用轉(zhuǎn)置操作還原編碼特征的維度，同時采用Sigmoid激活函數(shù)將還原后的特征映射到［0，1］并獲得最終的通道權(quán)值圖FCAM：

式中σ表示Sigmoid函數(shù)。

編碼特征中的二維圖反映了不同內(nèi)容的語義激活，二維圖特定的權(quán)值圖能夠引導(dǎo)網(wǎng)絡(luò)增強(qiáng)相應(yīng)區(qū)域的語義響應(yīng)，從而抑制非感興趣區(qū)域特征的表達(dá)。本文進(jìn)一步嵌入空間激活機(jī)制到模態(tài)融合模塊中?？臻g注意力機(jī)制依據(jù)顯著性監(jiān)督來自適應(yīng)計算有利于枝干預(yù)測的二維權(quán)值圖，從而引導(dǎo)枝干顯著性特征的表達(dá)。

在空間激活機(jī)制中（圖5），對輸入的編碼特征采用7×7的卷積操作，獲取更大的感受野，使網(wǎng)絡(luò)能夠更加有效地利用上下文空間信息。同時，為減少較大卷積核帶來的計算負(fù)擔(dān)，上述卷積操作采用了reduction為r的可調(diào)節(jié)通道衰減系數(shù)：

式中：FM為卷積后的編碼特征；Convr7×7表示采用7×7卷積核和通道衰減系數(shù)r的卷積操作。

隨后采用7×7卷積核和通道衰減系數(shù)1/r的卷積操作將該特征映射到與輸入特征相同的特征空間：

最后采用Sigmoid激活函數(shù)將編碼特征中的特征值映射到［0，1］以得到最終的空間權(quán)值圖FSAM：

FSAM中每個特征點的取值范圍是［0，1］，某個位置的權(quán)值較大則表明此處的特征被增強(qiáng)，否則被削弱。通過訓(xùn)練階段優(yōu)化卷積核參數(shù)，F(xiàn)SAM能夠自適應(yīng)地根據(jù)彩色特征XRGBi和深度特征XDEPi為分割目標(biāo)區(qū)域賦予較大特征權(quán)值，增強(qiáng)前景主枝干區(qū)域的特征，抑制遠(yuǎn)景枝干的干擾。因此，融合跨模態(tài)特征的空間權(quán)值圖FSAM能夠引導(dǎo)模型更加關(guān)注特征圖中的局部重要區(qū)域。

1.4顯著性推理

特征解碼階段采用鄰域插值的上采樣操作會丟失目標(biāo)邊緣輪廓的部分特征，使得分割結(jié)果中物體的邊緣較為粗糙［11］。然而花椒采摘點的估計需要精確的枝干邊緣作為依據(jù)。因此，采用多尺度監(jiān)督的方式來減少上采樣過程中邊緣信息的丟失，如圖6所示。在特征解碼階段，本文采用與Skip-Unet類似的解碼網(wǎng)絡(luò)，通過采用階梯式的最近鄰域上采樣層和卷積激活操作來對融合后的跨模態(tài)特征編碼進(jìn)行最終的解碼映射。在上采樣過程中，跳躍連接被用于從編碼器中獲取部分特征映射來提升解碼器的特征豐度，緩解因注意力機(jī)制而丟失的部分編碼特征。

在上采樣過程中的每一個層級，對應(yīng)尺度的真實標(biāo)簽值GT，i被依次用于監(jiān)督特征解碼過程，以損失計算的方法來引導(dǎo)枝干特征的顯著表達(dá)。其中，不同尺度的真實標(biāo)簽值通過下采樣真實標(biāo)簽圖獲得。

2實驗結(jié)果與分析

2.1實驗設(shè)置

1）數(shù)據(jù)集

實驗采用的花椒圖像采集于四川省冕寧縣，品種為紅花椒，處于盛果采摘期（2021年7月2日—7月6日），果實的顏色以紅色為主。采用Intel RealSence D435i深度相機(jī)采集花椒的彩色和深度圖像，并將二者尺寸進(jìn)行對齊。表1詳細(xì)地列出了圖像數(shù)據(jù)集的信息。為了保證數(shù)據(jù)的多樣性，采集的圖像涵蓋了3種天氣條件（晴天、多云、雨后）和一天中的兩個時間段（上午和下午），如圖7所示。從5棵不同大小的花椒樹上總共收集了1 725張彩色圖像和對應(yīng)的深度圖，其中1 042張彩色圖像被標(biāo)記用于識別算法的訓(xùn)練和驗證。其中，70%（721）的標(biāo)記圖像被用作訓(xùn)練數(shù)據(jù)，剩余30%（321）的標(biāo)記圖像被用于實驗驗證，以測試識別算法的擬合性能。此外，剩余683張未標(biāo)記的圖像則被用來測試算法的識別效果。在數(shù)據(jù)標(biāo)注方面，LabelMe軟件被用于手動標(biāo)注主枝干的分割掩碼。

2）模型參數(shù)

實驗框架基于PyTorch1.2框架搭建，訓(xùn)練階段采用Adam優(yōu)化器來訓(xùn)練網(wǎng)絡(luò)，選取學(xué)習(xí)率、批量、迭代次數(shù)和通道衰減系數(shù)r分別設(shè)置為0.001、6、800和16。測試階段，將模型預(yù)測概率大于0.7的像素作為分割目標(biāo)。所有實驗環(huán)境均采用Ubantu 18.04的設(shè)備環(huán)境，顯卡為NVIDIA GeForce RTX 3090。

3）評價指標(biāo)

為更好地評估模型的綜合性能，采用平均精確度P、平均召回率R、Fmeasure和平均絕對誤差（mean absolute error，MAE）作為評價指標(biāo)。如表2所示，模型檢測結(jié)果的定義主要分為真陽性（true positive，TP）、假陽性（1 positive，F(xiàn)P）、真陰性（true negative，TN）、假陰性（1 negative，F(xiàn)N）4種情況。

Fmeasure是對精確度和召回率的整體表現(xiàn)評估，計算公式如下：

式中β2是一個超參數(shù)，通常取0.3。P、R、Fmeasure數(shù)值越大，顯著性目標(biāo)檢測效果越好。

MAE值用于評估顯著預(yù)測圖和真值圖之間的平均絕對差值，代表顯著性檢測的整體效果：

式中：N和M分別為圖像的長和寬；S（x，y）和G（x，y）分別為（x，y）處的顯著預(yù)測值和真值。MAE值越小，表明模型預(yù)測的結(jié)果與真實標(biāo)注圖間差異越小，因此枝干的分割性能越好。

2.2對比實驗

為測試本文模型的性能，本文采用主流的顯著性模型進(jìn)行對比，包括全局上下文感知漸進(jìn)聚合顯著性目標(biāo)檢測網(wǎng)絡(luò)（global context-aware progressive aggregation network for salient object detection，GCPANet）［12］、金字塔特征注意力顯著性檢測網(wǎng)絡(luò)（pyramid feature attention network for saliency detection，PFAN）［13］、基于CNN的跨視圖轉(zhuǎn)移和多視圖融合RGB-D顯著性檢測網(wǎng)絡(luò)（CNNs-based RGB-D saliency detection via cross-view transfer and multiview fusion，MV-CNN）［14］、基于分層動態(tài)濾波RGB-D顯著性檢測網(wǎng)絡(luò)（hierarchical dynamic filtering network for RGB-D salient object detection，HDFNet）［15］。指標(biāo)結(jié)果定量比較如表3所示。

從表3中可以看出：本文模型取得了最佳的顯著性檢測效果，其中P、R、Fmeasure和MAE指標(biāo)分別為0.852 3、0.862 5、0.854 6和0.041 2。與MV-CNN網(wǎng)絡(luò)相比，指標(biāo)性能分別提升了0.95、1.79、1.14和0.14個百分點。相比于其他的3種網(wǎng)絡(luò)，指標(biāo)性能分別有1.53～3.51、1.89～3.93、1.94～3.61和1.16～2.15個百分點的提升。此外，為了清晰地觀察實驗結(jié)果，本文繪制了各個模型的P-R曲線。如圖8所示，P-R曲線表明本文模型優(yōu)于MV-CNN模型，同時明顯優(yōu)于HDFNet、GCPANet和PFAN模型。

為了更直觀地分析結(jié)果，本文進(jìn)一步展示了各個模型檢測的可視化結(jié)果，如圖9所示。

從圖9中可以看出，本文模型能夠在雜亂背景、前景和不易區(qū)分背景、多個對象等復(fù)雜場景中，準(zhǔn)確檢測到顯著花椒枝干區(qū)域。如第一、第二行圖片中存在較多與前景主枝干類似的背景枝干，但本文模型能夠充分抑制背景枝干噪聲，將前景主枝干識別出來。第三行圖片中前景區(qū)域存在多個枝干對象，本文模型仍能夠?qū)⑶熬爸髦Ω勺R別出來。這表明本文模型能夠有效過濾冗余信息，準(zhǔn)確地輸出識別結(jié)果。

2.3消融實驗

為測試本文所提不同模塊對模型顯著性檢測的影響，設(shè)置以下模型進(jìn)行對比實驗：A，基礎(chǔ)模型，經(jīng)典的U-Net單模態(tài)骨干網(wǎng)絡(luò)模型；B，雙編碼器模型，在U-Net模型的基礎(chǔ)上，增加另一編碼器通道提取深度圖像特征，兩通道在編碼階段結(jié)束后特征直接拼接進(jìn)入解碼階段；C，跨模態(tài)多尺度特征融合模型，該模型同樣采用雙通道提取圖像特征，并在編碼階段的5個層次分別加入特征融合模塊進(jìn)行特征融合，融合后的特征進(jìn)入彩色圖像通道繼續(xù)編碼；D，多尺度監(jiān)督模型，在U-Net模型的基礎(chǔ)上，在解碼階段進(jìn)行多尺度監(jiān)督；E，本文模型，同時采用跨模態(tài)多尺度特征融合模塊和多尺度監(jiān)督模塊。上述模型的檢測性能如表4所示。

從表4中可以看出：模型B由于未采用特征融合模塊對深度圖像和彩色圖像進(jìn)行特征融合，導(dǎo)致被冗余的深度信息干擾，評價指標(biāo)反而差于基礎(chǔ)模型；模型C在引入多尺度特征融合增強(qiáng)模塊后，評價指標(biāo)得到了明顯的提升；模型D的多尺度監(jiān)督模塊也促進(jìn)了模型的評估性能。多尺度特征融合增強(qiáng)模塊和多尺度監(jiān)督模塊的聯(lián)合使用和僅使用單個模塊相比，指標(biāo)性能分別有0.96～2.38、2.22～3.19、1.25～2.56和0.70～1.24個百分點的提升。此外，本文繪制了5種模型檢測的P-R曲線，如圖10所示。從中可以看出，使用多尺度特征融合增強(qiáng)模塊和多尺度監(jiān)督模塊后模型的檢測曲線能夠?qū)⑵渌€完全包住，這證明了其性能優(yōu)于其他幾種檢測模型。

為了更加直觀地反映出多尺度特征融合增強(qiáng)模塊和多尺度監(jiān)督模塊對顯著性檢測的影響，本文對這幾個模型的部分檢測結(jié)果進(jìn)行了可視化，如圖11所示。從圖11中可以看出：模型B增加了預(yù)測圖的噪聲數(shù)量，帶來了負(fù)面效果；模型C又極大程度上抑制了噪聲，這定性地證明了多尺度特征融合增強(qiáng)模塊的作用；使用模型D的多尺度監(jiān)督模塊后，模型提取邊緣信息的能力更強(qiáng)；同時本文模型使用了多尺度特征融合增強(qiáng)模塊和多尺度監(jiān)督模塊，可以得到輪廓清晰且無噪聲的前景主枝干預(yù)測圖。

3結(jié)語

針對現(xiàn)有顯著性目標(biāo)檢測模型難以準(zhǔn)確定位復(fù)雜場景下花椒枝干的問題，本文提出跨模態(tài)特征融合的RGB-D花椒圖像顯著性檢測模型。本文方法首先采用雙分支主干網(wǎng)絡(luò)來提取彩色圖像特征和深度圖像特征，并利用注意力機(jī)制來引導(dǎo)這兩個模態(tài)特征的融合；最后引入多尺度監(jiān)督方法用于提升模型對于顯著性枝干邊緣的檢測性能。實驗結(jié)果表明：本文模型的各項評估指標(biāo)均優(yōu)于其他顯著性目標(biāo)檢測模型，能夠得到更加精確的枝干檢測結(jié)果。

參考文獻(xiàn)：

［1］楊前，劉興科，羅建橋，等. 基于多任務(wù)上下文增強(qiáng)的花椒檢測模型［J］. 機(jī)械制造與自動化，2023，52（1）：113-118，149.

［2］ LIU J J，HOU Q B，LIU Z A，et al. PoolNet+：exploring the potential of pooling for salient object detection［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence，2023，45（1）：887-904.

［3］黃世國，洪銘淋，張飛萍，等. 基于F～3Net顯著性目標(biāo)檢測的蝴蝶圖像前背景自動分割［J］. 昆蟲學(xué)報，2021，64（5）：611-617.

［4］ SUN Q X，CHAI X J，ZENG Z K，et al. Noise-tolerant RGB-D feature fusion network for outdoor fruit detection［J］. Computers and Electronics in Agriculture，2022，198：107034.

［5］陳曦濤，訾玲玲，張雪曼. 采用跳層卷積神經(jīng)網(wǎng)絡(luò)的RGB-D圖像顯著性檢測［J］. 計算機(jī)工程與應(yīng)用，2022，58（2）：252-258.

［6］ LIU Z Y，LIU J W，ZUO X，et al. Multi-scale iterative refinement network for RGB-D salient object detection［J］. Engineering Applications of Artificial Intelligence，2021，106：104473.

［7］ WANG X H，LI S，CHEN C，et al. Depth quality-aware selective saliency fusion for RGB-D image salient object detection［J］. Neurocomputing，2021，432：44-56.

［8］ NIU Z Y，ZHONG G Q，YU H. A review on the attention mechanism of deep learning［J］. Neurocomputing，2021，452：48-62.

［9］ WANG N，CUI Z G，SU Y Z，et al. Multiscale supervision-guided context aggregation network for single image dehazing［J］. IEEE Signal Processing Letters，2021，29：70-74.

［10］ WOO S，PARK J，LEE J Y，et al. CBAM：convolutional block attention module［C］//European Conference on Computer Vision. Cham：Springer，2018：3-19.

［11］ YU J，YAO J H，ZHANG J，et al. SPRNet：single-pixel reconstruction for one-stage instance segmentation［J］. IEEE Transactions on Cybernetics，2021，51（4）：1731-1742.

［12］ CHEN Z Y，XU Q Q，CONG R M，et al. Global context-aware progressive aggregation network for salient object detection［J］. Proceedings of the AAAI Conference on Artificial Intelligence，2020，34（7）：10599-10606.

［13］ ZHAO T，WU X Q. Pyramid feature attention network for saliency detection［C］//2019IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Long Beach，CA，USA： IEEE，2019：3080-3089.

［14］ HAN J W，CHEN H，LIU N，et al. CNNs-based RGB-D saliency detection via cross-view transfer and multiview fusion［J］. IEEE Transactions on Cybernetics，2018，48（11）：3171-3183.

［15］ PANG Y W，ZHANG L H，ZHAO X Q，et al. Hierarchical dynamic filtering network for RGB-D salient object detection［C］//Vedaldi A，Bischof H，Brox T，et al. European Conference on Computer Vision. Cham：Springer，2020：235-252.

收稿日期：20230407

基金項目：四川省科技計劃重點研發(fā)項目（2021YFN0020）

第一作者簡介：李節(jié)（1997—），男，四川達(dá)州人，碩士研究生，研究方向為圖像處理、機(jī)器視覺，lijie295195@163.com。

DOI：10.19344/j.cnki.issn1671-5276.2024.06.042

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于跨模態(tài)特征融合的RGB-D花椒圖像顯著性檢測