国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進FPN的小目標(biāo)檢測算法

2024-12-06 00:00:00金可藝陳惠妹曹斯茹
中國新技術(shù)新產(chǎn)品 2024年21期
關(guān)鍵詞:特征融合注意力機制

摘 要:本文針對目前小目標(biāo)檢測中語義信息缺失且識別困難的問題,對目標(biāo)檢測算法中的特征金字塔網(wǎng)絡(luò)(FPN)進行了改進。首先,將頂層特征圖融合上、下文信息,并與混合注意力機制串聯(lián),增強頂層特征,從而在進行自上而下融合過程中獲得更好的特征。其次,針對小目標(biāo)在FPN設(shè)計新的特征層。此層由深層語義信息和淺層細節(jié)信息融合而成,使得到的小目標(biāo)層不僅是高分辨率的淺層,同時還有更豐富的語義信息。最后,將改進目標(biāo)檢測器在MS COCO數(shù)據(jù)集的一類上進行試驗。結(jié)果表明,改進的Cascade RCNN小目標(biāo)檢測精度為54.2%,比原模型提高了11%。

關(guān)鍵詞:小目標(biāo)檢測;FPN;特征融合;注意力機制

中圖分類號:TP 751" " " " " 文獻標(biāo)志碼:A

目標(biāo)檢測是計算機視覺領(lǐng)域的核心問題之一?;谏疃葘W(xué)習(xí)的目標(biāo)檢測器主要有2種,即兩階段和一階段[1]。前者檢測結(jié)果更精確,后者檢測速度更快。為更好地使用多尺度特征圖,進而又提出了特征金字塔網(wǎng)絡(luò)(FPN),以提高檢測精度。目前通用目標(biāo)檢測器在精度上已取得較好效果[2],但是對小目標(biāo)的檢測效果仍然一般。小目標(biāo)檢測是一個備受關(guān)注的研究方向,在自動駕駛、遙感圖像[3]等實際應(yīng)用背景中,檢測算法面臨巨大挑戰(zhàn),很難準(zhǔn)確識別出小目標(biāo)。因此,研究一種用于小目標(biāo)檢測的目標(biāo)檢測算法具有重要的意義。

1 特征金字塔網(wǎng)絡(luò)(FPN)

在目標(biāo)檢測的發(fā)展過程中,專家們對使用單、多尺度特征圖進行了不斷探索[4]。首先,為利用各個尺度的特征圖,對輸入圖片進行多尺度縮放并制造圖像金字塔。其次,對每個尺度的圖片進行提取特征圖和目標(biāo)檢測,但是這種方法訓(xùn)練時間過多,被很快棄用。再次,有專家選擇使用卷積網(wǎng)絡(luò)直接對輸入圖像進行多層卷積和池化,得到最終特征圖并對其進行檢測,但是這種方法僅對頂層特征圖進行檢測,導(dǎo)致特征過于單一,會忽略其他特征層。從次,有專家沿用之前對圖片進行卷積網(wǎng)絡(luò)的方法,對每一層卷積得到的特征圖均進行檢測,得到金字塔型特征層,雖然這種方法利用了每一層的特征圖且訓(xùn)練時間不多,但是也沒有充分利用各層的特征。

為了更好地處理不同尺度的目標(biāo)、充分利用各層特征,本文提出多尺度融合算法,以進一步提升檢測效果,即特征金字塔網(wǎng)絡(luò)(FPN)。FPN不僅利用了不同尺度的特征圖,還在自上而下融合過程后大幅度改進了淺層特征;在提高整體檢測效果的同時,小目標(biāo)精度也有了明顯提升。FPN由自底向上、自頂向上和橫向連接3個部分組成。FPN整體結(jié)構(gòu)如圖1所示。

1.1 自底向上

此部分為主干卷積網(wǎng)絡(luò)的輸出(以ResNet50為例),將每個階級最后的殘差塊結(jié)果作為FPN的輸入,記為{C2,C3,C4,C5}。

1.2 自頂向下

此部分是將上一層進行二倍上采樣的特征圖與此層的特征圖相融合得到此層特征圖。具體過程如下:將經(jīng)過1*1卷積的P5*(等同于C5*)進行2倍上采樣,再將其與下一層的C4*相加得到P4*。同理,C2*、C3*經(jīng)過自頂向下融合后分別得到P3*、P2*。上、下層融合結(jié)構(gòu)如圖2所示。

1.3 橫向連接

此部分包括2個部分。第一是對輸入特征圖{C2,C3,C4,C5}分別進行1*1卷積,得到{C2*,C3*,C4*,C5*}。第二是在自上而下特征融合后,對{P2*,P3*,P4*,P5*}進行3*3卷積,得到特征金字塔的最終輸出{P2,P3,P4,P5}。

2 改進的FPN

目前已有一些對小目標(biāo)特性進行改進的算法[5]。有的專家采用過采樣含有小目標(biāo)的圖像并重復(fù)粘貼復(fù)制小目標(biāo)的方法,對小目標(biāo)檢測進行數(shù)據(jù)增強。有的專家采用對FPN添加融合因子并控制自上向下傳遞的特征量的方法,得到使每層融合到更適合特征的帶有S-α的檢測器。有的專家設(shè)計新的特征級超分辨率,將其作為訓(xùn)練時的監(jiān)督信號,并匹配相對感受野,更精準(zhǔn)地對小目標(biāo)進行監(jiān)督。還有的專家采用分配多尺度特征融合權(quán)重并加入約束大目標(biāo)的抑制塊的方式,使小目標(biāo)保留更多的細節(jié)和特征。

本文針對小目標(biāo)的特性,對FPN進行改進。雖然FPN進行了特征圖的多尺度融合,并已經(jīng)利用較低層的特征來提高對小目標(biāo)的檢測精度,但是其還存在一些問題,例如頂層特征圖缺少上、下文信息融合、小目標(biāo)特征不夠豐富等。本文以頂層特征增強和添加小目標(biāo)層的方式對FPN進行改進,以期取得更好的小目標(biāo)檢測效果。

2.1 頂部特征增強模塊

2.1.1 混合注意力機制(CBAM)

注意力機制一直是目標(biāo)檢測中被廣泛使用的方法。2018年,有專家提出了一種新的注意力機制,即CBAM。這是一種混合注意力機制,它從通道和空間2個方面出發(fā),順序使用通道注意力和空間注意力,使輸入特征圖在通道維度和空間維度上均獲得更好的處理。CBAM由2個部分組成,即通道注意力模塊CAM和空間注意力模塊SAM。CBAM結(jié)構(gòu)如圖3所示。

CAM對輸入的形狀為(B,C,H,W)的特征圖分別進行最大池化和平均池化,得到2個形狀為(B,C,1,1)的特征圖。再將兩者送入共享感知機(MLP)進行處理,將得到的結(jié)果相加。最后利用Sigmoid函數(shù)得到每個通道的權(quán)重系數(shù),并將權(quán)重與輸入特征圖相乘,得到通道注意力特征圖F。

SAM將經(jīng)過CAM模塊調(diào)整的特征圖F沿通道軸分別進行最大池化和平均池化,得到形狀為(B,1,H,W)的2個特征圖。再對2個特征圖進行通道拼接,由卷積降維,得到通道數(shù)為1的特征圖。最后利用Sigmoid函數(shù)得到每個空間位置上的權(quán)重系數(shù),并與特征圖F相乘,得到最終的新特征圖,將其作為輸出。

2.1.2 頂部特征增強

在傳統(tǒng)FPN的自上而下融合過程中,最頂層C5*是由獲取主干卷積網(wǎng)絡(luò)的最高層C5并對其進行1*1卷積后得到的特征圖,而其他層則是由對上一層特征圖進行上采樣,再與本層對應(yīng)的主干網(wǎng)絡(luò)進行卷積后的特征圖相融合得到的,因此只有最頂層特征圖的信息是單一的,缺少上、下文特征融合的部分。本文針對此問題,添加了頂部特征增強模塊。頂部增強結(jié)構(gòu)如圖4所示。

首先,對主干卷積網(wǎng)絡(luò)的C5層進行比例不變的自適應(yīng)池化,分別使用0.1、0.2和0.3這3個池化率獲取不同空間的上、下文信息,得到3個不同尺寸的特征圖r1、r2和r3。其次,將得到的特征圖分別進行卷積,對通道進行降維操作。再次,將特征圖上采樣到同一尺寸,得到3個與C5尺寸相同的特征圖F1、F2和F3。將3個特征圖進行通道拼接,得到含有上、下文信息的新特征圖。獲取上、下文信息結(jié)構(gòu)如圖5所示。從次,對新特征圖與經(jīng)過卷積降維的C5*進行求和,得到一個融合上、下文信息的頂層特征圖。最后,在新得到的頂層特征圖中加入混合注意力機制,進一步增強頂層特征,得到P5*。增強特征圖P5*會為下一層提供更好的特征,將其進行3*3卷積得到P5,將P5送入下一步的區(qū)域生成網(wǎng)絡(luò)(RPN)后,可提高后續(xù)的檢測效果。

2.2 底部特征融合模塊

在圖像目標(biāo)檢測任務(wù)中,小目標(biāo)占整幅圖像的面積比例較小,很難捕捉到它們的細節(jié)信息。并且隨著神經(jīng)網(wǎng)絡(luò)主干模型越來越深,特征圖的分辨率也越來越低,使小目標(biāo)檢測面臨挑戰(zhàn)。一般深層網(wǎng)絡(luò)提取到的特征含有更豐富的語義信息,但是小目標(biāo)相關(guān)的特征更多集中在淺層。雖然深層特征具有更強的語義表達能力,但是對小目標(biāo)來說,它們可能并不是最相關(guān)的特征。本文針對小目標(biāo)語義信息較少的問題設(shè)計了底部特征融合模塊,選擇FPN中的C2層和C3層,將低分辨率特征圖的深層語義與高分辨率特征圖的淺層區(qū)域細節(jié)相融合,得到更適合小目標(biāo)的特征金字塔層SL。底部融合結(jié)構(gòu)如圖6所示。

首先,對FPN的P3*層進行卷積,使通道數(shù)擴大為原來的4倍,提高特征圖的表達能力。其次,使用由1*1卷積和ReLU激活函數(shù)組成的卷積塊進行多次迭代,提取P3*的特征,獲取其主要語義信息。再次,利用像素重排,將其通道數(shù)變?yōu)樵瓉淼?/4、空間維度擴大2倍,以此來提高特征圖的分辨率。再將提高分辨率的特征圖P3*與P2*進行通道拼接,得到1張新的特征圖。從次,將得到的特征圖使用1*1卷積和ReLU激活函數(shù)組成的卷積塊進行多次迭代,提取淺層特征圖中的可靠細節(jié)信息。最后,將高分辨率的特征圖P3*與具有淺層特征信息的特征圖進行像素疊加結(jié)合,得到新的用于小目標(biāo)的FPN層,該層不僅包括淺層特征中的細節(jié)信息,還包括從深層中獲得的更豐富的語義信息。特征融合結(jié)構(gòu)如圖7所示。

將底部融合模塊得到的小目標(biāo)層與C2*相加得到SL*,再將SL*進行3*3卷積得到最終的小目標(biāo)層SL,由此得到了一個融合深層語義信息與淺層細節(jié)信息且包括更多小目標(biāo)特征的特征層。

2.3 在目標(biāo)檢測器中的應(yīng)用

以經(jīng)典兩階段檢測器Faster RCNN為例。首先,在原有模型的基礎(chǔ)上,將本文改進的FPN連接到主干卷積網(wǎng)絡(luò)上,得到多層特征圖。其次,將其送入下一階段的區(qū)域生成網(wǎng)絡(luò)(RPN),得到候選框。再次,將候選框和多層特征圖一同送入感興趣區(qū)域池化(ROI Pooling),得到相應(yīng)的特征表示。最后,經(jīng)過全連接層后,對特征表示進行目標(biāo)分類和邊界框回歸,獲得最終檢測框。改進模型整體結(jié)構(gòu)如圖8所示。同理,可將本文改進的FPN應(yīng)用到其他兩階段目標(biāo)檢測器模型中,以提升小目標(biāo)檢測的效果,成為針對小目標(biāo)改進的檢測器模型。

3 試驗結(jié)果

3.1 試驗環(huán)境和參數(shù)設(shè)置

本文使用Ubuntu 18.04操作系統(tǒng)。硬件采用Intel(R) Xeon(R) Platinum 8352V CPU和顯存為24 GB的NVIDIA RTX 4090 GPU;軟件選擇Python 3.8.0、Cuda11.1?;赑ytorch 1.8.1框架搭建實驗平臺,并使用開源的目標(biāo)檢測框架MMDetection(v3.2.0)進行模型訓(xùn)練和評估。在訓(xùn)練過程中,選擇隨機梯度下降(SGD)優(yōu)化器,動量因子和權(quán)重衰減因子分別設(shè)置為0.9和0.000 1,初始學(xué)習(xí)率為0.02,訓(xùn)練迭代12個epoch,每個批量(batch_size)包括2個樣本。

3.2 數(shù)據(jù)集與評估指標(biāo)

MS COCO數(shù)據(jù)集是目標(biāo)檢測中使用最廣泛的通用數(shù)據(jù)集之一,將數(shù)據(jù)集中分辨率小于(32×32)ppi的目標(biāo)定義為小目標(biāo)。該數(shù)據(jù)集包括80個目標(biāo)類別,并具有大量小目標(biāo)物體數(shù)(標(biāo)注約有41%的目標(biāo)面積小于32×32)。目前駕駛安全和自動駕駛技術(shù)得到越來越多的關(guān)注,因此本文選用COCO 2017數(shù)據(jù)集中的停車標(biāo)志類(stop_sign)進行試驗。此類共包括1 803張圖片,其中訓(xùn)練集為1 734張,驗證集為69張。

本文試驗使用的評估指標(biāo)包括平均精度(mAP)、平均召回率(mAR)以及針對小目標(biāo)的平均精度(mAPs)和平均召回率(mARs)。

3.3 試驗結(jié)果分析

在試驗中,將本文改進的FPN分別應(yīng)用到兩階段檢測器Faster RCNN和Cascade RCNN中,評估結(jié)果見表1。由表1可知,本文的改進目標(biāo)檢測模型的精度均有所提升,對小目標(biāo)的檢測效果更顯著。改進的Cascade RCNN模型的檢測精度提升明顯,雖然總精度只提高了2.5%,但是對小目標(biāo)的檢測精度卻提高了11%。

檢測結(jié)果比較如圖9所示,圖9(a)~圖9(c)分別為原Cascade RCNN模型的檢測結(jié)果,圖9(d)~圖9(f)分別為本文的改進模型檢測結(jié)果。比較圖9(c)、圖9(f)可知,原模型并未檢測出小停車標(biāo)志,而本文改進模型不僅能檢測出,還具有良好的檢測值。

4 結(jié)語

針對小目標(biāo)所在的淺層語義信息不夠豐富和FPN頂層缺少上、下文信息的問題,本文提出了改進小目標(biāo)檢測的目標(biāo)檢測器模型算法。該算法對頂層補充上、下文信息并添加注意力機制增強特征,使整個網(wǎng)絡(luò)的特征進一步增強。并在底層進行深層與淺層特征融合,針對小目標(biāo)得到了一個語義信息更豐富的淺層特征層。最后與原目標(biāo)檢測器進行對比試驗,結(jié)果表明,改進模型在一定程度上提升了總精度,大幅提高了小目標(biāo)的檢測精度。

參考文獻

[1]ZOU Z,CHEN K,SHI Z,et al.Object detection in 20 years:A Survey[J].Proceedings of the IEEE,2023,111(3):257-276.

[2]張陽婷,黃德啟,王東偉,等.基于深度學(xué)習(xí)的目標(biāo)檢測算法研究與應(yīng)用綜述[J].計算機工程與應(yīng)用,2023,59(18):1-13.

[3]CHENG G,YUAN X,YAO X,et al.Towards large-Scale small"object detection:Survey and benchmarks[J].IEEE Transactions on pattern analysis and machine intelligence,2023,45(11):13467-13488.

[4]陳科圻,朱志亮,鄧小明,等.多尺度目標(biāo)檢測的深度學(xué)習(xí)研究綜述[J].軟件學(xué)報,2021,32(4):1201-1227.

[5]潘曉英,賈凝心,穆元震,等.小目標(biāo)檢測研究綜述[J].中國圖象圖形學(xué)報,2023,28(9):2587-2615.

猜你喜歡
特征融合注意力機制
面向短文本的網(wǎng)絡(luò)輿情話題
基于自注意力與動態(tài)路由的文本建模方法
基于深度學(xué)習(xí)的問題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
軟件工程(2017年11期)2018-01-05 08:06:09
InsunKBQA:一個基于知識庫的問答系統(tǒng)
基于多特征融合的圖像匹配算法
人體行為特征融合與行為識別的分析
基于移動端的樹木葉片識別方法的研究
科技資訊(2017年11期)2017-06-09 18:28:13
基于SIFT特征的港口內(nèi)艦船檢測方法
保靖县| 灵川县| 庆安县| 柳江县| 甘南县| 靖宇县| 广河县| 湘潭县| 青铜峡市| 睢宁县| 揭西县| 甘肃省| 梅河口市| 清涧县| 卢龙县| 无为县| 象山县| 平遥县| 博客| 茂名市| 从化市| 仁寿县| 西充县| 韶关市| 舞钢市| 葫芦岛市| 禹州市| 宁安市| 绿春县| 句容市| 清远市| 江孜县| 巴彦县| 莱芜市| 奎屯市| 微山县| 南澳县| 镇远县| 彭州市| 临夏县| 广南县|