趙松璞,楊利萍,趙 昕,彭志遠,梁東興,梁洪軍
基于自適應(yīng)注意力機制的紅外與可見光圖像目標(biāo)檢測
趙松璞,楊利萍,趙 昕,彭志遠,梁東興,梁洪軍
(深圳市朗馳欣創(chuàng)科技股份有限公司成都分公司,四川 成都 610000)
針對紅外和可見光目標(biāo)檢測方法存在的不足,將深度學(xué)習(xí)技術(shù)與多源目標(biāo)檢測相結(jié)合,提出了一種基于自適應(yīng)注意力機制的目標(biāo)檢測方法。該方法首先以深度可分離卷積為核心構(gòu)建雙源特征提取結(jié)構(gòu),分別提取紅外和可見光目標(biāo)特征。其次,為充分互補目標(biāo)多模態(tài)信息,設(shè)計了自適應(yīng)注意力機制,以數(shù)據(jù)驅(qū)動的方式加權(quán)融合紅外和可見光特征,保證特征充分融合的同時降低噪聲干擾。最后,針對多尺度目標(biāo)檢測,將自適應(yīng)注意力機制結(jié)合多尺度參數(shù)來提取并融合目標(biāo)全局和局部特征,提升尺度不變性。通過實驗表明,所提方法相較于同類型目標(biāo)檢測算法能夠準(zhǔn)確高效地在復(fù)雜場景下實現(xiàn)目標(biāo)識別和定位,并且在實際變電站設(shè)備檢測中,該方法也體現(xiàn)出更高的泛化性和魯棒性,可以有效輔助機器人完成目標(biāo)檢測任務(wù)。
紅外與可見光;目標(biāo)檢測;深度學(xué)習(xí);自適應(yīng)注意力機制
目標(biāo)檢測技術(shù)是機器視覺方向重要研究課題之一,其核心任務(wù)是對圖像中所關(guān)注的目標(biāo)進行識別,并標(biāo)注出目標(biāo)類別及位置[1]?,F(xiàn)階段大多數(shù)目標(biāo)檢測方法主要利用目標(biāo)在單一波段上的成像作為輸入源,如紅外圖像或可見光圖像[2]。紅外圖像根據(jù)目標(biāo)物體熱輻射能量進行成像,不依賴于其他光線,可以較好地應(yīng)用于夜間、煙霧等環(huán)境,但圖像對比度較低、細(xì)節(jié)缺失嚴(yán)重[3];而可見光圖像利用目標(biāo)反射的自然光進行成像,可以較好地獲取目標(biāo)細(xì)節(jié)和紋理信息,但卻容易受到光照強弱、目標(biāo)反射率等影響[4]。可見,單一傳感器獲取目標(biāo)信息時存在一定局限,而隨著目標(biāo)所處環(huán)境逐漸復(fù)雜化,其局限性也將不斷擴大,進而影響目標(biāo)檢測效果[5]。因此,設(shè)計一種基于紅外和可見光的目標(biāo)檢測方法,不僅可以豐富目標(biāo)多模態(tài)特征,而且對目標(biāo)檢測性能提升以及實際應(yīng)用價值都有較大的促進作用。
目前,大多數(shù)基于紅外與可見光的目標(biāo)檢測方法仍采用傳統(tǒng)圖像處理方法,如引導(dǎo)濾波結(jié)合最小加權(quán)二乘法[6]、SIFT結(jié)合BOW(Bag-of-Words)模型[7]、圖像低秩和顯著信息分解再加權(quán)融合[8]等。傳統(tǒng)方式通常在特定場景下檢測精度較高,但其泛化性較弱,并且對于復(fù)雜環(huán)境下的目標(biāo)檢測效果較差。而隨著深度學(xué)習(xí)技術(shù)以及計算機性能的不斷突破,部分研究者開始逐漸將多源目標(biāo)檢測與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,并取得了較好的效果。Hui等[9]人針對紅外和可見光特征融合提出了一種新型深度學(xué)習(xí)結(jié)構(gòu),通過稠密編碼器豐富所提取的目標(biāo)特征,再利用解碼器對特征進行直接相加融合,雖然提升了檢測精度,但稠密連接方式計算量較大,且融合方式比較粗糙。唐聰?shù)萚10]人通過在訓(xùn)練好的可見光目標(biāo)檢測網(wǎng)絡(luò)基礎(chǔ)上微調(diào)出紅外檢測網(wǎng)絡(luò),間接共享目標(biāo)特征,并結(jié)合紅外和可見光網(wǎng)絡(luò)結(jié)果實現(xiàn)目標(biāo)檢測。該方式采用了兩個網(wǎng)絡(luò)實現(xiàn)檢測,在一定程度上互補了目標(biāo)多模態(tài)特征,但檢測過程繁瑣,且對目標(biāo)信息利用不夠充分。Ma等[11]人提出了一種顯著目標(biāo)檢測方法,通過設(shè)計顯著目標(biāo)模板來選擇性地提取并融合紅外熱目標(biāo)特征和可見光紋理結(jié)構(gòu),實現(xiàn)關(guān)鍵目標(biāo)識別檢測,但該方法只針對顯著目標(biāo)檢測和關(guān)鍵點識別,對小目標(biāo)識別效果較差,且容易受到高頻噪聲干擾。由此可見,現(xiàn)有紅外-可見光目標(biāo)檢測方法在特征提取的有效性、特征融合充分性以及檢測方法的魯棒性和泛化性等方面仍有較大的提升空間。
針對上述紅外-可見光目標(biāo)檢測方法存在的不足,本文在總結(jié)現(xiàn)有研究基礎(chǔ)上,提出了一種基于自適應(yīng)注意力機制的紅外與可見光目標(biāo)檢測方法。該方法以高效率的深度可分離卷積為基礎(chǔ),分別構(gòu)建紅外和可見光特征提取網(wǎng)絡(luò),提取目標(biāo)多模態(tài)特征。其次,設(shè)計自適應(yīng)注意力機制結(jié)構(gòu)(adaptive attention mechanisms, AAM),將提取的紅外和可見光特征以自主學(xué)習(xí)的方式加權(quán)融合,提升有效特征權(quán)重,并豐富目標(biāo)特征信息。同時,為保證不同大小目標(biāo)準(zhǔn)確識別定位,將融合后的特征同樣以自適應(yīng)注意力機制方式進行多尺度自主疊加,降低不同維度目標(biāo)相互干擾,保障目標(biāo)多尺度不變性。
所提自適應(yīng)注意力機制的紅外-可見光目標(biāo)檢測方法整體結(jié)構(gòu)如圖1所示,主要由雙源特征提取網(wǎng)絡(luò)、AAM特征融合以及多尺度檢測3部分組成。雙源特征提取網(wǎng)絡(luò)以深度可分離卷積為基本,結(jié)合池化、激活、殘差等操作,構(gòu)建成對的深層特征提取結(jié)構(gòu),分別提取目標(biāo)紅外特征和可見光特征。AAM特征融合結(jié)構(gòu)采用自適應(yīng)的通道和空間注意力機制來分別提升目標(biāo)類別及定位特征權(quán)重,并以自主學(xué)習(xí)的方式將紅外和可見光特征進行融合,降低噪聲干擾。而多尺度檢測將不同層次的融合特征采樣至相同維度,并再次利用自適應(yīng)注意力機制,使網(wǎng)絡(luò)自主選擇目標(biāo)所處特征層,避免不同層次特征信息相互影響。整個網(wǎng)絡(luò)以深度可分離卷積保障了特征提取的高效性,并以自適應(yīng)注意力機制提升了特征融合的有效性以及多尺度檢測的準(zhǔn)確性。
圖1 紅外-可見光目標(biāo)檢測整體架構(gòu)
特征提取是計算機視覺任務(wù)的關(guān)鍵,所提特征的優(yōu)劣直接決定了視覺任務(wù)的效果[12]。傳統(tǒng)的特征提取方法主要根據(jù)對目標(biāo)呈現(xiàn)形態(tài)的認(rèn)知進行建模,如Harris、SIFT(scale-invariant feature transform)、HOG(histogram of oriented gradients)、DMP(deformable parts model)等[13]。雖有較強的理論支撐,但調(diào)參過程復(fù)雜,且各個算法都針對具體應(yīng)用,魯棒性和泛化性都較差。而基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)作為當(dāng)前主流的特征提取方法,采用數(shù)據(jù)驅(qū)動的方式提取特征,避免了人工特征建模的局限,且所提特征可以更好地對目標(biāo)進行表示[14]。同時,隨著近幾年深度學(xué)習(xí)的深入,逐漸沉淀出了一批經(jīng)典的特征提取網(wǎng)絡(luò),如DarkNet[15]、ResNet[16]、MobileNet[17]、AdderNet[18]等。為有效提取目標(biāo)特征信息,本文借鑒了現(xiàn)有特征提取方法,構(gòu)建了適用于紅外-可見光目標(biāo)檢測的輕量級特征提取網(wǎng)絡(luò)。
由于輸入源為紅外和可見光圖像,所提特征提取網(wǎng)絡(luò)采用對稱雙支路結(jié)構(gòu),如圖2(a)所示,其中,支路詳細(xì)結(jié)構(gòu)如表1所示。該結(jié)構(gòu)由初始化模塊(init)和多個卷積模塊(block)串聯(lián)堆疊組成,初始化模塊如圖2(b)所示,采用步長為2的3×3標(biāo)準(zhǔn)卷積、3×3深度可分離卷積以及2×2最大池化操作,以并行處理的方式從多個角度提取輸入圖像特征。該模塊主要是盡可能避免目標(biāo)有效信息丟失的同時降低輸入圖像維度,并減少噪聲干擾。而block卷積模塊作為特征提取的關(guān)鍵部分,主要以深度可分離卷積為核心,結(jié)合激活函數(shù)、殘差結(jié)構(gòu)實現(xiàn)對目標(biāo)由淺到深的提取特征,如圖2(c)所示。該模塊以深度可分離卷積代替標(biāo)準(zhǔn)卷積,并通過1×1的點卷積調(diào)整特征通道數(shù)量,有效降低了網(wǎng)絡(luò)參數(shù)量,保障了雙支路特征提取結(jié)構(gòu)的計算效率。盡管深度可分離卷積損失了部分特征,但雙支路結(jié)構(gòu)的特征互補特性有效彌補了該缺陷。同時,為緩解深層網(wǎng)絡(luò)訓(xùn)練時梯度消失等問題,引入了殘差結(jié)構(gòu),并以LeakyReLU函數(shù)作為激活函數(shù),降低無效神經(jīng)元的產(chǎn)生,加速網(wǎng)絡(luò)收斂。其中,block模塊內(nèi)的卷積操作步長都為1,block塊最后一層步長為2,如圖2(c)虛線部分。
表1 特征提取支路
圖2 特征提取模塊
對于多源數(shù)據(jù)的計算機視覺任務(wù),其關(guān)鍵在于信息融合,而特征融合是目前最為常見融合方式之一[19]?,F(xiàn)有的特征融合通常采用特征拼接、特征疊加等方式[20],這種無差別的融合方式在豐富信息的同時也引入了較多無效信息。因此,為提升特征融合的有效性,本文設(shè)計了自適應(yīng)注意力機制的特征融合結(jié)構(gòu),通過數(shù)據(jù)驅(qū)動的方式自適應(yīng)調(diào)整紅外和可見光特征融合權(quán)重,降低無效信息干擾,示意圖如圖3所示??紤]到過淺層特征中噪聲較多,網(wǎng)絡(luò)只選擇了block2~block5的特征進行融合,即=2,3,4,5。
圖3 AAM特征融合
融合結(jié)構(gòu)以block模塊的輸出作為輸入,先通過批量歸一化操作規(guī)范化紅外和可見光特征權(quán)重后,再利用自適應(yīng)注意力機制將兩類特征進行融合。而自適應(yīng)注意力機制又分為通道和空間兩個注意力模塊,通道注意力針對紅外和可見光的每個特征通道進行自適應(yīng)加權(quán)融合,提升目標(biāo)類別所屬特征通道的權(quán)重,計算方式如式(1)所示??臻g注意力則是針對通道注意力融合后的所有特征通道,對不同空間位置上的特征進行自適應(yīng)加權(quán),提升目標(biāo)所處位置權(quán)重,計算方式如式(2)所示。
式中:xV為可見光第個通道特征;xI為紅外第個通道特征;為可見光通道權(quán)重;為紅外通道權(quán)重;為紅外和可見光通道注意力融合輸出;為通道注意力融合后第(,)位置的特征;為特征圖(,)位置權(quán)重;s為空間注意力輸出。同時,各權(quán)重滿足,,?[0,1],且+=1,訓(xùn)練時通過誤差反向傳播方式調(diào)整各參數(shù)權(quán)重,如式(3)(4)(5)所示。
式中:為訓(xùn)練誤差;?為偏導(dǎo)計算。由上式可以看出,當(dāng)通道注意力中的為0時,其對應(yīng)可見光特征通道被認(rèn)為是無效信息,不參與融合;反之,紅外特征類似。同理,當(dāng)空間注意力中為0時,該位置被認(rèn)為背景。由此可見,當(dāng)網(wǎng)絡(luò)訓(xùn)練時,通過誤差反向傳播自適應(yīng)調(diào)整上述權(quán)重參數(shù),可以有效抑制噪聲的干燥。
特征提取實現(xiàn)了目標(biāo)特征由淺到深的提取,特征融合豐富了各層次特征信息,而對于不同尺度目標(biāo)的檢測,需要綜合多個層次的特征信息。常見的多尺度檢測結(jié)構(gòu)主要基于特征金字塔的方式[21]將深層和淺層特征逐層融合檢測,但文獻[22]研究發(fā)現(xiàn)不同尺度的目標(biāo)通常集中在部分特征層,若將目標(biāo)主要所在的特征層次與其他層次特征融合,反而會干擾對該尺度目標(biāo)的檢測。因此,為緩解不同層次特征之間相互干擾問題,本文在自適應(yīng)注意力機制基礎(chǔ)上調(diào)整輸入特征,將其應(yīng)用于目標(biāo)多尺度檢測結(jié)構(gòu)中,以自主選擇的方式實現(xiàn)各尺度目標(biāo)檢測,檢測結(jié)構(gòu)如圖4所示。
圖4 AAM多尺度檢測
該結(jié)構(gòu)以紅外和可見光融合后的特征作為輸入,而不同block融合后的特征層維度不同,需要分別將其他層的特征上采樣或下采樣至當(dāng)前特征維度,再利用自適應(yīng)注意力機制進行特征加權(quán),最后,根據(jù)加權(quán)融合后的多尺度特征進行檢測。檢測部分綜合考慮網(wǎng)絡(luò)精度與效率后采用YOLO[15]單階段檢測結(jié)合非極大值抑制算法(non-maximum suppression, NMS)實現(xiàn)最終目標(biāo)定位識別。多尺度特征自適應(yīng)注意力加權(quán)融合計算公式如式(6)(7)所示:
為驗證所提結(jié)構(gòu)的可行性和實用性,本文利用不同性能的測試平臺配合多個場景下的數(shù)據(jù)集進行實驗。為方便與同類型網(wǎng)絡(luò)對比,實驗利用tensorflow深度學(xué)習(xí)框架搭建所提網(wǎng)絡(luò),訓(xùn)練時的超參數(shù)以及相關(guān)策略借鑒文獻[14-15]進行設(shè)置,如表2所示。
表2 網(wǎng)絡(luò)訓(xùn)練超參及策略
對于網(wǎng)絡(luò)性能評估主要依據(jù)檢測精度和計算效率兩個指標(biāo),精度采用目標(biāo)檢測網(wǎng)絡(luò)最常用的評估指標(biāo)——均值平均精度(mAP,mean average precision)來衡量,如式(10)所示。同時,為衡量不同尺度目標(biāo)效果,將圖像中目標(biāo)包圍框以像素面積322和962分為小中大3個尺度,利用mAPs、mAPm、mAPl分別進行衡量。而效率則通過計算網(wǎng)絡(luò)每秒處理的圖像數(shù)量來衡量,如式(11)所示。
式中:為目標(biāo)類別;AP表示類別目標(biāo)平均檢測精度;為目標(biāo)類別總數(shù);表示訓(xùn)練樣本數(shù)量;T表示處理第張圖像時間消耗。
為驗證所提方法各個模塊的可行性,實驗采用了RGBT210[23]公開標(biāo)準(zhǔn)數(shù)據(jù)集,在搭載NVIDIA TITAN Xp的主機上進行測試。該數(shù)據(jù)集涵蓋了不同天氣、光照、時間段下的二十多類目標(biāo),約二十萬張紅外-可見光圖像對,但圖像多取自連續(xù)視頻幀,重復(fù)性較高。為避免重復(fù)圖像影響網(wǎng)絡(luò)訓(xùn)練效果,從數(shù)據(jù)集中選擇了一萬張低重復(fù)率的圖像,共10類目標(biāo),并統(tǒng)一圖像尺寸為512×448后進行訓(xùn)練測試。
實驗利用控制變量法來分別測試各個模塊,首先測試了所提單源網(wǎng)絡(luò)的有效性,即只利用可見光圖像對單個特征提取支路進行訓(xùn)練測試,并與當(dāng)前主流的目標(biāo)檢測網(wǎng)絡(luò)進行對比。其中,3個網(wǎng)絡(luò)的檢測部分都采用金字塔結(jié)構(gòu),結(jié)果如表3所示。
表3 單源網(wǎng)絡(luò)測試對比
由表3可以看出,為保證整體目標(biāo)檢測網(wǎng)絡(luò)計算效率,所提單源特征提取結(jié)構(gòu)盡可能提升了網(wǎng)絡(luò)效率,與同類網(wǎng)絡(luò)相比效率達到了最高,但不可避免損失了部分特征,使檢測精度較低。為豐富目標(biāo)特征信息,引入了雙源網(wǎng)絡(luò)結(jié)構(gòu),針對雙源網(wǎng)絡(luò)結(jié)構(gòu)的特征互補性,本文分別對比了紅外、可見光單分支以及不同融合結(jié)構(gòu)的雙分支網(wǎng)絡(luò)。同理,為避免其他因素影響,檢測部分也都采用金字塔結(jié)構(gòu)。實驗結(jié)果如表4和圖5所示。
表4 雙源特征融合測試對比
根據(jù)表4和圖5結(jié)果可以看出,雙支路方式可以更好地互補目標(biāo)特征信息,對比不同的注意力融合機制,由于SE只利用了通道特征,故檢測精度提升有限;CBAM方式雖同時關(guān)注了通道和空間位置特征,但增強特征的同時也引入了較多噪聲,如圖5第二排中將柱子誤識別成行人。而所提AAM特征融合方式以自適應(yīng)的方式可以更好地屏蔽無效信息干擾,進而保障目標(biāo)檢測效果。為進一步提升所提自適應(yīng)注意力機制說服力,實驗可視化了block 3輸出特征在不同融合方式下的結(jié)果。為方便觀測,選擇了相對簡單的場景,如圖6所示。
圖5 單源與雙源網(wǎng)絡(luò)檢測結(jié)果對比
圖6 Block3特征融合結(jié)果對比
根據(jù)可視化結(jié)果可以看出,SE和CBAM注意力融合的方式雖然也增強了目標(biāo)特征,但也引入了其他噪聲。而自適應(yīng)注意力機制則有效地降低了噪聲的干擾,進而提升了檢測精度。而對于多尺度檢測結(jié)構(gòu)則是從目標(biāo)大小維度方面進一步提升檢測效果,為驗證該結(jié)構(gòu)的有效性,實驗分別對比了所提結(jié)構(gòu)與金字塔結(jié)構(gòu)的多尺度目測檢測效果以及block 3檢測層的可視化效果,實驗結(jié)果如表5和圖7所示。其中block 2融合層指紅外和可見光block 2特征層AAM融合后的特征。
根據(jù)表5結(jié)果可見,所提自適應(yīng)注意力機制的多尺度檢測結(jié)構(gòu)對于不同尺度目標(biāo)都有一定提升,其中,在小目標(biāo)的識別精度方面提升較大。同時,根據(jù)特征對比結(jié)果可以看出,在金字塔結(jié)構(gòu)的深層與淺層信息融合過程中,淺層的特征在深層特征影響下變的相對模糊,而淺層多為小目標(biāo)特征,由此可推斷出小目標(biāo)受其他層影響較大,而所提結(jié)構(gòu)則較好地降低了其他層的干擾。
表5 多尺度結(jié)構(gòu)對比
綜上數(shù)據(jù)結(jié)果有效驗證了各模塊的可行性,而對于整個目標(biāo)檢測網(wǎng)絡(luò)可行性驗證,實驗將所提方法與同類型紅外和可見光目標(biāo)檢測方法進行對比,結(jié)果如表6所示。
圖7 多尺度融合結(jié)果對比
表6 同類方法測試對比
為進一步驗證所提方法的魯棒性,實驗利用KAIST行人數(shù)據(jù)集進行測試。該數(shù)據(jù)集主要為白天和夜晚不同場景下紅外可見光圖像對,共包含person、people和cyclist三類目標(biāo)。由于數(shù)據(jù)集來源于連續(xù)的視頻幀,且cyclist類別目標(biāo)較難辨認(rèn),故實驗只從中篩選出約7000張重復(fù)率較低的圖像,并將cyclist類別都轉(zhuǎn)為person類別,歸一化圖像尺寸為512×448后,以7:3比例構(gòu)建訓(xùn)練測試集進行實驗,實驗結(jié)果如表7所示。所提方法在RGBT210和KAIST數(shù)據(jù)集上的目標(biāo)檢測效果如圖8所示。
表7 KAIST數(shù)據(jù)集測試對比
圖8 紅外-可見光網(wǎng)絡(luò)檢測效果對比(前三排:RGBT210;后兩排:KAIST)
通過上述實驗結(jié)果可以看出,與傳統(tǒng)圖像處理方法[6]相比,所提方法檢測精度大幅提升,但深層神經(jīng)網(wǎng)絡(luò)的大量數(shù)據(jù)計算也使得檢測效率相對較低。與基于目標(biāo)檢測結(jié)果融合的深度學(xué)習(xí)方法[10]相比,所提方法在特征層面融合,可以更好地對不同模態(tài)的目標(biāo)信息進行互補,進而精度也相對更高。而對于同類型基于特征融合的檢測方法[24],所提自適應(yīng)注意力機制增強噪聲抑制和多尺度自主特征選擇,使網(wǎng)絡(luò)在小尺度目標(biāo)檢測中效果更佳。同時,根據(jù)圖8也可以看出,本文所提方法可以較好應(yīng)用于不同場景,并且在目標(biāo)遮擋、目標(biāo)較小、光線變化等復(fù)雜場景中也體現(xiàn)出更優(yōu)的檢測效果。
通過標(biāo)準(zhǔn)數(shù)據(jù)集有效驗證了所提方法的可行性,為進一步驗證在現(xiàn)實場景中的實用性,實驗將該網(wǎng)絡(luò)應(yīng)用于變電站巡檢機器人中,測試其對變電站設(shè)備的檢測效果。巡檢機器人主要搭載Jetson Xavier NX邊緣AI計算平臺,通過機器人自帶相機采集了6類設(shè)備的紅外及可見光圖像對約5000張,圖像大小為512×448,使用LabelImg工具進行標(biāo)注后對所提網(wǎng)絡(luò)和同類型方法進行訓(xùn)練測試,結(jié)果如表8和圖9所示。
表8 變電站設(shè)備檢測測試對比
根據(jù)上述實驗結(jié)果可以看出,由于機器人平臺計算性能相對較低,同時,實際場景數(shù)據(jù)集在目標(biāo)種類以及場景復(fù)雜度上都低于標(biāo)準(zhǔn)數(shù)據(jù)集,因此,各方法計算效率等比例下降,但檢測精度都有較大提升。對于實際變電站設(shè)備檢測場景中,所提方法與同類方法相比仍保持最優(yōu)的檢測效果,有效驗證了該方法的可移植性和泛化性。同時,由圖9結(jié)果也可看出,對于背景簡單、目標(biāo)尺度中等的場景,各方法檢測效果都較佳,但對于復(fù)雜背景且目標(biāo)過大或過小時,所提方法則體現(xiàn)出更優(yōu)的性能。
本文針對紅外和可見光圖像目標(biāo)檢測問題,提出了一種基于自適應(yīng)注意力機制的目標(biāo)檢測方法。通過深度可分離卷積構(gòu)建紅外和可見光雙支路特征提取網(wǎng)絡(luò),提取目標(biāo)多模態(tài)特征;其次,設(shè)計自適應(yīng)注意力機制將對應(yīng)維度的紅外和可見光特征進行融合,從特征通道以及空間位置兩個角度提升有效特征的顯著性。同時,針對多尺度目標(biāo),將自適應(yīng)注意力機制應(yīng)用于自主選擇目標(biāo)所處特征層,降低其他尺度特征的影響。通過實驗表明,所提方法有效互補了紅外和可見光特征,提升了目標(biāo)多尺度識別效果,并抑制了無效特征的干擾。在標(biāo)準(zhǔn)數(shù)據(jù)集和實際變電站設(shè)備檢測中,該方法都更優(yōu)于同類目標(biāo)檢測算法,可以較好地落地實際應(yīng)用。盡管所提方法在效率上未達到最高,但基本滿足巡檢機器人實時檢測的需求,后續(xù)考慮網(wǎng)絡(luò)剪枝或知識蒸餾等方式優(yōu)化網(wǎng)絡(luò),進一步提升目標(biāo)檢測效率。
圖9 變電站設(shè)備檢測效果對比
[1] 王燦, 卜樂平. 基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法綜述[J]. 艦船電子工程, 2021, 41(9):161-169.
WANG Can, BU Leping. Overview of target detection algorithms based on convolutional neural networks[J]., 2021, 41(9): 161-169.
[2] 郝永平, 曹昭睿, 白帆, 等. 基于興趣區(qū)域掩碼卷積神經(jīng)網(wǎng)絡(luò)的紅外-可見光圖像融合與目標(biāo)識別算法研究[J]. 光子學(xué)報, 2021, 50(2):84-98.
HAO Yongping, CAO Zhaorui, BAI Fan, et al Research on infrared visible image fusion and target recognition algorithm based on region of interest mask convolution neural network[J]., 2021, 50 (2): 84-98
[3] 劉齊, 王茂軍, 高強, 等. 基于紅外成像技術(shù)的電氣設(shè)備故障檢測[J]. 電測與儀表, 2019, 56(10): 122-126.
LIU Qi, WANG Maojun, GAO Qiang, et al Electrical equipment fault detection based on infrared imaging technology[J]., 2019, 56(10): 122-126.
[4] XIA J, LU Y, TAN L, et al. Intelligent fusion of infrared and visible image data based on convolutional sparse representation and improved pulse-coupled neural network[J].,, 2021, 67(1): 613-624.
[5] 汪勇, 張英, 廖如超, 等. 基于可見光、熱紅外及激光雷達傳感的無人機圖像融合方法[J]. 激光雜志, 2020, 41(2):141-145.
WANG Yong, ZHANG Ying, LIAO Ruchao, et al. UAV image fusion method based on visible light, thermal infrared and lidar sensing[J]., 2020, 41(2): 141-145.
[6] ZHANG S, LI X, ZHANG X, et al. Infrared and visible image fusion based on saliency detection and two-scale transform decomposition[J]., 2021, 114(3): 103626.
[7] 王傳洋. 基于紅外與可見光圖像的電力設(shè)備識別的研究[D]. 北京: 華北電力大學(xué), 2017.
WANG Chuanyang. Research on Power Equipment Recognition Based on Infrared and Visible Images[D]. Beijing: North China Electric Power University, 2017.
[8] LI H, WU X J. Infrared and visible image fusion using Latent low-rank representation[J]. Arxiv Preprint Arxiv, 2018:1804.08992.
[9] HUI L, WU X J. DenseFuse: A fusion approach to infrared and visible images[J]., 2018, 28(5): 2614-2623.
[10] 唐聰, 凌永順, 楊華, 等. 基于深度學(xué)習(xí)的紅外與可見光決策級融合跟蹤[J]. 激光與光電子學(xué)進展, 2019, 56(7):209-216.
TANG Cong, LING Yongshun, YANG Hua, et al. Decision-level fusion tracking of infrared and visible light based on deep learning[J]., 2019, 56(7): 209-216.
[11] MA J, TANG L, XU M, et al. STDFusionNet: an infrared and visible image fusion network based on salient object detection[J]., 2021, 70: 1-13.
[12] 楊雪鶴, 劉歡喜, 肖建力. 多模態(tài)生物特征提取及相關(guān)性評價綜述[J]. 中國圖象圖形學(xué)報, 2020, 25(8):1529-1538.
YANG Xuehe, LIU Huanxi, XIAO Jianli. A review of multimodal biometric feature extraction and correlation evaluation[J]., 2020, 25(8): 1529-1538.
[13] WANG Z, XIN Z, HUANG X, et al. Overview of SAR image feature extraction and object recognition[J]., 2021, 234(4):69-75.
[14] WEI Z. A summary of research and application of deep learning[J]., 2019, 5(9): 167-169.
[15] Bochkovskiy A, WANG C Y, LIAO H. YOLOv4: Optimal speed and accuracy of object detection[J]. Arxiv Preprint Arxiv, 2020:2004.10934.
[16] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//(CVPR), 2016:770-778.
[17] Howard A, Sandler M, Chen B, et al. Searching for MobileNetV3 [C]//(ICCV), 2020: 1314-1324.
[18] CHEN H, WANG Y, XU C, et al. AdderNet: Do we really need multiplications in deep learning?[C]// 2020(CVPR)., 2020: 1465-1474.
[19] 宋鵬漢, 辛懷聲, 劉楠楠. 基于深度學(xué)習(xí)的海上艦船目標(biāo)多源特征融合識別[J]. 中國電子科學(xué)研究院學(xué)報, 2021, 16(2): 127-133.
SONG Penghan, XIN Huaisheng, LIU Nannan. Multi-source feature fusion recognition of marine ship targets based on deep learning[J]., 2021, 16(2): 127-133.
[20] Hassan E. Multiple object tracking using feature fusion in hierarchical LSTMs[J]., 2020(10): 893-899.
[21] LIN T Y, Dollar P, Girshick R, et al. Feature pyramid networks for object detection[C]//(CVPR), 2017:936-944.
[22] LIU S, HUANG D, WANG Y. Learning spatial fusion for single-shot object detection[J]. Arxiv Preprint Arxiv, 2019: 1911.09516v1.
[23] LI C, ZHAO N, LU Y, et al. Weighted sparse representation regularized graph learning for RGB-T object tracking[C]//, ACM, 2017: 1856-1864.
[24] XIAO X, WANG B, MIAO L, et al. Infrared and visible image object detection via focused feature enhancement and cascaded semantic extension[J]., 2021, 13(13): 2538.
Object Detection in Visible Light and Infrared Images Based on Adaptive Attention Mechanism
ZHAO Songpu,YANG Liping,ZHAO Xin,PENG Zhiyuan,LIANG Dongxing,LIANG Hongjun
(,610000,)
To address the shortcomings of infrared and visible light object detection methods, a detection method based on an adaptive attention mechanism that combines deep learning technology with multi-source object detection is proposed. First, a dual-source feature extraction structure is constructed based on deep separable convolution to extract the features of infrared and visible objects. Second, an adaptive attention mechanism is designed to fully complement the multimodal information of the object, and the infrared and visible features are weighted and fused using a data-driven method to ensure the full fusion of features and reduce noise interference. Finally, for multiscale object detection, the adaptive attention mechanism is combined with multiscale parameters to extract and fuse the global and local features of the object to improve the scale invariance. Experiments show that the proposed method can accurately and efficiently achieve target recognition and localization in complex scenarios compared to similar object detection algorithms. Moreover, in actual substation equipment detection, this method also demonstrates higher generalization and robustness, which can effectively assist robots in completing object detection tasks.
infrared and visible light, object detection, deep learning, adaptive attention mechanisms
TP391.41
A
1001-8891(2024)04-0443-09
2022-08-30;
2022-09-28.
趙松璞(1973-),男,漢族,陜西西安人,碩士,工程師。研究方向:機器人技術(shù)、智能電網(wǎng)、模式識別。E-mail: 1419446206@qq.com。
深圳市科技計劃項目(JSGG20210802153009029)。