国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于特征蒸餾的改進(jìn)Ghost-YOLOv5紅外目標(biāo)檢測(cè)算法

2022-01-17 01:58李北明金榮璐徐召飛王水根
關(guān)鍵詞:紅外卷積圖像

李北明, 金榮璐,, 徐召飛, 劉 晴, 王水根

(1.哈爾濱工程大學(xué) 信息與通信工程學(xué)院,黑龍江 哈爾濱 150001; 2.煙臺(tái)艾睿光電科技有限公司 山東 煙臺(tái) 264000)

0 引言

隨著智能科學(xué)技術(shù)與社會(huì)的共同發(fā)展,人工智能技術(shù)在安防監(jiān)控中的應(yīng)用場(chǎng)景越來(lái)越多。2021年全世界有上百家安防設(shè)備廠商,然而絕大部分的設(shè)備是以可見(jiàn)光成像為主[1],在夜間和惡劣天氣下的成像效果差。紅外成像技術(shù)[2]應(yīng)用于特定場(chǎng)景諸如夜間及惡劣氣候等也能獲得較好的圖像質(zhì)量,能突出展現(xiàn)紅外人、車等敏感目標(biāo)[3]。然而當(dāng)前國(guó)內(nèi)外對(duì)于紅外目標(biāo)檢測(cè)的研究較少,大部分以傳統(tǒng)的方法為主,在檢測(cè)效果和速度上不能滿足實(shí)際應(yīng)用需求。

針對(duì)紅外目標(biāo)檢測(cè),傳統(tǒng)的研究算法大都是基于對(duì)比度的方法[4]?;趯?duì)比度的算法是根據(jù)紅外圖像中目標(biāo)與背景之間的對(duì)比度差異而設(shè)計(jì)出的算法。Kim等[5]提出了一種基于對(duì)比機(jī)制的算法。Shao等[6]利用文獻(xiàn)[5]的方法來(lái)增加圖像的對(duì)比度,然后用形態(tài)學(xué)濾波進(jìn)一步消除了殘留噪聲。Chen等[7]提出了兩階段的局部對(duì)比度測(cè)量算法(LCM)來(lái)測(cè)量目標(biāo)位置與其領(lǐng)域之間的差異,并通過(guò)自適應(yīng)閾值對(duì)目標(biāo)進(jìn)行分割。這些基于對(duì)比度的檢測(cè)算法受限于人工設(shè)計(jì)的參數(shù)[8],適用于特定場(chǎng)景,無(wú)法滿足場(chǎng)景多樣化需求。

由于深度學(xué)習(xí)的快速發(fā)展,出現(xiàn)了很多基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法[9]。Du等[10]使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)紅外圖像特征進(jìn)行提取,然后使用支持向量機(jī)(SVM)[11]完成目標(biāo)的分類以實(shí)現(xiàn)紅外目標(biāo)檢測(cè)。汪慎文等[12]提出了兩階段搜索的多模態(tài)多目標(biāo)差分進(jìn)化算法。深度學(xué)習(xí)的方法彌補(bǔ)了傳統(tǒng)紅外目標(biāo)檢測(cè)中人工設(shè)計(jì)復(fù)雜、特征提取不足和場(chǎng)景遷移能力差的缺陷[13],更具有自適應(yīng)性和準(zhǔn)確性。

為了實(shí)現(xiàn)目標(biāo)檢測(cè)網(wǎng)絡(luò)模型在硬件平臺(tái)上的準(zhǔn)確性與實(shí)時(shí)性,本文以YOLOv5為網(wǎng)絡(luò)框架,提出了一種基于特征蒸餾的改進(jìn)Ghost-YOLOv5紅外目標(biāo)檢測(cè)算法。該方法包含以下幾個(gè)創(chuàng)新點(diǎn):①針對(duì)YOLOv5模型參數(shù)量大的問(wèn)題,提出了利用GhostNet的模型剪枝方法;②為了提高模型準(zhǔn)確率,在紅外數(shù)據(jù)集中使用Mosaic數(shù)據(jù)增強(qiáng)和Copy-paste數(shù)據(jù)增強(qiáng)方法,在模型中使用特征蒸餾的方法;③本文創(chuàng)建了一個(gè)紅外目標(biāo)檢測(cè)數(shù)據(jù)集。

1 Ghost-YOLOv5檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)

在本節(jié)中,主要介紹Ghost-YOLOv5基本網(wǎng)絡(luò)模型結(jié)構(gòu),并分析其中各個(gè)模塊的作用。

1.1 Ghost-YOLOv5模型框架簡(jiǎn)介

Ghost-YOLOv5的整個(gè)網(wǎng)絡(luò)分為骨干(Backbone)和頭部(Head)兩個(gè)部分,如圖1所示。模型的骨干網(wǎng)絡(luò)為GhostNet結(jié)構(gòu)、Conv卷積結(jié)構(gòu)和SPP[14]結(jié)構(gòu)的組合;頭部網(wǎng)絡(luò)是由FPN[15]結(jié)構(gòu)和PAN[16]結(jié)構(gòu)所組成。

圖1 Ghost-YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)Figure 1 Architecture diagram of Ghost-YOLOv5

1.2 GhostNet模塊

在紅外目標(biāo)的檢測(cè)任務(wù)中,產(chǎn)生的特征圖中都是灰度信息,不像可見(jiàn)光檢測(cè)那樣有著明顯的色域區(qū)分度[17],這就造成了大量重復(fù)的特征圖的產(chǎn)生。這些冗余的特征圖對(duì)于紅外檢測(cè)效果提升程度有限,而且增大了模型的參數(shù)量。

這些冗余特征圖大多是由常規(guī)卷積所產(chǎn)生,針對(duì)紅外圖像獨(dú)有的特性,本文中采用了GhostNet模塊去減少模型的參數(shù)和計(jì)算量。

GhostNet模塊的組成部分是Ghost卷積[18],首先利用較少的計(jì)算量通過(guò)常規(guī)卷積生成數(shù)量較少的特征圖,然后通過(guò)線性操作再進(jìn)一步利用較少的特征圖,生成新的相似特征圖,最后將兩組特征圖中的信息進(jìn)行組合,作為全部特征信息,如圖2所示。Ghost卷積分為常規(guī)卷積、Ghost生成和特征圖拼接共3步。

圖2 Ghost卷積過(guò)程示意圖Figure 2 Ghost reeling process diagram

(1)首先,假設(shè)輸入特征圖的尺寸是H×W×c,輸出特征圖的尺寸是H′×W′×n,卷積核大小為k×k。用常規(guī)卷積得到本征特征圖YH′×W′×m,這部分的計(jì)算量約等于H×W×c×m×W′×H′(忽略偏置項(xiàng))。

(2)然后,將本征特征圖YH′×W′×m中每一個(gè)通道的特征圖用φi操作來(lái)產(chǎn)生Ghost特征圖。在線性變換(φi)中,假設(shè)特征圖的通道數(shù)為m,變換的數(shù)量為s,最終得到的新的特征圖的數(shù)量為n,那么可以得到等式:

n=m·s。

(1)

由于Ghost模塊的變換過(guò)程中最后存在一個(gè)恒等變換(Identity),所以實(shí)際有效的變換數(shù)量是(s-1),根據(jù)式(1)可以得到:

(2)

(3)最后,將第1步得到的本征特征圖和第2步得到的Ghost 特征圖拼接(Identity 連接)得到最終結(jié)果。

綜合上述考慮,當(dāng)輸出特征圖的通道數(shù)量遠(yuǎn)大于本征特征圖的通道數(shù)時(shí)(即n?m),可以計(jì)算得到普通卷積模塊與Ghost模塊的計(jì)算量比值為

rs≈s。

(3)

相比于直接用常規(guī)卷積,Ghost卷積的計(jì)算量大幅度降低,僅用簡(jiǎn)單線性變換就能產(chǎn)生大部分的特征信息。利用Ghost卷積這些特征,本文設(shè)計(jì)了GhostNet模塊作為骨干網(wǎng)絡(luò)中的卷積層,使整體網(wǎng)絡(luò)結(jié)構(gòu)在保持適度深度的同時(shí)具備多尺度檢測(cè)的能力,讓模型更適合紅外圖像的目標(biāo)檢測(cè)。

Backbone中的SPP結(jié)構(gòu)在不同尺度上將特征圖劃分成不同的空間區(qū)域,然后在每個(gè)區(qū)域上計(jì)算特征向量,最后將計(jì)算得到的所有特征組合起來(lái)。SPP結(jié)構(gòu)的優(yōu)點(diǎn)在于增大特征提取的感受野,獲取最重要的上下文特征,并且不會(huì)導(dǎo)致操作速度減小。Ghost-YOLOv5模型的頭部網(wǎng)絡(luò)由FPN結(jié)構(gòu)和PAN結(jié)構(gòu)組成,如圖3所示。

圖3 FPN與PAN結(jié)構(gòu)Figure 3 Architecture diagram of FPN and PAN

FPN結(jié)構(gòu)自頂向下傳達(dá)強(qiáng)語(yǔ)義特征,而PAN結(jié)構(gòu)則自底向上傳達(dá)強(qiáng)定位特征,極大地豐富了特征的表征內(nèi)容,提升了檢測(cè)的性能。

2 模型精度提升策略

使用GhostNet模塊降低了模型的參數(shù)和計(jì)算量,為了提升Ghost-YOLOv5模型的檢測(cè)精度,本文使用了特征蒸餾和數(shù)據(jù)增強(qiáng)的方法。

2.1 特征蒸餾

在本文中,使用了基于FSP矩陣[19]的特征蒸餾方法,該方法利用FSP矩陣去表征小模型和大模型不同層間的數(shù)據(jù)關(guān)聯(lián),然后使用L2_loss擬合小模型對(duì)應(yīng)層的FSP矩陣和大模型對(duì)應(yīng)層的FSP矩陣,如圖4所示。本文中將Scaled-YOLOv4[20]這個(gè)大模型作為教師模型(Teacher Net),將Ghost-YOLOv5模型作為學(xué)生模型(Student Net),然后構(gòu)建大小模型中對(duì)應(yīng)層的FSP矩陣(GT/GS)。此方法的優(yōu)勢(shì)在于讓小模型學(xué)習(xí)解決問(wèn)題的中間過(guò)程和方法,從而讓其學(xué)到更多的知識(shí)。經(jīng)過(guò)特征蒸餾之后Ghost-YOLOv5模型的準(zhǔn)確率相較于蒸餾之前提升了超過(guò)3百分點(diǎn),為了進(jìn)一步增加模型的精度,本文使用了Mosaic和Copy-paste數(shù)據(jù)增強(qiáng)方法去增強(qiáng)紅外數(shù)據(jù)集。

圖4 基于FSP蒸餾方法示意圖Figure 4 Schematic diagram of FSP-based distillation method

2.2 數(shù)據(jù)增強(qiáng)

數(shù)據(jù)增強(qiáng)有兩方面好處:一方面可以提高模型的泛化能力;另一方面不改變模型結(jié)構(gòu)。本文使用了Mosaic和Copy-paste的數(shù)據(jù)增強(qiáng)方式用于紅外目標(biāo)檢測(cè)數(shù)據(jù)集。

2.2.1 Mosaic數(shù)據(jù)增強(qiáng)

Mosaic數(shù)據(jù)增強(qiáng)的思想是使用4張圖片經(jīng)過(guò)隨機(jī)裁剪、隨機(jī)拼接組合在一起,如圖5所示。Mosaic的好處有以下兩點(diǎn):一是利用隨機(jī)裁剪豐富了數(shù)據(jù)集中目標(biāo)局部特征,便于模型學(xué)習(xí);二是利用隨機(jī)拼接保留了圖像所有目標(biāo)特征,沒(méi)有將裁剪完的特征丟棄,使用拼接方式充分地利用圖像的所有特征。

圖5 Mosaic數(shù)據(jù)增強(qiáng)示意圖Figure 5 Mosaic data enhancement schematic

2.2.2 Copy-paste數(shù)據(jù)增強(qiáng)

Copy-paste 數(shù)據(jù)增強(qiáng)的核心是混合粘貼與目標(biāo)大尺度縮放,這種數(shù)據(jù)增強(qiáng)方法的流程如圖6所示?;旌险迟N是指利用公式I1α+I2(1-α)將兩幅圖像的內(nèi)容混合在一起。其中,I1為粘貼對(duì)象所在的圖像,I2為主圖像,α為掩膜,即目標(biāo)所在位置的像素。整個(gè)過(guò)程是將I1中目標(biāo)部分的像素?fù)赋鰜?lái),然后粘貼到I2中,這個(gè)過(guò)程有以下幾種隨機(jī)性:①選擇用于粘貼的源圖和目標(biāo)圖的隨機(jī)性;②選擇粘貼源圖中目標(biāo)對(duì)象的隨機(jī)性;③選擇粘貼到目標(biāo)圖像位置的隨機(jī)性。目標(biāo)大尺度縮放是在提取目標(biāo)掩膜的基礎(chǔ)上對(duì)整個(gè)目標(biāo)進(jìn)行大尺度的縮放,本文中使用的尺度變化為0.1~2.0[21]。Copy-paste這種數(shù)據(jù)增強(qiáng)方法也有著以下兩點(diǎn)好處:一是使數(shù)據(jù)分布更加隨機(jī)化,便于模型學(xué)習(xí)所有數(shù)據(jù)的一般性特征,提高模型的泛化能力;二是通過(guò)大尺度縮放的方法突出了紅外目標(biāo)的特征,提高模型對(duì)小目標(biāo)的檢測(cè)能力。

圖6 Copy-paste數(shù)據(jù)增強(qiáng)示意圖Figure 6 Copy-paste data enhancement schematic

3 紅外安防數(shù)據(jù)集介紹

在安防領(lǐng)域中,通過(guò)紅外鏡頭對(duì)周邊環(huán)境進(jìn)行監(jiān)測(cè),是實(shí)現(xiàn)24 h全面監(jiān)控的重要手段。然而現(xiàn)有的安防數(shù)據(jù)庫(kù)大都是可見(jiàn)光數(shù)據(jù)庫(kù),難以滿足夜間和惡劣天氣下安防需求。針對(duì)這一問(wèn)題,本文創(chuàng)建了一個(gè)新的紅外安防人車目標(biāo)識(shí)別數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)通過(guò)在不同時(shí)間段內(nèi)采用紅外成像攝像頭對(duì)著路口進(jìn)行拍攝,獲得了大量監(jiān)控俯視角度的真實(shí)安防場(chǎng)景下的紅外圖像數(shù)據(jù),其中攝像頭的布置高度均高于地面5 m,與真實(shí)的安防場(chǎng)景中的儀器布設(shè)角度基本一致。在不同的視角高度本文使用了不同的設(shè)備采集了3種不同分辨率(384×288、640×512、704×576)紅外圖像,然后標(biāo)注了圖像中出現(xiàn)的人、機(jī)動(dòng)車及非機(jī)動(dòng)車3類目標(biāo)。該數(shù)據(jù)庫(kù)將其主要用于真實(shí)世界紅外安防領(lǐng)域的目標(biāo)檢測(cè)識(shí)別技術(shù)研究,使得紅外目標(biāo)識(shí)別技術(shù)能夠進(jìn)一步發(fā)展,從而推動(dòng)紅外技術(shù)在各行業(yè)領(lǐng)域的應(yīng)用與發(fā)展。

數(shù)據(jù)庫(kù)使用person、vehicle、NonMotorVehicle分別作為人、機(jī)動(dòng)車和非機(jī)動(dòng)車的標(biāo)簽,使用矩形框?qū)ζ渲械哪繕?biāo)進(jìn)行標(biāo)注,以圖片的左上角為坐標(biāo)原點(diǎn)(0,0),使用x1,y1,x2,y2的形式記錄矩形框的位置,x1表示矩形框的左上角橫坐標(biāo),y1表示矩形框的左上角縱坐標(biāo),x2表示矩形框的右下角橫坐標(biāo),y2表示矩形框的右下角縱坐標(biāo)。所有標(biāo)簽信息以xml文件的形式進(jìn)行保存,標(biāo)注樣例如圖7所示。

圖7 紅外安防數(shù)據(jù)集標(biāo)注樣例Figure 7 Annotation examples of infrared security data set

4 實(shí)驗(yàn)與結(jié)果

在本節(jié)中,設(shè)計(jì)了一系列實(shí)驗(yàn)以評(píng)估本文提出的基于特征蒸餾的改進(jìn)Ghost-YOLOv5紅外目標(biāo)檢測(cè)算法的檢測(cè)性能。

4.1 數(shù)據(jù)集準(zhǔn)備與實(shí)驗(yàn)平臺(tái)介紹

本實(shí)驗(yàn)中使用的數(shù)據(jù)集是艾睿光電科技有限公司提供的室外場(chǎng)景紅外目標(biāo)數(shù)據(jù)集。該數(shù)據(jù)集總共包含8 999張圖像,10多種不同的場(chǎng)景和5萬(wàn)多個(gè)目標(biāo),可用于人、機(jī)動(dòng)車、非機(jī)動(dòng)車識(shí)別。

4.2 實(shí)驗(yàn)設(shè)置

所有的紅外數(shù)據(jù)集按照?qǐng)鼍巴植荚瓌t將80%的數(shù)據(jù)集劃分為訓(xùn)練集,將10%的數(shù)據(jù)集作為驗(yàn)證集,剩下的10%作為測(cè)試集。

設(shè)置的超參數(shù)如下:總訓(xùn)練輪次為200輪,采用隨機(jī)梯度下降[15]策略,初始學(xué)習(xí)率設(shè)置為0.01,動(dòng)量和權(quán)重衰減分別設(shè)置為0.937和0.000 5。使用批量大小為32的單GPU執(zhí)行多尺度訓(xùn)練。模型訓(xùn)練指標(biāo)變化曲線如圖8所示。

圖8 模型訓(xùn)練指標(biāo)變化曲線Figure 8 Model training indicator change curve

本文測(cè)試了特征蒸餾和兩種數(shù)據(jù)增強(qiáng)方式的檢測(cè)精度,得到的實(shí)驗(yàn)結(jié)果如表1所示。通過(guò)表1可以得出Mosaic和Copy-paste數(shù)據(jù)增強(qiáng)方法對(duì)訓(xùn)練數(shù)據(jù)調(diào)整的方式能夠提高模型的檢測(cè)精度,而特征蒸餾的方法能夠通過(guò)讓小模型學(xué)習(xí)大模型檢測(cè)結(jié)果的方式來(lái)提升模型的精度。

表1 不同模型精度提升方法對(duì)比Table 1 Comparison of different model accuracy improvement methods

4.3 嵌入式平臺(tái)實(shí)驗(yàn)

本文使用Hi3519AV100芯片中的SVP(smart vision platform)海思媒體處理芯片智能視覺(jué)異構(gòu)加速平臺(tái)完成模型推理過(guò)程。該平臺(tái)包含了CPU、DSP、NNIE(neural network inference engine)等多個(gè)硬件處理單元和運(yùn)行在這些硬件上的SDK開發(fā)環(huán)境,以及配套的工具鏈開發(fā)環(huán)境。

為了驗(yàn)證本文中所設(shè)計(jì)的模型在該平臺(tái)中的有效性,選取了多種可移植進(jìn)該平臺(tái)的常用模型作為對(duì)比。實(shí)驗(yàn)使用4.1節(jié)中的數(shù)據(jù)集,并采用相同的分布方式,得到的模型性能指標(biāo)如表2所示。

表2 海思平臺(tái)中模型性能指標(biāo)Table 2 Model performance metrics in Hisi platform

實(shí)驗(yàn)說(shuō)明本文模型的檢測(cè)精度在嵌入式平臺(tái)中要高于傳統(tǒng)算法及YOLOv5s、YOLOv3、YOLOv3-tiny、YOLOv4-tiny這些深度學(xué)習(xí)算法,而且本文模型的推理速度在這些常用模型中也處于較快水平。

對(duì)于工程應(yīng)用來(lái)說(shuō),目標(biāo)檢測(cè)模型的泛化性能也非常重要,本文另外選取了數(shù)據(jù)集中不同紅外場(chǎng)景中的圖像進(jìn)行了檢測(cè),檢測(cè)的視覺(jué)效果如圖9所示。

圖9 模型檢測(cè)視覺(jué)效果Figure 9 Model detects visual effects

5 結(jié)論

本文提出了基于特征蒸餾的改進(jìn)Ghost-YOLOv5紅外目標(biāo)檢測(cè)算法。該算法首先利用GhostNet模塊做模型剪枝,降低了模型計(jì)算量和參數(shù)量;其次使用特征蒸餾方法以及Mosaic和Copy-paste兩種數(shù)據(jù)增強(qiáng)方法提高壓縮后模型的檢測(cè)精度。本文還構(gòu)建了一個(gè)包含多種真實(shí)場(chǎng)景下人、機(jī)動(dòng)車和非機(jī)動(dòng)車目標(biāo)的數(shù)據(jù)集。在上述數(shù)據(jù)集上測(cè)試實(shí)驗(yàn)結(jié)果表明:本文提出的算法利用Ghost模塊得到的模型參數(shù)量?jī)H1.9 M,并通過(guò)特征蒸餾和數(shù)據(jù)增強(qiáng)的方法,使得小模型在紅外數(shù)據(jù)集上的精度提升了6.6%,總體mAP達(dá)到了90.1%。在海思平臺(tái)上實(shí)測(cè),模型的檢測(cè)速度能達(dá)到25幀,平均檢測(cè)精度能達(dá)到90.2%,與多種可移植于該平臺(tái)的常用模型相比,均取得了更高的檢測(cè)精度。本算法是基于海思硬件平臺(tái)的模型算法設(shè)計(jì),如何根據(jù)硬件資源去修改模型這點(diǎn)還有所不足,在未來(lái)的研究工作中,需要充分利用海思平臺(tái)的硬件資源去完善本文算法。

猜你喜歡
紅外卷積圖像
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
網(wǎng)紅外賣
“資源一號(hào)”02衛(wèi)星可見(jiàn)近紅外相機(jī)、寬幅紅外相機(jī)在軌順利開機(jī)成像
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種并行不對(duì)稱空洞卷積模塊①
淺析p-V圖像中的兩個(gè)疑難問(wèn)題
閃亮的中國(guó)紅外『芯』
巧用圖像中的點(diǎn)、線、面解題
湯定元:中國(guó)紅外事業(yè)奠基人