結(jié)合特征增強(qiáng)和多尺度感受野的低照度目標(biāo)檢測(cè)

2023-04-19 18:33:34江澤濤翟豐碩張少欽

計(jì)算機(jī)研究與發(fā)展 2023年4期

江澤濤翟豐碩錢藝肖蕓張少欽

1 （廣西圖像圖形與智能處理重點(diǎn)實(shí)驗(yàn)室（桂林電子科技大學(xué)）廣西桂林 541004）

2 （南昌航空大學(xué)土木建筑學(xué)院南昌 330063）

（zetaojiang@126.com）

目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)之一，目標(biāo)檢測(cè)近年來也取得了很大的進(jìn)展，它廣泛應(yīng)用于機(jī)器人視覺[1]、車輛識(shí)別與跟蹤[2]、行人檢測(cè)[3]和軍事視頻監(jiān)控[4]. 然而，在不利光照條件下，目標(biāo)檢測(cè)仍然具有挑戰(zhàn)性.因?yàn)槿狈ψ銐蛘彰鳎杉降膱D像會(huì)出現(xiàn)一系列退化，例如低亮度、低對(duì)比度、強(qiáng)烈的噪聲等，目標(biāo)檢測(cè)的漏檢率和誤檢率會(huì)大幅增加. 低照度目標(biāo)檢測(cè)需要克服低照度圖像細(xì)節(jié)特征不明顯的缺陷，充分提取利用有限特征，最后輸出高精度的檢測(cè)結(jié)果.

早期低照度目標(biāo)檢測(cè)[5]一般使用紅外成像相機(jī)實(shí)現(xiàn)，紅外熱成像相機(jī)對(duì)物體的溫度信息敏感，但無法區(qū)分溫差較小的物體. 隨著深度學(xué)習(xí)的快速發(fā)展，目前的低照度目標(biāo)檢測(cè)[6]主要依靠RGB 數(shù)碼相機(jī)拍攝圖像，再將數(shù)字圖像輸入計(jì)算機(jī)完成目標(biāo)檢測(cè)算法. 這種方法圖像數(shù)據(jù)獲取成本較低，圖像的動(dòng)態(tài)范圍更大，進(jìn)而可以捕獲更多的視覺信息，因此檢測(cè)精度也有了較大提升. 目前基于域適應(yīng)的低照度目標(biāo)檢測(cè)算法[7]需要用到明暗成對(duì)的數(shù)據(jù)集訓(xùn)練生成對(duì)抗網(wǎng)絡(luò)（generate against network, GAN）[8]，再由通用目標(biāo)檢測(cè)算法輸出檢測(cè)結(jié)果. 這種方案模型較難擬合，實(shí)現(xiàn)條件較為苛刻，檢測(cè)結(jié)果輸出在原圖上，人眼無法直觀評(píng)估檢測(cè)結(jié)果的好壞. 此外，低照度圖像增強(qiáng)算法很好地實(shí)現(xiàn)了低照度圖像到正常照度圖像的轉(zhuǎn)換，但是其模擬的增強(qiáng)效果是基于人眼視覺效果的，對(duì)于計(jì)算機(jī)而言，增強(qiáng)過后的圖像目標(biāo)特征信息會(huì)有所損失，將其直接送入主流目標(biāo)檢測(cè)模型，很難得到較好的檢測(cè)精度.

針對(duì)上述不足，本文研究一種結(jié)構(gòu)簡(jiǎn)單、精度較高且能夠在正常照度風(fēng)格圖像上輸出檢測(cè)結(jié)果的端到端低照度目標(biāo)檢測(cè)算法. 該算法結(jié)合高清攝像機(jī)的數(shù)據(jù)優(yōu)勢(shì)和深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大學(xué)習(xí)能力，提出一種像素級(jí)高階映射（pixel-level high-order mapping,PHM）模塊去增強(qiáng)低照度圖像特征，這個(gè)初步增強(qiáng)圖像特征的過程視為粗調(diào). 粗調(diào)之后的圖像特征經(jīng)過關(guān)鍵信息增強(qiáng)（key information enhancement, KIE）模塊過濾噪聲信息，再次對(duì)特征信息進(jìn)行優(yōu)化，這個(gè)再次增強(qiáng)圖像特征的過程視為細(xì)調(diào). 2 階段調(diào)整使得網(wǎng)絡(luò)輸出更加顯著的低照度圖像特征信息，然后利用特征金字塔網(wǎng)絡(luò)將全局特征和局部特征信息充分融合，提高每張?zhí)卣鲌D的特征表達(dá)能力. 此外，在特征金字塔中添加長(zhǎng)距離特征捕獲（long distance feature capture,LFC）模塊，搜尋特征圖中目標(biāo)的長(zhǎng)距離依賴關(guān)系，利用多種不同尺度的感受野，提高算法的目標(biāo)檢測(cè)精度. 最后，使用多個(gè)預(yù)測(cè)分支去直接回歸目標(biāo)檢測(cè)框的位置和大小.

本文的主要貢獻(xiàn)有3 點(diǎn)：

1）提出PHM 模塊，增大低照度圖像待檢測(cè)物體的局部特征梯度，進(jìn)而提升目標(biāo)檢測(cè)精度；

2）在富含大量特征信息的中等尺寸特征圖上，添加KIE 模塊，突出重要信息，過濾噪聲信息，促進(jìn)檢測(cè)網(wǎng)絡(luò)的快速收斂；

3）提出LFC 模塊，捕獲孤立區(qū)域的長(zhǎng)距離關(guān)系，提高對(duì)極端長(zhǎng)寬比物體的檢測(cè)能力.

1 相關(guān)工作

1.1 低照度圖像增強(qiáng)

低照度圖像普遍存在整體亮度不足、對(duì)比度較低等問題，人眼難以獲取圖像信息，低照度圖像增強(qiáng)算法可以有效解決這些視覺難題. 目前已有大量圖像增強(qiáng)算法被提出，早期基于直方圖均衡化[9]的圖像增強(qiáng)算法使用額外的先驗(yàn)和約束，試圖放大相鄰像素之間的灰度差，擴(kuò)展了圖像的動(dòng)態(tài)范圍. 基于去霧的圖像增強(qiáng)算法[10]借鑒將圖像求反然后去霧的思路，將低照度圖像求反去霧再求反的方式進(jìn)行處理，用于還原低照度圖像更多的細(xì)節(jié)，但是基于去霧的算法丟失了過亮區(qū)域的細(xì)節(jié). Retinex 理論[11]指出物體亮度由物體本身的反射分量和環(huán)境光照2 個(gè)因素構(gòu)成. 基于該理論，RetinexNet[12]，KinD[13]等算法通過處理環(huán)境光照分量來達(dá)到增強(qiáng)圖像的效果. MBLLEN[14]算法在不同等級(jí)中提取出豐富的圖像特征，利用多個(gè)子網(wǎng)絡(luò)做圖像增強(qiáng)，最后通過多分支融合產(chǎn)生輸出圖像，圖像質(zhì)量從不同的方向得到了提升，但有時(shí)會(huì)出現(xiàn)過曝光的增強(qiáng)結(jié)果. 這些算法都需要使用成對(duì)的明暗數(shù)據(jù)集訓(xùn)練端到端的低照度圖像增強(qiáng)網(wǎng)絡(luò).Zero-DCE[15]使用一系列零參考的損失函數(shù)來引導(dǎo)低照度圖像向正常照度和高質(zhì)量視覺特征的方向轉(zhuǎn)換，不需要使用成對(duì)的明暗數(shù)據(jù)集，該算法可以泛化到各種光照條件下，同時(shí)計(jì)算量很小，可以方便地應(yīng)用到其他下游任務(wù)中，提高目標(biāo)檢測(cè)任務(wù)的檢測(cè)精度.

1.2 目標(biāo)檢測(cè)

近年來，目標(biāo)檢測(cè)領(lǐng)域已經(jīng)取得了長(zhǎng)足的進(jìn)步. 很多優(yōu)秀的目標(biāo)檢測(cè)算法被提出：YOLO 系列目標(biāo)檢測(cè)算法（YOLOv1[16]、YOLOv2[17]、YOLOv3[18]、YOLOv4[19]、YOLOv5[20]、YOLOX[21]），該系列的主體框架為特征提取器和檢測(cè)頭. YOLOv1 中的檢測(cè)頭為2 個(gè)全連接層，直接預(yù)測(cè)邊界框的位置和寬高，速度快，但是精度較低；YOLOv2 引入偏移量的概念，預(yù)先定義大量已知位置和寬高的錨框（anchor），降低直接預(yù)測(cè)邊界框的位置和寬高的難度；YOLOv3 主要對(duì)YOLOv2 進(jìn)行了改進(jìn)，將檢測(cè)頭分成3 部分，分別負(fù)責(zé)檢測(cè)大、中、小目標(biāo)；YOLOv4 進(jìn)一步對(duì)檢測(cè)頭進(jìn)行了改進(jìn)，并使用了CIOU[22]損失函數(shù)來進(jìn)行網(wǎng)絡(luò)模型的訓(xùn)練，還改進(jìn)了特征提取和特征融合模塊等；YOLOv5 采用了自適應(yīng)的錨框，在特征融合部分添加FPN[23]和PAN[24]結(jié)構(gòu)，損失函數(shù)使用GIOU[25]損失函數(shù)等；YOLOX 放棄先驗(yàn)框的設(shè)置，使用無錨框的訓(xùn)練方式，提升網(wǎng)絡(luò)模型的通用性. 此外，R-CNN 系列目標(biāo)檢測(cè)算法（R-CNN[26]、Fast R-CNN[27]、Faster R-CNN[28]）有著更高的檢測(cè)精度，但是檢測(cè)速度較慢，R-CNN 首先對(duì)圖像選取若干建議區(qū)域并標(biāo)注類別和邊界框，然后對(duì)每個(gè)建議區(qū)域提取特征，進(jìn)一步確定邊界框和目標(biāo)類別；Fast R-CNN對(duì)整幅圖像進(jìn)行特征提取，減少R-CNN 中對(duì)每個(gè)建議區(qū)域特征提取導(dǎo)致的重復(fù)計(jì)算；Faster R-CNN 將生成建議區(qū)域的算法從選擇性搜索變成了區(qū)域建議網(wǎng)絡(luò). 另外，EfficientDet[29]為不同應(yīng)用場(chǎng)景提供了7 種不同大小的模型，實(shí)現(xiàn)了速度和精度之間的均衡；Foveabox[30]、FCOS[31]、CornerNet[32]等基于關(guān)鍵點(diǎn)或中心域法的無錨框（anchor-free）目標(biāo)檢測(cè)算法也有較高檢測(cè)精度和檢測(cè)速度. 同時(shí)，特征金字塔、Focal loss[33]等關(guān)鍵技術(shù)被廣泛應(yīng)用到各個(gè)目標(biāo)檢測(cè)算法中. 但這些目標(biāo)檢測(cè)算法在低照度場(chǎng)景下都不能取得很好的檢測(cè)精度，本文研究在這些目標(biāo)檢測(cè)算法的基礎(chǔ)上構(gòu)建一個(gè)端到端的低照度目標(biāo)檢測(cè)算法框架.

1.3 注意力機(jī)制

注意力機(jī)制已廣泛應(yīng)用于計(jì)算機(jī)視覺的各個(gè)領(lǐng)域，并取得了良好的效果. 注意力機(jī)制對(duì)輸入數(shù)據(jù)的各個(gè)部分按照其對(duì)結(jié)果的影響程度分配不同的權(quán)重.Hu 等人[34]提出了通道注意力，對(duì)特征通道間的相關(guān)性進(jìn)行建模，降低無關(guān)信息的影響，強(qiáng)化重要區(qū)域的特征，幫助網(wǎng)絡(luò)模型具備更好的語義表達(dá)能力.

通道注意力機(jī)制的實(shí)現(xiàn)分為3 個(gè)部分：擠壓、激勵(lì)和注意. 通過擠壓函數(shù)可以將H×W×C的特征圖變換成1×1×C的特征向量，如式（1）所示：

其中H，W分別表示特征圖的長(zhǎng)和寬，將每個(gè)通道內(nèi)所有的特征值相加再取平均，即得到代表每個(gè)通道信息的特征向量.

激勵(lì)過程學(xué)習(xí)各通道的依賴程度，并根據(jù)依賴程度對(duì)不同的特征圖進(jìn)行調(diào)整，得到權(quán)重向量：

其中 δ表示ReLU 激活函數(shù)，σ表示Sigmoid 激活函數(shù)，w1和w2分別表示激勵(lì)階段的前后2 個(gè)特征向量.

注意階段將權(quán)重向量與特征圖對(duì)應(yīng)通道的每個(gè)特征值相乘，如式（3）所示：

其中，x表示輸入特征圖，w表示權(quán)重向量.

Wang 等人[35]提出了空間注意力，讓網(wǎng)絡(luò)關(guān)注圖像特征中的特定區(qū)域，顯著提升了圖像分類任務(wù)的準(zhǔn)確率. 在目標(biāo)檢測(cè)領(lǐng)域，除了語義信息外，位置信息也相當(dāng)重要，Woo 等人[36]將空間注意力和通道注意力進(jìn)行整合，使目標(biāo)檢測(cè)網(wǎng)絡(luò)更積極地關(guān)注含有待檢測(cè)目標(biāo)信息的重要特征. Vaswani 等人[37]提出了自注意力機(jī)制，將特征圖每個(gè)位置的更新都由計(jì)算特征圖的加權(quán)和得到，這個(gè)權(quán)重來源于所有位置中的成對(duì)關(guān)聯(lián)，這樣可以建立長(zhǎng)距離依賴.

2 低照度目標(biāo)檢測(cè)框架

2.1 基本思路和總體設(shè)計(jì)

本文提出結(jié)合特征增強(qiáng)和多尺度感受野（feature enhancement and multi-scale receptive field, FEMR）的低照度目標(biāo)檢測(cè)模型，將像素級(jí)高階映射（PHM）模塊、關(guān)鍵信息增強(qiáng)（KIE）模塊、長(zhǎng)距離特征捕獲（LFC）模塊與YOLOX 目標(biāo)檢測(cè)模型相結(jié)合. 首先輸入低照度圖像數(shù)據(jù)，通過人工設(shè)計(jì)的損失函數(shù)去擬合高階映射模塊的網(wǎng)絡(luò)參數(shù)，使其在前向傳播中向正常照度圖像的特征分布逼近，得到初步增強(qiáng)的特征圖，提升模型對(duì)低照度圖像特征的利用效率. 其次在此基礎(chǔ)上，使用特征提取網(wǎng)絡(luò)對(duì)初步增強(qiáng)的特征圖進(jìn)行深層次特征提取，得到3 種不同大小尺度的特征圖，該特征提取網(wǎng)絡(luò)結(jié)構(gòu)與YOLOX 模型結(jié)構(gòu)保持一致，再利用通道空間注意力和外連接注意力機(jī)制的差異化特性，對(duì)特征圖進(jìn)行引導(dǎo)，讓模型關(guān)注對(duì)檢測(cè)結(jié)果貢獻(xiàn)更大的關(guān)鍵特征，為多尺度感受野特征金字塔部分提供富含高層語義信息和淺層位置信息的高質(zhì)量特征圖. 在低照度圖像中，觀察發(fā)現(xiàn)孤立區(qū)域內(nèi)經(jīng)常存在極端比例的待檢測(cè)目標(biāo)，引入條狀感受野可以加強(qiáng)對(duì)長(zhǎng)距離特征關(guān)系的捕獲能力，提升網(wǎng)絡(luò)模型對(duì)該類目標(biāo)的檢測(cè)能力，同時(shí)不會(huì)帶來過多的參數(shù)和計(jì)算量. 最后利用3 個(gè)檢測(cè)頭進(jìn)行特征解碼，去預(yù)測(cè)目標(biāo)框的位置、高寬和對(duì)應(yīng)的類別. 本文所提模型具備直接檢測(cè)低照度圖像中不易識(shí)別和極端比例目標(biāo)物體的能力，并輸出帶有目標(biāo)框信息的正常照度風(fēng)格圖像.

如圖1 所示，模型整體可分為5 個(gè)部分，分別是圖中上方的像素級(jí)高階映射，下方左邊的特征提取，中間的關(guān)鍵信息增強(qiáng)和多尺度感受野特征金字塔，右邊的特征解碼.各部分相互獨(dú)立，因此該模型結(jié)構(gòu)具有較高的靈活性.

Fig.1 Architecture for FEMR low illumination object detection algorithm圖1 FEMR 低照度目標(biāo)檢測(cè)算法結(jié)構(gòu)圖

2.2 像素級(jí)高階映射模塊

低照度圖像特征的不顯著性嚴(yán)重影響目標(biāo)檢測(cè)算法的檢測(cè)精度，因此本文設(shè)計(jì)圖像特征增強(qiáng)模塊去解決這個(gè)問題. 具有RGB 三通道的低照度圖像，經(jīng)過固定尺寸縮放和歸一化后，作為模塊的輸入，輸出為經(jīng)過初步特征增強(qiáng)的三通道特征圖. 該模塊可以擬合出一個(gè)高階映射曲線，為輸入圖像的每一個(gè)像素建立映射關(guān)系.

本文設(shè)計(jì)的PHM 模塊結(jié)構(gòu)細(xì)節(jié)如圖2 所示，模塊主要由4 層卷積構(gòu)成，其中卷積核大小均為3×3，步長(zhǎng)為1，卷積過程中保持與輸入相同的尺度大小，前3 次卷積擴(kuò)充通道數(shù)為32，并用ReLU 激活函數(shù)[38]激活，消除網(wǎng)絡(luò)運(yùn)算過程中得到的負(fù)值，第4 層卷積將通道數(shù)調(diào)整為24，并用tanh 激活函數(shù)[39]激活，將輸出結(jié)果壓縮到（0,1）區(qū)間范圍內(nèi)，并拆分成N張三通道的特征圖，N=8.

Fig.2 PHM module structure diagram圖2 PHM 模塊結(jié)構(gòu)示意圖

將輸入圖像與這N張?zhí)卣鲌D上對(duì)應(yīng)的值進(jìn)行運(yùn)算，得到初步增強(qiáng)的特征圖，該運(yùn)算過程為

為了引導(dǎo)網(wǎng)絡(luò)得到合理的增強(qiáng)映射關(guān)系，本文設(shè)計(jì)了3 個(gè)損失函數(shù)：曝光損失、光照平滑損失、色彩一致性損失. 曝光損失函數(shù)控制圖像的曝光強(qiáng)度范圍，首先預(yù)設(shè)一個(gè)正常光照強(qiáng)度[40]等級(jí)E，然后計(jì)算固定大小區(qū)域內(nèi)的平均灰度值等級(jí)Yk與預(yù)設(shè)E之間的L1距離，本文設(shè)定的固定區(qū)域大小為16×16，同時(shí)設(shè)置E=0.6. 這個(gè)正常光照強(qiáng)度等級(jí)E是一個(gè)超參數(shù)，通過不斷縮小該距離，讓網(wǎng)絡(luò)學(xué)習(xí)到將低光圖像特征映射成正常光照?qǐng)D像特征的參數(shù)值. 該損失函數(shù)表示為

其中S表示特征圖被劃分的區(qū)域個(gè)數(shù)，Yk表示各個(gè)區(qū)域的平均灰度值等級(jí)，E表示預(yù)設(shè)的正常光照強(qiáng)度等級(jí).

為了保持相鄰像素之間的單調(diào)關(guān)系，本文設(shè)計(jì)了一個(gè)光照平滑損失函數(shù)，通過減小水平方向、豎直方向和對(duì)角方向的灰度差值，來達(dá)到光照平滑的效果.該光照平滑損失函數(shù)可以用式（6）表示：

其中H，W表示特征圖的高和寬，Mi,j表示對(duì)應(yīng)第i行第j列的灰度值大小.

圖像的淺層特征主要包含顏色等信息，同時(shí)考慮到圖像RGB 顏色三通道的色彩穩(wěn)定性[41]. 因此本文設(shè)計(jì)了一個(gè)提升色彩一致性的損失函數(shù)，將RGB三通道拆分成（R,G），（R,B），（G,B）三個(gè)組合，然后不斷減小每2 個(gè)通道之間平均強(qiáng)度的L2 距離，最后實(shí)現(xiàn)色彩的一致性. 該損失函數(shù)表示為

其中Jp和Jq分別表示對(duì)應(yīng)p和q通道的整體灰度值強(qiáng)度大小，?表示各通道進(jìn)行組合的列表.

特征增強(qiáng)的高階映射模塊整體損失由式（5）（6）（7）3 個(gè)損失函數(shù)聯(lián)合計(jì)算，可以用式（8）表示：

其中Wexposure和Wcolor表示對(duì)應(yīng)損失函數(shù)的權(quán)重.

2.3 關(guān)鍵信息增強(qiáng)模塊

如何充分利用從特征提取網(wǎng)絡(luò)提取的低照度圖像特征信息，是提高低照度目標(biāo)檢測(cè)性能的關(guān)鍵問題. 本文設(shè)計(jì)了KIE 模塊，使網(wǎng)絡(luò)能夠關(guān)注重要信息；過濾噪聲信息，從少數(shù)重要的凸顯特征中獲取所需要的類別和位置信息，其中包括通道空間注意力和外連接注意力機(jī)制.

通道空間注意力結(jié)構(gòu)如圖3 所示，其中的通道部分由2 個(gè)同時(shí)進(jìn)行的平均池化和最大池化組成，將輸出的2 個(gè)向量逐位相加，并分2 次使用全連接層整合特征信息，最后使用Sigmoid 激活函數(shù)，壓縮它們的數(shù)值范圍并進(jìn)行輸出，作為原始特征圖各個(gè)通道的權(quán)重系數(shù). 空間部分主要在通道維度上使用最大池化和平均池化，將得到的2 張單通道的特征圖進(jìn)行堆疊，再使用一個(gè)膨脹系數(shù)為2 的3×3 卷積調(diào)整通道數(shù)為1，每個(gè)位置的數(shù)值作為原始特征圖對(duì)應(yīng)空間位置的權(quán)重. 空間注意力機(jī)制加權(quán)引導(dǎo)后的特征圖具有重點(diǎn)關(guān)注不同區(qū)域特征的能力；通道注意力機(jī)制加權(quán)引導(dǎo)后的特征圖具有關(guān)注不同通道維度特征的能力，將它們逐像素相加，可以最大化利用低照度圖像有限特征信息，使該模塊具有識(shí)別目標(biāo)檢測(cè)關(guān)鍵信息的能力.

Fig.3 Channel spatial attention structure diagram圖3 通道空間注意力結(jié)構(gòu)示意圖

通道空間注意力應(yīng)用在40×40 的中等尺寸特征圖上，該層級(jí)的特征圖位置信息和高層語義信息都極為豐富，可以充分發(fā)揮注意力的自動(dòng)分配權(quán)重的能力，以加快網(wǎng)絡(luò)模型訓(xùn)練擬合速度.

對(duì)于大尺度特征圖，本文設(shè)計(jì)外連接注意力去讓網(wǎng)絡(luò)利用自身樣本內(nèi)的信息，通過引入2 個(gè)外部記憶單元，隱式地學(xué)習(xí)整個(gè)數(shù)據(jù)集的特征，加強(qiáng)不同樣本間的潛在特征關(guān)系，外連接注意力結(jié)構(gòu)如圖4所示. 首先，輸入特征圖經(jīng)過維度變換，將特征圖轉(zhuǎn)換為特征向量，在全連接層中將其變換成其他維度大小，該層為線性層，不使用激活函數(shù). 獲得第1 個(gè)輔助記憶單元，將一些和任務(wù)相關(guān)的信息保存在輔助記憶中，在需要時(shí)再進(jìn)行讀取，這樣可以有效地增加網(wǎng)絡(luò)容量. 將第1 個(gè)記憶單元獲得的先驗(yàn)知識(shí)經(jīng)過線性變換得到第2 個(gè)記憶單元，增強(qiáng)網(wǎng)絡(luò)的建模能力. 外連接注意力使用較少的訓(xùn)練參數(shù)，大幅增強(qiáng)特征信息的表達(dá)能力，并最終提高模型的檢測(cè)精度.

Fig.4 External connection attention structure diagram圖4 外連接注意力結(jié)構(gòu)示意圖

2.4 長(zhǎng)距離特征捕獲模塊

為了提高網(wǎng)絡(luò)對(duì)特征遠(yuǎn)程依賴關(guān)系建模的能力，業(yè)界普遍采用自注意力機(jī)制和Non-Local 模塊[42]，但這類算法的復(fù)雜度是相當(dāng)高的. 因此，本文設(shè)計(jì)將長(zhǎng)距離特征捕獲模塊嵌入到特征金字塔中，讓網(wǎng)絡(luò)有意識(shí)地關(guān)注場(chǎng)景中極端比例，前后位置距離相差較遠(yuǎn)的特征信息.

LFC 模塊的結(jié)構(gòu)細(xì)節(jié)如圖5 所示. 輸入特征圖經(jīng)過2 個(gè)不同的卷積分支，得到同樣尺寸的特征圖，然后在2 個(gè)分支中采用不同的自適應(yīng)池化策略. 上半部分分支中，第1 層特征圖被進(jìn)一步特征提取，依次是利用3×3 的感受野進(jìn)行卷積操作，不改變特征圖尺寸，使用自適應(yīng)池化，將特征縮小為原來的1/3 倍和1/5 倍，對(duì)應(yīng)著小感受野和稍大的感受野，然后通過上采樣和通道堆疊再壓縮，將多尺度感受野的特征信息進(jìn)一步融合. 下半部分分支中，第1 層特征圖被進(jìn)一步變換為2 個(gè)特征向量，其中1 個(gè)將寬壓縮為1，另一個(gè)將高壓縮為1，分別對(duì)應(yīng)特征圖中每一行和每一列的遠(yuǎn)距離關(guān)系，然后通過上采樣和通道堆疊再壓縮得到能夠捕獲水平方向和豎直方向的遠(yuǎn)距離依賴關(guān)系的特征圖，最后將2 個(gè)分支得到的特征圖再次融合并輸出. 集成長(zhǎng)而狹窄的池化核，使網(wǎng)絡(luò)可以同時(shí)聚合全局和局部上下文，在該模塊的幫助下，多尺度感受野特征金字塔網(wǎng)絡(luò)可以增強(qiáng)對(duì)孤立區(qū)域比例特殊目標(biāo)的檢測(cè)能力.

3 實(shí)驗(yàn)結(jié)果與分析

Fig.5 LFC module structure diagram圖5 LFC 模塊結(jié)構(gòu)示意圖

本節(jié)主要在ExDark 低照度圖像數(shù)據(jù)集[43]上進(jìn)行實(shí)驗(yàn)，采用平均精度（mean average precision, mAP）作為衡量本文提出算法在低照度目標(biāo)檢測(cè)性能上的評(píng)價(jià)指標(biāo). 本文所提出的低照度目標(biāo)檢測(cè)算法具有低照度特征增強(qiáng)、多尺度感受野等特點(diǎn)，可以有效解決低光照帶來的問題. 本節(jié)重點(diǎn)討論3 個(gè)部分：實(shí)現(xiàn)細(xì)節(jié)、檢測(cè)性能、消融實(shí)驗(yàn). 本文的算法主要針對(duì)低照度環(huán)境，因此以ExDark 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果作為主要的評(píng)價(jià)標(biāo)準(zhǔn).

3.1 實(shí)現(xiàn)細(xì)節(jié)

本文的算法使用CSPDarknet53 作為主干特征提取網(wǎng)絡(luò)特征，特征提取網(wǎng)絡(luò)的預(yù)訓(xùn)練權(quán)重是在ImageNet 圖像數(shù)據(jù)集[44]上訓(xùn)練得到的. 模型訓(xùn)練選擇AdaBelief[45]優(yōu)化器，訓(xùn)練分為前50 輪和后50 輪.前50 輪凍結(jié)主干特征提取網(wǎng)絡(luò)的權(quán)重，只訓(xùn)練主干網(wǎng)絡(luò)以外的部分權(quán)重，學(xué)習(xí)率設(shè)置為1×10?3，一次傳入8 張圖片數(shù)據(jù)；后50 輪釋放主干特征提取網(wǎng)絡(luò)的權(quán)重梯度，允許網(wǎng)絡(luò)自動(dòng)調(diào)整所有的訓(xùn)練參數(shù)，學(xué)習(xí)率設(shè)置為1×10?4，1 次傳入4 張圖片數(shù)據(jù). 訓(xùn)練過程中使用余弦退火學(xué)習(xí)率算法[46]，周期值設(shè)置為5，ETA最小值設(shè)置為1，使用標(biāo)簽平滑算法[47]，默認(rèn)參數(shù)值設(shè)置為0.01. 實(shí)驗(yàn)設(shè)備為Tesla P40 GPU，運(yùn)行環(huán)境為Ubuntu 20.0.4.

3.2 檢測(cè)性能

本文在低照度圖像數(shù)據(jù)集（ExDark）上綜合評(píng)估所提出的低照度目標(biāo)檢測(cè)算法，它包含12 個(gè)類別：?jiǎn)诬嚒⒋?、瓶子、公交、汽車、貓、椅子、杯子、狗、摩托、人和桌? 在輸入尺寸為640×640 的條件下，本文算法在測(cè)試集上取得了77.80%的mAP，相比于目前最先進(jìn)的YOLOv5 和YOLOX 等目標(biāo)檢測(cè)算法，在檢測(cè)精度mAP上有了較大的提升. 表1 展示了本文所提出的算法與目前主流目標(biāo)檢測(cè)算法的精度比較結(jié)果. 同時(shí)，本文還為模型設(shè)置了3 種不同版本的網(wǎng)絡(luò)模型. 通過改變網(wǎng)絡(luò)模型中的特征圖通道數(shù)，增大或減小模型所使用參數(shù)數(shù)量，以此來達(dá)到讓模型能夠適應(yīng)不同的顯存大小顯卡的目的.

Table 1 Accuracy Comparison of Different Object Detection Algorithms on ExDark Dataset表1 在ExDark 數(shù)據(jù)集上不同物體檢測(cè)算法的精度比較

圖6 展示了本文提出的低照度目標(biāo)檢測(cè)算法與其他主流目標(biāo)檢測(cè)算法的比較，其中第1 行為標(biāo)簽對(duì)應(yīng)的真實(shí)框，最后一行為FEMR 的輸出結(jié)果，相比其他算法，可以直接由高階映射模塊得到的中間層輸出便于人眼觀察的增強(qiáng)圖像，從圖6 中可以看到本文提出的算法可以在低照度圖像對(duì)應(yīng)的正常照度風(fēng)格圖像上生成合理的目標(biāo)邊界框，漏檢率和誤檢率相比前幾種算法都有了一定程度的下降. 在共同檢測(cè)到的物體上，本文提出的算法的識(shí)別準(zhǔn)確率也會(huì)更高. 從第1 列對(duì)比圖中，可以看出SSD 算法會(huì)漏檢桌上大量杯子；EfficientDet 算法對(duì)桌上杯子的識(shí)別準(zhǔn)確率較低；YOLOv4、YOLOv5 則會(huì)漏檢旁邊重疊的人，或是將桌上的餐具誤檢測(cè)成杯子，且識(shí)別準(zhǔn)確率都相對(duì)較低. 從右邊的4 列對(duì)比結(jié)果來看，也存在大量類似的問題.

Fig.6 Comparison of detection results of mainstream object detection algorithms圖6 主流目標(biāo)檢測(cè)算法檢測(cè)結(jié)果對(duì)比圖

本節(jié)還通過對(duì)比圖像增強(qiáng)算法+YOLO 系列的組合算法與本文提出的低照度目標(biāo)檢測(cè)算法在檢測(cè)精度、訓(xùn)練時(shí)間和檢測(cè)時(shí)間上進(jìn)行對(duì)比，驗(yàn)證本文所提算法在低照度目標(biāo)檢測(cè)任務(wù)上的顯著提升效果.

在實(shí)驗(yàn)中，本節(jié)在基礎(chǔ)檢測(cè)模型的基礎(chǔ)上，分別組合了EnlightenGAN[48]、KinD[13]、MBLLEN[14]、Zero-DCE[15]這些基于深度學(xué)習(xí)的低照度圖像增強(qiáng)算法[49]，這些算法沿用原作者的設(shè)計(jì)方案，并按照作者提供的訓(xùn)練方案，重新訓(xùn)練對(duì)應(yīng)圖像增強(qiáng)網(wǎng)絡(luò)的模型權(quán)重. 將ExDark 數(shù)據(jù)集中的測(cè)試集先進(jìn)行圖像增強(qiáng)，再送入YOLOv5 和YOLOX 目標(biāo)檢測(cè)器中，得出對(duì)應(yīng)算法的mAP. 記錄所有圖像完成先增強(qiáng)后檢測(cè)時(shí)間的總時(shí)間，最后取平均值得到該算法單張圖像完成先增強(qiáng)后檢測(cè)的時(shí)間，其中每種算法所用圖像相同，檢測(cè)時(shí)間僅包含模型前向運(yùn)算時(shí)間，不包含模型導(dǎo)入和畫框等時(shí)間，訓(xùn)練時(shí)間為模型訓(xùn)練所消耗的總時(shí)間.

通過表2 可以看出，本文提出的端到端低照度目標(biāo)檢測(cè)算法在檢測(cè)精度、檢測(cè)時(shí)間和訓(xùn)練時(shí)間等方面都具有顯著優(yōu)勢(shì)，而由低照度圖像增強(qiáng)算法增強(qiáng)過后的圖像再送入目標(biāo)檢測(cè)器中，這種方式相比于直接送入對(duì)應(yīng)目標(biāo)檢測(cè)器，檢測(cè)精度還可能出現(xiàn)大幅下降的現(xiàn)象，說明經(jīng)過增強(qiáng)的圖像雖然在一定程度上在人眼視覺方面可以取得一定提升效果，但是對(duì)于計(jì)算機(jī)而言，損失掉了一部分有助于目標(biāo)檢測(cè)的重要特征信息. 同時(shí)生成圖像的過程也占據(jù)了大量運(yùn)算時(shí)間，不利于快速得到檢測(cè)結(jié)果.

Table 2 Comparison of the Proposed Algorithm and Algorithms Enhanced Before Detection表2 本文算法與先增強(qiáng)后檢測(cè)算法的比較

3.3 超參數(shù)設(shè)置實(shí)驗(yàn)與分析

本節(jié)對(duì)像素級(jí)高階映射模塊中的超參數(shù)N和E進(jìn)行相關(guān)實(shí)驗(yàn)與理論分析，其中改變N的大小的同時(shí)需要改變上一層的特征圖通道數(shù)，并與之匹配.

在實(shí)驗(yàn)中發(fā)現(xiàn)，通過8 輪及以上的增強(qiáng)過程，像素級(jí)高階映射模塊可以實(shí)現(xiàn)更大的曲率，應(yīng)對(duì)不同的情況. 由圖7 可以看出，增強(qiáng)次數(shù)過少會(huì)導(dǎo)致在訓(xùn)練階段曝光損失、光照平滑損失和色彩一致性損失難以實(shí)現(xiàn)同步下降. 同時(shí)，表3 展現(xiàn)了當(dāng)增大N值時(shí)，本文所提模型的檢測(cè)精度呈現(xiàn)上升趨勢(shì)，且N值增加會(huì)帶來大量的運(yùn)算，為了維持模型檢測(cè)精度和檢測(cè)速度的平衡，本文將設(shè)置N=8.

為了實(shí)現(xiàn)圖像局部曝光強(qiáng)度處于正常狀態(tài)，即不接近0（欠曝光）或1（過曝光）. 本節(jié)分別將E值設(shè)置為0.2、0.3、0.4、0.5、0.6、0.7、0.8，由表4 可以看到，當(dāng)E=0.6 時(shí)，模型檢測(cè)性能較高，因此本文將設(shè)置E=0.6.

3.4 消融實(shí)驗(yàn)

Fig.7 Loss curves of training processes圖7 訓(xùn)練過程損失曲線圖

Table 3 Relationship Between Hyperparameter N and mAP表3 超參數(shù)N 與mAP 的關(guān)系

Table 4 Relationship Between Hyperparameter E and mAP表4 超參數(shù)E 與mAP 的關(guān)系

為了進(jìn)一步探討本文提出的算法的有效性，本節(jié)對(duì)像素級(jí)高階映射（PHM）模塊、關(guān)鍵信息增強(qiáng)（KIE）模塊、長(zhǎng)距離特征捕獲（LFC）模塊進(jìn)行了消融實(shí)驗(yàn)，并對(duì)各個(gè)模塊對(duì)實(shí)驗(yàn)結(jié)果的影響進(jìn)行了分析，通過刪減1 個(gè)或2 個(gè)模塊，組合得到FEMR_del_KIE_LFC、FEMR_del_PHM_LFC、FEMR_del_PHM_KIE、FEMR_del_LFC、FEMR_del_KIE、FEMR_del_PHM 這6 種算法，還將各個(gè)模塊嵌入到其他目標(biāo)檢測(cè)模型中，探討其通用性. 在本節(jié)的實(shí)驗(yàn)中，只考慮算法模型對(duì)ExDark 數(shù)據(jù)集的性能影響，如表5 所示，其中以YOLOv5 算法作為基線模型，為了便于比較精度變化，各類別的mAP進(jìn)行取整處理.

3.4.1 像素級(jí)高階映射模塊

本節(jié)增加像素級(jí)高階映射模塊后的檢測(cè)模型，與基線模型相比，mAP提高了2.5%，有效提升了低照度圖像的目標(biāo)檢測(cè)精度. 本節(jié)分析得出經(jīng)過增強(qiáng)后的圖像，其特征與正常光照的圖像特征的差異較小，能夠使網(wǎng)絡(luò)在原始圖像灰度梯度較小處能夠得到更多的圖像特征，以便于完成目標(biāo)檢測(cè)任務(wù).

對(duì)該模塊包含的3 個(gè)損失函數(shù)進(jìn)行消融實(shí)驗(yàn)，通過刪減1 項(xiàng)或2 項(xiàng)損失函數(shù)，組合得到FEMR_del_smooth_color、FEMR_del_exposure_color、FEMR_del_exposure_smooth、FEMR_del_color、FEMR_del_smooth、FEMR_del_exposure 這6 種算法. 由表6 可以看出，該模塊的3 個(gè)損失函數(shù)的組合使用均對(duì)模型檢測(cè)精度有不同程度的提升效果，側(cè)面印證了提升圖像質(zhì)量對(duì)增強(qiáng)目標(biāo)檢測(cè)能力的幫助.

3.4.2 關(guān)鍵信息增強(qiáng)模塊

本節(jié)增加關(guān)鍵信息增強(qiáng)模塊后的檢測(cè)模型與基線模型相比，mAP提高了1.68%，其中使用2 個(gè)注意力模塊，分別對(duì)2 種特征尺寸的特征圖進(jìn)行關(guān)鍵信息的增強(qiáng). 本文算法可以從2 個(gè)角度出發(fā)對(duì)特征圖中目標(biāo)的關(guān)鍵位置信息和語義信息，完成高效的激活，使網(wǎng)絡(luò)更多地關(guān)注這類重要信息，消除噪聲的干擾.

3.4.3 長(zhǎng)距離特征捕獲模塊

本節(jié)增加長(zhǎng)距離特征捕獲模塊后的建模與基線模型相比，mAP提高了2.12%，其中人和單車類別的mAP分別提升了5%和8%，提升最為明顯，說明長(zhǎng)距離特征捕獲模塊對(duì)這類比例較為特殊的目標(biāo)的檢測(cè)能力具有明顯的加強(qiáng)，同時(shí)低照度數(shù)據(jù)集中這類目標(biāo)占據(jù)的比重也較大，因此對(duì)整體檢測(cè)精度有了較好的提升效果.

Table 5 Ablation Experiment of Each Algorithm on ExDark Dataset表5 在ExDark 數(shù)據(jù)集上各算法的消融實(shí)驗(yàn)

Table 6 Ablation Experiment of Loss Function表6 損失函數(shù)的消融實(shí)驗(yàn)

3.4.4 各模塊通用性測(cè)試

表7 展示了向3 種其他目標(biāo)檢測(cè)模型中添加1 個(gè)、2 個(gè)或3 個(gè)模塊時(shí)共得到21 種算法的檢測(cè)結(jié)果.

從比較結(jié)果來看，本文提出的3 個(gè)模塊均有一定的通用性，對(duì)大部分目標(biāo)檢測(cè)模型有精度上的提升.

Table 7 Universality Test of Each Module表7 各模塊通用性測(cè)試

4 結(jié) 論

本文針對(duì)低照度目標(biāo)檢測(cè)問題提出了結(jié)合特征增強(qiáng)和多尺度感受野的低照度目標(biāo)檢測(cè)算法.為了充分利用低照度圖像中的不顯著特征，設(shè)計(jì)了像素級(jí)的高階映射模塊和關(guān)鍵信息增強(qiáng)模塊，分2 步去增強(qiáng)低照度圖像特征，還設(shè)計(jì)了長(zhǎng)距離特征捕獲模塊加強(qiáng)網(wǎng)絡(luò)模型對(duì)長(zhǎng)距離依賴關(guān)系的捕獲能力，以此來共同提高模型的檢測(cè)能力. 與其他經(jīng)典目標(biāo)檢測(cè)算法在ExDark 數(shù)據(jù)集上的檢測(cè)結(jié)果相比，本文提出的算法具有更高的檢測(cè)精度. 然而本算法在檢測(cè)速度、GPU 資源消耗方面有待提高，因此在后續(xù)的工作中也將針對(duì)網(wǎng)絡(luò)的輕量化展開進(jìn)一步研究.

作者貢獻(xiàn)聲明：江澤濤提出了文章整體思路并負(fù)責(zé)撰寫與修改論文；翟豐碩負(fù)責(zé)完成算法設(shè)計(jì)與實(shí)驗(yàn)，并撰寫與修改論文；錢藝修改論文；肖蕓負(fù)責(zé)圖表繪制；張少欽參與了論文的審閱與修改.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡