摘 "要:針對X射線在違禁品檢測任務(wù)中安檢圖像色彩存在對比度低、檢測精度低、極易出現(xiàn)漏檢錯(cuò)檢的問題,在快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster R-CNN)算法基礎(chǔ)上,通過K-means聚類算法改進(jìn)錨框(Anchor)的生成方式;提出將高效通道注意力機(jī)制(ECANet)引入到感興趣池化層(ROIpooling)后,突出違禁品的輪廓、色彩等信息。本文算法在S_DXray數(shù)據(jù)集上的mAP達(dá)到92.06%,改進(jìn)后網(wǎng)絡(luò)模型檢測精度提高5.06個(gè)百分點(diǎn)。有效提高X射線圖像違禁品檢測的精度和小尺度目標(biāo)的檢測能力,有效避免錯(cuò)檢、漏檢的現(xiàn)象。
關(guān)鍵詞:目標(biāo)檢測;X射線圖像;殘差網(wǎng)絡(luò);特征金字塔;K均值聚類;快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò);高效通道注意力機(jī)制
中圖分類號:TP391 " " " " " " " "文獻(xiàn)標(biāo)志碼:A " " " " " " " "文章編號:1008-0562(2024)04-0494-012
Detection of prohibited items in complex scenes with integrated efficient channel attention
CUI Liqun, LI Wanxin
(Software College, Liaoning Technical University, Huludao 125105, China)
Abstract: Aiming at the problems of low contrast, low detection accuracy and easy to miss detection and error detection of X-ray security image color in contraband detection task, based on Faster R-CNN algorithm, K-means clustering algorithm is used to improve the generation method of Anchor. It is proposed to introduce the efficient channel attention mechanism (ECANet) into the ROI pooling layer to highlight the contour, color and other information of contraband. The mAP of the proposed algorithm on the S_DXray dataset reaches 92.06%, and the detection accuracy of the improved network model is improved by 5.06 percentage points. It effectively improves the accuracy of X-ray image contraband detection and the detection ability of small-scale targets, and effectively avoids the phenomenon of 1 detection and missed detection.
Key words: target detection; X-ray images; ResNet; FPN; K-means; Faster R-CNN; ECANet
0 "引言
X射線圖像由物質(zhì)的密度、物質(zhì)的質(zhì)量衰減系數(shù)以及X射線的透射距離決定[1]。雙能X射線[2]根據(jù)物體的原子序數(shù),判斷其中有機(jī)物和無機(jī)物等,在X射線圖像上對物體分類著色。X射線圖像中不同的物體疊加經(jīng)過分類著色后,物體顏色會(huì)出現(xiàn)偏差,疊加越多顏色越深。物品種類和位置的隨機(jī),導(dǎo)致X射線圖像背景復(fù)雜、目標(biāo)多、色彩對比度低且遮擋現(xiàn)象嚴(yán)重。物品種類繁多、物品間重疊干擾現(xiàn)象嚴(yán)重、物品體積差異大、目標(biāo)尺度變化、縱橫比多樣等,都是X射線圖像目標(biāo)檢測現(xiàn)存的挑戰(zhàn)。X射線安檢任務(wù)依賴于安檢人員對X射線安檢圖像中物品進(jìn)行判別[3],檢查準(zhǔn)確率通常為80%~90%[4]。為提高X射線安檢圖像違禁品的檢測精度及安檢效率,早期的研究通過對安檢工作人員培訓(xùn),以提高對X射線安檢圖像中違禁品的分辨能力。之后,部分學(xué)者通過使用圖像處理方法對X射線安檢圖像質(zhì)量進(jìn)行提升,便于安檢工作人員對X射線安檢圖像中的違禁品進(jìn)行識別。王彥等[5]應(yīng)用小波分解和Retinex濾波,提出了一種改進(jìn)的多尺度Retinex濾波算法,達(dá)到了X射線圖像增強(qiáng)和去噪的效果。
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,AlexNet[6]、VGGNet[7]、GoogleNet[8]、ResNet[9]等網(wǎng)絡(luò)模型的實(shí)現(xiàn),證實(shí)了深度學(xué)習(xí)技術(shù)在圖像處理中的強(qiáng)大能力?;谏疃葘W(xué)習(xí)的目標(biāo)檢測算法主要包括基于回歸問題的一階段(one-stage)算法和基于區(qū)域建議的兩階段(two-stage)算法。one-stage算法的代表算法有YOLO(you only look once)系列[11]、SSD(single shot multibox detector)[12]等,實(shí)現(xiàn)了端到端[10]的檢測,檢測速度快。two-stage算法的代表性算法有R-CNN算法[13]、Fast R-CNN算法[14]、Faster R-CNN算法[15]等,對圖像中的感興趣區(qū)域預(yù)選候選框,檢測精度高。目前,對于X射線安檢圖像違禁品檢測的研究,AKCAY等[16]首次將深度學(xué)習(xí)方法用于X射線安檢圖像的分類檢測,利用AlexNet網(wǎng)絡(luò)和遷移學(xué)習(xí)方法對X射線安檢圖像進(jìn)行分類檢測,證明了深度學(xué)習(xí)方法在X射線安檢圖像領(lǐng)域能獲得更好的性能。張友康等[17]基于SSD網(wǎng)絡(luò)設(shè)計(jì)了適用于X射線安檢圖像多尺度違禁品的檢測網(wǎng)絡(luò),對多尺度特征圖融合模塊改進(jìn)以提升模型對小尺度目標(biāo)的檢測效果。苗碩等[18]在膠囊網(wǎng)絡(luò)的基礎(chǔ)上以特征增強(qiáng)模塊提取圖像特征,再以特征篩選模塊對得到的特征進(jìn)行篩選,有效提高了復(fù)雜場景的X射線圖像的違禁品檢測能力。喬靖乾等[19]在CenterNet基礎(chǔ)上引入金字塔卷積,提出了金字塔沙漏網(wǎng)絡(luò)增強(qiáng)了多尺度特征的提取能力。游璽等[20]提出了XPICR-CNN算法,在Cascade R-CNN上引入可變形卷積提升其自適應(yīng)能力,并引入空間自適應(yīng)注意力機(jī)制抑制背景干擾,解決了正負(fù)樣本不均衡和小目標(biāo)訓(xùn)練困難的問題,使得檢測精度有很大的提高。
上述方法均大幅度提高了檢測精度,同時(shí)基于卷積神經(jīng)網(wǎng)絡(luò)的X射線安檢圖像違禁品檢測成為安全檢查領(lǐng)域和計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)[21]。本文選用Faster R-CNN目標(biāo)檢測算法,以殘差網(wǎng)絡(luò)(Res-Net)融合特征金字塔結(jié)構(gòu)(FPN)[22]作為特征提取網(wǎng)絡(luò)(Backbone),在區(qū)域建議網(wǎng)絡(luò)(RPN)引入K-means聚類算法,并在感興趣池化層(ROIPooling)后引入高效通道注意力模塊(ECANet)[23],通過S_DXray數(shù)據(jù)集對提出的算法進(jìn)行訓(xùn)練,驗(yàn)證本文所提出算法的有效性。
1 "Faster R-CNN算法
1.1 "整體框架
Faster R-CNN算法是two-stage算法,需要先篩選出與真實(shí)目標(biāo)框接近的錨框(Anchor),然后進(jìn)行預(yù)測,因此檢測速度方面略顯不足,但平均檢測精度(mAP)較高。違禁品目標(biāo)的X射線圖像尺度大小不一,檢測難度相對較大,同時(shí)違禁品檢測任務(wù)對檢測精確度的要求更高,綜合考慮各類因素,選擇檢測精度較高的Faster R-CNN算法進(jìn)行改進(jìn),以滿足實(shí)際應(yīng)用需求。
Faster R-CNN算法的模型結(jié)構(gòu)主要包括特征提取網(wǎng)絡(luò)(Backbone)、區(qū)域建議網(wǎng)絡(luò)(region proposal network,RPN)、感興趣區(qū)域池化層(ROIPooling)和全連接層(full connected,F(xiàn)C)。其中,Backbone用于提取輸入圖像的特征,并輸出特征圖(Feature Map);RPN用于生成特征圖上的錨框(Anchor),并對Anchor進(jìn)行回歸修正,形成相對精確的Anchor作為區(qū)域建議框(Proposals);ROIPooling池化生成固定大小的特征圖;最后,通過FC分別完成優(yōu)化邊界框回歸和目標(biāo)分類。
1.2 "特征提取網(wǎng)絡(luò)
X射線安檢圖像數(shù)據(jù)集輸入到網(wǎng)絡(luò)進(jìn)行違禁品檢測時(shí),首先要經(jīng)過Backbone進(jìn)行圖像特征提取。Backbone通常由卷積層(Conv)、激活層(Relu)、池化層(Pooling)組成,可以使用訓(xùn)練好的網(wǎng)絡(luò)。本文選用“ResNet50+FPN”結(jié)構(gòu)作為本文X射線安檢圖像違禁品檢測的Backbone。ResNet可以在一定程度上降低網(wǎng)絡(luò)模型復(fù)雜性,同時(shí)避免隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的加深導(dǎo)致檢測效果變差的情況,能夠更好地提取特征,進(jìn)而提升檢測效果。但隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,多次卷積和池化會(huì)導(dǎo)致特征圖的分辨率不斷減小,最后一層的特征圖甚至?xí)霈F(xiàn)信息缺失現(xiàn)象,進(jìn)而導(dǎo)致模型對不同尺度目標(biāo)檢測能力差。FPN結(jié)構(gòu)主要通過簡單的網(wǎng)絡(luò)連接,在保持原有計(jì)算量的情況下,大幅提升不同尺度目標(biāo)的檢測性能,可以將各層特征融合得到更豐富的語義信息。特征提取網(wǎng)絡(luò)由ResNet50網(wǎng)絡(luò)融合FPN結(jié)構(gòu)構(gòu)成“ResNet50+FPN”結(jié)構(gòu),見圖1。其中,卷積層(Conv2_X~Conv5_X)對輸入圖像進(jìn)行自底向上提取,得到階段特征圖(F2~F5),再對不同特征圖進(jìn)行1×1的卷積操作,接著進(jìn)行2倍上采樣(Upsample)和側(cè)向鏈接融合( ),得到特征圖(M2~M5),再進(jìn)行3×3的卷積操作,對特征圖進(jìn)一步運(yùn)算。為減少融合過程中出現(xiàn)的混疊情況,對P5特征圖最大池化下采樣(MaxPooling)得到P6,最終得到特征圖P2~P6。
1.3 "區(qū)域建議網(wǎng)絡(luò)
RPN使得Faster R-CNN檢測算法精度高于one-stage算法,可以看作是一個(gè)全卷積網(wǎng)絡(luò),其作用是生成錨框,并回歸得到含有目標(biāo)的目標(biāo)建議框,結(jié)構(gòu)見圖2。圖2中,256-d代表256維向量。在RPN結(jié)構(gòu)中,滑動(dòng)窗口對特征圖進(jìn)行卷積操作,產(chǎn)生n維特征圖并輸入到回歸層和分類層?;瑒?dòng)窗口每滑動(dòng)一次會(huì)預(yù)測出k個(gè)區(qū)域建議,通常每個(gè)滑動(dòng)位置對應(yīng)著3種尺度(分別為82、162和322)和3種寬高比(分別為1∶1、1∶2和2∶1),共得到9種尺寸,回歸層預(yù)測Anchor框的寬高和中心點(diǎn)坐標(biāo),分類層辨別建議框?yàn)榍熬盎虮尘暗母怕?,因此回歸層輸出4k個(gè)坐標(biāo),分類層得到2k個(gè)得分。經(jīng)RPN得到的目標(biāo)建議框,輸入到后面的檢測網(wǎng)絡(luò)進(jìn)行檢測。
圖片信息經(jīng)過RPN網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)可定義為
(1)
式中: 為第 個(gè)錨框的索引; 為第 個(gè)候選區(qū)域框含有目標(biāo)的概率,若候選區(qū)域的標(biāo)簽為前景,則 ,否則 ; 、 為損失函數(shù)的歸一化參數(shù); 為平衡歸一化參數(shù)的權(quán)重; 為預(yù)測目標(biāo)邊界框的坐標(biāo)參數(shù); 為其對應(yīng)真實(shí)框的坐標(biāo)參數(shù)。
為分類損失,定義為
。(2)
為回歸損失,定義為
, (3)
式中,x、y、w、h分別為第 個(gè)錨框的坐標(biāo)參數(shù);
。 "(4)
2 "Faster R-CNN算法改進(jìn)
2.1 "K-means聚類算法優(yōu)化特征提取網(wǎng)絡(luò)
在目標(biāo)檢測中,合適的錨框Anchor尺度關(guān)系著檢測的精度與速度,若Anchor尺度不能很好地貼合本數(shù)據(jù)集的目標(biāo)標(biāo)注框,則會(huì)增加訓(xùn)練的迭代次數(shù),導(dǎo)致預(yù)測精度降低。早期的Anchor一般通過計(jì)算或根據(jù)經(jīng)驗(yàn)得到,但Anchor尺度取決于數(shù)據(jù)集本身。原始Faster R-CNN算法中Anchor生成方案根據(jù)PASCAL VOC數(shù)據(jù)集得到,不同數(shù)據(jù)集對應(yīng)的Anchor有很大差別,因此,對于X射線安檢圖像違禁品特定數(shù)據(jù)集可能存在Anchor尺度不合適的問題,使用K-means聚類算法對X射線安檢危險(xiǎn)物品數(shù)據(jù)集的目標(biāo)標(biāo)注框尺寸進(jìn)行聚類,以得到最佳貼合目標(biāo)的Anchor尺寸。
K-means聚類算法是一種無監(jiān)督學(xué)習(xí)方法,其聚類過程是:將數(shù)據(jù)集劃分成n個(gè)簇,通過計(jì)算每個(gè)樣本的相似性度量,將其分配給與之距離最近的簇中心,每次迭代都計(jì)算n個(gè)簇中所有樣本的均值,不斷更新簇中心,直到簇中心不再變化。由前述可知Faster R-CNN算法中有9個(gè)不同尺度的Anchor,因此本文定義9個(gè)聚類中心。
原始K-means算法中,采用歐幾里得距離公式來衡量目標(biāo)位置與聚類中心點(diǎn)的距離,但Faster R-CNN算法中的Proposal生成過程中只需關(guān)注Anchor與真實(shí)框之間的貼合程度,不適合采用歐幾里得距離。因此,本文應(yīng)用K-means算法處理X射線安檢圖像違禁品時(shí)采用Anchor框與標(biāo)注框之間的交并比(intersection over union,IOU)來衡量Anchor框與標(biāo)注框之間的距離。
IOU距離 計(jì)算式為
, " " " (5)
式中, 為IOU面積, 。
表示真實(shí)目標(biāo)框與先驗(yàn)框面積的并集, ,
其中,Sj為真實(shí)目標(biāo)框與先驗(yàn)框面積的交集,Sj=wh,w、h分別表示真實(shí)目標(biāo)框與先驗(yàn)框相交位置的寬和高;w1、h1分別表示真實(shí)目標(biāo)框的寬和高;w2、h2分別表示區(qū)域建議框的寬和高。
本文在Faster R-CNN算法中,以K-means聚類算法優(yōu)化區(qū)域建議網(wǎng)絡(luò)獲取Anchor,計(jì)算得到更貼合X射線圖像中違禁品目標(biāo),得到的9個(gè)Anchor尺寸,S_DXray數(shù)據(jù)集的計(jì)算結(jié)果見表1。
違禁品形狀各異,目標(biāo)尺度大小不一,且X射線圖像色彩對比度低。針對X射線圖像違禁品數(shù)據(jù)集需要重新進(jìn)行聚類,選取合適的先驗(yàn)錨框參數(shù),進(jìn)而提高檢測精度和速度。
將改進(jìn)后的先驗(yàn)錨框均分到不同尺度的特征金字塔上。小尺寸的錨框針對高分辨率特征圖,用于檢測小尺度目標(biāo);大尺寸的錨框針對低分辨率特征圖,用于檢測大尺度目標(biāo)。將原始先驗(yàn)錨框尺寸和改進(jìn)后的先驗(yàn)錨框尺寸進(jìn)行歸一化處理,改進(jìn)后的先驗(yàn)錨框尺寸更符合違禁品的形狀和比例。
2.2 "注意力機(jī)制
X射線圖像安檢數(shù)據(jù)集數(shù)量龐大、待檢測目標(biāo)尺度形狀各異且相互堆疊,極易造成目標(biāo)與背景的混淆,甚至無法區(qū)分的情況,傳統(tǒng)卷積會(huì)因卷積層增加而使目標(biāo)特征和感受野減少,造成圖片特征及上下文信息被忽略,導(dǎo)致模型收斂速度較慢,檢測精度低等問題。現(xiàn)有研究表明,引入注意力機(jī)制到深度學(xué)習(xí)中,可以有效地增強(qiáng)信息,并提高模型的學(xué)習(xí)速率。目前常見的注意力機(jī)制主要有:SENet[24]、CBAM[25]以及ECANet。
ECANet是由Qilong等提出的一種高效的通道注意(ECA)模塊,是一種輕量級注意力機(jī)制,被廣泛應(yīng)用于許多圖像處理任務(wù)。ECA注意力模塊基于SE注意力模塊,在全局平均池化(GAP)之后采用自適應(yīng)方法,選擇一維卷積大小 k 的方法進(jìn)行權(quán)重共享學(xué)習(xí),從而避免了通道降維現(xiàn)象的出現(xiàn)。ECANet機(jī)制塊見圖3。
圖3中, 為輸入特征圖,C為輸入特征圖的通道數(shù), 為輸出特征圖,GAP(global average pooling)為全局平均池化,σ為激活函數(shù)(sigmoid), 為元素相乘(multiple),k為局部跨通道交互覆蓋率,k與C之間存在映射關(guān)系
,(6)
式中,角標(biāo)odd表示離 中數(shù)值最近的一個(gè)奇數(shù)。
ECA注意力機(jī)制主要流程為:輸入特征圖進(jìn)入ECA注意力機(jī)制后,首先進(jìn)行全局平均池化(Global Average Pooling)操作,將各通道特征值平均池化,得到通道的全局平均值;隨后將全局平均池化值作為輸入,經(jīng)過通道全連接層(Channel-wise Fully Connected Layer),輸出每個(gè)通道的權(quán)重系數(shù),用于調(diào)整不同通道的特征權(quán)重;最后,ECA注意力機(jī)制利用每個(gè)通道的權(quán)重系數(shù)對原始特征圖進(jìn)行重新縮放(Rescaling),實(shí)現(xiàn)不同通道特征的加權(quán),得到加權(quán)后的特征圖。
為增強(qiáng)違禁品目標(biāo)特征信息,更好地完成檢測任務(wù),提出將ECANet注意力機(jī)制引入ROIPooling池化層,通過全局平均池化(GAP)獲得聚合特征。通過大小為k的一維卷積生成通道權(quán)重,達(dá)到在不降維的基礎(chǔ)上照顧到跨通道的信息交互,使整個(gè)網(wǎng)絡(luò)能夠?qū)W習(xí)到更有效的注意力權(quán)重,增大感受野,突出X射線圖像違禁品的輪廓、色彩等信息。引入注意力機(jī)制對Faster R-CNN模型進(jìn)行改進(jìn),一方面使特征圖通道重要性變得不一樣,網(wǎng)絡(luò)更加關(guān)注權(quán)重值大的通道,另一方面也極大減少了網(wǎng)絡(luò)的權(quán)重參數(shù),從而提高模型的學(xué)習(xí)效率和檢測精度。
2.3 "算法流程
在Faster R-CNN模型的基礎(chǔ)上,以ResNet50+FPN為特征提取網(wǎng)絡(luò)Backbone,采用基于IOU的K-means聚類算法改進(jìn)Anchor生成方案,將注意力機(jī)制ECANet引入到ROIPooling層后,設(shè)計(jì)了針對X射線安檢圖像違禁品檢測算法,模型結(jié)構(gòu)見圖4,檢測流程如下。
(1)X射線圖像輸入后,利用數(shù)據(jù)加載函數(shù),讀取數(shù)據(jù)集以及標(biāo)注文件,將一個(gè)批次的圖像縮放到統(tǒng)一大小并將標(biāo)注文件中的坐標(biāo)也相應(yīng)縮放,然后進(jìn)行歸一化操作。
(2)經(jīng)縮放和歸一化的圖像傳入到特征提取網(wǎng)絡(luò)(Backbone),經(jīng)過主干特征提取網(wǎng)絡(luò)ResNet50得到不同尺寸的特征圖,不同尺度特征圖通過FPN處理,得到融合了包含不同語義信息的不同層級加強(qiáng)特征圖(Feature Map)。
(3)特征圖傳入RPN網(wǎng)絡(luò),得到不同特征層上的分類矩陣和邊界框回歸矩陣,利用基于IOU的K-means聚類算法改進(jìn)Anchor生成器,分別生成應(yīng)對不同特征圖上相應(yīng)尺寸大小的Anchor框,通過RPN部分的損失函數(shù),反復(fù)迭代篩選出最終建議框(Proposals)。
(4)結(jié)合Backbone輸出的Feature Map與RPN網(wǎng)絡(luò)輸出的Proposals,利用非極大值抑制(NMS)[26]算法得到感興趣區(qū)域(region of interest,ROI),ROI通過ROIPooling將篩選出的建議框最大池化下采樣;
(5)將下采樣后的矩陣經(jīng)ECANet注意力機(jī)制得到特征加強(qiáng)的特征圖。
(6)將生成的特征圖展平并連接全連接層,再分別鏈接一個(gè)全連接層得到分類矩陣和邊界框回歸矩陣,將得到的分類矩陣和邊界框矩陣反復(fù)迭代生成預(yù)測框。
(7)剔除分類得分小于指定閾值的預(yù)測框得到最終的預(yù)測框。
3 "實(shí)驗(yàn)與分析
3.1 "數(shù)據(jù)集
由于安全檢查任務(wù)的獨(dú)特性,X射線安檢圖像的公開數(shù)據(jù)集較少。其中,GDXray[27]公開數(shù)據(jù)集包含19 407張圖像,包含槍(Gun)、手里劍(Shuriken)和剃刀(Razor)三類違禁物品。GDXray數(shù)據(jù)集中的X射線圖像只包含灰度圖像,背景單一,這與復(fù)雜的現(xiàn)實(shí)場景相去甚遠(yuǎn)。SIXray[28]是由1 059 231個(gè)X射線圖像組成的大規(guī)模X射線數(shù)據(jù)集,該數(shù)據(jù)集專注于分類任務(wù)中數(shù)據(jù)不平衡問題,即正樣本數(shù)量過少(不足1%),在檢測任務(wù)中的正樣本會(huì)以低復(fù)發(fā)率出現(xiàn)。
因此,結(jié)合公開的X射線安檢圖像SIXray數(shù)據(jù)集和GDXray數(shù)據(jù)集,參照PASAL VOC2012數(shù)據(jù)集的標(biāo)注方式,用LabelImg軟件完成標(biāo)注。部分X射線圖像經(jīng)鏡像、旋轉(zhuǎn)、裁剪、拉伸、縮放等數(shù)據(jù)增廣處理后,共得到8 878張圖像。創(chuàng)建X射線下多目標(biāo)違禁物品的目標(biāo)檢測數(shù)據(jù)集S_DXray。該數(shù)據(jù)集包含槍支類(Gun)、刀具類(Knife)、鉗類(Pliers)、剪刀類(Scissors)和扳手類(Wrench)共5類違禁品,分別用于模型的訓(xùn)練與評估。圖像包含多個(gè)目標(biāo),其中Gun目標(biāo)4 963個(gè),分布于3 123張圖片內(nèi);Knife目標(biāo)3 077個(gè),分布于1 960張圖片內(nèi);Pliers目標(biāo)5 333個(gè),分布于3 939張圖片內(nèi);Scissors目標(biāo)1 131個(gè),分布于985張圖片內(nèi);Wrench目標(biāo)3 075個(gè),分布于2 197張圖片內(nèi)。
3.2 "實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)操作系統(tǒng)為Windows;搭載32G Intel(R) Xeon(R) W-2223 CPU @ 3.60GHz版本的CPU;NVIDIA TITAN RTX顯存24G版本的GPU;采用Python 3.6語言和Pytorch1.6.0深度學(xué)習(xí)框架。選擇遷移學(xué)習(xí)方法訓(xùn)練模型,選取公共的VOC數(shù)據(jù)集為預(yù)訓(xùn)練數(shù)據(jù)集,用該數(shù)據(jù)集為源域在Faster R-CNN網(wǎng)絡(luò)上學(xué)習(xí)底層特征。數(shù)據(jù)集按照(訓(xùn)練集+驗(yàn)證集)∶測試集=9∶1,且訓(xùn)練集∶驗(yàn)證集=9∶1的比例劃分,即總比例為訓(xùn)練集∶驗(yàn)證集∶測試集= 81∶9∶10。訓(xùn)練超參數(shù)配置見表2。
3.3 "性能評估指標(biāo)
實(shí)驗(yàn)選擇平均精度(Average Precision,AP),和平均精度均值(mean Average Precision,mAP)作為X射線安檢圖像違禁品檢測結(jié)果的評價(jià)指標(biāo)。AP和mAP是對精確率P(Precision)和召回率R(Recall)的綜合考量,其數(shù)值越高表示算法檢測精度越高。P為正確預(yù)測為某類違禁品占全部預(yù)測為該類違禁品的比例;R為正確預(yù)測為某類違禁品占實(shí)際全部該類違禁品的比例,可分別表示為
, " " " " " "(7)
, " " " " " "(8)
式中:TP(Ture Positive)表示預(yù)測值和真實(shí)值一樣,即預(yù)測值、真實(shí)值均為正樣本;FP(False Positive)表示預(yù)測值和真實(shí)值不一樣,即預(yù)測值為正樣本,真實(shí)值為負(fù)樣本;FN(False Negative)表示預(yù)測值和真實(shí)值不一樣,即預(yù)測值為負(fù)樣本,真實(shí)值為正樣本。
AP為精確率-召回率曲線在[0,1]區(qū)間內(nèi)精確率對召回率的積分,可表示為
。 " " " " (9)
mAP為所有類別的平均精度的均值,可表示為
, " " "(10)
式中,Nc為檢測類別數(shù),本文數(shù)據(jù)集包含5類違禁品,取5。
3.4 "定性分析
在相同的設(shè)備和工作環(huán)境下,與Faster R-CNN算法[15]、YOLOv5算法[29]、SSD算法[12]、CenterNet算法[30],Wu’s算法[31],以及Sun’s算法[32]進(jìn)行對比。在S_DXray數(shù)據(jù)集上,以相同訓(xùn)練集、驗(yàn)證集和測試集進(jìn)行訓(xùn)練和測試,結(jié)果見表3。為了更精準(zhǔn)地展示對比模型檢測各類違禁品的準(zhǔn)確率,繪制各模型對各類違禁品的精確度-召回率(P-R)曲線,見圖5。
由表3、圖5可以看出,本文所提算法整體的mAP為92.06%,在各對比算法中精度最高,其中Knife、Wrench、Pliers和Scissors類別的檢測結(jié)果AP分別為88.39%、86.16%、93.66%和93.69%。與其他算法相比,Gun類別的檢查準(zhǔn)確率稍低,但準(zhǔn)確率有所提高,為98.42%,證明本文所提算法的有效性。
為更直觀對比本文檢測算法在X射線安檢圖像違禁品檢測任務(wù)中的效果,采用前述對比算法,分別針對復(fù)雜場景進(jìn)行試驗(yàn),對比結(jié)果見圖6。
由圖6可以看出,對于不同場景本文所提算法均能成功檢測且檢測精度較高,錯(cuò)檢漏檢的現(xiàn)象明顯少于其他算法,違禁品目標(biāo)框也更貼合違禁品本身尺度,且能成功檢測到圖片中的小目標(biāo)。
3.5 "定量分析
為進(jìn)一步討論各改進(jìn)策略對Faster R-CNN算法在X射線安檢圖像違禁品檢測任務(wù)中的貢獻(xiàn)程度,驗(yàn)證改進(jìn)方式的有效性,將數(shù)據(jù)集按照訓(xùn)練集∶驗(yàn)證集∶測試集=81∶9∶10的比例劃分,對各改進(jìn)模塊進(jìn)行消融實(shí)驗(yàn)。消融實(shí)驗(yàn)1為原始Faster R-CNN違禁品檢測算法;消融實(shí)驗(yàn)2為在原始模型
上僅引入K-means聚類算法;消融實(shí)驗(yàn)3為在原始模型上僅引入ECA注意力機(jī)制算法;消融實(shí)驗(yàn)4為同時(shí)引入K-means聚類算法和ECA注意力機(jī)制算法。分別驗(yàn)證K-means聚類方法和ECANet注意力機(jī)制對整體模型的影響,結(jié)果見表4。
由表4可知,引入聚類算法和注意力機(jī)制使模型的精度顯著提升。K-means的單獨(dú)引入可以使網(wǎng)絡(luò)的mAP由87.00%提升至90.09%,提升了3.09個(gè)百分點(diǎn);注意力機(jī)制的引入使網(wǎng)絡(luò)的mAP由87.00%提升至90.46%,提升了3.46個(gè)百分點(diǎn);兩種方法同時(shí)引入后使網(wǎng)絡(luò)的mAP由87.00%提升至92.06%,精度提升了5.06個(gè)百分點(diǎn)。因此可以證明改進(jìn)Faster R-CNN算法在X射線安檢圖像違禁品檢測任務(wù)中的有效性。改進(jìn)算法使目標(biāo)建議框更貼合目標(biāo)真實(shí)框,對不同尺度目標(biāo)的學(xué)習(xí)能力增強(qiáng),對各類違禁品檢測效果均有明顯提高。對于Gun類、Pliers類和Knife類違禁品目標(biāo),相較于單獨(dú)引入ECANet,同時(shí)引入K-means和ECANet的算法精度略有不足,分析其原因是回歸數(shù)據(jù)集中此3類違禁品目標(biāo)數(shù)量最多,訓(xùn)練過程中可能存在因數(shù)據(jù)不均衡問題。
ECA注意力機(jī)制引入的位置對模型的精度也有很大的影響。為此同樣需要通過消融實(shí)驗(yàn)探究在不同位置引入注意力機(jī)制對整體實(shí)驗(yàn)精度的影響。嘗試在網(wǎng)絡(luò)中的4個(gè)位置引入ECA注意力機(jī)制,分別引入到Backbone層、RPN層、RIOPooling層和FC層之后,與原始網(wǎng)絡(luò)進(jìn)行對比實(shí)驗(yàn),結(jié)果見表5。
從表5中可以看出,隨著ECANet加入位置的后移,注意力機(jī)制的效果越明顯,注意力機(jī)制加入到Backbone層后,整體精度提高了0.70個(gè)百分點(diǎn);加入到RPN層后,整體精度提高了1.30個(gè)百分點(diǎn);加入到ROIPooling層后,整體精度提高了3.77個(gè)百分點(diǎn);但加入到FC層后卻下降了0.50個(gè)百分點(diǎn)。分析其原因可能是隨著卷積網(wǎng)絡(luò)層數(shù)的加深,網(wǎng)絡(luò)提取到的圖像特征越多,隨著特征圖的下采樣細(xì)節(jié)信息不斷被弱化,與注意力機(jī)制帶來的增益效果相抵消。由此可知,X射線行李圖像違禁品檢測算法在Backbone層、RPN層和FC層后加入注意力機(jī)制,其檢測精度表現(xiàn)不佳,而在ROIPooling層后加入注意力機(jī)制,對各類違禁品檢測的平均準(zhǔn)確率均最佳。
3.6 "改進(jìn)前后算法對比
綜上,本文以ResNet50+FPN為特征提取網(wǎng)絡(luò)的Faster R-CNN模型為改進(jìn)前模型,改進(jìn)后的模型能夠更準(zhǔn)確地檢測出違禁品,提高了模型的檢測準(zhǔn)確率。為進(jìn)一步驗(yàn)證本文對原始算法改進(jìn)的有效性,將經(jīng)過注意力機(jī)制的特征圖進(jìn)行熱力可視化,針對不同場景違禁品檢測熱力圖可視化結(jié)果見圖7。背景復(fù)雜場景圖中含有1個(gè)Pliers違禁品,被大量其他物品所覆蓋;小目標(biāo)場景中含有1個(gè)Scissors違禁品,目標(biāo)尺度較小,檢測難度較大;遮擋場景中含有一個(gè)Gun違禁品,遮擋現(xiàn)象嚴(yán)重,輪廓信息難以分辨;多目標(biāo)場景中含有2個(gè)不同形狀knife違禁品和2個(gè)Gun違禁品;單通道圖片中含有2個(gè)Knife違禁品。以上圖片的熱力圖中可以認(rèn)為是一個(gè)復(fù)雜檢測樣本。改進(jìn)前模型對噪聲抑制能力較差,背景復(fù)雜場景中沒有集中關(guān)注到違禁品目標(biāo);小目標(biāo)場景對目標(biāo)的關(guān)注程度不高;遮擋場景對違禁品位置信息有一定誤差;多目標(biāo)場景對各目標(biāo)的關(guān)注度不一,有可能出現(xiàn)漏檢現(xiàn)象;單通道圖片導(dǎo)致違禁品顏色信息更難獲得出現(xiàn)了誤檢現(xiàn)象。本文提出的改進(jìn)算法提高了模型對違禁品的關(guān)注度,強(qiáng)化了目標(biāo)的位置信息。改進(jìn)前后熱力圖可視化對比證明了改進(jìn)的有效性,即改進(jìn)后的算法更適合X射線安檢圖像違禁品的檢測。
本文以Faster R-CNN算法為基礎(chǔ)進(jìn)行改進(jìn),可能存在檢測速度較慢的情況,因此以整體數(shù)據(jù)集的10%為測試集,針對改進(jìn)前后各類違禁品的平均檢測精度和檢測速度進(jìn)行對比實(shí)驗(yàn),結(jié)果見表6。
由表6可知,檢測速度有小幅下降,提升檢測精度的同時(shí)沒有大幅增加檢測時(shí)間,這也再次證明了本文改進(jìn)方式的有效性。
為排除數(shù)據(jù)的偶然性,同時(shí)保證實(shí)驗(yàn)有效性,每組實(shí)驗(yàn)均在相同環(huán)境相同數(shù)據(jù)集上重復(fù)三組,實(shí)驗(yàn)數(shù)據(jù)如有不同均取中間值。把整體數(shù)據(jù)集按照訓(xùn)練集∶驗(yàn)證集∶測試集= 81∶9∶10劃分,以7組隨機(jī)劃分的數(shù)據(jù)集訓(xùn)練本文算法,得到每組整體的mAP分別為91.81%、91.95%、92.00%、92.06%、92.09%、92.22%、92.38%。本文得到的準(zhǔn)確率92.06%為中間數(shù)據(jù),進(jìn)一步排除數(shù)據(jù)的偶然性。
4 "結(jié)論
為更好解決安檢工作中對X射線圖像違禁品檢測中遇到的問題,在Faster R-CNN網(wǎng)絡(luò)模型的基礎(chǔ)上,引入K-means聚類算法,融入ECANet注意力機(jī)制。在S_DXray數(shù)據(jù)集上開展實(shí)驗(yàn),設(shè)計(jì)了不同算法進(jìn)行對比實(shí)驗(yàn),同時(shí)設(shè)計(jì)了針對不同改進(jìn)模塊的消融實(shí)驗(yàn),證明了所提算法改進(jìn)方法的有效性。實(shí)驗(yàn)結(jié)果表明,改進(jìn)前后對違禁品檢測的mAP提升了5.06個(gè)百分點(diǎn),由87.00%提升至92.06%。
(1)基于IOU的K-means聚類算法,利用數(shù)據(jù)集中真實(shí)違禁品目標(biāo)框生成先驗(yàn)框,使得模型預(yù)測框更貼合違禁品目標(biāo)尺度,有效解決了違禁品分布雜亂、尺度不一等問題,減少了對小目標(biāo)的漏檢情況。
(2)將ECANet注意力機(jī)制引入到ROIPooling池化層之后,使得模型更關(guān)注違禁品目標(biāo),有效解決了X射線圖像中違禁品顏色和輪廓信息模糊等問題,提高了對重疊目標(biāo)和遮擋目標(biāo)的檢測能力,減少了對復(fù)雜目標(biāo)的誤檢情況。
參考文獻(xiàn)(References):
[1] 陳志強(qiáng),張麗,金鑫.X射線安全檢查技術(shù)研究新進(jìn)展[J].科學(xué)通報(bào),2017, 62(13):1350-1365.
CHEN Zhiqiang,ZHANG Li,JIN Xin.Recent progress on X-ray security inspection technologies[J].Chinese Science Bulletin,2017,62(13):1350-1365.
[2] 孔維武,張勇,董明文.雙能X射線安檢圖像顯示質(zhì)量關(guān)鍵技術(shù)研究[J].警察技術(shù), 2020(5): 82-85.
KONG Weiwu,ZHANG Yong,DONG Mingwen.Research on key technology of image display quality of dual energy X-ray security inspection[J].Police Technology,2020(5):82-85.
[3] MERY D,SVEC E,ARIAS M,et al.Modern computer vision techniques for X-ray testing in baggage inspection[J].IEEE Transactions on Systems,Man,and Cybernetics:Systems,2017,47(4):682-692.
[4] MICHEL S,KOLLER S M,DE RUITER J C,et al.Computer-based training increases efficiency in X-ray image interpretation by aviation security screeners[C]//2007 41st Annual IEEE International Carnahan Conference on Security Technology. October 8-11,2007,Ottawa,ON,
Canada. IEEE,2007:201-206.
[5] 王彥,謝曉方,肖楚琬,等.基于改進(jìn)MSR濾波算法的X光圖像增強(qiáng)[J]. 計(jì)算機(jī)工程,2012,38(8):186-188.
WANG Yan,XIE Xiaofang,XIAO Chuwan,et al.X-ray image enhancement based on improved MSR filtering algorithm[J].Computer Engineering, 2012,38(8):186-188.
[6] ALOM M Z,TAHA T M,YAKOPCIC C,et al.The history began from AlexNet: a comprehensive survey on deep learning approaches[EB/OL]. 2018:1803.01164.https://arxiv.org/abs/1803.01164v2.
[7] SENGUPTA A,YE Y T,WANG R,et al.Going deeper in spiking neural networks:vgg and residual architectures[J].Frontiers in Neuroscience, 2019,13:95.
[8] SZEGEDY C,LIU W,JIA Y Q,et al.Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. June 7-12,2015, oston, MA, USA. IEEE,2015:1-9.
[9] TARG S,ALMEIDA D,LYMAN K.Resnet in resnet: generalizing residual architectures[EB/OL].2016: 1603.08029.https://arxiv.org/abs/1603.08029v1.
[10] SUN P Z,JIANG Y,XIE E Z,et al.What makes for end-to-end object detection?[EB/OL].2020:2012.05780.https://arxiv.org/abs/2012.05780v2.
[11] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. June 27-30,2016,Las Vegas,NV, USA. IEEE,2016:779-788.
[12] LIU W,ANGUELOV D,ERHAN D,et al.SSD:single shot multibox detector[M]//Computer Vision–ECCV 2016.Cham:Springer International
Publishing,2016:21-37.
[13] CHEN C Y,LIU M Y,TUZEL O,et al.R-CNN for small object detection[M]//Computer Vision-ACCV 2016. Cham:Springer International Publishing,2017:214-230.
[14] GIRSHICK R.Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision.December 7-13,2015,Santiago,Chile.IEEE,2015:1440-
1448.
[15] REN S Q,HE K M,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[16] AK?AY S,KUNDEGORSKI M E,DEVEREUX M,et al.Transfer learning using convolutional neural networks for object classification within X-ray baggage security imagery[C]//2016 IEEE International Conference on Image Processing.September 25-28,2016,Phoenix,AZ,USA. IEEE,2016:
1057-1061.
[17] 張友康,蘇志剛,張海剛,等.X光安檢圖像多尺度違禁品檢測[J]. 信號處理,2020,36(7):1096-1106.
ZHANG Youkang,SU Zhigang,ZHANG Haigang,et al.Multi-scale prohibited item detection in X-ray security image[J].Journal of Signal Processing,2020,36(7):1096-1106.
[18] 苗碩,李新偉,楊藝,等.基于改進(jìn)膠囊網(wǎng)絡(luò)的X射線圖像違禁品檢測[J].河南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,42(3):129-136.
MIAO Shuo,LI Xinwei,YANG Yi,et al.Detection of contraband in X-ray images based on improved Capsule network[J].Journal of Henan Polytechnic University (Natural Science),2023,42(3):129-136.
[19] 喬靖乾,張良.基于金字塔卷積和帶狀池化的X光目標(biāo)檢測[J]. 激光與光電子學(xué)進(jìn)展,2022,59(4):217-228.
QIAO Jingqian,ZHANG Liang.X-ray object detection based on pyramid convolution and strip pooling[J].Laser amp; Optoelectronics Progress,2022,59(4):217-228.
[20] 游璽,侯進(jìn),任東升,等.融合空間注意力的自適應(yīng)安檢違禁品檢測方法[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(21):176-186.
YOU Xi,HOU Jin,REN Dongsheng,et al.Adaptive security check prohibited items detection method with fused spatial attention[J]. Computer Engineering and Applications,2023,59(21):176-186.
[21] 柏楊.基于卷積神經(jīng)網(wǎng)絡(luò)的地鐵X射線物品圖像檢測算法研究[D].南京:東南大學(xué),2021:15-18.
[22] LIN T Y,DOLLáR P,GIRSHICK R,et al.Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. July 21-26,2017,Honolulu,HI,USA. IEEE,2017: 936-944.
[23] WANG Q L,WU B G,ZHU P F,et al.ECA-net: efficient channel attention for deep convolutional neural networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 13-19,2020. Seattle, WA, USA. IEEE,2020:11534- 11542.
[24] HU J,SHEN L,SUN G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 18-23,2018, Salt Lake City, UT, USA. IEEE, 2018: 7132-7141.
[25] WOO S, PARK J,LEE J Y,et al.CBAM: convolutional block attention module[M]//Computer Vision-ECCV 2018.Cham: Springer International Publishing,2018:3-19.
[26] HOSANG J,BENENSON R, SCHIELE B.Learning non-maximum suppression[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. July 21-26,2017,Honolulu,HI,USA. IEEE,2017:6469-6477.
[27] MERY D,RIFFO V,ZSCHERPEL U,et al.GDXray: the database of X-ray images for nondestructive testing[J].Journal of Nondestructive Evaluation,2015,34(4): 42.
[28] MIAO C J,XIE L X,WAN F,et al.SIXray:a large-scale security inspection X-ray benchmark for prohibited item discovery in overlapping images[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 15-20, 2019, Long Beach, CA, USA. IEEE,2019:2114-2123.
[29] LI S S,LI Y J,LI Y,et al.YOLO-FIRI: improved YOLOv5 for infrared image object detection[J].IEEE Access,1861,9:141861-141875.
[30] 熊磊,王鳳隨,錢亞萍.基于特征融合的自適應(yīng)多尺度無錨框目標(biāo)檢測算法[J].電子測量與儀器學(xué)報(bào),2022,36(11):236-244.
XIONG Lei,WANG Fengsui,QIAN Yaping.Adaptive multi-scale anchor-free target detection algorithm based on feature fusion[J]. Journal of Electronic Measurement and Instrumentation,2022,36(11): 236-244.
[31] 武連全,楚憲騰,楊海濤,等.基于改進(jìn)YOLOX的X射線違禁物品檢測[J].紅外技術(shù),2023,45(4):427-435.
WU Lianquan,CHU Xianteng,YANG Haitao,et al.X-ray detection of prohibited items based on improved YOLOX[J].Infrared Technology, 2023,45(4):427-435.
[32] 孫嘉傲,董乙杉,郭靖圓,等.自適應(yīng)與多尺度特征融合的X光違禁品檢測[J].計(jì)算機(jī)工程與應(yīng)用,2024,60(2):96-102.
SUN Jia'ao,DONG Yishan,GUO Jingyuan,et al.Detection of X-ray contraband by adaptive and multi-scale feature fusion[J].Computer Engineering and Applications,2024,60(2):96-102.