国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙向特征金字塔和深度學習的圖像識別方法

2021-05-21 04:47:32升,趙
哈爾濱理工大學學報 2021年2期
關鍵詞:圖像識別金字塔尺度

趙 升,趙 黎

(1.昆明醫(yī)科大學第三附屬醫(yī)院 PET/CT中心,昆明 650118;2.昆明醫(yī)科大學 基礎醫(yī)學院,昆明 650500)

0 引 言

計算機視覺是一個多學科交叉的領域, 主要研究從靜態(tài)圖像或者視頻流中自動提取、分析和理解有價值信息的理論和方法[1]。圖像物體識別與檢測(圖像識別)是指從靜態(tài)圖像或視頻流中識別及定位出其中感興趣的物體,是計算機視覺領域的一個基礎性任務。近年來,得益于深度學習理論和方法的長足發(fā)展,圖像識別也取得了許多新的突破[2-4]。然而,多尺度圖像識別依然是一項極具挑戰(zhàn)性的任務。一幅圖像所包含的物體有大有小,多尺度圖像識別旨在可以識別出圖像中不同大小的物體?,F(xiàn)有的圖像識別方法通常對大小適中的物體識別精度較好,對過大或者過小的物體識別精度都較差。多尺度圖像識別依然是當前的難點和前沿問題。

當前,基于深度神經(jīng)網(wǎng)絡的物體識別方法可以分為兩類:單步驟圖像識別方法和雙步驟圖像識別方法。顧名思義,單步驟圖像識別方法只有一個步驟,即通過對位置、比例和縱橫比進行常規(guī)或密集采樣實現(xiàn)物體識別。雙步驟圖像識別方法分為兩個步驟:第一步驟為稀疏物體識別方案集生成模型,第二步驟為方案集中物體識別方法的分類與回歸。區(qū)別于單步驟圖像識別方法,雙步驟圖像識別方法可輸出每個步驟的中間結果以更好地診斷圖像識別性能。相較于雙步驟圖像識別方法,單步驟圖像識別方法通常具有較高的計算效率和相對較低的識別精度。在單步驟圖像識別方法中,保持圖像采集邊框尺度和物體大小的一致是提高圖像識別精度的關鍵。因此,高層次的語義特征和密集的尺度覆蓋是提高單步驟圖像識別方法精度的有效途徑。然而,當前大多數(shù)深度神經(jīng)網(wǎng)絡對圖像邊框的大小都是固定不變的,其使得現(xiàn)有大多數(shù)基于深度神經(jīng)網(wǎng)絡的方法都無法徹底解決多尺度圖像識別。

特征金字塔是解決不同尺度圖像語義特征提取的有效途徑。近年來,特征金字塔已被應用于現(xiàn)有基于深度神經(jīng)網(wǎng)絡的圖像識別方法,以解決多尺度圖像識別問題?;谔卣鹘鹱炙膱D像識別方法利用不同尺度特征映射來識別不同尺度的物體。2016年,Liu等[5]提出了基于特征金字塔的多尺度圖像識別方法——Single Shot Detector(SSD)。SSD首先根據(jù)原始圖像生成多個不同尺度的特征圖像,而后從多個不同尺度的特征圖識別不同尺度的物體。然而,淺層特征映射中的小尺度語義信息限制了SSD的分類和回歸能力。為解決該問題,Zhou等[6]提出了Scale-Transferrable Detection Network(STDN)算法。STDN算法在DenseNet的最后環(huán)節(jié)嵌入尺度轉移模塊來生成具有大尺度語義信息的高分辨率特征映射。此外,許多研究[7-9]還探索了自上而下的特征金字塔特征融合方法以提升圖像識別的精確度。自上而下的特征金字塔融合方式將大尺度特征的語義信息融入小尺度特征,有助于小尺度物體識別。然而,大尺度物體識別依然是一個未解決的問題。因此,如何使用小尺度特征的語義信息豐富大尺度特征,提升大尺度物體識別精確度,是實現(xiàn)多尺度圖像識別的關鍵。

當前,大多數(shù)最先進的單階段圖像識別方法大都采用枚舉圖像錨框(anchor box)的方法;然而,錨框往往需要特別設計。Faster r-cnn[2]采用人工選擇錨框,Yolo9000[10]采用統(tǒng)計學方法(如聚類)設定錨框;然而,人工或統(tǒng)計學方法所選擇的錨框往往無法適應多尺度圖像識別。為解決該問題,Yang等人[11]提出了MetaAnchor方法。MetaAnchor利用權重預測獲得動態(tài)錨框函數(shù),從而一定程度上解決了圖像物體的多尺度問題。為了覆蓋圖像中不同形狀的物體,預定義的錨框往往需要設定多個不同的縱橫比。YOLO v3[4]利用每個金字塔特征圖上不同長寬比的3個錨盒進行圖像識別;RetinaNet[12]則采用9個不同的錨框以實現(xiàn)圖像不同尺度和形狀物體的密集覆蓋。然而,錨框數(shù)量越多,錨函數(shù)中的參數(shù)會急劇增多,特別是物體類別數(shù)量大的情況下。RefineDet[14]通過過濾負面錨框,在保證圖像識別效率的同時,取得了最新最好的準確率。然而,RefineDet[14]本質上還是基于自上而下的特征金字塔特征融合方法。

在保證圖像識別效率的情況下,針對現(xiàn)有單階段圖像識別方法所存在的問題,本文提出一種特征金字塔語義信息雙向融合的多尺度圖像識別方法(bidirectional feature fusion-based detector,BFFD)。該方法通過特征金字塔中不同尺度特征語義信息的雙向融合,提升圖像多尺度物體識別的精確度。也即,特征金字塔中小尺度特征語義信息可以融入大尺度特征,且大尺度特征語義信息也可融合進小尺度特征?;诖耍疚牡闹饕暙I包括:①提出一種特征金字塔語義信息雙向融合方法bidirectional feature fusion(BFF)。BFF通過高分辨率歸一化方法實現(xiàn)不同尺度特征的語義信息,為多尺度圖像識別建立特征基礎。②提出一種基于特征金字塔雙向融合的多尺度圖像識別方法BFFD。BFFD嵌入特征金字塔語義信息雙向融合方法BFF,而后通過嵌入深度神經(jīng)網(wǎng)絡,實現(xiàn)高精度的多尺度圖像識別。③驗證了所提多尺度圖像識別方法的性能。通過大量的對比實驗驗證了本文所提出的BFFD算法能有效提升現(xiàn)有方法的多尺度圖像識別性能。

1 圖像特征金字塔雙向融合模型及圖像識別方法

圖1為本文所提出特征金字塔雙向融合的多尺度圖像識別方法BFFD的總體架構。BFFD首先通過深度神經(jīng)網(wǎng)絡提取不同尺度的特征映射,并作為特征金字塔語義信息雙向融合方法BFF的輸入。而后,BFF通過語義信息雙向融合生成多尺度特征互補語義信息,實現(xiàn)對特征映射的細化。最后,根據(jù)學習到的特征圖生成分類閾值和邊框,并通過非最大值抑制(non-maximum suppression,NMS)得到最終結果。BFF包括特征融合和自適應特征優(yōu)化兩個步驟。特征融合歸一化不同尺度圖像語義特征,得到超分辨率的特征映射。自適應特征優(yōu)化通過全連接層實現(xiàn)圖像多尺度信息的雙向融合,生成每個金字塔級別的特征映射。而后,BFFD分別用分類網(wǎng)絡來實現(xiàn)分類預測,用邊界回歸網(wǎng)絡輸出邊框回歸。

多尺度問題是圖像物體識別的重要問題之一?,F(xiàn)有基于金字塔的方法大多采用自頂向下(自上而下)的方式。圖像語義信息單向從大尺度特征單向流轉、匯聚到小尺度特征。其使得小尺度特征的物體識別效果較好,而大尺度特征的物體識別效果并無太大改善。顯然,大尺度特征映射也同樣可以通過小尺度語義信息進行完善,從而解決較大物體的邊界模糊問題。為解決該問題,本文提出一種特征金字塔語義信息雙向融合BFF算法。BFF算法通過特征語義信息的雙向增強,保證小尺度物體識別精確度的基礎上提升大尺度物體識別精確度。自頂向下的特征金字塔融合方法和BFF算法之間的比較如圖2所示。

圖1 特征金字塔雙向融合的多尺度物體 識別方法(BFFD)框架圖Fig.1 The framework of Bidirectional Feature Fusion-based Detector(BFFD)

圖2 特征金字塔雙向融合方法(BFF)與 自頂向下融合方法對比示意圖Fig.2 Comparison diagram of Bidirectional Feature Fusion(BFF) and top-down fusion method

本文采用歸一化方法將特征金字塔中不同尺度特征映射到統(tǒng)一尺度,實現(xiàn)多尺度圖像特征的融合。具體地,本文借鑒超分辨率方法[13],通過不同的抽樣因子來實現(xiàn)尺度歸一化操作。假設輸入圖像特征用三維矩陣表示為(D·r2)×H×W,其中r為抽樣因子。尺度歸一化是在r2通道的同一空間對元素進行周期性重排。故有

L(d,y,x)=S([d/r2],y+[mod(d,r2)/r],x+mod(mod(d,r2),r))

(1)

其中:L為大尺度圖像特征;S為小尺度圖像特征。顯然,輸出特征只有原始通道的1/r2倍。本文通過特征向量串聯(lián)的方式實現(xiàn)歸一化后多尺度特征的融合。

(2)

(3)

(4)

σ(x)=max(0,x)

(5)

(6)

最后,將所提出的BFF算法嵌入到圖像識別神經(jīng)網(wǎng)絡,形成一種新的基于特征金字塔語義信息雙向融合BFF算法的圖像識別方法BFFD。在具體實現(xiàn)上,BFFD通過將所提出的BFF算法嵌入到RefineDet[14]實現(xiàn)。VGG[15]在保證具有相同感知野的條件下,通過提升網(wǎng)絡的深度,在一定程度上提升了神經(jīng)網(wǎng)絡的效果。VGG有兩種結構,分別是VGG16和VGG19,兩者并沒有本質上的區(qū)別,只是網(wǎng)絡深度不一樣。相較于VGG19,VGG16具有相對較少的網(wǎng)絡層數(shù)、較快的運算效率和相當?shù)男Ч?。本文所提出的BFFD算法選用VGG16[15]作為骨干網(wǎng)絡。同時,根據(jù)RefineDet對VGG16的參數(shù)做了一定的采用了修改。首先,通過子采樣參數(shù)將VGG16的fc6和fc7轉換為卷積層convfc6和convfc7。由于conv4-3和conv5-3具有不同的特征尺度,本文使用L2標準化將conv4-3和conv5-3中的特征范數(shù)縮放到10和8,然后在反向傳播過程中學習尺度。輸入大小設置為512×512。為了生成多層次的圖像特征,RefineDet的TCB模塊替換為本文所提出的BFF算法。

2 實驗驗證

本部分首先介紹實驗設置,包括實驗環(huán)境、數(shù)據(jù)集、對比方法和評測指標等。而后,通過與多種對比方法的實驗比對,系統(tǒng)驗證所提BFFD方法能有效提升多尺度圖像識別。

2.1 實驗設置

實驗環(huán)境。實驗環(huán)境為4個英偉達1080TI GPU,CUDA 8.0和CUDNN 7.0。實驗訓練的批大小設置為32。在實驗中,VGG16采用ImageNet 2012數(shù)據(jù)集[16]進行預訓練。不失一般性,初始狀態(tài)下的訓練學習率設置為2×10-3。在訓練到第300和350個周期時,訓練學習率分別調整為2×10-4和2×10-5。在訓練到第400個周期時,訓練結束。

數(shù)據(jù)集。實驗的數(shù)據(jù)集包括:PASCAL VOC[17]和MS COCO[18]。PASCAL VOC和MS COCO數(shù)據(jù)集分別包含20和80個物體類別。在PASCAL VOC數(shù)據(jù)集中,訓練數(shù)據(jù)集為PASCAL VOC的trainval訓練數(shù)據(jù)集,測試數(shù)據(jù)集為PASCAL VOC的測試數(shù)據(jù)集。在MS COCO數(shù)據(jù)集中,訓練數(shù)據(jù)集為trainval35k,其內(nèi)包含8萬張圖片;余下為測試數(shù)據(jù)集。

對比方法。由于BFFD采用VGG16作為骨干網(wǎng)絡;因此,對比方法選用同樣為VGG16的圖像識別方法,包括Faster R-CNN(Faster)[2],ION[19],MR-CNN[20],SSD[5]和RefineDet[14]。

評價指標。本文選用平均精確度AP(average precision)和mAP(mean average precision)平均精度均值作為多尺度物體識別性能的核心指標。AP和mAP的定義如下:

(7)

(8)

其中:R為召回率集合;p(r)為召回率為r時的精確度;I為分類總數(shù);AP(i)為分類i的平均精確度。

表1 PASCAL VOC數(shù)據(jù)集實驗結果(粗體為最佳結果)Tab.1 Experimental results of PASCAL VOC data set (bold is the best result)

2.2 實驗結果

表1為PASCAL VOC數(shù)據(jù)集中20類物體的實驗結果。本文所提出的BFFD算法在20類中的自行車、船、瓶子、小汽車、貓、桌子、人、羊和火車等9類物體取得了最好的圖像識別準確率;其次是RefineDet512算法(輸入512×512的RefineDet算法),其在飛機、公交車、椅子、牛、馬和摩托車等6類物體中取得最好的識別準確率。再接著是SSD算法和MR-CNN算法。最后是Faster算法和ION算法。顯然,BFFD算法在大多數(shù)類別的圖像識別中都取得了最好的精確率。BFFD算法在PASCAL VOC數(shù)據(jù)集上的平均精度均值是80.4%,是所有算法中最好的。RefineDet512、SSD512、SSD300、MR-CNN、ION和Faster的平均精度均值分別為79.7%、79.5%、77.5%、78.2%、75.6%和73.2%。顯然,BFFD算法的多尺度圖像識別平均精度均值較RefineDet512要高0.7%。

為了進一步驗證所提BFFD方法多尺度圖像識別的精確度,本部分還在MS COCO數(shù)據(jù)集上進行了進一步的驗證。在實驗中,OHEM++和Faster為雙步驟圖像識別方法,其他方法都為單步驟圖像識別方法。在圖像識別中,圖像越精細,也即原始輸入圖像大小越大,圖像中信息相對較多,則圖像識別效果相對較好。在單步驟對照方法中,本文對最新的SSD和RefineDet,以及BFFD算法都設置圖像輸入大小為512×512,以開展實驗結果對比。

表2為MS COCO數(shù)據(jù)集上的實驗結果。其中,F(xiàn)PS(frame per second,幀數(shù))為每秒檢測圖像的數(shù)量,其數(shù)值直接采用文[3]的實驗結果。顯然,在相同輸入條件下,BFFD算法較SSD512算法和RefineDet算法都具有較低的FPS值。也即,BFFD算法的運算效率要優(yōu)于SSD512和RefineDet算法。實驗還驗證了不同IoU(intersection-over-union,交并比)對圖像識別精度的影響。在實驗中,IoU分別設置為0.5,0.75和0.95。不難看出,隨著IoU數(shù)值的增大,所有算法的平均精度值都降低。然而,在3種不同的IoU實驗中,BFFD算法都取得了最好的多尺度圖像識別平均精度。由于RefineDet是圖像識別較好的算法;為此,本部分重點對比本文所提BFFD算法跟RefineDet算法。顯然,在IoU分別為0.5、0.75和0.95時,BFFD算法的平均精度分別為58.4%、39.1%和33.8%,比RefineDet算法分別提高3.9%,3.6%和0.8%。最后,實驗還驗證了在IoU = 0.75時,不同尺度物體的識別精度。從表2可知,BFFD算法對小尺度、中尺度和大尺度物體的識別精度分別為16.6%、37.8%和45.2%,其比RefineDet算法分別提高了0.4%、1.4%和0.8%。實驗結果,本文所提BFFD算法能有效提升多尺度物體的識別精度。

表2 MS COCO數(shù)據(jù)集實驗結果(粗體為最佳結果)Tab.2 Experimental results of MS COCO data set (bold is the best result)

3 結 論

引入特征金字塔是解決多尺度物體識別的有效途徑之一。然而,現(xiàn)有基于特征金字塔的物體識別方法大多采用自上而下的特征語義信息融合方式,無法有效提升大尺度物體識別精確度。為此,本文提出一種基于特征金字塔語義信雙向融合方法BFF。而后,將BFF嵌入深度神經(jīng)網(wǎng)絡,形成一種特征金字塔雙向語義信息互補的圖像識別方法BFFD。BFFD在保持小尺度物體識別精確度的前提下,提升大尺度物體識別的精確度,從而實現(xiàn)多尺度物體識別精確度。實驗結果表明:本文所提方法可以在PASCAL VOC數(shù)據(jù)集上取得80.4%的平均準確度均值,比現(xiàn)有方法提升了0.7%。本文所提方法在MS-COCO數(shù)據(jù)上,采用不同的交并比在不同尺度的物體識別上都比現(xiàn)有方法具有更高的平均準確度。實驗結果驗證了本文所提方法能有效提升圖像多尺度物體識別的精確度。

引入圖像去噪[21]、去霧等[22]算法,從圖像源提升待識別圖像的質量也是提升圖像識別的有效途徑。在未來研究中,將通過引入圖像去噪[21]和去霧等[22]方法以進一步提升圖像物體識別的效率。

猜你喜歡
圖像識別金字塔尺度
“金字塔”
A Study of the Pit-Aided Construction of Egyptian Pyramids
財產(chǎn)的五大尺度和五重應對
基于Resnet-50的貓狗圖像識別
電子制作(2019年16期)2019-09-27 09:34:50
高速公路圖像識別技術應用探討
海上有座“金字塔”
圖像識別在物聯(lián)網(wǎng)上的應用
電子制作(2018年19期)2018-11-14 02:37:04
圖像識別在水質檢測中的應用
電子制作(2018年14期)2018-08-21 01:38:16
神秘金字塔
童話世界(2017年11期)2017-05-17 05:28:25
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
手游| 连城县| 彭阳县| 常德市| 将乐县| 腾冲县| 登封市| 廊坊市| 镇平县| 日喀则市| 五大连池市| 昔阳县| 凭祥市| 横山县| 武平县| 苏州市| 名山县| 吴川市| 黔江区| 神农架林区| 滦南县| 鄂伦春自治旗| 江油市| 桂东县| 开阳县| 衡山县| 民县| 宿州市| 微博| 翁源县| 睢宁县| 唐海县| 华阴市| 抚州市| 石家庄市| 遂溪县| 介休市| 临汾市| 饶阳县| 三都| 玉门市|