国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的小目標(biāo)檢測(cè)與識(shí)別

2020-12-02 01:54:32冷佳旭劉瑩
關(guān)鍵詞:注意力物體卷積

冷佳旭,劉瑩*

1.中國(guó)科學(xué)院大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100089

2.中國(guó)科學(xué)院大學(xué)數(shù)據(jù)挖掘與高性能計(jì)算實(shí)驗(yàn)室,北京 101400

引言

目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究方向,幾十年來(lái)也一直都是一個(gè)活躍的研究難題。如圖1所示,給定一張圖像,目標(biāo)檢測(cè)的任務(wù)是找出圖像中感興趣的區(qū)域,確定目標(biāo)的位置和大小,并且判斷目標(biāo)所屬類別。作為圖像理解和計(jì)算機(jī)視覺的基石,目標(biāo)檢測(cè)是解決分割、場(chǎng)景理解、目標(biāo)追蹤、圖像描述、事件檢測(cè)和活動(dòng)識(shí)別等更復(fù)雜更高層次的視覺任務(wù)的基礎(chǔ)。隨著深度學(xué)習(xí)的快速發(fā)展,目標(biāo)檢測(cè)算法[1-5]也取得了重大突破。目標(biāo)檢測(cè)在人工智能和信息技術(shù)的許多領(lǐng)域都有廣泛的應(yīng)用,包括機(jī)器人視覺、消費(fèi)電子產(chǎn)品、安保、自動(dòng)駕駛、人機(jī)交互、基于內(nèi)容的圖像檢索、智能視頻監(jiān)控和增強(qiáng)現(xiàn)實(shí)等。

圖1 目標(biāo)檢測(cè)Fig.1 Object detection

盡管目標(biāo)檢測(cè)算法已經(jīng)取得了不錯(cuò)表現(xiàn),但小目標(biāo)(通常定義像素30×30 以下的目標(biāo)為小目標(biāo))檢測(cè)仍然是一個(gè)急需解決的問(wèn)題。小目標(biāo)通常特征不明顯,可利用信息較少,并且受到光照、遮擋等因素的干擾。然而,小目標(biāo)的檢測(cè)是極其重要和極具價(jià)值的。例如,準(zhǔn)確地檢測(cè)出機(jī)場(chǎng)跑道上微小物體(螺帽、螺釘、墊圈、釘子、保險(xiǎn)絲等)將避免重大的經(jīng)濟(jì)損失;準(zhǔn)確地檢測(cè)出監(jiān)控區(qū)域的小目標(biāo)和對(duì)其行為進(jìn)行分析將避免突發(fā)事件的發(fā)生,從而提高安防系數(shù)。可見,研究小目標(biāo)的檢測(cè)是非常有意義的。

為了提升小目標(biāo)的檢測(cè)與識(shí)別性能,一些基于深度學(xué)習(xí)的方法已紛紛被提出。所有針對(duì)小目標(biāo)檢測(cè)與識(shí)別的方法大致可以歸納為以下幾類:

● 特征融合[6-10]:通過(guò)融合卷積神經(jīng)網(wǎng)絡(luò)中不同層的特征圖來(lái)增強(qiáng)小目標(biāo)的特征表示;

● 上下文利用[11-15]:利用小目標(biāo)周圍和圖像的全局信息來(lái)輔助小目標(biāo)的檢測(cè)和識(shí)別;

● 注意力機(jī)制[16-20]:通過(guò)模擬人類的注意力機(jī)制,提取出小目標(biāo)中具有鑒別力的特征,從而提高模型的識(shí)別能力。

通過(guò)以上方式可以大幅度提升小目標(biāo)的檢測(cè)與識(shí)別性能,但這些方法仍有不足。比如,特征融合通常是單向的,上下文信息的利用并不充分,注意力的學(xué)習(xí)不夠準(zhǔn)確等,這些問(wèn)題嚴(yán)重影響了小目標(biāo)的檢測(cè)和識(shí)別準(zhǔn)確率。因此,本文有針對(duì)性的對(duì)這三類方法分別進(jìn)行改進(jìn),具體研究?jī)?nèi)容如下:

(1)一種雙向特征融合方法。在經(jīng)典的單級(jí)目標(biāo)檢測(cè)算法SSD的基礎(chǔ)上,通過(guò)特征融合的方式,將不同層之間的特征圖進(jìn)行融合。不同于現(xiàn)有的特征融合方法,本文中融合方式是雙向的,不僅從深層向淺層進(jìn)行信息傳遞,也從淺層向深層進(jìn)行信息傳遞。

(2)上下文學(xué)習(xí)網(wǎng)絡(luò)。通過(guò)設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)來(lái)捕捉圖像中物體與物體、物體和場(chǎng)景的關(guān)系,包括了局部上下文信息和全局上下文信息。

(3)注意力轉(zhuǎn)移模型。為了更好地捕捉圖像中具有鑒別力的特征,通過(guò)迭代的方式來(lái)逐步地定位圖像中有利于目標(biāo)識(shí)別的區(qū)域。在每一次迭代中,都會(huì)生成對(duì)應(yīng)的注意力圖,并將其作用于下一次迭代。也就意味著,本文的注意力是在不斷轉(zhuǎn)移的,并且注意力的轉(zhuǎn)移不是隨機(jī)的,而是與上一次的注意力息息相關(guān)的。

為了證明提出方法的有效性,本文將提出的方法融入到現(xiàn)有的目標(biāo)檢測(cè)框架中,并在公共數(shù)據(jù)集PASCAL VOC 進(jìn)行了實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的方法大幅度提升了目標(biāo)的檢測(cè)性能,尤其是小目標(biāo)的檢測(cè)性能。

1 相關(guān)工作

目前基于深度學(xué)習(xí)的方法已經(jīng)在目標(biāo)檢測(cè)領(lǐng)域占領(lǐng)了主導(dǎo)地位。目標(biāo)檢測(cè)算法大致可以分為兩大類:兩級(jí)目標(biāo)檢測(cè)[1-3]和單級(jí)目標(biāo)檢測(cè)[5,10]。兩級(jí)目標(biāo)檢測(cè)算法將檢測(cè)任務(wù)拆解為目標(biāo)定位和目標(biāo)識(shí)別,首先在圖像上生成大量的候選框,然后對(duì)候選框進(jìn)行分類識(shí)別。單級(jí)目標(biāo)檢測(cè)算法將檢測(cè)任務(wù)簡(jiǎn)化為回歸任務(wù),直接在圖像上回歸出目標(biāo)所在位置以及對(duì)應(yīng)的類別。相比較而言,兩級(jí)目標(biāo)檢測(cè)在檢測(cè)準(zhǔn)確率上有優(yōu)勢(shì),而單級(jí)目標(biāo)檢測(cè)在檢測(cè)速度上有明顯的優(yōu)勢(shì)。為了提升小目標(biāo)在復(fù)雜場(chǎng)景下[21]的檢測(cè)性能,研究學(xué)者從不同方面對(duì)小目標(biāo)檢測(cè)算法進(jìn)行了改進(jìn)。

1.1 特征融合

特征融合是提升小目標(biāo)檢測(cè)的一種重要手段。許多基于深度學(xué)習(xí)的檢測(cè)算法也嘗試了通過(guò)融合神經(jīng)網(wǎng)絡(luò)中不同層的特征來(lái)提升小目標(biāo)的特征表達(dá)能力。文獻(xiàn)[22]提出一種Inside-Outside Network (ION)方法。該方法首先從卷積神經(jīng)網(wǎng)絡(luò)的不同層中裁剪出候選區(qū)域特征,然后通過(guò)ROI Pooling 將不同尺度的特征區(qū)域進(jìn)行尺度歸一化,最后將這些多尺度特征進(jìn)行融合,從而提升區(qū)域特征表達(dá)能力。

HyperNet[23]提出了一種類似于ION 思想的方法。該方法精心設(shè)計(jì)了高分辨率的超特征圖,通過(guò)整合中間層和淺層特征來(lái)生成候選區(qū)域和目標(biāo)檢測(cè)。該方法中通過(guò)利用反卷積層來(lái)向上采樣深層特征圖,并通過(guò)批標(biāo)準(zhǔn)化層來(lái)對(duì)輸入特征圖進(jìn)行標(biāo)準(zhǔn)化。構(gòu)建的超特征圖還可以隱式地對(duì)來(lái)自不同層的上下文信息進(jìn)行編碼。文獻(xiàn)[24]受到細(xì)粒度分類算法的啟發(fā),這些算法集成了高階表示,而不是利用候選目標(biāo)的簡(jiǎn)單一階表示。該方法提出了一種新的多尺度位置感知和表示框架,該框架能夠有效地捕獲候選特征的高階統(tǒng)計(jì)量,并生成更具區(qū)分性的特征表示。組合特征表示更具描述性,為分類和定位提供了語(yǔ)義和空間信息。FCN[25]使用跳躍連接方式來(lái)融合淺層和深層的特性,以獲得更好的特征表達(dá)。目前,F(xiàn)PN[26]是最流行的利用多尺度特征的網(wǎng)絡(luò),它引入了一種自底向上、自頂向下的結(jié)構(gòu),將相鄰層的特征結(jié)合起來(lái)以提高性能。該方法結(jié)構(gòu)可以分為三個(gè)部分:自底向上(圖2左)、自頂向下(圖2右)和橫向連接。自底向上就是一個(gè)前向的過(guò)程,生成一些不同尺度的特征圖。自頂向下就是一個(gè)上采樣的過(guò)程,通過(guò)橫向連接將上采樣的結(jié)果和自底向上生成的相同大小的特征圖進(jìn)行融合。通過(guò)這種方式,將深層特征和淺層特征進(jìn)行了有效的融合,從而提高特征表達(dá)能力。與FPN 類似,在單級(jí)目標(biāo)檢測(cè)SSD的框架下,文獻(xiàn)[27]提出一種類似彩虹連接的方法來(lái)實(shí)現(xiàn)特征融合。

圖2 FPN的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 The network structure of FPN

1.2 上下文學(xué)習(xí)

上下文信息是我們理解目標(biāo)特征信息的一種重要的補(bǔ)充信息,充分利用上下文信息將幫助我們提升小目標(biāo)的檢測(cè)性能。在深度學(xué)習(xí)之前,已有研究[28-30]證明通過(guò)對(duì)上下文進(jìn)行合適的建??梢愿倪M(jìn)目標(biāo)檢測(cè)算法。隨著深度神經(jīng)網(wǎng)絡(luò)的廣泛應(yīng)用,許多研究[31-33]也試圖將目標(biāo)周圍的上下文集成到深度神經(jīng)網(wǎng)絡(luò)中。通常,它們利用手動(dòng)設(shè)計(jì)的上下文窗口中的附加上下文特征來(lái)增強(qiáng)特征表示。上下文窗口通常比相應(yīng)的候選區(qū)域稍大或稍小。通過(guò)提取上下文窗口中的特征信息,并將這些上下文信息用于增強(qiáng)對(duì)應(yīng)候選區(qū)域的特征表示。但是,由于上下文窗口通常是通過(guò)手動(dòng)設(shè)計(jì)的,這種方式嚴(yán)重限制了上下文信息提取的范圍,很有可能丟失一些重要的上下文信息。一些研究[34-35]試圖使用遞歸神經(jīng)網(wǎng)絡(luò)來(lái)編碼上下文信息,而不是使用上下文窗口。文獻(xiàn)[22]提出了一種沒(méi)有使用上下文窗口的方法,該方法在特征圖上沿左、右、上、下四個(gè)方向進(jìn)行上下文信息傳輸,以捕獲有價(jià)值的上下文。然而,該方法使模型變得復(fù)雜,并且在訓(xùn)練時(shí)需要仔細(xì)初始化參數(shù)。文獻(xiàn)[36]提出了一種空間記憶網(wǎng)絡(luò),該網(wǎng)絡(luò)通過(guò)多次記憶迭代有效地對(duì)實(shí)例級(jí)上下文進(jìn)行建模。在此之后,文獻(xiàn)[37]提出了一個(gè)迭代視覺推理框架,以此來(lái)捕捉場(chǎng)景中目標(biāo)的上下文關(guān)系。由于空間和語(yǔ)義推理被集成到框架中,文獻(xiàn)[37]中的迭代視覺推理在具有挑戰(zhàn)的數(shù)據(jù)集COCO[21](該數(shù)據(jù)集包含難以檢測(cè)的對(duì)象,例如小的、被遮擋的和變形的目標(biāo))上獲得了非常不錯(cuò)的檢測(cè)性能。

1.3 注意力機(jī)制

深度學(xué)習(xí)中的注意來(lái)源于人類視覺系統(tǒng)的注意機(jī)制。人腦在接收到視覺信息、聽覺信息等外部信息時(shí),并不是對(duì)所有信息進(jìn)行處理和理解,而是只關(guān)注一些重要或有趣的信息,這有助于濾除干擾信息,從而提高信息處理效率。

受到人類視覺注意力機(jī)制的啟發(fā),研究學(xué)者提出了許多算法來(lái)模擬人類的注意機(jī)制。最近,人們嘗試性地將注意力應(yīng)用到深層神經(jīng)網(wǎng)絡(luò)中[38-44]。深度玻爾茲曼機(jī)[45]在訓(xùn)練階段,通過(guò)其重構(gòu)過(guò)程包含了自上而下的注意力。注意機(jī)制也被廣泛應(yīng)用于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和長(zhǎng)期短期記憶(LSTM)[46]中,來(lái)處理順序決策任務(wù)[47-49]。注意力機(jī)制有多種實(shí)現(xiàn)形式,大致可分為軟注意和硬注意。其中最具代表性的基于硬注意力的是遞歸注意力模型(RAM)[50],它按時(shí)間順序處理輸入,并在圖像中定位注意區(qū)域。該模型減少了不必要信息的干擾和噪聲的影響,同時(shí)降低了計(jì)算成本。由于基于硬注意力的識(shí)別模型需要對(duì)焦點(diǎn)區(qū)域進(jìn)行預(yù)測(cè),因此在訓(xùn)練中通常采用強(qiáng)化學(xué)習(xí),這會(huì)導(dǎo)致收斂困難?;谲涀⒁獾目晌⒛P涂梢酝ㄟ^(guò)反向傳播進(jìn)行訓(xùn)練??紤]到軟注意易于訓(xùn)練的優(yōu)點(diǎn),提出了許多基于軟注意的識(shí)別算法[51-52]。兩級(jí)注意網(wǎng)絡(luò)(TLAN)[52]使用DNN 將視覺注意應(yīng)用于細(xì)粒度分類問(wèn)題。全卷積注意網(wǎng)絡(luò)(FCAN)[53]提出了一種基于強(qiáng)化學(xué)習(xí)的全卷積注意定位網(wǎng)絡(luò),用于自適應(yīng)地選擇多個(gè)任務(wù)驅(qū)動(dòng)的視覺注意區(qū)域。

1.4 其他方法

GAN 及其變體[57-58]在許多領(lǐng)域顯示出了不錯(cuò)的效果,并在目標(biāo)檢測(cè)中得到了成功的應(yīng)用。Li 等人提出了一種專門針對(duì)小目標(biāo)檢測(cè)的感知GAN 方法[59],該方法通過(guò)生成器和鑒別器相互對(duì)抗的方式來(lái)學(xué)習(xí)小目標(biāo)的高分辨率特征表示。具體來(lái)說(shuō),感知GAN的生成器將低分辨率的小區(qū)域特征轉(zhuǎn)換為高分辨率特征,并與能夠識(shí)別真正高分辨率特征的鑒別器競(jìng)爭(zhēng)。最后,生成器學(xué)會(huì)了為小目標(biāo)生成高質(zhì)量特征的能力。進(jìn)一步地,針對(duì)目標(biāo)遮擋和形變問(wèn)題,Wang 等人提出了一種基于Fast R-CNN的改進(jìn)檢測(cè)模型[60],它是由生成的對(duì)抗樣本訓(xùn)練而成的。為了增強(qiáng)對(duì)遮擋和形變的魯棒性,該模型中引入了自動(dòng)生成包含遮擋和變形特征的網(wǎng)絡(luò)。通過(guò)對(duì)區(qū)域特征的遮擋和形變處理,檢測(cè)模型可以接收到更多的對(duì)抗樣本,從而使得訓(xùn)練的模型具有更強(qiáng)的能力。

此外,一些方法也嘗試通過(guò)擺脫錨框的約束來(lái)提升小目標(biāo)的檢測(cè)性能。Law 等人提出了一種基于關(guān)鍵點(diǎn)的目標(biāo)檢測(cè)方法CornerNet[61]。CornerNet 不再需要通過(guò)錨框來(lái)預(yù)測(cè)目標(biāo)的位置,而是將目標(biāo)建模為一對(duì)角點(diǎn)(目標(biāo)的左上角和右下角)。在不依賴手工設(shè)計(jì)錨框來(lái)匹配目標(biāo)的情況下,CornerNet 在公共數(shù)據(jù)集上取得了不錯(cuò)的表現(xiàn)。然而,由于角點(diǎn)對(duì)的錯(cuò)誤匹配,CornerNet 會(huì)預(yù)測(cè)出大量錯(cuò)誤的邊界框。為了進(jìn)一步提升檢測(cè)精度,Duan 等人在CornerNet的基礎(chǔ)上提出了一種基于中心點(diǎn)的目標(biāo)檢測(cè)框架CenterNet[62]。CenterNet 首先預(yù)測(cè)兩種類型的角點(diǎn)(左上角和右下角)和中心點(diǎn),然后通過(guò)角點(diǎn)匹配確定邊界框,最后利用預(yù)測(cè)的中心點(diǎn)來(lái)過(guò)濾角點(diǎn)不匹配引起的邊界框。

2 一種雙向特征特征融合方法

SSD是一種主流的單級(jí)目標(biāo)檢測(cè)方法,該方法能夠在保證檢測(cè)速度的同時(shí),還能保證較高的檢測(cè)準(zhǔn)確率。圖3展示了SSD的網(wǎng)絡(luò)結(jié)構(gòu)圖。通過(guò)圖3可以發(fā)現(xiàn),盡管SSD 充分利用了不同尺度的特征圖來(lái)進(jìn)行目標(biāo)檢測(cè),但是不同層之間是相互獨(dú)立的,并沒(méi)有充分利用不同特征圖之間的相關(guān)性。這嚴(yán)重約束了ssd的目標(biāo)檢測(cè)性能,尤其是對(duì)于可視化特征較少的小目標(biāo)。

2.1 基于雙向特征融合的SSD

事實(shí)上,不同尺度特征圖上包含的特征是不相同的。淺層的特征圖中通常包含有豐富的細(xì)節(jié)特征,而深層的特征圖中包含有豐富的語(yǔ)義特征。為了充分利用淺層和深層特征,本文提出了一種雙向特征融合方法,通過(guò)由深層到淺層和由淺層到深層的特征信息傳遞,使得用于目標(biāo)檢測(cè)的特征圖既包含豐富的細(xì)節(jié)特征,又包含豐富的語(yǔ)義特征。更加特別之處在于,本文提出的雙向特征融合方法能夠使得每個(gè)層都包含有其它層的特征信息,從而大大提高特征表達(dá)能力。

圖4展示了ESSD(改進(jìn)版SSD)的架構(gòu)圖。通過(guò)雙向特征融合的方法增強(qiáng)小目標(biāo)的特征表達(dá),從而提高最終的小目標(biāo)檢測(cè)性能。圖4中灰色部分為原始SSD中的操作,其他帶顏色的為ESSD 增加的操作。其中黃色箭頭表示深層向淺層進(jìn)行特征傳遞的過(guò)程,紫色箭頭表示淺層向深層進(jìn)行特征傳遞的過(guò)程,藍(lán)色部分為雙向特征融合后新生成的特征圖。如后文表1中的檢測(cè)結(jié)果所示,通過(guò)利用融合后的特征圖構(gòu) 成的特征金字塔,小目標(biāo)可以被準(zhǔn)確地檢測(cè)出來(lái)。

圖3 SSD的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 The network structure of SSD

圖4 ESSD的結(jié)構(gòu)圖Fig.4 The framework of ESSD (Enhanced SSD)

2.2 雙向特征融合細(xì)節(jié)

為了進(jìn)一步說(shuō)明本文是如何對(duì)淺層和深層特征進(jìn)行融合的,圖5中給出了特征融合的具體細(xì)節(jié)。如圖5所示,中間層為目標(biāo)層,目標(biāo)是將第一層(具有高分辨率的淺層)特征和第三層(具有低分辨率的深層)特征融合到目標(biāo)層中。為了實(shí)現(xiàn)特征融合,第一步是實(shí)現(xiàn)特征變?yōu)榕c目標(biāo)層特征圖相同的大小2H×2W。之后,通過(guò)1×1的卷積操作來(lái)統(tǒng)一特征圖的通道數(shù),即將第一層的2H×2W×C 特征圖的C變?yōu)榕c目標(biāo)層相同的通道數(shù)512。同樣地,第三層的2H×2W×D的特征圖的D 變?yōu)?12。考慮到每一層特征圖中特征值的分布是非常不同的,因此在融合之前統(tǒng)一特征值的分布是非常有必要的。在圖5中,通過(guò)batch normalization 來(lái)實(shí)現(xiàn)不同特征圖中特征值的分布統(tǒng)一。最后,融合來(lái)自不同層并且經(jīng)過(guò)特殊處理的特征圖,并生成新的具有更強(qiáng)表達(dá)能力的特征圖。

如圖5所示,特征融合過(guò)程包括降采樣、上采樣和融合。下采樣和上采樣有多種方法,如最近鄰插值、雙線性插值和三次插值。最大池法和反卷積可分別用于下采樣和上采樣。為了避免復(fù)雜度的增加,在實(shí)驗(yàn)中選擇了最大池和雙線性插值的降采樣和上采樣。此外,融合模式也是可選擇,如逐元素求和、逐元素求積和1×1 卷積操作。在實(shí)驗(yàn)中,通過(guò)1×1 卷積來(lái)融合特征圖。采用這種策略可以使網(wǎng)絡(luò)自主學(xué)習(xí)加權(quán)求和的系數(shù),從而實(shí)現(xiàn)更加有效的特征融合。

圖5 特征融合細(xì)節(jié)Fig.5 Details of feature fusion

3 上下文學(xué)習(xí)網(wǎng)絡(luò)

檢測(cè)一個(gè)物體需要大量的信息,包括物體自身的細(xì)節(jié)信息及其周圍的環(huán)境信息(上下文信息)。當(dāng)目標(biāo)較大或者特征較為明顯時(shí),單純依靠目標(biāo)自身特征就能很好的完成定位和識(shí)別。然而,當(dāng)目標(biāo)較?。?0×30 像素以下)或者特征不明顯時(shí),單純依靠目標(biāo)自身特征就很難完成檢測(cè)任務(wù),而此時(shí)圖像中的上下文信息成為了重要補(bǔ)充信息來(lái)源。目前主流的檢測(cè)算法主要是利用目標(biāo)自身特征信息來(lái)進(jìn)行目標(biāo)檢測(cè),這種方式嚴(yán)重限制了目標(biāo)檢測(cè)的準(zhǔn)確率。本文提出了一個(gè)上下文學(xué)習(xí)網(wǎng)絡(luò),該網(wǎng)絡(luò)的目標(biāo)是捕捉對(duì)象之間的成對(duì)關(guān)系和每個(gè)對(duì)象的全局上下文。該網(wǎng)絡(luò)由兩個(gè)子網(wǎng)絡(luò)組成:三層感知機(jī)和兩層卷積神經(jīng)網(wǎng)絡(luò)。首先,為了捕獲“成對(duì)”目標(biāo)之間的上下文關(guān)系,本文設(shè)計(jì)了三層的感知機(jī)。然后,通過(guò)兩層的卷積神經(jīng)網(wǎng)絡(luò)對(duì)成對(duì)的上下文關(guān)系進(jìn)行聚合,進(jìn)一步學(xué)習(xí)全局上下文。最后,得到具有豐富上下文信息的上下文特征圖,這些信息對(duì)于準(zhǔn)確的目標(biāo)檢測(cè)是非常有價(jià)值的。本文所提出的上下文學(xué)習(xí)網(wǎng)絡(luò)是輕量級(jí)的,并且易于嵌入在任何現(xiàn)有的網(wǎng)絡(luò)中用于目標(biāo)檢測(cè)框架中。在本文中,將其嵌入Faster R-CNN的框架中。

3.1 上下文學(xué)習(xí)網(wǎng)絡(luò)

當(dāng)目標(biāo)處于簡(jiǎn)單場(chǎng)景或者相似場(chǎng)景,并且目標(biāo)外觀不存在嚴(yán)重變化時(shí),單純依靠目標(biāo)自身特征就能很好地完成定位和識(shí)別。但是,當(dāng)目標(biāo)的可視信息被損壞、模糊或者不完整(例如:一幅圖像中包含噪聲、不良照明條件或者目標(biāo)被遮擋或截?cái)啵瑔渭円揽磕繕?biāo)自身特征就很難完成檢測(cè)任務(wù),而此時(shí)可視上下文信息就成為了信息的重要來(lái)源。通常地,某些目標(biāo)類經(jīng)常出現(xiàn)在特定的情況下(比如,飛機(jī)出現(xiàn)在天空、盤子出現(xiàn)在桌面上),或者經(jīng)常與其他類別的目標(biāo)同時(shí)出現(xiàn)(比如,棒球和棒球棒)。鑒于上下文信息的重要,我們提出了一種上下文學(xué)習(xí)網(wǎng)絡(luò),該網(wǎng)絡(luò)通過(guò)學(xué)習(xí)局部和全局的上下文信息來(lái)增強(qiáng)卷積特征圖的表達(dá)能力。為了更好地說(shuō)明上下文信息的作用,本文通過(guò)數(shù)學(xué)表達(dá)式來(lái)進(jìn)行闡述。假設(shè)在圖像I中有一些物體0=[01,01,…,0N],其中N是物體的總個(gè)數(shù)。我們的目標(biāo)是檢測(cè)出圖像中的所有物體,這個(gè)過(guò)程可以通過(guò)以下公式來(lái)描述:

其中,M是最大化對(duì)數(shù)似然估計(jì)L的模型,O1:N表示N個(gè)物體[01,01,…,0N]。為了利用物體之間的關(guān)系,對(duì)公式(1)進(jìn)行等價(jià)變化,

進(jìn)一步地,在公式(2)的基礎(chǔ)上,本文增加上下文學(xué)習(xí)模型到目標(biāo)函數(shù)中,目標(biāo)函數(shù)近似為:

其中,上下文模型S和目標(biāo)檢測(cè)模型M聯(lián)合進(jìn)行優(yōu)化。公式(3)表明,可以通過(guò)設(shè)計(jì)復(fù)雜的網(wǎng)絡(luò)來(lái)提取物體自身的細(xì)節(jié)特征,以此提升目標(biāo)的檢測(cè)性能,還可以通過(guò)挖掘物體之間的上下文關(guān)系來(lái)協(xié)助目標(biāo)的檢測(cè)。

基于以上考慮,本文提出一種上下文學(xué)習(xí)網(wǎng)絡(luò),該網(wǎng)絡(luò)致力于學(xué)習(xí)圖像中物體與物體和物體與場(chǎng)景之間的關(guān)系。本文提出的上下文學(xué)習(xí)網(wǎng)絡(luò)主要包括一個(gè)三層的感知機(jī)和兩層的卷積神經(jīng)網(wǎng)絡(luò)。上下文學(xué)習(xí)網(wǎng)絡(luò)的計(jì)算量主要集中于三層感知機(jī)中。三層感知機(jī)主要學(xué)習(xí)物體與物體之間的關(guān)系。該模塊學(xué)習(xí)的是物體兩兩之間的關(guān)系。因此,可以通過(guò)使用GPU 并行計(jì)算來(lái)提速。在學(xué)習(xí)物體兩兩之間的關(guān)系以后,將其通過(guò)設(shè)計(jì)的兩層卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)場(chǎng)景與每個(gè)物體間的關(guān)系。由于我們的輸入和輸出在維度上沒(méi)有發(fā)生任何改變,因此,上下文學(xué)習(xí)網(wǎng)絡(luò)可以作為一個(gè)基礎(chǔ)模塊,靈活地應(yīng)用于任何存在的網(wǎng)絡(luò)。原則上來(lái)說(shuō),我們的方法是現(xiàn)有基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法的補(bǔ)充。在本節(jié)的余下部分,本文將詳細(xì)介紹提出的上下文學(xué)習(xí)網(wǎng)絡(luò)。

圖6展示了上下文學(xué)習(xí)網(wǎng)絡(luò)的所有細(xì)節(jié)信息。上下文學(xué)習(xí)網(wǎng)絡(luò)的輸入是通過(guò)卷積原始圖像得到的特征圖。假設(shè)我們獲得了d×d×k的特征圖,其中d×d表示特征圖的大小,k表示特征圖的個(gè)數(shù)。在d×d的特征圖中,每一個(gè)k維特征向量對(duì)應(yīng)一個(gè)坐標(biāo),以揭示其相對(duì)空間位置。由于在不同的圖像中,物體個(gè)數(shù)是不相同的,并且我們很難知道哪些圖像特征構(gòu)成一個(gè)物體。因此,上下文學(xué)習(xí)網(wǎng)絡(luò)將d×d特征圖中的每個(gè)k維的特征向量當(dāng)作一個(gè)物體,如圖6所示。這也就意味著一個(gè)物體可以是背景、真實(shí)物體、物體之間的合并、物體與背景之間合并等。這種設(shè)計(jì)方式使得我們的模型在學(xué)習(xí)過(guò)程中具有更大的靈活性。

圖6 上下文學(xué)習(xí)網(wǎng)絡(luò)Fig.6 Context learning network

為了學(xué)習(xí)所有兩兩成對(duì)物體之間的關(guān)系,本文設(shè)計(jì)了一個(gè)三層的感知機(jī),其中每一層的神經(jīng)元個(gè)數(shù)為512,并且隨后緊跟非線性激活函數(shù)ReLU。其中對(duì)于每一個(gè)物體(k維特征向量),我們將其與其它物體兩兩連接構(gòu)成一個(gè)2倍長(zhǎng)的特征向量,并通過(guò)設(shè)計(jì)的感知機(jī)學(xué)習(xí)兩兩之間的關(guān)系。在通過(guò)感知機(jī)后,我們得到了N×(N-1)/2個(gè)512 維的特征向量,其中每一個(gè)特征向量表示了物體兩兩之間關(guān)系。這種方式只是考慮了局部物體級(jí)別的上下文,而忽略了全局圖像級(jí)別的上下文。因此,我們?cè)O(shè)計(jì)了一個(gè)兩層的卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)物體與全局場(chǎng)景之間關(guān)系。對(duì)于每一個(gè)物體,我們將其與其它物體的關(guān)系特征向量進(jìn)行融合,從而學(xué)習(xí)到其與整個(gè)場(chǎng)景之間的關(guān)系??紤]到場(chǎng)景不同位置的不同物體對(duì)指定物體的類別判斷的影響程度是不相同的,我們對(duì)不同物體賦予不同的權(quán)重,該權(quán)重也是通過(guò)網(wǎng)絡(luò)學(xué)習(xí)而來(lái)的。

對(duì)于每一個(gè)物體,上下文學(xué)習(xí)網(wǎng)絡(luò)首先將其通過(guò)感知機(jī)得到的N-1個(gè)512 維特征向量進(jìn)行串聯(lián)。之后,將其通過(guò)兩個(gè)卷積核大小為1×3的卷積層,其中卷積核個(gè)數(shù)分別為256和512。最后,通過(guò)一個(gè)1×1的卷積操作將其進(jìn)行通道融合,從而使得輸出的512 維特征向量包含有豐富的全局上下文信息。可以發(fā)現(xiàn),輸出的上下文特征圖的每一個(gè)位置與輸入的卷積特征圖是相對(duì)應(yīng)的。因此,我們可以輕易地融合卷積特征圖和上下文特征圖,從而得到一個(gè)更具特征表達(dá)能力的特征圖。

3.2 基于上下文學(xué)習(xí)的Faster R-CNN

本文提出的上下文學(xué)習(xí)網(wǎng)絡(luò)是一個(gè)通用的模塊,它可以應(yīng)用到任何現(xiàn)有的深度卷積神經(jīng)網(wǎng)絡(luò)中。在本小節(jié),我們將提出的上下文學(xué)習(xí)網(wǎng)絡(luò)嵌入到兩級(jí)目標(biāo)檢測(cè)算法Faster R-CNN中,使得Faster R-CNN 具有感知上下文的能力,從而提高對(duì)小目標(biāo)的檢測(cè)性能。

圖7展示了本文如何將上下文學(xué)習(xí)網(wǎng)絡(luò)應(yīng)用于Faster R-CNN的檢測(cè)框架中。首先,通過(guò)VGG16 進(jìn)行特征提取。然后,通過(guò)RPN 生成候選區(qū)域,并基于卷積特征圖生成具有局部和全局上下文信息的上下文特征圖。之后,使用RoI 池化分別為conv5_3特征圖和上下文特征圖中的每個(gè)候選區(qū)域生成一個(gè)固定長(zhǎng)度的特征描述符,并對(duì)每個(gè)描述符對(duì)進(jìn)行批量規(guī)范化、串聯(lián)和降維(1×1 卷積)以生成最終的描述符。每個(gè)生成的描述符緊接著由兩個(gè)完全連接(fc)層進(jìn)行處理,最終得到兩個(gè)輸出:一個(gè)K 類預(yù)測(cè)和一個(gè)對(duì)邊界框的調(diào)整。

數(shù)據(jù)輸入:本文選擇VGG16 作為特征提取網(wǎng)絡(luò)。VGG16 由13個(gè)卷積層、5個(gè)最大池化層和2個(gè)全連接層構(gòu)成。通過(guò)利用最后全連接層得到的特征向量,可預(yù)測(cè)出目標(biāo)的類別和位置。給定一張分辨率為w×h的圖像,將其通過(guò)VGG16,從而得到用于目標(biāo)檢測(cè)的conv5_3 特征圖。該特征圖的尺寸為w'×h',是原始輸入圖像的1/16。conv5_3 特征圖后續(xù)將作為上下文學(xué)習(xí)網(wǎng)絡(luò)的輸入。

圖7 具有上下文意識(shí)的Faster R-CNNFig.7 Context-aware Faster R-CNN

上下文學(xué)習(xí):對(duì)于輸入的conv5_3 特征圖,可以得到n=w'*h'個(gè)“物體”,這些物體將作為我們上下文學(xué)習(xí)網(wǎng)絡(luò)的輸入。這也就意味著,通過(guò)設(shè)計(jì)的三層感知機(jī)將學(xué)習(xí)到n*(n-1)/2個(gè)關(guān)系,每一個(gè)關(guān)系隱含了物體對(duì)之間的上下文信息。對(duì)于每一個(gè)物體,我們將學(xué)習(xí)到n-1個(gè)特征向量,每一個(gè)特征向量表示了這個(gè)物體和另一個(gè)物體之間的關(guān)系。之后,利用設(shè)計(jì)的卷積網(wǎng)絡(luò)將這些特征進(jìn)行融合,得到單個(gè)物體與其他所有物體,或者說(shuō)單個(gè)物體與整個(gè)場(chǎng)景的上下文關(guān)系。最后,輸出與輸入特征圖尺寸相同的上下文特征圖。

特征融合:通過(guò)RPN 生成網(wǎng)絡(luò),生成一系列的候選區(qū)域,在conv5_3 中獲得它們對(duì)應(yīng)的卷積特征。此外,本文還通過(guò)提出的上文學(xué)習(xí)網(wǎng)絡(luò)獲得每個(gè)位置對(duì)應(yīng)的上下文特征。由于conv5_3的卷積特征圖和上下文特征圖具有相同的大小,因此將所有特征進(jìn)行融合以生成新的特征圖是非常容易的。通過(guò)融合卷積特征和上下文特征,將使得新特征圖具有更強(qiáng)的特征表達(dá)能力,既包含有目標(biāo)細(xì)粒度特征,又包含有豐富的上下文特征。為了實(shí)現(xiàn)特征融合,本文利用ROI 池化操作使得卷積特征向量和上下文特征向量具有相同的大小。然后,對(duì)每個(gè)候選區(qū)域的兩個(gè)特征向量進(jìn)行歸一化、串聯(lián)和通道融合(1×1 卷積),最后得到一個(gè)新的特征表示向量。通過(guò)利用新生成特征向量,就可以實(shí)現(xiàn)更加準(zhǔn)確的目標(biāo)定位和類別判斷。

4 注意力轉(zhuǎn)移模型

圖像的精準(zhǔn)識(shí)別是一件極具挑戰(zhàn)的事情。目前,存在的方法通過(guò)利用深度卷積網(wǎng)絡(luò)已經(jīng)取得了不錯(cuò)的分類結(jié)果。但是,這些方法在面臨圖像中目標(biāo)區(qū)域占比較小時(shí)將會(huì)失效。其原因在于,現(xiàn)有方法在特征提取的過(guò)程中是平等考慮圖像中的每個(gè)位置的特征信息的。當(dāng)圖像中目標(biāo)區(qū)域較小時(shí),將會(huì)忽略目標(biāo)區(qū)域本身的特征,從而丟失了一些有利于識(shí)別的關(guān)鍵特征信息。為了提升對(duì)小目標(biāo)的識(shí)別,本文提出一種用于圖像識(shí)別的注意力轉(zhuǎn)移模型(ATM)(模擬人類視覺注意力機(jī)制),該網(wǎng)絡(luò)通過(guò)迭代的方式能夠有效地捕捉圖像中的關(guān)鍵特征。該網(wǎng)絡(luò)不再是對(duì)全圖進(jìn)行處理,而是通過(guò)迭代的方式生成不同的注意力區(qū)域。在每一次迭代中,我們都會(huì)生成對(duì)應(yīng)的注意力圖,并將其作用于下一次迭代。也就意味著,我們的的注意力是在不斷轉(zhuǎn)移的,并且注意力的轉(zhuǎn)移不是隨機(jī)的,而是與上一次的注意力息息相關(guān)的。最后,我們綜合考慮多個(gè)注意力區(qū)域?qū)崿F(xiàn)精確的圖像分類。

在觀察一幅圖或者一個(gè)場(chǎng)景的時(shí)候,人類不會(huì)把注意力均勻的分布在每個(gè)區(qū)域。通常,人類首先會(huì)快速定位一些顯著性區(qū)域,然后基于這些區(qū)域,不斷擴(kuò)散和轉(zhuǎn)移注意力。為了模擬人類的這種視覺機(jī)制,本文設(shè)計(jì)了一種注意力轉(zhuǎn)移模型(ATM),該模型通過(guò)多次迭代生成不同的注意力圖,每次生成的注意力圖都包含了不同的焦點(diǎn)區(qū)域,并且每次迭代生成的注意力圖不是相互獨(dú)立的,而是相互制約和關(guān)聯(lián)的,當(dāng)前生成的注意力圖是基于上一次注意力圖轉(zhuǎn)移而來(lái)的。也就是說(shuō),每次迭代我們關(guān)注不同的焦點(diǎn)區(qū)域,并且焦點(diǎn)區(qū)域之間存在推理關(guān)系。如圖8所示。本網(wǎng)絡(luò)主要包括卷積特征提取、生成注意力圖、注意力轉(zhuǎn)移和分類四個(gè)模塊。該網(wǎng)絡(luò)通過(guò)迭代的方法在圖像中生成不同的焦點(diǎn)區(qū)域,然后將這些焦點(diǎn)區(qū)域合并生成最終的注意力圖,最后將生成的注意力圖作用于輸入網(wǎng)絡(luò)的特征圖,從而提高模型的特征提取能力。首先,利用一個(gè)全卷積來(lái)生成注意力圖。具體地,我們的輸入是通過(guò)特征提取網(wǎng)絡(luò)得到的特征圖,輸出是與輸入同等大小的特征圖(單通道)。網(wǎng)絡(luò)結(jié)構(gòu)包括收縮路徑和擴(kuò)張路徑。在收縮路徑中,包括三組卷積層,每組卷積層包含有兩個(gè)同樣大小的特征圖。此外,在每組卷積之后,緊跟一個(gè)2×2 MaxPool。在擴(kuò)張路徑中,通過(guò)反卷積操作以實(shí)現(xiàn)上采樣,生成與搜索路徑對(duì)稱的有同樣大小的特征圖。最后,通過(guò)一個(gè)1×1 conv +sigmoid 實(shí)現(xiàn)通道融合,輸出特征圖。在生成單個(gè)特征圖以后,我們還需要通過(guò)多次迭代來(lái)生成更多的焦點(diǎn)區(qū)域。因此,基于當(dāng)前狀態(tài)我們需要預(yù)測(cè)生成新的注意力圖,即注意力轉(zhuǎn)移。為了使得每次迭代關(guān)注不同的焦點(diǎn)區(qū)域,我們需要對(duì)上一次迭代生成的焦點(diǎn)區(qū)域進(jìn)行抑制,具體操作如下:

其中,F(xiàn)i(x)表示第i次迭代的輸入,Ai(x)表示第i次迭代生成的注意力圖。通過(guò)將1-Ai(x)方式獲得上一次迭代的非關(guān)注區(qū)域,并將其重新作用于上次迭代的輸入(點(diǎn)乘操作),從而得到當(dāng)前迭代的輸入。此外,為了使得我們網(wǎng)絡(luò)有類似循環(huán)神經(jīng)網(wǎng)絡(luò)的記憶功能,本文還將上一次迭代中生成的特征圖轉(zhuǎn)移到當(dāng)前迭代中,并將其與當(dāng)前迭代中生成的特征圖進(jìn)行通道融合。最后通過(guò)多次迭代,生成不同的特征圖,并對(duì)其進(jìn)行融合(逐像素相加操作),從而獲得最終的注意力圖。圖8 中展示了三次迭代生成的焦點(diǎn)以及轉(zhuǎn)移過(guò)程。

圖8 注意力轉(zhuǎn)移模型的細(xì)節(jié)Fig.8 Details of the proposed Attention Transfer Module (ATM)

表1 ESSD和目前主流方法在PASCAL VOC 2007 上的檢測(cè)結(jié)果Table1 Detection results of our ESSD and state-of-the-art detectors on PASCAL VOC 2007

為了進(jìn)一步觀察本文注意力是如何轉(zhuǎn)移的,可視化了注意力的轉(zhuǎn)移過(guò)程,如圖9所示。通過(guò)圖9可以發(fā)現(xiàn),ATM 以不斷迭代的方式逐步地定位圖像中的注意力區(qū)域(具有鑒別力的區(qū)域),最后將這些注意力合并在一起,構(gòu)成我們關(guān)注的所有區(qū)域。

圖9 注意力轉(zhuǎn)移過(guò)程Fig.9 The attention transfer process

5 實(shí)驗(yàn)評(píng)估

5.1 數(shù)據(jù)集介紹

為了驗(yàn)證本文所提出方法的有效性,我們?cè)谀繕?biāo)檢測(cè)PASCAL VOC 2007和識(shí)別數(shù)據(jù)集CIFAR-100,Caltech-256和CUB-200 進(jìn)行了實(shí)驗(yàn)驗(yàn)證。

PASCAL VOC 2007:該數(shù)據(jù)集是目標(biāo)檢測(cè)中一個(gè)經(jīng)典公開數(shù)據(jù)集,共計(jì)包含9 963 張圖像和21個(gè)種類的目標(biāo)。其中,5 011 張圖像用于訓(xùn)練和4 952張圖片用于算法測(cè)試。

CIFAR-100:這個(gè)數(shù)據(jù)集共有100個(gè)類,每個(gè)類包含600 張圖像。每班有500 張訓(xùn)練圖片和100張測(cè)試圖片。CIFAR-100中的100個(gè)類被分為20個(gè)超類。每個(gè)圖像都帶有一個(gè)精細(xì)標(biāo)簽(它所屬的類)和一個(gè)粗標(biāo)簽(它所屬的超類)。

Caltech-256:該數(shù)據(jù)集是加利福尼亞理工學(xué)院收集整理的數(shù)據(jù)集,該數(shù)據(jù)集選自Google Image 數(shù)據(jù)集,并手工去除了不符合其類別的圖片。在該數(shù)據(jù)集中,圖片被分為256 類,每個(gè)類別的圖片超過(guò)80 張。

CUB-200:該數(shù)據(jù)集包含11 788 張圖片,分為200種鳥類。所有目標(biāo)都使用邊界框、局部位置和屬性標(biāo)簽進(jìn)行注釋。這些注釋信息將有助于驗(yàn)證注意力生成是否合理。

5.2 實(shí)驗(yàn)平臺(tái)

本文所提出方法均是在深度學(xué)習(xí)框架Tensorflow下實(shí)現(xiàn)的。模型訓(xùn)練使用內(nèi)存為32G的Xeon 服務(wù)器,GPU是NVIDIA TITAN X,CUDA 版本為8.0和cuDNN 5.1。

5.3 實(shí)驗(yàn)結(jié)果

(1)雙向特征融合方法

表1展示了在PASCAL VOC 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。與傳統(tǒng)的SSD 算法相比較,ESSD 在mAP(mean average precision)上大約有3個(gè)百分點(diǎn)的提升,與此同時(shí)保證較高的檢測(cè)速度。此外,與兩級(jí)目標(biāo)檢測(cè)算法Faster R-CNN 相比較,我們的方法無(wú)論是在速度還是檢測(cè)準(zhǔn)確率上都有明顯的優(yōu)勢(shì)。

(2)上下文學(xué)習(xí)網(wǎng)絡(luò)

本文在公共數(shù)據(jù)PASCAL VOC 上進(jìn)行了實(shí)驗(yàn)。我們將上下文學(xué)習(xí)網(wǎng)絡(luò)嵌入到Faster R-CNN中,命名為Context-Aware Faster R-CNN。

通過(guò)表2可以發(fā)現(xiàn),在均使用VGG16 作為基礎(chǔ)網(wǎng)絡(luò)時(shí),與Faster R-CNN 相比較,Context-Aware Faster R-CNN 在mAP 上有8.9%的提升。在均使用Residual-101 作為基礎(chǔ)網(wǎng)絡(luò)時(shí),與Faster R-CNN 相比較,Context-Aware Faster R-CNN 在mAP 上 有8.4%的提升。

表2 Context-Aware Faster R-CNN 在PASCAL VOC 2007測(cè)試集上的實(shí)驗(yàn)結(jié)果Table2 Experimental results of Context-Aware Faster R-CNN on PASCAL VOC 2007 test set

(3)注意力轉(zhuǎn)移模型

為了證明注意力轉(zhuǎn)移機(jī)制對(duì)小目標(biāo)檢測(cè)的有效性,本文在公共數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),包括CIFAR-100[54],Caltech-256[55]和CUB-200[56]三個(gè)數(shù)據(jù)集。

表3展示了在三個(gè)數(shù)據(jù)集上分別的實(shí)驗(yàn)結(jié)果,并與目前基于注意力的方法(TLAN[52],FCAN[53],RACNN[20])進(jìn)行了比較。在CIFAR-100,Caltech-256和CUB-200 三個(gè)數(shù)據(jù)集上,ATM分別取得了82.42%,80.32%和86.12%的準(zhǔn)確率。

表3 ATM 在CIFAR-100,Caltech-256和CUB-200 三個(gè)數(shù)據(jù)集上的識(shí)別結(jié)果Table3 The recognition results of ATM on CIFAR-100,Caltech-256 and CUB-200

上述實(shí)驗(yàn)表明,本文所提出的雙向特征融合方法、上下文學(xué)習(xí)網(wǎng)絡(luò)和注意力轉(zhuǎn)移模型對(duì)小目標(biāo)的檢測(cè)是有效的。實(shí)際上,這三個(gè)算法是相輔相成的,可以集成為一個(gè)整體的網(wǎng)絡(luò)模型。首先,通過(guò)雙向特征融合方法提取到較好的目標(biāo)特征表示;然后,通過(guò)上下文學(xué)習(xí)網(wǎng)絡(luò)來(lái)學(xué)習(xí)上下文信息,并將上下文信息作為目標(biāo)檢測(cè)的補(bǔ)充信息;最后,通過(guò)注意力轉(zhuǎn)移的方式來(lái)提升目標(biāo)的識(shí)別性能。

5.4 錯(cuò)誤分析

本文提出方法均是基于錨框機(jī)制的,因此檢測(cè)性能嚴(yán)重依賴于錨框尺寸和數(shù)量的設(shè)計(jì)。當(dāng)檢測(cè)目標(biāo)與設(shè)計(jì)錨框差異較大時(shí),檢測(cè)性能將大幅度下降。此外,本文提出方法對(duì)于稠密目標(biāo)的檢測(cè)性能較差,會(huì)將多個(gè)小目標(biāo)檢測(cè)為一個(gè)目標(biāo)。其原因在于,兩個(gè)(多個(gè))目標(biāo)的水平邊界框的重疊比過(guò)大,從而導(dǎo)致檢測(cè)框被NMS 消冗。圖10展示了部分較差的檢測(cè)結(jié)果。

圖10 部分較差的檢測(cè)結(jié)果Fig.10 Some poor detection results

6 總結(jié)與未來(lái)工作

針對(duì)小目標(biāo)檢測(cè)和識(shí)別方法存在的問(wèn)題,本文從特征融合、上下文學(xué)習(xí)和注意力生成三個(gè)角度來(lái)對(duì)現(xiàn)有算法進(jìn)行了改進(jìn)。具體地,本文首先提出了一種雙向特征融合方法,通過(guò)前向和后向的傳遞不同層的特征信息,從而使得新生成的特征圖同時(shí)包含有豐富的細(xì)粒度特征和語(yǔ)義特征。接下來(lái),為了充分利用目標(biāo)的上下文信息,提出了一種上下文學(xué)習(xí)網(wǎng)絡(luò),通過(guò)學(xué)習(xí)成對(duì)物體之間的上下文關(guān)系和單個(gè)物體與整個(gè)場(chǎng)景直接的關(guān)系來(lái)輔助我們目標(biāo)檢測(cè)和識(shí)別。最后,為了更好地識(shí)別物體的類別,提出了一種注意力轉(zhuǎn)移網(wǎng)絡(luò),通過(guò)不斷迭代的方式來(lái)生成關(guān)注不同區(qū)域的特征圖,從而使得用于分類的特征更加具有鑒別力。為了證明提出方法的有效性,本文在公共數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),并將實(shí)驗(yàn)結(jié)果與目前主流方法進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,本文所提出的方法在針對(duì)小目標(biāo)的檢測(cè)和識(shí)別性能上均有明顯的優(yōu)勢(shì)。

后續(xù)的研究主要包括以下兩方面:(1)將這三個(gè)算法融入到一個(gè)目標(biāo)檢測(cè)框架中,使之成為一個(gè)完整的小目標(biāo)檢測(cè)與識(shí)別的網(wǎng)絡(luò)模型;(2)由于目前的方法都是基于錨框機(jī)制,這些方法的檢測(cè)性能嚴(yán)重依賴于錨框的預(yù)定義,因此后續(xù)的研究將嘗試?yán)藐P(guān)鍵點(diǎn)檢測(cè)來(lái)替代邊界框的回歸。

利益沖突聲明

所有作者聲明不存在利益沖突關(guān)系

猜你喜歡
注意力物體卷積
讓注意力“飛”回來(lái)
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
深刻理解物體的平衡
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
我們是怎樣看到物體的
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
為什么同一物體在世界各地重量不一樣?
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
珠海市| 抚顺县| 宜都市| 冷水江市| 枣阳市| 兴隆县| 华容县| 无极县| 东乡县| 商都县| 平潭县| 耒阳市| 临桂县| 同心县| 台安县| 廊坊市| 利辛县| 泗洪县| 汪清县| 长乐市| 利川市| 汝城县| 洛阳市| 上饶市| 凌源市| 山阳县| 九江县| 女性| 衡东县| 高阳县| 新邵县| 万全县| 界首市| 潼南县| 上虞市| 南澳县| 措美县| 白银市| 博野县| 镇宁| 鹤庆县|