儲(chǔ) 珺,林文杰,徐 鵬
(1. 南昌航空大學(xué) 軟件學(xué)院,南昌 330063;2. 南昌航空大學(xué) 信息工程學(xué)院,南昌 330063;3. 九江市0901工程管理處,江西 九江 332000)
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺的基本任務(wù)之一,旨在給定的任意圖像上對(duì)含有語(yǔ)義信息的目標(biāo)實(shí)例進(jìn)行分類和定位。其在自動(dòng)駕駛、人臉識(shí)別、行人檢測(cè)、醫(yī)療檢測(cè)等方面有著重要的應(yīng)用。同時(shí),目標(biāo)檢測(cè)也可以作為圖像分割、圖像描述、目標(biāo)跟蹤、動(dòng)作識(shí)別等更復(fù)雜的計(jì)算機(jī)視覺任務(wù)的研究基礎(chǔ)[1]。
傳統(tǒng)目標(biāo)檢測(cè)算法首先通過(guò)目標(biāo)無(wú)關(guān)的滑動(dòng)窗口等方法生成大量冗余的目標(biāo)候選框,采用手工設(shè)計(jì)的特征提取器提取候選框特征,然后再將這些特征送入到SVM[2]、AdaBoost[3]分類器中判斷目標(biāo)是否存在,最后對(duì)目標(biāo)進(jìn)行回歸。這類算法產(chǎn)生大量冗余計(jì)算,而且手工設(shè)計(jì)的特征提取器的特征表達(dá)能力有限,分類結(jié)果魯棒性較差,檢測(cè)性能往往不夠理想。
隨著計(jì)算機(jī)硬件的計(jì)算能力的飛速提升以及大規(guī)模數(shù)據(jù)處理技術(shù)的廣泛應(yīng)用,深度神經(jīng)以其強(qiáng)大的特征提取能力被廣泛應(yīng)用到模式識(shí)別的各個(gè)領(lǐng)域。相較于傳統(tǒng)目標(biāo)檢測(cè)算法,深度目標(biāo)檢測(cè)器無(wú)論是精度還是泛化能力都更具優(yōu)勢(shì),摒棄了復(fù)雜的目標(biāo)候選框后其推理速度更是超越前者。特別是Faster R-CNN[4]網(wǎng)絡(luò)的誕生,將傳統(tǒng)目標(biāo)檢測(cè)算法的分段操作統(tǒng)一到深度網(wǎng)絡(luò)框架之下,真正實(shí)現(xiàn)了目標(biāo)檢測(cè)任務(wù)的端到端訓(xùn)練以及一步推理,奠定了現(xiàn)代目標(biāo)檢測(cè)器的基礎(chǔ)。
深度目標(biāo)檢測(cè)已經(jīng)成為目標(biāo)檢測(cè)的一個(gè)主流研究方向,按照是否生成區(qū)域候選,深度目標(biāo)檢測(cè)器可以劃分為二階段目標(biāo)檢測(cè)器[4-10]和一階段目標(biāo)檢測(cè)器[11-20]。二階段目標(biāo)檢測(cè)器的檢測(cè)流程與傳統(tǒng)目標(biāo)檢測(cè)的流程類似,需要先生成候選區(qū)域,這一過(guò)程通常由RPN(Region Proposal Network) 實(shí)現(xiàn);然后通過(guò)池化操作從候選區(qū)域提取出目標(biāo),進(jìn)行分類和回歸。由于候選區(qū)域是由網(wǎng)絡(luò)生成的,具有不俗的定位精度,因此后續(xù)的回歸操作相當(dāng)于進(jìn)一步微調(diào)了定位邊界框,因此二階段目標(biāo)檢測(cè)器具有更好的定位精度。一階段目標(biāo)檢測(cè)器取消了區(qū)域候選生成操作,盡管這帶來(lái)更為嚴(yán)重的樣本失衡以及定位精度較差的問(wèn)題,但也因此具有更快的運(yùn)算速度,能滿足實(shí)時(shí)性的要求,具有更好的應(yīng)用前景。特別是FCOS[12],YoLo系列[13-14]等優(yōu)秀工作的提出,使得一階段目標(biāo)檢測(cè)器在檢測(cè)性能上能夠媲美甚至超過(guò)大部分二階段目標(biāo)檢測(cè)器。
盡管深度目標(biāo)檢測(cè)器已經(jīng)具備了很好的檢測(cè)性能,但其本身包含了分類和回歸兩個(gè)目標(biāo)完全不同的子任務(wù),而現(xiàn)有的大部分目標(biāo)檢測(cè)算法中采用參數(shù)共享的檢測(cè)網(wǎng)絡(luò)實(shí)現(xiàn)分類和回歸任務(wù),導(dǎo)致現(xiàn)有的深度目標(biāo)檢測(cè)器性能提升出現(xiàn)瓶頸。深度目標(biāo)檢測(cè)器本質(zhì)上是對(duì)于目標(biāo)特征的處理函數(shù),即接受目標(biāo)的特征作為輸入,產(chǎn)生相應(yīng)的分類和定位輸出。因此不難看出,分類任務(wù)和回歸任務(wù)之間的沖突本質(zhì)上是分類特征和回歸特征之間的沖突,這種沖突源自于分類特征和回歸特征的差異,其對(duì)檢測(cè)性能所造成的影響稱為特征不匹配問(wèn)題。
本文首先分析特征不匹配問(wèn)題的原因,指出特征不匹配問(wèn)題對(duì)于網(wǎng)絡(luò)的輸出響應(yīng)造成的影響,然后詳細(xì)介紹現(xiàn)有的解決方案,最后給出對(duì)于此問(wèn)題的思考和未來(lái)的發(fā)展方向,為日后的研究提供一個(gè)可供參考的研究路徑。
首先從目標(biāo)檢測(cè)中分類和和回歸任務(wù)的本質(zhì)來(lái)描述特征不匹配問(wèn)題。目標(biāo)檢測(cè)中的分類和回歸任務(wù)可以描述為:
其中:φ表示仿射變換函數(shù);pcls和preg分別表示分類特征和回歸特征;Fc和Fr分別表示分類函數(shù)和回歸函數(shù)。從式(1)、式(2)可以看出分類函數(shù)和回歸函數(shù)對(duì)于輸入的響應(yīng)存在差別,也就是說(shuō)分類任務(wù)和回歸任務(wù)目標(biāo)不一致。
深度目標(biāo)檢測(cè)器中分類和回歸任務(wù)是通過(guò)對(duì)目標(biāo)函數(shù)的優(yōu)化來(lái)完成。目標(biāo)檢測(cè)的分類和回歸任務(wù)的目標(biāo)函數(shù)可以定義為:
其中:Lc和Lr分別表示分類目標(biāo)函數(shù)和回歸目標(biāo)函數(shù);fone_hot表示one-hot函數(shù);c和Δb?分別表示分類標(biāo)簽和回歸標(biāo)簽。從式(3)、式(4)可以看出分類任務(wù)的輸出是離散的,目標(biāo)是尋找目標(biāo)類別的決策邊界;而回歸任務(wù)的輸出是連續(xù)的,目標(biāo)是尋找真實(shí)目標(biāo)框的最優(yōu)擬合。因此,分類任務(wù)和回歸任務(wù)的輸出空間也是不一致的。
由上述分析可知目標(biāo)檢測(cè)的分類和回歸任務(wù)在目標(biāo)和網(wǎng)絡(luò)的輸出上都存在不一致。那么分類和回歸任務(wù)的輸入特征是否也存在這種不一致性?
為了更好地說(shuō)明這個(gè)問(wèn)題,分別對(duì)并聯(lián)檢測(cè)網(wǎng)絡(luò)的分類特征和回歸特征進(jìn)行可視化,可視化結(jié)果如圖1所示。其中:圖1a中第一行表示分類置信度高但定位精度低的候選框會(huì)抑制分類置信度低但定位精度高的候選框;第二行表示分類特征和回歸特征的聯(lián)合分布以及密集預(yù)測(cè)策略,其中紅色框均為真實(shí)目標(biāo)框。圖1b給出了并聯(lián)檢測(cè)網(wǎng)絡(luò)輸出的前一層的特征熱圖,熱圖中顏色越深的地方說(shuō)明響應(yīng)越強(qiáng),可以看出分類特征和回歸特征的分布有著非常明顯的差異。分類特征更多聚集在真實(shí)目標(biāo)中包含更多語(yǔ)義信息的顯著區(qū)域,而回歸特征則更多分布在真實(shí)目標(biāo)框的邊緣,也就是說(shuō)分類任務(wù)和回歸任務(wù)的輸入特征確實(shí)是存在不一致性。
圖1 特征不匹配問(wèn)題
從上面的分析和實(shí)驗(yàn)結(jié)果都證明了目標(biāo)檢測(cè)中確實(shí)存在特征不匹配的問(wèn)題,本文認(rèn)為這種不匹配是由于分類任務(wù)和回歸任務(wù)的監(jiān)督目標(biāo)的差異造成的。下面從網(wǎng)絡(luò)的監(jiān)督優(yōu)化過(guò)程來(lái)分析這種特征不匹配產(chǎn)生的原因。
在分類任務(wù)中,目標(biāo)是訓(xùn)練一個(gè)對(duì)真實(shí)標(biāo)簽具有最大激活值的檢測(cè)器,而不關(guān)心它的真實(shí)類別,如常用的BCE (Binary Cross Entropy) 損失函數(shù),標(biāo)簽與分類預(yù)測(cè)之間在計(jì)算損失時(shí)并沒有明確的偏差,顯然這并不是一個(gè)度量空間。這意味網(wǎng)絡(luò)在訓(xùn)練過(guò)程中只需要學(xué)習(xí)讓偏好類別的響應(yīng)比其他類別高即可的推理模式。因此,隨著訓(xùn)練的進(jìn)行,為了更好的分類,網(wǎng)絡(luò)會(huì)更加關(guān)注不變的核心特征。
在回歸任務(wù)中,網(wǎng)絡(luò)需要預(yù)測(cè)當(dāng)前空間位置與目標(biāo)空間位置的偏移量,得到準(zhǔn)確的真實(shí)空間坐標(biāo)。無(wú)論選擇Smooth?L1還是IoULoss作為損失函數(shù),顯然都滿足度量空間的約束。由于使用真實(shí)目標(biāo)框作為回歸目標(biāo),為了學(xué)習(xí)準(zhǔn)確的距離度量,網(wǎng)絡(luò)更注重邊緣特征來(lái)確定目標(biāo)與背景的邊界,從而獲得更精確的候選邊界框。這就是分類特征和回歸特征的本質(zhì)區(qū)別。
另一方面,注意到圖1c中分類和回歸的響應(yīng)峰值存在明顯差異。這種差異顯然與其各自特征分布相關(guān),我們認(rèn)為是由于特征分布的不對(duì)齊導(dǎo)致了響應(yīng)分布的不一致。也就是說(shuō),解決特征不對(duì)齊問(wèn)題需要兼顧特征不匹配以及響應(yīng)不一致兩個(gè)方面。接下來(lái),將分別詳細(xì)描述特征不匹配問(wèn)題當(dāng)前的解決方案以及響應(yīng)不一致和特征不匹配問(wèn)題的聯(lián)系及其現(xiàn)有工作。
正如前面分析,特征不匹配是由于分類特征和回歸特征的分布不一致造成的,參數(shù)共享的并聯(lián)檢測(cè)網(wǎng)絡(luò)顯然不能很好地編碼這種差異,限制了網(wǎng)絡(luò)的檢測(cè)性能。因此,如何有效地分離分類特征和回歸特征,成為目前解決特征不匹配問(wèn)題的主要方法。
RetinaNet[21]是第一個(gè)提出用參數(shù)獨(dú)立的并聯(lián)檢測(cè)網(wǎng)絡(luò)代替共享檢測(cè)網(wǎng)絡(luò)。因?yàn)閰?shù)獨(dú)立的分類網(wǎng)絡(luò)和回歸網(wǎng)絡(luò)在各自的監(jiān)督信號(hào)下可以分別對(duì)分類特征和回歸特征進(jìn)行編碼,其特征表達(dá)的準(zhǔn)確性要高于共享檢測(cè)網(wǎng)絡(luò)。但并聯(lián)檢測(cè)網(wǎng)絡(luò)同時(shí)也意味著網(wǎng)絡(luò)參數(shù)的增加,在深度神經(jīng)網(wǎng)絡(luò)中參數(shù)的增加在一定程度上能帶來(lái)檢測(cè)器性能的提升,因此并不能簡(jiǎn)單地把檢測(cè)性能的提升簡(jiǎn)單地歸結(jié)于并聯(lián)檢測(cè)網(wǎng)絡(luò)對(duì)于沖突特征的分離,而且文中也沒有具體分析對(duì)特征不匹配的原因。
Wu 等[22]采用并聯(lián)檢測(cè)網(wǎng)和共享檢測(cè)網(wǎng)絡(luò)的不同組合進(jìn)行實(shí)驗(yàn),進(jìn)一步研究檢測(cè)網(wǎng)絡(luò)對(duì)分類和回歸的影響。實(shí)驗(yàn)采用全連接子網(wǎng)絡(luò)和卷積子網(wǎng)絡(luò)以共享或者并聯(lián)的方式,通過(guò)不同的排列組合構(gòu)建了四組用于對(duì)照實(shí)驗(yàn)的檢測(cè)網(wǎng)絡(luò) (如圖2所示),分別進(jìn)行訓(xùn)練后在測(cè)試集上測(cè)試其性能。不同檢測(cè)網(wǎng)絡(luò)在MS COCO[23]數(shù)據(jù)集上的檢測(cè)性能如表1所示。
圖2 Double-Head不同檢測(cè)網(wǎng)絡(luò)對(duì)照
表1 不同檢測(cè)網(wǎng)絡(luò)的性能
從圖2a、圖2c可以看出網(wǎng)絡(luò)檢測(cè)性能的提升與采用并聯(lián)檢測(cè)網(wǎng)絡(luò)后網(wǎng)絡(luò)參數(shù)增加無(wú)關(guān),因?yàn)椴捎昧瞬⒙?lián)檢測(cè)網(wǎng)絡(luò)(圖2c)的性能要低于采用共享檢測(cè)網(wǎng)絡(luò)(圖2a)。同樣地從圖2c、圖2d可以看出目標(biāo)檢測(cè)中分類任務(wù)和回歸任務(wù)確實(shí)存在不一致性。分別采用全連接網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)用于分類與回歸任務(wù)的監(jiān)測(cè)性能要比卷積網(wǎng)絡(luò)用于分類、全連接網(wǎng)絡(luò)用于回歸的AP高出6%。因?yàn)榉诸惾蝿?wù)比回歸任務(wù)更側(cè)重于目標(biāo)的語(yǔ)義信息,而卷積網(wǎng)絡(luò)保留的空間結(jié)構(gòu)信息更有助于目標(biāo)的定位。在不考慮網(wǎng)絡(luò)結(jié)構(gòu)具體設(shè)計(jì)的前提下,圖2d可以看作是參數(shù)獨(dú)立的并聯(lián)檢測(cè)網(wǎng)絡(luò),圖2a可以看作是參數(shù)共享的并聯(lián)檢測(cè)網(wǎng)絡(luò)。
TSD認(rèn)為盡管Double-Head采用并聯(lián)檢測(cè)網(wǎng)絡(luò)有效地分離了來(lái)自于FPN的共享特征中的分類特征和回歸特征,使得并聯(lián)檢測(cè)網(wǎng)絡(luò)的分類和回歸特征的編碼更精確[24]。但是,文中認(rèn)為其分類子網(wǎng)絡(luò)和回歸子網(wǎng)絡(luò)的池化操作提取的目標(biāo)特征來(lái)自于相同的目標(biāo)候選區(qū)域,從空間上看2個(gè)子網(wǎng)絡(luò)的特征仍然來(lái)自于相同的區(qū)域,也就是說(shuō)兩者的輸入特征編碼是相同的。因?yàn)镽oIAlign操作不帶參數(shù),因此輸入相同的情況下輸出也是相同。所以作者認(rèn)為分類特征和回歸特征的沖突仍然存在,并提出了任務(wù)敏感的空間解耦操作(Task-aware Spatial Disentanglement,TSD)來(lái)解決這一問(wèn)題。具體來(lái)說(shuō),就是引入可變形RoI池化替代RoIAlign操作,通過(guò)可變形RoI池化學(xué)習(xí)的偏移參數(shù)使分類子網(wǎng)絡(luò)和回歸子網(wǎng)絡(luò)從目標(biāo)候選區(qū)域的不同空間位置提取合適的特征,極大地增強(qiáng)了并聯(lián)網(wǎng)絡(luò)對(duì)于分類特征和回歸特征的編碼能力,將網(wǎng)絡(luò)在MSCOCO val2017上的檢測(cè)性能從36.1%提升到了38.2%。
不難看出,上述工作均在模型的檢測(cè)網(wǎng)絡(luò)中對(duì)來(lái)自主干網(wǎng)絡(luò)的共享特征進(jìn)行解耦操作,這說(shuō)明目標(biāo)檢測(cè)中分類特征和回歸特征的分布是不一致的,對(duì)分類特征和回歸特征進(jìn)行分離可以有效地緩解特征不匹配問(wèn)題。
現(xiàn)代深度目標(biāo)檢測(cè)器為了提升召回率,通常采用密集預(yù)測(cè)策略,即網(wǎng)絡(luò)在特征映射的每個(gè)空間位置上都進(jìn)行預(yù)測(cè)。對(duì)于同一實(shí)例,將不可避免地會(huì)產(chǎn)生多個(gè)輸出,如圖1a。從圖1c可以看出分類和回歸在最高響應(yīng)上存在明顯差異,本文認(rèn)為其很大程度是由于分類特征和回歸特征的分布差異,造成置信度高但定位精度低的問(wèn)題,即分類和回歸響應(yīng)不一致問(wèn)題。對(duì)于這一問(wèn)題的目前解決方法可以分為三類:基于不同重疊閾值的多區(qū)域候選網(wǎng)絡(luò)的方法,增加額外的定位置信度分支的方法,聯(lián)合預(yù)測(cè)分類和回歸分布的方法。
基于錨框的方法[25-26]采用具有不同重疊閾值的多個(gè)區(qū)域候選網(wǎng)絡(luò)來(lái)篩選出定位精度更高的樣本,通過(guò)高重疊閾值的級(jí)聯(lián)區(qū)域候選網(wǎng)絡(luò)施加額外的分類損失提高這些樣本的分類響應(yīng),增加推理時(shí)高置信度且高定位精度的樣本的數(shù)量。這類似于門控機(jī)制,一般采用三層級(jí)聯(lián)的方式[26],重疊閾值從低到高分別取0.5、0.75和0.95。樣本的定位精度越高,施加的額外的分類損失也越大。不過(guò),這種基于樣本篩選機(jī)制的級(jí)聯(lián)結(jié)構(gòu)往往會(huì)增加模型的復(fù)雜度,網(wǎng)絡(luò)在訓(xùn)練時(shí)難以收斂。
增加額外的定位置信度分支的方法[27-28]要簡(jiǎn)潔有效得多。當(dāng)前大多數(shù)目標(biāo)檢測(cè)器采用分類置信度作為后處理中非極大值抑制選擇最優(yōu)預(yù)測(cè)邊界框的度量。但正如前文所述,網(wǎng)絡(luò)的分類響應(yīng)和回歸響應(yīng)并不一致,因此使用分類置信度選擇目標(biāo)候選框并不一定是最好的定位結(jié)果。當(dāng)前網(wǎng)絡(luò)中缺少能夠直接度量定位精度的結(jié)果,因此Jiang等[27]首次提出添加額外的定位置信度分支來(lái)預(yù)測(cè)定位精度的方法。定位置信度分支和分類分支類似,但預(yù)測(cè)結(jié)果是定位的精確度,用于替代分類置信度在極大值抑制操作中作為最好目標(biāo)候選框選擇的度量或者作為調(diào)整分類置信度的權(quán)重。因?yàn)閮H僅增加一個(gè)額外的分支,無(wú)論是計(jì)算量還是參數(shù)數(shù)量都遠(yuǎn)小于級(jí)聯(lián)區(qū)域候選網(wǎng)絡(luò)的方法,訓(xùn)練復(fù)雜度也大大降低。
Li等[29]首次提出了預(yù)測(cè)分類和回歸聯(lián)合分布的方法,通過(guò)分類和回歸的聯(lián)合權(quán)重來(lái)調(diào)整樣本的分類和回歸的梯度更新權(quán)重;另一方面采用分類和回歸的聯(lián)合標(biāo)簽作為分類的優(yōu)化目標(biāo),讓分類的預(yù)測(cè)輸出不僅包含類別信息,同時(shí)還包含定位的準(zhǔn)確性度量。避免增加定位置信度預(yù)測(cè)分支所帶來(lái)的計(jì)算增加,也可以解決定位置信度預(yù)測(cè)帶來(lái)的誤差問(wèn)題。在這一方向上,Li 等[30]進(jìn)一步提出的generalized focal loss (GFL) 分類損失,直接采用回歸精度作為分類任務(wù)的訓(xùn)練標(biāo)簽,這是因?yàn)槌祟悇e的通道信息外分類的真實(shí)目標(biāo)并不能為分類和回歸響應(yīng)的平衡提供額外的有效信息。而定位精度的預(yù)測(cè),顯然能夠更準(zhǔn)確地描述當(dāng)前樣本的定位效果。
這一類工作開創(chuàng)了采用分類分支預(yù)測(cè)定位精度的全新研究方向,我們對(duì)它們進(jìn)行總結(jié)并形式化如下:
其中:loci和clsi分別表示第i個(gè)樣本的分類置信度和回歸置信度(樣本和真實(shí)目標(biāo)之間的IoU);BCE(·)表示分類損失函數(shù);α和γ是權(quán)重調(diào)節(jié)因子。f表示變換函數(shù),用以調(diào)整分類置信度和定位精度的幅值。
當(dāng)α的取值范圍為(0,1)之間時(shí),式7為L(zhǎng)i[29]等人提出分類和回歸的聯(lián)合預(yù)測(cè)損失;當(dāng)α設(shè)為1,變換函數(shù)f設(shè)為(clsi?loci)2,則為GFL[30]分類損失。
上述方法在一定程度上都可以視為利用樣本和真實(shí)目標(biāo)之間的IoU來(lái)調(diào)節(jié)分類預(yù)測(cè),從而調(diào)整分類響應(yīng)和回歸響應(yīng)之間的不一致性,但也可以看出這些方法還沒有很好地和特征解耦操作相結(jié)合,進(jìn)一步調(diào)整網(wǎng)絡(luò)中的特征不匹配問(wèn)題。
從上文可以看到,特征不匹配問(wèn)題同時(shí)存在分類特征和回歸特征空間分布不一致的問(wèn)題以及兩種特征空間分布差異帶來(lái)分類響應(yīng)和回歸響應(yīng)不一致的問(wèn)題。這兩個(gè)問(wèn)題并不是相互獨(dú)立,而是存在因果上的聯(lián)系,但目前的解決方案沒有將兩個(gè)問(wèn)題聯(lián)系起來(lái)。基于上文的研究基礎(chǔ)和分析,本文分析了特征不匹配問(wèn)題未來(lái)的3個(gè)發(fā)展方向:
1) 結(jié)合特征解耦操作和響應(yīng)對(duì)齊策略作為一個(gè)整體的解決方案。一方面目前的解耦操作僅停留在檢測(cè)網(wǎng)絡(luò)部分,而輸入到FPN結(jié)構(gòu)的特征中分類和回歸的分布沖突仍然存在。另一方面當(dāng)前的響應(yīng)對(duì)齊策略通常采用IoU作為樣本選擇的度量,但在分類特征和回歸特征分布存在差異的情況下,選擇兩個(gè)分布之間重合的高響應(yīng)區(qū)域的樣本顯然是更好的策略。
2) 采用單一預(yù)測(cè)策略來(lái)替代目前廣泛采用的密集采樣策略。相對(duì)于特征分布不一致帶來(lái)的分類和定位精度下降的問(wèn)題,密集采樣策略導(dǎo)致的置信度高但定位精度低的問(wèn)題在目標(biāo)檢測(cè)器的性能評(píng)估上的影響顯然更為顯著。因此,如果令網(wǎng)絡(luò)針對(duì)單個(gè)目標(biāo)實(shí)例只產(chǎn)生一個(gè)目標(biāo)預(yù)測(cè)將有效地降低響應(yīng)不一致帶來(lái)的影響。不過(guò),由于網(wǎng)絡(luò)參數(shù)的隨機(jī)初始化,如何有效地確定真實(shí)目標(biāo)的樣本將會(huì)是一個(gè)挑戰(zhàn)。
3) 引入Transformer[31]通過(guò)網(wǎng)絡(luò)自身的學(xué)習(xí)自適應(yīng)地分離分類特征和回歸特征,利用可學(xué)習(xí)的注意力機(jī)制針對(duì)某個(gè)真實(shí)目標(biāo)產(chǎn)生相應(yīng)的單一的預(yù)測(cè)結(jié)果。在消除極大值抑制的工作上,近期基于Transformer的工作DETR[32]已經(jīng)取得了相當(dāng)不錯(cuò)的進(jìn)展。但Transformer在小目標(biāo)以及訓(xùn)練復(fù)雜度上仍然值得探索。
將深度神經(jīng)網(wǎng)絡(luò)引入到目標(biāo)檢測(cè)領(lǐng)域確實(shí)能夠顯著地提升模型的檢測(cè)性能,尤其是現(xiàn)代深度目標(biāo)檢測(cè)器已經(jīng)將傳統(tǒng)目標(biāo)檢測(cè)的分段式訓(xùn)練和推理方式集成到了一個(gè)統(tǒng)一的框架下,極大提升了目標(biāo)檢測(cè)訓(xùn)練的便捷性和推理速度。但是深度神經(jīng)網(wǎng)絡(luò)帶來(lái)的特征不匹配問(wèn)題也越來(lái)越成為目標(biāo)檢測(cè)器性能提升的一個(gè)瓶頸。本文首先從目標(biāo)檢測(cè)器的分類和回歸任務(wù)的本質(zhì)分析了特征不匹配問(wèn)題產(chǎn)生的原因,詳細(xì)介紹了現(xiàn)有的解決方法,指出特征不匹配給密集預(yù)測(cè)策略帶來(lái)的分類和回歸響應(yīng)不一致的影響以及在此問(wèn)題上的解決方案,最后給出了特征不匹配問(wèn)題解決的未來(lái)發(fā)展方向。
南昌航空大學(xué)學(xué)報(bào)(自然科學(xué)版)2021年3期