国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于區(qū)域提案孿生網(wǎng)絡(luò)的優(yōu)化目標(biāo)跟蹤算法

2021-03-29 02:52秦曉飛張一鵬陳浩勝何致遠(yuǎn)
光學(xué)儀器 2021年1期
關(guān)鍵詞:錨點(diǎn)池化分支

秦曉飛,張一鵬,陳浩勝,李 夏,何致遠(yuǎn)

(1.上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093;2.上海理工大學(xué) 機(jī)械工程學(xué)院,上海 200093)

引 言

目標(biāo)跟蹤是計(jì)算機(jī)視覺中的一個(gè)重要分支,在人機(jī)交互、自動(dòng)駕駛等領(lǐng)域都有著廣泛的應(yīng)用。目標(biāo)跟蹤的一般要求是僅僅根據(jù)第一幀中給出的邊界框,就能準(zhǔn)確地估計(jì)目標(biāo)在后續(xù)幀中的位置和尺度。由照明、變形、遮擋、旋轉(zhuǎn)和運(yùn)動(dòng)模糊引起的外觀差異都是很大的挑戰(zhàn),而且跟蹤速度在實(shí)際應(yīng)用中也是必須考慮的一個(gè)方面。通常,實(shí)時(shí)跟蹤的幀率至少為25 幀/s。

近幾年,目標(biāo)跟蹤技術(shù)迅速發(fā)展,涌現(xiàn)出了大批優(yōu)秀的跟蹤算法。在普通的卷積神經(jīng)網(wǎng)絡(luò)中,卷積核或者池化核是正方形的,這對于長寬比比較接近的目標(biāo)進(jìn)行采樣時(shí),可以取得較好的效果。然而,當(dāng)物體的長寬比比較懸殊的時(shí)候,網(wǎng)絡(luò)往往顯得比較乏力,特別是在骨干網(wǎng)絡(luò)中,這樣的操作直接影響了后續(xù)的信息處理。本文通過引入條形池化模塊[1]來增加網(wǎng)絡(luò)對于細(xì)長物體的采樣能力,同時(shí),由于是輕量級模塊,計(jì)算量和參數(shù)量的增加微乎其微。

區(qū)域提案孿生網(wǎng)絡(luò)[2]的分類分支作用是將目標(biāo)的前景區(qū)域和背景區(qū)域分開,從而獲取跟蹤物的位置信息,給邊界框回歸提供參考,從而得到高質(zhì)量的預(yù)測框。所以分類分支的分類性能,直接影響了整個(gè)跟蹤器的跟蹤效果,若能抑制干擾信息,就可得到一個(gè)更加具有判別力的分類器。通道注意力模塊[3-7]的作用是根據(jù)神經(jīng)網(wǎng)絡(luò)的不同輸入對不同部分適應(yīng)性地分配權(quán)重。本文引進(jìn)了高效通道注意力模塊[8],可以從神經(jīng)網(wǎng)絡(luò)的通道維度有效抑制干擾信息,而使有用的信息得到有效保留。同時(shí)還在OTB100[9]、VOT2016[10]和VOT2019[11]等數(shù)據(jù)集中對提出的方法進(jìn)行了評估。

1 目標(biāo)尺度感知的區(qū)域提案孿生網(wǎng)絡(luò)目標(biāo)跟蹤

1.1 網(wǎng)絡(luò)整體框架

網(wǎng)絡(luò)整體框架如圖1所示,由2個(gè)子網(wǎng)絡(luò)構(gòu)成,分別是左側(cè)的孿生子網(wǎng)絡(luò)和右側(cè)的提案生成子網(wǎng)絡(luò)。視頻的第一幀從模板分支輸入,而后續(xù)幀從搜索分支輸入,2個(gè)子窗口的片段經(jīng)相同的網(wǎng)絡(luò)(網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)均相同)AlexNet[12]后,再將模板分支的特征圖送入條形池化模塊(即SPM)[1]進(jìn)行進(jìn)一步的處理。

圖 1 本文網(wǎng)絡(luò)的整體框架Fig. 1 The overall framework of this paper

提案生成子網(wǎng)絡(luò)由分類分支和回歸分支2個(gè)部分構(gòu)成:前者負(fù)責(zé)前景和背景分類,在每個(gè)錨點(diǎn)的位置生成2k個(gè)得分,分別是k個(gè)前景得分和k個(gè)背景得分,用于后續(xù)的錨點(diǎn)框篩選;后者負(fù)責(zé)生成錨點(diǎn)框,在每個(gè)錨點(diǎn)的中心位置預(yù)設(shè)了5個(gè)尺度的錨點(diǎn)框,長寬比分別為1∶1、1∶2、2∶1、1∶3、3∶1。網(wǎng)絡(luò)的輸出是每個(gè)框的邊界框的中心點(diǎn)的橫坐標(biāo)、縱坐標(biāo)和寬度、高度的修正量,而每個(gè)錨點(diǎn)框與分類分支的得分一一對應(yīng),這樣每個(gè)框就有了得分,然后根據(jù)懲罰函數(shù)得到最終的預(yù)測框。

1.2 條形池化模塊

在目標(biāo)跟蹤任務(wù)中,目標(biāo)物的尺度是實(shí)時(shí)變化且未知的,很有可能會(huì)出現(xiàn)物體的邊界框長寬比懸殊的情況。這個(gè)時(shí)候,普通的卷積神經(jīng)網(wǎng)絡(luò)就不能很好地采樣,會(huì)嚴(yán)重影響跟蹤算法的尺度估計(jì)。本文引入的條形池化模塊[1],如圖2所示,通過在狹長區(qū)域進(jìn)行采樣,很好地緩解了這個(gè)問題。

圖 2 條形池化模塊的網(wǎng)絡(luò)框架Fig. 2 Network framework of strip pooling module

該模塊的具體工作過程可分為三步:(1)對輸入的一個(gè)H×W的特征圖,先在橫向和縱向區(qū)域分別進(jìn)行平均池化,池化核大小分別為W×1和 1 ×H并分別得到2個(gè)向量,向量尺寸為H×1和 1 ×W,然后再通過一維的卷積建立相鄰區(qū)域的聯(lián)系。(2)采用復(fù)制的方式對特征圖進(jìn)行橫向和縱向擴(kuò)張,然后再進(jìn)行融合,融合方式為直接逐元素相加。(3)采用 1 ×1 的卷積對整個(gè)特征圖進(jìn)行變換,然后再通過Sigmoid函數(shù)進(jìn)行權(quán)重歸一化,最后分配到各個(gè)空間位置并與其進(jìn)行相乘。

1.3 高效通道注意力模塊

高效通道注意力模塊[8]是在著名的通道注意力模塊(即:SE模塊)[3]的基礎(chǔ)之上改進(jìn)得到的模塊。研究發(fā)現(xiàn),普通的SE模塊存在2個(gè)方面的問題:首先,SE模塊雖然是輕量化的模塊,可是參數(shù)量還是比較大;其次,傳統(tǒng)的SE模塊在通道轉(zhuǎn)換部分是2個(gè)全連接層,這樣做可以節(jié)省計(jì)算量和參數(shù)量,可同時(shí)也破壞了原有的權(quán)重和通道之間的對應(yīng)關(guān)系。高效通道注意力模塊是傳統(tǒng)SE模塊的改進(jìn)版,如圖3所示。

圖 3 高效通道注意力模塊的網(wǎng)絡(luò)框架Fig. 3 Network framework of efficient channel attention module

首先,對輸入的特征圖進(jìn)行全局平均池化,其目的是對每個(gè)通道的壓縮信息進(jìn)行壓縮,得到一個(gè)向量。其次,通過一個(gè)一維的same卷積進(jìn)行處理,得到一個(gè)相同維度的向量,而這個(gè)卷積操作,其實(shí)就已經(jīng)建立了每個(gè)通道及其相鄰?fù)ǖ乐g的函數(shù)關(guān)系。再次,通過Sigmoid函數(shù)在對數(shù)據(jù)進(jìn)行數(shù)值歸一化的同時(shí)增加網(wǎng)絡(luò)的非線性。最后,再作為權(quán)重分配到各個(gè)通道,與各個(gè)通道的特征相乘之后得到最后的輸出。

2 實(shí) 驗(yàn)

2.1 實(shí)驗(yàn)細(xì)節(jié)

本文把ImageNet[13]預(yù)先訓(xùn)練的AlexNet[12]作為骨干網(wǎng)絡(luò),共訓(xùn)練20個(gè)epoch。先將骨干網(wǎng)絡(luò)的參數(shù)固定,訓(xùn)練其他部分,訓(xùn)練10個(gè)epoch后,解除骨干網(wǎng)絡(luò)后兩層的凍結(jié),并將其和網(wǎng)絡(luò)的其他部分一起訓(xùn)練。

訓(xùn)練時(shí),將模板幀的圖像大小調(diào)整為255×255個(gè)像素點(diǎn),搜索幀的圖像大小調(diào)整為127×127個(gè)像素點(diǎn)。為了得到更好的訓(xùn)練效果,將 COCO[14]、Youtube-BB[15]、ImageNet VID 和ImageNet DET4個(gè)數(shù)據(jù)集作為訓(xùn)練集。并采用隨機(jī)梯度下降法(SGD)進(jìn)行訓(xùn)練。前5個(gè)epoch僅僅訓(xùn)練區(qū)域提議網(wǎng)絡(luò)(RPN)部分。學(xué)習(xí)率從0.005均勻增加到0.010。在隨后的 25個(gè)epoch中,整個(gè)網(wǎng)絡(luò)的端到端訓(xùn)練的學(xué)習(xí)速率呈指數(shù)衰減,從0.010 0衰減到0.000 5。使用0.000 5的重量衰減和0.9的動(dòng)量。訓(xùn)練總損失是分類損失與回歸的標(biāo)準(zhǔn)平滑L1損失之和。本文實(shí)驗(yàn)使用 PyTorch框架,硬件采用了 Intel(R)Xeon(R)CPU E5-1620 v3 @3.50 GHz,2臺(tái)英偉達(dá)GTX 1080Ti GPU,內(nèi)存19 GB。

2.2 數(shù)據(jù)集與實(shí)驗(yàn)結(jié)果分析

使用標(biāo)準(zhǔn)的OTB100[9]基準(zhǔn)和100個(gè)視頻序列來評估本文提出的跟蹤算法性能。對此前的OTB2013數(shù)據(jù)集[16]進(jìn)行了進(jìn)一步的擴(kuò)增,這些序列共有11種類型挑戰(zhàn),即:光照變化(IV)、變形(DEF)、運(yùn)動(dòng)模糊(MB)、平面外旋轉(zhuǎn)(OPR)、低分辨率(LR)、遮擋(OCC)、快速運(yùn)動(dòng)(FM)、平面內(nèi)旋轉(zhuǎn)(IPR)、視野消失(OV)、背景混亂(BC)和尺度變化(SV)。評估指標(biāo)有2個(gè),分別為預(yù)測框與標(biāo)準(zhǔn)框的交并比(即成功率)和中心定位誤差(即準(zhǔn)確度),圖4為10個(gè)常見方法與本文方法的準(zhǔn)確度和成功率曲線。

圖 4 不同算法在 OTB100 上的結(jié)果Fig. 4 Results of different algorithms on OTB100

在圖4中,精確度的縱坐標(biāo)顯示了滿足中心定位要求的幀所占的百分比,成功率的縱坐標(biāo)顯示了滿足該重疊率的幀所占的百分比。經(jīng)本文與其他10個(gè)常見的方法相比,可以得到:本文的跟蹤算法取得了很好的跟蹤效果,無論是在成功率還是在準(zhǔn)確度方面,都取得了第1名的好成績;與基準(zhǔn)算法SiamRPN[17]相比,本文算法的成功率提高了3.1個(gè)百分點(diǎn),準(zhǔn)確度提高了2.5個(gè)百分點(diǎn),提升較為明顯。

圖5為本文算法與經(jīng)典的2個(gè)目標(biāo)跟蹤算法 SiamRPN[17]和 SiamFC[18]在 OTB100[9]數(shù)據(jù)集的 CliBar、Woman、DragonBaby、Coke、Jump和Matrix 6個(gè)視頻序列的部分視頻幀的跟蹤效果。從圖5可以看出:本文提出的算法,無論是在定位,還是在尺度估計(jì)上,都明顯優(yōu)于其他2個(gè)跟蹤算法;特別是當(dāng)物體出現(xiàn)較快的位移(第1行的雜志和第3行的小孩)或者部分遮擋(第2行的行人和第4行的可樂瓶)時(shí),本文的跟蹤算法仍然可以保持良好的跟蹤性能。

圖 5 不同算法在 OTB100 上的跟蹤效果Fig. 5 Tracking effect of different tracking algorithms on OTB100

在VOT2016[10]數(shù)據(jù)集上做了測試,并且與最先進(jìn)的9個(gè)跟蹤算法做了比較。VOT2016公開數(shù)據(jù)集用于單目標(biāo)的短期跟蹤,其中包含60個(gè)視頻序列。采用Expected Average Overlap(EAO), Accuracy(A)和 Robustness(R)3個(gè)指標(biāo)進(jìn)行比較不同的跟蹤器,A、R結(jié)果如表1所示,EAO結(jié)果如圖6所示。

從表1和圖6可以看出:本文算法的EAO、A和R都處于第2名的位置(其中①,②和③分別代表第1、第2和第3名,EAO、A數(shù)值越高性能越好,R數(shù)值越低性能越好),EAO和A僅僅比第1名低了0.2和0.1個(gè)百分點(diǎn),魯棒性也只差0.4個(gè)百分點(diǎn);總體效果上,排名第1的DaSiamRPN[19]跟蹤算法,雖然在準(zhǔn)確度上取得了領(lǐng)先,但是由于其采用了全局搜索操作影響了跟蹤的速度,因而在速度方面低于本文算法。綜合以上考慮,本文的跟蹤算法取得了較為良好的效果。

VOT2019[11]是在VOT2018[20]的基礎(chǔ)上改進(jìn)的,替換了其中的部分序列,視頻總數(shù)依然是60個(gè),仍然采取EAO、A和R3個(gè)指標(biāo)進(jìn)行不同跟蹤算法的比較。A、B比較結(jié)果如表2所示,EAO結(jié)果如圖7所示。

表 1 不同跟蹤算法在 VOT2016 上的結(jié)果Tab. 1 Results of different tracking algorithms on VOT2016

圖 6 不同跟蹤算法在 VOT2016 的 EAOFig. 6 EAO of different tracking algorithms in VOT2016

表 2 不同跟蹤算法在 VOT2019 上的結(jié)果Tab. 2 Results of different tracking algorithms on VOT2019

圖 7 不同跟蹤算法在 VOT2019 的 EAOFig. 7 EAO of different tracking algorithms in VOT2019

從表2和圖7可以看出:本文的EAO、A和R都處于第一名的位置(其中①,②和③分別代表第1,第2和第3名,EAO、A數(shù)值越高性能越好,R數(shù)值越低性能越好),EAO和A分別比第2名的算法高了4.1和6.9個(gè)百分點(diǎn),魯棒性也好了1.2個(gè)百分點(diǎn);總體效果上,比第2名的跟蹤算法優(yōu)秀很多,比經(jīng)典的跟蹤算法SiamRPNX也高出很多。

3 結(jié)束語

針對目標(biāo)跟蹤中物體長寬比比較懸殊和有干擾信息的問題,分別加入了條形池化模塊和高效通道注意力模塊,使得該問題得到了較好的解決,而且都是輕量級模塊,對網(wǎng)絡(luò)的推理速度影響可以忽略不計(jì),且很容易訓(xùn)練,后續(xù)的實(shí)驗(yàn)也充分證明了,這樣的改進(jìn),對于原本跟蹤算法提升精度較為明顯。

猜你喜歡
錨點(diǎn)池化分支
面向神經(jīng)網(wǎng)絡(luò)池化層的靈活高效硬件設(shè)計(jì)
基于Sobel算子的池化算法設(shè)計(jì)
卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
基于NR覆蓋的NSA錨點(diǎn)優(yōu)選策略研究
5G手機(jī)無法在室分NSA站點(diǎn)駐留案例分析
5G NSA錨點(diǎn)的選擇策略
5G NSA組網(wǎng)下錨點(diǎn)站的選擇策略優(yōu)化
巧分支與枝
基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識(shí)別研究
一類擬齊次多項(xiàng)式中心的極限環(huán)分支