国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

遞歸神經(jīng)網(wǎng)絡(luò)多目標(biāo)跟蹤技術(shù)

2017-11-20 09:12段龍云辛婷婷
電腦知識與技術(shù) 2017年26期
關(guān)鍵詞:計算機視覺

段龍云+辛婷婷

摘要:多目標(biāo)跟蹤是計算機視覺領(lǐng)域的熱點問題之一。多目標(biāo)跟蹤技術(shù)通過對特定目標(biāo)特征的分析,獲取目標(biāo)在視頻序列中的位置與區(qū)域變化,為后續(xù)數(shù)據(jù)分析、模式識別等應(yīng)用提供便利。深度學(xué)習(xí)在視覺領(lǐng)域表現(xiàn)出了強大的能力,而基于典型的卷積神經(jīng)網(wǎng)絡(luò)(CNN)在視頻跟蹤領(lǐng)域因為卷積神經(jīng)網(wǎng)絡(luò)是基于空間深度的神經(jīng)網(wǎng)絡(luò),對于處理具有時序信息的視頻多目標(biāo)跟蹤困難重重,近年,因為遞歸神經(jīng)網(wǎng)絡(luò)(RNN)尤其是帶有門結(jié)構(gòu)的長段時間記憶網(wǎng)絡(luò)(LSTM)在時序任務(wù)上顯示出了突出的性能。不少研究者開始探索如何應(yīng)用RNN來解決現(xiàn)有跟蹤任務(wù)中存在的問題。該文介紹了RNN目標(biāo)跟蹤技術(shù)的研究背景,該領(lǐng)域的主要研究內(nèi)容及最新研究進展,分析了近期提出幾種較為著名的RNN目標(biāo)跟蹤算法,總結(jié)其優(yōu)缺點并展望RNN目標(biāo)跟蹤技術(shù)未來的發(fā)展。

關(guān)鍵詞:多目標(biāo)跟蹤;遞歸神經(jīng)網(wǎng)絡(luò);計算機視覺;RNN目標(biāo)跟蹤算法

中圖分類號:TP37 文獻標(biāo)識碼:A 文章編號:1009-3044(2017)26-0176-02

視頻序列中,感興趣目標(biāo)運動軌跡及所占區(qū)域是非常重要的視覺信息,對于行為識別、三維重建、軍事偵察、醫(yī)療輔助[1]等方面的計算機視覺應(yīng)用而言,視頻目標(biāo)跟蹤是必不可少的步驟。而在無約束環(huán)境中跟蹤多個目標(biāo)是非常具有挑戰(zhàn)性的。即使經(jīng)過幾十年的研究,仍然遠遠沒有達到準(zhǔn)確的定位。其任務(wù)是定位視頻序列中的所有感興趣目標(biāo),并隨時保持目標(biāo)的定位。傳統(tǒng)多目標(biāo)跟蹤算法主要有兩個框架:一是先檢測后將檢測數(shù)據(jù)聯(lián)合[2];二是基于模板學(xué)習(xí)訓(xùn)練與檢測跟蹤[3]。

隨著深度學(xué)習(xí)的興起,近年來因為RNN尤其是帶有門結(jié)構(gòu)的LSTM等在時序任務(wù)上顯示出了突出的性能。不少研究者開始探索如何應(yīng)用RNN來解決現(xiàn)有跟蹤任務(wù)中存在的問題。本文將著重介紹兩種利用深度學(xué)習(xí)中典型的遞歸神經(jīng)網(wǎng)絡(luò)在多目標(biāo)跟蹤領(lǐng)域的探索性方法。它們分別是基于傳統(tǒng)多目標(biāo)跟蹤算法的第一類框架和第二類框架。

第一類框架下的遞歸神經(jīng)網(wǎng)絡(luò)多目標(biāo)跟蹤,稱為遞歸神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)聯(lián)合多目標(biāo)跟蹤,例如文獻[4]的方法,對于一個面臨離散和連續(xù)變量,輸入和輸出未知基數(shù)以及視頻序列的長度可變。在這方面的一個有趣的工作是Ondrúska和Posner(2016)最近的工作,它將深層的神經(jīng)網(wǎng)絡(luò)引入狀態(tài)估計任務(wù)。通過第一類框架下的遞歸神經(jīng)網(wǎng)絡(luò)多目標(biāo)跟蹤,實現(xiàn)了現(xiàn)實情況下的多個目標(biāo)的在線端到端模型學(xué)習(xí)的跟蹤。

第二類框架下的遞歸神經(jīng)網(wǎng)絡(luò)多目標(biāo)跟蹤,稱為遞歸神經(jīng)網(wǎng)絡(luò)相關(guān)性檢測多目標(biāo)跟蹤[5](RTT)。為了發(fā)現(xiàn)可靠的組件,RTT采用多方向循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)對四個不同角度的所有部分進行空間編碼。多向RNN為強大的跟蹤對象提供了以下優(yōu)點:一是循環(huán)遞歸模型可以學(xué)習(xí)各部分之間的長距離上下文相關(guān)性,并進一步產(chǎn)生與零件相關(guān)的更準(zhǔn)確的檢測置信圖;二是從多個方向編碼可以顯著減輕在各個方向發(fā)生的遮擋的負面影響;三是目標(biāo)的生成表示在某種程度上是平移不變的,因為空間網(wǎng)絡(luò)在局部部分上循環(huán)執(zhí)行;四是與具有復(fù)雜結(jié)構(gòu)的圖形模型相比,多向RNN非常簡單和容易實現(xiàn)。

1 遞歸神經(jīng)網(wǎng)絡(luò)(RNN)與長段時間記憶網(wǎng)絡(luò)(LSTM)

1.1 遞歸神經(jīng)網(wǎng)絡(luò)(RNN)

RNN可以指代兩種神經(jīng)網(wǎng)絡(luò),遞歸神經(jīng)網(wǎng)絡(luò)以及循環(huán)神經(jīng)網(wǎng)絡(luò),遞歸神經(jīng)網(wǎng)絡(luò)是為了解決日?,F(xiàn)象中一些遞歸結(jié)構(gòu)的存在而特別設(shè)計的網(wǎng)絡(luò),比如在圖像處理中一個表示房子的圖片中可以分為若干塊小的零件圖片,如窗戶、門,但是這些代表窗戶的圖片也可能是飛機甚至是房子的一部分;比如在自然語言處理中出現(xiàn)的名詞帶的從句中又出現(xiàn)名詞的情況。因此,遞歸神經(jīng)網(wǎng)絡(luò)是一種對網(wǎng)絡(luò)結(jié)構(gòu)的重復(fù),重復(fù)的網(wǎng)絡(luò)權(quán)值構(gòu)成一個樹狀結(jié)構(gòu)。而循環(huán)神經(jīng)網(wǎng)絡(luò)則更偏重于時序上的處理,因此是一個鏈?zhǔn)降倪B接。如圖1所示。

如圖1,在a的基礎(chǔ)上加上b在時序上循環(huán)結(jié)構(gòu)構(gòu)成循環(huán)神經(jīng)網(wǎng)絡(luò)。

現(xiàn)在我們常說的遞歸神經(jīng)結(jié)構(gòu)網(wǎng)絡(luò)RNN也就是上圖中的循環(huán)神經(jīng)結(jié)構(gòu),其主要應(yīng)用是圖片分割與注釋,在自然語言處理中也有應(yīng)用。但如果上文間隔過遠,就有可能出現(xiàn)難以聯(lián)想的情況。例如:“我在法國成長……此處省略100個字……我的法語說得很流利。”中要利用段落最前面的“法國”對段落最后的“法語”進行預(yù)測,因為提示信息“法國”距離“法語”間隔過遠,RNN處理起來就比較困難。所以有人提出利用長段時間記憶網(wǎng)絡(luò)(LSTM)來解決這個問題。

1.2 長段時間記憶網(wǎng)絡(luò)(LSTM)

LSTM的改進結(jié)構(gòu)如圖2中c中與RNN的不同主要是存在控制存儲狀態(tài)的結(jié)構(gòu),其結(jié)構(gòu)構(gòu)成與作用為:先將這個重復(fù)結(jié)構(gòu)叫做一個單元,把該單元的一次計算作為一拍,那么這個單元存在三組重要的變量:單元輸入、單元輸出以及單元狀態(tài),從直觀來說,LSTM的作用是:

1) 根據(jù)上一拍單元的輸出ht-1以及本拍的輸入xt,計算出需要單元狀態(tài)中需要遺忘的元素,這種控制是通過門(Gate, σ)實現(xiàn)的;

2) 根據(jù)上一拍輸出ht-1與本拍輸入xt選擇需要在單元狀態(tài)中新記憶的狀態(tài);

3) 根據(jù)單元狀態(tài)和本拍輸入,輸出ht。

通過這樣的操作,該單元就將需要記憶的信息通過單元狀態(tài)的形式記錄下來并且在神經(jīng)元中進行傳遞,而每一次計算,神經(jīng)元都可以根據(jù)當(dāng)前的輸入對單元狀態(tài)進行修改。

2 遞歸神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)聯(lián)合多目標(biāo)跟蹤

深度學(xué)習(xí)在多目標(biāo)跟蹤方面主要的方法如下:一是受貝葉斯濾波思想的啟發(fā),給出一種RNN網(wǎng)絡(luò),能夠執(zhí)行多目標(biāo)的跟蹤任務(wù),這些任務(wù)包括預(yù)測,數(shù)據(jù)關(guān)聯(lián),狀態(tài)更新以及用圖3結(jié)構(gòu)來判斷目標(biāo)的出現(xiàn)和消失。用RNN進行數(shù)據(jù)聯(lián)合多目標(biāo)跟蹤方法的優(yōu)點:非模型,無需學(xué)習(xí)一些先驗知識(目標(biāo)動力學(xué)、雜波分布)。因此,它可以捕獲線性(卡爾曼濾波器),非線性(比較粒子濾波器)和高階依賴性;二是可以從數(shù)據(jù)中完全學(xué)到這樣的一個模型:該模型是為包含目標(biāo)的出現(xiàn)和消失的數(shù)據(jù)關(guān)聯(lián)的組合問題而誕生的。利用RNN可以用來預(yù)測具有固定大小的輸入和輸出向量的序列,也可以推測具有不確定基數(shù)的無序集合;三是提出一種從生成模型中采樣以產(chǎn)生任意數(shù)量的方法;四是在模擬和實際數(shù)據(jù)上采用定性和定量的方式,都可以得到很好的結(jié)果。如圖3,遞歸神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)聯(lián)合多目標(biāo)跟蹤方法框架把問題分成兩個模塊:1)狀態(tài)預(yù)測和更新以及跟蹤管理;2)數(shù)據(jù)聯(lián)合。endprint

3 遞歸神經(jīng)網(wǎng)絡(luò)相關(guān)性檢測多目標(biāo)跟蹤(RTT)

RNN的框架與過程:

第二類框架下的RNN目標(biāo)跟蹤方法主要是利用多方向遞歸神經(jīng)網(wǎng)絡(luò)來建模和挖掘?qū)φw跟蹤有用的可靠目標(biāo)部分,實際上是二維平面上的RNN建模,最終解決預(yù)測誤差累積和傳播導(dǎo)致的跟蹤漂移問題。其本身也是對基于部分的跟蹤方法和相關(guān)濾波方法的改進和探索。

(1) 首先對每一幀的候選區(qū)域進行網(wǎng)狀分塊,對每個分塊提取HOG特征,最終相連獲得基于塊的特征:[X∈Rh×w×d];(2)得到分塊特征以后,RTT利用前5幀訓(xùn)練多方向RNN來學(xué)習(xí)分塊之間大范圍的空間關(guān)聯(lián)。通過在4個方向上的前向推進,RNN計算出每個分塊的置信度,最終每個塊的預(yù)測值組成了整個候選區(qū)域的置信圖。受益于RNN的循環(huán)結(jié)構(gòu),每個分塊的輸出值都受到其他關(guān)聯(lián)分塊的影響,相比于僅僅考慮當(dāng)前塊的準(zhǔn)確度更高,避免單個方向上遮擋等的影響,增加可靠目標(biāo)部分在整體置信圖中的影響。(3)由RNN得出置信圖之后,RTT執(zhí)行了另外一個過程。即訓(xùn)練相關(guān)濾波器來獲得最終的跟蹤結(jié)果。值得注意的是,在訓(xùn)練過程中RNN的置信圖對不同塊的濾波器做了加權(quán),達到抑制背景中的相似物體,增強可靠部分的效果。(4) RTT提出了一個判斷當(dāng)前跟蹤物體是否被遮擋的策略,用其判斷是否更新。即計算目標(biāo)區(qū)域的置信度和,并與歷史置信度和的移動平均數(shù)做一個對比,低于一定比例,則認(rèn)為受到遮擋,停止模型更新,防止引入噪聲。

4 結(jié)論

視頻目標(biāo)跟蹤技術(shù)是計算機視覺領(lǐng)域內(nèi)研究的熱點問題,由于目標(biāo)運動軌跡及目標(biāo)區(qū)域提供了重要的信息,因此視頻目標(biāo)跟蹤技術(shù)是非常有研究價值的。對于第一類框架下的RNN多目標(biāo)跟蹤其通過設(shè)置神經(jīng)網(wǎng)絡(luò),解決了在傳統(tǒng)多目標(biāo)跟蹤過程中數(shù)據(jù)關(guān)聯(lián)和軌跡估計的難點問題。對于第二類框架下的RNN多目標(biāo)跟蹤方法,RTT受制于參數(shù)數(shù)目的影響,只選用了參數(shù)較少的普通RNN結(jié)構(gòu)。

總的來說,基于RNN的目標(biāo)跟蹤算法還有很大提升空間。此外,目前已有的深度學(xué)習(xí)目標(biāo)跟蹤方法還很難滿足實時性的要求,如何設(shè)計網(wǎng)絡(luò)和跟蹤流程達到速度和效果的提升,還有很大的研究空間。

參考文獻:

[1] Gu J, Ding X, Wang S, et al. Full body tracking-based human action recognition[C]. International Conference on Pattern Recognition. IEEE, 2009.

[2] Adam A, Rivlin E, Shimshoni I. Robust Fragments-based Tracking using the Integral Histogram[C] Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on. IEEE, 2006.

[3] Kwon J, Lee K M. Tracking of a non-rigid object via patch-based dynamic appearance modeling and adaptive Basin Hopping Monte Carlo sampling[C].Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. IEEE, 2009.

[4] Milan A, Rezatofighi S H, Dick A, et al. Online Multi-Target Tracking Using Recurrent Neural Networks[J]. AAAI,2016,10.

[5] Ondruska P, Posner I. Deep Tracking: Seeing Beyond Seeing Using Recurrent Neural Networks[J]. RSS Workshop on Limits and Potentials of Deep Learning in Robotics,2016,5.endprint

猜你喜歡
計算機視覺
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法
雙目攝像頭在識別物體大小方面的應(yīng)用
危險氣體罐車液位計算機視覺監(jiān)控識別報警系統(tǒng)設(shè)計
榕江县| 屏东县| 峨眉山市| 新野县| 阿拉善左旗| 周宁县| 陇西县| 玉林市| 阜新市| 咸宁市| 海宁市| 河曲县| 高州市| 靖州| 福鼎市| 威信县| 涞源县| 旌德县| 通城县| 新丰县| 宜川县| 凤冈县| 黑水县| 丹江口市| 荥经县| 丹棱县| 吉首市| 仙游县| 阿克苏市| 马山县| 扎赉特旗| 定西市| 桑植县| 清原| 安阳市| 出国| 湖北省| 通河县| 兰溪市| 莱芜市| 阳新县|