基于稀疏表示的目標(biāo)追蹤方法

2018-01-18 19:33李俊瑤

科技視界 2017年29期

李俊瑤

【摘要】目標(biāo)追蹤作為圖像理解重要的一部分，在公安工作中有著廣泛的應(yīng)用。但是對(duì)于一些復(fù)雜場(chǎng)景，車(chē)輛、行人眾多、背景多樣，傳統(tǒng)的目標(biāo)追蹤算法難以達(dá)到理想效果。本文概述了稀疏表示基本概念和稀疏編碼的方法，對(duì)稀疏表示方法在目標(biāo)追蹤領(lǐng)域中重要研究進(jìn)展進(jìn)行總結(jié)歸納，并展望了稀疏表示方法在目標(biāo)追蹤領(lǐng)域的發(fā)展方向。

【關(guān)鍵詞】目標(biāo)識(shí)別；目標(biāo)追蹤；稀疏表示；稀疏編碼

中圖分類(lèi)號(hào)： TP391.41 文獻(xiàn)標(biāo)識(shí)碼： A 文章編號(hào)： 2095-2457（2017）29-0030-002

【Abstract】Target tracking， as an important part of image understanding， has a wide range of applications in public security work. However， for some complex scenes， vehicles， pedestrians， diverse backgrounds， the traditional target tracking algorithm is difficult to achieve the desired results. This paper summarizes the basic concepts of sparse representation and sparse coding methods， summarizes the important research progress of sparse representation methods in the field of object tracking and prospects the development direction of sparse representation methods in the field of object tracking.

【Key words】Target recognition； Target tracking； Sparse representation； Sparse coding

0 引言

隨著信息化、大數(shù)據(jù)的不斷深入應(yīng)用，對(duì)可疑人員、車(chē)輛等展開(kāi)目標(biāo)追蹤已經(jīng)成為偵查工作的一大重要組成部分。傳統(tǒng)的圖偵工作主要依靠人工識(shí)別實(shí)現(xiàn)追蹤，耗費(fèi)大量人力和時(shí)間，效率較低。

典型的目標(biāo)追蹤系統(tǒng)主要包括三個(gè)部分：（1）目標(biāo)外觀模型——計(jì)算目標(biāo)在特定位置上的相似度；（2）目標(biāo)運(yùn)動(dòng)模型——預(yù)估被追蹤目標(biāo)在整個(gè)視頻序列中的運(yùn)動(dòng)狀態(tài)；（3）追蹤搜索策略——搜索當(dāng)前視頻幀中最相似目標(biāo)的位置。其中目標(biāo)外觀模型作為目標(biāo)追蹤的基礎(chǔ)和關(guān)鍵，其表現(xiàn)力和健壯程度對(duì)目標(biāo)追蹤的準(zhǔn)確性和穩(wěn)定性有著決定性的作用。

圖像的稀疏表示與人類(lèi)視覺(jué)系統(tǒng)的描述方式很類(lèi)似[1]，即捕捉圖像的結(jié)構(gòu)特征，可以實(shí)現(xiàn)圖像的有效表示。而在實(shí)際應(yīng)用中，由于成像機(jī)理的不同，目標(biāo)表現(xiàn)出不同的特征，需要將稀疏表示與具體的應(yīng)用領(lǐng)域相結(jié)合，彌補(bǔ)傳統(tǒng)目標(biāo)檢驗(yàn)算法的缺點(diǎn)。本文簡(jiǎn)要介紹了稀疏表示的概念，對(duì)其在目標(biāo)追蹤中的應(yīng)用進(jìn)行總結(jié)梳理，并展望其在公安工作中的發(fā)展方向。

1 稀疏表示

1.1 稀疏表示的基本概念

人類(lèi)視覺(jué)系統(tǒng)的神經(jīng)元細(xì)胞在接收自然圖像時(shí)，神經(jīng)元會(huì)提取圖像的結(jié)構(gòu)特征，即采用稀疏編碼原則[2]。目前，圖像的稀疏表示研究主要包括兩大方面：單基表示和多基表示。

1.1.1 單基表示

圖像的單基稀疏表示基于多尺度分析方法，該理論認(rèn)為圖像具有非平穩(wěn)和非高斯的特性，無(wú)法用線性算法進(jìn)行準(zhǔn)確處理，應(yīng)對(duì)圖像的幾何結(jié)構(gòu)（包括邊緣、紋理等）進(jìn)行建模，主要包括：脊波和曲波等。該方法產(chǎn)生的圖像模型結(jié)構(gòu)較為簡(jiǎn)單，對(duì)于大場(chǎng)景或復(fù)雜目標(biāo)無(wú)法精確的進(jìn)行描述，因此，各位學(xué)者提出了稀疏的多基表示。

1.1.2 多基表示

圖像的多基稀疏表示基于Mallat和Zhang于1993年提出的過(guò)完備字典理論[3]，通過(guò)學(xué)習(xí)獲取信號(hào)完備的字典集，將信號(hào)樣本表示成基向量與稀疏權(quán)向量的線性組合，利用信號(hào)本身的特點(diǎn)自適應(yīng)地選擇可以對(duì)信號(hào)進(jìn)行稀疏表示的冗余基。稀疏表示的基礎(chǔ)是稀疏編碼，即利用過(guò)完備基向量中的少數(shù)基向量對(duì)樣本數(shù)據(jù)進(jìn)行線性表示：

1.2 稀疏編碼

稀疏編碼是在給定如圖1所示，信號(hào)x∈Rn和字典D下計(jì)算稀疏權(quán)矩陣α的過(guò)程，針對(duì)稀疏編碼和字典學(xué)習(xí)，常用的稀疏編碼算法有OMP算法、特征符號(hào)搜索算法[6]等；而相關(guān)的字典學(xué)習(xí)方法有KSVD算法[7]、在線字典學(xué)習(xí)算法（SPAMS）[8]等，分為貪婪法和松弛法。

1.2.1 貪婪法

貪婪法針對(duì)公式1進(jìn)行求解，通過(guò)迭代，利用字典中的原子，對(duì)信號(hào)和字典進(jìn)行內(nèi)積計(jì)算選擇最匹配的，作用對(duì)信號(hào)（圖像）的表示。其中匹配追蹤在計(jì)算方面簡(jiǎn)單有效，但是容易出現(xiàn)發(fā)散?？梢允褂米钚《朔▉?lái)獲取原子的表示系數(shù)，因此，對(duì)于信號(hào)x∈Rn和字典D={d1，d2，…，dk}，r0=y，k=1，可以通過(guò)以下步驟來(lái)實(shí)現(xiàn)正交匹配追蹤：

1.2.2 松弛法

松弛法就是使用經(jīng)典的連續(xù)優(yōu)化方法[9]實(shí)現(xiàn)逼近效果。其中，基追蹤方法[10]就是說(shuō)公式2可以采用凸優(yōu)化方法進(jìn)行求解，加入噪聲、松弛等式其他條件，公式2的求解可轉(zhuǎn)為求解以下方程[11]：

這里ε是用于信號(hào)重構(gòu)的誤差項(xiàng)，而公式3可以作為圖像稀疏表示的標(biāo)準(zhǔn)數(shù)學(xué)模型，可以通過(guò)內(nèi)點(diǎn)方法[12]（Interior Point methods）、最小角度回歸方法[13]（Least Angle Regression， LARS）、迭代收縮法[14]（Iterative Shrinkage）。endprint

2 基于稀疏表示的目標(biāo)追蹤

2.1 基于稀疏表示的目標(biāo)追蹤一般步驟

目標(biāo)追蹤算法包括：目標(biāo)識(shí)別、運(yùn)動(dòng)模型建立、目標(biāo)搜索。稀疏表示作為信息結(jié)構(gòu)化表示方法，靈活設(shè)計(jì)字典中的參數(shù)，突出目標(biāo)特征，與背景區(qū)分性更強(qiáng)，其流程如圖2所示。

2.2 基于稀疏表示的目標(biāo)特征學(xué)習(xí)

對(duì)于目標(biāo)追蹤而言，對(duì)目標(biāo)進(jìn)行魯棒性和可區(qū)別性的特征描述是關(guān)鍵所在，而對(duì)于圖像級(jí)特征在設(shè)計(jì)時(shí)需要考慮：

（1）對(duì)于不同類(lèi)別的情況，有相當(dāng)?shù)呐袆e性用以區(qū)別不同類(lèi)別內(nèi)容；

（2）對(duì)于同一類(lèi)別的情況，有相當(dāng)?shù)聂敯粜杂靡詤^(qū)別同一類(lèi)別的不同展現(xiàn)形式。

目前用的較多的是利用SIFT[15]等底層局部特征建立詞包模型（BOW），最早由Joachims等[16]在1997年提出，當(dāng)時(shí)主要是在文本分類(lèi)中用于描述相關(guān)文本特征，而最早將該特征應(yīng)用于視覺(jué)領(lǐng)域的是Sivic等[17]和Csurka等[18]。使用BOW模型進(jìn)行圖像結(jié)構(gòu)化表示可以分為三個(gè)步驟：圖像塊特征的獲取與描述，字典生成以及圖像的直方圖表示，如圖3所示。

第一步，通過(guò)稠密采樣等特征提取方式獲得圖像中可以表示圖像特征的圖像塊，利用SIFT、HOG等對(duì)每個(gè)圖像塊的特征進(jìn)行區(qū)別化表示；第二步，對(duì)上一步得到的訓(xùn)練集合中的圖像塊特征進(jìn)行聚類(lèi)，并將聚類(lèi)得到的全體類(lèi)中瓜視為圖像特征的“字典”（codebook）；第三步，計(jì)算特征向量與字典中所有類(lèi)中心的距離，確定特征向量所屬碼字的類(lèi)別，這樣一幅圖像就可以通過(guò)碼字出現(xiàn)頻率為單元的直方圖進(jìn)行標(biāo)識(shí)，也就是詞包。通過(guò)這樣的方式，局部特征變成整體特征，可以更好的面對(duì)對(duì)尺度、旋轉(zhuǎn)等變化。

目前，BOW只使用了圖像中的關(guān)鍵點(diǎn)、邊緣特征等底層信息，無(wú)法對(duì)圖像中的場(chǎng)景、對(duì)象等高層信息進(jìn)行表示，導(dǎo)致獲取的特征信息不夠完整；另外，對(duì)于算法的具體應(yīng)用和具體數(shù)據(jù)情況，SIFT的構(gòu)造缺乏適應(yīng)性，人工干預(yù)較多，提取的特征也有不確定性，追蹤效果差。

3 總結(jié)與展望

目標(biāo)追蹤是一個(gè)內(nèi)容繁多的系統(tǒng)工程，稀疏表示已經(jīng)應(yīng)用于目標(biāo)追蹤里的很多方面，效果較好，雖然體現(xiàn)了一定優(yōu)勢(shì)，但其可利用空間還有待挖掘，針對(duì)公安的特定目標(biāo)研究仍然很少。未來(lái)可以主要關(guān)注一下幾個(gè)方面：

3.1 構(gòu)建魯棒的目標(biāo)識(shí)別模型

為實(shí)現(xiàn)良好的目標(biāo)識(shí)別性能，需要構(gòu)建穩(wěn)健的目標(biāo)識(shí)別模型。因此，如何對(duì)目標(biāo)進(jìn)行結(jié)構(gòu)化的稀疏表示是將來(lái)的重要研究方向。在實(shí)際應(yīng)用中，使用者還需要對(duì)基于稀疏表示的目標(biāo)識(shí)別追蹤模型進(jìn)行參數(shù)設(shè)置，而這些參數(shù)的調(diào)整和設(shè)置還是主要依靠使用者的經(jīng)驗(yàn)。因此，利用識(shí)別追蹤模型從自動(dòng)進(jìn)行參數(shù)自適應(yīng)調(diào)整還需要展開(kāi)進(jìn)一步的研究。

3.2 算法實(shí)時(shí)性

基于稀疏表示的目標(biāo)追蹤算法相較于傳統(tǒng)算法，其準(zhǔn)確性、性能明顯提高，但是運(yùn)算時(shí)間也較長(zhǎng)，是稀疏表示在實(shí)際應(yīng)用中的一個(gè)瓶頸，需要對(duì)算法進(jìn)行優(yōu)化，進(jìn)一步對(duì)計(jì)算速度和效率進(jìn)行優(yōu)化，尤其是復(fù)雜場(chǎng)景，數(shù)據(jù)量更大，更需要對(duì)算法進(jìn)行優(yōu)化已實(shí)現(xiàn)更為高效的運(yùn)算。

3.3 目標(biāo)穩(wěn)健特征學(xué)習(xí)

目標(biāo)特征的優(yōu)良程度對(duì)目標(biāo)追蹤的準(zhǔn)確性起著重要作用，其不變性和可區(qū)分性的設(shè)計(jì)也很難達(dá)到完美，需要進(jìn)一步對(duì)利用稀疏表示方法，從圖像中獲取底層、中層及高層特征，使得特征描述更為準(zhǔn)確；另外，可以結(jié)合目前更先進(jìn)的深度學(xué)習(xí)算法，提取更為本質(zhì)的目標(biāo)特征，改進(jìn)算法效果。

【參考文獻(xiàn)】

[1]Vinje W E，Gallant J L. Sparse coding and decorrelation in primary visual cortex during natural vision[J].Science，2000，287：1273-1276.

[2]Serre T，Wolf L. Bileschi S，et al. Robust object recognition with cortex-like mechanisms[J].IEEE Transactions on Pattern Analysis and Machine Intelligence， 2007，29（3）：411-426.

[3]Mallat S G，Zhang Z. Matching pursuits with time-frequency dictionaries[J].IEEE Transactions on Signal Processing，1993，41（12）：3397-3415.

[4]Donoho D L， Elad M. Optimally sparse representation in general（nonorthogonal）dictionaries via 1 minimization[J].Proceedings of the National Academy of Sciences， 2003，100（5）：2197-2202.

[5]B.K.Natarajan， Sparse approximate solutions to linear systems[J].SIAM Journal on Computing，1995，227-234.

[6]Lee H，Battle A， Raina R，et al. Efficient sparse coding algorithms[A].Advances in neural information processing systems（NIPS）[C].MIT Press，2007.801-808.

[7]Aharon M， Elad M，Bruckstein A.The K-SVD： An algorithm for designing of over complete dictionaries for sparse representation[J]. IEEE Transactions on Signal Processing，2006，54（11）：4311-4322.endprint

[8]Mairal J，Bach F，Ponce J，et al. Online learning for matrix factorization and sparse coding[J].The Journal of Machine Learning Research， 2010， 11：19-60.

[9]M.Elad， Sparse and Redundant Representation： From Theory to Applications in Signal and Image Processing [M].Springer， New-York， 2010

[10]S.S.Chen，D.L. Donoho， and M.A.Ssunders， Atomic decomposition by basis pursuit[J].SIAM Journal on Scientific Computing， 1998，20（1）：33-61.

[11]Candes E J， Tao T. Decoding by linear programming[J]. IEEE Transactions on Information Theory， 2005， 51 （12）： 4203-4215.

[12]S.J.Kim，K.Koh， M.Lusig，S.Boyd，and D.Gorinevsky，A method for largescale，1-regularized least squares proble- ms with applications in signal processing and statistics[J].IEEE J.Selected Topics Signal Processing， 2007，1（4）：606-617

[13]B. Efron，T. Hastic，I.M.Johnstone，and R. Tibshirani，Least angle regression[J]. The Annals of Statistics，2004，32 （2）：407-499

[14]M.Elad， M.Zibulevsky， Iterative shrinkage algorithms and their acceleration for L1-L2 signal and image processing applications[J].IEEE Signal Processing Magazine，2010，27（3）：78-88.

[15]Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision， 2004， 60（2）：91-110

[16]Joachims T. A probabilistic analysis of the rocchio algorithm with TFIDF for text categorization. Proceedings of the 14th International Conference on Machine Learning（ICML）， San Francisco， CA， USA： Morgan Kaufmann Publishers Inc，1997， 143-151.

[17]Sivic J， Zisserman A. Video Google： a text retrieval approach to object matching in videos. Proceedings of 2003 Ninth IEEE International Conference on Computer Vision（ICCV）. IEEE.2003.1470-1477

[18]Csurka G， Dance C， Fan L，et al.Visual categorization with bags of keypoints. Proceedings of Workshop on Statistical Learning in Computer Vision， ECCV， volume 1.Prague， 2004. 1-22.endprint

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于稀疏表示的目標(biāo)追蹤方法