王曉芳,齊春
(1.西安交通大學(xué)電子與信息工程學(xué)院,710049,西安;2.齊魯工業(yè)大學(xué)(山東省科學(xué)院)電氣工程與自動化學(xué)院,250353,濟(jì)南)
行為識別即利用計(jì)算機(jī)自動提取視頻中的行為特征并判別行為類別,在視頻監(jiān)控、人機(jī)交互、虛擬現(xiàn)實(shí)等領(lǐng)域具有廣闊的應(yīng)用前景。稠密軌跡法[1]是近年來一種比較成功的行為識別方法,該方法通過提取視頻稠密采樣點(diǎn)的軌跡來獲取行為的長時(shí)段特征。然而,傳統(tǒng)的稠密軌跡法在提取軌跡時(shí)不能很好地區(qū)分行為區(qū)域和背景,對包含相機(jī)運(yùn)動的視頻,除行為區(qū)域之外背景區(qū)域也會產(chǎn)生大量的軌跡,這種背景軌跡和感興趣的行為關(guān)系不大,其存在限制了行為識別性能。
為了改進(jìn)傳統(tǒng)的稠密軌跡法,許多文獻(xiàn)提出只獲取行為區(qū)域內(nèi)的稠密軌跡用于描述行為特征,這類方法目前主要存在2種思路。鑒于背景軌跡通常由相機(jī)運(yùn)動產(chǎn)生,第一種思路先通過估計(jì)相機(jī)運(yùn)動校正視頻的光流,再利用校正后的光流消除背景軌跡[2-3]??紤]到行為區(qū)域通常比背景區(qū)域顯著,另一種思路先通過檢測視頻顯著性獲取行為區(qū)域,再提取行為區(qū)域內(nèi)軌跡[4-5],這種思路的關(guān)鍵在于顯著性檢測。文獻(xiàn)[4]將低秩矩陣恢復(fù)應(yīng)用于運(yùn)動信息檢測視頻的顯著性,但是不能解決行為區(qū)域內(nèi)部運(yùn)動一致性的問題;文獻(xiàn)[5]能夠確定視頻中的真實(shí)顯著圖,但依賴于觀察者的眼部運(yùn)動數(shù)據(jù);文獻(xiàn)[6]利用字典學(xué)習(xí)和稀疏編碼獲取視頻顯著性,但是沒有充分利用運(yùn)動信息;此外,現(xiàn)有文獻(xiàn)中也存在許多其他顯著性檢測方法[7-9],但大多不是面向行為區(qū)域獲取而設(shè)計(jì)。獲取視頻中行為區(qū)域的關(guān)鍵在于如何區(qū)分行為區(qū)域和背景,而不能只考慮一般意義上的顯著性。無論視頻是在靜態(tài)或者動態(tài)場景中獲取,運(yùn)動信息都是區(qū)分行為區(qū)域和背景的重要依據(jù)。對于包含相機(jī)運(yùn)動的視頻,從總體上看,其背景運(yùn)動的空域分布具有較高的一致性,而行為運(yùn)動的空域分布具有一定的不規(guī)則性,所以行為區(qū)域相對于背景通常具有較高的運(yùn)動顯著性,可以通過運(yùn)動顯著性檢測方法將其從背景中分離。然而,一些大的行為區(qū)域內(nèi)部也存在局部一致運(yùn)動,而有些背景區(qū)域也包含局部不規(guī)則運(yùn)動,此時(shí)一般的運(yùn)動顯著性檢測方法難以將它們很好地區(qū)分。
鑒于此,本文提出一種采用兩階段顯著性檢測獲取視頻中的行為區(qū)域的方法,并將其應(yīng)用于軌跡法行為識別。本文方法主要包括2個階段:第1階段,將低秩矩陣恢復(fù)算法[10]應(yīng)用于運(yùn)動信息計(jì)算子視頻內(nèi)每個塊的初始顯著性,并借此將子視頻所有塊劃分為候選前景集合和絕對背景集合;第2階段,利用絕對背景集合中所有塊的運(yùn)動向量構(gòu)建字典,通過稀疏表示算法[11]獲取候選前景集合中所有塊的細(xì)化顯著性。在此基礎(chǔ)上,對顯著性進(jìn)行閾值化得到二值顯著圖用于指示行為區(qū)域,最后將其融入稠密跟蹤過程以提取行為區(qū)域軌跡用于行為識別。與其他顯著性檢測方法相比,上述兩階段方法能夠更充分地考慮行為區(qū)域和背景區(qū)域的運(yùn)動特點(diǎn),從而以更高的對比度突出視頻中的行為區(qū)域。
設(shè)長度為T的視頻V=[I1,I2,…,IT],It表示第t幀,在時(shí)域?qū)分割成長度均為w的K個互不重疊的子視頻,即V=[V1,V2,…,VK],第k個子視頻為Vk=[I(k-1)w+1,I(k-1)w+2,…,Ikw]。在空域?qū)⒚總€子視頻劃分成M×N個大小相等且互不重疊的時(shí)空塊,劃分后的Vk可用一個3D分塊矩陣表示
(1)
式中:Pn為第n個時(shí)空塊,大小為s×s×w,其中s為空域大小,w為實(shí)域長度。下面以Vk為例,利用兩階段顯著性檢測方法獲取子視頻中的行為區(qū)域,其總體流程如圖1所示。
圖1 本文行為區(qū)域檢測流程
本文采用文獻(xiàn)[4]中的方法計(jì)算子視頻的初始顯著性。一般來說,由運(yùn)動相機(jī)拍攝的視頻,背景運(yùn)動空域分布具有一致性,相關(guān)性較強(qiáng),可以認(rèn)為處于一個低秩的子空間,行為運(yùn)動空運(yùn)分布具有隨意性,相關(guān)性較弱,可以看作稀疏誤差?;谏鲜鎏攸c(diǎn),通過低秩矩陣恢復(fù)算法將子視頻的運(yùn)動信息分解成低秩部分和稀疏誤差部分,利用后者計(jì)算視頻塊的初始顯著性,并據(jù)此劃分子視頻的候選前景和絕對背景。
為了檢測Vk的初始顯著性,需構(gòu)建其運(yùn)動矩陣。為此,先獲取每個塊的運(yùn)動向量,以塊Pn為例,先將其每一幀內(nèi)所有像素點(diǎn)的光流按照空域位置順序排列得到對應(yīng)幀的運(yùn)動向量,其內(nèi)第l幀的運(yùn)動向量為
(2)
X=[x1,x2,…,xMN]
(3)
通過求解如下低秩矩陣恢復(fù)優(yōu)化問題,可將X分解為一個低秩矩陣B和一個稀疏矩陣F
s.t.X=B+F
(4)
式中:λ是用于平衡低秩和稀疏的參數(shù),其值設(shè)置為λ=1.1/[max(2s2w,MN)]1/2。式(4)優(yōu)化問題可通過增廣拉格朗日乘子法(ALM)[12]求解。
按照這種方法,行為區(qū)域塊因包含行為運(yùn)動可以獲得較高的顯著性值,而背景塊因不包含行為運(yùn)動獲得較低的顯著性值。然而,對于一些大的行為區(qū)域,其內(nèi)部某些行為運(yùn)動因具有局部一致性被沉積到低秩矩陣B中,而對于一些背景區(qū)域,其內(nèi)部運(yùn)動因具有局部不規(guī)則性而被包含到稀疏矩陣F中,由此導(dǎo)致行為區(qū)域和背景的顯著性差異較小,所以利用初始顯著性很難將所有行為區(qū)域和背景很好地分離。這里通過選定一個較小的閾值Ts,將所有可能行為區(qū)域塊(顯著性大等于Ts)都劃分到一個候選前景集合Sf中,而將剩余絕對背景塊(顯著性小于Ts)劃分到一個絕對背景集合Sb中。
利用初始顯著性進(jìn)行集合劃分時(shí),由于Ts較小,一些背景塊也被劃分到集合Sf中。為了將Sf中真正的行為區(qū)域塊分離出來,需要計(jì)算其中的每一個塊的細(xì)化顯著性,以增加行為區(qū)域和背景的顯著性對比度。一般情況下,對于Sf中真正的行為區(qū)域塊,其運(yùn)動信息即使和鄰近塊具有相似性,但都明顯不同于絕對背景塊;對于Sf中的背景塊,其運(yùn)動信息即使含有一定的變化,也和絕對背景塊具有較高的相似性。基于此,本節(jié)利用Sb中所有塊的運(yùn)動向量構(gòu)建字典,對Sf中每一個塊的運(yùn)動向量進(jìn)行稀疏表示,再利用重構(gòu)誤差計(jì)算塊的細(xì)化顯著性。這樣,行為區(qū)域塊因?yàn)檩^難重構(gòu)而容易獲得較高的顯著性值;相反,背景塊因較易重構(gòu)而容易獲得較低的顯著性值。
為了計(jì)算Sf中每一個塊的細(xì)化顯著性,將Sb中所有塊的運(yùn)動向量按列堆疊,得到Vk的絕對背景運(yùn)動矩陣Xb,再將Xb作為字典,對Sf中的每個塊的運(yùn)動向量進(jìn)行稀疏表示。以Sf中第r個塊為例,可通過求解以下的優(yōu)化問題得到其運(yùn)動向量xfr的稀疏表示
(5)
式中:αr為稀疏表示系數(shù)向量。
考慮到背景塊一般與它的鄰近背景塊相關(guān)性更強(qiáng),為了使Sf中的背景塊獲得更低的重構(gòu)誤差,利用Sb中的每個塊和當(dāng)前被重構(gòu)塊的空域距離作為Xb中對應(yīng)原子的權(quán)重。Xb中第i個原子xbi的權(quán)重為
(6)
式中:cr和ci分別為當(dāng)前被重構(gòu)塊和Sb中第i個塊的中心;dist(cr,ci)為cr,ci之間的歸一化歐式距離;σ為調(diào)節(jié)參數(shù)。Xb中所有原子的權(quán)重組成一個權(quán)重向量wr,將其引入式(5),可以得到加權(quán)稀疏表示的目標(biāo)函數(shù)
(7)
利用文獻(xiàn)[13]中的優(yōu)化工具箱可以求解式(7)獲得稀疏表示系數(shù)向量αr,由此計(jì)算重構(gòu)誤差sr,將其作為當(dāng)前被重構(gòu)塊(Sf中第r個塊)的細(xì)化顯著性
sr=‖xfr-Xbαr‖2
(8)
重復(fù)上述過程,可以獲取候選前景集合Sf中所有塊的細(xì)化顯著性,將其和絕對背景集合Sb中所有塊的初始顯著性按照塊的空域位置進(jìn)行組合,可以得到子視頻Vk的顯著性矩陣Sk。Sk是一個塊級的顯著性矩陣,利用空域插值法將其調(diào)整為視頻幀的原始大小,即獲得Vk的像素級顯著性矩陣,再進(jìn)行閾值化可以得到Vk的二值顯著圖Mk。Mk中位置為(x,y)的元素mxy用于指示子視頻Vk任意一幀內(nèi)的點(diǎn)(x,y)是否屬于行為區(qū)域,如果mxy=1,屬于行為區(qū)域,否則屬于背景。
按照上述兩階段法可以計(jì)算視頻中所有子視頻的二值顯著圖,從而獲取視頻行為區(qū)域。
和文獻(xiàn)[5]類似,將檢測得到的二值顯著圖和稠密跟蹤相結(jié)合來提取行為區(qū)域軌跡。具體來說,在稠密采樣點(diǎn)跟蹤過程中,先通過光流獲取下一幀上的候選軌跡點(diǎn),再利用二值顯著圖判斷其是否處于行為區(qū)域,如果是則認(rèn)為是有效軌跡點(diǎn),否則判其無效并終止當(dāng)前軌跡。計(jì)算識別率時(shí),對每一條軌跡計(jì)算4種特征形狀(Shape)、梯度方向直方圖(HOG)、光流方向直方圖(HOF)和運(yùn)動邊界直方圖(MBH),并利用FV(Fisher vector)對每一種特征進(jìn)行獨(dú)立編碼以獲取視頻級行為特征,最后將4種視頻級行為特征輸入多核學(xué)習(xí)支撐向量機(jī)(SVM)判別行為類別。
為了驗(yàn)證本文方法的有效性,在Hollywood2[14]和YouTube[15]2個實(shí)際場景視頻數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)測試。Hollywood2共包含1 707個視頻,分為12個行為類別;YouTube共包含1 168個視頻,分為11個行為類別,每個類別的視頻又分為25組。檢測顯著性和行為區(qū)域時(shí),設(shè)置子視頻長度為5幀,塊的空域大小為5×5像素,第1、第2階段的顯著性閾值分別設(shè)置為10和50。提取行為區(qū)域軌跡時(shí),設(shè)置空域采樣間隔為5像素。計(jì)算行為識別率時(shí),對于Hollywood2數(shù)據(jù)集,將其中823個視頻用作訓(xùn)練樣本,剩余884個視頻用作測試樣本;對于YouTube數(shù)據(jù)集,每次利用一組作為測試樣本,其余各組用作訓(xùn)練樣本,最終識別率是25組識別率的均值。
圖2 采用本文方法進(jìn)行行為區(qū)域檢測的各階段結(jié)果
采用本文方法對2個數(shù)據(jù)集中5個行為視頻投籃、騎馬、走出汽車、奔跑和站起的行為區(qū)域進(jìn)行檢測,各階段的檢測結(jié)果如圖2所示。除最后一個外,其余視頻都包含了不同程度、不同類型的相機(jī)運(yùn)動。由圖2可以看出:第1階段檢測到的初始顯著性整體對比度較低,尤其是行為區(qū)域的中間部分,由于運(yùn)動存在局部一致性,導(dǎo)致其顯著性值更小;第2階段得到的細(xì)化顯著性能夠突出大部分行為區(qū)域(包括中間部分),較好地抑制了背景區(qū)域。以上結(jié)果表明,本文兩階段檢測方法能夠充分考慮行為區(qū)域和背景區(qū)域的運(yùn)動的特點(diǎn),無論視頻是否包含相機(jī)運(yùn)動,都能獲得較好的檢測結(jié)果。
為了進(jìn)一步驗(yàn)證本文行為區(qū)域檢測方法的優(yōu)越性,圖3將本文檢測結(jié)果和現(xiàn)有文獻(xiàn)最新方法進(jìn)行對比。其中,文獻(xiàn)[8]是一種基于超像素圖和時(shí)空生長的一般視頻顯著性檢測方法,文獻(xiàn)[16]采用一種基于加權(quán)稀疏表示的顯著性檢測方法獲取視頻中的行為區(qū)域。由圖3可以看出:本文方法檢測的顯著性具有較高的對比度,能夠明顯地區(qū)分行為區(qū)域和背景區(qū)域;文獻(xiàn)[8]方法的顯著性雖然也能夠突出視頻中的行為區(qū)域,但其對比度低于本文方法;文獻(xiàn)[16]方法的顯著性在行為區(qū)域內(nèi)部較低。
圖3 本文方法和文獻(xiàn)[8,16]方法的檢測結(jié)果對比
采用本文方法和傳統(tǒng)稠密跟蹤方法對5個視頻的行為區(qū)域軌跡進(jìn)行檢測,結(jié)果如圖4所示。由圖4可以看出:本文方法提取的軌跡不僅具有較好的連續(xù)性,而且絕大部分位于行為區(qū)域;當(dāng)視頻中存在相機(jī)運(yùn)動時(shí),傳統(tǒng)的稠密跟蹤方法不僅在行為區(qū)域,而且在背景區(qū)域也會產(chǎn)生大量軌跡。
圖4 本文方法和傳統(tǒng)稠密方法的行為區(qū)域軌跡比較
為了驗(yàn)證本文方法的識別性能,分別在2個數(shù)據(jù)集Hollywood2和YouTuber計(jì)算本文方法(SDT)、傳統(tǒng)稠密軌跡方法(DT)以及兩者視頻級特征級聯(lián)方法(SDT+DT)的總體識別結(jié)果,如表1所示。由表1可見,在2個數(shù)據(jù)集上,SDT的識別結(jié)果都明顯優(yōu)于DT,而二者級聯(lián)能夠進(jìn)一步提高識別率。圖5比較了本文方法(SDT)和傳統(tǒng)稠密軌跡跟蹤方法(DT)對2個數(shù)據(jù)集上的4個特征的識別結(jié)果。由圖5不難看出,在2個數(shù)據(jù)集上,SDT各個特征的識別率都優(yōu)于DT。
表1 采用SDT、DT方法及兩者特征級聯(lián)SDT+ DT方法在2個數(shù)據(jù)集上的總體識別結(jié)果
(a)Hollywood2
(b)YouTube圖5 本文方法和傳統(tǒng)稠密軌跡跟蹤方法對2個數(shù)據(jù)集上的4個特征的識別率比較
為了進(jìn)一步驗(yàn)證本文行為識別方法的有效性,將其和現(xiàn)有文獻(xiàn)中的稠密軌跡跟蹤法[1]及其他改進(jìn)方法[2,3,5,17-19]進(jìn)行比較。表2列出了本文與文獻(xiàn)[1-3,5,17]在Hollywood2數(shù)據(jù)集上的最優(yōu)識別結(jié)果,通過比較可以看出,本文方法的識別率雖然稍低于文獻(xiàn)[2]中的方法,但明顯高于其他文獻(xiàn)中的方法。本文方法與文獻(xiàn)[1,17-19]方法在YouTube數(shù)據(jù)集上的最優(yōu)識別結(jié)果如表3所示,顯然本文方法獲得了最高的識別率。
表2 本文方法與5種現(xiàn)有文獻(xiàn)方法在Hollywood2 數(shù)據(jù)集上的識別率比較
表3 本文方法與4種現(xiàn)有文獻(xiàn)方法在YouTube 數(shù)據(jù)集上的識別率比較
本文針對稠密軌跡行為識別法存在的問題,采用一種兩階段顯著性檢測方法獲取視頻中的行為區(qū)域,并提取行為區(qū)域軌跡用于行為識別。第1階段通過低秩矩陣恢復(fù)算法檢測初始顯著性,并據(jù)此將子視頻劃分為候選前景和絕對背景;第2階段利用稀疏表示算法獲取候選前景的細(xì)化顯著性。這種檢測方法能夠以更高的對比度突出行為區(qū)域,抑制背景區(qū)域。此外,以子視頻和塊為基礎(chǔ),考慮了顯著性時(shí)空相關(guān)性,增強(qiáng)了檢測到的行為區(qū)域的時(shí)空連續(xù)性,有利于提高軌跡的連續(xù)性和完整性。實(shí)驗(yàn)結(jié)果表明,無論視頻是否包含相機(jī)運(yùn)動,本文方法都能較好地檢測其中的行為區(qū)域,獲取的行為識別結(jié)果優(yōu)于傳統(tǒng)稠密軌跡法和大部分改進(jìn)方法。
[1] WANG H, KLASER A, SCHMID C, et al. Dense trajectories and motion boundary descriptors for action recognition [J]. International Journal of Computer Vision, 2013, 103: 60-79.
[2] WANG H, SCHMID C. Action recognition with improved trajectories [C]∥Proceedings of IEEE International Conference on Computer Vision. Piscataway, NJ, USA: IEEE, 2013: 3551-3558.
[3] JAIN M, JEGOU H, BOUTHEMY P. Better exploiting motion for better action recognition [C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2013: 2555-2562.
[4] WANG X, QI C. Saliency-based dense trajectories for action recognition using low-rank matrix decomposition [J]. Journal of Visual Communication & Image Representation, 2016, 47: 361-374.
[5] VIG E, DORR M, COX D. Space-variant descriptor sampling for action recognition based on saliency and eye movements [C]∥Proceedings of 12th European Conference on Computer Vision. Berlin, Germany: Springer, 2012: 84-97.
[6] SOMASUNDARAM G, CHERIAN A, MORELLAS V, et al. Action recognition using global spatio-temporal features derived from sparse representations [J]. Computer Vision and Image Understanding, 2014, 123(7): 1-13.
[7] 方志明, 崔榮一, 金璟璇. 基于生物視覺特征和視覺心理學(xué)的視頻顯著性檢測算法 [J]. 物理學(xué)報(bào), 2017, 66(10): 319-332. FANG Zhiming, CUI Rongyi, JIN Jingxuan. Video saliency detection algorithm based on biological visual feature and visual psychology theory [J]. Acta Physica Sinica, 2017, 66(10): 319-332.
[8] LIU Z, LI J, YE L, et al. Saliency detection for unconstrained videos using superpixel-level graph and spatiotemporal propagation [J]. IEEE Transactions on Circuits & Systems for Video Technology, 2017, 27(12): 2527-2542.
[9] 陳昶安, 吳曉峰, 王斌, 等. 復(fù)雜擾動背景下時(shí)空特征動態(tài)融合的視頻顯著性檢測 [J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2016, 28(5): 802-812. CHEN C A, WU X F, WANG B, et al. Video saliency detection using dynamic fusion of spatial-temporal features in complex background with disturbance [J]. Journal of Computer-Aided Design & Computer Graphics, 2016, 28(5): 802-812.
[10]CANDES E J, LI X, MA Y, et al. Robust principal component analysis? [J]. Journal of the ACM, 2011, 58(3): 11.
[11]WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210-227.
[12]LIN Z, CHEN M, MA Y. The augmented Lagrange multiplier method for exact recovery of corrupted low-rank matrices [EB/OL]. (2013-10-18) [2015-12-10]. https: ∥arxiv.org/pdf/1009.5055v3.pdf.
[13]MAIRAL J. SPAMS: a sparse modeling software, v2.5 [EB/OL]. (2014-05-25) [2015-12-26]. http: ∥spams-devel. gforge.inria. fr.
[14]MARSZALEK M, LAPTEV I, SCHMID C. Actions in context [C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2009: 2929-2936.
[15]LIU J, LUO J, SHAH M. Recognizing realistic actions from videos in the wild [C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2009: 1996-2003.
[16]WANG Xiaofang, QI Chun. LIN Fei. Combined trajectories for action recognition based on saliency detection and motion boundary [J]. Signal Processing Image Communication, 2017, 57: 91-102.
[17]CHO J, LEE M, CHANG H J, et al. Robust action recognition using local motion and group sparsity [J]. Pattern Recognition, 2014, 47(5): 1813-1825.
[18]PENG X, QIAO Y, PENG Q. Motion boundary based sampling and 3D co-occurrence descriptors for action recognition [J]. Image and Vision Computing, 2014, 32(9): 616-628.
[19]WU J, ZHANG Y, LIN W. Towards good practices for action video encoding [C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2014: 2577-2584.