吳驍倫,楊 敏
(南京郵電大學(xué) 自動化學(xué)院、人工智能學(xué)院,江蘇 南京 210023)
運(yùn)動分割[1]是計(jì)算機(jī)視覺中最重要的研究領(lǐng)域之一,在機(jī)器人技術(shù)的許多應(yīng)用中是一項(xiàng)重要的預(yù)處理任務(wù)。它已被用作預(yù)處理步驟應(yīng)用在智能交通系統(tǒng),如視覺監(jiān)控、動作識別、場景理解等。根據(jù)不同的運(yùn)動模式認(rèn)知和分離不同的運(yùn)動物體(如移動的車輛或移動的人),其中每個移動的物體被識別為一個連貫的實(shí)體。
描述這個問題的經(jīng)典方法如下[2]:給定一組特征點(diǎn),通過一系列圖像跟蹤,目標(biāo)是根據(jù)它們所屬的不同運(yùn)動將這些軌跡聚類。假設(shè)場景中包含多個物體,它們在三維空間中獨(dú)立地移動。傳統(tǒng)的運(yùn)動分割方法或多或少都會存在一些問題,比如處理高維數(shù)據(jù)時計(jì)算復(fù)雜,實(shí)時性差,抗噪聲能力差,無法兼容相機(jī)運(yùn)動等等。最近提出了許多運(yùn)動分割方法,有些已經(jīng)在一些流行的測試數(shù)據(jù)集上展示了出色的性能,例如Hopkins155數(shù)據(jù)集[3-4]。
運(yùn)動分割方法可以分為基于兩幀[5]和基于多幀[6]的方法。后者由于能夠從視頻序列的所有幀提取運(yùn)動信息以進(jìn)行精確的運(yùn)動分割,所以現(xiàn)在大多算法都運(yùn)用多幀的方法。一般大致將以前的基于多幀的運(yùn)動分割方法分為兩類:基于子空間的方法[7-9]和基于相似度矩陣[10-11]的方法。基于子空間的方法利用視頻序列的所有特征點(diǎn)軌跡構(gòu)造數(shù)據(jù)矩陣,對不同的運(yùn)動進(jìn)行聚類。另一方面,基于相似度的方法是基于特征點(diǎn)軌跡對構(gòu)造的相似度矩陣來分割不同的運(yùn)動。盡管在Hopkins155數(shù)據(jù)集上已經(jīng)展現(xiàn)了良好的性能,但是在實(shí)際應(yīng)用中,基于子空間的方法可能無法處理一些特殊情況。例如,當(dāng)運(yùn)動物體被暫時遮擋時,用基于子空間的方法得出的結(jié)果一般不會很理想。在這種情況下,被遮擋的物體的特征點(diǎn)軌跡就會丟失,而基于相似度的方法能有效處理這些問題。例如,稀疏約束的運(yùn)動分割(MSSC)[12]方法針對這個問題取得了不錯的效果。
在運(yùn)動分割問題[13]中,多種幾何模型被用來對不同類型的攝像機(jī)、場景和運(yùn)動進(jìn)行建模。在這個問題上,正如通常所說的那樣,基本矩陣模型通常被認(rèn)為是適用于不同的情景和不重疊的背景。例如,當(dāng)場景是全局運(yùn)動時,基本矩陣被用來描述極上幾何,當(dāng)場景是平面場景或者運(yùn)動是純旋轉(zhuǎn)的時候,單應(yīng)性是首選。在Hopkins155數(shù)據(jù)集中,這并不是最主要的問題,因?yàn)榇蠖鄶?shù)序列的視場都很小,也許場景距離足夠遠(yuǎn),可以用基本矩陣來近似,基于仿射矩陣或單應(yīng)矩陣的各種方法所獲得的良好結(jié)果驗(yàn)證了這些想法。
該文旨在利用單應(yīng)變換與相似度矩陣的優(yōu)勢在Hopkins155數(shù)據(jù)集上取得更好的聚類效果,并且能處理一些遮擋問題。
該文采用的是單應(yīng)性模型[14],先進(jìn)行單應(yīng)性的計(jì)算。單應(yīng)映射是描述物體在世界坐標(biāo)系和像素坐標(biāo)系之間的位置映射關(guān)系。單應(yīng)性模型能夠有很好效果的原因在于單應(yīng)性假設(shè)過程中產(chǎn)生了很多的平面切片,這些在場景中不一定是真實(shí)的物理平面,但只要這些虛擬平面屬于相同的剛體運(yùn)動,顯然就可以用單應(yīng)性來擬合。這樣的切割在多個真實(shí)平面表面的點(diǎn)之間建立了強(qiáng)大的連接,從而產(chǎn)生了一個不會被過度分割的相似度矩陣。如果場景只包含緊湊的物體或分段光滑的結(jié)構(gòu),那么創(chuàng)建的這種連接足以將剛性運(yùn)動的各個表面綁定在一起。所以在Hopkins155數(shù)據(jù)集中,大部分的視頻序列的場景都比較小,運(yùn)動的物體的結(jié)構(gòu)比較規(guī)則,所以用單應(yīng)性去擬合其數(shù)據(jù)集中的場景是比較適合的,如圖1所示。
圖1 Hopkins155中的示例
如圖2所示,記m=(x,y,1)T,m'=(x',y',1)T為一對匹配點(diǎn),映射的形式為:m'=Hm。這是一個齊次坐標(biāo)的等式,H乘以一個非零的比例因子上述等式仍然成立,即H是一個3×3的齊次矩陣,具有8個未知量。
圖2 單應(yīng)變換原理
寫成矢量形式為:[m']×(Hm)=0,H稱為單應(yīng)性。記H為hT,則有Ah=0,其中A為包含圖像點(diǎn)坐標(biāo)變量的2×9的矩陣,h有九個變量,自由度為8個。
假設(shè)已經(jīng)取得了兩圖像之間的單應(yīng),則可單應(yīng)矩陣H可以將兩幅圖像關(guān)聯(lián)起來,其中(x,y,1)T表示圖像1中的點(diǎn),(x',y',1)T表示圖像2中的點(diǎn),也就是可以通過單應(yīng)矩陣H將圖像1變換到圖像2。
所以場景中的點(diǎn)都在同一個平面上,可以使用單應(yīng)矩陣計(jì)算像點(diǎn)的匹配點(diǎn)。相機(jī)的平移距離相對于場景的深度較小的時候,單應(yīng)矩陣也比較適用。
用tfp∈R2表示在F幀中跟蹤P條軌跡的二維坐標(biāo)的集合,f對應(yīng)幀,p對應(yīng)軌跡。在多目標(biāo)運(yùn)動分割中,tfp對應(yīng)于運(yùn)動的剛體表面上的點(diǎn)。運(yùn)動分割目標(biāo)是將軌跡的點(diǎn)按它們所屬的運(yùn)動分類。換句話說,在下面的數(shù)據(jù)矩陣中安排坐標(biāo),目的就是排列矩陣中的列,使同一個運(yùn)動物體上的軌跡都能歸屬到同一類,這樣就完成了聚類。
(1)
由上一節(jié)所講,單應(yīng)變換的部分可見H的未知量為8,所以需要至少四對已知的對應(yīng)點(diǎn),也就是說在一對幀中抽取4個點(diǎn)。因?yàn)槟P褪撬木S空間,所以上面的a=4,假設(shè)值是通過使用直接線性變換從四個不丟失特征對應(yīng)的最小子集中估計(jì)出來的,并隨機(jī)抽取S個假設(shè),θ={θ1,θ2,…,θS}為使用隨機(jī)采樣從第f對連續(xù)幀生成的假定假設(shè)集。
有序殘差核(ORK)對嚴(yán)重的采樣不平衡有很強(qiáng)的適應(yīng)能力,這一觀點(diǎn)得到了普遍的認(rèn)可,所以用有序殘差核來處理各種各樣的場景是一個重要的優(yōu)勢。因此,該文采用有序殘差核來計(jì)算各個軌跡之間的相關(guān)性。
(2)
R(*)表示為所做的殘差運(yùn)算。
(3)
(4)
(5)
(6)
這樣進(jìn)一步地使計(jì)算更加簡便。
(7)
譜聚類是從圖論中演化出來的算法,后來在聚類中得到了廣泛的應(yīng)用。它的主要思想是把所有的數(shù)據(jù)看作空間中的點(diǎn),這些點(diǎn)之間可以用邊連接起來。距離較遠(yuǎn)的兩個點(diǎn)之間的邊權(quán)重值較低,而距離較近的兩個點(diǎn)之間的邊權(quán)重值較高,通過對所有數(shù)據(jù)點(diǎn)組成的圖進(jìn)行切圖,讓切圖后不同的子圖間邊權(quán)重和盡可能的低,而子圖內(nèi)的邊權(quán)重和盡可能的高,從而達(dá)到聚類的目的。
該文利用上述方法已經(jīng)求得了相似度矩陣D,接著需要求得度矩陣:
(8)
即相似度矩陣D的每一行元素之和。M為mi組成的n×n對角矩陣。
D為相似度矩陣,求得度矩陣M,標(biāo)準(zhǔn)的對稱拉普拉斯矩陣如下:
L=M-1/2DM1/2
(9)
然后用如下公式進(jìn)行特征求解:
mintr(UTLU),s.t.UUT=I
(10)
其中,tr(*)表示跡運(yùn)算。
計(jì)算L的特征值,將特征值從小到大排序,取前k個特征值,并計(jì)算前k個特征值的特征向量u1,u2,…,uk,將上面的k個列向量組成矩陣U={u1,u2,…,uk},然后作為原始點(diǎn)的新特征表示處理。然后使用k-means算法進(jìn)行聚類,最后得到聚類結(jié)果。
3.1.1 Hopkins155
在實(shí)驗(yàn)中,是針對Hopkins155數(shù)據(jù)集進(jìn)行的算法設(shè)計(jì)。Hopkins155數(shù)據(jù)集是運(yùn)動分割最流行的基準(zhǔn)之一。它由120個二運(yùn)動視頻序列和35個三運(yùn)動視頻序列組成。
3.1.2 62-clip
62-clip數(shù)據(jù)集主要來自于Hopkins155數(shù)據(jù)集,包括來自Hopkins155的50個視頻序列,另外12個有物體遮擋的視頻序列已經(jīng)添加到62-clip數(shù)據(jù)集中。在12個視頻序列中,有9個視頻序列具有透視效果。在62-clip數(shù)據(jù)集中有26個雙運(yùn)動視頻序列和36個三運(yùn)動視頻序列。
3.1.3 KITTI
KITTI數(shù)據(jù)集是由德國卡爾斯魯厄理工學(xué)院和豐田美國技術(shù)研究院聯(lián)合創(chuàng)辦,是目前國際上最大的自動駕駛場景下的計(jì)算機(jī)視覺算法評測數(shù)據(jù)集。KITTI包含市區(qū)、鄉(xiāng)村和高速公路等場景采集的真實(shí)圖像數(shù)據(jù)。該數(shù)據(jù)集比較契合真實(shí)場景,可以在此數(shù)據(jù)集上驗(yàn)證文中算法的精度。
運(yùn)動分割性能是根據(jù)點(diǎn)軌跡的標(biāo)記誤差來評估的,其中序列中的每個點(diǎn)都有一個真實(shí)值標(biāo)簽。
分類錯誤率=被錯誤分類的特征點(diǎn)/總特征點(diǎn)
在Hopkins155數(shù)據(jù)集中,分別在兩運(yùn)動序列、三運(yùn)動序列與所有序列上進(jìn)行實(shí)驗(yàn),以此來比較各個方法的優(yōu)點(diǎn)。
在62-clip中,分別在12有遮擋序列和50無遮擋序列以及所有序列上進(jìn)行實(shí)驗(yàn),來測試各個模型應(yīng)對遮擋問題的能力。
在KITTI上,用平均與中位數(shù)這兩項(xiàng)指標(biāo)比較各方法的穩(wěn)定性。
在表1中,將文中方法與之前的算法(GPCA[9],SSC[15],LRR[16],ALC[7],ORK[8],TPV[5])進(jìn)行對比。這些算法在發(fā)表的時候都是在Hopkins155數(shù)據(jù)集上有著很好的表現(xiàn),但是隨著研究進(jìn)一步深入,其局限性也顯露了出來。
表1 在Hopkins155數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
文中方法針對有遮擋的視頻做出了一些改進(jìn),在62-clips數(shù)據(jù)集中,有12個視頻是有遮擋的。在表2中可以看出,在12個有遮擋的序列中,只有文中方法有很好的效果,在其余50個不被遮擋的序列中,可以看到分類錯誤率的差距不是很大,說明文中方法在處理有遮擋問題時,確實(shí)起到了作用。
表2 在62-clips數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
表3是在KITTI數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)。由于KITTI多是透視視角,更加趨近于真實(shí)場景,而且KITTI多是用于自動駕駛,所以文中方法也存在很高的錯誤率,但相對于別的方法具備一些優(yōu)勢。
表3 在KITTI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
圖3展示了最后的聚類效果,這是Hopkins155數(shù)據(jù)集中的一幀,可從圖中看出背景,卡車與小轎車被分為了不同的類別,說明聚類取得了一定的成功。
圖3 聚類效果
設(shè)計(jì)了一個基于相似度矩陣與單應(yīng)變換的運(yùn)動分割算法。為了在Hopkins155上發(fā)揮更好的效果,該文選擇了用單應(yīng)矩陣模型來擬合。用相似度矩陣并且使用了累加的方法,使此方法在處理有遮擋的視頻時有著更好的魯棒性。仿真實(shí)驗(yàn)結(jié)果表明,該方法在Hopkins155數(shù)據(jù)集上具有不錯的效果,但是在更加接近于真實(shí)世界與大的場景的KITTI數(shù)據(jù)集上,此方法表現(xiàn)不佳,所以還需進(jìn)一步改進(jìn),以適應(yīng)更多變的視角。