崔 杰,胡長(zhǎng)青,徐海東,呂銀杰
(1.中國(guó)科學(xué)院聲學(xué)研究所東海研究站,上海201815;2.中國(guó)科學(xué)院大學(xué),北京100049;3.嘉興易聲電子科技有限公司,浙江嘉興314000)
隨著海洋資源開發(fā)和軍事安全的需求,水下安防工作受到越來越多的重視。多波束前視聲吶分辨率高,成像速度快,既能在高速的運(yùn)動(dòng)狀態(tài)下快速成像,又能針對(duì)高速運(yùn)動(dòng)中的目標(biāo)快速成像[1-2]。多波束前視聲吶通常采用寬波束發(fā)射,通過同時(shí)預(yù)成多個(gè)接收波束來得到大扇面的方位-距離圖像,可以在固定不動(dòng)時(shí)得到同一場(chǎng)景的多幀視頻圖像[1]。因此多波束前視聲吶的出現(xiàn)使得蛙人探測(cè)、小型潛器監(jiān)視等偵察警戒任務(wù)得以實(shí)現(xiàn),基于圖像序列綜合處理的水聲視覺智能技術(shù)受到國(guó)內(nèi)的極大關(guān)注。
目標(biāo)跟蹤的方法是按照目標(biāo)特征,根據(jù)顏色、紋理、形狀等特征來進(jìn)行跟蹤。從方法的角度來說,可分為基于濾波理論的跟蹤技術(shù)、基于Mean Shift的跟蹤技術(shù)、基于粒子濾波的跟蹤方法和基于偏微分方程的跟蹤技術(shù)等?;谒晥D像的目標(biāo)跟蹤技術(shù)起步較晚,并且多借鑒光學(xué)成像中的跟蹤技術(shù)。國(guó)外的研究比我國(guó)起步要早,有相對(duì)成熟的解決方案,但由于技術(shù)較為敏感,相關(guān)的研究報(bào)告和技術(shù)細(xì)節(jié)極少公開報(bào)道。國(guó)內(nèi)主要有中國(guó)科學(xué)院、中國(guó)船舶重工集團(tuán)、高校等單位進(jìn)行相關(guān)研究。
Mean Shift是一種基于密度梯度的非參數(shù)特征空間分析方法,算法的實(shí)時(shí)性好且容易集成,在目標(biāo)跟蹤領(lǐng)域有著廣泛的應(yīng)用。Mean Shift算法的跟蹤模型為核函數(shù)加權(quán)顏色直方圖,具有對(duì)邊緣遮擋、目標(biāo)的旋轉(zhuǎn)、變形及背景運(yùn)動(dòng)都不敏感的特點(diǎn)。Mean Shift算法也存在局限性:缺乏必要的模板更新算法;跟蹤過程中窗口大小保持不變,當(dāng)目標(biāo)的形狀或者尺寸發(fā)生較大變化時(shí),存在跟蹤失敗的可能;直方圖是一種較弱的目標(biāo)特征,當(dāng)背景和目標(biāo)的直方圖分布相近時(shí),算法的跟蹤效果欠佳[3-5]。
本文主要研究Mean Shift跟蹤算法在聲吶圖像目標(biāo)跟蹤中的應(yīng)用,并針對(duì)算法跟蹤框固定不變的缺點(diǎn)提出了一種更新策略。
Mean Shift算法需要在起始幀通過手動(dòng)確定搜索窗口來選擇運(yùn)動(dòng)目標(biāo),計(jì)算搜索框內(nèi)的核函數(shù)加權(quán)顏色直方圖來建立目標(biāo)模型,用同樣的方法計(jì)算下一幀對(duì)應(yīng)窗口的直方圖分布,用巴氏(Bhattacharyya)系數(shù)來描述目標(biāo)與候選目標(biāo)之間的相似性,以兩個(gè)分布的相似性最大為原則,使搜索窗口沿密度增大最大的方向移動(dòng),通過Mean Shift迭代來得到目標(biāo)的真實(shí)位置[4-5]。以下簡(jiǎn)要介紹其過程。
給定跟蹤窗口T,x0為跟蹤窗口T的中心,{xi}i=1?n表示窗口內(nèi)各個(gè)像素的坐標(biāo),定義函數(shù)b:R2→{1,…,m},使b{xi}對(duì)應(yīng)xi處像素的顏色索引,則跟蹤窗口T圖像的概率密度函數(shù)定義為
其中:u=1,???,m對(duì)應(yīng)顏色索引;是Epanechnikov、高斯(Guassian)等核函數(shù);h是核函數(shù)的帶寬;δ是克羅內(nèi)克(Kronecherdelta)函數(shù),用于判斷xi處的顏色值是否屬于特征值;C是歸一化系數(shù)。
對(duì)應(yīng)初始幀目標(biāo)模型,假設(shè)當(dāng)前幀中候選目標(biāo)的中心為y,為候選目標(biāo)中的像素位置,候選目標(biāo)的模型可以表示為
式中:Ch對(duì)應(yīng)式(1)中的C。
相似性系數(shù)用來度量目標(biāo)與候選目標(biāo)之間的相似度,目前在Mean Shift跟蹤中使用最為廣泛的是Bhattacharyya系數(shù),其定義為
Bhattacharyya系數(shù)的局部最大值點(diǎn)可以視為當(dāng)前幀中的目標(biāo)位置。以前一幀的目標(biāo)中心y作為當(dāng)前幀的目標(biāo)中心,然后此處開始找尋最優(yōu)的匹配目標(biāo),在處對(duì)式(3)進(jìn)行泰勒展開,可得:
式(4)中,第一項(xiàng)與y無關(guān),而第二項(xiàng)表示坐標(biāo)y處的含密度估計(jì),其中每個(gè)像素點(diǎn)的權(quán)重用wi表示。因此,尋找最優(yōu)候選目標(biāo)的問題就轉(zhuǎn)化為尋找概率密度函數(shù)局部極值位置的問題,它可以通過Mean Shift迭代的方法完成。令,得到Mean Shift的迭代形式:
其中:g(x)=-k'(x);y0是第N幀搜索窗口的中心坐標(biāo);y1表示尋找到新的搜索窗口的中心坐標(biāo)。
背景消減法是一種常用的基于圖像序列的運(yùn)動(dòng)目標(biāo)檢測(cè)算法,對(duì)智能監(jiān)控中的目標(biāo)跟蹤識(shí)別和行為分析等后續(xù)處理十分關(guān)鍵。
背景消減法通過計(jì)算當(dāng)前幀與背景模型的差來實(shí)現(xiàn)運(yùn)動(dòng)目標(biāo)的檢測(cè),因此背景建模是背景消減法的關(guān)鍵。目前已有的背景建模方法有均值背景模型、中值背景模型和混合高斯模型等,本文依據(jù)算法效果和復(fù)雜度選擇中值背景模型來構(gòu)建[6-8]。
中值背景模型適合背景變化不大的場(chǎng)景,同時(shí)也能很好地避免均值背景模型存在的“拖影”現(xiàn)象[7-8]。中值背景模型原理簡(jiǎn)單,取一段時(shí)間內(nèi)的連續(xù)K(K為奇數(shù))幀圖像,I1(m,n),???,IK(m,n)表示像素點(diǎn)(m,n)的時(shí)域序列,I(1)(m,n),???,I(K)(m,n)表示像素點(diǎn)(m,n)按從小到大排序的序列,則像素點(diǎn)(m,n)的背景像素為:
將每一幀待檢測(cè)的圖像減去背景圖像,然后對(duì)差分圖像進(jìn)行分割操作。設(shè)像素點(diǎn)(m,n)在第k幀的值為Ik(m,n),背景圖像的值為B(m,n),則差分圖像的值表示為
選用合適的閾值對(duì)差分圖像進(jìn)行分割即可得到運(yùn)動(dòng)目標(biāo)的二值圖像。在這里本文選擇最大類間方差(Otsu)算法對(duì)差分圖像進(jìn)行分割,該算法是一種高效的圖像二值化算法。
對(duì)于圖像I,前景(即目標(biāo))和背景的分割閾值記為T,前景像素點(diǎn)數(shù)占整幅圖像的比例記為ω0,平均灰度為μ0,背景像素點(diǎn)數(shù)占整幅圖像的比例記為ω1,平均灰度為μ1,圖像的類間方差g為
用遍歷法求使得類間方差g最大的閾值T,然后用T對(duì)差分圖像進(jìn)行二值化操作:
由式(10)得到的二值化圖像即為移動(dòng)目標(biāo)的二值圖像。
經(jīng)典的Mean Shift跟蹤算法缺乏有效的目標(biāo)更新策略,并且無法有效地估計(jì)目標(biāo)的尺度。本文針對(duì)以上缺點(diǎn),結(jié)合背景消除算法的運(yùn)動(dòng)目標(biāo)檢測(cè)算法,提出了跟蹤窗口隨目標(biāo)大小實(shí)時(shí)更新的Mean Shift跟蹤算法。
算法的原理是利用Mean Shift迭代來完成幀間目標(biāo)定位,然后在目標(biāo)定位的范圍內(nèi)利用圖像分割對(duì)目標(biāo)的尺寸和跟蹤模板進(jìn)行更新,以實(shí)現(xiàn)跟蹤窗口隨目標(biāo)大小和形狀的自適應(yīng)變化[9-10]。具體算法流程如下:
(1) 初始化:選擇初始幀圖像,人工標(biāo)記待跟蹤的運(yùn)動(dòng)目標(biāo),計(jì)算目標(biāo)的最小跟蹤框,并依據(jù)1.1節(jié)的方法建立目標(biāo)模型。
(2) Mean Shift迭代:依據(jù)1.2~1.4節(jié)的方法,選擇當(dāng)前幀圖像進(jìn)行Mean Shift迭代,計(jì)算出當(dāng)前幀中目標(biāo)中心和跟蹤框位置。
(3) 運(yùn)動(dòng)目標(biāo)分割:根據(jù)第2節(jié)中的方法,對(duì)運(yùn)動(dòng)目標(biāo)進(jìn)行分割,實(shí)現(xiàn)運(yùn)動(dòng)目標(biāo)的二值化。
(4) 匹配:根據(jù)步驟(2)中Mean Shift跟蹤框標(biāo)記和(3)中的運(yùn)動(dòng)目標(biāo),計(jì)算被標(biāo)記目標(biāo)的最小外接矩形,如果最小外接矩形與跟蹤框長(zhǎng)度和寬度的誤差不超過10%,則對(duì)跟蹤框進(jìn)行更新,否則不更新。
(5) 更新:依據(jù)步驟(4)中新的跟蹤框重新建立目標(biāo)模型。
(6) 循環(huán):回到步驟(2),對(duì)更新后的目標(biāo)進(jìn)行跟蹤。
本文實(shí)驗(yàn)設(shè)備選擇Kongsberg 公司生產(chǎn)的M3多波束前視聲吶,實(shí)驗(yàn)場(chǎng)地為某湖上的雙體實(shí)驗(yàn)船。聲吶置于雙體船中部的實(shí)驗(yàn)甲板中,水域處于自然環(huán)境狀態(tài),水體中存在線纜及魚群等干擾物。本文考慮的主要應(yīng)用場(chǎng)景為海事設(shè)施周圍對(duì)蛙人、水下機(jī)器人的監(jiān)控和跟蹤。聲吶處于固定狀態(tài),受水域限制,前視聲吶的探測(cè)距離設(shè)置為40 m。
實(shí)驗(yàn)選用兩個(gè)相同尺寸的鋼絲鐵籠作為目標(biāo),分別標(biāo)記為目標(biāo)1和目標(biāo)2,其底部最大直徑為45 cm,籠口直徑為28 cm,籠口到籠子底部的高度為45 cm。目標(biāo)在前視聲吶視野范圍內(nèi)由細(xì)繩牽引、人工拖曳進(jìn)行上下運(yùn)動(dòng),共采集228幀圖像。
本文選用經(jīng)典Mean Shift算法和本文改進(jìn)后的算法對(duì)兩個(gè)目標(biāo)進(jìn)行跟蹤。下面通過跟蹤軌跡、目標(biāo)框選和跟蹤誤差來對(duì)兩種算法進(jìn)行評(píng)價(jià)。
在本次試驗(yàn)中,目標(biāo)先在水中下沉后經(jīng)人工拖曳上浮,采用經(jīng)典Mean Shift算法和改進(jìn)后的算法完成了對(duì)目標(biāo)的追蹤。目標(biāo)的跟蹤軌跡如圖1所示,其中目標(biāo)1的跟蹤軌跡為紅色,目標(biāo)2的跟蹤軌跡為綠色。圖1(a)是中值背景下(聲吶固定,背景固定,但背景中存在魚群等運(yùn)動(dòng)目標(biāo)的干擾)x-y平面的目標(biāo)跟蹤軌跡,可以看出目標(biāo)運(yùn)動(dòng)的軌跡基本為沿著y軸方向的上下運(yùn)動(dòng)。圖1(b)是目標(biāo)的三維運(yùn)動(dòng)軌跡,可以看出目標(biāo)隨時(shí)間的幀位置變化。
兩種算法的跟蹤軌跡效果通過肉眼很難看出明顯的差別。在下文中通過跟蹤框和跟蹤坐標(biāo)的誤差來進(jìn)行具體的對(duì)比。
圖1 目標(biāo)跟蹤軌跡Fig.1 Target tracking trajectories
為了驗(yàn)證本文算法對(duì)跟蹤框更新的效果,本文與經(jīng)典Mean Shift算法進(jìn)行對(duì)比。圖2(a)和圖2(b)分別是目標(biāo)1和目標(biāo)2的跟蹤效果對(duì)比圖,圖中依次展示了第1,31,61,???,211幀共8幀圖像的目標(biāo)圖像和跟蹤框,其中紅色跟蹤框是經(jīng)典Mean Shift的跟蹤框,綠色跟蹤框是改進(jìn)后算法的跟蹤框。
圖2 經(jīng)典和改進(jìn)Mean Shift算法的跟蹤框效果對(duì)比Fig.2 Comparison of tracking box effects of classical and improved Men Shift algorithms
如圖2(a)所示,目標(biāo)1在運(yùn)動(dòng)過程中大小沒有發(fā)生明顯變化,跟蹤框的大小變化不明顯,跟蹤框的中心為Mean Shift算法迭代的目標(biāo)位置。在Mean Shift算法迭代過程中,基于Bhattacharyya系數(shù)的概率密度函數(shù)相似性度量會(huì)收斂到局部極值。但該極值可能并不是最優(yōu)解,因此會(huì)出現(xiàn)定位偏差,并且Mean Shift的收斂位置多數(shù)情況下并不是目標(biāo)的中心,因此經(jīng)典的Mean Shift算法存在定位誤差和跟蹤框無法準(zhǔn)確框選運(yùn)動(dòng)目標(biāo)的問題。改進(jìn)后的算法能夠根據(jù)目標(biāo)的大小和形狀對(duì)跟蹤框的位置和尺寸進(jìn)行更新,并根據(jù)更新后的跟蹤框?qū)δ繕?biāo)模板進(jìn)行更新,因此跟蹤效果比經(jīng)典的Mean Shift算法更為準(zhǔn)確。
如圖2(b)所示,目標(biāo)2在運(yùn)動(dòng)過程中由于角度或姿態(tài)問題出現(xiàn)了逐漸變小的情況。經(jīng)典的Mean Shift算法在該情況下雖然完成了對(duì)目標(biāo)的定位,但是由于固定跟蹤框的問題,在目標(biāo)變小的情況下框選了較多的背景信息,而本文的改進(jìn)算法可以對(duì)目標(biāo)的大小進(jìn)行實(shí)時(shí)更新,跟蹤框在目標(biāo)變小的情況下進(jìn)行了自適應(yīng)調(diào)整,對(duì)目標(biāo)的描述更為準(zhǔn)確。
圖3 經(jīng)典和改進(jìn)Mean Shift算法的跟蹤誤差對(duì)比Fig.3 Comparison of tracking error between classical and improved Mean Shift algorithms
圖3是兩種算法跟蹤坐標(biāo)的歐式距離誤差,其中參考坐標(biāo)為每幀圖像手動(dòng)標(biāo)定目標(biāo)的最小外接矩形中心。其中圖3(a)和圖3(b)分別目標(biāo)1和2的誤差,其中紅線表示經(jīng)典Mean Shift跟蹤算法的誤差,綠線表示由上一幀目標(biāo)模型更新后Mean Shift跟蹤(簡(jiǎn)稱更新后跟蹤)算法的誤差,藍(lán)線表示目標(biāo)模型更新后跟蹤框(簡(jiǎn)稱跟蹤框更新)的誤差(因?yàn)槭謩?dòng)標(biāo)定目標(biāo)和自動(dòng)分割目標(biāo)存在不可避免的誤差)。由于目標(biāo)1的形狀變化較小,目標(biāo)更新對(duì)跟蹤結(jié)果的影響較??;而目標(biāo)2在運(yùn)動(dòng)過程中后期有較明顯的伸縮變化,目標(biāo)更新后的效果則比較明顯。
表1是兩種算法在不同方向上的均方根誤差(Root Mean Square Error, RMSE),參考坐標(biāo)同樣是目標(biāo)分割后的質(zhì)心。從表中可以看出,在x方向、y方向和歐式距離上,目標(biāo)更新后跟蹤算法的算法誤差相比傳統(tǒng)的Mean Shift算法有了較大的改進(jìn),并且目標(biāo)模型的更新能較準(zhǔn)確地定位目標(biāo)的真實(shí)位置。
表1 跟蹤結(jié)果的均方根誤差Table 1 Root mean square error of tracking results
本文將Mean Shift算法用于多波束前視聲吶的運(yùn)動(dòng)目標(biāo)跟蹤問題,并對(duì)Mean Shift算法提出了一種改進(jìn)方案。該算法利用Mean Shift實(shí)現(xiàn)目標(biāo)的幀間定位,通過基于圖像序列的背景消減法實(shí)現(xiàn)運(yùn)動(dòng)目標(biāo)分割,根據(jù)分割后目標(biāo)的位置和大小對(duì)Mean Shift跟蹤框進(jìn)行更新,并重新建立目標(biāo)模型來迭代實(shí)現(xiàn)目標(biāo)的準(zhǔn)確跟蹤和框選。實(shí)驗(yàn)數(shù)據(jù)表明,改進(jìn)后的算法跟蹤框可隨目標(biāo)的尺寸變化進(jìn)行更新,對(duì)目標(biāo)的定位和框選更加精準(zhǔn)。
本文算法實(shí)現(xiàn)了簡(jiǎn)單背景下跟蹤框隨目標(biāo)變化的實(shí)時(shí)跟蹤。可以預(yù)見,本文算法在復(fù)雜場(chǎng)景下目標(biāo)受背景干擾較大時(shí)的效果可能欠佳。因此,在下一步的工作中需要從魯棒性的角度出發(fā)對(duì)算法進(jìn)行改進(jìn)。