季云峰 任杰 施之皓
摘 要: 針對乒乓球機器人視覺系統(tǒng)中的實時跟蹤問題,分別在高速和低速2種攝影條件下設(shè)計完全不同的算法對乒乓球進行跟蹤識別研究。在高速攝影條件下主要利用乒乓球的5大特征信息(圓度、周長、面積、X距和Y距)設(shè)置閾值進行識別;在低速攝影條件下將機器學(xué)習(xí)和圖像匹配的方法進行代入,實現(xiàn)對帶拖影乒乓球的識別。采用基于注意力的圖像分割算法對圖片進行預(yù)處理,可有效解決因環(huán)境干擾等造成的像素失真問題。提出規(guī)劃感興趣區(qū)(ROI)的算法,利用乒乓球的運動特征提前確定下一幀圖像中乒乓球的可能位置,從而降低計算量,縮短計算時間,實現(xiàn)跟蹤的實時性。
關(guān)鍵詞: 乒乓球機器人; 視覺系統(tǒng); 實時跟蹤; 注意力; 圖像分割; 機器學(xué)習(xí)
中圖分類號: G846 ? 文獻標志碼: A ? 文章編號: 1000-5498(2020)06-0070-06
DOI: 10.16099/j.sus.2020.06.009
乒乓球機器人可以通過識別、預(yù)測、決策等多方面信息協(xié)調(diào)工作完成對乒乓球的擊打,且可成為一個實時智能的機器人運動伺服平臺,因其核心技術(shù)的應(yīng)用前景廣泛,日益受到學(xué)者們的關(guān)注。由于乒乓球具有體積小、質(zhì)量輕等特點,其運動速度快,故乒乓球機器人欲完成擊打任務(wù),必須對快速運動的乒乓球進行識別跟蹤。
針對乒乓球運動的跟蹤技術(shù),目前常見的算法主要有顏色分割法、光流法、背景減除法和幀差法。如楊華等[1]利用顏色分割法針對特殊的黃色乒乓球進行識別跟蹤,但該算法對環(huán)境以及攝像機清晰度的要求均較高,雖較為簡單卻適用性不強。有研究人員[2-4]通過計算位移向量光流場初始化基于輪廓的跟蹤算法,經(jīng)過迭代運算,測出場景中的運動區(qū)域。Lampert等[5]利用乒乓球與背景之間的色彩差進行圖像分割,計算像素顏色與期望顏色的相似度,將相似度高的連通區(qū)域標記為目標區(qū)域。張正濤等[6-8]采用幀差法將所采集的前后2幅圖像做差,出現(xiàn)2個亮的區(qū)域后再根據(jù)乒乓球速度方向判斷乒乓球位置。
目前,大多數(shù)關(guān)于乒乓球的跟蹤算法都在實驗室中進行,需要根據(jù)不同的實驗環(huán)境設(shè)計不同的跟蹤算法,適用范圍受限[9-10]。同時,由于乒乓球的速度快,大部分跟蹤乒乓球的視覺系統(tǒng)均會選擇高速攝像機,以拍出較為清晰的圖片,方便后續(xù)識別;但由此產(chǎn)生的數(shù)據(jù)量較大,對系統(tǒng)的處理速度和傳輸速度均有較高要求。此外,少有學(xué)者使用低速攝像機拍攝乒乓球進行跟蹤識別,主要原因是低速下拍攝的圖片不清晰,且低速攝影時常伴隨低速快門,會造成乒乓球的拖影效應(yīng),給識別帶來困難。
因此,本文針對不同攝影條件下的難點,分別在高速和低速2種攝影條件下設(shè)計完全不同的算法對乒乓球進行跟蹤識別,對比2種算法的優(yōu)勢和劣勢,并通過實驗驗證算法的準確性。
1 基于注意力的圖像分割
在不同攝影條件下拍攝的圖片效果不同,計算機識別的圖片是一個像素矩陣,需要設(shè)計算法對其進行處理,找出乒乓球所在區(qū)域像素矩陣的特點,從而完成對乒乓球的識別跟蹤。單張圖片中的像素矩陣比較混亂,計算機直接處理會出現(xiàn)計算量過大、方法過于復(fù)雜等問題,故需要對待處理圖片進行預(yù)處理,明確圖片的特征信息,便于后續(xù)處理。
無論在高速還是低速攝影條件下,對圖片進行預(yù)處理都是必須經(jīng)過的一個步驟,故本文采用圖像分割的方法對圖片進行預(yù)處理,基于注意力方法將圖像中的顯著區(qū)域分割出來,再針對顯著區(qū)域進行處理,找出其中與乒乓球特征最符合者記為乒乓球,即可完成乒乓球的識別跟蹤任務(wù)。
視覺注意機制是人類視覺感知系統(tǒng)的重要部分,當生物體用眼觀測一幅圖像時,通常會將注意力有選擇地集中在某個或某些物體上,進而對所選擇的特定物體進行視覺信息處理。本文采用的注意力方法是基于視覺注意機制[11-13],將3層高斯金字塔和多尺度中心周邊對比進行有效融合,稱之為SMG(saliency map generation)算法[14],可以實現(xiàn)將特征對比明顯的區(qū)域標定為顯著性區(qū)域。由于被跟蹤的乒乓球是運動物體,并且與周圍環(huán)境對比度較大,故一般都可被識別為顯著性區(qū)域。圖像分割具體步驟如下:①輸入某張圖片,將其圖像分解為亮度、紅色、綠色、藍色和黃色等一系列單通道圖像。將圖像的紅、綠、藍和黃色像素分別用R、G、B、Y表示,亮度表示為I,則有I=(R+G+B)/3。再將圖像分解為2個對比通道圖像,通道分別為紅/綠(RG)和藍/黃(BY),閾值分別為RG=R-G和BY=B-Y。②將輸入圖像表示為3層的高斯金字塔,其中第0層是原圖像,第1層和第2層的大小分別是原圖像的1/2和1/4,使用3×3的高斯濾波器對原圖像進行濾波和降采樣即可形成。③依次對每組圖像進行中央-周邊差分(可將反差大的區(qū)域和運動區(qū)域顯現(xiàn)出來)及歸一化處理,生成3個通道下不同的特征圖。④將3個通道下的特征圖進行多尺度特征融合操作,生成1組突出圖。⑤將3個通道下的突出圖進行線性融合,即可生成顯著圖,實現(xiàn)圖像分割[15-17]。
2 不同攝影條件下的兵乓球識別
對圖片進行預(yù)處理之后,便可對分割后的圖像進行識別。針對高速和低速這2種不同攝影條件下的特點和難點,分別設(shè)計不同的算法對乒乓球進行跟蹤識別。
2.1 基于高速攝影條件的乒乓球識別
將高速攝像機擺放在距兵乓球臺邊線1 m處,速度采用250幀/s,快門選擇1/2 000 s,對乒乓球的整個運動軌跡進行拍攝。圖1(a)顯示的是高速攝像機所拍攝視頻中的1幀圖片,由于拍攝的速度足夠快,快門足夠高,故所拍攝的乒乓球整體輪廓較為清晰。對該圖片基于注意力系統(tǒng)進行圖像分割,結(jié)果如圖1(b)所示。由于經(jīng)預(yù)處理后乒乓球的特征依然較為明顯,故可利用乒乓球的特征信息對乒乓球進行識別。具體可根據(jù)表1中所列5項特征判定白色像素塊是否為乒乓球。
利用兵乒球識別的5項特征設(shè)置閾值,具體閾值根據(jù)實驗值確定,若對象的檢測值均在設(shè)定的閾值內(nèi),則認定該對象為所需識別的乒乓球。識別乒乓球所在區(qū)域之后,去除3塊紅色方框,直接用紅框框住乒乓球,即完成乒乓球的識別跟蹤,識別結(jié)果如圖1(c)所示。
2.2 基于低速攝影條件的乒乓球識別
2.2.1 離線訓(xùn)練及圖像匹配
在低速攝影條件下拍攝的乒乓球整體輪廓不清晰,有拖影,需要進行機器的離線訓(xùn)練和圖像匹配。首先對低速攝影下的圖片進行圖像分割,結(jié)果如圖2(a)所示;再利用圖像匹配的方法進行識別,將大量含不同場景、不同方向的拖影球圖片加入樣本進行學(xué)習(xí),利用adaboost算法訓(xùn)練強分類器,將圖像分割出的亮點區(qū)域加入分類器檢測識別,選取相似度最高區(qū)域并視為乒乓球所在區(qū)域。共收集100張不同拍攝速度、角度和背景的拖影球圖片,作為機器學(xué)習(xí)訓(xùn)練的正樣本,同時收集100張從不同乒乓球?qū)嵉剡\動場景中任意選取的非拖影球圖片,作為訓(xùn)練的負樣本。
在訓(xùn)練的正樣本中,由于拍攝速度不同,拖影球所形成的拖影長度不同,總體特征區(qū)別不大,根據(jù)此特征利用機器學(xué)習(xí)方法可對圖片進行訓(xùn)練識別,主要分為以下2個步驟:①將訓(xùn)練樣本加入adaboost層級分類器進行離線訓(xùn)練,分類器的訓(xùn)練步驟參考文獻[18-19];②將分割后的圖像加入分類器檢測,只檢測圖像中的顯著區(qū)域,選取相似度最高區(qū)域為乒乓球所在區(qū)域。經(jīng)過分類器檢測后可以獲得乒乓球所在位置區(qū)域,如圖2(b)所示。
2.2.2 真實球心檢測
找到乒乓球所在區(qū)域后,由于乒乓球的拖影成像形似橢圓,故先對其進行橢圓擬合。通過查找輪廓獲得目標輪廓邊界點坐標,利用最小二乘法可以擬合橢圓方程[20]。然而,檢測出的帶拖影乒乓球的中心坐標并非真實的乒乓球所在位置,設(shè)計算法根據(jù)擬合的橢圓方程找到真實球心坐標。
乒乓球產(chǎn)生拖影的原因是乒乓球運動速度太快,而攝像機的曝光時間過長,導(dǎo)致在曝光時間內(nèi)乒乓球與攝像機系統(tǒng)之間存在相對運動,從而使芯片上形成的圖像一直在變化,各個部位的像元在曝光過程中受到來自物體不同位置成像的影響,最終形成的圖片是一個連續(xù)變化圖像空間內(nèi)圖片的疊加。就單張拖影圖片而言,乒乓球?qū)嶋H位置處于運動方向最前端,拖影即曝光時間過長而產(chǎn)生的乒乓球運動軌跡重疊影像,故找出拖影圖像中乒乓球?qū)嶋H位置即找到了運動方向最前端圓形目標的中心坐標,如圖3所示。
3 預(yù)測感興趣區(qū)(ROI)
在乒乓球跟蹤實驗中,需要處理視頻中的多幀圖片信息,而光照、背景等干擾因素會造成識別誤差,且如果對每張圖片均進行全圖檢測會造成計算量巨大、耗費時間長和識別錯誤多等一系列問題。另外,視頻中的圖片均按照一定時間序列連續(xù)播放,每2幀圖像之間有較大關(guān)聯(lián)性。據(jù)此提出預(yù)測ROI的方法,通過針對前幾幀圖片的檢測結(jié)果預(yù)測下一幀乒乓球的位置,即提前設(shè)置一個ROI,僅對ROI內(nèi)部進行識別,從而在縮短識別時間的同時提高識別準確率。ROI范圍的選?。阂越?jīng)識別(計算)的球心坐標為中心,以乒乓球在圖像平面運動的最高速度和采樣平均時間間隔的乘積再加長20%為半徑,確定一個圓形區(qū)域,該區(qū)域必定可以包含下一時刻乒乓球運動位置,將這個圓形區(qū)域的外接正方形區(qū)域定義為移動ROI,即圖像下一時刻的搜索范圍。如此,利用對移動ROI的預(yù)測進行乒乓球的檢測識別,可大大縮短識別時間。
預(yù)測ROI的方法對高速攝影和低速攝影條件均適用,區(qū)別在于在高速攝影條件下每2幀圖片時間間隔很短,乒乓球運動距離不會很長,預(yù)測ROI時可適當縮小范圍,進一步降低計算量。圖5顯示在高速攝影條件下連續(xù)2幀圖片預(yù)測ROI的結(jié)果,紅色圓框代表識別的乒乓球位置,藍色方框即為移動ROI范圍??梢钥闯?,由于高速相機頻率很高,乒乓球運動距離很小,故可將ROI設(shè)置為較小的范圍,并保證下一幀圖像中乒乓球不會移動出ROI范圍。另外還可發(fā)現(xiàn)后一幀圖像亮度比前一幀高,這主要是實驗場景中使用的照明燈采用交流供電,從而造成高速視頻交替閃動的結(jié)果。但此處選擇的算法在圖像分割時已考慮到環(huán)境及燈光變化會導(dǎo)致圖片顏色失真的問題,并采用3個通道融合的方法加以解決,故后續(xù)識別時較為準確。
在低速攝影條件下,采樣頻率較低,每2幀圖片間的乒乓球運動距離較長,需要形成的ROI相較于高速攝影范圍更大。圖6顯示的是在低速攝影條件下連續(xù)2幀圖片設(shè)置移動ROI的結(jié)果,紅色圓框代表識別的乒乓球位置,藍色方框即移動ROI范圍??梢钥闯?,在低速攝影條件下連續(xù)2幀的乒乓球運動距離比高速攝影條件下更遠,故設(shè)置的ROI范圍比在高速攝影條件下大很多,甚至向上的方向已超出攝像機視野范圍。這并不影響對球體的檢測,因為球在運動過程中以向前的方向為主,在這個方向上不會超出攝像機視野范圍,可保證在下一幀圖像的移動ROI中檢測識別出乒乓球。
4 實驗效果驗證
使用高速攝像機(速度為250幀/s,快門為1/2 000 s)共拍攝2段視頻,使用低速攝像機(速度為30~50 幀/s,快門為1/250~1/30 s)共拍攝10段視頻,分別進行驗證實驗。使用低速攝像機時選擇不同的速度和快門進行拍攝,可獲得不同的視頻進行驗證;同時,由于低速攝像機頻率低,每段視頻長度均較短,增加視頻拍攝段數(shù)可避免數(shù)據(jù)量過少而無法驗證實驗的情況。實驗效果用單張圖片跟蹤準確率和跟蹤時間評定:將正確識別乒乓球的單張圖片記為跟蹤準確圖片,單張圖片跟蹤準確率=跟蹤準確圖片數(shù)量/視頻圖片總量;單張(正確識別)圖片的跟蹤時間是指程序中處理一個圖片(完成識別)所需要的時間。具體結(jié)果如表2所示。
從表2可以看出,高速攝像機拍攝的跟蹤準確率明顯高于低速攝像機,且單張圖片識別時間更短。結(jié)果顯示,在高速攝影條件下圖片清晰,利用特征信息識別乒乓球比利用圖片匹配識別效果好,但此時的問題在于圖片數(shù)據(jù)量較大,不便傳輸。另外,盡管在低速攝影條件下的不清晰圖片給識別帶來一定困難,使跟蹤準確率受影響(如本文準確率為74.68%,這在一定程度上是因為圖片數(shù)據(jù)集偏?。?,但當訓(xùn)練樣本量足夠大時,將可緩步提高識別準確率。另外,在低速攝影條件下單張圖片的跟蹤時間平均為23 ms,基本可以滿足實時跟蹤的要求。
5 小 結(jié)
主要針對乒乓球的跟蹤識別問題,從高速攝影和低速攝影2個角度展開研究。在高速攝影條件下利用乒乓球的特征信息進行識別,在低速攝影條件下將圖像分割、機器學(xué)習(xí)和圖像匹配方面的知識進行整合與利用,從而完成識別。最終用實驗進行驗證,實現(xiàn)目標跟蹤。創(chuàng)新之處有以下幾點。
(1)乒乓球識別前利用VOCUS系統(tǒng)對圖像進行分割,可在一定程度上解決環(huán)境及燈光變化導(dǎo)致圖片顏色失真的問題,拓寬方法的適用面。
(2)在高速攝影條件下提出用圓度、周長、面積、X距和Y距等5個特征設(shè)置閾值,并據(jù)此識別乒乓球。
(3)在低速攝影條件下將機器訓(xùn)練和學(xué)習(xí)理論引入乒乓球識別中,由于訓(xùn)練和學(xué)習(xí)都是離線進行的,不占用在線識別時間,可通過多收集訓(xùn)練數(shù)據(jù)提高識別的準確率。該方法可應(yīng)用于不同實驗環(huán)境,只需要提前將新的實驗環(huán)境加入訓(xùn)練樣本即可,突破了受環(huán)境干擾的局限性。
(4)針對在低速攝影條件下圖像識別的特殊性設(shè)計了一種算法,可根據(jù)拖影球的位置和球的運動方向計算真實球體的位置。
(5)規(guī)劃移動ROI算法可在很大程度上降低計算量,縮短計算時間。
雖然通過實驗的方法完成了高速及低速攝影條件下的乒乓球跟蹤,但仍有一定的局限性和不足之處,主要有以下幾點。
(1)在圖像處理方法上創(chuàng)新性不夠。所使用的方法基本上都是已經(jīng)成熟的算法,雖起到整合方法的作用,但并未提出新的圖像處理算法。
(2)機器學(xué)習(xí)的樣本量不夠。主要針對某些特定現(xiàn)實場景進行實驗驗證,如要應(yīng)用于其他場景,還需要對訓(xùn)練樣本加以更新。
(3)未考慮遮擋下的識別問題。
雖然乒乓球跟蹤實驗存在一些不足,但針對高速和低速攝影條件提出的不同算法,基本可滿足正常的跟蹤需要。乒乓球的跟蹤問題一旦解決,即可獲得乒乓球運動的軌跡,這對乒乓球的旋轉(zhuǎn)反推和落點預(yù)測都起到了很大的提示作用。今后將會繼續(xù)針對乒乓球跟蹤問題進行研究,以克服現(xiàn)有不足,爭取實現(xiàn)在實時基礎(chǔ)上保證最高的準確率,為將乒乓球機器人做成一個完美的視覺系統(tǒng)提供參考。
作者貢獻聲明:
季云峰:設(shè)計論文框架,拍攝圖片數(shù)據(jù),做實驗,撰寫、修改論文;
任 杰:提出論文選題,修改論文;
施之皓:審核、指導(dǎo)、修改論文。
參考文獻
[1] 楊華,衣燕慧,劉國東,等.拖影情況下快速飛行乒乓球體的實時識別與跟蹤[J].沈陽航空航天大學(xué)學(xué)報,2014,31(1):47-51
[2] STAUFFER C,GRIMSON W E L.Adaptive background mixture models for real-time tracking[J].Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,1999,2:246-252
[3] HORN B K P,SCHUNCK B G.“Determining optical flow”:A retrospective[J].Artificial Intelligence,1993,59(1-2):81-87
[4] INCE S,KONRAD J.Occlusion-aware optical flow estimation[J].IEEE Transactions on Image Processing,2008,17(8):1443-1451
[5] LAMPERT C H,PETERS J.Real-time detection of colored objects in multiple camera streams with off-the-shelf hardware components[J].Journal of Real-Time Image Processing,2012,7(1):31-41
[6] 張正濤.乒乓球機器人視覺測量與控制[D].北京:中國科學(xué)院,2010:26-37
[7] 張正濤, 徐德. 基于智能攝像機的高速視覺系統(tǒng)及其目標跟蹤算法研究[J].機器人,2009,31(3):229-234
[8] ZHANG Z,XU D,TAN M.Visual measurement and prediction of ball trajectory for table tennis robot[J].IEEE Transactions on Instrumentation and Measurement,2010,59(12):3195-3205
[9] 季云峰,朱玲,沈晏妮.基于OpenCV的比賽圖片中的乒乓球球體識別[J].微型電腦應(yīng)用,2016,32(4):68-70
[10] 季云峰,施之皓,王朝立,等.基于視頻識別的乒乓球發(fā)球裁判系統(tǒng)實驗研究:針對拋球高度和拋球角度問題[J].計算機工程與應(yīng)用,2016,52(10):207-212
[11] HURVICH L M,JAMESON D.An opponent-process theory of color vision[J].Psychological Review,1957,64(6):384-404
[12] FRINTROP S,WERNER T,MARTIN GARCIA G.Traditional saliency reloaded:A good old model in new shape[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015:82-90
[13] KLEIN D A,F(xiàn)RINTROP S.Center-surround divergence of feature statistics for salient object detection[C]//2011 IEEE International Conference on Computer Vision (ICCV).Barcelona:IEEE,2011:2214-2219
[14] 李青山.基于注意力選擇機制的圖像分割與場景理解[D].上海:上海交通大學(xué),2012:11-21
[15] BORJI A,SIHITE D N,ITTI L.Quantitative analysis of human-model agreement in visual saliency modeling:A comparative study[J].IEEE Transactions on Image Processing,2013,22(1):55-69
[16] BRUCE N D B,TSOTSOS J K.Saliency,attention,and visual search:An information theoretic approach[J].Journal of Vision,2009,9(3):13-24
[17] OLSHAUSEN B A,ANDERSON C H,VAN ESSEN D C.A neurobiological model of visual attention and invariant pattern recognition based on dynamic routing of information[J].Journal of Neuroscience,1993,13(11):4700-4719
[18] XIAO P,ZHAO G,CHEN Y.An algorithm for ellipse detection based on geometry[C]//2009 Chinese Conference on Pattern Recognition.Nanjing:IEEE,2009:1-4
[19] ITTI L,KOCH C,NIEBUR E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259
[20] VIOLA P,JONES M.Fast and robust classification using asymmetric adaboost and a detector cascade[C]//Advances in Neural Information Processing Systems.Lake Tahoe:Neural Information Processing Systems Foundation,Inc.(NIPS),2002:1311-1318
Abstract The problems of real-time tracking of table tennis in the visual system of table tennis robot are focused on.Two completely different algorithms are designed to track the table tennis under two different photography conditions of high-speed and low-speed. Under high-speed photography, the five kinds of major characteristic information of table tennis are mainly used to set the threshold for identification which include roundness,circumference,area,X-distance and Y-distance. In the low-speed photography,the machine learning and matching methods are used to achieve a smearing table tennis recognition. A kind of attention-based image segmentation algorithm is used to pre-process the image,which can effectively solve the problem of pixel distortion due to environmental interference and other factors.The algorithm of planning region of interest(ROI) area is proposed. The possible position of table tennis in the next frame image is determined in advance by the movement characteristics of table tennis,which can be used to reduce the calculation amount,shorten the calculation time,and achieve the real-time tracking.
Key words: table tennis robot; visual system; real-time tracking; attention; image segmentation; machine learning