施陳博,王貴錦,林行剛
(清華大學(xué) 電子工程系,北京 100084)
足球作為第一大球類運(yùn)動(dòng)廣為世人喜愛(ài),錄像機(jī)越來(lái)越多地用于足球比賽視頻錄制,以便日后觀看和回顧。自動(dòng)錄制比賽時(shí)常常要預(yù)先設(shè)定將近3倍于比賽視頻大小的存儲(chǔ)空間,以確保所錄制比賽的完整性。為節(jié)省存儲(chǔ)空間,在錄制節(jié)目的時(shí)候自動(dòng)檢測(cè)比賽開(kāi)始和結(jié)束的準(zhǔn)確時(shí)刻,對(duì)視頻內(nèi)容的分類、足球比賽視頻的標(biāo)定、回顧等后期處理工作很有意義。
目前,通過(guò)對(duì)開(kāi)場(chǎng)和終場(chǎng)哨音等一些特殊音頻的分析進(jìn)行開(kāi)場(chǎng)和終場(chǎng)檢測(cè)的算法已被提出[1-2]。但是這種方法在音頻噪聲較大的情況下很難提取出關(guān)鍵特征,并且不是所有比賽都會(huì)有這樣的特征。在基于圖像分析的基礎(chǔ)上,文獻(xiàn)[3]利用檢測(cè)比賽過(guò)程中的顯示時(shí)間Logo來(lái)確定比賽實(shí)際時(shí)刻的算法。這種方法對(duì)Logo的檢測(cè)準(zhǔn)確率要求較高,由于不同的Logo形狀顏色區(qū)別很大,并且有一部分比賽在開(kāi)始和結(jié)束時(shí)不顯示比賽時(shí)間,因此檢測(cè)結(jié)果誤差較大,并且檢測(cè)算法也很難適用于大部分比賽。
由于足球比賽具有相似的場(chǎng)地特征,因此其算法可彌補(bǔ)現(xiàn)有算法的不足?;谧闱虮荣愔戌R頭的檢測(cè)和分類,提出用中層特征來(lái)檢測(cè)比賽的繼續(xù)和中斷,并結(jié)合多維高斯分布的聯(lián)合概率模型,高效準(zhǔn)確地檢測(cè)出比賽的開(kāi)始和結(jié)束。本算法基于對(duì)比賽場(chǎng)地的分析,對(duì)與足球比賽場(chǎng)地相似的體育比賽來(lái)說(shuō),只要改變相應(yīng)的鏡頭定義和分類方法,就可以擴(kuò)展到其他比賽開(kāi)始和結(jié)束的檢測(cè)。
廣播足球比賽開(kāi)始的時(shí)間常常與節(jié)目單預(yù)告的時(shí)間有較大的差別。例如世界杯決賽由于之前有閉幕式,實(shí)際比賽時(shí)間會(huì)推遲一段時(shí)間,而另一些比賽進(jìn)行轉(zhuǎn)播的時(shí)候比賽已經(jīng)開(kāi)始了。基于音頻特征的算法不能很好地處理這些問(wèn)題,而且并不是所有比賽開(kāi)始時(shí)都具有特定的場(chǎng)地特征,比如中圈橢圓、運(yùn)動(dòng)員站位等,每幀處理的復(fù)雜度太大。綜上,應(yīng)選擇以鏡頭為單位的檢測(cè)算法。
對(duì)比賽開(kāi)始和結(jié)束檢測(cè)的完整框圖如圖1所示。對(duì)輸入視頻先進(jìn)行鏡頭的檢測(cè)和分類,然后進(jìn)行特征提取,通過(guò)一組弱分類器,分別檢測(cè)出可能的比賽開(kāi)始和結(jié)束時(shí)刻,接著通過(guò)對(duì)得到的開(kāi)始和結(jié)束時(shí)刻集合進(jìn)行最大似然估計(jì),最終選取最優(yōu)組合得到準(zhǔn)確的比賽開(kāi)始和結(jié)束的檢測(cè)結(jié)果。
圖1 足球比賽開(kāi)始和結(jié)束檢測(cè)框圖
將中間檢測(cè)出可能的比賽開(kāi)始和結(jié)束的時(shí)刻稱作比賽的繼續(xù)和中斷時(shí)刻[4]。為保證檢測(cè)到的比賽完整性,盡量保證檢測(cè)的比賽開(kāi)始時(shí)刻稍早于實(shí)際比賽開(kāi)始時(shí)刻,而檢測(cè)的比賽結(jié)束時(shí)刻適當(dāng)晚于實(shí)際比賽結(jié)束時(shí)刻。
鏡頭(shot)是視頻分析中常用的單位,是指用同一攝像機(jī)連續(xù)進(jìn)行拍攝的一段視頻。在足球比賽視頻中,對(duì)視頻圖像的語(yǔ)義層分析大部分都是基于鏡頭的檢測(cè)。在現(xiàn)有的文獻(xiàn)中,根據(jù)圖像中主顏色像素分布的統(tǒng)計(jì)[5],將足球比賽中的鏡頭分為4類,如圖2所示。
長(zhǎng)鏡頭為對(duì)足球場(chǎng)地全局的視圖,中鏡頭為對(duì)足球場(chǎng)地某特定區(qū)域的拍攝,特寫鏡頭為對(duì)足球場(chǎng)地內(nèi)運(yùn)動(dòng)員或裁判的特寫;場(chǎng)外鏡頭為對(duì)足球場(chǎng)地以外的拍攝。
使用文獻(xiàn)[6]中的算法,能夠較好地區(qū)分長(zhǎng)鏡頭、中鏡頭和特寫鏡頭,改善鏡頭檢測(cè)和分類效果。與一般的廣告鏡頭相比,長(zhǎng)鏡頭是足球比賽中最主要的特征。一般非比賽視頻中不會(huì)長(zhǎng)時(shí)間和高頻率地出現(xiàn)長(zhǎng)鏡頭。通過(guò)對(duì)大量足球比賽視頻的統(tǒng)計(jì)可知,比賽中第1個(gè)長(zhǎng)鏡頭的出現(xiàn)和比賽開(kāi)始的平均時(shí)間差在30 s以內(nèi),因此將比賽的第1個(gè)長(zhǎng)鏡頭作為檢測(cè)比賽開(kāi)始的標(biāo)志是合理的。在檢測(cè)比賽結(jié)束時(shí),將沒(méi)有長(zhǎng)時(shí)間或高頻率長(zhǎng)鏡頭的出現(xiàn)作為主要特征之一。中鏡頭和特寫鏡頭的檢測(cè)能夠消除比賽過(guò)程中由于球員受傷等引起的比賽短暫中斷造成的誤檢,對(duì)提高比賽結(jié)束時(shí)刻檢測(cè)的精度也很有幫助。
以每一個(gè)長(zhǎng)鏡頭為窗口的開(kāi)始,在一段相對(duì)長(zhǎng)且長(zhǎng)度固定的時(shí)間內(nèi)統(tǒng)計(jì)各類鏡頭的數(shù)目和長(zhǎng)度(見(jiàn)圖3)。
圖 3 中,W1,W2,W3,…為檢測(cè)窗口,窗口的起始位置為長(zhǎng)鏡頭,每個(gè)窗口的長(zhǎng)度固定為T(實(shí)驗(yàn)中取T=5 min)。分別統(tǒng)計(jì)足球比賽和非足球視頻中長(zhǎng)鏡頭出現(xiàn)的頻率和長(zhǎng)度,提取出如下能夠較好區(qū)分不同窗口的弱分類特征:F1為最后一個(gè)長(zhǎng)鏡頭和窗口末端的時(shí)間長(zhǎng)度,F(xiàn)2為該窗口中的長(zhǎng)鏡頭總數(shù),F(xiàn)3為該窗口中長(zhǎng)鏡頭總的時(shí)間長(zhǎng)度,F(xiàn)4為相鄰兩個(gè)長(zhǎng)鏡頭之間的時(shí)間長(zhǎng)度,F(xiàn)5為中鏡頭和特寫鏡頭的總數(shù)。其中,F(xiàn)1是為了準(zhǔn)確定位比賽中斷的時(shí)刻,F(xiàn)2和F3是比賽進(jìn)行中區(qū)別于其他電視節(jié)目的分類特征,F(xiàn)4和F5的作用是增加足球比賽進(jìn)程檢測(cè)的可靠性。
通過(guò)不同的分類器將長(zhǎng)鏡頭分為3類比賽鏡頭:中斷鏡頭、繼續(xù)鏡頭和非關(guān)鍵鏡頭。中斷鏡頭指比賽發(fā)生中斷時(shí)所在的鏡頭。繼續(xù)鏡頭是指比賽從中斷到繼續(xù)進(jìn)行所在的鏡頭。其余鏡頭統(tǒng)稱為非關(guān)鍵鏡頭。非關(guān)鍵鏡頭短時(shí)間內(nèi)只存在于比賽過(guò)程中,因此對(duì)比賽起始和終止檢測(cè)有用的主要為前兩種鏡頭。由于比賽繼續(xù)和中斷在時(shí)間軸上必然是依次交錯(cuò)的,因此根據(jù)前一個(gè)有效鏡頭的類別,可以確定當(dāng)前所要檢測(cè)的鏡頭是繼續(xù)鏡頭還是中斷鏡頭。對(duì)這兩類鏡頭的檢測(cè),采用上述特征的弱分類器的不同組成來(lái)實(shí)現(xiàn)對(duì)不同比賽鏡頭的檢測(cè)。具體的分類器實(shí)現(xiàn)如圖4所示,其余鏡頭都作為非關(guān)鍵鏡頭,不再進(jìn)行分析和處理。
圖4 繼續(xù)鏡頭和中斷鏡頭分類器流程
經(jīng)過(guò)不同的比賽鏡頭分類器分類,可以檢測(cè)所有可能的比賽繼續(xù)和中斷的長(zhǎng)鏡頭。為了盡量保證檢測(cè)到的比賽的完整性,根據(jù)當(dāng)前長(zhǎng)鏡頭前后一定范圍內(nèi)的鏡頭種類和數(shù)目進(jìn)行細(xì)微調(diào)整:在檢測(cè)到的繼續(xù)鏡頭之前2~3個(gè)鏡頭中,如果出現(xiàn)中鏡頭和特寫,則繼續(xù)鏡頭位置適當(dāng)前移;在檢測(cè)到的中斷鏡頭之后3~5個(gè)鏡頭中出現(xiàn)中鏡頭和特寫,則中斷鏡頭位置適當(dāng)后移。這樣能得到更合理的比賽開(kāi)始或者終止的時(shí)刻。
如圖5所示,通過(guò)特征提取和對(duì)比賽繼續(xù)中斷的檢測(cè),得到比賽繼續(xù)和中斷的時(shí)刻序列L2。實(shí)際足球比賽在時(shí)域上存在一定的規(guī)律(L1),目的是要在L2中找到與真實(shí)比賽L1的最大似然估計(jì),獲得最為接近的時(shí)刻組合,L3就是最佳匹配結(jié)果。
檢測(cè)到比賽開(kāi)始的時(shí)刻集合為 S={s1,s2, …,sn},檢測(cè)到比賽結(jié)束的時(shí)刻集合為 E={e1,e2,…,em}。 為簡(jiǎn)化問(wèn)題,這里暫不考慮加時(shí)賽的影響。在集合S和E中各取2個(gè)點(diǎn) si,sj和 ek,el,組合成有序序列。每個(gè)檢測(cè)到的時(shí)刻可以認(rèn)為是獨(dú)立的,而相鄰時(shí)刻的間隔需要滿足實(shí)際比賽模型的約束。因此每組抽取的數(shù)據(jù),通過(guò)聯(lián)合概率分布來(lái)描述對(duì)實(shí)際比賽模型的估計(jì)。對(duì)于選取的每一組數(shù)據(jù) X=(si,sj,ek,el),對(duì)模型的似然估計(jì)概率為
式中:pf,ps分別為所在時(shí)刻組合在上、下半場(chǎng)的概率,pm為其組合中場(chǎng)休息時(shí)間的概率。pm在不同錄制的足球比賽視頻中差別較大,所以在直播情況下,pm同樣是高斯分布,聯(lián)合概率中需要考慮pm的影響,而在一些剪輯過(guò)的比賽錄像中,pm在(0,t)之間均勻分布。將所有對(duì)模型得到的估計(jì)和預(yù)先統(tǒng)計(jì)的門限概率相比較后取最大值,得到對(duì)模型的最大似然估計(jì),來(lái)確定視頻中是否為完整的比賽,同時(shí)也給出完整比賽的開(kāi)始和結(jié)束時(shí)刻
式中:pth為統(tǒng)計(jì)得到的概率閾值;tfs,tfe,tss,tse為檢測(cè)結(jié)果。
對(duì)50場(chǎng)比賽的上下半場(chǎng)的時(shí)間進(jìn)行了統(tǒng)計(jì)。經(jīng)過(guò)一次3階的平滑后,得到對(duì)比賽長(zhǎng)度的統(tǒng)計(jì)結(jié)果:前半場(chǎng)的峰值時(shí)間在46 min,而后半場(chǎng)的峰值時(shí)間在48 min,如圖6所示。
利用高斯分布擬合統(tǒng)計(jì)結(jié)果。由于時(shí)間在峰值的兩側(cè)是不等同的,足球比賽規(guī)則是上下半場(chǎng)的時(shí)間為45 min,但一般的比賽要大于45 min,因此采用雙邊高斯函數(shù)來(lái)描述上下半場(chǎng)長(zhǎng)度分布
式中:σf1,σf2,σs1,σs2分別為各邊對(duì)應(yīng)的方差。
試驗(yàn)中使用9場(chǎng)完整的足球比賽和30段包含部分足球比賽和無(wú)比賽的視頻作為測(cè)試的數(shù)據(jù)集。為了證明該算法的穩(wěn)健性,在選取的9場(chǎng)完整比賽中包含多種不同的場(chǎng)地和環(huán)境。比賽來(lái)源如表1所示。
實(shí)現(xiàn)文獻(xiàn)[6]中的算法進(jìn)行的鏡頭檢測(cè)和分類,可以得到95%以上的檢測(cè)率和5%以下的誤檢率。因?yàn)楸疚乃惴ɑ诼?lián)合概率分布,這樣的鏡頭檢測(cè)率不影響對(duì)比賽關(guān)鍵時(shí)刻的檢測(cè)率。首先對(duì)數(shù)據(jù)集上進(jìn)行是否包含完整足球比賽的檢測(cè),誤檢率為0%,檢測(cè)準(zhǔn)確率為100%。結(jié)果說(shuō)明了算法能夠很好地區(qū)分完整的比賽視頻。對(duì)這9場(chǎng)完整比賽的檢測(cè)結(jié)果誤差如圖7所示。
由圖7可以看到,比賽開(kāi)始時(shí)刻的檢測(cè)誤差基本小于0,比賽結(jié)束時(shí)刻的檢測(cè)誤差基本大于0。檢測(cè)誤差最大約為2 500幀(約80 s)。誤差的絕對(duì)均值最大值為749幀(約25 s)。下半場(chǎng)結(jié)束檢測(cè)誤差最大,原因是在比賽終場(chǎng)時(shí)會(huì)有較多的回放和特寫等鏡頭,使準(zhǔn)確的比賽結(jié)束點(diǎn)檢測(cè)受到影響。視頻數(shù)據(jù)中還包含轉(zhuǎn)播時(shí)比賽已經(jīng)開(kāi)始的2場(chǎng)比賽,本文算法的結(jié)果令人滿意。
提出了一種檢測(cè)足球比賽視頻開(kāi)始和結(jié)束的算法。通過(guò)對(duì)鏡頭準(zhǔn)確的檢測(cè)和分類,從中提取出比賽繼續(xù)或是中斷的時(shí)刻,再利用多維高斯分布檢測(cè)出比賽的開(kāi)始和結(jié)束。算法在現(xiàn)有的測(cè)試集上獲得了100%的檢測(cè)率,并且檢測(cè)時(shí)刻誤差均值小于30 s。由于該算法基于視頻鏡頭分析,可擴(kuò)展應(yīng)用到對(duì)其他類型的體育視頻分析中,也容易達(dá)到實(shí)時(shí)效果,特別是在實(shí)時(shí)比賽的錄制和分析中具有實(shí)用意義。但是對(duì)于一般的足球集錦,本文方法還具有一定的局限性,在以后的工作中可以改進(jìn)。
致謝:在此感謝Sony(中國(guó))研究院對(duì)本研究的支持。
[1]RADHAKRISHNAN R,DIVAKARAN A,OTSUKA I.Sports program boundary detection[C]//Proc.ICME 2006.Toronto: IEEE Press,2006:1621-1624.
[2] TJONDRONEGORO D.The power of play-break for automatic detection and browsing of self-consumable sport video highlights[C]//Proc.MIR′04, 2004.New York:[s.n.],2004: 267-274.
[3] LI Yiqun, WAN Kongwah, YAN Xin, et.al.Video clock time recognition based on temporal periodic pattern change of the digit characters[C]//Proc.IEEE ICASSP 2006.Toulouse, France: IEEE Press, 2006: 653-656.
[4] AHMT E,MURAT T.Generic play-break event detection for summarization and hierarchical sports video analysis[C]//Proc.Multimedia and Expo, 2003.Baltimore, MD, USA:IEEE Press,2003, 1:169-172.
[5] AHMT E,MURAT T.Robust dominant color region detection and color-based applications for sports video[C]//Proc.ICIP,2003.Barcelona, Spain: IEEE Press, 2003: 21-24.
[6] HAN Bo, HU Yichuan, WANG Guijin, et al.Enhanced sports video shot boundary detection based on middle level features and a unified model[J].IEEE Trans.Consumer Electronics, 2007, 53(3):1168-1176.
施陳博,博士生,主研模式識(shí)別和人工智能;
王貴錦,副教授,主研視頻處理與通信;
林行剛,教授,主研圖像/視頻處理與分析、視覺(jué)信息壓縮編碼及應(yīng)用和模式識(shí)別。