吳凌琳,楊磊,吳曉雨
(中國(guó)傳媒大學(xué) 信息工程學(xué)院,北京 100024)
視頻摘要系統(tǒng)的技術(shù)研究與實(shí)現(xiàn)
吳凌琳,楊磊,吳曉雨
(中國(guó)傳媒大學(xué) 信息工程學(xué)院,北京 100024)
本文針對(duì)未進(jìn)行后期編輯的視頻序列設(shè)計(jì)了一個(gè)視頻摘要系統(tǒng)。以視頻幀圖像的累積直方圖來(lái)提取圖像特征,有效地解決了光照的改變使鏡頭內(nèi)直方圖差異較大以及直方圖對(duì)物體/攝像機(jī)的運(yùn)動(dòng)的魯棒性有限兩大問題,并結(jié)合了滑動(dòng)窗口算法,有效地實(shí)現(xiàn)對(duì)視頻序列的鏡頭邊界檢測(cè)。另外,本文還提出了一種基于鏡頭和圖像內(nèi)容的關(guān)鍵幀提取算法,降低計(jì)算的復(fù)雜度,并且提取的關(guān)鍵幀能更全面準(zhǔn)確地體現(xiàn)原視頻的內(nèi)容。
視頻摘要;直方圖;鏡頭邊界檢測(cè);關(guān)鍵幀;幀差值
隨著多媒體和計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,多媒體基于內(nèi)容的訪問、檢索和交互操作的應(yīng)用越來(lái)越廣泛。視頻作為各種媒體中形式和內(nèi)容最豐富的媒體類型,越來(lái)越受到用戶的青睞,這就需要一種技術(shù)能使用戶不必看整段的視頻序列而獲取一定的信息并找到感興趣的位置。這種技術(shù)就是現(xiàn)在引起廣泛關(guān)注的視頻摘要技術(shù)。
視頻摘要應(yīng)用范圍非常廣泛,視頻數(shù)據(jù)的存檔及檢索、影視行業(yè)的應(yīng)用、家庭娛樂業(yè)、軍用及公安用途、醫(yī)學(xué)影像用途、航天/航空影像分析等這些都需要運(yùn)用視頻摘要技術(shù)[1-2]。
目前,許多存儲(chǔ)設(shè)備比如磁帶、P2卡等,都會(huì)將所有鏡頭存儲(chǔ)成一個(gè)視頻序列,這給視頻數(shù)據(jù)庫(kù)的管理以及后期的剪輯帶來(lái)很多麻煩。針對(duì)這一視頻數(shù)據(jù)的存檔及檢索問題,本文設(shè)計(jì)了一個(gè)視頻摘要系統(tǒng)來(lái)檢索出長(zhǎng)序列視頻里不同鏡頭序列,并生成相應(yīng)的關(guān)鍵幀圖像,以便快速地查找到所需要的鏡頭的視頻序列。
2.1 鏡頭邊界
要生成針對(duì)鏡頭的視頻摘要,首先要將視頻分割成獨(dú)立的鏡頭,再通過(guò)選取每個(gè)鏡頭的關(guān)鍵幀來(lái)表示該鏡頭??紤]到視頻數(shù)據(jù)量大的特點(diǎn),實(shí)際中分割主要采用基于邊界的方法,即通過(guò)檢測(cè)鏡頭間的分界來(lái)確定鏡頭的轉(zhuǎn)換位置。
視頻鏡頭邊界分為突變與漸變兩種[3]。由于本文所要設(shè)計(jì)的系統(tǒng)是針對(duì)未剪輯處理過(guò)的視頻序列,不存在鏡頭邊界的漸變,所以只需考慮突變。突變鏡頭邊界中間沒有使用任何攝影編輯效果,其特點(diǎn)是鏡頭切換在兩幀圖像間完成,沒有時(shí)間長(zhǎng)度,突變前的幀屬于上一個(gè)鏡頭,突變后的幀屬于下一個(gè)鏡頭。
2.2 圖像特征
鏡頭作為組成視頻圖像的基本單元,表現(xiàn)為其場(chǎng)景的連續(xù)性和內(nèi)容的相關(guān)性,這種相關(guān)性體現(xiàn)為圖像特征的連續(xù)性。因此,鏡頭的變化或轉(zhuǎn)換存在時(shí)間上特征變化的不連續(xù)性,然而,視頻圖像的特征有很多:灰度特征、直方圖法、邊緣特征、運(yùn)動(dòng)特征。
表1 圖像特征比較
針對(duì)這些可選的圖像特征,要選取何種特征極為關(guān)鍵。所以本文對(duì)四種特征進(jìn)行比較,如表1所示,直方圖特征對(duì)運(yùn)動(dòng)的敏感性,計(jì)算的復(fù)雜度,受干擾影響的程度都是最低的。綜合這三方面因素考慮,利用直方圖特征來(lái)度量?jī)蓭瑘D像的差異程度是最合適的方法。
2.3 直方圖法
但是直方圖方法對(duì)于光照的改變使同一鏡頭內(nèi)的多幀圖像直方圖差異較大的情況無(wú)效;另外,直方圖對(duì)物體/攝像機(jī)的運(yùn)動(dòng)的魯棒性也有限。針對(duì)這些問題,累積直方圖能較為有效地解決。因此,本文采用基于累積直方圖的鏡頭邊界檢測(cè)。
累積直方圖是一個(gè)1-D的離散函數(shù),即有
(1)
上式中k代表圖像的特征取值,L是特征可取值的個(gè)數(shù),nk是圖像中具有特征值為k的像素的個(gè)數(shù),N是圖像像素的總數(shù)[4]。
計(jì)算幀圖像間的幀差值,可在得到圖像特征的累計(jì)直方圖后,借助計(jì)算累積直方圖的距離來(lái)進(jìn)行。
對(duì)于累積直方圖距離,目前有四種距離標(biāo)準(zhǔn):
相關(guān)(correlation)、卡方(chi-square)、直方圖相交(intersection)、巴氏(Bhattacharyya)距離[5]。在相對(duì)慢速但較精確的情況下,用卡方或巴氏距離的效果最好。
對(duì)于卡方和巴氏距離,低分比高分匹配的匹配程度高,完全匹配的值為0。但卡方距離完全不匹配為無(wú)限值,而巴氏距離完全不匹配為1。為了計(jì)算和比較的方便,本文選取巴氏距離:
(2)
2.4 閾值選取
對(duì)于鏡頭突變檢測(cè),可以根據(jù)鏡頭在切換處視頻幀圖像的物理特性會(huì)發(fā)生明顯跳變的特點(diǎn),計(jì)算出視頻相鄰圖像的累積直方圖幀差值檢測(cè)鏡頭邊界,這需判斷幀差值是否存在超過(guò)閾值的單一峰值。
對(duì)于閾值選取方法的不同,可分為全閾值算法和自適應(yīng)閾值算法。
全閾值算法是最簡(jiǎn)單的閾值確定方法,即選取一個(gè)固定的閾值,當(dāng)幀差值大于閾值的位置判定為鏡頭邊界。但是由于不同視頻序列間甚至同一視頻序列中不同部分的幀圖像特性不同,比如不同的視頻鏡頭其運(yùn)動(dòng)的劇烈程度不相同,幀差值的變化范圍也相當(dāng)大,使得全局閾值法存在著較大的誤檢和漏檢。
2.5 實(shí)驗(yàn)結(jié)果和分析
實(shí)驗(yàn)中選取電影《雨果》里的只有突變鏡頭切換的一個(gè)片段。此序列中所有幀圖像,共146幀,145個(gè)幀差值。
對(duì)整段序列求相鄰幀間累積直方圖Bhattacharyya距離,數(shù)據(jù)如圖1所示。一般鏡頭持續(xù)長(zhǎng)度都會(huì)超過(guò)1s,按照每秒24幀的速率來(lái)算,滑動(dòng)窗口寬度可選為win=15幀,可以保證每個(gè)窗口中只會(huì)出現(xiàn)一個(gè)鏡頭切換。實(shí)驗(yàn)結(jié)果如表2所示。
圖1 所有相鄰幀累積直方圖差值
表2 滑動(dòng)窗口閾值
從表2中可以看出,只有窗口46~60和窗口106~120內(nèi)有存在鏡頭突變。如圖1所示,在窗口46~60內(nèi)閾值T=0.0187113,大于閾值的點(diǎn)只有(54,0.0274),即在第54幀和第55幀(圖2)之間出現(xiàn)了鏡頭突變(鏡頭邊界1)。在窗口106~120內(nèi)有閾值T=0.00940886,大于閾值的點(diǎn)只有(116,0.01375) 即在第116幀和第117幀(圖3)之間出現(xiàn)了鏡頭突變(鏡頭邊界2)。
第54幀
第55幀
第116幀
第117幀
2.6 性能評(píng)價(jià)
為了檢測(cè)鏡頭邊界檢測(cè)算法的效果,我們選取了八段視頻片段進(jìn)行試驗(yàn)。在試驗(yàn)中,利用查全率和查準(zhǔn)率來(lái)衡量算法的鏡頭邊界檢測(cè)效果。表3給出了基于累積直方圖和統(tǒng)計(jì)直方圖兩種算法的鏡頭邊界檢測(cè)結(jié)果可以看出累積直方圖方法的查全率都在90%上,而統(tǒng)計(jì)直方圖方法出現(xiàn)低于50%以下的查全率??傮w上,累積直方圖的鏡頭邊界檢測(cè)算法能達(dá)到98.68%的查全率和95.51%的查準(zhǔn)率,說(shuō)明該算法具有檢測(cè)效果。
表3 實(shí)驗(yàn)結(jié)果數(shù)據(jù)
3.1 關(guān)鍵幀
關(guān)鍵幀是反映鏡頭中主要信息內(nèi)容的一幀或若干幀圖像,可以簡(jiǎn)潔地表達(dá)鏡頭內(nèi)容,用關(guān)鍵幀代表鏡頭,作用類似于文本檢索中的關(guān)鍵詞。
目前常用的關(guān)鍵幀提取算法主要有以下幾種算法[7]。
基于鏡頭邊界的關(guān)鍵幀提取算法[8],是一種最簡(jiǎn)單、最快捷的關(guān)鍵幀提取方法。這種方法運(yùn)算量非常小,適合于內(nèi)容活動(dòng)性小的鏡頭,而缺點(diǎn)是攝像機(jī)或內(nèi)容運(yùn)動(dòng)的鏡頭,由于只選取前后兩幀或中間幀作為關(guān)鍵幀,無(wú)法全面有效地表達(dá)鏡頭內(nèi)容。
基于運(yùn)動(dòng)分析的關(guān)鍵幀提取算法[9],能隨著鏡頭內(nèi)容的變化來(lái)選擇相應(yīng)的關(guān)鍵幀,缺點(diǎn)是依賴于局部信息,魯棒性不強(qiáng),而計(jì)算量很大。
基于內(nèi)容的關(guān)鍵幀提取算法主要是利用視頻中每一幀圖像的顏色、亮度、紋理等信息與相鄰幀之間的差異來(lái)確定關(guān)鍵幀的。也能夠根據(jù)視頻內(nèi)容的變化程度來(lái)動(dòng)態(tài)地選擇關(guān)鍵幀,但當(dāng)有鏡頭運(yùn)動(dòng)或視頻內(nèi)容變化較為頻繁、劇烈時(shí),會(huì)有一定的冗余。
基于壓縮視頻流的關(guān)鍵幀提取算法,不需要對(duì)視頻進(jìn)行全部解壓縮,減少了很大的運(yùn)算量,提取出的關(guān)鍵幀能夠較好地代表視頻的主要內(nèi)容,但對(duì)視頻中的閃光燈和噪聲干擾很敏感,容易產(chǎn)生冗余和誤檢,提取過(guò)多的關(guān)鍵幀。
3.2 基于鏡頭和圖像內(nèi)容的關(guān)鍵幀提取
從前文對(duì)關(guān)鍵幀提取技術(shù)的分析可以看出,目前的算法各有優(yōu)缺點(diǎn),并不存在一種最優(yōu)算法。因此本為從算法復(fù)雜度和全面性兩方面考慮,選取了將基于鏡頭和基于圖像內(nèi)容兩種技術(shù)相結(jié)合的關(guān)鍵幀提取算法。基于鏡頭的關(guān)鍵幀提取算法最簡(jiǎn)單,計(jì)算復(fù)雜度最低;而基于圖像內(nèi)容的技術(shù)可利用鏡頭邊界檢測(cè)中的累積直方圖數(shù)據(jù),一定程度上也降低了計(jì)算的復(fù)雜度,并且能夠較為全面的提取到鏡頭內(nèi)的關(guān)鍵幀。其基本思路是:首先對(duì)視頻序列進(jìn)行鏡頭邊界檢測(cè),提取鏡頭的首幀作為此鏡頭的第一幅關(guān)鍵幀;其次選出鏡頭內(nèi)相鄰幀差值超過(guò)閾值的幀圖像作為鏡頭的關(guān)鍵幀;最后去冗余,當(dāng)與前一幅關(guān)鍵幀幀間距離小于15幀,則兩幀關(guān)鍵幀進(jìn)行比較:若前一幀關(guān)鍵幀是鏡頭首幀,直接舍棄當(dāng)前關(guān)鍵幀;否則取幀間差較大的一幀作為關(guān)鍵幀,另一幀舍棄。
閾值選取方法上如果關(guān)鍵幀仍采用滑動(dòng)窗口閾值算法求閾值,在鏡頭內(nèi)容出現(xiàn)較快變化時(shí),所求得的閾值會(huì)提取出太多冗余關(guān)鍵幀。所以在關(guān)鍵幀提取的部分本文采用了改進(jìn)的全閾值算法。改進(jìn)的算法是對(duì)特征量的分布用高斯函數(shù)進(jìn)行建模:假設(shè)其符合均值為μ,方差為σ的高斯分布N(μ,σ),設(shè)定閾值為T=μ+γσ。其中,γ是一個(gè)調(diào)節(jié)誤檢數(shù)的參數(shù)。
3.3 實(shí)驗(yàn)結(jié)果和分析
對(duì)第二部分中經(jīng)過(guò)鏡頭邊界檢測(cè)的《雨果》片段進(jìn)行關(guān)鍵幀提取,前文已經(jīng)進(jìn)行鏡頭分割,將視頻序列分成3個(gè)鏡頭。
鏡頭0(1~54幀)、鏡頭1(55~116幀)、鏡頭2(117~146幀)中所有相鄰幀圖像累積直方圖幀間差值如圖4、圖6、圖8所示。利用改進(jìn)的全局閾值算法求得三個(gè)鏡頭內(nèi)的閾值分別為T0=0.0031288072,T1=0.0009256033,T2=0.0009756255。根據(jù)基于鏡頭和圖像內(nèi)容的關(guān)鍵幀提取算法,鏡頭0提取到的關(guān)鍵幀為:第1幀,第21幀,第40幀(圖5);鏡頭1提取到的關(guān)鍵幀為:第55幀,第72幀,第96幀,第115幀(圖7);鏡頭2提取到的關(guān)鍵幀為:第117幀,第145幀(圖9)。
圖4 鏡頭0相鄰幀圖像累積直方圖幀間差值
第1幀
第22幀
第40幀
圖6 鏡頭1相鄰幀圖像累積直方圖幀間差值
第55幀
第72幀
第96幀
第115幀
圖8 鏡頭2相鄰幀圖像累積直方圖幀間差值
第117幀
第145幀
3.4 性能評(píng)價(jià)
在性能方面,提取出的關(guān)鍵幀必須能夠代表視頻的主要內(nèi)容和視頻中主要事件的發(fā)生過(guò)程。提取出的關(guān)鍵幀的好壞的評(píng)判標(biāo)準(zhǔn)主要是看其是否完整地描述了視頻中發(fā)生的主要事件,在保證不漏檢的情況下,盡量地減少冗余的關(guān)鍵幀,保持一個(gè)比較低的冗余度。
本文選取了《尼基塔》中的片段,進(jìn)行實(shí)驗(yàn),將本文算法提取的關(guān)鍵幀與人工選取的關(guān)鍵幀進(jìn)行比較。
對(duì)比圖10和圖11可以看出,本文算法所提取的關(guān)鍵幀與我們?nèi)斯ぬ崛〉年P(guān)鍵幀很相近,能夠更全面、準(zhǔn)確地體現(xiàn)原視頻的內(nèi)容,達(dá)到了我們所預(yù)期的效果。
圖10 人工選取的關(guān)鍵幀
圖11 本文算法提取的關(guān)鍵幀
4.1 系統(tǒng)設(shè)計(jì)框圖
視頻摘要系統(tǒng)的框圖如圖12所示。
4.2 系統(tǒng)界面
利用前面所述的算法,在VC6.0平臺(tái)上結(jié)合OpenCV和MFC設(shè)計(jì)了一個(gè)視頻摘要系統(tǒng)。其具體界面如圖13~15。
此視頻摘要系統(tǒng)針對(duì)未經(jīng)過(guò)編輯的視頻序列,即只含有鏡頭突變的視頻序列。本文利用累積直方圖巴氏(Bhattacharyya)距離和滑動(dòng)窗口閾值算法來(lái)檢測(cè)突變鏡頭邊界,實(shí)現(xiàn)了對(duì)突變鏡頭的有效分割;另外,提出了基于鏡頭和圖像內(nèi)容的關(guān)鍵幀提取算法,采用鏡頭首幀和相鄰幀圖像內(nèi)容比較提取出的圖像作為鏡頭的關(guān)鍵幀。實(shí)驗(yàn)證明,此算法查找到的關(guān)鍵幀能夠較為全面的作為鏡頭內(nèi)容的概要。
圖12 視頻摘要系統(tǒng)框圖
圖13 選取視頻界面
圖14 鏡頭注釋界面
圖15 視頻摘要列表
本文只是針對(duì)視頻摘要進(jìn)行后期編輯的視頻序列研究的視頻摘要系統(tǒng),沒有漸變的鏡頭切換。但更多的視頻序列有包含淡入淡出、疊畫等漸變鏡頭切換,這就需要對(duì)漸變鏡頭的切割進(jìn)行研究。另外,視頻摘要的系統(tǒng)并不是通用的,針對(duì)特定的專業(yè)需要進(jìn)行研究,比如醫(yī)學(xué)應(yīng)用視頻、公安應(yīng)用視頻等等,都急需進(jìn)行深入的研究。其次,關(guān)鍵幀提取算法雖然提取的關(guān)鍵幀較為全面,但對(duì)于有些特寫動(dòng)作鏡頭提取的關(guān)鍵幀相對(duì)過(guò)多,造成一定的冗余,需要進(jìn)一步的改進(jìn)算法,減少關(guān)鍵幀的冗余。
[1]余衛(wèi)宇,曹燕,謝勝利.視頻摘要的現(xiàn)狀和研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2008,25(7):1948-1951.
[2]陳劍贇,老松揚(yáng),吳玲達(dá).視頻摘要[J].中國(guó)圖象圖形學(xué)報(bào),2003,8A(7):721-725.
[3]耿玉亮,須德.視頻鏡頭邊界檢測(cè)的統(tǒng)一策略[J].中國(guó)圖象圖形學(xué)報(bào),2005,10(5):650-655.
[4]章毓晉.基于內(nèi)容的視覺信息檢索[M].北京:科學(xué)出版社,2003.
[5]Gary Bradski ,Adrian Kaebler.Learning OpenCV: Computer Vision with the OpenCV Library[M],O’Reilly Media,2008.
國(guó)電影要走怎樣的道路才能使電影的藝術(shù)價(jià)值與商業(yè)價(jià)值得到雙贏。
參考文獻(xiàn)
[1]2008中國(guó)電影產(chǎn)業(yè)研究報(bào)告[M].北京:中國(guó)電影出版社,2008.
[2]曾耀農(nóng),陳忠斌.中國(guó)電影的營(yíng)銷策略[J].,武漢科技學(xué)院學(xué)報(bào),2005,(7):93-97.
[3]蒲元瀛.中國(guó)電影商業(yè)模式分析及實(shí)證研究[D].重慶:重慶大學(xué),2004.
[4]Litman, Barry R.Predicting Success of Theatrical Movies: An Empirical Study[J]. Journal of Popular Culture ,1983,(16): 159-175.
[5]Jehoshua Eliashberg,Steven M Shugan. Film critics: Influencers or predictors[J]. Journal of Marketing,1997,(61):68-78.
[6]Joseph Lampel,Jamal Shamsie. Critical Push : Strategies for Creating Momentum in the Motion Picture Industry [J]. Journal of Management,2000,(26):233-257.
[7]Robert E Krider,Charles B Weinberg. Competitive Dynamics and the Introduction of New Products: The Motion Picture Timing Game [J]. Journal of Marketing Research,1998,(35): 1-15.
[8]E. Ray Canterbery,Marvasti A. The U.S Motion Picture Industry: An Empirical Approach[J ]. Review of Industrial Organization,2001,(19):81-98.
[9]Basuroy, Suman,Subimal Chatterjee. Fast and Frequent: Investigating Box Office Revenues of Motion Picture Sequels[J]. Journal of Business Research,2008,(61):798-803 .
ResearchandImplementontheTechniquesofVideo
WU Ling-lin,YANG Lei,WU Xiao-yu
(Information Engineering School,Communication University of China,Beijing 100024,China)
This paper focuses on designing a system that is capable of abstracting useful video frames for archiving.Cumulative histogram is adopted to detect the edges of video frames due to its lower sensitivity to the motion of objects/camera and illumination variations than statistics histogram.Dynamic threshold based sliding-window is used to detect the shot boundaries.To get the key frames in favor of its representativeness,we use the key frame extraction method based on the shots and image content.
video abstraction,histogram,shot boundary detection,key frame,frame differencing
2012-10-26
吳凌琳(1990-),女(漢族),福建泉州人,中國(guó)傳媒大學(xué)碩士研究生.E-mail:carinel@163.com
TP391.41
A
1673-4793(2013)01-0044-09
(責(zé)任編輯:王謙)