姜騰飛 陳祎瓊 江金銘 汪超 張倩倩
摘要:考慮到交通監(jiān)控視頻中相鄰幀內(nèi)容比較相近,為了減少檢索計算量,從中提取視頻關(guān)鍵幀。文章介紹了從交通監(jiān)控視頻中提前關(guān)鍵幀的常用方法,著重研究了基于內(nèi)容提取關(guān)鍵幀,并對此種方法做了一定的改進,減少了計算量。文章中闡述了根據(jù)歐式距離的大小確定本幀和前后幀的相似度,歐式距離極大時表示三幀間相似度極小的思想,并在此基礎(chǔ)上實現(xiàn)了視頻關(guān)鍵幀的提取,給出了實驗結(jié)果。
關(guān)鍵詞:關(guān)鍵幀;三幀差;歐式距離;極大值
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2015)34-0151-03
Abstract:Considering content of the adjacent frames in the traffic monitoring video is similar, in order to reduce the searching computation, extract key frames from the video . This paper first introduced the commonly methods of extracting key frames from the traffic surveillance video , then studied the method of extracting key frames based on content, and done some improvement in this kind of method, reduced the amount of calculation. This paper elaborated according to the size of the Euclidean distance to determine the similarity of before and after the frame and the frame, Euclidean distance will be a maximal value when the three frame were little similarity , and on this basis to realize extracting the key frames from the video , and the paper gave the experimental results .
Key words:key-frame; three frame difference; Euclidean distance; maximal value
1 概述
由于視頻的數(shù)據(jù)量巨大,為了減少視頻索引的數(shù)據(jù)量,可以提取視頻關(guān)鍵幀。關(guān)鍵幀去除了視頻中變化少的內(nèi)容,提供了視頻圖像幀序列的概貌,作為視頻的索引使用。
基于內(nèi)容的視頻檢索一般要經(jīng)過三個步驟[1]:首先,通過場景轉(zhuǎn)換檢測(Scene Change Detection,SCD)技術(shù)分割視頻鏡頭,鏡頭是同一個場景下的一段視頻單元;其次,提取每個鏡頭的關(guān)鍵幀或者代表幀(r幀),并提取這些幀的特征數(shù)據(jù),建立索引數(shù)據(jù)庫;最后,根據(jù)用戶提供的需求信息匹配索引數(shù)據(jù)庫,達到檢索的目的。
考慮到交通視頻和一般視頻有明顯的區(qū)別[2],一般的視頻拍攝場景可能會有變換,導(dǎo)致視頻數(shù)據(jù)由多個鏡頭組成,而交通視頻通常是將視頻采集設(shè)備固定到某個路口,所以幾乎沒有場景轉(zhuǎn)換的問題,所以對于交通視頻的檢索,我們一般可以省略分割視頻鏡頭的步驟,直接進入提取關(guān)鍵幀的步驟。而基于車牌識別的視頻中車輛檢索,只需要分析提取關(guān)鍵幀中出現(xiàn)的車輛牌照信息,存入索引數(shù)據(jù)庫,以備檢索即可。所以提取視頻關(guān)鍵幀是檢索的第一步。
2 關(guān)鍵幀提取常用方法
交通監(jiān)控視頻中車輛檢索時,提取視頻關(guān)鍵幀必須反應(yīng)視頻中主要的內(nèi)容,使得視頻中出現(xiàn)的所有車輛都能出現(xiàn)在關(guān)鍵幀中。所以提取的關(guān)鍵幀必須能夠反應(yīng)鏡頭的主要事件,寧可錯選,不能錯過,但是,之所以提取關(guān)鍵幀是考慮到減少檢索時的數(shù)據(jù)和計算量,因此關(guān)鍵幀又要越少越好,目前提取關(guān)鍵幀的主要方法有:
1)鏡頭法
鏡頭法選取關(guān)鍵幀一般有三種方法:基于鏡頭邊界的方法、直方圖均值法和幀均值法。基于鏡頭邊界的方法通常選擇鏡頭片段的第一幀、中間幀和最后一幀為關(guān)鍵幀;直方圖均值法是求取鏡頭中所有幀的直方圖,而后用這些直方圖均值構(gòu)建一個新的直方圖,拿每一幀直方圖和均值均值直方圖比較,取最接近的幀作為關(guān)鍵幀;幀均值法則是求某個位置上所有幀的像素均值,然后將鏡頭中該點位置的像素值最接近平均值的幀作為關(guān)鍵幀。
鏡頭法取關(guān)鍵幀算法比較簡單,是一種簡單快速的關(guān)鍵幀提取方法,但該方法忽略了當(dāng)前鏡頭視覺內(nèi)容的復(fù)雜性,且提取的關(guān)鍵幀一般就1幀、2幀或者3幀,無論視頻內(nèi)容如何變化,都是固定的幀數(shù),這樣的做法對于內(nèi)容豐富的鏡頭會丟失很多信息,無法充分反映鏡頭的主要內(nèi)容,所以這種方法一般使用于內(nèi)容變化少的視頻。
2)基于內(nèi)容分析的方法
視頻圖像中,由于有運動目標的存在或者其他拍攝因素的影響,通常需要多幀圖像老表達一個鏡頭。根據(jù)信息論的觀點,關(guān)鍵的幀圖像比類似的幀圖像攜帶更多的信息,所以提取關(guān)鍵幀時主要是考慮幀之間的相關(guān)程度。
該方法為幀圖像選取一個特征向量,計算不同幀圖像特征向量的相關(guān)系數(shù),選取相關(guān)度最小的一組圖像作為關(guān)鍵幀。這種算法的一般實現(xiàn)過程如下:
假設(shè)[Ti(i=1,2,3,...,M)]表示一個有M幀圖像T的特征向量,
[ρij=Cij/(σiσj)] (1)
其中[Cij=(Ti-mean(T))(Tj-mean(T))],[mean(T)]表示T特征量的均值,[σi2=Cii]。
式1中[ρij]表示第[i]幀和第[j]幀的相關(guān)系數(shù),分別計算每一幀與其他幀的相關(guān)系數(shù),根據(jù)相關(guān)系數(shù)確定相似度,選取相似度最小的一組幀作為關(guān)鍵幀。
該方法在一定程度上改善了基于鏡頭法的缺點,提取的幀數(shù)根據(jù)視頻內(nèi)容不同也會不一樣,但計算量較大,且當(dāng)有鏡頭變化比較大的時候,容易選取過多的關(guān)鍵幀。
3)運動分析法
運動分析法主要是根據(jù)運動信息提取關(guān)鍵幀,有些通過計算光流來計算運動量,例如Wolf等人提出的基于光流分析(Opctial Flow Anyalssis)提取關(guān)鍵幀[3],先用Horn-Schunck法計算光流,對每個像素光流分量的模求和,作為第[k]幀的運動量[M(k)],[M(k)]為極小值時,第[k]幀即為關(guān)鍵幀;也有提取運動加速和減速的變化提取關(guān)鍵幀,例如Tianming Liu[4]提出了感知運動能量的三角模型,在運動加速和減速的轉(zhuǎn)折點處提取關(guān)鍵幀;也有根據(jù)運動加速度提取關(guān)鍵幀,比如Yanzhuo Ma[5]等人提出了物體運動狀態(tài)(運動加速度)改變時即為關(guān)鍵幀;還有根據(jù)MEPG-7標準的運動描述符來提取關(guān)鍵幀,根據(jù)描述符描述的時間軸上的運動強度和運動行為的空間分布來確定關(guān)鍵幀。
這種方法考慮了運動特征,但是在分析視頻中的運動特征時(比如計算光流、比如計算運動速度)計算量都比較大。
4)聚類分析法
聚類方法其基本思路[6]是:計算當(dāng)前幀與已存在的每個聚類中心之間的距離,同預(yù)先指定的閾值相比較,若當(dāng)前幀與所有聚類中心間的距離均大于該閾值,則從該幀開始形成一個新類別,否則將其分配到離它最近的類中。最后,取各類中離類中心距離最小的幀為關(guān)鍵幀,其優(yōu)點是能有效地消除鏡頭間的相關(guān)性,缺點是不能有效地保存原鏡頭內(nèi)圖像幀的時間順序和動態(tài)信息.
5)壓縮域方法
視頻數(shù)據(jù)量大,考慮到存儲容量,通常都會壓縮存儲,比如MP4格式的視頻,采用MPEG-7標準對視頻壓縮。MPEG采用離散余弦變換(DCT)壓縮視頻,這種方法一般通過DCT的DC系數(shù)和運動矢量(MV)等來提取關(guān)鍵頓。
6)其他方法
如圖論、曲線分割、奇異值分解等,這些方法[7]將視頻幀看成高維特征空間上的點,抽取關(guān)鍵幀就是在這些點中選取一個子集,這個子集中的點有些能在指定特征距離內(nèi)覆蓋其他點,有些反映了鏡頭內(nèi)容上的顯著變化。此外,還有人把文本檢索的相關(guān)技術(shù)應(yīng)用于關(guān)鍵幀提取。
3 一種根據(jù)三幀差的歐式距離極值選取關(guān)鍵幀的方法
考慮到交通視頻中場景轉(zhuǎn)換的可能性比較小,所以不用考慮鏡頭邊界問題,直接提取關(guān)鍵幀即可。上面那些方法中,鏡頭法過于死板,不能充分反映復(fù)雜的視頻內(nèi)容;運動法計算量比較大;聚類法算法也挺復(fù)雜,所以本文選取基于內(nèi)容的方法,基于內(nèi)容的方法比較簡單,容易實現(xiàn),但是基于內(nèi)容的方法也有它的缺陷:計算量較大,而且可能會選取多余的幀。
本文對這個方法提出了一點改進??紤]到交通視頻鏡頭的連續(xù)性,在時間上不連續(xù)的幀相似度很大的可能性比較小,為了減小幀間相似度的計算量,幀間相似度采用連續(xù)的三幀差值來衡量;另外為了防止可能選取多余的幀,取三幀差極大值處的幀作為關(guān)鍵幀,步驟如下。
1)設(shè)有一[M,N]的視頻,其中M×N表示攝像設(shè)備的分辨率,提取視頻幀圖像,灰度化;
2)計算第n幀圖像灰度值與前后兩幀的差值之差。[In(x,y)]表示視頻中第[n]幀在[(x,y)]的灰度值,[Cn(x,y)]=[[In+1(x,y)-In(x,y)]]-[[In(x,y)-In-1(x,y)]]表示第[n]幀圖像在[(x,y)]點的三幀差;
3)根據(jù)三幀差計算第n幀灰度圖像的歐氏距離[diffn=x=1My=1NCn(x,y)2];
4)對視頻每一幀執(zhí)行步驟1)~3),形成每一幀的歐氏距離;
5)求所有幀歐氏距離的極值,根據(jù)一階導(dǎo)數(shù)為0的點的二階導(dǎo)數(shù)大于0為極小值點,而二階導(dǎo)數(shù)值小于0為極大值點,得到歐氏距離為極大值點的幀,因為極大值表明該幀和前幀以及后幀的差距比較大,是比較關(guān)鍵的幀,所以取極大值點處的幀為關(guān)鍵幀;
6)為了防止提取關(guān)鍵幀過多,對歐式極大值點進行中值濾波,最后得到關(guān)鍵幀。
4 根據(jù)三幀差的歐式距離極值選取關(guān)鍵幀的MATLAB實驗仿真分析
實驗仿真流程如圖1所示。
實驗一:實驗數(shù)據(jù)是從優(yōu)酷視頻下載的某路口監(jiān)控視頻片段,分辨率672x378,時長22秒,共計672幀,提取結(jié)果57幀。
實驗二:實驗數(shù)據(jù)是從合肥市西一環(huán)人行天橋用單反攝錄的,設(shè)備分辨率1920x1088,時長4秒,共101幀,最終提取了6幀關(guān)鍵幀。
從以上實驗結(jié)果分析,本文的基于三幀差的歐式距離極值法提取的關(guān)鍵幀 沒有將有車牌變化的圖像漏掉,對于交通視頻中提取關(guān)鍵幀是有效的方法,且計算方法簡單,計算速度比較快。
5小結(jié)
本文首先介紹了提取視頻關(guān)鍵幀的常用方法,分析了各種方法的優(yōu)缺點,而后在基于內(nèi)容分析方法提取關(guān)鍵幀的基礎(chǔ)上進行改進,提出了基于三幀差的歐氏距離極限值提取關(guān)鍵幀的方法,并用MATLAB仿真實現(xiàn),分析了實驗結(jié)果,經(jīng)實驗驗證這種方法是一種行之有效的關(guān)鍵幀提取方法。
參考文獻:
[1] 季春. 視頻檢索中關(guān)鍵幀抽取方法的研究[D].南京理工大學(xué),2005.
[2] 夏潔. 交通視頻中機動車輛檢索關(guān)鍵技術(shù)研究[D].蘇州大學(xué),2010.
[3] Wolf Wayne. Key frame selection by motion analysis[C]//Acoustic,Speech,and Signal Processing,1996.ICASSP-96.Conference Proceedings.,19[EB/OL]96 IEEE International Conference on. IEEE,1996,2:1228-1231.
[4] Tianming Liu,Hong-Jiang Zhang,et al.A novel video key-frame-extraction algorithm based on perceived motion energy model[C].IEEE Transactions on Circuits and Systems for Video Technology,2003 :1006-1013.
[5] Yanzhuo Ma, Yilin Chang, Hui Yuan.Key-frame extraction based on motion acceleration[J].Optical Engineering,2008,47(9).
[6] 彭德華,申瑞民, 張同珍. 基于內(nèi)容檢索中的視頻分割技術(shù)及新的進展[J].計算機工程與應(yīng)用,2003(11).
[7] 袁愛龍. 基于視頻的汽車車型識別研究[D].成都電子科技大學(xué),2013.
[8] 陳祎瓊. 基于車牌識別的交通監(jiān)控視頻中車輛檢索技術(shù)的研究[D].合肥工業(yè)大學(xué),2014.