王 劍 峰
(重慶航天職業(yè)技術(shù)學(xué)院, 重慶 400021)
?
一種基于子幀主體區(qū)域DCT特征的鏡頭邊界檢測(cè)方法
王 劍 峰
(重慶航天職業(yè)技術(shù)學(xué)院, 重慶 400021)
針對(duì)視頻序列由若干個(gè)鏡頭切換連接的特性,提出一種基于子幀主體區(qū)域DCT特征的鏡頭邊界檢測(cè)方法。將視頻幀分割為6個(gè)具有重疊區(qū)域的子幀,通過(guò)zig-zag掃描獲取主要特征信息;據(jù)此計(jì)算每個(gè)子視頻幀的DCT特征,利用相鄰子幀主體區(qū)域判定鏡頭邊界。通過(guò)TRECVID視頻的檢測(cè),驗(yàn)證了此方法對(duì)鏡頭邊界的良好檢測(cè)性能以及對(duì)運(yùn)動(dòng)和閃光的魯棒性。
鏡頭邊界;視頻幀;DCT;zig-zag掃描
針對(duì)視頻鏡頭邊界檢測(cè),研究人員提出了許多研究算法[1-6]。
Kasturi等人提出了像素比較法,通過(guò)計(jì)算相鄰視頻幀的色彩和亮度信息,利用各項(xiàng)信息差值來(lái)判定是否發(fā)生鏡頭切換。該算法有一定的適用性,但是對(duì)物體的快速移動(dòng)、攝像機(jī)的位置變動(dòng)以及噪聲的控制等比較敏感[7]。
Kaabneh等人將MPEG視頻轉(zhuǎn)換成壓縮域后,利用每幀視頻圖像塊的DC直流分量構(gòu)成了一幅縮小至原視頻圖像18大小的縮小圖,再通過(guò)直方圖判定視頻鏡頭邊界[8]。這種方法的處理速度較快,但在像素值相近而密度函數(shù)不同的兩幀之間會(huì)造成誤檢。
Li等人設(shè)計(jì)了基于全局直方圖的視頻檢測(cè)算法,將一段視頻幀的圖像亮度、顏色、邊緣輪廓等特征分為多個(gè)等級(jí),再統(tǒng)計(jì)包含在各個(gè)等級(jí)中的像素概率,并繪制全局直方圖[9]。這種算法解決了攝影對(duì)象和攝像機(jī)對(duì)于緩慢移動(dòng)不敏感的問(wèn)題。但是,當(dāng)光照變化大、攝像機(jī)移動(dòng)迅速、像素較低時(shí)容易發(fā)生誤檢,且當(dāng)相鄰鏡頭的連接幀在整體上包含相似的灰度、顏色比例的時(shí)候又容易發(fā)生漏檢。
在此,提出一種在壓縮域中基于子幀主體區(qū)域DCT特征的檢測(cè)方法,用于判定鏡頭邊界。
1.1 視頻幀的主體區(qū)域與子視頻幀的劃分
總體上,一幀視頻圖像的中間部分為其內(nèi)容的主體,視頻幀的四周部分為主體內(nèi)容所在的場(chǎng)景。圖1所示為視頻幀的主體部分。圖中,幾種不同視頻段中的矩形框內(nèi)部分為視頻的主體區(qū)域。
圖1 視頻幀的主體部分
將一幀視頻圖像分為多塊,可以提高圖像的空間分辨率,但同時(shí)卻增大了存儲(chǔ)空間和計(jì)算量,而且會(huì)使圖像因分割得過(guò)于破碎而顯得整體信息不夠豐富,從而使視頻幀圖像的表征度下降。
大量實(shí)驗(yàn)表明,對(duì)于目前分辨率較普遍的1 080P視頻(1 920×1 080像素),采用重疊的方式將視頻幀劃分成10×6塊,即60個(gè)子圖像,是比較合適的。圖2所示為視頻幀的劃分。最深色部分是一幀視頻圖像的最重要區(qū)域(圖像的主體信息集中于此),次深色部分是圖像的次重要區(qū)域,淺色部分是圖像的非重要區(qū)域(主要是背景、邊緣信息等)。根據(jù)這個(gè)原則,將60個(gè)子圖像再次組合成6個(gè)不同的子視頻幀。表1所示為子視頻幀的具體組成部分。其中,F(xiàn)2和F3分別包含次重要區(qū)域(S2,S3,S4,S5,S6,S7,S8),F(xiàn)4和F5分別包含次重要區(qū)域(S53,S54,S55,S56,S57,S58),而F2、F3、F4、F5都包含重要區(qū)域(S13,S14,S15,S16,S17,S18;S23,S24,S25,S26,S27,S28;S33,S34,S35,S36,S37,S38;S43,S44,S45,S46,S47,S48)。圖3所示為重要區(qū)域與次重要區(qū)域。在下面的DCT參數(shù)處理中,次重要區(qū)域會(huì)計(jì)算2次,重要區(qū)域會(huì)計(jì)算4次。這就使視頻幀的主體部分權(quán)重值增加,突出了一幀視頻圖像的主要信息,為視頻鏡頭邊界的準(zhǔn)確檢測(cè)打下了基礎(chǔ)。
圖2 視頻幀的劃分
圖3 重要區(qū)域與次重要區(qū)域
1.2 DCT變換與“之”字型掃描
二維DCT變換是對(duì)圖像組成像塊(8×8像素)中的每個(gè)顏色分量進(jìn)行變換,產(chǎn)生相應(yīng)DCT系數(shù)塊。每個(gè)DCT系數(shù)的值表明了水平和垂直方向上的空間頻率組合對(duì)原始像塊的貢獻(xiàn)。水平和垂直方向上第1個(gè)系數(shù)稱為DC系數(shù)。
表1 子視頻幀的具體組成部分
N×N的二維DCT定義如下:
(1)
式中:u、v、x、y取0,1,2,…,N-1;x、y為像塊中的空間坐標(biāo);u、v為DCT域的坐標(biāo)。
DCT逆變換(IDCT)定義如下:
變換后的DCT系數(shù)需經(jīng)過(guò)編碼處理。在MEPG視頻中,對(duì)每一個(gè)變換后的8×8系數(shù)塊從DC系數(shù)開(kāi)始進(jìn)行“之”(zig-zag)字形掃描,產(chǎn)生一列量化后的系數(shù)值。實(shí)驗(yàn)數(shù)據(jù)表明,經(jīng)之字型掃描后的系數(shù)呈非均勻分布,表征圖像最重要信息的參數(shù)主要集中在低頻區(qū)域(人眼最敏感的信息),而高頻信息(人眼不敏感的信息)均接近于零。因此,可以通過(guò)這個(gè)轉(zhuǎn)換系數(shù)的非均勻分布來(lái)減少原始圖像塊的空間冗余信息,從而減少表達(dá)圖像的比特?cái)?shù)和計(jì)算復(fù)雜度,也可以更加精確地表征視頻圖像幀的主體內(nèi)容。
1.3 子視頻幀特征向量的構(gòu)建
通過(guò)上述方法,對(duì)一幀視頻圖像的6個(gè)子視頻幀進(jìn)行DCT變換后,分別進(jìn)行zig-zag掃描,按照掃描順序,選取前10位數(shù)值進(jìn)行編碼并將其映射到坐標(biāo)系中,其坐標(biāo)分別為(1,1)、(2,1)、(1,2)、(1,3)、(2,2)、(3,1)、(4,1)、(3,2)、(2,3)、(1,4)。圖4所示為前10位DCT系數(shù)。
圖4 前10位DCT系數(shù)
(3)
其中m取值為1,2,…,n,對(duì)這些由DCT系數(shù)組成的點(diǎn)進(jìn)行歸一化處理:
(4)
然后,映射到坐標(biāo)軸,落入不同的區(qū)間。為了方便統(tǒng)計(jì)和計(jì)算,將坐標(biāo)軸量化為10段,再根據(jù)落入相應(yīng)位置的概率構(gòu)建直方圖,得到子視頻幀圖像的特征向量。
1.4 鏡頭邊界的判定規(guī)則
若一段視頻的前后相鄰視頻幀對(duì)應(yīng)的分塊子幀特征向量分別為Gn-1和Gn,它們的特征差值可通過(guò)歐幾里得距離計(jì)算得到,取差異值的數(shù)學(xué)平均值:
(5)
(6)
根據(jù)前面的分塊原則,若F2、F3、F4、F5中任意3個(gè)或以上子塊都滿足表2的情況,或者F2、F3、F4、F5中任意2個(gè)子塊及F1、F6也滿足表2的情況,則視為視頻分割,而其他情況都判定為視頻干擾。表2所示為鏡頭邊界判定規(guī)則。
表2 鏡頭邊界判定規(guī)則
選取了TRECVID2007中的各類視頻來(lái)測(cè)試所提算法的性能:A為紀(jì)錄片,時(shí)間為40 s;B為電影片段,時(shí)間為45 s;C為運(yùn)動(dòng)片段,時(shí)間為35 s;D為播音員播放新聞片段,時(shí)間為30 s。對(duì)以上實(shí)驗(yàn)數(shù)據(jù)采用基于時(shí)空注意模型的視頻分割算法[10]、雙向視頻分割方法[11]、基于空間金字塔的鏡頭檢測(cè)法[12],與本次提出的方法分別進(jìn)行突變鏡頭檢測(cè),比較檢測(cè)結(jié)果。
查全率(R)和查準(zhǔn)率(P)是衡量鏡頭檢測(cè)算法的常用參數(shù)。為了綜合量化算法的檢測(cè)精度,定義了評(píng)價(jià)指標(biāo)F:
(7)
表3所示為實(shí)驗(yàn)結(jié)果對(duì)比。綜合對(duì)比表明,本方法的評(píng)價(jià)指標(biāo)最佳。
表3 實(shí)驗(yàn)結(jié)果對(duì)比
通過(guò)子視頻幀DCT特征對(duì)鏡頭邊界進(jìn)行了檢測(cè),在查全率和查準(zhǔn)率方面較其他同類方法都有了明顯提高。此方法適用于實(shí)時(shí)性較高的視頻檢索系統(tǒng)。當(dāng)然此方法也存在一些不足,對(duì)于碼流較高、干擾幀較多、光照效果不足的視頻,檢測(cè)效果不佳,有待在今后的研究中進(jìn)一步完善。
[1] HANJALIC A.Shot-boundary detection: unraveled and resolved[J].IEEE Transaction on Circuits and Systems for Video Technology,2011,12(2):90-105.
[2] YUAN J.A formal study of shot boundary detection[J].IEEE Transaction on Circuits and Systems for Video Technology,2012,17(2):168-186.
[3] COOPER M.Video segmentation via temporal pattern classification[J].IEEE Transaction on Multimedia,2013,9(3):610-618.
[4] LI Z M, JIANG J M.An effective and fast scene change detection algorithm for MPEG compressed videos[C]∥ Proc.of ICIAR′06.Porto.Portugal: [s.n.],2014:44-49.
[5] BAI X S,ZHANG Z Y,XU G Y,et al.Analysis of digital video effect shot transition detection algorithm[J].Journal of Software,2013,13(7): 1278-1283.
[6] ZABIH R,MILLER J,MAI K.A feature-based algorithm for detecting and classifying scene breaks[C]∥Proc.of ACM Multimedia Conference.San Francisco: [s.n.],2007:168-173.
[7] KASTURI R,JAIN R.Dynamic vision,computer vision: principles (Kasturi and Jain Eds)[J].IEEE Computer Society Press,1991,18(25):469-480.
[8] KAABNEH KA,BDULLAH A Z.Al-halalemah,video classification using normalized information distance[J].Geometric Modeling and Imaging:New Trends,2006,44(8):34-40.
[9] LI Z ,JIANG J,XIAO G,et al.An effective and fast scene change detection algorithm for MPEG compressed videos[J].Lecture Note in Computer Science,International Conference on Image Analysis and Recognition, 2006(12):206-214.
[10] 都云程.基于空間金字塔的鏡頭檢測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(11):187-190.
[11] 嚴(yán)超.一種基于確信度的雙向視頻分割方法[J].軟件學(xué)報(bào),2009,20(增刊1):221-230.
[12] 鄭河榮.基于時(shí)空注意模型的視頻分割算法[J].中國(guó)圖象圖形學(xué)報(bào),2010,15(5):729-735.
Shot Boundary Detection Based on DCT Feature of Sub Frame Body
WANGJianfeng
(Chongqing Aerospace Polytechnic College, Chongqing 400021, China)
As the video sequence is connected by several shots, a method for the detection of shot boundary detection based on DCT feature of sub frame body is proposed. The video frame is divided into 6 sub frames with overlapping regions, which are scanned by zig-zag scanning for the main feature information; and the DCT features of each sub frame are computed, so the shot boundary is determined by the main area of the adjacent sub frames. Experiments on TRECVID video suggest that the proposed algorithm has good detection performance, and has good robustness to the motion and flash.
shot boundary; video frame; discrete cosine transformation; zig-zag scan
2016-10-20
重慶市教育委員會(huì)科學(xué)技術(shù)項(xiàng)目“基于壓縮域DCT參數(shù)特征的鏡頭邊緣檢測(cè)研究”(KJ1728400)
王劍峰(1982 — ),男,碩士,副教授,研究方向?yàn)閿?shù)字圖像處理。
TP391
A
1673-1980(2017)02-0102-04