摘要:圖像視頻在具體、生動、確切、高效等方面有許多優(yōu)點,成為人類接受外界信息的重要來源。如何提高視頻資源的檢準率、檢全率,其現(xiàn)實意義將非常重大,如何分鏡頭是視頻檢索的第一步,鏡頭分割技術(shù)顯得尤為重要。
關(guān)鍵詞:視頻檢索;鏡頭分割;鏡頭漸變;鏡頭突變
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-2374(2013)13-0085-02
隨著經(jīng)濟社會的快速發(fā)展和科學技術(shù)的飛速進步,視頻等多媒體格式的信息量越來越大,來源也更為廣泛。視覺成為人類接受外界信息的重要來源,其中,圖像視頻信息是視覺信息的主要表達方式,它所包含的信息量也是海量的,遠遠超過了文本、圖片等數(shù)據(jù)格式。圖像視頻在具體、生動、確切、高效等方面有許多優(yōu)點,由于這些特點就使得人類最重要的通信方式主要為基于視頻信息的通信方式和以視頻格式傳輸或攜帶的信息通信方式。這種視頻信息方式更形象、更生動、更直觀,更能夠貼近或者還原于實際。計算機傳統(tǒng)上存儲數(shù)據(jù)的方式是基于文本的。視頻數(shù)據(jù)信息已成為我們?nèi)粘I钪胁豢苫蛉钡闹匾獌?nèi)容,但由于它攜帶的信息量較大,也成為阻礙其發(fā)展的瓶頸,如何提高視頻資源的檢準率、檢全率,其現(xiàn)實意義將非常重大,視頻檢索的第一步就是鏡頭。
1 鏡頭分割在基于內(nèi)容的視頻檢索中作用
幀是指在數(shù)據(jù)和數(shù)字通信中,按某一標準預(yù)先確定的若干比特或字段組成的特定的信息結(jié)構(gòu)。鏡頭是構(gòu)成視覺語言的基本單位。它是敘事和表意的基礎(chǔ)。在影視作品的前期拍攝中,鏡頭是指攝像機從啟動到靜止這期間不間斷攝取的一段畫面的總和;在后期編輯時,鏡頭是兩個剪輯點間的一組畫面;在完成片中,一個鏡頭是指從前一個光學轉(zhuǎn)換到后一個光學轉(zhuǎn)換之間的完整片段。場景是指電影、戲劇作品中的各種場面,由人物活動和背景等構(gòu)成。連續(xù)的圖像變化每秒超過24幀(frame)畫面以上時,根據(jù)視覺暫留原理,人眼無法辨別單幅的靜態(tài)畫面;看上去是平滑連續(xù)的視覺效果,這種連續(xù)的畫面叫做視頻。
視頻序列由數(shù)個視頻場景組成,通常指單獨的某個視頻文件或者視頻片段。場景通常由一個或者多個鏡頭構(gòu)成。鏡頭由多個連續(xù)的圖像幀構(gòu)成。圖像幀指單幅靜態(tài)的圖像,是構(gòu)成視頻文件的最小單位。
在播放視頻時,定格時的每一個畫面就是一個圖像幀。攝像機拍攝物體時產(chǎn)生的一段連續(xù)圖像就是鏡頭,由多個幀組成。拍攝對象運動、光源亮度變化或攝像頭運動等都能引起鏡頭內(nèi)部圖像發(fā)生變化。場景是連接視頻底層數(shù)字特征與高層語義的橋梁,它由語義相關(guān)的若干個鏡頭所組成。這些鏡頭不一定是連續(xù)的,但是必然在語義上有某種相關(guān)性,例如:不同鏡頭中人物所處的相同場所、不同事件發(fā)生時所在的相同地點等。場景一般可以代表特定的子事件,而眾多的子事件組成了一個視頻序列所代表的整體事件。
鏡頭分割(Shot Segment),即把視頻文件分割成若干個鏡頭。由于鏡頭與鏡頭之間一般有很清楚的邊界,成為邊界幀。則鏡頭分割的主要任務(wù)就是把這些邊界幀從構(gòu)成視頻文件的所有幀中找出來,也就是使用計算機來順序的檢測視頻文件的每一幀,判斷其是否是鏡頭邊界幀,這項工作亦稱為鏡頭邊界檢測(Shot Boundary Detection)。
分割后的每段視頻片段都是一個獨立的鏡頭,其中包含了能代表每個對應(yīng)鏡頭的關(guān)鍵幀,這樣就能通過提取關(guān)鍵幀來建立索引。因此,首先需要把視頻序列分割成單個的視頻鏡頭,然后再進行提取關(guān)鍵幀、提取視頻片段整序、提取視頻序列識別等。這有助于對視覺媒體從低層到高層進行處理、分析和理解的過程獲取其內(nèi)容并根據(jù)內(nèi)容進行檢索。
2 基于內(nèi)容的視頻檢索中鏡頭分割方法
鏡頭間轉(zhuǎn)換一般包括漸變(gradualtransition)和突變(cut transition)兩種方式。所以相對應(yīng)鏡頭間的轉(zhuǎn)換,鏡頭檢測研究方法也大致可分為鏡頭漸變和鏡頭突變檢測研究兩種研究方法。
直接將兩個鏡頭連接就是鏡頭突變,它們中間不添加任何特效且不使用視頻編輯技術(shù)。與之相反,鏡頭漸變則通過在兩個鏡頭中間添加視頻特效聯(lián)接兩個鏡頭。按照所添加的鏡頭間編輯特效的不同,鏡頭漸變技術(shù)包含溶解(dissolve)、疊化(Dissolve)、映射(Map)、擦除(Wipe)、劃變(wipe)、劃像(Iris)、淡入淡出(fade)等多種形式。
當前,主流的鏡頭邊界檢測算法可分為兩類:基于壓縮域的方法與基于象素域的方法?;谙袼赜虻溺R頭切分主要是依據(jù)所拍攝對象的形狀、紋理、顏色等特征從而實現(xiàn)鏡頭邊界檢測的原理。
總之,要實現(xiàn)視頻鏡頭的分割,常用的方法就是計算視頻中各連續(xù)幀之間底層視覺特征的幀差值F,再將F與預(yù)先設(shè)定或者自適應(yīng)的域值T作比較,若F>T,則鏡頭邊界不存在,若F 近些年來,使用智能計算與機器學習的方法檢測鏡頭邊界的算法已經(jīng)逐漸興起。由于在鏡頭漸變過程中,在內(nèi)容上相鄰幀的圖像沒有明顯的突變,明顯的切換點是難以檢測到的。因此,漸變鏡頭的檢測比切變鏡頭的檢測更復雜,還有較多的問題亟待解決。利用單一的特征檢測并不能很好解決兩個鏡頭間變化多樣的情況。2007年的TRECVID會議報告[48]指出漸變檢測算法的查準率和查全率需要深一步提高,兩者值均只介于70%~80%之間。提高漸變檢測算法的查準率和查全率對于實現(xiàn)基于內(nèi)容的視頻檢索系統(tǒng)有很大的應(yīng)用價值和理論價值。 3 基于OpenCV的視頻幀特征提取系統(tǒng)結(jié)構(gòu) 由于視頻流的數(shù)據(jù)量大,又是一種非結(jié)構(gòu)性的數(shù)據(jù),需要對它進行一些預(yù)處理。鏡頭是視頻流在編輯制作和檢索中的基本結(jié)構(gòu)單元,最為有效的預(yù)處理方法之一就是分鏡頭,它首先把這一段視頻流,根據(jù)其組成的鏡頭,找出鏡頭的突變和漸變的切變點,進而標出每個鏡頭的起始幀號和結(jié)束幀號,然后從中挑出這一個鏡頭內(nèi)的代表幀。后續(xù)的瀏覽與檢索以及更高一級的視頻結(jié)構(gòu)化受鏡頭分割效果的直接影響。所以視頻檢索的第一步就是鏡頭,視頻結(jié)構(gòu)化的基礎(chǔ)就是鏡頭的自動分割,視頻分析和檢索過程中的首要任務(wù)就是有效的視頻鏡頭分割技術(shù),也是人們研究的熱點。 參考文獻 [1] 孔祥鵬,馬立和.基于H.264壓縮域的運動對象快速分割方法[J].智能計算機與應(yīng)用,2012,(8):2-4. [2] 韓冰.基于智能軟計算的視頻鏡頭分割算法的研究 [J].西安電子科技大學學報,2006,(2):36-41. [3] 梁薇.基于DSP的運動目標檢測系統(tǒng)[J].計算機與網(wǎng)絡(luò),2012,(4):12-16. [4] 許高程,張文君,王衛(wèi)紅.支持向量機技術(shù)在遙感影像滑坡體提取中的應(yīng)用[J].安徽農(nóng)業(yè)科學,2009,(6):3-5. [5] 李東瀛,尉凱征,張.基于內(nèi)容的視頻檢索技術(shù) [J].信息系統(tǒng)工程.2011,(12):14-17. 作者簡介:王昆侖(1979—),男,河南護理職業(yè)學院辦公室主任,高校講師,碩士。 (責任編輯:秦遜玉)