深圳市賽為智能股份有限公司 陳 雁 卿濟民 林必毅 劉春秋
本文所提到的關鍵幀就是在整個視頻片段中能夠有信息變化的圖像,這些圖像往往含有與前后視頻不同的信息元素,而關鍵幀技術就是要通過一系列的技術手段從長時間的視頻中將這些含有突發(fā)性變化的視頻圖像檢索出來,這樣提取的關鍵幀圖像就可以通過分析得到靜態(tài)和動態(tài)特征,為相關性研究和智能分析提供數據支撐。
筆者研究了國內外關于關鍵幀提取技術的相關文獻資料,總結出目前國內外在關鍵幀提取的方法主要包括以下幾種:
這種提取方法主要是因為在同一個鏡頭內,相鄰圖像幀之間應該存在較小的變化,因此,整個鏡頭圖像的邊界變化也應該較小,而一旦鏡頭中出現邊界變化,則可以分析出這些鏡頭中包含了變量因素,因此可以將鏡頭邊界變化的第一幀和最后一幀摘選出來作為關鍵幀,這種方法的優(yōu)點是能夠簡單易行的找出視頻中的變化場景,而缺點是當鏡頭抖動或者運動時,甄選的畫面就會出現誤差,而且對于一些較長事件來說,只選取首尾兩幀畫面很難有所發(fā)現,如果鏡頭分割更是無法進行信息篩選。
這種辦法主要運用圖像中每個幀的特點改變來獲取關鍵幀的,第一,圖像中的第一個數據幀設定為關鍵幀,然后把目前的數據幀和上一個關鍵幀來對比,并且得出二者之間的差值,若該差值超出既定閾值,那么該數據幀就是關鍵幀。在這種數據幀改變的前提下,所獲得關鍵幀的方法能夠更加靈活的進行關鍵幀的判斷,提高了運算的靈活性,但是他對運動不敏感,沒辦法有效選取信息的變化,因此也有一定的缺陷。
這種基于運動的分析方法主要是應用攝像機運動來進行圖像信息的識別,是相機的運動包含變焦運動和旋轉運動兩種,當分析基于變焦運動時候,選擇變焦的首尾兩幀畫面作為關鍵幀,而基于旋轉的運動,則需要將與前一幀畫面重疊小于30°的畫面作為關鍵幀。在采用運動辦法的基礎上,進行研究相關運動的時候,這樣需要進行計算的數據量是很大的,并且所消耗的時間也比較大,更關鍵的是在WOL辦法中,其局部的最小數值也是比較模糊大概的。
隨著聚類科學技術的發(fā)展,其在數據信息處理中被大量的運用。對于一些既定的數據樣本,我們從一開始其實對數據樣本的分類并不明確,所以更加希望能夠使用一些辦法把該樣本能夠進行比較合理的區(qū)分,這樣就能夠把比較相近的要素分到一起,從而和差別較大的要素區(qū)分更大。這也就是該聚類的主要辦法,從聚類辦法的初始狀態(tài)開始,把該樣本中的任一要素都合理的分配到特定聚類,進而滿足客戶的需求以及系統(tǒng)的要求[2]。然而這種計算方法并不是簡單的,要想實現其實還是有難度的,并且這種實現過程中的計算數量也是相當大的,這種對鏡頭數據實行全面研究以后,更加希望對該鏡頭的視頻進行相關的聚類,其主要因素如下:
第一,在相關的視頻信息中,通常狀況下任一視頻片段都會包括諸多鏡頭,若對這些鏡頭一一進行區(qū)分研究,那么不僅耗時費力,而且分析結果也較為復雜,更重要的是,只是對一個鏡頭進行處理,這樣就會很難保存該視頻片段的時間特性以及運動特定,該視頻也會顯得不夠連續(xù)。其次,通過聚類方式將視頻進行長度壓縮。從當前來看已成功的運用關鍵幀來表示特定鏡頭,也能夠運用相關技術對這些視頻進行有效的處理,然而這種數據訪問量還是比較大的。比如一個視頻片段分為600到1500個相關鏡頭,也就代表有相同數據的關鍵幀,例如在某個視頻中包含3千-75萬個關鍵幀,那么如果我們將這個研究對象放大到整個視頻監(jiān)控庫,整個數據量將會達到多么驚人的一個數量級,如果單一的對這些數據進行處理也將是更加復雜的工程,所以通過聚類處理的方式可以實現對這些數據的簡化,也就是將不同的關鍵幀實行一一區(qū)分并且分類,如此不但能夠減小相關搜索的范圍,還可以有效減小索引所用的時間。
在當前的諸多視頻信息處理過程中,基本上是運用MPEG的一種被壓縮文件格式來保存的,若想要提取,就得先對該壓縮文件全部解壓,而后對關鍵幀實行提取,這樣的工作量肯定會很大的,而且還會占用大量的存儲空間,所以直接基于MPEG格式進行關鍵幀提取就成為視頻信息分析的關鍵技術,最早提出在壓縮視頻流中進行關鍵幀提取的是Janko等學者,他們利用壓縮流中的宏模塊檢測來實現對壓縮視頻流中關鍵幀的提取,此外實際中還有一種更為簡便的壓縮視頻關鍵幀提取方法,就是將這些壓縮視頻按照等時間段的劃分為若干的視頻片段,再分別提出這些視頻的第一幀圖像,通過對這些片段第一幀圖像的對比可以有效的找出視頻之間的聯系和變化,從而提取到關鍵幀。不過壓縮視頻流提取關鍵幀技術也存在一定的缺陷,容易產生誤差。
關鍵幀提取后,就要對不同的關鍵幀鏡頭進行識別和特征量提取,從而可以建立相應的檢索規(guī)則,而對關鍵幀的圖像特征量提取就涉及到圖像中的鏡頭顏色特點數量,鏡頭形狀和紋理的特點數量,所有該要素一同組成了該鏡頭數據的空間特點,所以,該特點也會被運用于視頻數據聚類搜索的相關依據。
視頻圖像的顏色特征,是視頻信息的最基本特征,對于關鍵幀圖像的顏色信息處理過程為:首先要對不同的視頻場景設定不一樣的顏色空間,進而對任一分量的取值進行確定,這樣就可以把場景顏色的特點轉變?yōu)閿祵W特點,最終在數學科學的前提下,對不同圖像向量之間的相似性進行規(guī)定,通過數學表達的方法來判斷不同顏色的類似性,其主要構造包含RGB結構,HSV結構和HIS結構等[3]。RGB其實和我們的視覺是比較類似的,然而其不足是不能夠有效分別這種顏色的亮度、顏色的飽和度以及顏色的色調等,僅僅是運用其基礎色的不同分量來進行比較,所以在處理一些對色度和亮度有變化的圖像時往往應對不足。而HSV顏色空間是基于人類的視覺感知系統(tǒng)建立的顏色空間,分別對畫面的色度、飽和度和亮度進行識別,這種識別方式也十分符合人類對于顏色空間的處理方式。
對于形狀特征的提取,其主要辦法包含形狀以及區(qū)域的描述來實現,亦或是綜合二者來實現特征提取。這里提到的邊界特征主要是圖像中物體的外部邊界,物體在圖像中的外部邊界和圖像的實際區(qū)域的相關位置是相關聯的,然而邊界形狀特點的描述就是該圖像信息中任一元素的形狀數據都能夠運用相關的矢量來進行的,這種實現的辦法是多種多樣的,比較典型的是傅立葉描述子,其主要對對象的邊界進行相關轉變,并把它當作目標形狀的特點描述,這種方法對于目標的平移以及旋轉都有著良好的穩(wěn)定性。在該特點描述的基礎上,就要求詳細的描述任一目標的形狀數據,比如該區(qū)域的相關面積數據、目標重心數據等,有時候為了解決目標的相關遮擋問題,還會運用有關的局部特點,例如直線特點、圓形弧線特點、角點和目標高曲率點特點等,相對比較復雜的相關描述辦法則例如目標形狀不變矩特征,主要代表如七階不變矩,而且其使用也普遍。這種目標形狀特點的主要優(yōu)勢那就是能夠輔助大家對目標以及背景進行直接的區(qū)分,更加專注于對象的內部特征,對于外部內容則關注較少,其實這種和顏色以及相關紋理的特點還是有著較大的分別。
圖像的紋理特征主要是對圖像的特定局部的相關性質進行定義,也就是目標圖像的局部區(qū)域之內的像素之間的關系的相關描述,通常狀況下,紋理特征更多的是變現為某個區(qū)域的不規(guī)律變化,對于全部目標圖像的特點的描述存在缺陷,其紋理的特點也就是其搜索的關鍵特點指標,在該紋理特點的描述的基礎上,諸多專家學者指出了運用空間灰度共生矩陣法、小波紋理分析法等圖像特征分析方法。
海量視頻數據的出現使得對于視頻數據的處理和分析成為了擺在行業(yè)發(fā)展面前的一道難題,而關鍵幀提取技術則是解決這個難題的核心技術,能夠通過有效手段提取到關鍵幀從而能夠分析出視頻事件背后的邏輯是視頻數據處理的關鍵。