楊 振
(天津城市職業(yè)學(xué)院,天津,270000)
探討基于Tsallis熵的視頻關(guān)鍵幀提取技術(shù)
楊 振
(天津城市職業(yè)學(xué)院,天津,270000)
關(guān)鍵幀是視頻中的一組有限數(shù)量的幀的子集,一個視頻的關(guān)鍵幀序列能夠合理地概括該視頻信息,從而減少過大的視頻數(shù)據(jù)對生產(chǎn)生活帶來的承載負重。本文討論了基于Tsallis熵的Jensen距離公式——JTD在視頻關(guān)鍵幀提取中的應(yīng)用。根據(jù)得到的差異性距離值JTD,首先檢查子鏡頭邊界,進而從每個子鏡頭中抽取一幀作為該鏡頭的代表幀,最終得到該段視頻的關(guān)鍵幀序列。
關(guān)鍵幀提??;Tsallis熵;Jensen不等式
20世紀90年代以來,人類逐步步入了信息社會的時代。隨著人們?nèi)粘蕵坊顒拥脑龆?,?shù)字視頻得到人們的廣泛應(yīng)用。視頻關(guān)鍵幀的提取,使得一個視頻得到有效地總結(jié),從而大量降低了視頻存儲的數(shù)據(jù)量。本文提出了利用Tsallis熵和Jensen距離的視頻關(guān)鍵幀提取算法,對視頻關(guān)鍵幀提取技術(shù)的研究起到積極的推動作用。
1.1 Tsallis熵
Harvda和Charvat[1]給出了Tsallis信息熵的廣義定義。隨機變量X的Tsallis熵定義為:
其中,α〉1稱為Tsallis熵指數(shù)。
1.2 Jensen距離
對于一個在區(qū)間[a,b]上的f是一個凸函數(shù),并且x1,x2,...,xn在區(qū)間[a,b]中, Jensen 距離(JD)[2]:
1.3 基于Tsallis熵的Jensen距離
Tsallis熵在其指數(shù)范圍內(nèi),具有凸函數(shù)的性質(zhì)。對于具有RGB直方圖分布差異的兩個相鄰幀fi-1和fi,它們之間的基于Tsallis熵的Jensen 距離可以表示為:
視頻序列可以看成是一種分級模式:視頻序列—〉子鏡頭—〉幀[3]。一般來說,基于鏡頭的視頻關(guān)鍵幀提取算法是對一小部分的視頻幀作處理[4]。
2.1 子鏡頭的檢測與視頻序列的分割
根據(jù)公式(3)可得到具有平滑效果的窗口均值化的JTD公式:
其中,nw=5是所做的窗口的大小。同時定義與的比值:
2.2 子鏡頭的評估標準與分割
當(dāng)一個視頻中有較大的內(nèi)容變化時,需要在這個視頻序列中分割子鏡頭,這樣可以提取出更加完全展示出這個視頻序列的內(nèi)容信息。此處定義幀fi處的JTD梯度:
2.3 視頻關(guān)鍵幀的提取
基于我們對一段視頻分割得到的鏡頭和子鏡頭,根據(jù)每一個分割片段所表現(xiàn)出來的內(nèi)容信息變化量的大小,選取其中的一幀作為關(guān)鍵幀。對于在視覺內(nèi)容上較為平滑的子鏡頭,可以選取其中的任何一幀作為該子該鏡頭的關(guān)鍵幀;對于在視覺上含有較大的內(nèi)容信息變化量的子鏡頭,則選取與其周圍幀的JTD之和達到最小值的幀作為該子鏡頭中的關(guān)鍵幀。
本文采用的測試視頻來自于網(wǎng)站“The Open Video Project”[5]。測試視頻“BOR14_001”是一段由多種視頻類型段組合而成的視頻。該視頻含有1083幀,36秒時長。圖1(a)(b)分別給出了Downsampling和JTD方法提取出來的關(guān)鍵幀序列。圖中可以看到,使用JTD提取出的關(guān)鍵幀較完整和無冗余地表述了該段視頻的每一個場景內(nèi)容。
圖 1 對測試視頻“BOR14_001”的關(guān)鍵幀提取實驗
關(guān)鍵幀的提取在視頻信息檢索技術(shù)中占有很重要的地位。本文討論了基于Tsallis熵的Jensen距離公式——JTD在視頻關(guān)鍵幀提取中的使用。實驗結(jié)果顯示,JTD關(guān)鍵幀提取技術(shù)可以根據(jù)視頻內(nèi)容選取出較為完整和無冗余的視頻關(guān)鍵幀序列,可以滿足基于內(nèi)容的視頻檢索系統(tǒng)的需求,這為當(dāng)下存儲代價較高的信息社會提供了許多便利。
[1] Harvda, J., Charv′at, Quantification method of classification processes, Conceptof structural a-entropy, 1967, 30~35.
[2]T. M. Cover, J. A. Thomas, Elements of Information Theory, 2nd Ed., SanFrancisco: Wiley-Interscience, 2006, 10~18.
[3] A. Hanjalic, Shot-boundary detection: Unraveled and resolved?, IEEE Trans.Circuits Syst. Video Technol, 2010, 90~105.
[4]B. T. Truong, S. Venkatesh, Video abstraction: A systematic review and classication,ACM T. Multim. Comput., 2007, 1~37.
[5] http://www.open-video.org/index.php.
The key frame extraction technology based on Tsallis entropy is discussed
Yang Zhen
(Tianjin city Career Academy,Tianjin,270000)
Key frame is a subset of a limited number of video frames and key frames of a video sequence can reasonably generalize the video information, thereby minimizing weight bearing on production and life bring large video data. This paper discusses Jensen distance formula based on Tsallis entropy of JTD application in video key frame extraction. According to the difference of the distance value JTD, first check the sub shot boundary, and then extracted from each sub shot frame as a representative of the lens frame, finally get the key frames of the video sequence.
key frame extraction;Tsallis entropy;Jensen inequality