文/楊迪 趙艷杰
隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)與多媒體的不斷發(fā)展,大量的視頻數(shù)據(jù)隨之產(chǎn)生,如何在大量的視頻數(shù)據(jù)中找到自己所需的數(shù)據(jù)成為急需解決的問(wèn)題,基于內(nèi)容的視頻檢索技術(shù)成為研究熱點(diǎn)。
系統(tǒng)主要分為視頻處理模塊、數(shù)據(jù)庫(kù)模塊、視頻檢索模塊。如圖1所示。
圖1:系統(tǒng)框架圖
該模塊主要負(fù)責(zé)將原始視頻進(jìn)行處理后入庫(kù)。先將原始視頻進(jìn)行鏡頭分割、關(guān)鍵幀提取,然后提取對(duì)應(yīng)的特征,最后將多特征進(jìn)行組織、分析及索引后入庫(kù)。
表1:Video數(shù)據(jù)表
數(shù)據(jù)庫(kù)主要用以存放視頻信息以及特征信息,以SQL SERVER 為開(kāi)發(fā)工具,主要有三張表:視頻信息表、鏡頭片段表、以及關(guān)鍵幀特征表。下面簡(jiǎn)要介紹一下這三張表:
Video:為基本視頻數(shù)據(jù)表,包含視頻ID、文件名、文件路徑及視頻幀數(shù)。見(jiàn)表1。
Segment:為視頻片段表,包含它屬于的視頻ID、自身ID、開(kāi)始時(shí)間及結(jié)束時(shí)間、鏡頭特征。見(jiàn)表2。
MainFrame:為關(guān)鍵幀表,包含屬于視頻片段的ID、自身ID、關(guān)鍵幀存放路徑、圖像特征。見(jiàn)表3。
表2:Segment數(shù)據(jù)表
表3:MainFrame數(shù)據(jù)表
圖2:系統(tǒng)初始界面圖
該模塊主要負(fù)責(zé)提供給用戶一個(gè)可視的檢索界面,用戶通過(guò)該界面輸入待查詢的視頻或圖片,通過(guò)提取特征與數(shù)據(jù)庫(kù)內(nèi)容匹配后完成查詢并將結(jié)果顯示給用戶,若用戶對(duì)檢索結(jié)果不滿意,可對(duì)顯示結(jié)果進(jìn)行反饋,通過(guò)用戶反饋信息進(jìn)而動(dòng)態(tài)地調(diào)整多特征權(quán)值以達(dá)到理想的檢索結(jié)果。
圖3:視頻入庫(kù)實(shí)例
檢索內(nèi)容可分為單一幀與多幀的視頻。采用相關(guān)反饋算法。
圖4:視頻檢索實(shí)例
用戶輸入單一幀時(shí),提取圖像的HSV特征作為顏色特征,灰度共生矩陣以及tamura特征作為紋理特征,并對(duì)數(shù)據(jù)進(jìn)行歸一化,輸入多幀時(shí),在提取顏色、紋理特征的同時(shí)提取鏡頭長(zhǎng)度,并進(jìn)行歸一化。
mij表示為測(cè)度,采用歐式距離。
特征相似度:
總相似度:
S表示查詢片段Vq與數(shù)據(jù)庫(kù)視頻Vs的總體相似性。根據(jù)S(Vq, Vs)得到數(shù)個(gè)與查詢視頻相似的視頻片段RT。然后分別根據(jù)相似度FHSV、FGLCM、FTAMURA、Fshot得到四個(gè)視頻集合RT1、RT2、RT3、RT4。用戶反饋為score,值為[-1,1]內(nèi)任一值,-1表示為不相關(guān),1為相關(guān)。若RTi中某一視頻片段在RT中,則Wij=Wij+score,否則Wij=Wij。然后對(duì)權(quán)值進(jìn)行歸一化:
在這個(gè)系統(tǒng)中,用戶可以存儲(chǔ)視頻,也可以對(duì)視頻進(jìn)行檢索。初始運(yùn)行界面如圖2所示,當(dāng)選擇視頻入庫(kù)時(shí),關(guān)閉初始界面,彈出入庫(kù)界面,如圖3所示,在此界面上可以進(jìn)行視頻的選擇、播放、視頻幀的獲取以及視頻信息的顯示,進(jìn)行操作時(shí)需連接數(shù)據(jù)庫(kù),然后進(jìn)行關(guān)鍵幀提取,系統(tǒng)可直接將相關(guān)信息存入數(shù)據(jù)庫(kù)內(nèi)。
當(dāng)用戶選擇視頻檢索時(shí),彈出檢索界面,如圖4所示。在這個(gè)界面中,用戶可以通過(guò)輸入圖像或視頻進(jìn)行檢索,當(dāng)返回結(jié)果不理想時(shí),用戶通過(guò)滾動(dòng)條對(duì)查詢內(nèi)容進(jìn)行評(píng)分(相關(guān)為1,不相關(guān)為-1),系統(tǒng)接收反饋信息后調(diào)整權(quán)值返回下一輪檢索結(jié)果,直至檢索結(jié)果符合用戶需求,同時(shí)用戶能對(duì)選中結(jié)果進(jìn)行播放和查看主要信息。
實(shí)驗(yàn)中,在數(shù)據(jù)庫(kù)存儲(chǔ)了40個(gè)視頻片段,道路監(jiān)控:17段,自然景色:12段,建筑及其他:11段,以matlab2015a為平臺(tái)進(jìn)行測(cè)試。用戶可以選擇查詢視頻或者單一視頻幀,當(dāng)結(jié)果不滿意時(shí),可進(jìn)行反饋。在用戶多次反饋之后,檢索結(jié)果中部分其他類別的視頻片段被移除,且順序在前的若干視頻片段與查詢片段的相似程度最大,用戶可以只關(guān)注結(jié)果中的前若干個(gè)視頻片段。對(duì)于不同類型的視頻,經(jīng)過(guò)三次反饋都可以取得相對(duì)理想的結(jié)果。由于道路監(jiān)控畫(huà)面變換小,顏色相似,紋理單一,對(duì)于道路監(jiān)控進(jìn)行檢索的效果較其他倆種類型的視頻片段效果更好。
基于內(nèi)容的視頻檢索具有廣闊的前景,綜合利用了數(shù)據(jù)庫(kù)和計(jì)算機(jī)視覺(jué)研究領(lǐng)域中各方面的技術(shù),是當(dāng)前計(jì)算機(jī)視覺(jué)、視頻數(shù)據(jù)庫(kù)與數(shù)據(jù)挖掘等領(lǐng)域研究的熱點(diǎn)。文章分別從系統(tǒng)框架、模塊分析、運(yùn)行界面對(duì)基于內(nèi)容的視頻檢索系統(tǒng)進(jìn)行了設(shè)計(jì),并實(shí)現(xiàn)了視頻文件的存儲(chǔ)、視頻檢索、視頻鏡頭分割、關(guān)鍵幀提取、系統(tǒng)設(shè)計(jì)等內(nèi)容。在檢索算法中采用了多特征與基于權(quán)值的相關(guān)反饋技術(shù)的結(jié)合,同時(shí)將檢索內(nèi)容分為視頻片段和視頻幀進(jìn)行檢索,測(cè)試結(jié)果表明:系統(tǒng)可自動(dòng)提取信息存入數(shù)據(jù)庫(kù),且在進(jìn)行檢索時(shí),經(jīng)過(guò)用戶的多次評(píng)分式反饋達(dá)到理想的結(jié)果。