文/謝建云
基于內(nèi)容的視頻檢索技術(shù)在數(shù)字檔案館中的應(yīng)用
文/謝建云
文章圍繞基于內(nèi)容的海量視頻檢索的特征與技術(shù)所面臨的突出問題,闡述基于內(nèi)容的海量視頻檢索的特征與技術(shù),并積極將基于內(nèi)容檢索方法應(yīng)用于數(shù)字檔案館中視頻檔案管理領(lǐng)域,以期為用戶提供高效、準(zhǔn)確、便捷、直觀的知識服務(wù),彰顯檔案價(jià)值
檔案館;視頻檢索;數(shù)字化建設(shè)
隨著社會(huì)經(jīng)濟(jì)的持續(xù)發(fā)展,檔案管理顯得越來越重要[1](p427-428)。數(shù)字檔案館是運(yùn)用當(dāng)代信息技術(shù),對數(shù)字檔案信息資源進(jìn)行管理,以網(wǎng)絡(luò)化方式相聯(lián)接和提供利用,實(shí)現(xiàn)資源共享的信息系統(tǒng)。其除了館藏檔案數(shù)字化的工作外,還涉及檔案信息的采集、整理、存儲(chǔ)、檢索、保管、利用、鑒定、統(tǒng)計(jì)等全過程[2](p73-85)。數(shù)字檔案館應(yīng)具有強(qiáng)大的檢索能力,能根據(jù)需要設(shè)置目錄檢索、元數(shù)據(jù)檢索、全文檢索、圖文聲像一體化檢索等,并能對查詢結(jié)果用戶進(jìn)行顯示、排序、轉(zhuǎn)存、打印輸出等技術(shù)處理,使利用者可以通過網(wǎng)絡(luò)對數(shù)字化檔案信息資源進(jìn)行遠(yuǎn)程查閱和利用。
數(shù)字檔案館在知識傳播中承擔(dān)著重要的角色。視頻檔案以其直觀的記憶展示,失真度小、還原性強(qiáng)、生動(dòng)感好等特點(diǎn)也將會(huì)越來越受到青睞。面對海量視頻,如何快速有效地針對需求完成檢索和輸出,是當(dāng)前研究的熱點(diǎn)。
傳統(tǒng)的計(jì)算機(jī)視頻信息檢索是通過文字形式來描述,是基于文本的檢索方法,即視頻信息存入計(jì)算機(jī)的同時(shí)添加描述性的說明文字,對信息的物理特征和主要內(nèi)容進(jìn)行標(biāo)錄,將視頻本身涵義轉(zhuǎn)換為文本說明,建立文件標(biāo)題及注入關(guān)鍵詞,包括一些附加的描述信息等作為索引,錄入數(shù)據(jù)庫當(dāng)中,采用關(guān)系數(shù)據(jù)庫技術(shù)來實(shí)現(xiàn)視頻文件的檢索,檢索時(shí)對數(shù)據(jù)庫中的文本信息進(jìn)行搜索匹配。
但這種方法存在著缺陷,主要表現(xiàn)為:①視頻文件由人工進(jìn)行主題標(biāo)注,內(nèi)容的理解與標(biāo)注上有很大的主觀性,不同的管理者會(huì)存在不同的內(nèi)容解釋,且難以準(zhǔn)確描述蘊(yùn)藏在視頻中的所有內(nèi)容信息,描述不夠形象具體。②工作量大而繁瑣,尤其在大新?lián)r(shí)代,民眾記憶日益豐富,捕捉珍貴記憶,擴(kuò)大了人類記憶的收集范圍,日常生活和工作中形成了大量的視頻檔案,面對海量視頻用傳統(tǒng)檢索方法已不能適應(yīng)。
筆者提出的基于內(nèi)容的視頻檢索CBVR (Content-Based Video Retrieval)技術(shù)是相對于傳統(tǒng)的基于文本和關(guān)鍵詞的檢索而言,之所以強(qiáng)調(diào)內(nèi)容,是因其包含有文件名和標(biāo)注信息所無法描述的更加豐富的信息,涉及到圖像處理、視頻處理、模式識別、計(jì)算機(jī)視覺、圖像特征提取匹配等方面的知識。
基于內(nèi)容的視頻檢索(CBVR)指的是按照用戶的查詢需求,自動(dòng)對視頻資料的各種視覺特征進(jìn)行檢索,將視頻資料本身的視覺內(nèi)容如顏色、紋理、空間關(guān)系等特征作為索引,對照查詢視頻特征和視頻庫中視頻特征的相似性,從視頻檔案數(shù)據(jù)庫中查詢到具有特定特征或者含有特定內(nèi)容的視頻資料并按相似度從大到小排列庫中視頻資料[3](p8-10)。基于內(nèi)容的海量視頻檢索技術(shù)由于能夠根據(jù)視頻的可視內(nèi)容進(jìn)行查詢,從而方便了用戶,查詢時(shí)針對不同的具體應(yīng)用情況,可利用一種或幾個(gè)特征組合進(jìn)行查詢檢索。
基于內(nèi)容的海量視頻檢索系統(tǒng)體系結(jié)構(gòu)劃分為視頻特征提取和視頻查詢兩個(gè)子系統(tǒng)。用戶向發(fā)出查詢請求,系統(tǒng)自動(dòng)將查詢需求轉(zhuǎn)化為電腦內(nèi)部特征描述,并借助這些特征描述與特征庫中信息進(jìn)行匹配。系統(tǒng)依據(jù)匹配結(jié)果到視頻庫中搜索并提取出用戶所需要的視頻檢索結(jié)果來,用戶對檢索結(jié)果進(jìn)行驗(yàn)證,可直接使用或進(jìn)一步改進(jìn)查詢條件并重新檢索。[4]
(一)視頻預(yù)處理
由于視頻資料來源不一,所使用的格式多樣,為了便于系統(tǒng)處理,首先需對源視頻進(jìn)行相關(guān)預(yù)處理,包括視頻格式轉(zhuǎn)換、規(guī)格化、視頻圖像的增強(qiáng)、去噪等。
(二)基于內(nèi)容的視頻特征提取
與基于文本的視頻數(shù)據(jù)庫的精確關(guān)鍵字的檢索不同,基于內(nèi)容的檢索普遍采用的是相似性而非精確化。視頻本來所包含的內(nèi)容是多元化的,要用精確的數(shù)字來匹配高層語義存在難度,所以采用模糊的相似度測量。[5]視頻是三維信號,是一種具有時(shí)間及空間三維結(jié)構(gòu)的數(shù)據(jù)格式,數(shù)據(jù)量大、蘊(yùn)含信息豐富。視頻特征提取是基于內(nèi)容的海量視頻檢索的核心問題,就是要建立視頻底層特征(如顏色、紋理、空間、音高、運(yùn)動(dòng)對象等)與語義信息(如人、會(huì)議、發(fā)言等)之間的對應(yīng)關(guān)系,并將所提取的視頻特征信息存儲(chǔ)到特征數(shù)據(jù)庫中[6](65-70)。視頻特征提取如圖1所示:
▲ 圖1 視頻特征提取
1. 顏色特征的提取
顏色是CBVR中最直觀的視覺特性,任何物體都有其特殊的顏色特征,相同種類的事物有著相同或相似的顏色特征,所以可利用樣色來區(qū)分不同的物體。對視頻檢索比較有效的方法有:顏色矩、顏色相關(guān)圖、顏色直方圖等。
2. 紋理特征的提取
紋理是跟物體表面材質(zhì)有關(guān)的視覺特性,可以看成是由一些相似形狀的重復(fù)分布,它不依賴于物體的顏色、亮度,是像素灰度級的空間分布特征。紋理特征的提取方法主要有:統(tǒng)計(jì)法和結(jié)構(gòu)法。統(tǒng)計(jì)法主要有多尺度回歸法、遺傳算法、馬爾可夫分析法、共生矩陣分析法等,結(jié)構(gòu)法紋理提取主要包括:粗細(xì)度、方向性、重復(fù)性、對比度、復(fù)雜性等。
3. 空間關(guān)系特征的提取
顏色和紋理反應(yīng)的是物體的整體特性,無法體現(xiàn)視頻所包含的對象和目標(biāo),實(shí)際上視頻資料中的特定對象或?qū)ο箝g的空間關(guān)系也是十分重要的圖像特征??臻g關(guān)系主要包括方向、拓?fù)渑c度量。提取空間關(guān)系特征的方法主要有:基于圖像分割、基于圖像子塊等。
(三)視頻檢索數(shù)據(jù)庫
視頻數(shù)據(jù)庫由視頻資料庫、視頻特征庫和知識庫組成。視頻資料庫為數(shù)字化的視頻信息,視頻特征庫包含自動(dòng)提取的視頻內(nèi)容特征,知識庫包含各種專業(yè)和通用的知識,知識庫中內(nèi)容可以更換以適應(yīng)各種不同的應(yīng)用領(lǐng)域,有利于促進(jìn)查詢優(yōu)化和快速匹配。
(四)視頻檢索接口
視頻檢索接口主要功能是為用戶提供一個(gè)友好的檢索界面,用戶可以使用多種方式表達(dá)自己的檢索要求。例如用顏色特征檢索時(shí)允許用戶指定不同顏色的百分比,或者同時(shí)選擇幾種不同視頻特征進(jìn)行組合查詢。用戶也可使用系統(tǒng)提供的畫圖功能勾畫出自己感興趣目標(biāo)的幾何形狀。
數(shù)字檔案館建設(shè)的不斷推進(jìn),視頻檔案的數(shù)量在急劇增加,視頻檔案作為檔案資料重要組成部分,視頻檔案的管理與利用是數(shù)字檔案館建設(shè)亟需解決的問題。用戶為了得到相關(guān)信息,對需要檢索內(nèi)容進(jìn)行條件設(shè)置,基于內(nèi)容的視頻檢索模型要先對視頻信息進(jìn)行有效分割,通過提取行為特征值,并將行為特征值與規(guī)則庫中的規(guī)則進(jìn)行匹配,識別出所有對象所發(fā)生的行為,最后將識別出的每個(gè)對象的所有信息以及幀號存入數(shù)據(jù)庫[7](p14-18)。經(jīng)過一個(gè)特征值相似度計(jì)算,當(dāng)系統(tǒng)獲取到用戶要查詢的的信息,利用這些索引和內(nèi)容元數(shù)據(jù)對海量視頻數(shù)據(jù)庫進(jìn)行查詢,按照一定的相似度對比算法進(jìn)行相似度計(jì)算,并對最終的相似度排序,檢索和瀏覽以定位所需要的視頻片段。檢索模型如圖2所示。
▲ 圖2 檢索模型
基于內(nèi)容的視頻檢索技術(shù)在數(shù)字檔案館中將發(fā)揮著獨(dú)特的優(yōu)勢,應(yīng)用的目的是通過對視頻圖像內(nèi)容進(jìn)行計(jì)算機(jī)分析與理解,對海量視頻數(shù)據(jù)進(jìn)行高速的分析,僅對用戶提供有用的關(guān)鍵信息,再通過網(wǎng)絡(luò)傳輸給終端利用的用戶。檢索界面如圖3所示。
▲ 圖3 檢索界面
基于內(nèi)容的視頻檢索技術(shù)是對視頻數(shù)據(jù)中蘊(yùn)含的視覺和語義內(nèi)容進(jìn)行計(jì)算機(jī)處理、分析與理解,并根據(jù)內(nèi)容進(jìn)行檢索,其本質(zhì)是對視頻數(shù)據(jù)內(nèi)容與結(jié)構(gòu)進(jìn)行分析,提取視頻語義信息,保證視頻內(nèi)容能被快速檢索?;趦?nèi)容的視頻檔案數(shù)據(jù)庫的建立、基于內(nèi)容的視頻檢索技術(shù)的應(yīng)用和推廣,一定程度上解決視頻檢索數(shù)量龐大的難題,使得數(shù)字檔案館能提供更便捷服務(wù)并更具價(jià)值。
(本文系2014年度浙江省檔案局科技項(xiàng)目“數(shù)字校園環(huán)境下高校檔案服務(wù)平臺建設(shè)研究”研究成果)
(責(zé)任編輯:李淑芳)
[1] 鮑亮,李倩.實(shí)戰(zhàn)大數(shù)據(jù)[M].北京:清華大學(xué)出版社,2014.
[2] 莊越挺,潘云鶴,吳飛.網(wǎng)上多媒體信息分析與檢索[M].北京:清華大學(xué)出版社,2002.
[3] 卜慶凱.基于內(nèi)容的視頻檢索與視頻摘要關(guān)鍵技術(shù)研究[D].南京:東南大學(xué),2009.
[4] Colombo C,Del Bimbo A.Color-indexed image representation and retrieval[J]. Pattern Recognition,1999,32(10).
[5] Bimbo A D,Mugnaini M,Pala P,eta1.Visual querying by color perceptive regions[J].Pattern Recognition,1998,31(9).
[6] 郭曉科.大數(shù)據(jù) [M].北京:清華大學(xué)出版社,2013.
[7] 楊晶.數(shù)字檔案館信息檢索系統(tǒng)的研究與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2006.
Application of Techniques of Content-Based Video Retrieval in Digita Archival Construction
Xie Jian-yun
G270.7
A
1005-9652(2016)02-0073-03
謝建云(1976—),女,浙江臺州人,臺州職業(yè)技術(shù)學(xué)院副研究館員。