徐存亮+王孝通
摘 要:圖像數(shù)據(jù)是艦船VDR(Voyage Data Recorder)記錄的關(guān)鍵數(shù)據(jù)之一,其高效檢索為艦船情景復(fù)現(xiàn)奠定了基礎(chǔ)。文章首先分析了圖像數(shù)據(jù)檢索的發(fā)展,以視覺詞袋模型為研究對象,以空間相似度為依據(jù),按照尺度不變的原則對圖像進(jìn)行矢量處理,并根據(jù)倒排索引的方法進(jìn)行檢索。最后,通過仿真從準(zhǔn)確率和效率兩個方面驗(yàn)證該方法的有效性。
關(guān)鍵詞:空間相似度;VDR;圖像檢索;研究
中圖分類號:U665.26 文獻(xiàn)標(biāo)志碼:A 文章編號:2095-2945(2017)24-0008-03
VDR(Voyage Data Recorder),即船舶航行數(shù)據(jù)記錄系統(tǒng),也稱船用黑匣子[1]。它以一種安全、可恢復(fù)的方式,實(shí)時記錄并保存每隔一定時間和每發(fā)生某件事件的相關(guān)信息,包括時間、位置、航向、航速、通信、雷達(dá)圖像等,重點(diǎn)提供包括船舶靜、動態(tài)信息和船舶操作等信息。如果出現(xiàn)海上事故,可借助VDR記錄的上述數(shù)據(jù),再現(xiàn)事故相關(guān)場景,從而有利于了解船舶當(dāng)時相關(guān)狀態(tài)及指揮流程,便于科學(xué)地分析事故發(fā)生的原因,客觀公正地判明責(zé)任。
當(dāng)前對VDR的判讀工作主要是依靠人工來完成,由于VDR系統(tǒng)配置了大容量的存儲介質(zhì),依靠人工對這些海量數(shù)據(jù)進(jìn)行判讀效率低下且難于全面準(zhǔn)確。因此,有必要通過技術(shù)手段對VDR數(shù)據(jù)進(jìn)行準(zhǔn)確的判讀??傮w看來,VDR系統(tǒng)存儲體記錄的數(shù)據(jù)主要有四大類,即:艦船設(shè)備狀態(tài)數(shù)據(jù)、音頻數(shù)據(jù)、視頻數(shù)據(jù)、日志數(shù)據(jù)。而對于視頻數(shù)據(jù)(包括部分靜態(tài)圖像)來說,由于其復(fù)雜性,難以迅速對其進(jìn)行全面高效的檢索與關(guān)聯(lián)分析,因此,如何更加合理、高效地檢索VDR的相關(guān)圖像數(shù)據(jù),將直接影響最終的船舶事故分析結(jié)果及效率。
1 圖像檢索的發(fā)展
圖像檢索技術(shù)始于上世紀(jì)70年代。早期的方法本質(zhì)上屬于基于文本的圖像檢索(Text-Based Image Retrieval, TBIR)[2],借助相對成熟的文本檢索技術(shù),首先從圖像尺寸、名稱、作者等方面描述圖像的相關(guān)信息,然后采用關(guān)鍵詞進(jìn)行精確查詢。由于該方法的前提是人工對圖像的注釋,而人工注釋時的主觀性、經(jīng)驗(yàn)性和非全面性將給圖像檢索帶來不確定性,此外,由于圖像數(shù)據(jù)的數(shù)量越來越大,單純依靠人工進(jìn)行注釋已無法勝任。上世紀(jì)90年代后,基于內(nèi)容的圖像檢索技術(shù)(Content-Based Image Retrieval, CBIR)[3]逐步得到大力發(fā)展。該技術(shù)專注于圖像內(nèi)容本身,無需人工注釋,而直接從圖像中提取諸如顏色、形狀、紋理等視覺特征,通過這些客觀的參數(shù),進(jìn)行匹配以檢索圖像。該檢索方式將傳統(tǒng)的“以字找圖”轉(zhuǎn)化為“以圖找圖”,將關(guān)鍵詞的匹配轉(zhuǎn)變?yōu)橐曈X特征間的匹配。
基于內(nèi)容的檢索方法專注于圖像本身,對圖像提取視覺特征并建立相應(yīng)的索引結(jié)構(gòu),這些都由計(jì)算機(jī)自動完成,從而克服了人工注釋帶來的不確定性,增加了檢索結(jié)果的可信度,但由于成像的差異使得具有相同內(nèi)容的圖像可能有不同的表現(xiàn)形式,因此,基于內(nèi)容的檢索方法與文本檢索時的精確匹配不同,基于內(nèi)容的檢索往往屬于近似匹配,即滿足一定相似度的概要匹配,而無法實(shí)現(xiàn)精確匹配。目前,以圖像為代表的數(shù)據(jù)檢索是信號處理領(lǐng)域的熱點(diǎn)之一,已有很多付諸實(shí)用的成果,但大都具備一定的針對性。同樣由于VDR設(shè)備中存儲的圖像數(shù)據(jù)較為敏感,甚至具有一定的保密性,因此有必要結(jié)合VDR設(shè)備數(shù)據(jù)的特點(diǎn)與屬性,針對VDR圖像數(shù)據(jù)的相關(guān)特征,對其檢索問題進(jìn)行針對性研究,為實(shí)現(xiàn)VDR圖像數(shù)據(jù)的準(zhǔn)確、快速檢索提供合理有效的解決方案,為VDR數(shù)據(jù)判讀奠定技術(shù)基礎(chǔ)。
2 基于空間相似度的基本思路
當(dāng)前,基于內(nèi)容的圖像檢索方法大多沿用視覺詞袋模型的框架,即將圖像進(jìn)行矢量化表示,然后利用圖像矢量進(jìn)行相似性度量。該模型雖簡單有效,但未能考慮局部特征的空間關(guān)系,從而在一定意義上影響了檢索的準(zhǔn)確率。為此,在視覺詞袋模型給出圖像檢索結(jié)果后,可結(jié)合空間相似度對待檢結(jié)果進(jìn)行二次驗(yàn)證,從而增強(qiáng)檢索的準(zhǔn)確率。對于VDR記錄的圖像數(shù)據(jù)而言,雖然數(shù)據(jù)量較為龐大,但是由于設(shè)置記錄圖像數(shù)據(jù)的部位有限且相對固定,該類數(shù)據(jù)在很大程度上有一定的空間關(guān)聯(lián)度,因此,在沿用視覺詞袋模型這個方向研究VDR圖像數(shù)據(jù)檢索時適合考慮該屬性。
目前,包括幾何驗(yàn)證法[4]、金字塔匹配法[5]等均在考慮空間對應(yīng)關(guān)系的基礎(chǔ)上對圖像檢索進(jìn)行分析,利用空間關(guān)系度量待檢索圖像和數(shù)據(jù)庫圖像的相似度,對圖像檢索準(zhǔn)確率有一定提高,但上述方法也存在一定問題。比如幾何驗(yàn)證法計(jì)算量較大,不適合對全體檢索結(jié)果進(jìn)行二次檢索;金字塔匹配法通過劃分網(wǎng)格捕捉圖像中的空間信息,但該信息不能進(jìn)行幾何變換??傮w看,現(xiàn)有圖像檢索方法大多在檢測局部特征后才形成局部特征的空間關(guān)系。從而導(dǎo)致大多數(shù)檢索方法形成的空間關(guān)系難以完全保證尺度不變性。為此,文章考慮基于尺度不變的思路來構(gòu)建新的空間相似度圖像檢索方法,并驗(yàn)證其有效性。
視覺詞組的概念是在視覺單詞基礎(chǔ)上,根據(jù)各單詞在圖像中的不同屬性,定義不同方法來提取和形成視覺詞組,比如視覺單詞出現(xiàn)的頻率、出現(xiàn)的網(wǎng)格空間等特征。但上述方法大都聚焦與圖像特征本身,而未考慮空間關(guān)系的尺度變化問題,使得圖像間的相似度檢測因成像的變化而受影響并降低檢索準(zhǔn)確率。本文的基本思路框圖如圖1所示。首先對數(shù)據(jù)庫圖像進(jìn)行預(yù)處理,主要工作是結(jié)合尺度不變性和空間相似度特征,構(gòu)建圖像對應(yīng)的視覺詞組,然后按照倒排檢索的方法進(jìn)行相關(guān)排序。圖像檢索處理時,對于待檢的圖像作同等處理,然后依照倒排索引的方法,進(jìn)行相似度比較,并最終得到檢索結(jié)果。本文的核心是要針對圖像合理構(gòu)建尺度不變的視覺詞組,使得空間關(guān)系能夠容納一定程度的幾何變換,從而為后續(xù)的有效檢索提供更多的支撐?;谠撃康模疚脑趫D像檢測過程中構(gòu)建了相應(yīng)特征間的局部空間關(guān)系。檢索圖像時,結(jié)合這種空間關(guān)系和視覺詞組,找出相似度最大的圖像作為檢索的結(jié)果。實(shí)際操作中,將圖像特征分為主特征和次特征兩部分,將這兩部分經(jīng)過視覺詞組統(tǒng)一量化處理后,作為圖像的空間關(guān)系。endprint
傳統(tǒng)的視覺詞袋模型僅將圖像表示為圖像矢量,并通過該矢量的簡單計(jì)算來比較圖像的相似度,并未考慮圖像局部特征的空間關(guān)系。此外,本算法在考慮空間關(guān)系的基礎(chǔ)上,兼顧了空間尺度不變性,從而對圖像的空間變化提供了兼容,使得圖像檢索能在理論上保持更高的準(zhǔn)確率及效率。實(shí)際處理過程中,如果在檢索時將待檢圖像與數(shù)據(jù)庫中的每幅圖像逐一進(jìn)行計(jì)算和比較,計(jì)算成本將極大,為此我們借助預(yù)處理對數(shù)據(jù)庫進(jìn)行先期處理,并結(jié)合倒排索引的方法組織數(shù)據(jù)庫圖像,檢索時,只需計(jì)算和比較圖像間對應(yīng)特征及空間相似度的情況,從而判斷圖像的相似度并給出檢索結(jié)果。
3 實(shí)驗(yàn)結(jié)果與分析
本實(shí)驗(yàn)主要針對傳統(tǒng)的視覺詞袋模型進(jìn)行比較,實(shí)驗(yàn)借助Matlab平臺,采用ImageNet數(shù)據(jù)庫作為數(shù)據(jù)源[6]。檢索性能主要包括檢索準(zhǔn)確率和檢索效率兩個關(guān)鍵參數(shù)。對于準(zhǔn)確率,采用均值平均準(zhǔn)確率進(jìn)行評估;對于檢索效率,主要采用檢索所耗費(fèi)的時間來表征。在對數(shù)據(jù)庫的圖像進(jìn)行預(yù)處理的過程中,首先采用快速Hessian檢測法檢測圖像的主要特征,該算法具有較好的計(jì)算效率;圖像特征中的主特征及次特征分別用64維向量表示。算法中采用k-means算法對數(shù)據(jù)庫中的特征進(jìn)行聚類,并根據(jù)聚類結(jié)果創(chuàng)建詞典,最后通過詞典中的視覺單詞量化數(shù)據(jù)庫中的圖像,并生成尺度不變視距詞組。
通過實(shí)驗(yàn)可以發(fā)現(xiàn),由于傳統(tǒng)的視覺詞袋模型僅關(guān)注了圖像的矢量化,而沒有考慮圖像的空間信息,因此,同樣采用倒排索引的方法時,傳統(tǒng)的視覺詞袋模型檢索準(zhǔn)確率顯然低于本文的方法。如圖1所示,在采用不同數(shù)量的數(shù)據(jù)庫圖像檢索過程中,本文的方法均優(yōu)于傳統(tǒng)的視覺詞袋模型,尤其在數(shù)據(jù)庫圖像數(shù)量增大時,兩者之間的差異更加明顯。
對于檢索效率來說,主要衡量標(biāo)準(zhǔn)是針對同等容量的數(shù)據(jù)庫圖像,兩種不同方法所花費(fèi)的時間。如圖3所示,從實(shí)驗(yàn)數(shù)據(jù)來看,基于尺度不變的方法優(yōu)于傳統(tǒng)的視覺詞袋模型。顯然,隨著數(shù)據(jù)庫圖像數(shù)量的增加,兩種方法檢索花費(fèi)的時間均相應(yīng)增長,盡管如此,實(shí)驗(yàn)結(jié)果表明,采用本文方法檢索時的效率要高于傳統(tǒng)方法,且隨著圖像數(shù)據(jù)庫的增大,本文方法檢索時間的增長比傳統(tǒng)方法趨緩。
綜上,不難看出,在結(jié)合了尺度不變性及空間相似度的前提下,對于圖像的檢索而言,無論從檢索的正確性還是檢索的基本效率,本文的方法較傳統(tǒng)視覺詞袋模型均有了明顯的提高。本方法在對圖像數(shù)據(jù)矢量化的基礎(chǔ)上,基于尺度不變的原則確定圖像之間的空間對應(yīng)關(guān)系,并將該關(guān)系用于判斷檢索圖像與數(shù)據(jù)庫圖像的空間相似性,同時采用了倒排檢索的基本方法進(jìn)行圖像檢索,實(shí)驗(yàn)結(jié)果表明了該方法的有效性。
4 結(jié)束語
圖像數(shù)據(jù)由于攜帶信息更加直觀豐富,已逐漸成為獲取和交換信息的重要載體。一方面,圖像數(shù)據(jù)的大量增長給信息的傳遞帶來了便利;與此同時,如何快速準(zhǔn)確地從大量圖像中獲取感興趣的部分卻變得相對困難。也就是說,如何高效地檢索出滿足需求的圖像,成為圖像檢索領(lǐng)域亟待研究的問題。
VDR作為現(xiàn)代艦船的關(guān)鍵設(shè)備之一,實(shí)時記錄了艦船運(yùn)行的多類關(guān)鍵數(shù)據(jù),其中圖像數(shù)據(jù)占比較大,類型也比較豐富,因此,對于VDR圖像數(shù)據(jù)的梳理及檢索對于判斷VDR數(shù)據(jù)來說至關(guān)重要。但總體來說,對于VDR記錄的圖像數(shù)據(jù)而言,由于圖像采集的各部位相對明確,因此,可以借助圖像數(shù)據(jù)間的空間相似度來為圖像數(shù)據(jù)的檢索提供幫助,本文在基于內(nèi)容檢索的框架下,借助視覺詞組的基本思路,利用尺度不變性對圖像進(jìn)行預(yù)處理,并結(jié)合倒排檢索的方法對待檢圖像進(jìn)行檢索,從仿真結(jié)果看,該算法無論從檢索的準(zhǔn)確率和效率來說,都比傳統(tǒng)的視覺詞袋模型更加有效,可以作為一個可行方法對VDR圖像數(shù)據(jù)進(jìn)行檢索。
參考文獻(xiàn):
[1]徐存亮,等.VDR數(shù)據(jù)判讀關(guān)鍵技術(shù)綜述[A].第十二屆軍事海洋戰(zhàn)略與發(fā)展論壇論文集[C].2015:960-963.
[2]Rui Y., Huang T.S., Chang S.F., Image retrieval: current techniques, promising directions, and open issues, Journal of Visual Communication and Image Representation, 1999,10:39-62.
[3]陳秀新,邢素霞.圖像/視頻檢索與圖像融合[M].機(jī)械工業(yè)出版社, 2012.
[4]Philbin J., Chum O., Isard M., et al., Object retrieval with large vocabulary and fast spatial matching, In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Minnesota, USA, 2007:1-8.
[5]Lazebnik S., Schmid C., Ponce J., Beyond bag of features: spatial pyramid matching for recognizing natural scence categories, In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, New York, USA, 2006:2169-2178.
[6]Deng J., Dong W., Socher R., et al., ImageNet: A large-scale hierarchical image database, In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Florida,USA,2009:248-255.endprint