裴新超,尹四清
(中北大學軟件學院,山西 太原 030051)
?
基于Hadoop平臺的圖像檢索研究
裴新超,尹四清
(中北大學軟件學院,山西 太原 030051)
摘要:隨著計算機技術的快速發(fā)展,圖像數(shù)據(jù)的不斷增長,針對傳統(tǒng)的圖像檢索方法在處理海量圖像數(shù)據(jù)存在低效率的問題,提出了一種基于Hadoop平臺的并行圖像檢索方法。首先,設計合理的Map方法和Reduce方法,并行地提取圖像的綜合特征(顏色、形狀、紋理),生成圖像特征庫;然后,并行地計算樣例圖像與圖像庫中的圖像的相似度,輸出最相似的圖像。實驗結果表明,基于Hadoop平臺的圖像檢索方法比傳統(tǒng)的圖像檢索方法具有更高的檢索效率,適合大規(guī)模的圖像檢索。
關鍵詞:Hadoop;MapReduce;相似度;圖像檢索
隨著互聯(lián)網(wǎng)的快速發(fā)展,每天圖像數(shù)據(jù)以數(shù)億計產(chǎn)生。如何根據(jù)輸入的任意一幅圖像快速檢索到相似的圖像,如何對海量的多媒體信息進行快速檢索,已經(jīng)成為一個亟待解決的問題。傳統(tǒng)串行處理方式難以滿足海量圖像高效處理的需求,因此,尋求新的方式逐漸變成新的研究方向[1]。
近年來,云計算得到了快速發(fā)展,與云計算密切相關的大數(shù)據(jù)處理同樣得到快速的發(fā)展,所以基于Hadoop平臺來解決海量圖像檢索的問題被人們廣泛的研究[3]。Hadoop平臺具備優(yōu)秀的大規(guī)模數(shù)據(jù)處理能力、較高的容錯性以及可靠性、低成本等優(yōu)勢,能夠提供分布式的數(shù)據(jù)存儲和分析的解決方案,為并行地處理海量圖像數(shù)據(jù)提供了基礎。
針對傳統(tǒng)圖像檢索方法檢索效率不高的問題[8],本文提出了一種基于Hadoop平臺的并行圖像檢索方法,在建立圖像特征庫的過程中,設計合理Map和Reduce方法,并行地提取圖像特征,實現(xiàn)圖像的存儲;在進行圖像檢索的過程中,利用MapReduce并行地計算樣例圖像與圖像庫中圖像之間的相似性。與傳統(tǒng)的檢索方法進行比較,本文檢索方法具有更好的檢索效率,更能適用于大規(guī)模圖像檢索。
1圖像特征提取
傳統(tǒng)的圖像處理通常使用圖像底層的物理特征,包括顏色直方圖、形狀SIFT特征、Tamura紋理特征、小波變換等。顏色直方圖是最直觀和最常用的顏色特征,SIFT是圖像的局部特征,具有旋轉、尺度縮放的不變性,能夠更好地表述形狀特征。本文提取圖像顏色、形狀、紋理等多種特征。提取圖像特征的過程:
1) 首先將數(shù)據(jù)庫中圖像上傳到HDFS上;
2) 設計合理的Map和Reduce方法,提取每幅圖像的綜合特征(顏色,形狀,紋理),計算獲得每幅圖像的一個特征向量;
3) 最后獲得所有圖像的圖像特征向量庫。
在Map階段,提取圖像的顏色,形狀,紋理特征,生成一個特征向量。并且把生成的特征向量作為一行記錄存入HBase中,如果提取特征失敗,那么記錄圖像的ID。在Reduce階段,把無效的圖像ID返回給HDFS[4]。
提取圖像特征Map函數(shù)如下:
public void map (LongWritable key, Text value, OutputCollector < LongWritable , Text> output, Reporter reporter)
其中:key為圖像的主鍵ID;value為圖像的原始內容;輸出LongWritable為圖像的主鍵ID;Text為圖像的特征數(shù)據(jù)。Map函數(shù)提取圖像的顏色、形狀、紋理特征組合生成綜合特征。
提取圖像特征Reduce函數(shù)如下:
public void reduce (LongWritable key, Iterator
其中:key為圖像的主鍵ID;values為圖像的特征數(shù)據(jù);輸出的LongWritable為圖像的主鍵ID;Text為圖像的特征數(shù)據(jù)。Reduce函數(shù)對全部的圖像特征排序,output是所有排序后的圖像特征。
2圖像檢索
圖像以及圖像特征都存儲在HBase中,隨著數(shù)據(jù)量的不斷變大,在文件中進行檢索需要花費很長的時間,為了提高檢索的效率和減少檢索的時間,采取基于Hadoop對圖像進行檢索[2]?;贖adoop平臺圖像檢索具有高并發(fā)性,它是將串行操作過程變成并行操作過程,其圖像檢索過程如下:
1) 用戶提交樣例圖像,系統(tǒng)提取圖像的顏色,形狀,紋理特征;
2) 設計合理的Map和Reduce方法,并行計算出圖像庫中圖像與樣例圖像之間的相似度;
3) 對相似結果進行排序,獲得最后的相似圖像。
在Map階段,首先提取樣例圖像的圖像特征,然后與特征數(shù)據(jù)庫中的圖像特征進行特征相似度的比較與匹配。<相似性,圖像ID>作為map輸出,并且按照相似性的大小對其進行排序和重新劃分,輸入到Reduce。在Reduce階段,把所有的<相似性,圖像ID>集合起來,根據(jù)相似性的大小排序,將前N個<相似性,圖像ID>輸入到HDFS,找出與樣例圖像相似性最大的圖像的ID,得到相似性最高的N幅圖像[5]。
圖像檢索的Map函數(shù)如下:
public void map(LongWritable key, Text value, OutputCollector< LongWritable ,Text> output, Reporter reporter)
其中:key為圖像的主鍵ID;value為圖像特征數(shù)據(jù);輸出LongWritable為圖像的主鍵ID;Text為空。Map函數(shù)根據(jù)比較圖像特征與樣例圖像特征之間的相似性得到檢索的結果,output為最相似圖像的主鍵ID集合。
圖像檢索的Reduce函數(shù)如下:
public void reduce(LongWritable key, Iterator
其中:key為圖像的ID;value為空;輸出的LongWritable為圖像的主鍵ID;Text為圖像的元數(shù)據(jù)。根據(jù)Reduce函數(shù)檢索圖像的屬性、文字,獲取Map操作中相似的圖像,繼而進行關于文字、屬性的檢索,最終得到同時滿足兩種特征的圖像,output是所有最相似的圖像。
3實驗與分析
3.1實驗環(huán)境
在Linux環(huán)境下搭建Hadoop平臺,包括1個主節(jié)點(NameNode)以及3個子節(jié)點(DataNode),保證四臺機器在同一個局域網(wǎng),服務器配置如表1所示[7]。在搭建的Hadoop平臺圖像檢索系統(tǒng)上,采用各個不同的節(jié)點數(shù)的情況下,做圖像檢索的實驗,比較本實驗平臺的測試結果和傳統(tǒng)單節(jié)點的測試,根據(jù)存儲效率和檢索速度來評價系統(tǒng)的性能,并且對基于Hadoop平臺的檢索系統(tǒng)進行全面表述[6]。
表1 Hadoop平臺的系統(tǒng)服務器配置
3.2實驗數(shù)據(jù)
對于Hadoop分布式圖像檢索系統(tǒng),本實驗采用40萬服飾圖像作為測試數(shù)據(jù),分別采用10萬、20萬、40萬、60萬、80萬、100萬服飾圖像對平臺進行實驗測試[9]。
3.3圖像存儲性能的對比
根據(jù)各個數(shù)量的服飾圖像,依據(jù)各個節(jié)點數(shù)目,對所有進行存儲消耗的時間如圖1所示。從圖中分析可得,如果服飾圖像的數(shù)量低于10萬,二者系統(tǒng)之間的存儲所消耗的時間差異甚??;但是伴著圖像總數(shù)的增大,采用單節(jié)點的存儲圖像消耗的時間劇烈增大,然而基于Hadoop平臺系統(tǒng)存儲消耗的時間增長不是很劇烈。因此,本文基于Hadoop平臺的檢索系統(tǒng)消耗了較短的存儲時間,對系統(tǒng)的整體性能起到提高的作用。
圖1 二者檢索方式的服飾圖像存儲時間比較
3.4圖像檢索效率的對比
根據(jù)不同數(shù)目的圖像庫以及依據(jù)各個節(jié)點數(shù)的情況,服飾圖像檢索消耗時間如圖2所示。從圖中分析可得,如果服飾圖像數(shù)目較少,基于Hadoop平臺的系統(tǒng)和單節(jié)點系統(tǒng)的檢索消耗時間差不多;如果增加服飾圖像數(shù)量,二者檢索消耗的時間均相應增加,并且傳統(tǒng)的單節(jié)點系統(tǒng)圖像檢索消耗時間相比于Hadoop平臺系統(tǒng)的消耗時間,前者的增長更大。重點是因為基于Hadoop的分布式系統(tǒng)采用MapReduce具有并行計算優(yōu)勢,在各個節(jié)點上同時進行服飾圖像的檢索,提升了服飾圖像的檢索效率;并且如果節(jié)點的數(shù)目越大,檢索的效率越高,采用更多基于Hadoop分布式系統(tǒng)的節(jié)點數(shù)目,能夠大幅提升圖像檢索系統(tǒng)的性能。
圖2 二者系統(tǒng)的服飾圖像檢索效率比較
4結束語
隨著圖像數(shù)量的不斷增長,傳統(tǒng)圖像檢索方式在處理海量圖像時存在效率低、可靠性差等缺陷,基于此提出了基于Hadoop平臺的分布式并行圖像檢索方法。實驗測試表明,基于Hadoop的分布式圖像檢索能夠提升圖像存儲和檢索的效率,能夠給用戶提供較好檢索結果,同時在處理海量圖像數(shù)據(jù)時,體現(xiàn)出比傳統(tǒng)單節(jié)點更明顯的優(yōu)點。以后的工作重心是更有效的在Map和Reduce之間進行數(shù)據(jù)傳輸,使這過程的時間消耗降低,從而更加有效地提升檢索的效率。
參考文獻
[1]霍樹民.基于Hadoop的海量影像數(shù)據(jù)管理關鍵技術研究[D].長沙:國防科學技術大學,2010.
[2]楊叢聿.基于MapReduce模型的圖像相似度分析[D].北京:北京郵電大學,2013.
[3]卓友勝,劉利.基于Hadoop云計算平臺的CBIR設計[J].電腦知識與技術,2014,27:6318-6320.
[4]楊曼,何鵬,齊懷琴,等.基于Map/Reduce的海量視頻圖像檢索系統(tǒng)設計[J].電視技術,2015(4):33-36.
[5]李素若.基于MapReduce的互聯(lián)網(wǎng)圖像相似性度量研究[J].荊楚理工學院學報,2015(2):32-36+49.
[6]朱為盛,王鵬.基于Hadoop云計算平臺的大規(guī)模圖像檢索方案[J].計算機應用,2014(3):695-699.
[7]范敏,徐勝才.基于Hadoop的海量醫(yī)學圖像檢索系統(tǒng)[J].計算機應用,2013(12):3345-3349.
[8]蔡麗娟.一種基于Hadoop架構的海量圖像檢索方法[J].通訊世界,2014(8):16-18.
[9]郭飛,詹炳宏,劉剛.基于Hadoop的服飾圖像存儲與檢索關鍵技術研究[J].計算機應用研究,2014(4):1086-1089+1126.
Image Retrieval Solution Based on Hadoop Platform
Pei Xinchao, Yin Siqing
(SoftwareSchool,NorthUniversityofChina,TaiyuanShanxi030051,China)
Abstract:With the development of Internet and the growing of image data, in view of the low efficiency problem with traditional image retrieval methods in the treatment of massive image data, this paper proposes a parallel image retrieval method based on Hadoop platform. First of all, the reasonable design method of the Map and Reduce method are made to parallel extract the image color, texture feature and generate the image feature database; then, in parallel to compute the similarity of sample images with the images in the image library, output the most similar images. The experimental results show that comparing with the traditional image retrieval method, the image retrieval method based on Hadoop platform has higher retrieval efficiency and suitable for large-scale image retrieval.
Key words:Hadoop; MapReduce; similarity; image retrieval
中圖分類號:TP391
文獻標識碼:A
文章編號:1674- 4578(2016)01- 0085- 02
作者簡介:裴新超(1989- ),男,山西運城人,碩士研究生,CCF會員(49769G),主要研究方向為:基于內容的圖像檢索。
收稿日期:2015-10-18