曹健,朱信忠,趙建民,徐慧英
近年來(lái),數(shù)字圖書(shū)館和互聯(lián)網(wǎng)等信息資源庫(kù)飛速發(fā)展,從中查找自己感興趣的多媒體信息已成為人們生活中不可缺少的部分[1]。但現(xiàn)有多媒體檢索系統(tǒng)大多采用B/S單節(jié)點(diǎn)架構(gòu),實(shí)現(xiàn)檢索時(shí)間無(wú)法讓人滿意,特別在多用戶并發(fā)操作以及面對(duì)多媒體數(shù)據(jù)量的快速增長(zhǎng)時(shí),系統(tǒng)的實(shí)時(shí)性急劇降低,已不能滿足人們當(dāng)前對(duì)于高清視頻和圖像等多媒體信息檢索的需求。而且現(xiàn)有的多媒體檢索系統(tǒng)基本采用基于內(nèi)容的多媒體檢索技術(shù),它是通過(guò)媒體底層特征進(jìn)行相似匹配進(jìn)行檢索,以目前的計(jì)算機(jī)技術(shù),人們還無(wú)法找到完全合理確當(dāng)?shù)拿枋龅讓犹卣鞯姆椒ê褪侄?,所以基于?nèi)容的多媒體檢索的準(zhǔn)確性還不夠理想。因此如何及時(shí)高效地從浩若煙海互聯(lián)網(wǎng)多媒體資源庫(kù)中檢索自己所需的數(shù)據(jù)也是現(xiàn)今研究的熱點(diǎn)。
對(duì)于傳統(tǒng)B/S單節(jié)點(diǎn)系統(tǒng)的無(wú)法保障多媒體檢索實(shí)時(shí)性問(wèn)題,近年興起的云計(jì)算為此提供了解決思路。Hadoop是云計(jì)算模型的一個(gè)開(kāi)源實(shí)現(xiàn),通過(guò)分布式處理技術(shù)充分利用空閑的計(jì)算機(jī)資源構(gòu)成Hadoop集群,提高系統(tǒng)的資源利用率;在Hadoop集群中通過(guò)MaPReduce并行計(jì)算框架,將用戶的多媒體檢索請(qǐng)求分配給Hadoop集群中“空閑”節(jié)點(diǎn)進(jìn)行處理,可以有效解決多用戶并發(fā)訪問(wèn)以及從海量數(shù)據(jù)庫(kù)中檢索目標(biāo)資源帶來(lái)的實(shí)時(shí)性問(wèn)題。
對(duì)于現(xiàn)在基于內(nèi)容的多媒體檢索遇到的“語(yǔ)義鴻溝問(wèn)題”,本文采用相關(guān)反饋技術(shù)提高系統(tǒng)的檢索的準(zhǔn)確性。相關(guān)反饋是通過(guò)人機(jī)交互,如果用戶對(duì)系統(tǒng)檢索結(jié)果不滿意,可以標(biāo)注部分檢索結(jié)果為正反饋信息,部分不滿意檢索結(jié)果是標(biāo)注為負(fù)反饋信息。系統(tǒng)根據(jù)用戶提交正負(fù)反饋信息,調(diào)整內(nèi)部檢索參數(shù),從而優(yōu)化檢索結(jié)果并反饋給用戶[2]。
因此基于這兩點(diǎn),本文提出了基于云計(jì)算的多媒體檢索系統(tǒng)。它能有效解決傳統(tǒng)單節(jié)點(diǎn)架構(gòu)存在的局限性問(wèn)題,也提高了檢索結(jié)果的準(zhǔn)確性。系統(tǒng)圖框架結(jié)構(gòu)圖以及多媒體系統(tǒng)檢索流程圖,如下圖1、2所示:
圖1 系統(tǒng)圖框架結(jié)構(gòu)圖
HDFS是一個(gè)分布式文件系統(tǒng),采用Master(Job Tracker)/Slave(TaskTracker)架構(gòu),由主節(jié)點(diǎn)NameNode和數(shù)據(jù)節(jié)點(diǎn)DataNode組成。HDFS為多媒體檢索系統(tǒng)提供媒體庫(kù)以及特征庫(kù)的存儲(chǔ),為MapReduce提供相關(guān)信息的交互以及處理所需的數(shù)據(jù)。
對(duì)于原始的網(wǎng)絡(luò)上多媒體數(shù)據(jù),需要對(duì)其進(jìn)行相應(yīng)的預(yù)處理后才可以存儲(chǔ)于HDFS中?;趦?nèi)容的多媒體檢索突破了傳統(tǒng)的基于文本檢索的局限,直接對(duì)圖像、視頻、音頻內(nèi)容進(jìn)行分析,抽取其內(nèi)容特征建立特征庫(kù)[3],檢索時(shí)web服務(wù)器提取待檢索媒體的特征,通過(guò)MapReduce進(jìn)行特征匹配,實(shí)現(xiàn)多媒體檢索。因此,HDSF模塊需要對(duì)網(wǎng)絡(luò)上多媒體資源做以下幾個(gè)步驟的處理:
(1)將網(wǎng)絡(luò)上的多媒體數(shù)據(jù)經(jīng)過(guò)預(yù)處理后,分析多媒體文檔的基本框架,分析將其中文本庫(kù)、圖片庫(kù)、視頻庫(kù)、音頻庫(kù)存儲(chǔ)于相HDFS中,用于媒體對(duì)象的特征提取以及用戶獲取圖像檢索結(jié)果。同時(shí),設(shè)置交叉參照知識(shí)庫(kù),作為相關(guān)反饋查詢的語(yǔ)義基礎(chǔ)[4]。
圖2 多媒體系統(tǒng)檢索流程圖
(3)對(duì)HDSF中各媒體數(shù)據(jù)庫(kù)分別進(jìn)行特征提取,提交MapReduce任務(wù),生成媒體特征庫(kù)。例如圖像特征提取,Map階段,map函數(shù)每次讀入一幅圖像,提取其形狀、紋理以及顏色特征。Reduce階段,將Map階段提取的圖像特征數(shù)據(jù)存儲(chǔ)于HDFS中。
(4)MapReduce框架雖然可以處理多種數(shù)據(jù)格式,但為了便于Map任務(wù)更好的的執(zhí)行,因此將每個(gè)媒體對(duì)象的特征作為一條特征記錄,其特征數(shù)據(jù)以文本格式進(jìn)行存儲(chǔ)。
并行計(jì)算MaPReduce技術(shù)是云計(jì)算的核心技術(shù),本模塊實(shí)現(xiàn)的主要功能是多媒體檢索過(guò)程中的媒體特征匹配計(jì)算,也即相似度的計(jì)算。MapReduce任務(wù)是由客戶端提交一個(gè)MapReduce作業(yè),由Job Tracker進(jìn)行相應(yīng)的初始化以及調(diào)度,將MapReduce程序分發(fā)到各TaskTracker節(jié)點(diǎn)進(jìn)行運(yùn)行。MapReduce程序在運(yùn)行時(shí)需要讀取存儲(chǔ)于HDFS中相關(guān)的媒體特征數(shù)據(jù)。MapReduce模塊實(shí)現(xiàn)媒體對(duì)象匹配的工作框圖,如圖3所示:
圖3 MapReduce工作框圖
MapReduce的工作流程可以分為以下幾個(gè)方面:
(l)MaPReduce程序在運(yùn)行時(shí),將HDFS中存儲(chǔ)的相對(duì)應(yīng)的多媒體特征庫(kù)進(jìn)行分割,如需要檢索圖像,就對(duì)圖像特征庫(kù)進(jìn)行分割,得到圖像特征數(shù)據(jù)的分片。
(2)對(duì)于每塊數(shù)據(jù)分片,由DataNode節(jié)點(diǎn)傳送至各TaskTrackcr節(jié)點(diǎn)。每個(gè)Map任務(wù)讀取一個(gè)數(shù)據(jù)分片,然后把數(shù)據(jù)分片再分解為一系列鍵/值對(duì)(Key/Value),其中Key值就是相應(yīng)多媒體特征在數(shù)據(jù)分片中的偏移距離量,Value值就是多媒體的特征值。然后由MaP()函數(shù)對(duì)這些Key/Value對(duì)進(jìn)行匹配運(yùn)算,匹配結(jié)果以相似度和特征庫(kù)中的多媒體名作為中間結(jié)果Key/Value對(duì)。
(3)對(duì)于MaP任務(wù)輸出的中間結(jié)果Key/Value對(duì),合并其相同結(jié)果(如果存在多個(gè)相同的數(shù)據(jù),只取其中一個(gè)結(jié)果)并以Key值大小進(jìn)行排序[5],將最終的Key/Value對(duì)傳遞給Reduce任務(wù)。
(4)Reduce任務(wù)讀取排完序的Key/Value對(duì),對(duì)其進(jìn)行匯總,按相似度的大小進(jìn)行排序,最終得到多媒體檢索的結(jié)果,并將結(jié)果寫(xiě)入HDFS中[6]。
相關(guān)反饋是多媒體檢索系統(tǒng)獲取語(yǔ)義的重要手段,通過(guò)用戶相關(guān)反饋可以不斷提高檢索的準(zhǔn)確率。在檢索過(guò)程,用戶可以對(duì)部分結(jié)果分別標(biāo)注為相關(guān)媒體對(duì)象和不相關(guān)媒體對(duì)象,得到正反饋集合和負(fù)反饋集合,這兩種集合構(gòu)成相關(guān)反饋信息。本文中用戶相關(guān)反饋功能主要體現(xiàn)在交叉參照?qǐng)D模型的更新以及構(gòu)建新一次查詢的語(yǔ)義基礎(chǔ)。
3.3.1 交叉參照?qǐng)D模型更新
通過(guò)用戶的相關(guān)反饋信息,系統(tǒng)自動(dòng)更新交叉參照模型。對(duì)于屬于正反饋部分的任意兩個(gè)媒體對(duì)象,增加它們之間的權(quán)重,對(duì)于負(fù)反饋部分的媒體對(duì)象,則減少它們與正反饋部分每個(gè)媒體對(duì)象之間的權(quán)重,如果它們減少后的權(quán)重變?yōu)榱?,則自動(dòng)刪除這兩種媒體對(duì)象之間的鏈接關(guān)系[7]。隨著相關(guān)反饋次數(shù)的增加,媒體對(duì)象之間的鏈接關(guān)系更加趨于合理。
3.3.2 構(gòu)建新一次查詢的語(yǔ)義基礎(chǔ)
在基于內(nèi)容的多媒體檢索過(guò)程中,初始查詢例子往往不能更好地表達(dá)用戶的查詢意思,因此需要利用相關(guān)反饋進(jìn)行調(diào)整。系統(tǒng)在獲得用戶反饋回來(lái)的帶標(biāo)注的媒體對(duì)象,采用上下文分析算法計(jì)算出檢索對(duì)象語(yǔ)義上下文,構(gòu)建新的檢索的語(yǔ)義基礎(chǔ),并且對(duì)相應(yīng)檢索通道下的查詢向量以及相似度計(jì)算方法進(jìn)行調(diào)整。系統(tǒng)在新構(gòu)建的語(yǔ)義基礎(chǔ)上做基于內(nèi)容的檢索。
在此部分,語(yǔ)義上下文算法是關(guān)鍵。在相關(guān)反饋信息基礎(chǔ)上,語(yǔ)義上下文分析算法需要考慮兩個(gè)方面:(1)擴(kuò)展,找出那些不屬于檢索結(jié)果卻滿足用戶查詢語(yǔ)義的多媒體檢索對(duì)象;(2)優(yōu)化,提取檢索結(jié)果中與用戶語(yǔ)義相關(guān)的內(nèi)容,減少不相關(guān)的部分。
語(yǔ)義上下文分析具體算法如下[4]:
在Linux環(huán)境下,通過(guò)幾臺(tái)普通的PC機(jī)搭建一個(gè)云計(jì)算平臺(tái)即Hadoop集群。在不同節(jié)點(diǎn)數(shù)的平臺(tái)上進(jìn)行多媒體檢索的測(cè)試,將其測(cè)試結(jié)果與傳統(tǒng)B/S架構(gòu)下的多媒體檢索系統(tǒng)的測(cè)試結(jié)果進(jìn)行對(duì)比,并對(duì)基于云計(jì)算平臺(tái)的的多媒體檢索系統(tǒng)的性能進(jìn)行分析。
本文以多媒體圖像檢索為例進(jìn)行試驗(yàn),當(dāng)圖像特征的數(shù)據(jù)量分別為40萬(wàn)、70萬(wàn)、110萬(wàn)以及150萬(wàn)條時(shí),在不同節(jié)點(diǎn)數(shù)(節(jié)點(diǎn)數(shù)分別為1,2,3,4)以及B/S單節(jié)點(diǎn)模式下,測(cè)試圖像檢索的耗時(shí),實(shí)驗(yàn)結(jié)果,如圖4所示:
圖4 不同節(jié)點(diǎn)數(shù)圖像檢索耗時(shí)圖
實(shí)驗(yàn)表明,隨著圖像特征數(shù)據(jù)量大幅增加,系統(tǒng)檢索時(shí)間呈線性遞增狀態(tài)。但相比于B/S單節(jié)點(diǎn)模式,從圖4可以發(fā)現(xiàn)Hadoop集群節(jié)點(diǎn)數(shù)越多,檢索速度越快,耗時(shí)越少。只有當(dāng)Hadoop集群節(jié)點(diǎn)數(shù)為1時(shí),檢索速度才比B/S單節(jié)點(diǎn)慢,這是由于Hadoop分布式系統(tǒng)在執(zhí)行MapReduce程序時(shí),任務(wù)的初始化、作業(yè)的分配與清空的耗時(shí)所造成的。
本文介紹了通過(guò)云計(jì)算的架構(gòu)體系搭建多媒體檢索系統(tǒng),提高多媒體檢索的及時(shí)性。實(shí)驗(yàn)證明了Hadoop集群節(jié)點(diǎn)數(shù)越多多媒體檢索系統(tǒng)的速度越快,檢索耗時(shí)越低。相比于昂貴的服務(wù)器,通過(guò)廉價(jià)的pc搭建的Hadoop集群在多媒體檢索領(lǐng)域具有廣闊的應(yīng)用前景。針對(duì)多媒體檢索遇到“語(yǔ)義鴻溝”問(wèn)題,本文借鑒文獻(xiàn)[4]的思想,通過(guò)在檢索系統(tǒng)中加入相關(guān)反饋模塊,可以有效提高多媒體檢索的準(zhǔn)確性,相關(guān)反饋模塊的測(cè)試可見(jiàn)文獻(xiàn)[4]。由于目前計(jì)算機(jī)技術(shù)還無(wú)法有效解決“語(yǔ)義鴻溝”問(wèn)題,因此對(duì)多媒體相關(guān)反饋技術(shù)的進(jìn)一步深入研究將會(huì)助力于多媒體檢索檢索技術(shù)的快速發(fā)展。
[1]徐曉.多媒體信息檢索模式研究[J].大眾商務(wù),2009,(06):101.
[2]WWW 環(huán)境下信息第一檢索策略的實(shí)驗(yàn)調(diào)查研究[J].情報(bào)科學(xué),2005,(11):1704-1707.
[3]張翠玉.基于內(nèi)容的檢索技術(shù)與多媒體數(shù)據(jù)庫(kù)[J].科技信息,2010,(26);632-633.
[4]汪燕云,劉翔,吳飛.面向多媒體文檔的多通道檢索系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件,2009,(07):9-13.
[5]霍樹(shù)民.基于Hadoop的海量影像數(shù)據(jù)管理關(guān)鍵技術(shù)研究[D].國(guó)防科學(xué)技術(shù)大學(xué),2010.
[6]李波.基于Hadoop的海量圖象數(shù)據(jù)管理[D].華東師范大學(xué),2011.
[7]莊越挺,吳聰苗,吳飛,劉翔.多媒體交叉參照檢索系統(tǒng)研究[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2005,(04):834-839.