查正軍 鄭曉菊,2
1(中國(guó)科學(xué)技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院 合肥 230027)2(中國(guó)科學(xué)院合肥物質(zhì)科學(xué)研究院 合肥 230021)
多媒體信息檢索中的查詢與反饋技術(shù)
查正軍1鄭曉菊1,2
1(中國(guó)科學(xué)技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院 合肥 230027)2(中國(guó)科學(xué)院合肥物質(zhì)科學(xué)研究院 合肥 230021)
(zhazj@ustc.edu.cn)
歷經(jīng)幾十年的發(fā)展,多媒體檢索取得了長(zhǎng)足的進(jìn)步,然而檢索性能的提升依然受到“意圖鴻溝”與“語(yǔ)義鴻溝”的制約.針對(duì)此問(wèn)題,學(xué)術(shù)界提出了一系列查詢技術(shù)幫助用戶清楚地表達(dá)檢索意圖以及反饋技術(shù)幫助系統(tǒng)準(zhǔn)確地理解用戶意圖與媒體數(shù)據(jù),有效提升了檢索性能.對(duì)多媒體檢索中的查詢與反饋技術(shù)進(jìn)行了分析與討論.分析了查詢方式的演變與反饋技術(shù)的發(fā)展,綜述了面向PC機(jī)、移動(dòng)智能終端、觸屏設(shè)備的查詢技術(shù),介紹了不同時(shí)期的反饋技術(shù),探討了探索式搜索中的交互問(wèn)題,最后分析了該領(lǐng)域的未來(lái)研究趨勢(shì).
多媒體信息檢索;檢索意圖;內(nèi)容理解;查詢;反饋
隨著多媒體采集設(shè)備的日益普及和數(shù)據(jù)存儲(chǔ)、互聯(lián)網(wǎng)等技術(shù)的飛速發(fā)展,圖像、視頻等多媒體數(shù)據(jù)已經(jīng)成為人們獲取與傳播信息的主要媒介,正在全方位地滲透到人們的工作和生活中.多媒體數(shù)據(jù)規(guī)模龐大且呈爆炸式增長(zhǎng),其潛在價(jià)值巨大,是國(guó)家大數(shù)據(jù)戰(zhàn)略資源的重要組成部分.在“國(guó)家中長(zhǎng)期科學(xué)和技術(shù)發(fā)展規(guī)劃綱要(2006—2020)”中,數(shù)字媒體內(nèi)容被列為“信息產(chǎn)業(yè)及現(xiàn)代服務(wù)業(yè)”領(lǐng)域的優(yōu)先主題之一.面對(duì)海量多媒體數(shù)據(jù),如何實(shí)現(xiàn)快速準(zhǔn)確的信息檢索,一直是多媒體研究領(lǐng)域的熱點(diǎn)問(wèn)題.多媒體檢索是滿足人們信息需求的主要途徑,是眾多智能媒體應(yīng)用的基礎(chǔ).
最早的多媒體檢索研究可以追溯到20世紀(jì)70年代末期,其主要依賴人工標(biāo)注生成媒體數(shù)據(jù)的文本標(biāo)簽,利用文本匹配完成檢索.人工標(biāo)注費(fèi)時(shí)費(fèi)力,且存在標(biāo)注缺失與錯(cuò)誤等問(wèn)題.自本世紀(jì)初始,隨著計(jì)算機(jī)視覺(jué)、模式識(shí)別、機(jī)器學(xué)習(xí)等技術(shù)的進(jìn)步,逐漸發(fā)展出多媒體內(nèi)容自動(dòng)標(biāo)注方法,通過(guò)建立語(yǔ)義概念模型自動(dòng)分析媒體數(shù)據(jù)內(nèi)容,生成其語(yǔ)義標(biāo)簽[1],用于大規(guī)模數(shù)據(jù)的管理與檢索.與此同期,針對(duì)網(wǎng)絡(luò)媒體數(shù)據(jù),基于網(wǎng)頁(yè)文本挖掘的多媒體檢索技術(shù)發(fā)展迅速,成為當(dāng)前主流商業(yè)圖像視頻搜索引擎的主要技術(shù)基礎(chǔ).此類技術(shù)通過(guò)自動(dòng)分析網(wǎng)絡(luò)圖片視頻的標(biāo)題、環(huán)繞文字、URL等元數(shù)據(jù)(meta-data),抽取出反映圖片視頻內(nèi)容的關(guān)鍵字,建立數(shù)據(jù)索引,支持基于文本的多媒體檢索[2-3].由于網(wǎng)頁(yè)元數(shù)據(jù)含有噪聲,抽取的關(guān)鍵字往往與圖片視頻內(nèi)容不相符.針對(duì)于此,自2008年起,媒體內(nèi)容分析技術(shù)被逐步引入到基于網(wǎng)頁(yè)文本挖掘的多媒體檢索中,以提升分析與檢索的精度[4].
除上述基于文本的檢索之外,基于內(nèi)容的多媒體檢索也廣受關(guān)注,其通常以圖像或視頻示例作為查詢,通過(guò)視覺(jué)特征匹配完成檢索.該技術(shù)起源于20世紀(jì)90年代初期,迄今經(jīng)歷了興起—沒(méi)落—再興起的發(fā)展軌跡.20世紀(jì)90年代,基于內(nèi)容的圖像視頻檢索(CBIR,CBVR)是多媒體領(lǐng)域的研究熱點(diǎn),研究人員相繼研發(fā)出了QBIC[5],VisualSeek[6],MARS[7]等早期的圖像視頻檢索系統(tǒng),支持幾千至幾萬(wàn)幅圖片視頻的檢索.受限于視覺(jué)特征表達(dá)能力,檢索的質(zhì)量難以保證,且缺少可擴(kuò)展索引方案,難以支持大規(guī)模檢索.因而,基于內(nèi)容的檢索在本世紀(jì)初陷入低谷.隨著高判別力視覺(jué)特征的提出[8]、高維特征索引[9]和視覺(jué)詞倒排[10]等技術(shù)的出現(xiàn)、計(jì)算能力的大幅度提升以及新型應(yīng)用需求的不斷涌現(xiàn),基于內(nèi)容的圖像視頻檢索技術(shù)在近十年進(jìn)入飛速發(fā)展期,產(chǎn)生了一系列新穎的檢索技術(shù),也促生了“以圖搜圖”技術(shù)的商業(yè)化.
歷經(jīng)了幾十年的發(fā)展,多媒體檢索在研究的深度與廣度以及技術(shù)應(yīng)用的滲透度和覆蓋面等方面均取得了長(zhǎng)足的進(jìn)展.相關(guān)的基礎(chǔ)理論和關(guān)鍵技術(shù)不斷發(fā)展,應(yīng)用服務(wù)滲透至包括電子商務(wù)、市場(chǎng)營(yíng)銷、社會(huì)安防等在內(nèi)的眾多領(lǐng)域.然而,在多媒體檢索中,用戶時(shí)常難以清楚地表達(dá)檢索意圖且檢索系統(tǒng)難以準(zhǔn)確地理解用戶意圖,導(dǎo)致用戶與檢索系統(tǒng)之間存在“意圖鴻溝”.另一方面,多媒體數(shù)據(jù)模式復(fù)雜、視覺(jué)形態(tài)各異、內(nèi)容繁雜多樣,導(dǎo)致計(jì)算機(jī)感知的底層特征與人們認(rèn)知的高層語(yǔ)義之間存在“語(yǔ)義鴻溝”.如圖1所示,“意圖鴻溝” 和“語(yǔ)義鴻溝”成為制約多媒體檢索發(fā)展的瓶頸,限制了檢索性能的提升,阻礙了檢索技術(shù)的應(yīng)用.克服此2類鴻溝是多媒體研究的重要任務(wù),是實(shí)現(xiàn)多媒體檢索跨越發(fā)展的必由之路.因此,研究人員開展了大量針對(duì)性研究,提出了一系列檢索模型與技術(shù).其中,有效途徑之一是在檢索環(huán)路中引入用戶交互,采用“人在環(huán)路”(human in the loop)的方式進(jìn)行交互式檢索,收集并利用用戶的交互反饋幫助檢索系統(tǒng)理解媒體數(shù)據(jù)內(nèi)容以及用戶信息需求.研究人員主要在檢索流程的查詢端(入口)和結(jié)果端(出口)進(jìn)行技術(shù)創(chuàng)新,提出查詢技術(shù)幫助用戶表達(dá)檢索意圖以及反饋技術(shù)幫助系統(tǒng)理解用戶意圖與媒體內(nèi)容.
Fig. 1 The “Intention Gap” and “Semantic Gap” in multimedia retrieval圖1 多媒體檢索中的“意圖鴻溝”和“語(yǔ)義鴻溝”
本文將介紹多媒體檢索中的查詢與反饋技術(shù)的研究現(xiàn)狀與進(jìn)展.首先,介紹多媒體信息檢索的整體框架與技術(shù)環(huán)節(jié);進(jìn)而,依次綜述查詢與反饋技術(shù);最后,對(duì)未來(lái)的研究趨勢(shì)進(jìn)行展望與討論.
Fig. 2 The pipeline of multimedia retrieval system圖2 多媒體檢索系統(tǒng)流程圖
多媒體信息檢索的基本流程如圖2所示.在離線階段,需要完成多媒體數(shù)據(jù)預(yù)處理、媒體內(nèi)容分析、數(shù)據(jù)索引等,為高效準(zhǔn)確地在線檢索奠定基礎(chǔ).具體而言,1)預(yù)處理步驟需要完成數(shù)據(jù)選擇等任務(wù).受存儲(chǔ)與計(jì)算資源的限制,無(wú)法對(duì)全量數(shù)據(jù)進(jìn)行分析與索引.尤其在處理互聯(lián)網(wǎng)媒體數(shù)據(jù)時(shí),全網(wǎng)媒體數(shù)據(jù)規(guī)模極其龐大,需要從中選擇能夠滿足大部分用戶需求的數(shù)據(jù)進(jìn)行分析與索引.2)分析步驟的主要任務(wù)是生成圖像/視頻等多媒體數(shù)據(jù)的特征表示(支持示例搜索)以及分析多媒體數(shù)據(jù)表達(dá)的語(yǔ)義信息,如概念、事件等(支持語(yǔ)義搜索).近年來(lái),圖像/視頻內(nèi)容分析技術(shù)發(fā)展迅速,特征表示從人工設(shè)計(jì)特征演變?yōu)榛谏疃葘W(xué)習(xí)的特征表示、識(shí)別的語(yǔ)義元素從早期的少量語(yǔ)義概念發(fā)展到成百上千的概念集合、從簡(jiǎn)單的基本事件發(fā)展到復(fù)雜的綜合事件.分析方法從模型驅(qū)動(dòng)的基于分類器的方法[11-13]、數(shù)據(jù)驅(qū)動(dòng)的基于搜索的方法[14-15],發(fā)展到當(dāng)前基于深度學(xué)習(xí)的方法[16-18].3)在圖像/視頻的語(yǔ)義描述的基礎(chǔ)上,索引步驟可以采用文本檢索中的倒排技術(shù)生成圖像/視頻數(shù)據(jù)的語(yǔ)義索引,支持基于關(guān)鍵字的語(yǔ)義搜索.針對(duì)基于示例的內(nèi)容搜索,需要解決圖像/視頻高維特征的索引問(wèn)題.常用的索引技術(shù)包括Hash索引[19]、基于視覺(jué)詞袋(bag of visual words)的倒排索引[10]、近鄰圖索引[20]等.
在線檢索階段,搜索引擎根據(jù)用戶遞交的查詢,從索引中查找出與查詢相關(guān)的媒體數(shù)據(jù),利用排序技術(shù)生成結(jié)果序列.其中,查詢的形式從經(jīng)典的“關(guān)鍵字+查詢框”衍生出多樣式、多模態(tài)查詢.排序技術(shù)由依據(jù)視覺(jué)相似度排序[21]發(fā)展為基于機(jī)器學(xué)習(xí)的排序方法[22].交互式檢索系統(tǒng)支持用戶針對(duì)檢索結(jié)果提供相關(guān)性反饋,利用用戶反饋改進(jìn)檢索結(jié)果.常用的反饋技術(shù)包括相關(guān)樣本反饋[23]、部分相關(guān)樣本反饋[24]、新興的屬性反饋[25]等.
2.1 查詢推薦
圖像/視頻檢索的經(jīng)典查詢方式為關(guān)鍵字查詢,檢索系統(tǒng)根據(jù)用戶輸入的關(guān)鍵字查找索引,將查找結(jié)果按照相關(guān)性排序返回給用戶.然而,用戶輸入的查詢往往不能精確表達(dá)其搜索意圖.究其原因:1)用戶輸入的查詢通常僅為1~3個(gè)詞,表達(dá)的信息有限;2)查詢?cè)~存在歧義、模糊等問(wèn)題;3)用戶對(duì)檢索目標(biāo)缺乏認(rèn)知,無(wú)法構(gòu)建準(zhǔn)確的查詢?cè)~.相關(guān)研究[26]表明,多達(dá)75%的查詢?cè)~不能清晰地表達(dá)用戶意圖.這就導(dǎo)致檢索系統(tǒng)難以準(zhǔn)確地理解用戶意圖,進(jìn)而難以提供滿足用戶信息需求的搜索結(jié)果.
為幫助用戶構(gòu)造合適的查詢以準(zhǔn)確地描述其信息需求,檢索系統(tǒng)普遍采用查詢推薦技術(shù),根據(jù)用戶輸入的查詢,向用戶提供一系列與原查詢語(yǔ)義相關(guān)的候選查詢[27].傳統(tǒng)的圖像/視頻檢索系統(tǒng)借鑒文本檢索中的查詢推薦技術(shù),利用文檔、查詢?nèi)罩?、點(diǎn)擊鏈接等數(shù)據(jù),針對(duì)不同性質(zhì)的數(shù)據(jù)設(shè)計(jì)相應(yīng)的分析模型,如查詢流圖模型[28]、詞項(xiàng)轉(zhuǎn)移圖模型[29]、排序?qū)W習(xí)模型[30]等,從數(shù)據(jù)中挖掘出關(guān)鍵詞之間的語(yǔ)義聯(lián)系,生成若干候選查詢?cè)~.例如,基于文檔的查詢推薦方法利用統(tǒng)計(jì)模型從包含查詢?cè)~的文檔數(shù)據(jù)或人工編輯語(yǔ)料(如Wikipedia,Wordnet等)中挖掘出與用戶查詢?cè)~相關(guān)的詞或短語(yǔ),利用其構(gòu)建推薦查詢.基于查詢?nèi)罩镜姆椒ㄍㄟ^(guò)分析搜索引擎的查詢?nèi)罩?,挖掘查詢之間的關(guān)聯(lián)關(guān)系,發(fā)現(xiàn)過(guò)往搜索中出現(xiàn)過(guò)的關(guān)聯(lián)查詢,利用其構(gòu)建推薦查詢.查詢?nèi)罩臼潜姸嘤脩粼谑褂盟阉饕孢M(jìn)行查詢操作時(shí)的日志記錄,記錄了用戶的搜索行為,例如使用的查詢、點(diǎn)擊搜索結(jié)果等.大量的查詢?nèi)罩咎N(yùn)含著查詢間的豐富關(guān)聯(lián),現(xiàn)有方法通過(guò)分析不同查詢之間的各類型關(guān)聯(lián),如查詢?cè)谒阉鬟^(guò)程(session)中的共現(xiàn)頻率、查詢共有的相同或相似點(diǎn)擊URL的數(shù)量、查詢出現(xiàn)頻率隨時(shí)間分布的相關(guān)性等,計(jì)算查詢間的關(guān)聯(lián)強(qiáng)度,指導(dǎo)查詢推薦的生成.
在圖像/視頻檢索中,用戶的檢索目標(biāo)為圖像或視頻片段,其語(yǔ)義內(nèi)容遠(yuǎn)比若干查詢?cè)~復(fù)雜.因此,僅推薦查詢?cè)~往往不能幫助用戶構(gòu)建合適的查詢以清楚地表達(dá)信息需求.針對(duì)多媒體檢索中查詢?cè)~存在模糊、歧義等問(wèn)題,Zha等人[31-32]提出了聯(lián)合圖片和文字的視覺(jué)查詢推薦技術(shù),針對(duì)用戶的查詢?cè)~,自動(dòng)推薦若干語(yǔ)義相關(guān)的新查詢?cè)~以及描述新查詢?cè)~的圖片,形成了“詞-圖”相結(jié)合的多模態(tài)查詢推薦,如圖3所示.該技術(shù)利用圖片查詢的視覺(jué)呈現(xiàn)幫助用戶明確信息需求,綜合考慮了圖片的典型性與多樣性,從多側(cè)面對(duì)新查詢進(jìn)行視覺(jué)呈現(xiàn),便于用戶構(gòu)建查詢,進(jìn)而結(jié)合用戶選擇的“詞-圖”新查詢,融合視覺(jué)與文本特征改進(jìn)檢索.相比于查詢?cè)~,多模態(tài)的查詢更加有助于用戶信息需求的表達(dá)以及媒體內(nèi)容的查找,因而更加適用于多媒體信息檢索.主流商業(yè)搜索引擎均提供多模態(tài)查詢功能.例如谷歌、百度等搜索引擎支持基于關(guān)鍵詞與圖片示例的混合查詢,支持用戶在基于關(guān)鍵詞檢索返回的圖片集中選擇感興趣圖片作為查詢示例,進(jìn)一步查找相似圖片.多模態(tài)查詢被廣泛應(yīng)用于各類多媒體應(yīng)用,如商品圖片搜索[33]、多媒體問(wèn)答[34]等.
Fig. 3 The interface of visual query suggestion system[31]圖3 視覺(jué)查詢推薦系統(tǒng)交互界面[31]
2.2 查詢交互
提供便捷有效的查詢交互是幫助用戶清楚表達(dá)檢索需求的另一途徑.研究人員設(shè)計(jì)了若干新穎的查詢方式,突破了多媒體檢索中“查詢?cè)~/示例+查詢框”的傳統(tǒng)模式.Zavesky和Chang[35]研發(fā)的CuZero視頻檢索原型系統(tǒng)提供“Semantic Panel”幫助用戶構(gòu)建關(guān)鍵詞組合查詢,如圖4(a)所示.系統(tǒng)自動(dòng)推薦相關(guān)的語(yǔ)義概念,呈現(xiàn)于“Semantic Panel”,其中每個(gè)概念所占的矩形框尺寸對(duì)應(yīng)于該概念在查詢中的權(quán)重.用戶根據(jù)其信息需求,調(diào)整矩形框尺寸更新各概念在檢索中的權(quán)重,便捷地構(gòu)建合適的概念組合查詢.Xu等人[36]設(shè)計(jì)了基于“Concept Map”的檢索系統(tǒng),支持用戶在“Concept Map”的不同位置輸入若干關(guān)鍵詞,形成包含關(guān)鍵詞相對(duì)位置關(guān)系的精細(xì)查詢.針對(duì)每個(gè)關(guān)鍵詞提供若干幅圖片示例供用戶選擇,幫助用戶進(jìn)一步描述檢索需求,如圖4(b)所示.Wang和Hua[37]研發(fā)了基于“Color Map”的檢索系統(tǒng),支持用戶在“Color Map”的不同位置涂鴉顏色,形成對(duì)目標(biāo)圖像的主體顏色及其空間分布的描述,用以檢索具有相似色彩分布的圖像,如圖4(c)所示.
Fig. 4 The interfaces of CuZero, Concept Map and Color Map systems[35-37]圖4 CuZero, Concept Map and Color Map系統(tǒng)交互界面[35-37]
近年來(lái),隨著手機(jī)、平板電腦等移動(dòng)智能終端的普及以及移動(dòng)互聯(lián)網(wǎng)的發(fā)展,圖像視頻檢索逐漸從PC端延伸到移動(dòng)端.移動(dòng)智能終端與圖像視頻檢索技術(shù)的有機(jī)融合,改變了信息檢索、獲取及利用的方式,用戶可以更加便捷地獲取多樣化的媒體信息.利用移動(dòng)設(shè)備的攝錄功能,用戶可以快速、方便地采集興趣目標(biāo)的圖像/視頻作為查詢輸入,利用移動(dòng)視覺(jué)搜索技術(shù)查找關(guān)聯(lián)信息[38].移動(dòng)視覺(jué)搜索擁有巨大的應(yīng)用前景,互聯(lián)網(wǎng)巨頭,如谷歌、百度、阿里巴巴等相繼推出了移動(dòng)視覺(jué)搜索服務(wù).移動(dòng)視覺(jué)搜索涉及多方面的研究?jī)?nèi)容,如系統(tǒng)架構(gòu)、緊湊視覺(jué)描述子、視覺(jué)匹配、檢索模型、結(jié)果評(píng)價(jià)、視覺(jué)對(duì)象知識(shí)庫(kù)等.圍繞這些內(nèi)容,研究人員開展了大量的研究工作,推動(dòng)了移動(dòng)視覺(jué)搜索的進(jìn)步.本文僅介紹查詢交互方面的相關(guān)工作.目前移動(dòng)視覺(jué)搜索應(yīng)用中的查詢需求大多與用戶日常生活相關(guān),如搜索相似/相同的商品、圖書、人物、食品、景點(diǎn)等.由于移動(dòng)設(shè)備拍攝的查詢圖像往往包含復(fù)雜的背景和豐富的前景,待檢索目標(biāo)在查詢圖像中主體不突出,導(dǎo)致搜索系統(tǒng)難以展開具有針對(duì)性的信息查找,同時(shí)也造成移動(dòng)端計(jì)算資源、網(wǎng)絡(luò)通信資源的浪費(fèi).針對(duì)于此,研究人員利用智能設(shè)備的交互便捷性,開發(fā)了多種面向移動(dòng)視覺(jué)搜索的查詢方法,支持用戶在查詢示例上進(jìn)行交互,明確檢索目標(biāo).例如Sang等人[39]設(shè)計(jì)了一種查詢交互方式,支持用戶在拍攝的圖像上通過(guò)裁剪、畫線、套索等操作圈出興趣目標(biāo),利于目標(biāo)查找.實(shí)驗(yàn)結(jié)果表明:套索操作是一種較為自然而有效的交互方式.Kawano與Yanai[40]開發(fā)了基于手機(jī)拍照的食物識(shí)別/檢索系統(tǒng).Kiapour等人[41]研究了基于手機(jī)街拍的服裝檢索任務(wù),其中的查詢交互部分支持用戶采用包圍框指明待檢索對(duì)象.You等人[42]開發(fā)的移動(dòng)搜索系統(tǒng)支持用戶在查詢圖像上通過(guò)涂鴉線條區(qū)分背景和待檢索的前景.Ngo等人[43]針對(duì)用戶的查詢圖片自動(dòng)推薦圖片中的若干區(qū)域作為待檢索對(duì)象.Yu等人[44]研究了基于手機(jī)拍照的地點(diǎn)搜索技術(shù),提出了一種自動(dòng)的查詢推薦方法,指導(dǎo)用戶拍攝最佳的查詢示例.Zhao等人[45]挖掘“用戶-地點(diǎn)-查詢”三元關(guān)系,提出一種張量函數(shù)學(xué)習(xí)算法,用于向用戶推薦查詢.用戶與系統(tǒng)間的查詢交互能夠幫助用戶明確檢索的主體目標(biāo),提高檢索的成功率,改善用戶體驗(yàn).
2.3 草圖查詢
隨著觸屏技術(shù)的發(fā)展與觸屏設(shè)備的普及,手繪草圖成為用戶表達(dá)信息的便捷方式.依靠記憶與模仿勾勒草圖進(jìn)行信息表達(dá)是人類與生俱來(lái)的能力,利用草圖進(jìn)行多媒體信息檢索是一種自然的人機(jī)交互方式,具有廣闊的應(yīng)用前景.用戶勾勒的草圖具有高度的抽象性與不確定性.例如用戶描繪的對(duì)象輪廓是對(duì)檢索對(duì)象高度抽象的描述,且存在不同程度的不規(guī)則形變.針對(duì)同一對(duì)象,不同用戶描繪的草圖往往差異較大.因此,以用戶勾勒的充滿創(chuàng)造力的草圖作為查詢,給檢索提出了更大的挑戰(zhàn).
較之于基于關(guān)鍵字/查詢示例的檢索,基于草圖的檢索技術(shù)尚處于初步的研究階段.草圖檢索需要處理特征表示、索引結(jié)構(gòu)等方面的難題[46].現(xiàn)有的草圖特征表示方法根據(jù)其特征提取單元的不同可以總結(jié)為基于筆劃描述的特征表示、基于組合圖元的特征表示以及基于形狀的特征表示[47].Cao等人[48]開發(fā)了MindFinder草圖檢索系統(tǒng),如圖5所示,針對(duì)由筆劃形成的草圖線條,構(gòu)建一種融合像素坐標(biāo)與方向角信息的邊緣像素詞典,生成包含邊緣與方向信息的詞袋模型,形成了簡(jiǎn)化的形狀特征描述,同時(shí)保持了輪廓的空間信息.針對(duì)用戶描繪的由一個(gè)或多個(gè)圖元構(gòu)成的草圖查詢,可采用基于組合圖元的特征表示與檢索,首先識(shí)別草圖與圖像中的基本圖元,通過(guò)不同層次的圖形元素抽象,形成統(tǒng)一的特征表示,進(jìn)而利用圖元之間的空間關(guān)系進(jìn)行檢索,如圖形元素的相對(duì)位置關(guān)系、相對(duì)方位、相對(duì)旋轉(zhuǎn)等[47].基于形狀的特征主要提取草圖輪廓的全局或局部描述,形成草圖的外在形狀特征.Eitz等人[49]采用詞袋模型,實(shí)驗(yàn)評(píng)估了形狀內(nèi)容描述子、星點(diǎn)描述子、改進(jìn)的標(biāo)準(zhǔn)方向梯度直方圖描述子等形狀特征.實(shí)驗(yàn)結(jié)果表明,改進(jìn)的標(biāo)準(zhǔn)方向梯度直方圖描述子具有相對(duì)較好的檢索效果.
Fig. 5 Illustration of sketch queries and the corresponding top 10 search results of MindFinder system[48]圖5 MindFider系統(tǒng)草圖查詢及搜索結(jié)果示例[48]
在草圖索引方面,早期的草圖檢索系統(tǒng)采用線性的索引結(jié)構(gòu),只能處理小規(guī)模的數(shù)據(jù)庫(kù).近年來(lái),為支持面向草圖查詢的大規(guī)模圖片索引與快速查找,研究人員相繼提出了一些新的草圖索引技術(shù).例如,MindFinder系統(tǒng)[48]采用一種類似文檔倒排的Edgel Index索引結(jié)構(gòu),實(shí)現(xiàn)了在200萬(wàn)幅圖片數(shù)據(jù)庫(kù)上僅需幾百毫秒的檢索效率.Xiao等人[50]開發(fā)了IdeaPanel交互式草圖檢索系統(tǒng),支持用戶根據(jù)檢索返回圖像修改草圖重新檢索,實(shí)現(xiàn)百萬(wàn)級(jí)圖片實(shí)時(shí)交互式檢索.Sun等人[51]采用基于K-中心聚類的局部敏感Hash算法(K-medoids locality sensitive hashing),支持大規(guī)模索引,同時(shí)采用多探尋(multi-probe)策略,有效減少了Hash表數(shù)量,大幅節(jié)省了存儲(chǔ)開銷,實(shí)現(xiàn)了20億規(guī)模圖像數(shù)據(jù)庫(kù)的實(shí)時(shí)草圖檢索.
基于特征匹配的草圖檢索技術(shù)一般要求用戶繪制的草圖接近檢索目標(biāo),對(duì)于幾何形狀與檢索目標(biāo)差異較大的草圖,難以獲得準(zhǔn)確的檢索結(jié)果.針對(duì)此問(wèn)題,研究人員提出基于草圖語(yǔ)義的檢索方法,對(duì)草圖進(jìn)行語(yǔ)義分類,以類別作為關(guān)鍵字檢索圖像,進(jìn)而利用形狀等視覺(jué)特征改進(jìn)檢索結(jié)果.Schneider和Tuytelaars[52]提出了基于Fisher Vector的草圖識(shí)別方法.Sun等人[53]針對(duì)用戶草圖類內(nèi)差異大、類間區(qū)分度小等問(wèn)題,提出了一種基于查詢自適應(yīng)的形狀主體模型用于草圖識(shí)別與檢索.Yanik和Sezgin等人[54]將主動(dòng)學(xué)習(xí)方法應(yīng)用于草圖識(shí)別,降低識(shí)別模型訓(xùn)練對(duì)標(biāo)注樣本的需求量.Yu等人[55]設(shè)計(jì)了Sketch-a-Net深度神經(jīng)網(wǎng)絡(luò),將深度學(xué)習(xí)技術(shù)應(yīng)用于草圖識(shí)別,取得了顯著的識(shí)別效果.Sangkloy等人[56]構(gòu)建了一個(gè)包含大量物體圖片和草圖的數(shù)據(jù)庫(kù),含有125類物體的12 500幅圖片和75 000余幅草圖,以及圖片與草圖間的對(duì)應(yīng)關(guān)系.該數(shù)據(jù)集可以用于訓(xùn)練跨模態(tài)卷積神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)圖片與草圖的共享特征空間,有效支持草圖檢索與識(shí)別.將草圖語(yǔ)義融入草圖檢索能夠降低對(duì)用戶繪圖的相似度要求,改善用戶體驗(yàn),提升檢索的魯棒性與準(zhǔn)確性,為基于草圖的多媒體檢索開拓了新的發(fā)展方向.
2.4 跨媒體查詢
多媒體和互聯(lián)網(wǎng)的空前繁榮促使從不同渠道獲取的文本、圖像和視頻等不同形態(tài)的媒體信息及與之相關(guān)的自然、社會(huì)屬性信息緊密混合在一起,彼此間存在錯(cuò)綜復(fù)雜的交叉關(guān)聯(lián),形成一種新的媒體表現(xiàn)形式,即跨媒體[57].在跨媒體信息環(huán)境下,用戶提交一種媒體對(duì)象作為查詢,檢索系統(tǒng)不但可以返回相同種類的相似對(duì)象,而且還能返回其他種類的媒體對(duì)象,形成更為全面豐富的信息呈現(xiàn),如利用圖像查找語(yǔ)義相關(guān)的音頻或視頻片段[58]等.面向跨媒體查詢,檢索系統(tǒng)需要克服不同媒體之間的“鴻溝”,最大限度地挖掘不同媒體之間相互表達(dá)、相互補(bǔ)充的語(yǔ)義關(guān)聯(lián)性和協(xié)同效應(yīng),構(gòu)建不同種類媒體數(shù)據(jù)的一致性表達(dá)與相似性度量,建立能夠有效處理跨媒體查詢和查找跨媒體信息的模型.
近年來(lái),大量的跨媒體表達(dá)與度量方法被相繼提出,主要包括子空間學(xué)習(xí)方法、度量學(xué)習(xí)方法、主題模型方法以及新興的基于深度學(xué)習(xí)的方法.其中,子空間學(xué)習(xí)方法旨在構(gòu)造一個(gè)能夠表達(dá)不同種類媒體數(shù)據(jù)的共同子空間,使得不同種類的媒體數(shù)據(jù)在此空間中具有可比性,從而可以采用傳統(tǒng)的度量計(jì)算查詢對(duì)象與檢索對(duì)象的相似度,進(jìn)行跨媒體檢索.早期的子空間學(xué)習(xí)算法有典型相關(guān)分析(canonical correlation analysis, CCA)[59]、雙線性模型(bilinear model)[60]、跨模態(tài)因子分析方法[61]等.Mahadevan等人[62]將流形學(xué)習(xí)引入共同子空間學(xué)習(xí),最大化不同媒體數(shù)據(jù)間的相關(guān)性,同時(shí)保持?jǐn)?shù)據(jù)的局部近鄰關(guān)系.Sharma等人[63]提出一種廣義多視圖分析框架,通過(guò)引入類別信息以提升子空間的判別性.度量學(xué)習(xí)方法旨在建立不同媒體數(shù)據(jù)之間合理的距離測(cè)度,使得相似的數(shù)據(jù)度量距離小、不相似的數(shù)據(jù)度量距離大.其可以利用數(shù)據(jù)之間的相似/不相似關(guān)系,也可以利用數(shù)據(jù)的排序信息進(jìn)行距離測(cè)度的學(xué)習(xí).Zhai等人[64]提出一種多視圖距離測(cè)度學(xué)習(xí)算法,保持?jǐn)?shù)據(jù)分布的局部光滑性與全局一致性.Lu等人[65]提出一種跨模態(tài)排序算法,利用隱結(jié)構(gòu)SVM模型學(xué)習(xí)距離測(cè)度,支持多種排序準(zhǔn)則的排序優(yōu)化.Wu等人[66]提出一種基于雙向排序?qū)W習(xí)的跨媒體表示模型,有效利用圖像到文本以及文本到圖像的雙向排序信息.主題模型方法利用主題學(xué)習(xí)模型挖掘不同媒體數(shù)據(jù)之間的相關(guān)性與一致性.Zheng等人[67]提出一種監(jiān)督的文檔神經(jīng)自回歸分布估計(jì)模型,在傳統(tǒng)的文檔神經(jīng)自回歸分布模型中引入語(yǔ)義類別監(jiān)督信息,提升了隱主題特征的判別力,學(xué)習(xí)了視覺(jué)單詞、文本單詞和語(yǔ)義類別之間的共同特征表達(dá).Liao等人[68]提出一種非參數(shù)貝葉斯多模態(tài)主體模型,構(gòu)建了一種復(fù)合非參數(shù)貝葉斯多模態(tài)先驗(yàn)用于刻畫模態(tài)內(nèi)部相似性與模態(tài)間相關(guān)性.Wang等人[69]提出了一種多模態(tài)共同主題強(qiáng)化模型,建立跨模態(tài)聯(lián)合概率圖模型,建模不同模態(tài)數(shù)據(jù)隱含主題之間的相關(guān)性,在圖像與文本的跨模態(tài)檢索任務(wù)上進(jìn)行了實(shí)驗(yàn)驗(yàn)證.近年來(lái),深度學(xué)習(xí)技術(shù)被應(yīng)用于跨媒體數(shù)據(jù)特征學(xué)習(xí),利用深度神經(jīng)網(wǎng)絡(luò)的特征抽象能力,學(xué)習(xí)不同種類媒體數(shù)據(jù)的統(tǒng)一特征表達(dá).Wei等人[70]采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像特征學(xué)習(xí),將獲得的深度特征用于跨媒體檢索,實(shí)驗(yàn)對(duì)比了深度特征與傳統(tǒng)視覺(jué)特征的檢索性能.實(shí)驗(yàn)結(jié)果表明,深度特征具有相對(duì)較高的檢索精度.Ma等人[71]提出一種多模態(tài)卷積神經(jīng)網(wǎng)絡(luò),建模不同顆粒度的文本片段與圖像之間的關(guān)聯(lián)關(guān)系,進(jìn)行文本和視覺(jué)的聯(lián)合特征學(xué)習(xí),提升了圖像與文本雙向檢索的性能.
隨著跨媒體數(shù)據(jù)規(guī)模的增長(zhǎng),如何構(gòu)建高效的跨媒體索引以支持大規(guī)??焖俨檎页蔀榭缑襟w檢索需要解決的另一重要問(wèn)題.跨媒體Hash是解決此問(wèn)題的有效途徑.其通過(guò)設(shè)計(jì)Hash函數(shù)將不同種類的媒體數(shù)據(jù)映射到共同的Hash空間,盡可能地維持?jǐn)?shù)據(jù)的近鄰關(guān)系,進(jìn)而通過(guò)比對(duì)數(shù)據(jù)的Hash值進(jìn)行快速查找.Wu等人[72]提出一種稀疏多模態(tài)Hash方法,采用超圖表達(dá)模態(tài)內(nèi)部相似性與模態(tài)之間相關(guān)性,通過(guò)超圖正則化稀疏編碼學(xué)習(xí)多模態(tài)數(shù)據(jù)的聯(lián)合詞典,進(jìn)而生成多模態(tài)數(shù)據(jù)的Hash編碼.Ding等人[73]提出一種基于排序保持的跨模態(tài)Hash算法,利用數(shù)據(jù)的排序作為監(jiān)督信息,設(shè)計(jì)了一種基于回歸的排序保持損失函數(shù),學(xué)習(xí)跨模態(tài)Hash函數(shù)與Hash碼.Cao等人[74]提出了一種端到端的跨模態(tài)深度Hash算法,采用混合深度網(wǎng)絡(luò)結(jié)構(gòu),包含一個(gè)卷積網(wǎng)絡(luò)和一個(gè)遞歸網(wǎng)絡(luò),分別用于學(xué)習(xí)視覺(jué)Hash函數(shù)和文本Hash函數(shù),以及一個(gè)融合網(wǎng)絡(luò)用于學(xué)習(xí)視覺(jué)與文本模態(tài)的共同漢明空間.得益于深度神經(jīng)網(wǎng)絡(luò)的建模能力,基于深度學(xué)習(xí)的跨媒體Hash方法具有良好的實(shí)驗(yàn)效果和應(yīng)用潛力.
3.1 相關(guān)反饋
在檢索流程中引入用戶反饋是提升檢索精度的有效途徑.檢索系統(tǒng)支持用戶在輸入查詢后繼續(xù)參與檢索過(guò)程,對(duì)當(dāng)前檢索結(jié)果標(biāo)記出與其檢索意圖相關(guān)/無(wú)關(guān)的樣本,明確其信息需求,系統(tǒng)進(jìn)而根據(jù)用戶的反饋改進(jìn)檢索模型,調(diào)整檢索策略,更新檢索結(jié)果.通過(guò)用戶與系統(tǒng)的交互,系統(tǒng)能夠?qū)崟r(shí)地、動(dòng)態(tài)地了解用戶的信息需求及其對(duì)數(shù)據(jù)的語(yǔ)義標(biāo)記,提升系統(tǒng)對(duì)用戶需求以及數(shù)據(jù)的理解能力,增強(qiáng)檢索結(jié)果中相關(guān)樣本的響應(yīng)而抑制無(wú)關(guān)樣本的出現(xiàn),使得檢索結(jié)果逐步貼近用戶的期望,最終滿足用戶的檢索需求.
20世紀(jì)90年代末,Rui和Huang等人[23]提出了基于相關(guān)反饋的交互式多媒體檢索方法,為多媒體檢索的發(fā)展開辟了新的道路.基于用戶反饋的交互式檢索廣受關(guān)注,國(guó)際權(quán)威視頻檢索競(jìng)賽TRECVID一直將交互式視頻檢索作為每年的評(píng)測(cè)任務(wù)之一[75].迄今,研究人員針對(duì)多媒體檢索中的相關(guān)反饋技術(shù)開展了大量研究,以最大化反饋信息獲取與利用且最小化用戶交互量為目標(biāo),相繼提出了一系列相關(guān)反饋技術(shù),包括基于查詢點(diǎn)移動(dòng)策略、權(quán)值更新策略、機(jī)器學(xué)習(xí)、主動(dòng)學(xué)習(xí)等反饋技術(shù),推動(dòng)了交互式多媒體檢索的發(fā)展.早期的反饋技術(shù)主要采用查詢點(diǎn)移動(dòng)策略[76]和權(quán)值更新策略[77].前者根據(jù)用戶反饋修改檢索空間中的查詢點(diǎn)位置,使其盡可能地靠近相關(guān)樣本且遠(yuǎn)離無(wú)關(guān)樣本,依據(jù)新的查詢點(diǎn)重新排列檢索結(jié)果;后者根據(jù)反饋調(diào)整表征查詢的各特征向量權(quán)重,形成新的查詢特征表示,更新檢索結(jié)果.此類方法主要關(guān)注如何根據(jù)用戶反饋提高檢索結(jié)果的排序質(zhì)量,對(duì)檢索模型沒(méi)有本質(zhì)的改進(jìn).
近年來(lái),研究人員將機(jī)器學(xué)習(xí)理論與方法引入相關(guān)反饋中,將檢索轉(zhuǎn)化為不同類型的監(jiān)督學(xué)習(xí)問(wèn)題,設(shè)計(jì)相應(yīng)的機(jī)器學(xué)習(xí)模型,基于用戶標(biāo)記樣本訓(xùn)練模型,指導(dǎo)新的檢索結(jié)果的生成[78].例如考慮到支持向量機(jī)(SVM)在有限樣本條件下良好的推廣能力,Zhang等人[79]利用SVM從用戶反饋的相關(guān)/無(wú)關(guān)樣本中學(xué)習(xí)二類分類模型.Chen等人[80]只考慮相關(guān)樣本,采用單類SVM模型.Tong等人[81]提出了基于SVM模型主動(dòng)學(xué)習(xí)的相關(guān)反饋算法,選擇臨近SVM分類邊界的樣本供用戶反饋標(biāo)記,達(dá)到最大限度地減少模型解釋空間尺寸的目的,實(shí)現(xiàn)在有限用戶反饋條件下的盡可能大的信息收益.Zha等人[82]提出了一種結(jié)合樣本分布結(jié)構(gòu)性的主動(dòng)學(xué)習(xí)算法,刻畫了樣本分布的局部幾何結(jié)構(gòu)以及鄰近樣本的語(yǔ)義相似性,估計(jì)樣本對(duì)模型的改進(jìn)作用,同時(shí)考慮了樣本的相關(guān)度、局域密度、不確定性、多樣性等信息,綜合多種信息遴選最佳待標(biāo)注樣本供用戶標(biāo)注,僅需較少的用戶標(biāo)注,有效提升了模型的性能.交互式圖像視頻檢索的初始結(jié)果中往往僅有少數(shù)甚至沒(méi)有相關(guān)樣本,尤其在檢索復(fù)雜查詢時(shí),導(dǎo)致相關(guān)反饋效果不佳或失效.針對(duì)于此,Yuan等人[24]提出了“部分相關(guān)”反饋方法,支持用戶在檢索結(jié)果中標(biāo)記相關(guān)/無(wú)關(guān)樣本的同時(shí),標(biāo)記與其需求雖非整體相關(guān),但卻“部分相關(guān)”的樣本,自動(dòng)挖掘此類樣本中與用戶需求有關(guān)的信息,對(duì)用戶需求進(jìn)行建模,改善檢索結(jié)果.在實(shí)際應(yīng)用中,用戶往往需要獲取包含復(fù)雜內(nèi)容的圖像視頻數(shù)據(jù),面向復(fù)雜查詢的相關(guān)反饋成為新的研究熱點(diǎn).
3.2 屬性反饋
隨著新反饋技術(shù)的不斷提出,多媒體檢索的性能獲得了逐步提升.然而,計(jì)算機(jī)感知的底層特征與人們認(rèn)知的高層語(yǔ)義之間存在“語(yǔ)義鴻溝”,依然影響著檢索系統(tǒng)對(duì)用戶意圖的建模精度以及對(duì)多媒體數(shù)據(jù)的理解準(zhǔn)度,制約了多媒體檢索的發(fā)展.為克服“語(yǔ)義鴻溝”,研究人員提出利用視覺(jué)屬性作為圖像視頻內(nèi)容的中層語(yǔ)義描述,連接底層特征與高層語(yǔ)義.視覺(jué)屬性即對(duì)象固有的視覺(jué)特性,描述對(duì)象組成部分、形狀、材質(zhì)等,如鼻子、腿、方形、毛絨的等[83].視覺(jué)屬性比語(yǔ)義概念易于通過(guò)底層特征建模,比底層特征易于被人們理解.得益于其固有優(yōu)勢(shì),視覺(jué)屬性被廣泛應(yīng)用圖像視頻分析與檢索中.研究人員提出了一系列屬性建模方法[84-86],基于屬性模型的輸出形成圖像視頻的中層特征表達(dá),用于分析與檢索.Douze等人[87]融合屬性特征與Fisher向量進(jìn)行圖像檢索.Scheirer等人[88]構(gòu)建多屬性空間,獲得更好的屬性特征,提高檢索精度.Liu等人[89]將屬性應(yīng)用于服裝圖像分析與檢索.
考慮到視覺(jué)屬性的優(yōu)點(diǎn),研究人員提出了基于屬性的反饋技術(shù),利用用戶對(duì)屬性的反饋構(gòu)成其檢索意圖的中層語(yǔ)義描述,利用屬性作為連接用戶檢索意圖與圖像視頻數(shù)據(jù)的中間橋梁.Zhang等人[90]提出了一種屬性反饋方法,自動(dòng)挖掘有助于改進(jìn)當(dāng)前檢索的屬性,支持用戶在屬性上進(jìn)行相關(guān)/無(wú)關(guān)反饋,改變了只支持用戶在圖像/視頻樣本上進(jìn)行反饋的傳統(tǒng)機(jī)制,如圖6所示.用戶在屬性上的反饋構(gòu)成了對(duì)其檢索目標(biāo)的屬性描述,如“有腿、有翅膀、沒(méi)有輪子”等,有利于系統(tǒng)理解用戶需求.針對(duì)某一相關(guān)的屬性,支持用戶標(biāo)記檢索返回圖像在該屬性上與用戶期望的圖像是否相似,如某幅檢索返回圖像中的“鼻子”與用戶期望的相似/不相似,以此得到對(duì)用戶需求更為精細(xì)的屬性描述.進(jìn)而,檢索系統(tǒng)基于屬性模型,結(jié)合用戶反饋,改善檢索結(jié)果.Zhang等人[91]進(jìn)一步構(gòu)建了一種集語(yǔ)義概念與屬性于一體的語(yǔ)義樹,根據(jù)概念之間的層級(jí)關(guān)系以及屬性與概念的從屬關(guān)系,將概念與屬性有機(jī)地組織起來(lái).基于概念與屬性模型,形成對(duì)圖像內(nèi)容的層次化語(yǔ)義描述,多粒度地刻畫了圖像內(nèi)容.在此基礎(chǔ)上,提出了樣本與屬性混合反饋機(jī)制,支持用戶標(biāo)記相關(guān)/無(wú)關(guān)樣本及相關(guān)/無(wú)關(guān)屬性,利用用戶反饋有效提升了檢索結(jié)果與用戶意圖的相關(guān)度.Kovashka等人[92]和Yu等人[93]提出了基于相對(duì)屬性的交互式圖像檢索系統(tǒng).相對(duì)屬性是指就某一屬性而言,某一圖像與其他圖像相比在該屬性上的相對(duì)比較關(guān)系,例如某一圖像中的鞋子根部比其他圖像中的鞋根“更高”.相對(duì)屬性較二值屬性能夠表達(dá)更豐富的信息,符合用戶對(duì)檢索需求的表述,如圖7所示,用戶想搜索一雙與之相似卻更華麗的鞋子.檢索系統(tǒng)針對(duì)每個(gè)屬性訓(xùn)練一個(gè)排序模型,用于判斷任意2幅圖像在該屬性上的比較關(guān)系,基于屬性的排序模型,結(jié)合用戶相對(duì)屬性反饋,更新檢索結(jié)果序列.
Fig. 6 The framework of attribute feedback system[90]圖6 屬性反饋系統(tǒng)框架圖[90]
Fig. 7 Illustration of relative attribute feedback[92]圖7 相對(duì)屬性反饋示例[92]
隨著研究的推進(jìn),屬性的獲取由人為定義與手工標(biāo)注發(fā)展為自動(dòng)挖掘與識(shí)別,屬性集合的規(guī)模由幾十種屬性增長(zhǎng)至成百上千種屬性,屬性的范疇由描述物體的屬性拓寬為描述場(chǎng)景、事件等各類分析目標(biāo)的屬性,如以場(chǎng)景為分析目標(biāo)時(shí)場(chǎng)景內(nèi)的物體即為屬性,以事件為目標(biāo)時(shí)事件的組成部分即為屬性,屬性反饋的類型由二值反饋發(fā)展為相對(duì)比較反饋等更細(xì)粒度的信息反饋.
3.3 隱式反饋
充分利用用戶隱式反饋數(shù)據(jù)是提升檢索系統(tǒng)性能的另一有效途徑.用戶的檢索歷史與交互行為是隱式反饋信息的主要來(lái)源之一,通常包括輸入的查詢、點(diǎn)擊的網(wǎng)頁(yè)、停留的時(shí)間等.隱式反饋數(shù)據(jù)蘊(yùn)含著用戶的偏好,為理解用戶檢索意圖提供了線索.盡管隱式反饋數(shù)據(jù)存在大量噪聲,不如顯示反饋精確,但在實(shí)際應(yīng)用中,隱式反饋遠(yuǎn)比顯示反饋豐富,大量存在于檢索系統(tǒng)中,具有數(shù)據(jù)規(guī)模大、應(yīng)用場(chǎng)景廣等優(yōu)勢(shì),同時(shí)也不要求用戶對(duì)檢索結(jié)果進(jìn)行反饋,減輕了用戶操作負(fù)擔(dān).
近年來(lái),基于隱式反饋的信息檢索成為研究熱點(diǎn).大量的研究工作圍繞著如何挖掘利用隱式反饋數(shù)據(jù)改進(jìn)檢索而展開.作為最常用的隱式反饋數(shù)據(jù),用戶的點(diǎn)擊數(shù)據(jù)(click through)記錄著用戶在搜索過(guò)程中對(duì)文檔、圖像等對(duì)象的點(diǎn)擊歷史,從一定程度上反映著文檔、圖像等與用戶查詢及檢索意圖的關(guān)聯(lián)強(qiáng)度.大量的研究表明,利用點(diǎn)擊數(shù)據(jù)可以有效提升信息檢索的精度.點(diǎn)擊數(shù)據(jù)早先在文本檢索中得到研究與應(yīng)用.例如,Agichtein等人[94]通過(guò)實(shí)驗(yàn)表明,在網(wǎng)頁(yè)檢索中利用用戶點(diǎn)擊數(shù)據(jù)可以使得檢索結(jié)果的相關(guān)度提高約30%.Joachims[95]利用點(diǎn)擊數(shù)據(jù)訓(xùn)練排序SVM模型用于提升檢索系統(tǒng)的排序質(zhì)量.Jiang等人[96]以微軟Bing搜索引擎的日志數(shù)據(jù)為基礎(chǔ),提出一種回歸模型預(yù)測(cè)多粒度的搜索結(jié)果滿意度.在圖像視頻檢索中利用點(diǎn)擊數(shù)據(jù)的研究雖然起步相對(duì)較晚,但進(jìn)展迅速.點(diǎn)擊數(shù)據(jù)有助于克服圖像視頻檢索中的“意圖鴻溝”和“語(yǔ)義鴻溝”[97],被廣泛用于圖像視頻排序、重排序、分類等多個(gè)環(huán)節(jié),展示出良好的實(shí)驗(yàn)效果.Hua等人[97]以商業(yè)圖像搜索引擎的點(diǎn)擊數(shù)據(jù)為基礎(chǔ),構(gòu)建了一個(gè)公開的大規(guī)模圖像搜索點(diǎn)擊數(shù)據(jù)集.Jain和Varma[98]利用點(diǎn)擊數(shù)據(jù)訓(xùn)練高斯過(guò)程回歸模型,預(yù)測(cè)檢索返回圖片的歸一化點(diǎn)擊率,對(duì)檢索結(jié)果進(jìn)行重排序.Yu等人[99]結(jié)合點(diǎn)擊數(shù)據(jù)與圖像視覺(jué)特征進(jìn)行圖像搜索重排序,分別利用點(diǎn)擊數(shù)據(jù)和多種視覺(jué)特征構(gòu)建語(yǔ)義流形與視覺(jué)流形,提出一種基于多視圖超圖學(xué)習(xí)的重排序算法,在重排序?qū)W習(xí)中融合了語(yǔ)義流形與視覺(jué)流形.O’Hare等人[100]綜合使用點(diǎn)擊數(shù)據(jù)與鼠標(biāo)懸停記錄,提出了多種隱式反饋特征,結(jié)合排序?qū)W習(xí)框架,實(shí)驗(yàn)驗(yàn)證了隱式反饋特征對(duì)網(wǎng)絡(luò)圖像搜索的改進(jìn)作用.Wu等人[101]提出使用點(diǎn)擊圖表達(dá)點(diǎn)擊數(shù)據(jù),充分挖掘數(shù)據(jù)對(duì)象之間的隱式關(guān)聯(lián).圖中的頂點(diǎn)對(duì)應(yīng)查詢?cè)~或圖片,聯(lián)接邊強(qiáng)度表示圖片與查詢?cè)~之間的點(diǎn)擊頻率.結(jié)合點(diǎn)擊圖,采用隨機(jī)游走模型學(xué)習(xí)多模態(tài)特征,提升了檢索精度.Jiang等人[102]采用多層感知機(jī)和雙通道遞歸神經(jīng)網(wǎng)絡(luò)從點(diǎn)擊數(shù)據(jù)中“端到端”地學(xué)習(xí)用戶查詢與圖像/視頻的語(yǔ)義概念之間的映射關(guān)系,用于提高圖像/視頻檢索的質(zhì)量.在點(diǎn)擊數(shù)據(jù)取得成功應(yīng)用的同時(shí),也應(yīng)注意到點(diǎn)擊數(shù)據(jù)具有明顯的長(zhǎng)尾現(xiàn)象,存在大量用戶點(diǎn)擊頻度低的長(zhǎng)尾查詢.如何提高長(zhǎng)尾查詢的檢索質(zhì)量是有待解決的問(wèn)題.
不同于上述工作利用檢索系統(tǒng)記錄的隱式反饋數(shù)據(jù),另有一些研究工作利用腦機(jī)接口、眼動(dòng)儀等外部設(shè)備采集用戶在檢索過(guò)程中的各類行為數(shù)據(jù),用于指導(dǎo)檢索的進(jìn)行.例如Wang等人[103]利用基于EEG的腦機(jī)接口系統(tǒng)采集用戶瀏覽圖片時(shí)的腦電信號(hào),進(jìn)而分析出用戶感興趣的目標(biāo).Papadopoulos等人[104]利用眼動(dòng)儀跟蹤和記錄用戶瀏覽圖片時(shí)的注視行為,提出了多種注視信號(hào)特征,用于提高圖像檢索結(jié)果與用戶信息需求的相關(guān)度.Kauppi等人[105]在檢索過(guò)程中綜合使用腦磁信號(hào)與眼動(dòng)數(shù)據(jù)以提高檢索的質(zhì)量.
在信息檢索中,往往存在用戶不熟悉檢索目標(biāo)領(lǐng)域、不確定檢索目標(biāo)的路徑,甚至不確定檢索目標(biāo)等情況.在此類情況下,用戶需要進(jìn)行信息探索.用戶搜索行為分析相關(guān)研究表明,用戶搜索行為中有相當(dāng)比例屬于探索式搜索[106].探索式搜索的定義是:可用來(lái)描述一種開放的、持續(xù)的、多方面的信息搜尋的問(wèn)題情景和具有機(jī)會(huì)性、反復(fù)性、多策略的信息搜尋過(guò)程.探索式搜索是交織著查找、學(xué)習(xí)、調(diào)查的反復(fù)的、啟發(fā)式的交互過(guò)程.與傳統(tǒng)搜索相比,探索式搜索的特征是最初的信息需求是模糊的,缺乏檢索對(duì)象的相關(guān)知識(shí),經(jīng)多次交互,目標(biāo)發(fā)生變化,檢索終止的條件不清晰.探索式搜索更加依賴于用戶與檢索系統(tǒng)的交互.近年來(lái),研究人員針對(duì)面向多媒體數(shù)據(jù)的探索式搜索技術(shù)開展了初步的研究[107-109].如何增強(qiáng)用戶與檢索系統(tǒng)之間的交互能力,支持用戶進(jìn)行信息探索與發(fā)現(xiàn),協(xié)助用戶在繁雜的信息空間中完成高效的信息發(fā)現(xiàn),是探索式搜索研究的關(guān)鍵.
隨著圖像視頻等多媒體數(shù)據(jù)規(guī)模的爆炸式增長(zhǎng)以及各類媒體智能應(yīng)用需求的日益迫切,多媒體信息檢索成為學(xué)術(shù)界的研究熱點(diǎn)和工業(yè)界的關(guān)注焦點(diǎn).發(fā)展多媒體檢索中的查詢與反饋技術(shù)是克服“意圖鴻溝”和“語(yǔ)義鴻溝”的有效途徑.本文在現(xiàn)有文獻(xiàn)的基礎(chǔ)上,介紹了多媒體檢索查詢與反饋技術(shù)發(fā)展與演變的脈絡(luò),綜述了不同時(shí)期的技術(shù)革新.其中,查詢的輸入方式由經(jīng)典的“查詢框”輸入衍生出交互式查詢構(gòu)建以及草圖勾勒查詢.隨著新穎查詢方式的應(yīng)用,查詢的模態(tài)也不斷被刷新,由單一的文本或視覺(jué)模態(tài)發(fā)展為多模態(tài)查詢、跨媒體查詢.多種查詢模態(tài)的有效融合和不同種類媒體數(shù)據(jù)的跨越檢索,顯著提升了多媒體檢索的準(zhǔn)確度與覆蓋率.另一方面,反饋的形式由樣本相關(guān)反饋衍生出語(yǔ)義屬性相關(guān)反饋,反饋的類型由二值反饋發(fā)展為多值反饋、比較反饋等更細(xì)粒度的信息反饋.與此同時(shí),隱式反饋因具有數(shù)據(jù)規(guī)模大、應(yīng)用場(chǎng)景廣等固有優(yōu)勢(shì),吸引著的越來(lái)越多的關(guān)注.在算法方面,深度學(xué)習(xí)技術(shù)在查詢與反饋的分析與建模中展示出良好的效果,逐漸成為主流的查詢與反饋算法.
過(guò)往的研究促進(jìn)了技術(shù)的進(jìn)步,然而現(xiàn)階段的技術(shù)遠(yuǎn)非完善,尚存諸多問(wèn)題亟待研究,例如:1)用戶檢索行為分析與建模問(wèn)題,包括用戶在檢索中的客觀行為分析、認(rèn)知要素分析以及行為建模方法與演化機(jī)制等;2)多媒體檢索與移動(dòng)智能設(shè)備融合問(wèn)題,包括在檢索中對(duì)移動(dòng)智能設(shè)備多通道信息采集功能與環(huán)境感知能力的充分利用以及對(duì)多樣化查詢與多模態(tài)數(shù)據(jù)的綜合處理等;3)用戶、模型與系統(tǒng)協(xié)同問(wèn)題,包括探索更加合理的多媒體信息人機(jī)協(xié)同處理機(jī)制、更加有效的交互式分析與檢索技術(shù)等.
[1]Snoek C G M, Worring M. Concept-based video retrieval[J]. Foundations and Trends in Information Retrieval, 2008, 2(4): 215-322
[2]Datta R, Joshi D, Li Jia, et al. Image retrieval: Ideas, influences, and trends of the new age[J]. ACM Computing Surveys, 2008, 40(2): 5
[3]Zhang Lei, Rui Yong. Image search-from thousands to billions in 20 years[J]. ACM Trans on Multimedia Computing Communications & Applications, 2013, 9(1s): 36
[4]Wang Xinjing, Xu Zheng, Zhang Lei, et al. Towards indexing representative images on the Web[C] //Proc of the 20th ACM Int Conf on Multimedia. New York: ACM, 2012: 1229-1238
[5]Flickner M, Sawhney H, Niblack W, et al. Query by image and video content: The QBIC system[J]. Computer, 1995, 28(9): 23-32
[6]Smith J R. VisualSeek: A fully automated content-based image query system[C] //Proc of the 4th ACM Int Conf on Multimedia. New York: ACM, 1970: 87-98
[7]Huang T, Mehrotra S, Ramchandran K. Multimedia analysis and retrieval system (MARS) project[C] //Proc of 33rd Clinic on Library Application of Data Proc-Digital Image Access and Retrieval. Urbana, Illinois: Graduate School of Library and Information Science, University of Illinois at Urbana-Champaign, 1997: 100-117
[8]Lowe D G. Object recognition from local scale-invariant features[C] //Proc of the Int Conf on Computer Vision. Piscataway, NJ: IEEE, 1999: 1150-1157
[9]Andoni A, Indyk P. Near-optimal hashing algorithms for approximate nearest neighbor in high dimensions[J]. Annual Symp on Foundations of Computer Science, 2006, 51(1): 459-468
[10]Jiang Yugang, Ngo C W, Yang Jun. Towards optimal bag-of-features for object categorization and semantic video retrieval[C] //Proc of the 6th ACM Int Conf on Image and Video Retrieval. New York: ACM, 2007: 494-501
[11]Snoek C, Sande K, Rooij O D, et al. The MediaMill TRECVID 2009 semantic video search engine[C] //Proc of TRECVID Workshop. New York: ACM, 2009: 1-14
[12]Yanagawa S F, Chang L, Kennedy W, et al. Columbia university’s baseline detectors for 374 lscom semantic visual concepts[R]. New York: Columbia University, 2007
[13]Mei Tao, Zha Zhengjun, Liu Yuan, et al. MSRA at TRECVID 2008 high-level feature extraction and automatic search[C] //Proc of TRECVID Working Notes. New York: ACM, 2008: 1-11
[14]Wang Xinjing, Zhang Lei, Jing Fei, et al. Annosearch: Image auto-annotation by search[C] //Proc of the 19th IEEE Conf on Computer Vision and Pattern Recognition (CVPR 2006). Piscataway, NJ: IEEE, 2006: 1483-1490
[15]Zhao Wanlei, Wu Xiao, Ngo C W. On theannotation of Web videos by efficient near-duplicatesearch[J]. IEEE Trans on Multimedia, 2010, 12(5): 448-461
[16]Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems, 2012, 25(2): 1-9
[17]Karpathy A, Toderici G, Shetty S, et al. Large-scale video classification with convolutional neural networks[C] //Proc of the 27th IEEE Conf on Computer Vision and Pattern Recognition (CVPR 2014). Piscataway, NJ: IEEE, 2014: 1725-1732
[18]Donahue J, Anne H L, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C] //Proc of the 28th IEEE Conf on Computer Vision and Pattern Recognition (CVPR 2015). Piscataway, NJ: IEEE, 2015: 2625-2634
[19]Kulis B, Grauman K. Kernelized locality-sensitive hashing for scalable image search[C] //Proc of the 12th Int Conf on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2009: 2130-2137
[20]Wang Jingdong, Wang Jing, Zeng Gang, et al. Fast Neighborhood Graph Search Using Cartesian Concatenation[M]. Berlin: Springer, 2013: 2128-2135
[21]Mei Tao, Rui Yong, Li Shipeng, et al. Multimedia search reranking: A literature survey[J]. ACM Computing Surveys, 2014, 46(3): 1-37
[22]Li Hang. Learning to Rank for Information Retrieval and Natural Language Rrocessing[M]. San Rafael, CA: Morgan & Claypool, 2011
[23]Rui Yong, Huang T S, Ortega M, et al. Relevance feedback: A power tool for interactive content-based image retrieval[J]. IEEE Trans on Circuits & Systems for Video Technology, 2000, 3312(5): 644-655
[24]Yuan Jin, Zha Zhengjun, Zheng Yantao, et al. Utilizing related samples to enhance interactive concept-based video search[J]. IEEE Trans on Multimedia, 2011, 13(6): 1343-1355
[25]Zhang Hanwang, Zha Zhengjun, Yan Shuicheng, et al. Attribute feedback[C] //Proc of the 20th ACM Int Conf on Multimedia. New York: ACM, 2012: 79-88
[26]Strohmaier M, Kr?ll M, K?rner C. Intentional query suggestion: Making user goals more explicit during search[C] //Proc of the 2009 Workshop on Web Search Click Data. New York: ACM, 2009: 68-74
[27]Luo Cheng, Liu Yiqun, Zhang Min, et al. Query recommendation based on user intent recognition[J]. Journal of Chinese Information Processing, 2014, 28(1): 64-72 (in Chinese)
(羅成, 劉奕群, 張敏, 等. 基于用戶意圖識(shí)別的查詢推薦研究[J]. 中文信息學(xué)報(bào), 2014, 28(1): 64-72)
[28]Boldi P, Bonchi F, Castillo C, et al. The query-flow graph: Model and applications[C] //Proc of the 17th ACM Conf on Information and Knowledge Management. New York: ACM, 2008: 609-618
[29]Song Yang, Zhou Dengyong, He Liwei. Query suggestion by constructing term-transition graphs[C] //Proc of the 5th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2012: 353-362
[30]Zhu Xiaofei, Guo Jiafeng, Cheng Xueqi, et al. Query recommendation based on manifold ranking[J]. Journal of Chinese Information Processing, 2011, 25(2): 38-44 (in Chinese)
(朱小飛, 郭嘉豐, 程學(xué)旗, 等. 基于流形排序的查詢推薦方法[J]. 中文信息學(xué)報(bào), 2011, 25(2): 38-44)
[31] Zha Zhengjun, Yang Linjun, Mei Tao, et al. Visual query suggestion[C] //Proc of the 17th ACM Int Conf on Multimedia. New York: ACM, 2009: 15-24
[32]Zha Zhengjun, Yang Linjun, Mei Tao, et al. Visual query suggestion: Towards capturing user intent in Internet image search[J]. ACM Trans on Multimedia Computing Communications & Applications, 2010, 6(3): 219-239
[33]Lu Shiyang, Mei Tao, Wang Jingdong, et al. Exploratory product image search with circle-to-search interaction[J]. IEEE Trans on Circuits and Systems for Video Technology, 2015, 25(7): 1190-1202
[34]Zhang Wei, Pang Lei, Ngo C W. Snap-and-ask: Answering multimodal question by naming visual instance[C] //Proc of the 20th ACM Int Conf on Multimedia. New York: ACM, 2012: 609-618
[35]Zavesky E, Chang S F. CuZero: Embracing the frontier of interactive visual search for informed users[C] //Proc of the ACM Int Conf on Multimedia Information Retrieval. New York: ACM, 2008: 237-244
[36]Xu Hao, Wang Jingdong, Hua Xiansheng, et al. Image search by concept map[C] //Proc of the 33rd Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2010: 275-282
[37]Wang Jingdong, Hua Xiansheng. Interactive image search by color map[J]. ACM Trans on Intelligent Systems and Technology, 2011, 3(1): 12
[38]Duan Lingyu, Huang Tiejun, Gao Wen. Technical research and standardization in mobile visual search[J]. Information and Communications Technologies, 2012, 6(2): 51-58 (in Chinese)
(段凌宇, 黃鐵軍, 高文. 移動(dòng)視覺(jué)搜索技術(shù)研究與標(biāo)準(zhǔn)化進(jìn)展[J]. 信息通信技術(shù), 2012, 6(2): 51-58)
[39]Sang Jitao, Mei Tao, Xu Yingqing, et al. Interaction design for mobile visual search[J]. IEEE Trans on Multimedia, 2013, 15(7): 1665-1676
[40]Kawano Y, Yanai K. Foodcam: A real-time food recognition system on a smartphone[J]. Multimedia Tools and Applications, 2015, 74(14): 5263-5287
[41]Kiapour M H, Han X, Lazebnik S, et al. Where to buy it: Matching street clothing photos in online shops[C] //Proc of the 28th IEEE Conf on Computer Vision and Pattern Recognition (CVPR 2015). Piscataway, NJ: IEEE, 2015: 3343-3351
[42]You Quanzeng, Yuan Jianbo, Wang Jiaqi, et al. Snap n’shop: Visual search-based mobile shopping made a breeze by machine and crowd intelligence[C] //Proc of the 9th 2015 IEEE Int Conf on Semantic Computing. Piscataway, NJ: IEEE, 2015: 173-180
[43]Ngo T D, Phan S, Le D D, et al. Recommend-me: Recommending query regions for image search[C] //Proc of the 29th Annual ACM Symp on Applied Computing. New York: ACM, 2014: 913-918
[44]Yu F X, Ji R, Chang S F. Active query sensing for mobile location search[C] //Proc of the 19th ACM Int Conf on Multimedia. New York: ACM, 2011: 3-12
[45]Zhao Zou, Song Ruihua, Xie Xing, et al. Mobile query recommendation via tensor function learning[C] //Proc of the 24th Int Conf on Artificial Intelligence. New York: ACM, 2015: 4084-4090
[46]Wang Changhu, Zhang Lei. Charm and challenge sketches search[J].China Computer Society Newsletter, 2012, 8(12): 20-26 (in Chinese)
(王長(zhǎng)虎, 張磊. 草圖搜索的魅力與挑戰(zhàn)[J]. 中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊, 2012, 8(12): 20-26)
[47]Xin Yuxuan, Yan Zifei. Research progress of image retrieval based on hand-drawn sketches [J]. CAAI Trans on Intelligent Systems, 2015 (2): 167-177 (in Chinese)
(辛雨璇, 閆子飛. 基于手繪草圖的圖像檢索技術(shù)研究進(jìn)展[J]. 智能系統(tǒng)學(xué)報(bào), 2015 (2): 167-177)
[48]Cao Yang, Wang Hai, Wang Changhu, et al. MindFinder: Interactive sketch-based image search on millions of images[C] //Proc of the 18th ACM Int Conf on Multimedia. New York: ACM, 2010: 1605-1608
[49]Eitz M, Hays J, Alexa M. How do humans sketch objects?[J]. ACM Trans on Graphics, 2012, 31(4): 44:1-44:10
[50]Xiao Changcheng, Wang Changhu, Zhang Liqing, et al. IdeaPanel: A large scale interactive sketch-based image search system[C] //Proc of the 23rd ACM Int Conf on Multimedia Retrieval. New York: ACM, 2015: 667-668
[51]Sun Xinghai, Wang Changhu, Xu Chao, et al. Indexing billions of images for sketch-based retrieval[C] //Proc of the 21st ACM Int Conf on Multimedia. New York: ACM, 2013: 233-242
[52]Schneider R G, Tuytelaars T. Sketch classification and classification-driven analysis using fisher vectors [J]. ACM Trans on Graphics, 2014, 33(6): 174
[53]Sun Zhenbang, Wang Changhu, Zhang Liqing, et al. Query-adaptive shape topic mining for hand-drawn sketch recognition[C] //Proc of the 20th ACM Int Conf on Multimedia. New York: ACM, 2012: 519-528
[54]Yanlk E, Sezgin T M. Active learning for sketch recognition [J]. Computers & Graphics, 2015, 52: 93-105
[55]Yu Qian, Yang Yongxin, Liu Feng, et al. Sketch-a-Net: A deep neural network that beats humans[J]. International Journal of Computer Vision, 2016, 7(5): 337-341
[56]Sangkloy P, Burnell N, Ham C, et al. The sketchy database: Learning to retrieve badly drawn bunnies[J]. ACM Trans on Graphics, 2016, 35(4): 1-12
[57]Zhuang Yueting, Wu Fei, He Xiaofei. Cross-media retrieval and ranking[J]. Communications of the CCF, 2014, 10(7): 14-19 (in Chinese)
(莊越挺, 吳飛, 何曉飛. 跨媒體檢索與排序[J]. 中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊, 2014,10(7): 14-19)
[58]Zhao Yao, Wei Shikui, Wang Shuhui, et al. Knowledge expression of cross-media-perception, association and consistency[J]. Communications of the CCF, 2014, 10(7): 8-13 (in Chinese)
(趙耀, 韋世奎, 王樹徽, 等. 跨媒體時(shí)代的知識(shí)表達(dá)—感知、關(guān)聯(lián)及一致性表示[J]. 中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊, 2014, 10(7): 8-13)
[59]Hardoon D R, Szedmak S, Shawe-Taylor J. Canonical correlation analysis: An overview with application to learning methods[J]. Neural Computation, 2004, 16(12): 2639-2664
[60]Tenenbaum J B, Freeman W T. Separating style and content with bilinear models[J]. Neural Computation, 2000, 12(6): 1247
[61]Li Dongge, Dimitrova N, Li Mingkun, et al. Multimedia content processing through cross-modal association[C] //Proc of the 11th ACM Int Conf on Multimedia. New York: ACM, 2003: 604-611
[62]Mahadevan V, Wong C W, Pereira J C, et al. Maximum covariance unfolding: Manifold learning for bimodal data[C] //Proc of the 25th Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2011: 918-926
[63]Sharma A, Kumar A, Daume H, et al. Generalized multiview analysis: A discriminative latent space[C] //Proc of the 25th IEEE Conf on Computer Vision and Pattern Recognition (CVPR 2012). Piscataway, NJ: IEEE, 2012: 2160-2167
[64]Zhai Deming, Chang Hong, Shan Shiguang, et al. Multiview metric learning with global consistency and local smoothness[J]. ACM Trans on Intelligent Systems and Technology, 2012, 3(3): 53
[65]Lu Xinyan, Wu Fei, Tang Siliang, et al. A low rank structural large margin method for cross-modal ranking[C] //Proc of the 36th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2013: 433-442
[66]Wu Fei, Lu Xinyan, Zhang Zhongfei, et al. Cross-media semantic representation via bi-directional learning to rank[C] //Proc of the 21st ACM Int Conf on Multimedia. New York: ACM, 2013: 877-886
[67]Zheng Y, Zhang Y J, Larochelle H. Topic modeling of multimodal data: An autoregressive approach[C] //Proc of the 27th IEEE Conf on Computer Vision and Pattern Recognition (CVPR 2014). Piscataway, NJ: IEEE, 2014: 1370-1377
[68]Liao Renjie, Zhu Jun, Qin Zenchang. Nonparametric Bayesian upstream supervised multi-modal topic models[C] //Proc of the 7th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2014: 493-502
[69]Wang Yanfei, Wu Fei, Song Jun, et al. Multi-modal mutual topic reinforce modeling for cross-media retrieval[C] //Proc of the 22nd ACM Int Conf on Multimedia. New York: ACM, 2014: 307-316
[70]Wei Yunchao, Zhao Yao, Lu Canyi, et al. Cross-modal retrieval with CNN visual features: A new baseline[J]. IEEE Trans on Cybernetics, 2017, 47(2): 449-460
[71]Ma Lin, Lu Zhengdong, Shang Lifeng, et al. Multimodal convolutional neural networks for matching image and sentence[J]. Computer Science, 2015: 2623-2631
[72]Wu Fei, Yu Zhou, Yang Yi, et al. Sparse multi-modal hashing[J]. IEEE Trans on Multimedia, 2014, 16(2): 427-439
[73]Ding Kun, Fan Bin, Huo Chunlei, et al. Cross-modal hashing via rank-order preserving[J]. IEEE Trans on Multimedia, 2017, 19(3): 571-585
[74]Cao Yue, Long Mingsheng, Wang Jianmin, et al. Deep visual-semantic hashing for cross-modal retrieval[C] //Proc of the 22nd ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2016: 1445-1454
[75]TRECVID. TREC video retrieval evaluation[OL]. [2017-03-16]. http://www-nlpir.nist. gov/projects/trecvid/
[76]Liu Danzhou, Hua K A, Vu K, et al. Fast query point movement techniques for large CBIR systems[J]. IEEE Trans on Knowledge & Data Engineering, 2008, 21(5): 729-743
[77]Aksoy S, Haralick R M, Cheikh F A, et al. A weighted distance approach to relevance feedback[J]. Electronic Test, 2011, 4(4): 812-815
[78]Huang T S, Dagli C K, Rajaram S, et al. Active learning for interactive multimedia retrieval[J]. Proceedings of the IEEE, 2008, 96(4): 648-667
[79]Zhang Lei, Lin Fuzong, Zhang Bo. Support vector machine learning for image retrieval[C] //Proc of the 3rd Int Conf on Image Processing. Piscataway, NJ: IEEE, 2001: 721-724
[80]Chen Yunqiang, Zhou X S, Huang T S. One-class SVM for learning in image retrieval[C] //Proc of 2001 IEEE Int Conf on Image Processing. Piscataway, NJ: IEEE, 2001: 34-37
[81]Tong S, Chang E. Support vector machine active learning for image retrieval[C] //Proc of the 9th ACM Int Conf on Multimedia. New York: ACM, 2001: 107-118
[82]Zha Zengjun, Wang Meng, Zheng Yantao, et al. Interactive video indexing with statistical active learning[J]. IEEE Trans on Multimedia, 2012, 14(1): 17-27
[83]Farhadi A, Endres I, Hoiem D, et al. Describing objects by their attributes[C] //Proc of the 22nd IEEE Conf on Computer Vision and Pattern Recognition (CVPR 2009). Piscataway, NJ: IEEE, 2009: 1778-1785
[84]Vittayakorn S, Umeda T, Murasaki K, et al. Automatic Attribute Discovery with Neural Activations[M]. Berlin: Springer, 2016
[85]Zheng Jingjing, Jiang Zhuolin, Chellappa R. Submodular attribute selection for visual recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2016, DOI: 10.1109/TPAMI.2016.2636827
[86]Li Yining, Huang Chen, Loy C C, et al. Human attribute recognition by deep hierarchical contexts[C] //Proc of the European Conf on Computer Vision. Berlin: Springer, 2016: 684-700
[87]Douze M, Ramisa A, Schmid C. Combining attributes and fisher vectors for efficient image retrieval[C] //Proc of the 24th IEEE Conf on Computer Vision and Pattern Recognition (CVPR 2011). Piscataway, NJ: IEEE, 2011: 745-752
[88]Scheirer W J, Kumar N, Belhumeur P N, et al. Multi-attribute spaces: Calibration for attribute fusion and similarity search[C] //Proc of the 25th IEEE Conf on Computer Vision and Pattern Recognition (CVPR 2012). Piscataway, NJ: IEEE, 2012: 2933-2940
[89]Liu Ziwei, Luo Ping, Qiu Shi, et al. Deepfashion: Powering robust clothes recognition and retrieval with rich annotations[C] //Proc of the 29th IEEE Conf on Computer Vision and Pattern Recognition(CVPR 2016). Piscataway, NJ: 2016: 1096-1104
[90]Zhang Hanwang, Zha Zhengjun, Yan Shuicheng, et al. Attribute feedback[C] //Proc of the 20th ACM Int Conf on Multimedia. New York: ACM, 2012: 79-88
[91]Zhang Hanwang, Zha Zhengjun, Yang Yang, et al. Attribute-augmented semantic hierarchy: Towards a unified framework for content-based image retrieval[J]. ACM Trans on Multimedia Computing, Communications, and Applications, 2014, 11(1s): 21
[92]Kovashka A, Parikh D, Grauman K. Whittlesearch: Interactive image search with relative attribute feedback[J]. Int Journal of Computer Vision, 2015, 115(2): 185-210
[93]Yu A, Grauman K. Just noticeable differences in visual attributes[C] //Proc of the IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2015: 2416-2424
[94]Agichtein E, Brill E, Dumais S. Improving Web search ranking by incorporating user behavior information[C] //Proc of the 29th ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2006: 19-26
[95]Joachims T. Optimizing search engines using clickthrough data[C] //Proc of the 8th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2002: 133-142
[96]Jiang J, Hassan A A, Shi X, et al. Understanding and predicting graded search satisfaction[C] //Proc of the 8th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2015: 57-66
[97]Hua Xiansheng, Yang Linjun, Wang Jingdong, et al. Clickage: Towards bridging semantic and intent gaps via mining click logs of search engines[C] //Proc of the 21st ACM Int Conf on Multimedia. New York: ACM, 2013: 243-252
[98]Jain V, Varma M. Learning to re-rank: Query-dependent image re-ranking using click data[C] //Proc of the 20th Int Conf on World Wide Web. New York: ACM, 2011: 277-286
[99]Yu Jun, Rui Yong, Chen Bo. Exploiting click constraints and multi-view features for image re-ranking[J]. IEEE Trans on Multimedia, 2014, 16(1): 159-168
[100]O’Hare N, De Juan P, Schifanella R, et al. Leveraging user interaction signals for Web image search[C] //Proc of the 39th ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2016: 559-568
[101]Wu Fei, Lu Xinyan, Song Jun, et al. Learning of multimodal representations with random walks on the click graph[J]. IEEE Trans on Image Processing, 2016, 25(2): 630-642
[102]Jiang Lu, Cao Liangliang, Kalantidis Y, et al. Delving deep into personal photo and video search[C] //Proc of the 10th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2017: 801-810
[103]Wang J, Pohlmeyer E, Hanna B, et al. Brain state decoding for rapid image retrieval[C] //Proc of the 17th ACM Int Conf on Multimedia. New York: ACM, 2009: 945-954
[104]Papadopoulos G T, Apostolakis K C, Dara P. Gaze-based relevance feedback for realizing region-based image retrieval[J]. IEEE Trans on Multimedia, 2013, 16(2): 440-454
[105]Kauppi J P, Kandemir M, Saarinen V M, et al. Towards brian-activity-controlled information retrieval: Decoding image relevance from MEG signals[J]. NeuroImage, 2015, 112(6): 288-298
[106]Marchionini G. Exploratory search: From finding to understanding[J]. Communications of the ACM, 2006, 49(4): 41-46
[107]Kai U B, Hezel N, Mackowiak R. ImageMap-Visually Browsing Millions of Images[M]. Berlin: Springer, 2015: 287-290
[108]Halvey M, Vallet D, Hannah D, et al. Supporting exploratory video retrieval tasks with grouping and recommendation[J]. Information Processing & Management, 2014, 50(6): 876-898
[109]Tsukuda K, Goto M. Exploratory video search: A music video search system based on coordinate terms and diversification[C] //Proc of the 2015 IEEE Int Symp on Multimedia (ISM). Piscataway, NJ: IEEE, 2015: 221-224
Zha Zhengjun, born in 1984. PhD. Professor, PhD supervisor in University of Science and Technology of China. His main research interests include multimedia analysis and retrieval, computer vision, and patter recognition.
Zheng Xiaoju, born in 1987. PhD candidate. Her main research interests include video analysis and retrieval.
Query and Feedback Technologies in Multimedia Information Retrieval
Zha Zhengjun1and Zheng Xiaoju1,2
1(SchoolofInformationScienceandTechnology,UniversityofScienceandTechnologyofChina,Hefei230027)2(HefeiInstitutesofPhysicalScience,ChineseAcademyofSciences,Hefei230031)
In spite of the remarkable progress made in the past decades, multimedia information retrieval still suffers from the “intention gap” and “semantic gap”. To address this issue, researchers have proposed a wealth of query technologies to help user express search intent clearly as well as feedback technologies to help retrieval system understand user intent and multimedia data accurately, leading to significant improvements of retrieval performance. This paper presents a survey of the query and feedback technologies in multimedia information retrieval. We summarize the evolution of query styles and the development of feedback approaches. We elaborate the query approaches for retrieval on PC,mobile intelligent devices and touch-screen devices etc. We introduce the feedback approaches proposed in different periods and discuss the interaction issue in exploratory multimedia retrieval. Finally, we discuss future research directions in this field.
multimedia information retrieval; retrieval intent; content understanding; query; feedback
2017-01-05;
2017-04-24
國(guó)家自然科學(xué)基金面上項(xiàng)目(61472392);國(guó)家自然科學(xué)基金優(yōu)秀青年科學(xué)基金項(xiàng)目(61622211);國(guó)家自然科學(xué)基金重點(diǎn)國(guó)際合作項(xiàng)目(61620106009) This work was supported by the General Program of the National Natural Science Foundation of China (61472392), the National Natural Science Foundation of China for Excellent Young Scientists (61622211), and the Key Project of International Cooperation of the National Natural Science Foundation of China (61620106009).
TP391