余婷婷
[摘 要] 隨著云計(jì)算、移動(dòng)智能終端等信息技術(shù)飛速發(fā)展,視覺搜索開始從PC端走向移動(dòng)終端,自移動(dòng)視覺搜索(Mobile Visual Search,MVS)提出以來(lái),已成為信息檢索領(lǐng)域重要研究課題。目前MVS研究主要集中于基本架構(gòu)、視覺對(duì)象處理、視覺對(duì)象檢索等關(guān)鍵技術(shù);在數(shù)字人文領(lǐng)域,MVS主要應(yīng)用于展品導(dǎo)覽,實(shí)現(xiàn)精準(zhǔn)定位,提升閱讀體驗(yàn)等;標(biāo)準(zhǔn)化問(wèn)題、用戶體驗(yàn)及視覺對(duì)象數(shù)據(jù)庫(kù)構(gòu)建則是其未來(lái)重點(diǎn)發(fā)展方向。
[關(guān)鍵詞] 移動(dòng)視覺搜索;數(shù)字人文
[分類號(hào)] G250 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1671-0037(2017)5-43-4
Abstract: With the rapid development of information technologies, such as cloud computing and mobile intelligent, Visual Search begins moving from the PC to the mobile. Mobile Visual Search (MVS) has become an important research topic in the field of information retrieval since it was put forward. At present, MVS research mainly focuses on the key technologies such as basic architecture, visual object processing and visual object retrieval; in the field of digital humanities, MVS is mainly used in exhibition, achieving precise positioning, enhancing reading experience and so on; standardization, user experience and the construction of visual object databases will be the key directions for future development.
Key words: Mobile Visual Search; digital humanities
MVS是基于移動(dòng)搜索發(fā)展起來(lái)的,早在2002年英國(guó)就已出現(xiàn)“手機(jī)搜索音樂”。雖然目前國(guó)內(nèi)外對(duì)MVS的研究尚處于初級(jí)階段,但近幾年隨著增強(qiáng)現(xiàn)實(shí)技術(shù)(Augmented Reality,AR)、跨媒體檢索技術(shù)(Cross-Media Retrieval)等技術(shù)的發(fā)展,學(xué)術(shù)界對(duì)其日益關(guān)注。目前MVS的研究仍以理論研究為主、應(yīng)用研究為輔,但是隨著移動(dòng)搜索、圖像檢索、移動(dòng)增強(qiáng)現(xiàn)實(shí)等技術(shù)不斷發(fā)展與完善,與之相融合的MVS必將成為繼搜索引擎之后互聯(lián)網(wǎng)新一代革命性服務(wù)模式[1]。
本文以“mobile visual search*”“移動(dòng)視覺搜索”、MVS為主題詞在SCIE、Ei、Scopus、PQDT、中國(guó)知網(wǎng)、萬(wàn)方、維普等數(shù)據(jù)庫(kù)中檢索,并通過(guò)引文追溯的方法來(lái)進(jìn)一步補(bǔ)充相關(guān)文獻(xiàn),通過(guò)文獻(xiàn)調(diào)研的方法,來(lái)揭示目前國(guó)內(nèi)外移動(dòng)視覺搜索技術(shù)研究進(jìn)展,為我國(guó)移動(dòng)視覺搜索研究提供參考。
1 移動(dòng)視覺搜索技術(shù)研究進(jìn)展
目前移動(dòng)視覺搜索技術(shù)研究主要集于基本架構(gòu)、視覺對(duì)象處理、視覺對(duì)象檢索等關(guān)鍵技術(shù)。
1.1 移動(dòng)視覺搜索基本架構(gòu)
MVS基本架構(gòu)有三種形式:標(biāo)準(zhǔn)架構(gòu)、本地化架構(gòu)和混合架構(gòu)[2]。三種基本架構(gòu)各有優(yōu)缺點(diǎn),系統(tǒng)功能、應(yīng)用領(lǐng)域不同,效果也不盡一樣,詳見表1。
1.2 視覺對(duì)象處理
視覺對(duì)象處理是移動(dòng)視覺搜索的基本問(wèn)題,主要包括視覺對(duì)象描述和提取、描述子壓縮。根據(jù)提取特征的廣度不同,視覺對(duì)象特征可分為局部特征、全局特征及隨機(jī)特征三類。Tuytelaars等人[3]對(duì)三種特征描述子進(jìn)行了對(duì)比分析:全局特征描述子能夠表現(xiàn)圖像的整體特征,但其計(jì)算量大且無(wú)法從復(fù)雜的背景中區(qū)分目標(biāo);隨機(jī)特征描述子在不同的位置和尺度上采用不同的部分圖像特征,能夠很好的區(qū)分目標(biāo),但是,計(jì)算量龐大效率較低;局部特征描述子選取局部信息來(lái)構(gòu)造圖像特征,受圖像變換影響小,識(shí)別準(zhǔn)確,可在復(fù)雜背景中完成目標(biāo)識(shí)別,雖然數(shù)字建模相對(duì)困難,但是,因?yàn)槠涓咝У淖R(shí)別率是目前移動(dòng)視覺搜索中視覺對(duì)象提取和描述的主要方法。在眾多的局部特征描述子中,應(yīng)用最廣泛的是尺度不變描述子(Scale Invariant Feature Transform,SIFT)。
視覺對(duì)象壓縮主要有基于圖像層面和基于局部特征的?;趫D像層面的視覺對(duì)象壓縮方法有兩類:局部描述符聚合[4]以及詞匯編碼直方圖壓縮[5]?;诰植刻卣髅枋鲎訅嚎s主要采取降維法,常用的有PCA-SIFT(Principal Component Analysis SIFT)[6];SIFT-LDA(SIFT Linear Discriminant Analysis)[7];LLE-SIFT(Locally linear embedding SIFT)[8]。
1.3 視覺對(duì)象檢索
為了統(tǒng)一視覺搜索流程,共享研究成果,斯坦福大學(xué)、美國(guó)高通公司等多家研究機(jī)構(gòu)參與制定了MPEG Compact Descriptor for Visual Search (MPEG CDVS)國(guó)際標(biāo)準(zhǔn),并于2015年在MPEG國(guó)際標(biāo)準(zhǔn)會(huì)議發(fā)布了最新的圖像匹配流程和檢索流程,主要包括視覺搜索架構(gòu)、視覺搜索流程兩項(xiàng)[9]。針對(duì)視覺對(duì)象檢索,國(guó)內(nèi)外學(xué)者目前主要集中在兩方面:優(yōu)化視覺搜索性能和大規(guī)模圖像信息檢索。Li Dawei提出一種高效的移動(dòng)視覺搜索系統(tǒng)(EMOVIS),該系統(tǒng)使用兩個(gè)獨(dú)特的關(guān)鍵點(diǎn)識(shí)別方案來(lái)提高檢索精度[10];Ke Gao針對(duì)大規(guī)模移動(dòng)視覺檢索,提供一種離線查詢擴(kuò)展,提取多個(gè)具有代表性的特征,來(lái)支持快速準(zhǔn)確的特征匹配[11]。
2 移動(dòng)視覺搜索在數(shù)字人文領(lǐng)域應(yīng)用實(shí)踐
移動(dòng)視覺搜索目前在國(guó)外很多領(lǐng)域已經(jīng)有了很好的應(yīng)用,具有代表性的是Google公司于2009年開發(fā)的Google Goggles服務(wù),該服務(wù)可以將手機(jī)拍攝到的圖片在Google里搜尋,可以搜索書、商品、建筑、景點(diǎn)等[12]。
數(shù)字人文指將計(jì)算機(jī)處理和分析技術(shù)應(yīng)用到傳統(tǒng)人文研究中去,對(duì)其進(jìn)行更全面、生動(dòng)的展示,將人文科學(xué)方法論與計(jì)算機(jī)技術(shù)相結(jié)合起來(lái)[13]。將MVS應(yīng)用到數(shù)字人文領(lǐng)域是近幾年隨著圖書情報(bào)學(xué)科在MVS研究的深入而出現(xiàn)的,目前主要應(yīng)用的地方有圖書館、檔案館、博物館等,MVS在數(shù)字人文領(lǐng)域的應(yīng)用主要有以下幾個(gè)方面:
2.1 提供展品導(dǎo)覽
展品導(dǎo)覽一般用于博物館、檔案館及提供展覽功能的圖書館,隨著信息化不斷發(fā)展,互聯(lián)網(wǎng)+也將成為這些館舍的發(fā)展方向,傳統(tǒng)的展品展示一般是以明牌解說(shuō)的形式,內(nèi)容方法單一,將MVS應(yīng)用到展品導(dǎo)覽中,不僅能提供能展品的文字介紹,還能夠提供多媒體信息,為參觀者帶來(lái)更加生動(dòng)的互動(dòng)體驗(yàn)。國(guó)外在這方面的探索,主要有Erich Bruns等人提出的名為PhoneGuide的博物館導(dǎo)覽系統(tǒng),該系統(tǒng)利用手機(jī)進(jìn)行對(duì)展品進(jìn)行拍攝,來(lái)提供對(duì)象的文本、視頻、音頻等多媒體信息[14],在2010,2012年,Erich Bruns又利用多圖像分類技術(shù)(multi-image classification technique)對(duì)其進(jìn)行改進(jìn),提高其自適應(yīng)性[15][16]。鐘志鵬提出一種基于移動(dòng)視覺搜索的博物館導(dǎo)覽系統(tǒng),該系統(tǒng)基于移動(dòng)視覺搜索和GPS定位技術(shù),為用戶提供語(yǔ)音解說(shuō)、文字圖片甚至是音頻、視頻等多媒體信息[17]。
2.2 實(shí)現(xiàn)精準(zhǔn)定位
精準(zhǔn)定位一般應(yīng)用于圖書查找,現(xiàn)代圖書館為了更好的滿足讀者的需求,館舍體量越來(lái)越大,實(shí)現(xiàn)大開架布局,推行“藏、查、借、閱、參”一體化服務(wù),相應(yīng)的功能布局較為分散,對(duì)圖書館不熟悉的讀者來(lái)說(shuō),僅憑索書號(hào)來(lái)找書是一個(gè)很繁瑣的過(guò)程。將移動(dòng)視覺搜索技術(shù)應(yīng)用到圖書館,讀者可以通過(guò)手機(jī)拍攝圖書相關(guān)信息,獲得相關(guān)的圖書的地理位置和導(dǎo)航,不僅會(huì)大大縮減讀者找書時(shí)間而且提高了找尋的精度。國(guó)外這方面的應(yīng)用研究較多,邁阿密大學(xué)的Bo Brinkman等人設(shè)計(jì)了名為ShelvAR的排架系統(tǒng),來(lái)實(shí)現(xiàn)圖書的快速精準(zhǔn)定位[18];印度的Pradeep Siddappa設(shè)計(jì)了librARi應(yīng)用程序,可以直接拍照來(lái)搜索圖書的物理空間,并通過(guò)對(duì)書架進(jìn)行拍攝來(lái)找出相關(guān)書籍在書架上的位置[19]。
2.3 提升閱讀體驗(yàn)
將移動(dòng)視覺搜索技術(shù)與閱讀相結(jié)合,用戶面對(duì)的將不再是文字本身枯燥的內(nèi)容,還可以獲取圖書的評(píng)價(jià)、與該圖書內(nèi)容相關(guān)的音頻視頻,更甚者,可以獲得與之相關(guān)的三維立體形象,讓用戶體會(huì)到交互式閱讀的樂趣。JISC-funded data centre at the University of Manchester和John Rylands Library開展的SCARLET項(xiàng)目,利用MVS技術(shù)拍攝古籍時(shí),屏幕上就會(huì)顯示古籍的文字圖片等信息,用戶還可以對(duì)圖片進(jìn)行翻頁(yè)操作、收聽相關(guān)的音頻資料等,突破了傳統(tǒng)閱讀習(xí)慣,大大提高了古籍的利用率和用戶的使用體驗(yàn)[20]。
3 移動(dòng)視覺搜索未來(lái)發(fā)展方向
隨著移動(dòng)智能終端、云計(jì)算等的高速發(fā)展,移動(dòng)視覺搜索必將在技術(shù)發(fā)展的基礎(chǔ)上,以滿足用戶互動(dòng)性、個(gè)性化需求為驅(qū)動(dòng),形成新的服務(wù)模式,未來(lái)MVS有以下幾個(gè)研究重點(diǎn)。
3.1 移動(dòng)視覺搜索標(biāo)準(zhǔn)化問(wèn)題
隨著MVS的高速發(fā)展,移動(dòng)視覺搜索面臨的對(duì)象數(shù)據(jù)、工具、系統(tǒng)等方面的標(biāo)準(zhǔn)統(tǒng)一問(wèn)題,特別是多樣化的視覺搜索需要解決的系統(tǒng)互操作性挑戰(zhàn),為了推進(jìn)這一標(biāo)準(zhǔn)的建立,世界各國(guó)的科研機(jī)構(gòu)和公司進(jìn)行了相關(guān)研究,北京大學(xué)的數(shù)字視頻編解碼技術(shù)國(guó)家工程實(shí)驗(yàn)室,美國(guó)的斯坦福大學(xué)、意大利電信集團(tuán)等都參與了MPEG CDVS視覺搜索國(guó)際標(biāo)準(zhǔn)的指定,并已經(jīng)取得了初步成就,發(fā)布了一系列包括視覺描述緊湊子提取、視覺檢索流程等國(guó)際標(biāo)準(zhǔn)。
3.2 關(guān)注用戶體驗(yàn)
由于移動(dòng)終端的高速發(fā)展,用戶獲取視覺對(duì)象更加便捷,因此,需要及時(shí)獲取用戶的需求,從而滿足不同用戶的信息服務(wù)需求,目前移動(dòng)視覺搜索的研究學(xué)科多集中于工程學(xué)科,但隨著技術(shù)的發(fā)展,基于用戶需求的應(yīng)用也將是MVS的重要發(fā)展方向,北京大學(xué)的Sang J關(guān)注用戶體驗(yàn),理解用戶意圖,提出了一種基于交互的MVS原型,幫助用戶制定自己的視覺意圖,來(lái)提高用戶體驗(yàn)[21]。
3.3 視覺對(duì)象數(shù)據(jù)庫(kù)構(gòu)建
視覺對(duì)象庫(kù)的構(gòu)建是移動(dòng)視覺搜索的重要方面,相對(duì)于視覺檢索構(gòu)建的圖像數(shù)據(jù)庫(kù),視覺對(duì)象數(shù)據(jù)庫(kù)很明顯不僅包括與之相似的強(qiáng)大的圖像庫(kù),還必須包括與圖片的一系列相關(guān)信息,但是,目前針對(duì)此方面的研究相對(duì)較少,且大部分研究均集中于圖像數(shù)據(jù)庫(kù)的構(gòu)建,關(guān)聯(lián)信息研究則是更少。不過(guò),隨著互聯(lián)網(wǎng)科技的發(fā)展,相關(guān)課題也正進(jìn)入人們的視線,北京大學(xué)和南洋理工大學(xué)則是共建ROSE項(xiàng)目,擬建設(shè)成亞洲最大的視覺對(duì)象數(shù)據(jù)庫(kù),從包括淘寶、google、flickr、amazon上獲取網(wǎng)頁(yè)、圖片、視頻數(shù)據(jù),通過(guò)對(duì)這些數(shù)據(jù)信息的分析,來(lái)構(gòu)建object Database,該項(xiàng)目將集成在包括電子商務(wù)、旅游、生活方式愛好等3個(gè)領(lǐng)域[22]。
4 結(jié)語(yǔ)
MVS技術(shù)使得圖書館、博物館、檔案館與用戶之間有了一種全新的、生動(dòng)的、互動(dòng)式的溝通方式,其技術(shù)應(yīng)用的研究必將對(duì)數(shù)字人文領(lǐng)域未來(lái)的生存與發(fā)展產(chǎn)生深遠(yuǎn)的影響,在學(xué)術(shù)界、產(chǎn)業(yè)界的共同努力下,協(xié)同增強(qiáng)現(xiàn)實(shí)、跨媒體檢索等技術(shù)的共同發(fā)展,移動(dòng)視覺搜索必將成為Web3.0時(shí)代下互聯(lián)網(wǎng)革命性服務(wù)模式。
參考文獻(xiàn):
[1] 張興旺,黃曉斌.國(guó)外移動(dòng)視覺搜索研究述評(píng)[J].中國(guó)圖書館學(xué)報(bào),2014(3):114-128.
[2] Girod B, Chandrasekhar V, Grzeszczuk R, et al. Mobile Visual Search: Architectures, Technologies, and the Emerging MPEG Standard[J]。 Multimedia IEEE, 2011(3):86-94.
[3] Tuytelaars T, Mikolajczyk K. Local invariant feature detectors: a survey[J].Foundations and Trends in Computer Graphics and Vision, 2007(3): 177-280.
[4] Jégou H, Douze M, Schmid C, et al. Aggregating local descriptors into a compact image representation[C].IEEE Conference on Computer Vision & Pattern Recognition. IEEE Computer Society, 2010:3304-3311.
[5] Chen D, Tsai S, Hsu C H, et al. Mobile augmented reality for books on a shelf[C]//Multimedia and Expo (ICME),2011 IEEE International Conference on. IEEE, 2011: 1-6.
[6] Zhang Y,Wei K B. Research on wide baseline stereo matching based on PCA-SIFT[C]// Advanced Computer Theory and Engineering (ICACTE),2010 3rd International Conference on. IEEE, 2010:V5-137-V5-140.
[7] 丁湘楠, 謝正忠, 宋曉寧.基于LDA的SIFT算法在圖像配準(zhǔn)中的應(yīng)用[J].電子設(shè)計(jì)工程,2013(11):186-189.
[8] Ye J, Shi S, Chen Y. A face recognition algorithm based on LLE-SIFT feature descriptors[C].Computer Science & Education (ICCSE), 2015 10th International Conference on. IEEE, 2015.
[9] CDVS.Test Model 13: Compact descriptor for visual search[S].N15129, ISO/IEC JTC1/SC29/WG11, Geneva,Switzerland,F(xiàn)eb.2015.
[10] Li D, Chuah M C. EMOVIS:An Efficient Mobile Visual Search System for Landmark Recognition[C]// Mobile Ad-hoc and Sensor Networks (MSN), 2013 IEEE Ninth International Conference on. IEEE, 2013:53-60.
[11] Gao K, Zhang Y, Zhang D,et al. Accurate off-line query expansion for large-scale mobile visual search[J].Signal Processing, 2013(8):2305-2315.
[12] Wikipedia. Google Goggles[EB/OL]. https://en.wikipedia.org/wiki/Google_Goggles.2016-07-02.
[13] Katy Barrett. From pamphlet to pixel: the humanities in transition[EB/OL].http://www.cam.ac.uk/research/discussion/from-pamphlet-to-pixel-the-humanities-in-transition.2017-07-10.
[14] Bruns E, Brombach B, Zeidler T, et al. Enabling mobile phones to support large-scale museum guidance[J].IEEE multimedia, 2007(2).
[15] Bruns E, Bimber O. Mobile museum guidance using relational multi-image classification[C]//Multimedia and Ubiquitous Engineering(MUE),2010 4th International Conference on. IEEE, 2010: 1-8.
[16] Bruns E,Bimber O.Localization and classification through adaptive pathway analysis[J].IEEE Pervasive Computing, 2012(2):74-81.
[17] 鐘志鵬, 王涌天, 陳靖,等.一個(gè)基于移動(dòng)視覺搜索技術(shù)的博物館導(dǎo)覽系統(tǒng)[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2012(4):555-562。
[18] Brinkman B, Brinkman S. AR in the library:A pilot study of multi-target acquisition usability[C]//Mixed and Augmented Reality (ISMAR),2013 IEEE International Symposium on. IEEE,2013:241-242.
[19] Pradeep Siddappa. librARi-Augmented reality experience for library[EB/OL].http://www.behance.net/gallery/20711093/librARi-Augmented-Reality-Experience-for-Library.2016-07-25.
[20] ALT.The SCARLET Project: Marrying Augmented Reality and Special Collections[EB/OL].https://altc.alt.ac.uk/blog/2012/06/the-scarlet-project-marrying-augmented-reality-and-special-collections/.2017-07-10.
[21] Sang J, Mei T, Xu Y Q, et al. Interaction Design for Mobile Visual Search[J].IEEE Transactions on Multimedia, 2013(7):1665-1676.
[22] Rapid-Rich Object Search Lab.Structured Object Database[EB/OL].http://rose.ntu.edu.sg/research/Structured%20Object%20Database/Pages/Home.aspx.2016-06-25.