殷婕 曾子明 孫守強(qiáng)
關(guān)鍵詞: 移動(dòng)視覺(jué)搜索; 圖像; 敦煌壁畫; 深度學(xué)習(xí); 哈希; 語(yǔ)義融合
DOI:10.3969 / j.issn.1008-0821.2023.05.004
〔中圖分類號(hào)〕G203 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2023) 05-0035-11
文化遺產(chǎn)是人類文明的載體, 文化遺產(chǎn)保護(hù)是全球高度重視的議題。敦煌石窟開(kāi)鑿于前秦建元二年, 融合中外多民族千余年的歷史文化, 形成了具有中國(guó)特色的佛教藝術(shù)體系, 敦煌壁畫是全面認(rèn)識(shí)中國(guó)藝術(shù)史必不可少的部分, 同時(shí)對(duì)于推動(dòng)現(xiàn)代藝術(shù)創(chuàng)新具有重要意義[1] 。信息技術(shù)快速發(fā)展, 文化遺產(chǎn)數(shù)字化進(jìn)程加快, 敦煌壁畫修復(fù)技術(shù)和數(shù)字化采集技術(shù)日趨成熟, 圖書(shū)館、檔案館和博物館(Li?braries, Archives and Museums, LAMs)中存儲(chǔ)了大量敦煌壁畫圖像資源。因其抽象的視覺(jué)表現(xiàn)形式和晦澀的圖像語(yǔ)義內(nèi)容, 用戶難以用準(zhǔn)確語(yǔ)言描述搜索對(duì)象, 敦煌壁畫存在搜索難度大、資源利用率低等問(wèn)題, 阻礙科研人員對(duì)敦煌壁畫研究工作的開(kāi)展, 打擊用戶通過(guò)搜索敦煌壁畫了解敦煌文化的積極性。
移動(dòng)視覺(jué)搜索(Mobile Visual Search, MVS)借助移動(dòng)設(shè)備上傳實(shí)體的視覺(jué)資源, 并在網(wǎng)絡(luò)上搜索相關(guān)信息[2] 。將該項(xiàng)技術(shù)應(yīng)用到敦煌壁畫搜索領(lǐng)域能有效提高資源獲取效率, 在壁畫實(shí)體修復(fù)與保護(hù)、數(shù)字化采集與存儲(chǔ)等環(huán)節(jié)的基礎(chǔ)上, 從資源利用與信息傳播角度助力敦煌文化遺產(chǎn)保護(hù)與文化傳承。移動(dòng)視覺(jué)搜索強(qiáng)調(diào)移動(dòng)泛在、實(shí)時(shí)便捷的用戶體驗(yàn), 在網(wǎng)絡(luò)覆蓋環(huán)境下對(duì)模型計(jì)算速度、信息傳輸穩(wěn)定性等技術(shù)要求更高, 其準(zhǔn)確性、完整性、靈活性等是影響用戶體驗(yàn)的核心要素[3] 。
傳統(tǒng)基于文本的圖像檢索只考慮文本關(guān)鍵詞,缺少圖像特征融合, 導(dǎo)致搜索準(zhǔn)確性不高。基于內(nèi)容的圖像檢索存在語(yǔ)義鴻溝, 圖像高層語(yǔ)義和用戶檢索意圖未被考慮。目前深度卷積神經(jīng)網(wǎng)絡(luò)(DeepConvolutional Neural Network, DCNN)性能突出[4-6] ,能提取到敦煌壁畫更復(fù)雜和更深層的圖像特征, 語(yǔ)義標(biāo)簽文本特征的融合能減少圖像語(yǔ)義鴻溝, 彌補(bǔ)傳統(tǒng)圖像檢索的不足。使用DCNN 提取圖像特征時(shí), 高維的特征向量對(duì)設(shè)備的存儲(chǔ)能力和計(jì)算性能要求較高, 導(dǎo)致搜索耗時(shí)長(zhǎng)、端到端成功率無(wú)法保證, 會(huì)嚴(yán)重影響用戶搜索體驗(yàn)。在此基礎(chǔ)上引入哈希方法對(duì)高維圖像特征向量進(jìn)行壓縮, 能提高計(jì)算速度和傳輸穩(wěn)定性。因此, 本文基于DCNN 和哈希方法并融合圖像語(yǔ)義特征構(gòu)建敦煌壁畫的移動(dòng)視覺(jué)搜索模型, 為用戶提供結(jié)果準(zhǔn)確、檢索快速、知識(shí)豐富的即時(shí)即地資源獲取服務(wù), 幫助用戶深入理解敦煌壁畫內(nèi)涵。
1相關(guān)研究
1.1敦煌壁畫
敦煌壁畫融合東西方特色, 蘊(yùn)藏豐富的經(jīng)濟(jì)、政治、宗教和文化內(nèi)涵, 是研究古代歷史最有價(jià)值的文化遺產(chǎn)之一。學(xué)者以敦煌壁畫為對(duì)象, 研究古代絲綢之路上的文化交融、歷史變遷、禮儀功能、人與自然、宗教信仰等; 從線條語(yǔ)言、色彩語(yǔ)言、人物形象、圖像敘事、情感表達(dá)等角度探討敦煌壁畫對(duì)現(xiàn)代服裝設(shè)計(jì)、建筑設(shè)計(jì)、構(gòu)圖與美術(shù)創(chuàng)作、影視動(dòng)畫創(chuàng)作等領(lǐng)域的影響與啟發(fā)。
敦煌壁畫是數(shù)字人文領(lǐng)域的重點(diǎn)研究對(duì)象。
“數(shù)字人文” 起源于“人文計(jì)算”[7] , 涉及多學(xué)科有機(jī)融合, 強(qiáng)調(diào)對(duì)計(jì)算機(jī)科學(xué)和人文社會(huì)科學(xué)交叉領(lǐng)域的研究創(chuàng)新以及數(shù)字技術(shù)在文化傳播中的應(yīng)用, 引發(fā)了傳統(tǒng)人文研究范式的變革, 推動(dòng)了人文社會(huì)科學(xué)研究的進(jìn)步[8] 。王曉光等[9] 搭建敦煌壁畫語(yǔ)義框架并構(gòu)建領(lǐng)域詞匯, 解決圖像檢索中的語(yǔ)義鴻溝問(wèn)題。Zeng Z 等[10] 使用視覺(jué)詞袋方法提取壁畫圖像特征并用支持向量機(jī)進(jìn)行圖像分類, 探討敦煌壁畫的主題分布特點(diǎn)和朝代演變規(guī)律。WangH 等[11] 研究了基于生成對(duì)抗網(wǎng)絡(luò)的敦煌壁畫修復(fù)技術(shù), 通過(guò)學(xué)習(xí)退化和恢復(fù)的壁畫紋理之間的關(guān)聯(lián), 實(shí)現(xiàn)壁畫的自動(dòng)修復(fù)。李清泉等[12] 提出了基于線描圖稀疏編碼的壁畫修復(fù)算法。陳永等[13] 改進(jìn)曲率擴(kuò)散算法, 結(jié)合自適應(yīng)策略研究壁畫的修復(fù)方法。Fu X 等[14] 設(shè)計(jì)了基于虛擬現(xiàn)實(shí)的RestoreVR系統(tǒng), 讓用戶在洞窟的數(shù)字游覽中體驗(yàn)敦煌壁畫復(fù)原?!皵?shù)字敦煌” 項(xiàng)目利用科學(xué)技術(shù)完成對(duì)敦煌文化遺產(chǎn)的數(shù)字化采集、處理和保存[15],通過(guò)構(gòu)建多模態(tài)互聯(lián)的敦煌數(shù)字化資源庫(kù)在世界范圍共享[16] 。但是, 如何高效、便捷搜索敦煌壁畫提高文化遺產(chǎn)資源利用率的研究還不夠充分。
1.2移動(dòng)視覺(jué)搜索
移動(dòng)視覺(jué)搜索由David M C 等[17] 于2009年首次提出, 關(guān)鍵技術(shù)涉及關(guān)鍵點(diǎn)檢測(cè)、特征提取、特征表示、特征索引等[18] ; 被廣泛應(yīng)用于植物、雜志、購(gòu)物、旅游、地標(biāo)、博物館、圖書(shū)館等多個(gè)領(lǐng)域[19] 。圖博檔中存儲(chǔ)的大量非結(jié)構(gòu)化數(shù)據(jù)資源于數(shù)字人文研究而言具有極高價(jià)值[20] 。然而資源利用效率低下是當(dāng)今圖博檔建設(shè)面臨的主要問(wèn)題之一, 研究移動(dòng)視覺(jué)搜索在該領(lǐng)域的應(yīng)用, 優(yōu)化資源獲取服務(wù)是解決此問(wèn)題的有效途徑[21] 。
在數(shù)字人文領(lǐng)域視覺(jué)資源組織中, 移動(dòng)視覺(jué)搜索作為核心技術(shù), 提高了圖書(shū)館資源組織效率和知識(shí)服務(wù)水平[22] 。在體系結(jié)構(gòu)與服務(wù)模式研究方面,張玥等[23] 提出了圖書(shū)館文旅融合發(fā)展的MVS 解決方案。韓璽等[24] 融合用戶、資源、服務(wù)、時(shí)空、技術(shù)、線索要素, 設(shè)計(jì)了基于情景感知的MVS 服務(wù)。李晨暉等[25] 以文化遺產(chǎn)數(shù)字化為基礎(chǔ), 對(duì)數(shù)字圖書(shū)館MVS 機(jī)制建設(shè)提出了新的見(jiàn)解。曾子明等[26] 構(gòu)建模型為讀者提供情景化服務(wù), 提升了文化遺產(chǎn)領(lǐng)域知識(shí)服務(wù)的智慧化水平; 在模型中引入用戶畫像概念, 解決用戶搜索過(guò)程中的個(gè)性化需求滿足問(wèn)題[27] 。李默[28] 討論了將深度學(xué)習(xí)應(yīng)用到智慧圖書(shū)館MVS 的可行性, 提出了基于深度學(xué)習(xí)的服務(wù)模式。董晶等[29] 基于該技術(shù)構(gòu)建了智慧公共文化服務(wù)模型。在技術(shù)研究方面, 秦思琪等[30] 從提取圖像語(yǔ)義特征和提高搜索速度出發(fā), 將哈希編碼嵌入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端的圖像特征提取和壓縮, 實(shí)現(xiàn)了數(shù)字人文領(lǐng)域資源的圖像檢索, 但該方法缺乏資源針對(duì)性且搜索性能有待提升。曾子明等[31] 搭建了基于視覺(jué)詞袋(Bag-of-Words, BoW)的MVS 模型, 但該模型使用機(jī)器學(xué)習(xí)方法提取圖像特征, 敦煌壁畫的深層特征和高層語(yǔ)義未被考慮,且搜索性能仍有提升空間。已有研究聚焦在體系結(jié)構(gòu)與服務(wù)模式的探討, 而技術(shù)研究主要圍繞普適性的搜索方法或模型框架展開(kāi), 欠缺對(duì)領(lǐng)域資源特征的考慮, 且搜索性能亟需提升。
1.3DCNN 和哈希方法
隨著計(jì)算能力的提高, 深度學(xué)習(xí)在圖像特征提取上顯示出了優(yōu)越的性能。AlexNet[32] 、VGG16[33] 、VGG19[34] 、ResNet[35] 、DenseNet[36] 、Inception[37] 、InceptionResNet[38] 、Xception[39] 、NasNet[40] 、Effi?cientNet[41] 等多個(gè)DCNN 算法被相繼提出。在應(yīng)用層面, Li W 等[42] 設(shè)計(jì)了基于DCNN 的車位檢測(cè)方法, 對(duì)于從不同角度觀察到的不同形狀的停車位,根據(jù)入口線的類型、位置、長(zhǎng)度和方向等特征推斷出完整的停車位。Nandagopal S 等[43] 基于關(guān)鍵點(diǎn)提取和DCNN 設(shè)計(jì)了人體姿勢(shì)估計(jì)模型, 可用于多場(chǎng)景的人體動(dòng)作識(shí)別。Islam M S 等[44] 提出了一種基于DenseNet 的新冠肺炎圖像識(shí)別方法, 從胸部X 光圖像中檢測(cè)新冠肺炎、普通肺炎和正常病例。哈希方法是一種輸出特定長(zhǎng)度二進(jìn)制編碼的加密算法, 現(xiàn)在多被用于區(qū)塊鏈[45] 、云計(jì)算[46] 等場(chǎng)景。除用于加密傳輸外, 也有可直接用于相似圖像計(jì)算的感知哈希、均值哈希和差異哈希, 以及用于相似文本計(jì)算的SimHash[47] 等。
在移動(dòng)視覺(jué)搜索的圖像特征提取過(guò)程中, 部分學(xué)者將深度學(xué)習(xí)和哈希方法結(jié)合, 同時(shí)實(shí)現(xiàn)特征的精確提取和快速計(jì)算。主要有先使用算法完成圖像特征提取再進(jìn)行哈希壓縮[48-49],以及在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中嵌入隱藏層構(gòu)造端到端的圖像特征二進(jìn)制編碼輸出模型[50-51]兩種模式。前者的特征提取和壓縮過(guò)程相對(duì)獨(dú)立, 方便對(duì)各模塊進(jìn)行單獨(dú)優(yōu)化, 在不同數(shù)據(jù)集上尋求更好的效果; 后者將圖像處理過(guò)程封裝, 能充分利用深度學(xué)習(xí)機(jī)制的優(yōu)勢(shì), 但泛化能力相對(duì)較弱。綜上, 本文提出基于深度學(xué)習(xí)和哈希方法的語(yǔ)義融合MVS 模型, 同時(shí)構(gòu)建包含人工語(yǔ)義標(biāo)注的敦煌壁畫圖像數(shù)據(jù)集, 以驗(yàn)證該模型搜索敦煌壁畫的優(yōu)越性。
2基于DCNN 和哈希方法的移動(dòng)視覺(jué)搜索模型構(gòu)建
基于DCNN 和哈希方法, 融合圖像語(yǔ)義特征,構(gòu)建敦煌壁畫移動(dòng)視覺(jué)搜索模型, 如圖1 所示, 實(shí)現(xiàn)敦煌壁畫的高效便捷搜索。本文創(chuàng)新點(diǎn)如下: ①技術(shù)層面??紤]資源特征和用戶需求, 構(gòu)建了全新的移動(dòng)視覺(jué)搜索模型; 結(jié)合深度學(xué)習(xí)和哈希方法,在特征提取準(zhǔn)確性和模型計(jì)算效率上改進(jìn)傳統(tǒng)基于機(jī)器學(xué)習(xí)方法的移動(dòng)視覺(jué)搜索; 此外, 通過(guò)融合語(yǔ)義特征并對(duì)搜索結(jié)果進(jìn)行重排序, 解決圖像搜索的語(yǔ)義鴻溝問(wèn)題, 返回更貼近用戶檢索意圖的可視化結(jié)果; ②應(yīng)用層面。將移動(dòng)視覺(jué)搜索的理念應(yīng)用到敦煌壁畫的資源獲取, 打破傳統(tǒng)信息檢索的時(shí)空限制, 提高敦煌壁畫資源的利用率, 亦可將該模型用于數(shù)字人文領(lǐng)域的其他視覺(jué)資源檢索, 促進(jìn)數(shù)字人文研究與文化交流。
基于標(biāo)準(zhǔn)化架構(gòu)[18] , 模型搭建具體步驟為:①資源庫(kù)構(gòu)建: 向系統(tǒng)上傳敦煌壁畫原始圖像, 根據(jù)壁畫內(nèi)容和主題進(jìn)行人工語(yǔ)義標(biāo)注, 構(gòu)建敦煌壁畫圖像庫(kù)和語(yǔ)義庫(kù); ②圖像特征提?。?用戶于移動(dòng)端上傳待檢索圖像并傳輸至云服務(wù)器, 模型在服務(wù)器端使用DCNN 完成圖像特征提?。?③圖像特征壓縮: 使用哈希算法將特征向量壓縮為哈希編碼,計(jì)算漢明距離與資源庫(kù)中的圖像進(jìn)行相似圖像匹配, 鎖定top-1 相似圖像; ④語(yǔ)義特征融合: 使用SimHash 處理語(yǔ)義標(biāo)簽, 融合圖文特征, 計(jì)算top-1圖文特征與資源庫(kù)中其余圖文特征的漢明距離進(jìn)行二次匹配和重排序, 得到最相似的前16 個(gè)圖文組合, 最后將搜索結(jié)果可視化并返回用戶端。
2.1圖像特征提取
當(dāng)前移動(dòng)視覺(jué)搜索模型普遍采用機(jī)器學(xué)習(xí)方法提取圖像特征, 如SIFT(Scale-Invariant Feature Trans?form)、SURF(Speeded -Up Robust Features)、HSV(Hue, Saturation, Value)、HOG(Histogram of Orien?ted Gradients)等。此類方法提取到的特征維度不高,能較好滿足移動(dòng)視覺(jué)搜索對(duì)設(shè)備性能的要求, 但基于機(jī)器學(xué)習(xí)的圖像特征提取僅能檢測(cè)圖像局部特征點(diǎn)或淺層的全局特征。在計(jì)算機(jī)視覺(jué)領(lǐng)域, 圖像的顏色、紋理、幾何形狀等屬于全局特征, 容易受到拍攝環(huán)境和拍攝角度的影響, 可以通過(guò)HSV、HOG等方法實(shí)現(xiàn)提取, 若僅提取敦煌壁畫的全局特征,用戶實(shí)地參觀時(shí), 通過(guò)拍攝上傳的方式進(jìn)行搜索的效果會(huì)大打折扣; 局部特征是在圖像內(nèi)部選擇能夠代表圖像主要內(nèi)容的特征點(diǎn), 這些特征點(diǎn)可以在方向、大小上進(jìn)行調(diào)整, 提高了特征匹配的靈活性和魯棒性, SIFT、SURF 等是使用較多的局部特征提取方法, 但對(duì)于富含語(yǔ)義內(nèi)容的敦煌壁畫而言, 語(yǔ)義鴻溝問(wèn)題難以解決。
2012年, DCNN 被首次用于ImageNet 的圖像分類, 同時(shí)AlexNet 算法模型被提出[32] 。此后的模型多是基于AlexNet 從增加神經(jīng)網(wǎng)絡(luò)的深度、寬度、優(yōu)化特征傳輸效率等維度去優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu), 實(shí)現(xiàn)模型精度和計(jì)算效率的提高。VGG16[33]和VGG19[34] 主要通過(guò)增加網(wǎng)絡(luò)的深度來(lái)提高模型性能, 將AlexNet 中較大卷積核替換成堆疊的3×3卷積核, 增加網(wǎng)絡(luò)層數(shù)的同時(shí)減少參數(shù)量, VGG19比VGG16 更深, 特征提取效果更好。ResNet 從特征利用角度切入, 首次引入殘差連接來(lái)優(yōu)化全連接導(dǎo)致的信息丟失現(xiàn)象[35] 。DenseNet 延續(xù)了ResNet的思想, 每個(gè)卷積層與其他所有卷積層通過(guò)前饋方式連接, 傳統(tǒng)L 層的卷積網(wǎng)絡(luò)有L 個(gè)連接, 在DenseNet 中有L(L+1) / 2 個(gè)連接, 從而加強(qiáng)特征傳遞并減輕因?yàn)榫W(wǎng)絡(luò)太深帶來(lái)的梯度消失問(wèn)題[36] 。在增加寬度方面, Inception 將不同數(shù)量的卷積和池化組合成一個(gè)更寬的模塊, 整個(gè)網(wǎng)絡(luò)由多個(gè)不同的模塊以稀疏連接的方式堆疊加深[37] 。InceptionRes?net 在Inception 基礎(chǔ)上引入殘差結(jié)構(gòu), ResNet 提供了有效地將上一層的特征匯總到下一層的快捷鏈接, 從而最大限度地利用這些特征并獲得更高的精度[38] 。Xception 將原Inception 的模塊更換成深度可分離卷積, 以此來(lái)減少模型參數(shù), 提升模型計(jì)算效率, 同時(shí)使用殘差連接來(lái)加快模型收斂, 提高準(zhǔn)確率[39] 。NasNet 基本思想與Inception 類似, 但在細(xì)節(jié)結(jié)構(gòu)上更復(fù)雜, 在ImageNet 上圖像分類的準(zhǔn)確率優(yōu)于所有的Inception 模型, 且支持調(diào)整模型大小來(lái)實(shí)現(xiàn)準(zhǔn)確率和計(jì)算量的平衡[40] 。此外, Ef?ficientNet 同時(shí)增加神經(jīng)網(wǎng)絡(luò)的深度、寬度和分辨率, 使用縮放系數(shù)實(shí)現(xiàn)這3 個(gè)維度在不同數(shù)據(jù)集上的平衡以達(dá)到最優(yōu)效果[41] 。
模型在圖像特征提取模塊采用深度卷積神經(jīng)網(wǎng)絡(luò)提取敦煌壁畫更深層和復(fù)雜的圖像特征, 并綜合考慮底層特征和高層語(yǔ)義。由于敦煌壁畫在線條、構(gòu)圖、顏色等繪制元素上呈現(xiàn)出豐富的視覺(jué)特征以及具有價(jià)值極高的抽象語(yǔ)義特征, 實(shí)驗(yàn)部分探索不同優(yōu)化方式的DCNN 在敦煌壁畫圖像上的表現(xiàn)差異, 在更深的網(wǎng)絡(luò)上選擇VGG19, 更寬的網(wǎng)絡(luò)上選擇Inception、InceptionResnet、Xception 和NAS?Net, 在優(yōu)化特征傳遞效率方面選擇具有代表性的DenseNet, 在多維度優(yōu)化上選擇最新的Efficient?Net; 并選出在敦煌壁畫MVS 模型中性能最優(yōu)的算法。如圖2 所示, 使用DCNN 提取敦煌壁畫圖像特征時(shí), 輸入原始圖像后, 首先在壁畫圖像上移動(dòng)卷積核并執(zhí)行計(jì)算, 得到一組平行的特征圖, 即卷積層; 隨后進(jìn)行池化操作, 對(duì)特征圖進(jìn)行降采樣, 保留重要的壁畫特征信息, 減小圖像空間大小, 能減少過(guò)擬合率, 加快計(jì)算速度; 最后在經(jīng)過(guò)多個(gè)卷積層和池化層之后, 通過(guò)全連接層進(jìn)行輸出, 得到敦煌壁畫圖像的特征表示。
2.2圖像特征壓縮
3實(shí)驗(yàn)方法與結(jié)果分析
3.1數(shù)據(jù)收集與處理
1)本文從《中國(guó)敦煌壁畫全集》[54]上收集敦煌壁畫圖像, 為保證樣本平衡性, 從北魏到西夏元10個(gè)時(shí)期中各抽?。保玻?張壁畫, 構(gòu)建總數(shù)為1200張的圖像數(shù)據(jù)集。
2)根據(jù)敦煌壁畫內(nèi)容和主題, 人工添加語(yǔ)義標(biāo)簽構(gòu)建文本數(shù)據(jù)集, 邀請(qǐng)5位熟悉敦煌壁畫的研究人員從壁畫的描述中提取標(biāo)簽進(jìn)行語(yǔ)義標(biāo)注, 其中4位研究人員被分成兩組并行完成圖像初始標(biāo)注, 1位博士負(fù)責(zé)核查兩組標(biāo)注的最終結(jié)果。語(yǔ)義標(biāo)簽主要集中在“菩薩” “飛天” “觀音” “說(shuō)法”“藻井”“文殊”“觀無(wú)量壽經(jīng)變”“彌勒經(jīng)變”“維摩詰經(jīng)變” “天王” “力士” 等。不同朝代的敦煌壁畫圖像前20個(gè)高頻主題的語(yǔ)義標(biāo)簽如表1所示。
3.2實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)設(shè)計(jì)
實(shí)驗(yàn)環(huán)境為Window10, 64 位操作系統(tǒng), 32G 運(yùn)行內(nèi)存, RTX3060-6G 獨(dú)顯, AMD Ryzen 7 5800Hwith Radeon Graphics 3 20 GHz 處理器, Pycharm+Anaconda, Python3 9, 加載Scikit-Learn, OpenCV-3 4 2 16 庫(kù)等。設(shè)計(jì)兩個(gè)實(shí)驗(yàn): 實(shí)驗(yàn)一, 篩選圖像特征提取算法與圖像特征壓縮算法的最優(yōu)組合; 實(shí)驗(yàn)二, 在實(shí)驗(yàn)一的基礎(chǔ)上進(jìn)行模型對(duì)比, 并驗(yàn)證模型搜索效果。選擇平均搜索時(shí)間、特征存儲(chǔ)空間作為無(wú)序搜索結(jié)果評(píng)價(jià)指標(biāo); 選擇P@ k(k = 4、8、16)、R@ k(k= 4、8、16)、mAP 作為有序搜索結(jié)果評(píng)價(jià)指標(biāo)。P@ k 用于衡量前k 個(gè)搜索結(jié)果的準(zhǔn)確率, R@ k 用于衡量前k 個(gè)搜索結(jié)果的召回率,mAP 可綜合反映模型的平均搜索性能[30] 。
3.3基于DCNN 和哈希方法的相似圖像搜索
3.3.1最優(yōu)算法組合選取
實(shí)驗(yàn)一使用DenseNet、EfficientNet、Inception、InceptionResnet、NASNet、VGG19、Xception 提取敦煌壁畫圖像特征; 使用MD5、SHA2 壓縮圖像特征, MD5 將高維圖像特征向量壓縮至128 位的哈希編碼(MD5-128), SHA2 將向量壓縮至216 位(SHA2-256)和512 位(SHA2-512); 并使用Sim?Hash 算法提取語(yǔ)義標(biāo)簽的文本特征進(jìn)行圖文特征融合與重排序。如圖3 所示, MD5 算法與各DCNN算法組合的平均搜索性能顯著優(yōu)于使用SHA2 壓縮圖像特征的各算法組合, 其中MD5 與EfficientNet組合時(shí)模型平均搜索性能最好(mAP =0.6993)。如圖4 所示, 隨著壓縮后圖像特征維度的升高, 模型搜索的準(zhǔn)確率和召回率均有下降, 最終導(dǎo)致模型平均搜索性能的下降。一方面, 特征編碼的維度越高, 稀疏性越強(qiáng); 另一方面, 在壓縮過(guò)程中SHA2比MD5 信息丟失更多, 影響特征區(qū)分和相似度計(jì)算。MD5 具有易計(jì)算、抗修改碰撞等特點(diǎn)[55] , 在敦煌壁畫圖像數(shù)據(jù)集上表現(xiàn)更好。
模型選用EfficientNet 提取敦煌壁畫圖像特征,再用MD5 將圖像特征壓縮為128 位的哈希編碼,此時(shí)模型在存儲(chǔ)空間占用(0.3MB, 如圖4 所示)和平均搜索時(shí)間(0.56s, 如圖5 所示)上均呈現(xiàn)出顯著優(yōu)勢(shì)。EfficientNet在進(jìn)行模型縮放時(shí), 同時(shí)提升了神經(jīng)網(wǎng)絡(luò)的深度、寬度和分辨率, 并通過(guò)平衡這3 種縮放以實(shí)現(xiàn)更好的效果, 使得模型在保證性能的同時(shí)能提取到敦煌壁畫圖像更深層且復(fù)雜的特征, 相比其他DCNN 算法在敦煌壁畫圖像特征提取上具有更高的精度和效率。
3.3.2模型效果驗(yàn)證
實(shí)驗(yàn)二進(jìn)行模型對(duì)比實(shí)驗(yàn): ①與未使用Sim?Hash 提取語(yǔ)義特征的Efficient+MD5模型對(duì)比, 突出語(yǔ)義融合效果; ②與僅使用EfficientNet 提取圖像特征、不進(jìn)行哈希壓縮、未融合語(yǔ)義特征的相似圖像搜索模型對(duì)比, 體現(xiàn)特征壓縮效果; ③與敦煌壁畫移動(dòng)視覺(jué)搜索領(lǐng)域最新的BoW_SIFT(num_word=1000)[31] 模型對(duì)比, 驗(yàn)證模型性能提升。如圖6 所示, 將EfficientNet 用于圖像特征提取后,用MD5算法壓縮圖像特征, 并融合SimHash 提取的語(yǔ)義標(biāo)簽的文本特征時(shí), 模型搜索性能(mAP =0.6993)顯著高于①未使用Simhash 進(jìn)行語(yǔ)義融合的模型(mAP = 0.2813); ②僅使用EfficientNet 提取圖像特征的模型(mAP =0.3576); ③當(dāng)前最新的BoW_SIFT 模型(mAP = 0.2866)。從模型搭建來(lái)看, 使用EfficientNet 深度學(xué)習(xí)方法提取敦煌壁畫圖像特征時(shí), 相比于基于BoW_SIFT 機(jī)器學(xué)習(xí)方法的模型的準(zhǔn)確率和召回率有明顯提升, mAP 值提高0.0710; 但同時(shí)在存儲(chǔ)空間占用和平均搜索時(shí)間上有顯著升高, 該問(wèn)題在引入MD5 算法進(jìn)行特征壓縮后得到解決, 且存儲(chǔ)空間占用遠(yuǎn)低于原BoW_SIFT 模型, 如圖7 所示。融合語(yǔ)義特征后,模型搜索時(shí)間略微增加, 但對(duì)用戶搜索體驗(yàn)影響不大; 而此時(shí)模型搜索性能較其他組合優(yōu)勢(shì)十分顯著, mAP 值比僅考慮圖像特征時(shí)提升0.4180, 說(shuō)明敦煌壁畫圖像搜索的語(yǔ)義鴻溝問(wèn)題得到有效改善。從整體來(lái)看, 該模型mAP 值為0.6993、存儲(chǔ)空間占用0.3MB、平均搜索時(shí)間0.56s, 在搜索性能和空間占用上顯著優(yōu)于BoW_SIFT模型, 本模型在同類模型中的優(yōu)越性得到驗(yàn)證, 能有效實(shí)現(xiàn)敦煌壁畫的移動(dòng)視覺(jué)搜索。
因此, 模型首先使用EfficientNet 提取敦煌壁畫圖像特征, 然后使用MD5將圖像特征壓縮為128維的圖像特征向量; 同時(shí)用SimHash 提取語(yǔ)義標(biāo)簽的文本特征, 表示為128 維的文本特征向量。在輸入圖像進(jìn)行搜索時(shí), 根據(jù)圖像特征的漢明距離進(jìn)行相似圖像匹配, 如圖8(a)所示; 提?。簦铮穑?返回結(jié)果, 拼接圖像和文本特征, 再次計(jì)算漢明距離,返回最相似的前16 項(xiàng)搜索結(jié)果并輸出, 如圖8(b)所示。
在通過(guò)相似圖像匹配得到的搜索結(jié)果中, 僅能精準(zhǔn)匹配最相似圖像, 返回的其余圖像與目標(biāo)圖像關(guān)聯(lián)不大。如圖8(a)所示, 輸入待搜索圖像, 返回一組在圖像底層特征上相似的壁畫圖像, 除了有體現(xiàn)“供養(yǎng)人” 的top-1 相似圖像外, 還有體現(xiàn)“飛天” (result 9)、“菩薩” (result 10)、“藻井”(result 14)等元素的壁畫圖像。在融合語(yǔ)義特征后, 向模型輸入目標(biāo)圖像能同時(shí)返回視覺(jué)特征相似圖像和語(yǔ)義特征相似圖像, 并加以語(yǔ)義標(biāo)簽輔助用戶對(duì)壁畫的理解。如圖8(b)所示, 輸入未知語(yǔ)義的待搜索圖像, 模型返回與目標(biāo)圖像視覺(jué)上最相似的圖像和語(yǔ)義標(biāo)簽“供養(yǎng)人”, 同時(shí)返回資源庫(kù)中表示“供養(yǎng)人” 的其他相似圖像, 這些圖像具有不同的視覺(jué)表現(xiàn)形式, 繪制于不同的朝代, 分布在不同的洞窟。使用該模型進(jìn)行搜索, 用戶不僅能了解到目標(biāo)圖像的相關(guān)知識(shí), 還能獲取具有相似語(yǔ)義的圖像資源, 能輔助有關(guān)敦煌壁畫相同語(yǔ)義本體的朝代演變研究和關(guān)于不同洞窟內(nèi)具有相同語(yǔ)義的敦煌壁畫的差異研究, 對(duì)于加深用戶對(duì)敦煌壁畫的理解以及提高用戶進(jìn)一步探索敦煌壁畫的興趣具有重要價(jià)值。
4結(jié)語(yǔ)
隨著文化遺產(chǎn)數(shù)字化進(jìn)程的加快和數(shù)字人文研究的不斷深入, 圖博檔中存儲(chǔ)的海量文化遺產(chǎn)數(shù)字資源亟需高效便捷的獲取方式。基于此, 本文構(gòu)建基于EfficientNet 圖像特征提取、MD5 圖像特征壓縮和SimHash 語(yǔ)義特征融合的敦煌壁畫移動(dòng)視覺(jué)搜索模型, 提供移動(dòng)泛在的敦煌文化遺產(chǎn)數(shù)字資源智慧搜索服務(wù), 滿足科研人員和普通用戶的資源獲取需求。用戶僅需借助手機(jī)、平板、筆記本等移動(dòng)智能設(shè)備即可實(shí)現(xiàn)搜索: 使用移動(dòng)智能設(shè)備的攝像頭拍攝敦煌壁畫實(shí)景圖片或使用網(wǎng)絡(luò)上獲取的敦煌壁畫圖片, 于5G網(wǎng)絡(luò)環(huán)境下將圖像傳輸至云服務(wù)器, 在后臺(tái)進(jìn)行圖像特征提取和壓縮, 完成特征匹配和相似度計(jì)算, 返回相似圖像和語(yǔ)義描述, 再將搜索結(jié)果傳輸至用戶端, 實(shí)現(xiàn)敦煌壁畫的移動(dòng)視覺(jué)搜索。
后續(xù)研究可以從以下角度進(jìn)行優(yōu)化: ①結(jié)合用戶實(shí)驗(yàn)研究對(duì)本文提出的模型搜索效果進(jìn)行進(jìn)一步檢驗(yàn)和分析, 從用戶角度優(yōu)化該模型; ②研究推薦算法與移動(dòng)視覺(jué)搜索的結(jié)合, 采集用戶歷史行為數(shù)據(jù), 搭建用戶畫像, 感知移動(dòng)環(huán)境情景要素, 為用戶提供個(gè)性化的搜索與推薦一體化服務(wù); ③關(guān)聯(lián)敦煌壁畫圖像與圖博檔中存儲(chǔ)的文獻(xiàn)、古籍、音頻、視頻、3D 模型等多模態(tài)資源, 實(shí)現(xiàn)敦煌文化遺產(chǎn)數(shù)字資源的跨模態(tài)搜索, 為用戶提供豐富多元的信息, 深化用戶對(duì)敦煌文化的感知和理解。