国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度監(jiān)督的跨模態(tài)圖文檢索方法研究

2021-06-24 03:32徐慧銘
關(guān)鍵詞:圖文檢索模態(tài)

焦 隆, 徐慧銘, 程 海

(黑龍江大學(xué) 電子工程學(xué)院, 哈爾濱 150080)

0 引 言

隨著互聯(lián)網(wǎng)文本、視頻和圖片等不同類型媒體數(shù)據(jù)的快速增長,跨模態(tài)檢索在現(xiàn)實應(yīng)用中變得越來越重要??缒B(tài)檢索旨在實現(xiàn)不同數(shù)據(jù)模式之間的靈活檢索,它將一種類型的數(shù)據(jù)作為查詢,來檢索另一種類型的相關(guān)數(shù)據(jù)[1]??缒B(tài)搜索結(jié)果有助于用戶獲取有關(guān)目標(biāo)事件或主題的全面信息。跨模態(tài)學(xué)習(xí)方法可分為二值表示學(xué)習(xí)和實值表示學(xué)習(xí)兩類[2]。文獻[3]利用二值表示方法提高計算效率,并將異構(gòu)數(shù)據(jù)映射到一個共同的漢明空間中,跨模態(tài)檢索速度更快。由于表示學(xué)習(xí)被編碼為二進制碼,檢索精度通常會因信息丟失而略有下降。實值表示學(xué)習(xí)方法包括無監(jiān)督方法、成對方法和有監(jiān)督方法。文獻[4]使用無監(jiān)督方法,利用多媒體文檔中共存的信息來學(xué)習(xí)不同類型的共同表示。文獻[5]使用成對的方法,利用更多相似的圖像文本對來學(xué)習(xí)公共表示,比較來自不同模態(tài)的樣本。文獻[6]使用有監(jiān)督方法,利用標(biāo)簽信息來區(qū)別不同類別的信息。盡管這些方法已經(jīng)使用了分類信息,但分類信息僅用于學(xué)習(xí)每種模態(tài)中或多模態(tài)之間的區(qū)別特征,并沒有充分利用語義信息。文獻[7]使用典型相關(guān)分析CCA方法,通過最大化兩組異構(gòu)數(shù)據(jù)之間的成對相關(guān)性來學(xué)習(xí)公共空間。然而,多媒體數(shù)據(jù)之間的關(guān)聯(lián)過于復(fù)雜,無法通過應(yīng)用線性投影來完全建模。文獻[8]提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)和神經(jīng)語言模型的多模態(tài)深度神經(jīng)網(wǎng)絡(luò),分別學(xué)習(xí)圖像模態(tài)和文本模態(tài)的映射函數(shù)。利用樣本的標(biāo)簽分類信息來學(xué)習(xí)圖像和文本的模態(tài)內(nèi)語義特征,隨著多媒體數(shù)據(jù)的不斷增長,采用一般深度學(xué)習(xí)的特征表示,由于維數(shù)過大而面臨儲存空間與檢索效率的挑戰(zhàn),導(dǎo)致無法適應(yīng)大規(guī)模多媒體數(shù)據(jù)檢索任務(wù)。

本文提出了基于深度監(jiān)督跨模態(tài)檢索方法,保持不同語義類別樣本之間的區(qū)別,同時消除跨模態(tài)差異。將樣本在標(biāo)簽空間和公共表示空間中的判別損失最小化,以監(jiān)督模型學(xué)習(xí)鑒別特征。此外,最小化了模態(tài)不變性損失,并使用權(quán)重共享策略來學(xué)習(xí)公共表示空間中的模態(tài)變化特征,在這種學(xué)習(xí)策略下,充分利用了分類信息和語義信息。利用新增的數(shù)據(jù)集對改進的模型進行調(diào)參優(yōu)化,提高了圖文檢索的準(zhǔn)確率,實驗證明所改進的算法在平均精度值上優(yōu)于現(xiàn)有圖文檢索算法。

1 圖文檢索數(shù)據(jù)特點

1.1 跨模態(tài)檢索函數(shù)表示

雙模數(shù)據(jù)的跨模態(tài)檢索即圖像和文本的跨模態(tài)檢索。把圖像-文本對的實例集合映射為函數(shù)表達式:

(1)

由于圖像特征向量和文本特征向量通常具有不同的統(tǒng)計特性,并且位于不同的表示空間中,所以它們不能在跨模態(tài)檢索中互相直接比較。利用交叉模態(tài)學(xué)習(xí)可以得到這兩種不同模態(tài)的函數(shù),圖像模態(tài)的函數(shù)表示為:

(2)

文本模態(tài)的函數(shù)表示為:

(3)

式中:d為表示公共空間的維數(shù);γα和γβ為兩個函數(shù)的可訓(xùn)練參數(shù),可以使不同數(shù)據(jù)模態(tài)的樣本直接進行比較。

在公共空間中,同一種類別樣本的相似度大于不同種類別樣本的相似度。因此,可以利用返回數(shù)據(jù)集中不同數(shù)據(jù)類型的相關(guān)樣本來查詢數(shù)據(jù)類型。將ω中實例的圖像、文本和標(biāo)簽用矩陣表示,分別為U=[u1,u2,…,un]、V=[v1,v2,…,vn]和Y=[y1,y2,…,yn]。

1.2 VGGNet和Word2V-ec模型

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)是一種前饋神經(jīng)網(wǎng)絡(luò)[9],本文跨模態(tài)圖文檢索網(wǎng)絡(luò)模型采用經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)VGGNet網(wǎng)絡(luò)結(jié)構(gòu)來提取圖像和文本的特征[10]。小卷積核是VGGNet的重要特點,使用多個較小的卷積核代替一個卷積核較大的卷積層,一方面可以減少參數(shù),另一方面相當(dāng)于進行了更多的非線性映射,可以增加網(wǎng)絡(luò)的擬合能力。在訓(xùn)練高級別的網(wǎng)絡(luò)時,可以先訓(xùn)練低級別的網(wǎng)絡(luò),用前者獲得的權(quán)重初始化高級別的網(wǎng)絡(luò),可以加速網(wǎng)絡(luò)的收斂。

文本模態(tài)的公共表示學(xué)習(xí)采用了Word2V-ec模型,包含Skip-grams(SG)和Continuous bag of words(CBOW)兩種算法。通過訓(xùn)練模型,保留模型中的一部分權(quán)重參數(shù),來獲得詞向量。Skip-gram根據(jù)中心詞預(yù)測周圍的詞,模型如圖1所示。可以看出,SG模型預(yù)測的是p(wt-2|wt),p(wt-1|wt), …,p(wt+2|wt),由于圖中詞wt前后只取了各2個詞,所以窗口的總大小是2。假設(shè)詞ωt前后各取k個詞,即窗口的大小是k,那么SG模型預(yù)測的將是p(wt+p|wt)(-k≤p≤k,k≠0)。

CBOW根據(jù)周圍的詞預(yù)測中心的詞語,模型如圖2所示,CBOW與神經(jīng)網(wǎng)絡(luò)語言模型不同的是去掉了最耗時的非線性隱藏層。模型預(yù)測的是p(wt|wt-2,wt-1,wt+1,wt+2),由于圖中目標(biāo)詞wt前后只取了2個詞,所以窗口的總大小是2。假設(shè)目標(biāo)詞wt前后各取k個詞,即窗口大小是k,那么模型預(yù)測將是p(wt,wt-(k-1),…,wt+1,…,wt+(k-1),wt+k)。

圖1 SG模型

2 設(shè)計與實現(xiàn)

2.1 跨模態(tài)圖文檢索的網(wǎng)絡(luò)結(jié)構(gòu)

跨模態(tài)圖文檢索方法的總體框架如圖3所示,其中包括兩個子網(wǎng)絡(luò):一個子網(wǎng)絡(luò)用于圖像模態(tài),另一個子網(wǎng)絡(luò)用于文本模態(tài),它們都是以端到端的方式進行訓(xùn)練。圖像子網(wǎng)絡(luò)通過深度卷積神經(jīng)網(wǎng)絡(luò)VGGNet生成4 096維特征向量作為圖像的原始高層語義表示,進行公共表示學(xué)習(xí),得到每個圖像的公共表示。采用Word2V-ec模型將文本矩陣輸入到與文本CNN[11]配置相同的卷積層,生成文本的原始高層語義表示,可以進行公共學(xué)習(xí)表示。為了確保這兩個子網(wǎng)絡(luò)學(xué)習(xí)圖像和文本是共同的表示空間,強制兩個子網(wǎng)絡(luò)共享最后一層的權(quán)重。最后,假設(shè)空間中的公共表示是在理想分類的基礎(chǔ)上,將參數(shù)矩陣為p的線性分類器連接到這兩個子網(wǎng)絡(luò)中,利用標(biāo)簽信息學(xué)習(xí)判別特征。因此,可以很好地學(xué)習(xí)交叉模態(tài)相關(guān)信息,提取判別特征。

圖3 方法總體框架

2.2 損失函數(shù)的設(shè)計

基于深度監(jiān)督跨模態(tài)檢索的目標(biāo)是學(xué)習(xí)數(shù)據(jù)的語義結(jié)構(gòu),即學(xué)習(xí)一個公共空間,其中來自同一語義類別的樣本應(yīng)該是相似的,即使這些數(shù)據(jù)可能來自不同的形式。來自不同語義類別的樣本應(yīng)該是不同的,為了了解多媒體數(shù)據(jù)的鑒別特征,提出在標(biāo)簽空間和公共標(biāo)識空間中最小化鑒別損失,通過最小化每一個圖像-文本對表示之間的距離,以減少交叉模式的差異。為了保持特征投影后不同類別樣本的區(qū)分性,假設(shè)公共表示是理想的分類,并使用線性分類器來預(yù)測投影在公共表示空間中的樣本語義標(biāo)簽,在圖像模態(tài)網(wǎng)絡(luò)和文本模態(tài)網(wǎng)絡(luò)的頂部連接線性層。分類器利用訓(xùn)練數(shù)據(jù)在公共空間中表示,為每個樣本生成一個c維向量的預(yù)測標(biāo)簽。引入不同的損失函數(shù)來優(yōu)化模型,標(biāo)簽空間中的判別損失函數(shù)為:

(4)

公共空間中的判別損失函數(shù)為:

(5)

模態(tài)不變性損失函數(shù)為:

(6)

結(jié)合方程得出總損失函數(shù)為:

μ=μ1+Aμ2+Bμ3

(7)

式中:超參數(shù)A和B控制最后兩個分量對模型的影響;n是輸入實例的數(shù)目,函數(shù)采用隨機梯度下降算法進行優(yōu)化[12]。

3 實驗測試與分析

3.1 數(shù)據(jù)集訓(xùn)練

采用交叉模態(tài)數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集,Pascal sentence數(shù)據(jù)集包含1 000幅圖像,共20個圖像類別,每個圖像都對應(yīng)有描述圖像內(nèi)容的英文文本[13],如圖4所示。在此基礎(chǔ)上增加了5個不同類別的數(shù)據(jù)集,每個類別包含50幅圖像和對應(yīng)的英文文本,新增后的數(shù)據(jù)集共有1 250幅圖像,25個圖像類別。將新增后的數(shù)據(jù)集按照4∶ 1的比例將數(shù)據(jù)集分為訓(xùn)練集和測試集,其中1 000幅圖像用于跨模態(tài)圖文檢索網(wǎng)絡(luò)模型的訓(xùn)練學(xué)習(xí),250幅圖像用于測試檢索準(zhǔn)確率試驗。

圖4 Pascal sentence數(shù)據(jù)集示意圖

在訓(xùn)練模型時,用大小不同的隨機數(shù)對網(wǎng)絡(luò)的權(quán)值和閾值進行初始化。選用5種新增的圖文數(shù)據(jù)集進行訓(xùn)練調(diào)參和優(yōu)化模型,訓(xùn)練過程中各參數(shù)的變化對訓(xùn)練準(zhǔn)確率的影響曲線如圖5和圖6所示??梢钥闯鯞atchsize對準(zhǔn)確率的影響,迭代次數(shù)相同、在Batchsize=100時,準(zhǔn)確率達到最大穩(wěn)定值。在調(diào)整學(xué)習(xí)率參數(shù)時,Learning_rate為0.1、0.01和0.00 1時都出現(xiàn)了因?qū)W習(xí)率過大導(dǎo)致無法正常收斂的問題。由圖6可知,在Learning_rate=0.000 1時,準(zhǔn)確率更高,收斂性最好。在參數(shù)選擇時,Batchsize為100,學(xué)習(xí)率為0.000 1時,在訓(xùn)練過程中會達到最優(yōu)權(quán)重。經(jīng)過多次的調(diào)參訓(xùn)練,模型的主要參數(shù)設(shè)置如表1所示,參數(shù)的設(shè)置是由多次訓(xùn)練保存最優(yōu)模型時確定的。

表1 主要參數(shù)設(shè)置

圖5 不同訓(xùn)練批次的訓(xùn)練準(zhǔn)確率

將整個Pascal sentence數(shù)據(jù)集放到模型中訓(xùn)練,自動提取學(xué)習(xí)特征,訓(xùn)練的準(zhǔn)確率如圖7所示,損失率如圖8所示。可以看出,隨著迭代次數(shù)的增加,準(zhǔn)確率增加,最后達到穩(wěn)定狀態(tài)。損失率恰恰相反。隨著訓(xùn)練的次數(shù)不斷增加,準(zhǔn)確率最高為98.2%,實驗證明本文的跨模態(tài)圖文檢索模型檢測效果很好。

圖7 Pascal sentence數(shù)據(jù)集的訓(xùn)練準(zhǔn)確率

3.2 損失函數(shù)實驗

通過實驗測試所研究的損失函數(shù)對算法性能的影響,損失函數(shù)主要由三部分組成,分別是公共空間中的模態(tài)不變性損失μ1、公共空間中的判別損失μ2和最小化標(biāo)簽空間中的判別損失μ3。為了綜合評估本算法相關(guān)的性能,執(zhí)行了兩個模式檢索任務(wù):圖像檢索文本和文本檢索圖像。平均精度值MAP綜合考慮了排序信息和精度,是跨模態(tài)檢索研究中廣泛使用的性能評價標(biāo)準(zhǔn)[14]。本文采用平均精度值MAP作為評價指標(biāo),對所改進的損失函數(shù)進行消融實驗,分別測試了沒有模態(tài)不變性損失函數(shù)μ1的模型1、沒有公共空間中判別損失函數(shù)μ2的模型2和沒有標(biāo)簽空間中判別損失函數(shù)μ3的模型3,并與完整模型在Pascal sentence數(shù)據(jù)集上平均精度值(MAP)對比,最高分?jǐn)?shù)以黑色字體顯示,如表2所示??梢钥闯?,完整的目標(biāo)函數(shù)在數(shù)據(jù)集上表現(xiàn)的最好。通過數(shù)據(jù)分析發(fā)現(xiàn),在目標(biāo)函數(shù)中同時考慮識別損失和模態(tài)不變性損失是一種有價值的多模態(tài)學(xué)習(xí)策略。

表2 不同模型的MAP值

3.3 對比實驗及測試結(jié)果

在新增后的Pascal sentence數(shù)據(jù)集上,使用平均精度值(MAP)對3種現(xiàn)有的圖文檢索算法進行性能評估。本算法與傳統(tǒng)的圖文檢索算法CCA[7]、基于深度學(xué)習(xí)的圖文檢索算法DCCA[15]和ACMR[1]等不同類型的圖文檢索算法進行對比,結(jié)果如表3所示??梢钥闯觯谏疃葘W(xué)習(xí)的DCCA和ACMR算法在數(shù)據(jù)集中測試的平均精度值遠高于傳統(tǒng)算法CCA。實驗表明,改進的算法比DCCA和ACMR的平均精度值分別提升了5.6%和6.2%,改進后算法的性能優(yōu)于傳統(tǒng)算法和現(xiàn)有基于深度學(xué)習(xí)的算法。

表3 不同方法的MAP值

測試方法是在Pascal sentence數(shù)據(jù)集中的測試集上隨機進行的。由圖像檢索文本,檢測結(jié)果是返回與圖像內(nèi)容匹配度最高的3個英文文本,如表4所示。由文本檢索圖像,檢測結(jié)果是返回與文本內(nèi)容匹配度最高的3個圖像,如表5所示。可以看出,本文改進算法的識別分類是有效的,能夠準(zhǔn)確地返回圖文內(nèi)容相互匹配的結(jié)果。

表4 圖像檢索文本結(jié)果

表5 文本檢索圖像結(jié)果

4 結(jié) 論

針對基于深度監(jiān)督的跨模態(tài)檢索網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計與優(yōu)化作了深入研究。對于跨模態(tài)檢索,所學(xué)習(xí)的公共表示既可以是有區(qū)別性的,也可以是模態(tài)不變的。通過在公共表示空間和標(biāo)簽空間最小化判別損失和模態(tài)不變性損失來實現(xiàn)這個目標(biāo)。利用卷積神經(jīng)網(wǎng)絡(luò)對新增的數(shù)據(jù)集進行訓(xùn)練學(xué)習(xí),對算法進行多次調(diào)整參數(shù),得到最優(yōu)網(wǎng)絡(luò)模型。通過數(shù)據(jù)集進行驗證測試,實現(xiàn)了圖文檢索內(nèi)容的相互匹配,對比現(xiàn)有其他圖文檢索的模型,本方法的平均精度值更高,性能更好。所改進的模型不僅可以應(yīng)用于圖像和文本兩種模態(tài)的跨模態(tài)檢索,可以涉及到更多的模態(tài),如音頻和視頻等,也可以應(yīng)用到智慧醫(yī)療和腦科學(xué)等領(lǐng)域。

猜你喜歡
圖文檢索模態(tài)
畫與理
2019年第4-6期便捷檢索目錄
專利檢索中“語義”的表現(xiàn)
國內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
圖文配
圖文配
國際標(biāo)準(zhǔn)檢索
國際標(biāo)準(zhǔn)檢索
岑巩县| 富蕴县| 门源| 乌兰浩特市| 庆云县| 法库县| 固始县| 安龙县| 建昌县| 贵州省| 高清| 宁武县| 丰县| 鹰潭市| 罗甸县| 临洮县| 青海省| 固原市| 循化| 尼勒克县| 长阳| 渝北区| 镇赉县| 商南县| 古丈县| 嘉善县| 东辽县| 弥勒县| 武义县| 大同县| 临桂县| 闻喜县| 阳山县| 扎兰屯市| 上思县| 永川市| 沙雅县| 育儿| 尼勒克县| 灵台县| 台北市|