基于無監(jiān)督深度學(xué)習(xí)的跨模態(tài)數(shù)據(jù)目標(biāo)檢索

2021-11-17 03:12:52紀(jì)沖，劉巖

計算機仿真 2021年3期

紀(jì) 沖，劉巖

(內(nèi)蒙古農(nóng)業(yè)大學(xué)計算機與信息工程學(xué)院，內(nèi)蒙古呼和浩特 010018)

1 引言

移動設(shè)備、社交網(wǎng)絡(luò)以及自媒體平臺的蓬勃發(fā)展，圖像、文本、音頻以及視頻等多媒體數(shù)據(jù)出現(xiàn)了指數(shù)級的上漲趨勢，但這些具有差異性的數(shù)據(jù)往往可能是在對同一事件或者主題進(jìn)行描述，所以，用戶迫切希望在海量多媒體數(shù)據(jù)中，通過其中一種模態(tài)檢索到其它相關(guān)聯(lián)的模態(tài)數(shù)據(jù)，此類檢索也叫作跨模態(tài)檢索。當(dāng)前的檢索技術(shù)分為單模態(tài)與多模態(tài)檢索，前者的檢索目標(biāo)必須為相同模態(tài)種類，而后者則通過融合不同模態(tài)，依據(jù)模態(tài)的互補信息，達(dá)成檢索目的，該檢索階段中必須確保查詢集和檢索集兩者之一具有相同模態(tài)，該方法雖然可以處理多種模態(tài)數(shù)據(jù)，但是無法完成不同模態(tài)間的跨模態(tài)檢索。近年來，跨模態(tài)檢索技術(shù)得到了眾多相關(guān)學(xué)者的廣泛關(guān)注，并成為學(xué)術(shù)領(lǐng)域的研究熱點。

文獻(xiàn)[1]提出的異構(gòu)哈希網(wǎng)絡(luò)下跨模態(tài)人臉檢索方法，利用圖像與視頻分支，在一個公共空間中進(jìn)行人臉圖像與人臉視頻映射以及非線性哈希函數(shù)學(xué)習(xí)，應(yīng)用Fisher、softmax以及三元排序等損失函數(shù)對哈希網(wǎng)絡(luò)進(jìn)行訓(xùn)練，通過設(shè)定Fisher為公共空間判別力，softmax指代空間表達(dá)的可分性，將三元排序用于檢索性能提升，完成人臉視頻數(shù)據(jù)集合的跨模態(tài)人臉檢索；文獻(xiàn)[2]為了獲取更加真實精準(zhǔn)的物體材質(zhì)分析結(jié)果，構(gòu)建了一種表面材質(zhì)的跨模態(tài)檢索方法，經(jīng)過梅爾頻率倒譜系數(shù)特征提取，利用卷積神經(jīng)網(wǎng)絡(luò)取得圖像特征，通過典型相關(guān)分析達(dá)成特征與子空間的映射操作后，根據(jù)歐氏距離得到檢索結(jié)果；而文獻(xiàn)[3]則針對跨模態(tài)檢索算法中不同模態(tài)數(shù)據(jù)間的潛在語義關(guān)聯(lián)，設(shè)計出一種融合多層語義的跨模態(tài)檢索模型，基于深度玻爾茲曼機的雙向框架屬性，建立文本模態(tài)各抽象層次與圖像模態(tài)各抽象層次關(guān)系，依據(jù)挖掘到的模態(tài)抽象層內(nèi)在關(guān)聯(lián)，達(dá)成數(shù)據(jù)集檢索。

由于上述方法均沒有將模態(tài)內(nèi)數(shù)據(jù)結(jié)構(gòu)與模態(tài)間結(jié)構(gòu)匹配關(guān)聯(lián)考慮在內(nèi)，為此，提出一種基于無監(jiān)督深度學(xué)習(xí)的跨模態(tài)數(shù)據(jù)目標(biāo)檢索方法。

2 無監(jiān)督深度學(xué)習(xí)網(wǎng)絡(luò)構(gòu)建

無監(jiān)督深度學(xué)習(xí)網(wǎng)絡(luò)主要由棧式自編碼[4]神經(jīng)網(wǎng)絡(luò)與深度信任網(wǎng)絡(luò)兩部分共同架構(gòu)而成，基于自編碼器與受限玻爾茲曼機[5]的基本單元，通過棧式框架完成深層神經(jīng)網(wǎng)絡(luò)的創(chuàng)建。

2.1 棧式自編碼神經(jīng)網(wǎng)絡(luò)模塊

由各層自編碼器組成的棧式自編碼神經(jīng)網(wǎng)絡(luò)中，自編碼器具備稀疏性與降噪性兩種屬性，通過將下一層自編碼器的輸出作為上一層自編碼器的輸入，實現(xiàn)所需層數(shù)的迭代操作。

假設(shè)第k層自編碼器W(1)、W(2)、b(1)以及b(2)的對應(yīng)參數(shù)分別是W(k，1)、W(k，2)、b(k，1)以及b(k，2)，那么，采用下列兩個表達(dá)式，對該層自編碼器的編碼方式進(jìn)行描述

z(l+1)=W(l，1)a(l)+b(l，1)

(1)

a(l+1)=f(z(l+1))

(2)

式中，矢量為a(l)，用于表示第l層神經(jīng)元[6]的激活狀態(tài)。若解決事件類別屬于分類問題，則可以在最頂層設(shè)置一個分類器。

同理，能夠推導(dǎo)出下列兩個表達(dá)式，來表示第k層自編碼器的解碼方式

z(n-l)=W(n-l，2)a(n-l+1)+b(n-l，2)

(3)

a(n-l)=f(z(n-l))

(4)

式中，神經(jīng)網(wǎng)絡(luò)的層級總數(shù)是n。

利用貪婪的逐層初始化策略，對棧式自編碼神經(jīng)網(wǎng)絡(luò)進(jìn)行初始化處理，操作起始點為神經(jīng)網(wǎng)絡(luò)的最底層，隨后根據(jù)所得的初始化參數(shù)W(1，1)、W(1，2)、b(1，1)以及b(1，2)，對首層的隱含層神經(jīng)單元激活狀態(tài)a(1)進(jìn)行求取，因為第二層自編碼器的輸入即為首層的輸出，所以，依據(jù)第二層自編碼器的輸入a(1)，對該層的網(wǎng)絡(luò)參數(shù)W(2，1)、W(2，2)、b(2，1)以及b(2，2)進(jìn)行初始化，從而取得第二層的隱含層神經(jīng)單元激活狀態(tài)a(2)，待到達(dá)所需層數(shù)時，該迭代操作終止。若頂層存在分類器，那么，可將輸入設(shè)定為最頂層的激活狀態(tài)，進(jìn)而實現(xiàn)分類器所需參數(shù)的初始化處理。

2.2 深度信任網(wǎng)絡(luò)模塊

構(gòu)建深度信任網(wǎng)絡(luò)(deep belief network，簡稱DBN)的基本單元為受限玻爾茲曼機，通過逐層初始化與整體反饋策略，不僅使深層網(wǎng)絡(luò)的訓(xùn)練弊端得以有效解決，降低了網(wǎng)絡(luò)訓(xùn)練復(fù)雜度，而且掀起了深度學(xué)習(xí)的探索浪潮，該網(wǎng)絡(luò)既能夠做判別使用，也能夠用于生成操作。

利用無向連接把圖中的h2層與h3層聯(lián)立為聯(lián)合內(nèi)存，而x與h1、h1與h2的層間都為有向連接，其中，認(rèn)知權(quán)值是由底層向上層的權(quán)值，功能是按照從下到上的順序產(chǎn)生認(rèn)知，而生成權(quán)值則是由頂層向下層的權(quán)值，功能是按照從上到下的順序生成數(shù)據(jù)。最底層屬于可見層，決定因素為訓(xùn)練數(shù)據(jù)，且該層級矢量中的每一維均可利用該層的神經(jīng)元表示。深度信任網(wǎng)絡(luò)的預(yù)訓(xùn)練模式為逐層進(jìn)行，在對各層實施訓(xùn)練的過程中，依據(jù)可見層對隱藏層進(jìn)行推斷，隨后再將該隱藏層作為下一層級的可見層。

圖1 深度信任網(wǎng)絡(luò)框圖

深度信任網(wǎng)絡(luò)的訓(xùn)練流程描述如下：

1)把訓(xùn)練數(shù)據(jù)作為輸入項，對受限玻爾茲曼機的底層進(jìn)行訓(xùn)練；

2)根據(jù)上一層級生成的隱藏層狀態(tài)輸入項，完成該層級受限玻爾茲曼機的訓(xùn)練；

3)迭代操作第二步，待生成所需隱藏層數(shù)后結(jié)束；

4)如果頂層的受限玻爾茲曼機訓(xùn)練數(shù)據(jù)存在標(biāo)簽，則需要在訓(xùn)練過程里添加神經(jīng)元作為分類標(biāo)簽，共同完成訓(xùn)練。若頂層受限玻爾茲曼機包含10個神經(jīng)元，并劃分訓(xùn)練數(shù)據(jù)為兩個類別，則頂層受限玻爾茲曼機含有12個神經(jīng)元，當(dāng)各訓(xùn)練數(shù)據(jù)歸屬于對應(yīng)的類別時，該類別的對應(yīng)神經(jīng)元標(biāo)簽標(biāo)記為1，否則，標(biāo)記成0。

深度信任網(wǎng)絡(luò)的調(diào)優(yōu)階段將代價函數(shù)設(shè)定為交叉熵，通過wake流程與sleep流程，使優(yōu)化參數(shù)滿足最小化條件。其中，wake流程即為認(rèn)知階段，根據(jù)外界特征與認(rèn)知權(quán)值，完成各層結(jié)點狀態(tài)的生成，再采用梯度下降法，對各層間的生成權(quán)值進(jìn)行修改；而sleep流程即為生成階段，依據(jù)頂層表示與生成權(quán)值，得到底層狀態(tài)，從而實現(xiàn)認(rèn)知權(quán)值的更改。

3 基于無監(jiān)督深度學(xué)習(xí)的跨模態(tài)數(shù)據(jù)目標(biāo)檢索

基于架構(gòu)的無監(jiān)督深度學(xué)習(xí)網(wǎng)絡(luò)，對跨模態(tài)數(shù)據(jù)目標(biāo)檢索方法進(jìn)行設(shè)計。

3.1 跨模態(tài)對應(yīng)受限玻爾茲曼機搭建

為了實現(xiàn)跨模態(tài)數(shù)據(jù)目標(biāo)檢索，將單模態(tài)受限玻爾茲曼機擴展為跨模態(tài)對應(yīng)受限玻爾茲曼機，其構(gòu)建示意圖如下所示。

圖2 對應(yīng)受限玻爾茲曼機框架圖

從圖2中可以看出，對應(yīng)受限玻爾茲曼機中兩個單模態(tài)受限玻爾茲曼機擁有的神經(jīng)元個數(shù)相同，在表示層進(jìn)行關(guān)聯(lián)的各模態(tài)相似約束用圖中虛線來表示。

假設(shè)跨模態(tài)搜索的數(shù)據(jù)目標(biāo)分別是圖像與文本，則從兩目標(biāo)受限玻爾茲曼機的輸入層到表示層的映射函數(shù)分別用fI(·)與fT(·)表示，包含目標(biāo)受限玻爾茲曼機輸入層與表示層間權(quán)值W、輸入層偏置[7]c以及表示層偏置b等所有指標(biāo)在內(nèi)的參數(shù)均表示為θ，得到θ={WI，cI，bI，WT，cT，bT}，其中，圖像為I，文本為T。

minimizeθLD+αLI+βLT

(5)

式中，α與β不能取值為0，在表示空間內(nèi)數(shù)據(jù)目標(biāo)之間的歐幾里得距離總和為LD，也叫作多模態(tài)關(guān)聯(lián)偏差，數(shù)據(jù)目標(biāo)受限玻爾茲曼機的優(yōu)化目標(biāo)函數(shù)分別是LI與LT，其表達(dá)式分別如下所示

(6)

(7)

(8)

利用一種輪流優(yōu)化方法對目標(biāo)函數(shù)進(jìn)行計算，基于圖像與文本數(shù)據(jù)目標(biāo)的似然，采取對比散度算法實施參數(shù)更新，再根據(jù)關(guān)聯(lián)偏差，利用梯度下降算法更新參數(shù)。該學(xué)習(xí)算法的流程描述如下：

1)采用下列對比散度計算公式，對圖像受限玻爾茲曼機的參數(shù)進(jìn)行更新

θ←θ+ε·α·Δθ

(9)

式中，θ∈(WI，cI，bI)，學(xué)習(xí)速率為ε。

2)文本受限玻爾茲曼機的參數(shù)更新，由下列對比散度計算公式完成。

3)結(jié)合關(guān)聯(lián)誤差，通過下列梯度下降法實現(xiàn)參數(shù)更新

(10)

σI(·)=σ(·)(1-σ(·))

(11)

4)對上述三個階段進(jìn)行迭代操作，直到收斂后結(jié)束。

3.2 跨模態(tài)數(shù)據(jù)目標(biāo)檢索流程

隨著多模態(tài)信息的不斷增加，其數(shù)據(jù)量日益龐大，根據(jù)數(shù)據(jù)目標(biāo)之間存在的關(guān)聯(lián)性進(jìn)行跨模態(tài)檢索，具有一定的實踐意義，其檢索具體流程描述如下：

1)數(shù)據(jù)預(yù)處理：因為各模態(tài)數(shù)據(jù)均為非結(jié)構(gòu)化或半結(jié)構(gòu)化，且其中會產(chǎn)生不相關(guān)的噪聲，因此，為了準(zhǔn)確提取數(shù)據(jù)特征，要對各模態(tài)數(shù)據(jù)實施預(yù)處理。初始所提數(shù)據(jù)通常為所提文檔，無法直接采用無監(jiān)督深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，所以，先利用結(jié)構(gòu)分詞模型執(zhí)行分詞處理，再使用word2vec[9]實施詞向量化，最后，依據(jù)單詞和文本的相關(guān)性，構(gòu)建詞向量矩陣(即文本)；圖像數(shù)據(jù)的尺寸大小不一，應(yīng)用OpenCV統(tǒng)一調(diào)整圖像大小為相同尺寸后完成去噪處理。

2)數(shù)據(jù)特征提?。簣D像經(jīng)過預(yù)處理被轉(zhuǎn)換為用來表示空間的特征向量，統(tǒng)計圖像“詞頻”就是對特征集合“單詞表”中與各特征相對應(yīng)的“單詞”出現(xiàn)次數(shù)進(jìn)行統(tǒng)計，結(jié)合所得詞頻數(shù)據(jù)與全部圖像信息，架構(gòu)圖像特征向量空間；利用LDA模型對預(yù)處理的文本單詞實施建模，隨后依據(jù)單詞的主題分布推導(dǎo)出文本主題分布狀況[10]。

3)跨模態(tài)檢索：根據(jù)無監(jiān)督深度學(xué)習(xí)網(wǎng)絡(luò)創(chuàng)建的對應(yīng)受限玻爾茲曼機模型，得到圖像與文本之間的關(guān)聯(lián)誤差，利用提取的數(shù)據(jù)目標(biāo)特征，完成圖像與文本的跨模態(tài)檢索。

4 仿真研究

4.1 仿真環(huán)境

仿真環(huán)境的硬件配置是：32位Windows7系統(tǒng)，Pentium四核3.2GHz處理器，運行內(nèi)存2GB；軟件配置為MATLAB R2012a版本。

4.2 測試指標(biāo)

檢索性能評估指標(biāo)設(shè)置成平均值平均精度mAP，已知任意查詢點q和該點的前R個查詢結(jié)果，則其平均精度計算公式如下所示

(12)

式中，查詢點q的實際近鄰個數(shù)為L，前r個檢索到的文檔精度為P(r)，指示函數(shù)表示為δ(r)，若指示函數(shù)取值是1，則第r個文檔與檢索到的文檔具有關(guān)聯(lián)性，反之，若取值為0，則不存在相關(guān)性。因此，推導(dǎo)出下列平均值精度表達(dá)式

(13)

其中，查詢點數(shù)量是Q。

4.3 檢索性能評估

為了驗證所提方法的適用性與理想性，分別采用文獻(xiàn)[2]方法、文獻(xiàn)[3]方法與所提方法進(jìn)行仿真，仿真數(shù)據(jù)集合分別是由3000個多媒體文檔構(gòu)成的wiki data集合與由25000個多媒體文檔組成的mirflickr-25K數(shù)據(jù)集合。下圖分別是不同方法檢索數(shù)據(jù)集合的跨模態(tài)檢索精度。

圖5 不同方法檢索示意圖

通過圖中曲線走勢可以看出，檢索較小的wiki數(shù)據(jù)集合時，三種方法均具有良好的檢索精度，雖然評估參數(shù)值相同，但所提方法仍有較為明顯的優(yōu)勢；當(dāng)對數(shù)據(jù)較多的mirflickr-25K集合進(jìn)行檢索時，典型相關(guān)分析策略與自學(xué)習(xí)哈希方法的平均精度參數(shù)并沒有隨著數(shù)據(jù)量的增加而提升檢索性能，反而出現(xiàn)下降情況，而所提方法則呈現(xiàn)出數(shù)據(jù)越多、精度越高的趨勢，具有顯著的優(yōu)越性。

4.4 檢索效率對比

為了驗證所提方法的檢索效率，對比不同方法檢索所用時間，對比結(jié)果如圖6所示。

圖6 不同方法檢索用時對比圖

如圖所示，相比傳統(tǒng)方法，所提方法檢索用時最少，充分證明所提方法檢索效率更高，實際應(yīng)用性較高。

5 結(jié)論

由于當(dāng)前檢索技術(shù)的研究多數(shù)仍集中在本質(zhì)為單模態(tài)檢索的領(lǐng)域中，造成模態(tài)無法被檢索成功，為此，提出一種基于無監(jiān)督深度學(xué)習(xí)的跨模態(tài)數(shù)據(jù)目標(biāo)檢索方法。該方法既推動了相關(guān)機器學(xué)習(xí)理論的應(yīng)用與發(fā)展，也滿足了檢索方式多樣化的需求，具備重要的應(yīng)用價值，為后續(xù)研究奠定了數(shù)據(jù)資源。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡