基于融合門網(wǎng)絡(luò)的圖像理解算法設(shè)計(jì)與應(yīng)用

2021-07-03 07:01:40周自維王朝陽

光學(xué)精密工程 2021年4期

關(guān)鍵詞：網(wǎng)絡(luò)結(jié)構(gòu)注意力神經(jīng)網(wǎng)絡(luò)

周自維，王朝陽，徐亮

（遼寧科技大學(xué) 電子信息工程學(xué)院，遼寧鞍山114000）

1 引言

圖像理解（Image Captioning）問題是計(jì)算機(jī)視覺領(lǐng)域研究中的核心和熱點(diǎn)問題，其目的是通過一幅圖像來生成描述該幅圖像內(nèi)容的一句話，即圖像轉(zhuǎn)換語言的問題。人在看到一幅圖像后，可以很好地用語言描述出該圖像中表達(dá)出的含義，但是讓計(jì)算機(jī)達(dá)到類似的效果卻面臨諸多問題。因?yàn)閳D像理解需要考慮多方面的因素，包括如何利用圖像的特征信息、如何將理解的知識轉(zhuǎn)換成一段文字描述以及如何將這些過程轉(zhuǎn)換成邏輯代碼，對于傳統(tǒng)的計(jì)算機(jī)算法而言，實(shí)現(xiàn)這項(xiàng)工作的難度巨大。

早期的圖像理解方法例如文獻(xiàn)［1］、文獻(xiàn)［2］等是先通過圖像處理和SVM分類結(jié)合的方式提取圖像中存在的目標(biāo)信息，然后再推斷出前一階段提取出的目標(biāo)物信息和屬性，并利用CRF或其他自定義的規(guī)則生成關(guān)于圖像的一段描述。上述方式生成句子描述時過于依賴規(guī)則，因此文獻(xiàn)［3］和文獻(xiàn)［4］提出先用卷積神經(jīng)網(wǎng)絡(luò)作為編碼端提取圖像特征，再用循環(huán)神經(jīng)網(wǎng)絡(luò)作為解碼端，結(jié)合圖像特征生成圖像描述。隨著深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用，該問題的解決效果越來越好，因此目前普遍使用深度神經(jīng)網(wǎng)絡(luò)算法解決該問題。

文獻(xiàn)［3］中采用的算法是典型的編碼器-解碼器［5］結(jié)構(gòu)，該結(jié)構(gòu)首先使用性能良好的CNN作為編碼器獲取圖像的特征信息，然后使用循環(huán)神經(jīng)網(wǎng)絡(luò)作為解碼器最終生成該圖像的一段描述。但是在該論文的網(wǎng)絡(luò)結(jié)構(gòu)中，圖像信息的利用不夠充分，因?yàn)樗皇窃诮獯a階段的最初始時刻傳遞了圖像的特征，隨著解碼步驟時間序列的不斷增長，圖像特征會逐漸丟失，最終導(dǎo)致生成的圖像描述語句不夠準(zhǔn)確。受文獻(xiàn)［6］中提及的注意力機(jī)制的啟發(fā)，國內(nèi)外學(xué)者提出了各種包含注意力機(jī)制的圖像理解算法，其中包括軟/硬注意力機(jī)制結(jié)合的圖像理解方法、自適應(yīng)注意力機(jī)制方法［7］等，雖然這些方法使圖像描述的質(zhì)量有了一定程度的提高，但是神經(jīng)網(wǎng)絡(luò)的方法也存在網(wǎng)絡(luò)參數(shù)過多，算法過于復(fù)雜以及運(yùn)行算法所需要的算力消耗過大等問題，這給研究成果的實(shí)際應(yīng)用和推廣帶來了一定的經(jīng)濟(jì)困難。

基于上述問題，本文重新設(shè)計(jì)出一種新的網(wǎng)絡(luò)模型，即“融合門”網(wǎng)絡(luò)結(jié)構(gòu)模型，該網(wǎng)絡(luò)模型以編碼器-解碼器作為整體結(jié)構(gòu)框架，并將注意力機(jī)制嵌入到模型之中。與以往注意力機(jī)制不同的是，該模型將注意力機(jī)制從區(qū)域圖像特征轉(zhuǎn)移到全局圖像特征上來，實(shí)現(xiàn)花費(fèi)更少算力而達(dá)到更好利用圖像信息的效果。該“融合門”是圖像的空間信息與時間信息的融合，為了使讀者充分理解我們的網(wǎng)絡(luò)結(jié)構(gòu)，我們已經(jīng)將該論文的代碼開源，通過下載對應(yīng)代碼，可以更深入地理解我們的做法和思想，代碼地址為：https：//github.com/xuliang-a/fusion-attention.git

2 圖像理解的相關(guān)研究

圖像理解與圖像的語義分析、圖像標(biāo)注［8-10，18］技術(shù)緊密相關(guān)，研究成果對于圖像搜索［19-20］、信息降維［21］以及人機(jī)交互領(lǐng)域的應(yīng)用起到根本性的支持作用。

目前解決圖像理解問題普遍采用的算法是編碼器-解碼器結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)算法。其中編碼器結(jié)構(gòu)以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)，而解碼器結(jié)構(gòu)以長短時記憶網(wǎng)絡(luò)（Long Short Term Memory，LSTM）為基礎(chǔ)，而注意力機(jī)制可以充分利用圖像的特征，該模型更加符合人的思維習(xí)慣，因此注意力機(jī)制越來越受到研究人員的重視。

文獻(xiàn)［6］最早提出注意力機(jī)制并將其應(yīng)用到圖像分類之中。由于傳統(tǒng)的機(jī)器翻譯每次按照同樣的比例提取源語言的特征信息，未能做到具體情況具體分析，文獻(xiàn)［11］利用注意力機(jī)制的原理，將其引入到機(jī)器翻譯之中，使翻譯模型在對給定的一段序列進(jìn)行翻譯時，做到對不同詞給予不同的關(guān)注，由此得到的目標(biāo)語言也更加合理。文獻(xiàn)［12］將注意力機(jī)制與LSTM相結(jié)合，將其應(yīng)用到機(jī)器閱讀中；文獻(xiàn)［13］將注意力機(jī)制應(yīng)用到圖像的特征提取和語句的情感分析中；文獻(xiàn)［14］將注意力機(jī)制應(yīng)用到語言的理解中。隨著對注意力機(jī)制的深入研究，研究人員也將注意力機(jī)制應(yīng)用到圖像理解中。文獻(xiàn)［15］提出軟注意力機(jī)制和硬注意力機(jī)制，在不同類型的區(qū)域，使用不同的注意力機(jī)制。文獻(xiàn)［16-17］都提出了基于注意力機(jī)制對圖像進(jìn)行描述的算法，文獻(xiàn)［7］提出自適應(yīng)的注意力機(jī)制算法，該算法根據(jù)當(dāng)前情況自行判斷圖像特征的重要程度，既可以很好地利用圖像信息，又可以做到更好地模擬人的思想來生成圖像的描述。隨著研究的深入，文獻(xiàn)［22-23］提出了新型循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，這種新的網(wǎng)絡(luò)結(jié)構(gòu)全面使用注意力機(jī)制，嘗試取代LSTM網(wǎng)絡(luò)以取得更好的描述效果，但是該網(wǎng)絡(luò)結(jié)構(gòu)在圖像理解中尚未使用。

上述神經(jīng)網(wǎng)絡(luò)模型的演化都在向著一個方向發(fā)展，即網(wǎng)絡(luò)模型設(shè)計(jì)得越來越復(fù)雜，網(wǎng)絡(luò)參數(shù)越來越龐大，這使得運(yùn)行神經(jīng)網(wǎng)絡(luò)所需要的算力（CPU+GPU）大大增加。因算力增加而造成的服務(wù)器和能耗的上升使得算法的部署成本也越來越高。

本文提出了精簡、新穎的“融合門”網(wǎng)絡(luò)結(jié)構(gòu)，該結(jié)構(gòu)是對圖像空間信息與語句時序信息的融合，以編碼器-解碼器框架結(jié)構(gòu)為基礎(chǔ)，重新設(shè)計(jì)了一個“融合門”機(jī)制。該融合門結(jié)構(gòu)將卷積神經(jīng)網(wǎng)絡(luò)的輸出向量與標(biāo)注語句的向量進(jìn)行結(jié)合，再進(jìn)入改進(jìn)的LSTM網(wǎng)絡(luò)，最后將輸出結(jié)果形成一個統(tǒng)一矩陣，并作為網(wǎng)絡(luò)的隱藏層輸出，因此，該網(wǎng)絡(luò)圖像理解的輸出既兼顧到圖像整體的圖像特征，又受到標(biāo)注語句的影響，其輸出的描述語句準(zhǔn)確率更高。

本設(shè)計(jì)思想的實(shí)現(xiàn)也受到“注意力機(jī)制”［7］的啟發(fā)，但是相比注意力機(jī)制的用法，本文采用的“融合門”網(wǎng)絡(luò)結(jié)構(gòu)更簡單，網(wǎng)絡(luò)參數(shù)更少，描述效果更理想。對實(shí)際的訓(xùn)練和測試結(jié)果進(jìn)行評估，評估結(jié)果表明，在采用同樣的卷積網(wǎng)絡(luò)VGG?Net-16情況下，本文的融合門算法得到的評價指標(biāo)CIDEr值比注意力機(jī)制［7］數(shù)值高出36.91%，通過程序計(jì)算，本文的網(wǎng)絡(luò)參數(shù)個數(shù)為13，747，553，注意力機(jī)制網(wǎng)絡(luò)參數(shù)個數(shù)為17，684，320，網(wǎng)絡(luò)參數(shù)減少21.1%，本文模型的網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)勢非常明顯。

本文設(shè)計(jì)的新的“融合門”循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)不但預(yù)測指標(biāo)高，而且網(wǎng)絡(luò)結(jié)構(gòu)簡單，占用計(jì)算資源少，對圖像理解的推廣起到積極作用。

3 基于融合門結(jié)構(gòu)的圖像理解模型設(shè)計(jì)與實(shí)現(xiàn)

“融合門”網(wǎng)絡(luò)結(jié)構(gòu)是時間信息與空間信息的融合，該網(wǎng)絡(luò)結(jié)構(gòu)基于編碼器-解碼器結(jié)構(gòu)設(shè)計(jì)，在此基礎(chǔ)上進(jìn)行模型和算法的改進(jìn)優(yōu)化。模型的編碼端采用卷積神經(jīng)網(wǎng)絡(luò)VGGNet-16，是為了獲取圖像的全局信息，模型的解碼端采用改進(jìn)LSTM模型，模型的詳細(xì)描述如下所述。

3.1 基于融合門結(jié)構(gòu)的網(wǎng)絡(luò)模型

目前實(shí)現(xiàn)圖像理解的網(wǎng)絡(luò)模型幾乎都使用“編碼器-解碼器”模型，其中最有代表性的是Li Fei-Fei設(shè)計(jì)的Neural Talk模型，如圖1所示，其模型結(jié)構(gòu)實(shí)現(xiàn)簡潔，實(shí)際效果良好。

圖1 Li Fei-Fei采用的網(wǎng)絡(luò)結(jié)構(gòu)［3］Fig.1 Neural Network of Li Fei-Fei［3］

自適應(yīng)注意力機(jī)制模型［7］針對Li Fei-Fei的效果做了較大改進(jìn)。

該網(wǎng)絡(luò)利用卷積神經(jīng)網(wǎng)絡(luò)的中間層對后續(xù)輸入輸出做出調(diào)整，并且調(diào)整方式有較好的自適應(yīng)能力，其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。上述結(jié)構(gòu)的編碼端與解碼端實(shí)現(xiàn)方式如下。

圖2 注意力機(jī)制網(wǎng)絡(luò)模型［7］Fig.2 Network of“Attention model”［7］

3.1.1 編碼端算法

編碼模型采用VGGNet-16對輸入圖像進(jìn)行編碼處理，由于解碼端不需要使用圖像的分類結(jié)果，所以去除掉VGGNet-16的分類層，從而使圖像輸入后獲取到一個4096維的全局特征信息Ib，并利用文獻(xiàn)［3］的方式對全局特征信息進(jìn)行轉(zhuǎn)換：

其中：VGG(Ib)用于將圖像全局特征轉(zhuǎn)換成詞向量維度，若設(shè)定模型中詞向量的維度為L，則W m的維度為4096×L，bg的維度為L，V g是編碼端最終得到的全局圖像輸出向量。

3.1.2 解碼端算法

解碼端采用LSTM網(wǎng)絡(luò)實(shí)現(xiàn)。文獻(xiàn)［24］中的LSTM網(wǎng)絡(luò)模型共有三個門，用于實(shí)現(xiàn)長期的語義信息及短期的語義信息的獲取，使用該模型可以很好地避免梯度衰減或梯度爆炸現(xiàn)象的發(fā)生。

在t時刻下各個門的表達(dá)式如下：

其中：σ代表激活函數(shù)，它是一種S型函數(shù)，閾值為（0，1），使用該函數(shù)更易于反向傳播求導(dǎo)；?代表矩陣相乘；it，f t和ot分別代表輸入門、遺忘門和輸出門；x t代表t時刻輸入詞的詞向量；h t-1代表t-1時刻的獲得的隱藏狀態(tài)；W x和W h均是可學(xué)習(xí)的權(quán)重系數(shù)；其余均為可學(xué)習(xí)的偏置系數(shù)。該模型在t時刻的隱藏狀態(tài)公式如下：

其中：·代表按元素相乘；c?t表示候選的記憶細(xì)胞信息；ct表示記憶細(xì)胞信息；h t代表t時刻的獲得的隱藏狀態(tài)；bc?代表可學(xué)習(xí)的偏置系數(shù)。

上述編碼端和解碼端的算法結(jié)構(gòu)是本文設(shè)計(jì)新網(wǎng)絡(luò)模型的基礎(chǔ)。

3.1.3 “融合門”結(jié)構(gòu)的網(wǎng)絡(luò)模型框架

圖像理解的核心問題是圖像轉(zhuǎn)語言，這種轉(zhuǎn)換既包含了圖像的空間信息，又包含了語言模型的時間信息，因此如果將空間信息與時間信息進(jìn)行有效結(jié)合，圖像理解的效果將得到有效改善，這是我們設(shè)計(jì)該算法的核心出發(fā)點(diǎn)。在實(shí)際的設(shè)計(jì)過程中，使用卷積神經(jīng)網(wǎng)絡(luò)處理空間信息-即圖像信息，使用循環(huán)神經(jīng)網(wǎng)絡(luò)處理時間序列-即標(biāo)定語句信息，進(jìn)而將兩者進(jìn)行有機(jī)結(jié)合，達(dá)到更好的理解效果。

以此為基礎(chǔ)設(shè)計(jì)該融合門網(wǎng)絡(luò)結(jié)構(gòu)，融合門網(wǎng)絡(luò)結(jié)構(gòu)的框架如圖3所示。

圖3 “融合門”網(wǎng)絡(luò)結(jié)構(gòu)框架Fig.3 Architecture of“fusion gate”network

在網(wǎng)絡(luò)結(jié)構(gòu)的實(shí)現(xiàn)過程中，首先將輸入圖像通過VGGNet-16網(wǎng)絡(luò)進(jìn)行卷積，得到對應(yīng)的4096維輸出向量，然后將輸出向量與標(biāo)注語句結(jié)合作為LSTM網(wǎng)絡(luò)的輸入，經(jīng)過LSTM的t0時間步產(chǎn)生隱藏層輸出，將該輸出再與卷積網(wǎng)絡(luò)的全連接層一起，在后續(xù)的時間步重新進(jìn)入LSTM網(wǎng)絡(luò)，并進(jìn)入下一次循環(huán)，即t1時間步，如此循環(huán)直至迭代結(jié)束，上述步驟的描述如圖3所示。

3.2 網(wǎng)絡(luò)結(jié)構(gòu)內(nèi)部設(shè)計(jì)

對于一段真實(shí)的句子，在預(yù)測不同物體的詞語或者動詞時使用圖像信息可以使預(yù)測的結(jié)果更準(zhǔn)確；而在預(yù)測“a”，“of”和“at”等介詞則不需要使用圖像信息，這類詞的預(yù)測只需要利用上文的語義信息即可完成，這樣就需要模型既可以充分利用圖像特征信息，又可以對不同屬性的詞加以區(qū)分。為使模型可以更智能的使用圖像特征信息，參考了文獻(xiàn)［7］的思想，本文重新設(shè)計(jì)的“融合門”網(wǎng)絡(luò)結(jié)構(gòu)內(nèi)部組成如圖4所示。

圖4 “融合門“網(wǎng)絡(luò)內(nèi)部設(shè)計(jì)Fig.4 Internal parameters of“fusion gate”

圖4中，黑方塊表示單個時間步的延遲，利用這種方式得到的自適應(yīng)的上下文向量，能夠更好的組織推導(dǎo)關(guān)系，并且推斷獲取當(dāng)前預(yù)測詞后最需要的信息還有哪些。同時本文的模型僅使用圖像的全局特征信息，這樣可以大大減少網(wǎng)絡(luò)的參數(shù)，使模型的復(fù)雜度降低，減少計(jì)算開銷。

針對圖像理解任務(wù)，該模型增加了用于控制如何使用全局圖像信息的監(jiān)聽門p t。若p t的參數(shù)值為1，則表示需要根據(jù)當(dāng)前的情況自行判斷對圖像全局特征信息的使用比例，p t的表達(dá)式如式（8）所示：

該模型利用文獻(xiàn)［7］中的思想，使用當(dāng)前時刻的隱藏狀態(tài)信息，將其分別與全局的圖像向量和受監(jiān)聽門控制的語義向量進(jìn)行結(jié)合，為得到兩者各自占的比例α?t，使用softmax函數(shù)，將比例限定在［0，1］范圍。α?t的表達(dá)式如下：

該模型在預(yù)測當(dāng)前時刻的詞的概率時最終使用的上下文向量h′t的計(jì)算公式如下：

上述公式作為當(dāng)前時刻t的隱藏層輸出，作為下一時刻的隱藏層輸入，利用上述算法特點(diǎn)，達(dá)到空間圖像信息與句子的時間信息相互結(jié)合的特點(diǎn)，將二者信息融合，因此該結(jié)構(gòu)以“融合門”命名。

4 實(shí)驗(yàn)與結(jié)果

MSCOCO 2014數(shù)據(jù)集［25］是目標(biāo)檢測和圖像理解算法使用的通用數(shù)據(jù)集，該數(shù)據(jù)集包含80000多張訓(xùn)練數(shù)據(jù)集和40000多張驗(yàn)證/測試數(shù)據(jù)集。其中，數(shù)據(jù)集的每一幅圖像大多是尺寸為256×256的彩色圖像，并且每一幅圖像都對應(yīng)5句長短不一的英文圖像描述。在對算法模型效果的驗(yàn)證與評估中，本文主要使用coco-caption代碼［28］計(jì)算5種不同的評價指標(biāo)，他們分別是BLEU 1-4指標(biāo)［29］，ROUGE指標(biāo)［30］，METEOR指標(biāo)［31］，SPICE指標(biāo)［32］和CIDEr評價指標(biāo)［33］。

4.1 樣本數(shù)據(jù)的預(yù)處理

本文算法對輸入的數(shù)據(jù)集有格式上的統(tǒng)一需求，因此在模型訓(xùn)練之前，需要根據(jù)情況對數(shù)據(jù)進(jìn)行預(yù)處理，預(yù)處理主要分為三部分。

第一部分是對數(shù)據(jù)集順序的預(yù)處理。采用隨機(jī)分割的方式，將MSCOCO 2014的訓(xùn)練和驗(yàn)證數(shù)據(jù)集打亂，從中隨機(jī)選取5000張圖像用于驗(yàn)證，5000張圖像用于測試，其余圖像用于訓(xùn)練模型。

第二部分是對輸入圖像尺寸的預(yù)處理。由于選擇了VGGNet-16［26］網(wǎng)絡(luò)作為模型的編碼端，所以需要將輸入的圖像尺寸調(diào)整為VGGNet-16網(wǎng)絡(luò)所規(guī)定輸入的尺寸，即224×224。

第三部分是對圖像理解描述數(shù)據(jù)的預(yù)處理。首先獲取所有圖像理解數(shù)據(jù)中最長序列的長度，然后使用填充符將不足該長度的其余序列填充至最長序列的長度，最后保留在訓(xùn)練集中出現(xiàn)5次及以上的單詞，并將訓(xùn)練集中出現(xiàn)5次以下的單詞統(tǒng)一置為“未知詞”，說明這些詞使用太少，不具有參考價值。

4.2 模型訓(xùn)練與結(jié)果的評估方法

在實(shí)驗(yàn)中，采用了不同配置的服務(wù)器驗(yàn)證不同階段的算法效果。在圖像理解的驗(yàn)證/測試階段，使用配置最低的NVIDIA Quadro P620 GPU服務(wù)器測試不同算法的預(yù)測效果，其目的是確定網(wǎng)絡(luò)實(shí)際運(yùn)行所需的最小計(jì)算機(jī)配置；而在數(shù)據(jù)集的訓(xùn)練和評估階段，使用性能更好的NVIDIA Titan X GPU服務(wù)器。實(shí)驗(yàn)中我們嘗試了多種網(wǎng)絡(luò)的改進(jìn)方法，盡管多數(shù)方案的評估效果不理想，但是在多次嘗試中我們逐漸找到更好的方向，對圖像理解的網(wǎng)絡(luò)結(jié)構(gòu)和算法有了更深入的理解。

網(wǎng)絡(luò)訓(xùn)練中，針對該“融合門”網(wǎng)絡(luò)模型，設(shè)置了10萬次迭代，總訓(xùn)練時間約87個小時。設(shè)置每次迭代讀取圖像的批量大小為64，使用學(xué)習(xí)率為4e-4的Adam［26］優(yōu)化算法來對模型進(jìn)行訓(xùn)練，同時在模型中適當(dāng)?shù)奶砑觼G棄層（Dropout Layer）來避免模型出現(xiàn)過擬合的現(xiàn)象。為避免卷積神經(jīng)網(wǎng)絡(luò)對模型的影響，在所有實(shí)驗(yàn)中未對其網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào)。在模型訓(xùn)練的過程中，每迭代200次時記錄一次訓(xùn)練損失，每迭代10000次時使用3200張驗(yàn)證圖像對模型進(jìn)行一次驗(yàn)證與評估，獲得平均結(jié)果，在迭代10萬次后停止訓(xùn)練該模型，模型訓(xùn)練過程中的損失曲線如圖5所示。

圖5 模型訓(xùn)練損失曲線Fig.5 Loss curve of model training

在各個評估指標(biāo)中，BLEU關(guān)注精確率，它是一種通過對比預(yù)測序列中的n元組在真實(shí)標(biāo)簽中出現(xiàn)的次數(shù)來分析文本相似性的一種評價指標(biāo)；ROUGE關(guān)注召回率，它是一種通過對比真實(shí)標(biāo)簽中的n元組未出現(xiàn)在預(yù)測序列中的次數(shù)來分析文本相似性的一種評價指標(biāo)；METEOR是綜合考慮召回率和精確率的一種評價指標(biāo)；SPICE使用Probabilistic Con?text-Free Grammar（PCFG）將預(yù)測的序列和真實(shí)的標(biāo)簽編碼成一種語義依賴樹，并通過一定的規(guī)則將其進(jìn)行映射，利用這種方式來獲取評價分?jǐn)?shù)。

CIDEr采用TF-IDF和余弦相似度結(jié)合的方式來預(yù)測描述與參考句子的相似性，該指標(biāo)最適宜于評價句子描述的好壞，因此對該指標(biāo)的結(jié)果最關(guān)注。模型訓(xùn)練時各項(xiàng)評價指標(biāo)的變化曲線如圖6～圖7所示。

圖6 融合門網(wǎng)絡(luò)前四項(xiàng)評價指標(biāo)變化曲線Fig.6 Curve of the first 4 indexes of“fusion gate”

圖7 融合門網(wǎng)絡(luò)后四項(xiàng)評價指標(biāo)變化曲線Fig.7 Curve of the last 4 indexes of“fusion gate”

4.3 實(shí)驗(yàn)對比結(jié)果與分析

在網(wǎng)絡(luò)訓(xùn)練過程中，使用了配置為NVIDIA Titan X GPU的服務(wù)器，對設(shè)計(jì)的“融合門”網(wǎng)絡(luò)進(jìn)行訓(xùn)練，訓(xùn)練耗時約87 h，網(wǎng)絡(luò)迭代10萬次。在訓(xùn)練結(jié)束后，通過觀察和比較發(fā)現(xiàn)9萬次迭代時生成的權(quán)重模型相較于10萬次而言更好一些。從參考文獻(xiàn)［3］，［7］提供的程序和我們自己程序的運(yùn)行結(jié)果上看，訓(xùn)練次數(shù)超過10萬次以后，網(wǎng)絡(luò)評價指標(biāo)改善的幅度極其有限，10萬次的訓(xùn)練次數(shù)已經(jīng)足夠體現(xiàn)不同算法的差異水平，因此以10萬次訓(xùn)練作為本次實(shí)驗(yàn)結(jié)束條件。

本文選用的損失函數(shù)為交叉熵?fù)p失函數(shù)，優(yōu)化算法使用的是Adam算法，該算法在圖像理解中廣泛使用［25］，但是該優(yōu)化算法不是全局最優(yōu)算法，該算法經(jīng)過迭代后只會獲取區(qū)間最優(yōu)解，本文采用該算法在10萬次迭代范圍內(nèi)進(jìn)行評估，根據(jù)損失和評價指標(biāo)選出最理想的一組值，該組值在9萬次附近得到，故而選用9萬次迭代生成的權(quán)重來對實(shí)驗(yàn)結(jié)果進(jìn)行評估報告。

在模型結(jié)果的測試和評估中，選擇了目前比較典型的三個網(wǎng)絡(luò)模型進(jìn)行對比，分別是Google NIC網(wǎng)絡(luò)［4］，Neural Talk網(wǎng)絡(luò)［3］，和注意力機(jī) 制模型Attention model［7］，選用上述網(wǎng) 絡(luò) 的原因還因?yàn)樯鲜稣撐亩继峁┝讼鄳?yīng)的運(yùn)行代碼，通過他們自帶的代碼運(yùn)行更能保證評估結(jié)果的真實(shí)性，并且在編碼器端都采用VGGNet-16卷積神經(jīng)網(wǎng)絡(luò)，在此條件下對比解碼部分的效果，評價更加準(zhǔn)確。

測試過程中使用3200張測試集中的圖像作為輸入，并設(shè)置每次迭代讀取一幅圖像，以此獲得的評估結(jié)果，結(jié)果的指標(biāo)如表1和表2所示。

表1 實(shí)驗(yàn)的前四項(xiàng)數(shù)據(jù)Tab.1 The first 4 index results of experiment

表2 實(shí)驗(yàn)的后兩項(xiàng)數(shù)據(jù)Tab.2 The last 2 index results of experiment

從上述結(jié)果中可以看到，設(shè)計(jì)的模型CIDEr值為73.8，Neural Talk［3］的CIDEr值為66.0，提高幅度達(dá)到10.56%，即（73.8-66.0）/73.8×100%=10.56%，而Attention model模型CIDEr值為46.5，指標(biāo)提高幅度為36.91%，即（73.8-46.50）/73.8×100%=36.91%，根據(jù) 上述結(jié) 果可以得出，本文設(shè)計(jì)的模型預(yù)測效果有明顯提高。最后實(shí)驗(yàn)選取了4張COCO數(shù)據(jù)集中的圖像和2張非COCO數(shù)據(jù)集中的圖像進(jìn)行預(yù)測。預(yù)測效果圖分別為圖8～圖13，從獲得的標(biāo)注結(jié)果看，標(biāo)注語句的描述和圖像內(nèi)容契合度較好。

圖8 預(yù)測結(jié)果ⅠFig.8 prediction results I

圖13 預(yù)測結(jié)果ⅥFig.13 prediction resultsⅥ

本文設(shè)計(jì)的網(wǎng)絡(luò)模型，其網(wǎng)絡(luò)參數(shù)個數(shù)為13，747，553，注意力機(jī)制網(wǎng)絡(luò)模型參數(shù)個數(shù)為17，684，320，相對于注意力機(jī)制網(wǎng)絡(luò)，我們的“融合門”網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)數(shù)量減少幅度為21.1%，即（17，684，320-13，747，553）/17，684，320×100%=22.1%。

圖9 預(yù)測結(jié)果ⅡFig.9 prediction results II

圖10 預(yù)測結(jié)果ⅢFig.10 prediction resultsⅢ

圖11 預(yù)測結(jié)果ⅣFig.11 prediction resultsⅣ

圖12 預(yù)測結(jié)果ⅤFig.12 prediction resultsⅤ

上述實(shí)驗(yàn)結(jié)果表明，所設(shè)計(jì)的“融合門”網(wǎng)絡(luò)模型使用更簡單的網(wǎng)絡(luò)結(jié)構(gòu)取得了更好的預(yù)測效果。

5 結(jié)論

為了獲取得更好的圖像理解效果并將圖像理解的研究成果應(yīng)用于實(shí)際需求，設(shè)計(jì)了基于“融合門”結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)算法模型。該模型以編碼器-解碼器結(jié)構(gòu)為框架，編碼部分以VGGNet-16網(wǎng)絡(luò)為基礎(chǔ)進(jìn)行卷積，解碼部分采用重新設(shè)計(jì)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行推導(dǎo)，兩者結(jié)合構(gòu)成“融合門”網(wǎng)絡(luò)結(jié)構(gòu)。該“融合門”是圖像空間信息和語句的時間信息的融合，設(shè)計(jì)思想符合圖像、語言一體化的結(jié)構(gòu)特點(diǎn)。

在配置NVIDIA Titan X GPU的服務(wù)器上，使用MSCOCO 2014數(shù)據(jù)集中的80000多張訓(xùn)練數(shù)據(jù)集和40000多張驗(yàn)證數(shù)據(jù)集上進(jìn)行驗(yàn)證，運(yùn)行約87 h完成10萬次迭代訓(xùn)練，最終獲得實(shí)驗(yàn)結(jié)果。

結(jié)果表明，設(shè)計(jì)的“融合門”網(wǎng)絡(luò)結(jié)構(gòu)不但預(yù)測指標(biāo)高，而且網(wǎng)絡(luò)結(jié)構(gòu)簡單，硬件實(shí)現(xiàn)需求低。在采用同樣的前端卷積網(wǎng)絡(luò)VGGNet-16情況下，網(wǎng)絡(luò)比注意力機(jī)制［7］網(wǎng)絡(luò)的CIDEr評價指標(biāo)數(shù)值高出21.2%，網(wǎng)絡(luò)參數(shù)減少22.1%，所有圖像預(yù)測的推導(dǎo)時間都在0.5 s以內(nèi)，實(shí)時性良好。實(shí)驗(yàn)結(jié)果證明，該模型使圖像理解的預(yù)測質(zhì)量得到了提升，并且有效降低了硬件需求，該結(jié)果對于圖像理解研究成果在邊緣計(jì)算領(lǐng)域應(yīng)用和實(shí)際的推廣起到重要作用。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡