周自維,王朝陽,徐 亮
(遼寧科技大學(xué) 電子信息工程學(xué)院,遼寧 鞍山114000)
圖像理解(Image Captioning)問題是計(jì)算機(jī)視覺領(lǐng)域研究中的核心和熱點(diǎn)問題,其目的是通過一幅圖像來生成描述該幅圖像內(nèi)容的一句話,即圖像轉(zhuǎn)換語言的問題。人在看到一幅圖像后,可以很好地用語言描述出該圖像中表達(dá)出的含義,但是讓計(jì)算機(jī)達(dá)到類似的效果卻面臨諸多問題。因?yàn)閳D像理解需要考慮多方面的因素,包括如何利用圖像的特征信息、如何將理解的知識轉(zhuǎn)換成一段文字描述以及如何將這些過程轉(zhuǎn)換成邏輯代碼,對于傳統(tǒng)的計(jì)算機(jī)算法而言,實(shí)現(xiàn)這項(xiàng)工作的難度巨大。
早期的圖像理解方法例如文獻(xiàn)[1]、文獻(xiàn)[2]等是先通過圖像處理和SVM分類結(jié)合的方式提取圖像中存在的目標(biāo)信息,然后再推斷出前一階段提取出的目標(biāo)物信息和屬性,并利用CRF或其他自定義的規(guī)則生成關(guān)于圖像的一段描述。上述方式生成句子描述時過于依賴規(guī)則,因此文獻(xiàn)[3]和文獻(xiàn)[4]提出先用卷積神經(jīng)網(wǎng)絡(luò)作為編碼端提取圖像特征,再用循環(huán)神經(jīng)網(wǎng)絡(luò)作為解碼端,結(jié)合圖像特征生成圖像描述。隨著深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用,該問題的解決效果越來越好,因此目前普遍使用深度神經(jīng)網(wǎng)絡(luò)算法解決該問題。
文獻(xiàn)[3]中采用的算法是典型的編碼器-解碼器[5]結(jié)構(gòu),該結(jié)構(gòu)首先使用性能良好的CNN作為編碼器獲取圖像的特征信息,然后使用循環(huán)神經(jīng)網(wǎng)絡(luò)作為解碼器最終生成該圖像的一段描述。但是在該論文的網(wǎng)絡(luò)結(jié)構(gòu)中,圖像信息的利用不夠充分,因?yàn)樗皇窃诮獯a階段的最初始時刻傳遞了圖像的特征,隨著解碼步驟時間序列的不斷增長,圖像特征會逐漸丟失,最終導(dǎo)致生成的圖像描述語句不夠準(zhǔn)確。受文獻(xiàn)[6]中提及的注意力機(jī)制的啟發(fā),國內(nèi)外學(xué)者提出了各種包含注意力機(jī)制的圖像理解算法,其中包括軟/硬注意力機(jī)制結(jié)合的圖像理解方法、自適應(yīng)注意力機(jī)制方法[7]等,雖然這些方法使圖像描述的質(zhì)量有了一定程度的提高,但是神經(jīng)網(wǎng)絡(luò)的方法也存在網(wǎng)絡(luò)參數(shù)過多,算法過于復(fù)雜以及運(yùn)行算法所需要的算力消耗過大等問題,這給研究成果的實(shí)際應(yīng)用和推廣帶來了一定的經(jīng)濟(jì)困難。
基于上述問題,本文重新設(shè)計(jì)出一種新的網(wǎng)絡(luò)模型,即“融合門”網(wǎng)絡(luò)結(jié)構(gòu)模型,該網(wǎng)絡(luò)模型以編碼器-解碼器作為整體結(jié)構(gòu)框架,并將注意力機(jī)制嵌入到模型之中。與以往注意力機(jī)制不同的是,該模型將注意力機(jī)制從區(qū)域圖像特征轉(zhuǎn)移到全局圖像特征上來,實(shí)現(xiàn)花費(fèi)更少算力而達(dá)到更好利用圖像信息的效果。該“融合門”是圖像的空間信息與時間信息的融合,為了使讀者充分理解我們的網(wǎng)絡(luò)結(jié)構(gòu),我們已經(jīng)將該論文的代碼開源,通過下載對應(yīng)代碼,可以更深入地理解我們的做法和思想,代碼地址為:https://github.com/xuliang-a/fusion-attention.git
圖像理解與圖像的語義分析、圖像標(biāo)注[8-10,18]技術(shù)緊密相關(guān),研究成果對于圖像搜索[19-20]、信息降維[21]以及人機(jī)交互領(lǐng)域的應(yīng)用起到根本性的支持作用。
目前解決圖像理解問題普遍采用的算法是編碼器-解碼器結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)算法。其中編碼器結(jié)構(gòu)以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),而解碼器結(jié)構(gòu)以長短時記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)為基礎(chǔ),而注意力機(jī)制可以充分利用圖像的特征,該模型更加符合人的思維習(xí)慣,因此注意力機(jī)制越來越受到研究人員的重視。
文獻(xiàn)[6]最早提出注意力機(jī)制并將其應(yīng)用到圖像分類之中。由于傳統(tǒng)的機(jī)器翻譯每次按照同樣的比例提取源語言的特征信息,未能做到具體情況具體分析,文獻(xiàn)[11]利用注意力機(jī)制的原理,將其引入到機(jī)器翻譯之中,使翻譯模型在對給定的一段序列進(jìn)行翻譯時,做到對不同詞給予不同的關(guān)注,由此得到的目標(biāo)語言也更加合理。文獻(xiàn)[12]將注意力機(jī)制與LSTM相結(jié)合,將其應(yīng)用到機(jī)器閱讀中;文獻(xiàn)[13]將注意力機(jī)制應(yīng)用到圖像的特征提取和語句的情感分析中;文獻(xiàn)[14]將注意力機(jī)制應(yīng)用到語言的理解中。隨著對注意力機(jī)制的深入研究,研究人員也將注意力機(jī)制應(yīng)用到圖像理解中。文獻(xiàn)[15]提出軟注意力機(jī)制和硬注意力機(jī)制,在不同類型的區(qū)域,使用不同的注意力機(jī)制。文獻(xiàn)[16-17]都提出了基于注意力機(jī)制對圖像進(jìn)行描述的算法,文獻(xiàn)[7]提出自適應(yīng)的注意力機(jī)制算法,該算法根據(jù)當(dāng)前情況自行判斷圖像特征的重要程度,既可以很好地利用圖像信息,又可以做到更好地模擬人的思想來生成圖像的描述。隨著研究的深入,文獻(xiàn)[22-23]提出了新型循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),這種新的網(wǎng)絡(luò)結(jié)構(gòu)全面使用注意力機(jī)制,嘗試取代LSTM網(wǎng)絡(luò)以取得更好的描述效果,但是該網(wǎng)絡(luò)結(jié)構(gòu)在圖像理解中尚未使用。
上述神經(jīng)網(wǎng)絡(luò)模型的演化都在向著一個方向發(fā)展,即網(wǎng)絡(luò)模型設(shè)計(jì)得越來越復(fù)雜,網(wǎng)絡(luò)參數(shù)越來越龐大,這使得運(yùn)行神經(jīng)網(wǎng)絡(luò)所需要的算力(CPU+GPU)大大增加。因算力增加而造成的服務(wù)器和能耗的上升使得算法的部署成本也越來越高。
本文提出了精簡、新穎的“融合門”網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)是對圖像空間信息與語句時序信息的融合,以編碼器-解碼器框架結(jié)構(gòu)為基礎(chǔ),重新設(shè)計(jì)了一個“融合門”機(jī)制。該融合門結(jié)構(gòu)將卷積神經(jīng)網(wǎng)絡(luò)的輸出向量與標(biāo)注語句的向量進(jìn)行結(jié)合,再進(jìn)入改進(jìn)的LSTM網(wǎng)絡(luò),最后將輸出結(jié)果形成一個統(tǒng)一矩陣,并作為網(wǎng)絡(luò)的隱藏層輸出,因此,該網(wǎng)絡(luò)圖像理解的輸出既兼顧到圖像整體的圖像特征,又受到標(biāo)注語句的影響,其輸出的描述語句準(zhǔn)確率更高。
本設(shè)計(jì)思想的實(shí)現(xiàn)也受到“注意力機(jī)制”[7]的啟發(fā),但是相比注意力機(jī)制的用法,本文采用的“融合門”網(wǎng)絡(luò)結(jié)構(gòu)更簡單,網(wǎng)絡(luò)參數(shù)更少,描述效果更理想。對實(shí)際的訓(xùn)練和測試結(jié)果進(jìn)行評估,評估結(jié)果表明,在采用同樣的卷積網(wǎng)絡(luò)VGG?Net-16情況下,本文的融合門算法得到的評價指標(biāo)CIDEr值比注意力機(jī)制[7]數(shù)值高出36.91%,通過程序計(jì)算,本文的網(wǎng)絡(luò)參數(shù)個數(shù)為13,747,553,注意力機(jī)制網(wǎng)絡(luò)參數(shù)個數(shù)為17,684,320,網(wǎng)絡(luò)參數(shù)減少21.1%,本文模型的網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)勢非常明顯。
本文設(shè)計(jì)的新的“融合門”循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)不但預(yù)測指標(biāo)高,而且網(wǎng)絡(luò)結(jié)構(gòu)簡單,占用計(jì)算資源少,對圖像理解的推廣起到積極作用。
“融合門”網(wǎng)絡(luò)結(jié)構(gòu)是時間信息與空間信息的融合,該網(wǎng)絡(luò)結(jié)構(gòu)基于編碼器-解碼器結(jié)構(gòu)設(shè)計(jì),在此基礎(chǔ)上進(jìn)行模型和算法的改進(jìn)優(yōu)化。模型的編碼端采用卷積神經(jīng)網(wǎng)絡(luò)VGGNet-16,是為了獲取圖像的全局信息,模型的解碼端采用改進(jìn)LSTM模型,模型的詳細(xì)描述如下所述。
目前實(shí)現(xiàn)圖像理解的網(wǎng)絡(luò)模型幾乎都使用“編碼器-解碼器”模型,其中最有代表性的是Li Fei-Fei設(shè)計(jì)的Neural Talk模型,如圖1所示,其模型結(jié)構(gòu)實(shí)現(xiàn)簡潔,實(shí)際效果良好。
圖1 Li Fei-Fei采用的網(wǎng)絡(luò)結(jié)構(gòu)[3]Fig.1 Neural Network of Li Fei-Fei[3]
自適應(yīng)注意力機(jī)制模型[7]針對Li Fei-Fei的效果做了較大改進(jìn)。
該網(wǎng)絡(luò)利用卷積神經(jīng)網(wǎng)絡(luò)的中間層對后續(xù)輸入輸出做出調(diào)整,并且調(diào)整方式有較好的自適應(yīng)能力,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。上述結(jié)構(gòu)的編碼端與解碼端實(shí)現(xiàn)方式如下。
圖2 注意力機(jī)制網(wǎng)絡(luò)模型[7]Fig.2 Network of“Attention model”[7]
3.1.1 編碼端算法
編碼模型采用VGGNet-16對輸入圖像進(jìn)行編碼處理,由于解碼端不需要使用圖像的分類結(jié)果,所以去除掉VGGNet-16的分類層,從而使圖像輸入后獲取到一個4096維的全局特征信息Ib,并利用文獻(xiàn)[3]的方式對全局特征信息進(jìn)行轉(zhuǎn)換:
其中:VGG(Ib)用于將圖像全局特征轉(zhuǎn)換成詞向量維度,若設(shè)定模型中詞向量的維度為L,則W m的維度為4096×L,bg的維度為L,V g是編碼端最終得到的全局圖像輸出向量。
3.1.2 解碼端算法
解碼端采用LSTM網(wǎng)絡(luò)實(shí)現(xiàn)。文獻(xiàn)[24]中的LSTM網(wǎng)絡(luò)模型共有三個門,用于實(shí)現(xiàn)長期的語義信息及短期的語義信息的獲取,使用該模型可以很好地避免梯度衰減或梯度爆炸現(xiàn)象的發(fā)生。
在t時刻下各個門的表達(dá)式如下:
其中:σ代表激活函數(shù),它是一種S型函數(shù),閾值為(0,1),使用該函數(shù)更易于反向傳播求導(dǎo);?代表矩陣相乘;it,f t和ot分別代表輸入門、遺忘門和輸出門;x t代表t時刻輸入詞的詞向量;h t-1代表t-1時刻的獲得的隱藏狀態(tài);W x和W h均是可學(xué)習(xí)的權(quán)重系數(shù);其余均為可學(xué)習(xí)的偏置系數(shù)。該模型在t時刻的隱藏狀態(tài)公式如下:
其中:·代表按元素相乘;c?t表示候選的記憶細(xì)胞信息;ct表示記憶細(xì)胞信息;h t代表t時刻的獲得的隱藏狀態(tài);bc?代表可學(xué)習(xí)的偏置系數(shù)。
上述編碼端和解碼端的算法結(jié)構(gòu)是本文設(shè)計(jì)新網(wǎng)絡(luò)模型的基礎(chǔ)。
3.1.3 “融合門”結(jié)構(gòu)的網(wǎng)絡(luò)模型框架
圖像理解的核心問題是圖像轉(zhuǎn)語言,這種轉(zhuǎn)換既包含了圖像的空間信息,又包含了語言模型的時間信息,因此如果將空間信息與時間信息進(jìn)行有效結(jié)合,圖像理解的效果將得到有效改善,這是我們設(shè)計(jì)該算法的核心出發(fā)點(diǎn)。在實(shí)際的設(shè)計(jì)過程中,使用卷積神經(jīng)網(wǎng)絡(luò)處理空間信息-即圖像信息,使用循環(huán)神經(jīng)網(wǎng)絡(luò)處理時間序列-即標(biāo)定語句信息,進(jìn)而將兩者進(jìn)行有機(jī)結(jié)合,達(dá)到更好的理解效果。
以此為基礎(chǔ)設(shè)計(jì)該融合門網(wǎng)絡(luò)結(jié)構(gòu),融合門網(wǎng)絡(luò)結(jié)構(gòu)的框架如圖3所示。
圖3 “融合門”網(wǎng)絡(luò)結(jié)構(gòu)框架Fig.3 Architecture of“fusion gate”network
在網(wǎng)絡(luò)結(jié)構(gòu)的實(shí)現(xiàn)過程中,首先將輸入圖像通過VGGNet-16網(wǎng)絡(luò)進(jìn)行卷積,得到對應(yīng)的4096維輸出向量,然后將輸出向量與標(biāo)注語句結(jié)合作為LSTM網(wǎng)絡(luò)的輸入,經(jīng)過LSTM的t0時間步產(chǎn)生隱藏層輸出,將該輸出再與卷積網(wǎng)絡(luò)的全連接層一起,在后續(xù)的時間步重新進(jìn)入LSTM網(wǎng)絡(luò),并進(jìn)入下一次循環(huán),即t1時間步,如此循環(huán)直至迭代結(jié)束,上述步驟的描述如圖3所示。
對于一段真實(shí)的句子,在預(yù)測不同物體的詞語或者動詞時使用圖像信息可以使預(yù)測的結(jié)果更準(zhǔn)確;而在預(yù)測“a”,“of”和“at”等介詞則不需要使用圖像信息,這類詞的預(yù)測只需要利用上文的語義信息即可完成,這樣就需要模型既可以充分利用圖像特征信息,又可以對不同屬性的詞加以區(qū)分。為使模型可以更智能的使用圖像特征信息,參考了文獻(xiàn)[7]的思想,本文重新設(shè)計(jì)的“融合門”網(wǎng)絡(luò)結(jié)構(gòu)內(nèi)部組成如圖4所示。
圖4 “融合門“網(wǎng)絡(luò)內(nèi)部設(shè)計(jì)Fig.4 Internal parameters of“fusion gate”
圖4中,黑方塊表示單個時間步的延遲,利用這種方式得到的自適應(yīng)的上下文向量,能夠更好的組織推導(dǎo)關(guān)系,并且推斷獲取當(dāng)前預(yù)測詞后最需要的信息還有哪些。同時本文的模型僅使用圖像的全局特征信息,這樣可以大大減少網(wǎng)絡(luò)的參數(shù),使模型的復(fù)雜度降低,減少計(jì)算開銷。
針對圖像理解任務(wù),該模型增加了用于控制如何使用全局圖像信息的監(jiān)聽門p t。若p t的參數(shù)值為1,則表示需要根據(jù)當(dāng)前的情況自行判斷對圖像全局特征信息的使用比例,p t的表達(dá)式如式(8)所示:
該模型利用文獻(xiàn)[7]中的思想,使用當(dāng)前時刻的隱藏狀態(tài)信息,將其分別與全局的圖像向量和受監(jiān)聽門控制的語義向量進(jìn)行結(jié)合,為得到兩者各自占的比例α?t,使用softmax函數(shù),將比例限定在[0,1]范圍。α?t的表達(dá)式如下:
該模型在預(yù)測當(dāng)前時刻的詞的概率時最終使用的上下文向量h′t的計(jì)算公式如下:
上述公式作為當(dāng)前時刻t的隱藏層輸出,作為下一時刻的隱藏層輸入,利用上述算法特點(diǎn),達(dá)到空間圖像信息與句子的時間信息相互結(jié)合的特點(diǎn),將二者信息融合,因此該結(jié)構(gòu)以“融合門”命名。
MSCOCO 2014數(shù)據(jù)集[25]是目標(biāo)檢測和圖像理解算法使用的通用數(shù)據(jù)集,該數(shù)據(jù)集包含80000多張訓(xùn)練數(shù)據(jù)集和40000多張驗(yàn)證/測試數(shù)據(jù)集。其中,數(shù)據(jù)集的每一幅圖像大多是尺寸為256×256的彩色圖像,并且每一幅圖像都對應(yīng)5句長短不一的英文圖像描述。在對算法模型效果的驗(yàn)證與評估中,本文主要使用coco-caption代碼[28]計(jì)算5種不同的評價指標(biāo),他們分別是BLEU 1-4指標(biāo)[29],ROUGE指標(biāo)[30],METEOR指標(biāo)[31],SPICE指標(biāo)[32]和CIDEr評價指標(biāo)[33]。
本文算法對輸入的數(shù)據(jù)集有格式上的統(tǒng)一需求,因此在模型訓(xùn)練之前,需要根據(jù)情況對數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)處理主要分為三部分。
第一部分是對數(shù)據(jù)集順序的預(yù)處理。采用隨機(jī)分割的方式,將MSCOCO 2014的訓(xùn)練和驗(yàn)證數(shù)據(jù)集打亂,從中隨機(jī)選取5000張圖像用于驗(yàn)證,5000張圖像用于測試,其余圖像用于訓(xùn)練模型。
第二部分是對輸入圖像尺寸的預(yù)處理。由于選擇了VGGNet-16[26]網(wǎng)絡(luò)作為模型的編碼端,所以需要將輸入的圖像尺寸調(diào)整為VGGNet-16網(wǎng)絡(luò)所規(guī)定輸入的尺寸,即224×224。
第三部分是對圖像理解描述數(shù)據(jù)的預(yù)處理。首先獲取所有圖像理解數(shù)據(jù)中最長序列的長度,然后使用填充符將不足該長度的其余序列填充至最長序列的長度,最后保留在訓(xùn)練集中出現(xiàn)5次及以上的單詞,并將訓(xùn)練集中出現(xiàn)5次以下的單詞統(tǒng)一置為“未知詞”,說明這些詞使用太少,不具有參考價值。
在實(shí)驗(yàn)中,采用了不同配置的服務(wù)器驗(yàn)證不同階段的算法效果。在圖像理解的驗(yàn)證/測試階段,使用配置最低的NVIDIA Quadro P620 GPU服務(wù)器測試不同算法的預(yù)測效果,其目的是確定網(wǎng)絡(luò)實(shí)際運(yùn)行所需的最小計(jì)算機(jī)配置;而在數(shù)據(jù)集的訓(xùn)練和評估階段,使用性能更好的NVIDIA Titan X GPU服務(wù)器。實(shí)驗(yàn)中我們嘗試了多種網(wǎng)絡(luò)的改進(jìn)方法,盡管多數(shù)方案的評估效果不理想,但是在多次嘗試中我們逐漸找到更好的方向,對圖像理解的網(wǎng)絡(luò)結(jié)構(gòu)和算法有了更深入的理解。
網(wǎng)絡(luò)訓(xùn)練中,針對該“融合門”網(wǎng)絡(luò)模型,設(shè)置了10萬次迭代,總訓(xùn)練時間約87個小時。設(shè)置每次迭代讀取圖像的批量大小為64,使用學(xué)習(xí)率為4e-4的Adam[26]優(yōu)化算法來對模型進(jìn)行訓(xùn)練,同時在模型中適當(dāng)?shù)奶砑觼G棄層(Dropout Layer)來避免模型出現(xiàn)過擬合的現(xiàn)象。為避免卷積神經(jīng)網(wǎng)絡(luò)對模型的影響,在所有實(shí)驗(yàn)中未對其網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào)。在模型訓(xùn)練的過程中,每迭代200次時記錄一次訓(xùn)練損失,每迭代10000次時使用3200張驗(yàn)證圖像對模型進(jìn)行一次驗(yàn)證與評估,獲得平均結(jié)果,在迭代10萬次后停止訓(xùn)練該模型,模型訓(xùn)練過程中的損失曲線如圖5所示。
圖5 模型訓(xùn)練損失曲線Fig.5 Loss curve of model training
在各個評估指標(biāo)中,BLEU關(guān)注精確率,它是一種通過對比預(yù)測序列中的n元組在真實(shí)標(biāo)簽中出現(xiàn)的次數(shù)來分析文本相似性的一種評價指標(biāo);ROUGE關(guān)注召回率,它是一種通過對比真實(shí)標(biāo)簽中的n元組未出現(xiàn)在預(yù)測序列中的次數(shù)來分析文本相似性的一種評價指標(biāo);METEOR是綜合考慮召回率和精確率的一種評價指標(biāo);SPICE使用Probabilistic Con?text-Free Grammar(PCFG)將預(yù)測的序列和真實(shí)的標(biāo)簽編碼成一種語義依賴樹,并通過一定的規(guī)則將其進(jìn)行映射,利用這種方式來獲取評價分?jǐn)?shù)。
CIDEr采用TF-IDF和余弦相似度結(jié)合的方式來預(yù)測描述與參考句子的相似性,該指標(biāo)最適宜于評價句子描述的好壞,因此對該指標(biāo)的結(jié)果最關(guān)注。模型訓(xùn)練時各項(xiàng)評價指標(biāo)的變化曲線如圖6~圖7所示。
圖6 融合門網(wǎng)絡(luò)前四項(xiàng)評價指標(biāo)變化曲線Fig.6 Curve of the first 4 indexes of“fusion gate”
圖7 融合門網(wǎng)絡(luò)后四項(xiàng)評價指標(biāo)變化曲線Fig.7 Curve of the last 4 indexes of“fusion gate”
在網(wǎng)絡(luò)訓(xùn)練過程中,使用了配置為NVIDIA Titan X GPU的服務(wù)器,對設(shè)計(jì)的“融合門”網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練耗時約87 h,網(wǎng)絡(luò)迭代10萬次。在訓(xùn)練結(jié)束后,通過觀察和比較發(fā)現(xiàn)9萬次迭代時生成的權(quán)重模型相較于10萬次而言更好一些。從參考文獻(xiàn)[3],[7]提供的程序和我們自己程序的運(yùn)行結(jié)果上看,訓(xùn)練次數(shù)超過10萬次以后,網(wǎng)絡(luò)評價指標(biāo)改善的幅度極其有限,10萬次的訓(xùn)練次數(shù)已經(jīng)足夠體現(xiàn)不同算法的差異水平,因此以10萬次訓(xùn)練作為本次實(shí)驗(yàn)結(jié)束條件。
本文選用的損失函數(shù)為交叉熵?fù)p失函數(shù),優(yōu)化算法使用的是Adam算法,該算法在圖像理解中廣泛使用[25],但是該優(yōu)化算法不是全局最優(yōu)算法,該算法經(jīng)過迭代后只會獲取區(qū)間最優(yōu)解,本文采用該算法在10萬次迭代范圍內(nèi)進(jìn)行評估,根據(jù)損失和評價指標(biāo)選出最理想的一組值,該組值在9萬次附近得到,故而選用9萬次迭代生成的權(quán)重來對實(shí)驗(yàn)結(jié)果進(jìn)行評估報告。
在模型結(jié)果的測試和評估中,選擇了目前比較典型的三個網(wǎng)絡(luò)模型進(jìn)行對比,分別是Google NIC網(wǎng)絡(luò)[4],Neural Talk網(wǎng)絡(luò)[3],和注意力機(jī) 制 模 型Attention model[7],選 用 上 述 網(wǎng) 絡(luò) 的 原因還因?yàn)樯鲜稣撐亩继峁┝讼鄳?yīng)的運(yùn)行代碼,通過他們自帶的代碼運(yùn)行更能保證評估結(jié)果的真實(shí)性,并且在編碼器端都采用VGGNet-16卷積神經(jīng)網(wǎng)絡(luò),在此條件下對比解碼部分的效果,評價更加準(zhǔn)確。
測試過程中使用3200張測試集中的圖像作為輸入,并設(shè)置每次迭代讀取一幅圖像,以此獲得的評估結(jié)果,結(jié)果的指標(biāo)如表1和表2所示。
表1 實(shí)驗(yàn)的前四項(xiàng)數(shù)據(jù)Tab.1 The first 4 index results of experiment
表2 實(shí)驗(yàn)的后兩項(xiàng)數(shù)據(jù)Tab.2 The last 2 index results of experiment
從上述結(jié)果中可以看到,設(shè)計(jì)的模型CIDEr值為73.8,Neural Talk[3]的CIDEr值為66.0,提高幅度達(dá)到10.56%,即(73.8-66.0)/73.8×100%=10.56%,而Attention model模型CIDEr值為46.5,指標(biāo)提高幅度為36.91%,即(73.8-46.50)/73.8×100%=36.91%,根 據(jù) 上 述結(jié) 果可以得出,本文設(shè)計(jì)的模型預(yù)測效果有明顯提高。最后實(shí)驗(yàn)選取了4張COCO數(shù)據(jù)集中的圖像和2張非COCO數(shù)據(jù)集中的圖像進(jìn)行預(yù)測。預(yù)測效果圖分別為圖8~圖13,從獲得的標(biāo)注結(jié)果看,標(biāo)注語句的描述和圖像內(nèi)容契合度較好。
圖8 預(yù)測結(jié)果ⅠFig.8 prediction results I
圖13 預(yù)測結(jié)果ⅥFig.13 prediction resultsⅥ
本文設(shè)計(jì)的網(wǎng)絡(luò)模型,其網(wǎng)絡(luò)參數(shù)個數(shù)為13,747,553,注意力機(jī)制網(wǎng)絡(luò)模型參數(shù)個數(shù)為17,684,320,相對于注意力機(jī)制網(wǎng)絡(luò),我們的“融合門”網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)數(shù)量減少幅度為21.1%,即(17,684,320-13,747,553)/17,684,320×100%=22.1%。
圖9 預(yù)測結(jié)果ⅡFig.9 prediction results II
圖10 預(yù)測結(jié)果ⅢFig.10 prediction resultsⅢ
圖11 預(yù)測結(jié)果ⅣFig.11 prediction resultsⅣ
圖12 預(yù)測結(jié)果ⅤFig.12 prediction resultsⅤ
上述實(shí)驗(yàn)結(jié)果表明,所設(shè)計(jì)的“融合門”網(wǎng)絡(luò)模型使用更簡單的網(wǎng)絡(luò)結(jié)構(gòu)取得了更好的預(yù)測效果。
為了獲取得更好的圖像理解效果并將圖像理解的研究成果應(yīng)用于實(shí)際需求,設(shè)計(jì)了基于“融合門”結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)算法模型。該模型以編碼器-解碼器結(jié)構(gòu)為框架,編碼部分以VGGNet-16網(wǎng)絡(luò)為基礎(chǔ)進(jìn)行卷積,解碼部分采用重新設(shè)計(jì)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行推導(dǎo),兩者結(jié)合構(gòu)成“融合門”網(wǎng)絡(luò)結(jié)構(gòu)。該“融合門”是圖像空間信息和語句的時間信息的融合,設(shè)計(jì)思想符合圖像、語言一體化的結(jié)構(gòu)特點(diǎn)。
在配置NVIDIA Titan X GPU的服務(wù)器上,使用MSCOCO 2014數(shù)據(jù)集中的80000多張訓(xùn)練數(shù)據(jù)集和40000多張驗(yàn)證數(shù)據(jù)集上進(jìn)行驗(yàn)證,運(yùn)行約87 h完成10萬次迭代訓(xùn)練,最終獲得實(shí)驗(yàn)結(jié)果。
結(jié)果表明,設(shè)計(jì)的“融合門”網(wǎng)絡(luò)結(jié)構(gòu)不但預(yù)測指標(biāo)高,而且網(wǎng)絡(luò)結(jié)構(gòu)簡單,硬件實(shí)現(xiàn)需求低。在采用同樣的前端卷積網(wǎng)絡(luò)VGGNet-16情況下,網(wǎng)絡(luò)比注意力機(jī)制[7]網(wǎng)絡(luò)的CIDEr評價指標(biāo)數(shù)值高出21.2%,網(wǎng)絡(luò)參數(shù)減少22.1%,所有圖像預(yù)測的推導(dǎo)時間都在0.5 s以內(nèi),實(shí)時性良好。實(shí)驗(yàn)結(jié)果證明,該模型使圖像理解的預(yù)測質(zhì)量得到了提升,并且有效降低了硬件需求,該結(jié)果對于圖像理解研究成果在邊緣計(jì)算領(lǐng)域應(yīng)用和實(shí)際的推廣起到重要作用。