基于文本層級(jí)結(jié)構(gòu)的圖像描述生成算法

2021-08-24 07:57靳華中

湖北工業(yè)大學(xué)學(xué)報(bào) 2021年4期

吳禹，靳華中

(湖北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院，湖北武漢 430068)

圖像描述生成是一個(gè)融合計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和機(jī)器學(xué)習(xí)的綜合問(wèn)題。圖像描述生成方法使用符合人類(lèi)語(yǔ)言習(xí)慣的句子描述圖像。算法模型在檢測(cè)圖像中的目標(biāo)的同時(shí)，還要對(duì)目標(biāo)的視覺(jué)元素，如目標(biāo)的動(dòng)作和屬性有一定的認(rèn)知。在此基礎(chǔ)上，通過(guò)理解目標(biāo)之間的相互關(guān)系，構(gòu)建圖像的場(chǎng)景，目的是生成具有語(yǔ)義關(guān)系的、符合自然語(yǔ)言習(xí)慣的描述句子。

目前圖像描述生成模型普遍采用編碼器-解碼器框架。編碼器利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)從圖像中提取圖像特征[1]，解碼器使用循環(huán)神經(jīng)網(wǎng)絡(luò)作為語(yǔ)言模型來(lái)預(yù)測(cè)文本，引入注意力機(jī)制，有效地選擇視覺(jué)特征向量來(lái)初始化語(yǔ)言模型隱藏狀態(tài)[2]，提高視覺(jué)信息處理效率，在客觀指標(biāo)上展現(xiàn)出明顯優(yōu)勢(shì)。但在語(yǔ)言模型的構(gòu)建上存在不足，使得語(yǔ)義信息不能充分表達(dá)。文獻(xiàn)[3]將圖像特征向量與每個(gè)單詞的嵌入連接起來(lái)，以便為以后生成的單詞保留視覺(jué)信息，但難以解決RNN梯度消散問(wèn)題。文獻(xiàn)[4]提出通過(guò)與自動(dòng)重構(gòu)網(wǎng)絡(luò)(ARnet)耦合來(lái)增加相鄰隱藏狀態(tài)之間的相關(guān)性。并嵌入上一隱藏層狀態(tài)解碼更多語(yǔ)義特征信息，然而使用歐幾里得距離的正則化方法可能會(huì)直接減少每個(gè)隱藏狀態(tài)的L2范數(shù)，使得評(píng)價(jià)指標(biāo)沒(méi)有獲得較大改善。文獻(xiàn)[5]在自下而上和自上而下的組合注意力機(jī)制的基礎(chǔ)上融入圖文匹配模型 (Stacked Cross Attention Network,SCAN)[6]對(duì)注意力機(jī)制的訓(xùn)練過(guò)程進(jìn)行弱監(jiān)督，增強(qiáng)了注意力機(jī)制對(duì)單詞和圖像區(qū)域的對(duì)應(yīng)能力，但難以表征圖像目標(biāo)之間語(yǔ)義關(guān)系。這些方法的語(yǔ)言模型普遍只將當(dāng)前單詞隱藏狀態(tài)作為輸入，并僅針對(duì)一種輸出狀態(tài)計(jì)算結(jié)果，忽略了相鄰單詞之間的文本層級(jí)結(jié)構(gòu)，容易在最終生成的文本中帶來(lái)累積的錯(cuò)誤。

而在自然語(yǔ)言處理領(lǐng)域，已有文獻(xiàn)利用文本層級(jí)結(jié)構(gòu)進(jìn)行語(yǔ)言建模。文獻(xiàn)[7]引入了句法距離這一概念來(lái)引導(dǎo)語(yǔ)言模型完成句法解析任務(wù)，但算法實(shí)現(xiàn)的復(fù)雜度較高，很難在實(shí)際情況中使用。文獻(xiàn)[8]使用具有不同時(shí)間尺度的遞歸模型獲取層次結(jié)構(gòu)，更新RNN的隱藏狀態(tài),但需要施加預(yù)定義的層次結(jié)構(gòu)。受此啟發(fā)，本文在解碼器階段構(gòu)建雙層LSTM網(wǎng)絡(luò)，第一層視覺(jué)選擇LSTM融合注意力機(jī)制，從整體上得到圖像中目標(biāo)之間的語(yǔ)義信息，同時(shí)能夠從細(xì)節(jié)得到圖像特征信息。第二層語(yǔ)言模型LSTM使用有序長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[9]，在訓(xùn)練過(guò)程利用文本層級(jí)結(jié)構(gòu)預(yù)測(cè)描述，增強(qiáng)語(yǔ)言模型表達(dá)能力，從而生成更符合自然語(yǔ)言習(xí)慣的描述。

1 自然語(yǔ)言的文本層級(jí)結(jié)構(gòu)分析

1.1 文本層級(jí)結(jié)構(gòu)

在自然語(yǔ)言處理領(lǐng)域中，語(yǔ)言的表現(xiàn)形式遵循一定的層級(jí)結(jié)構(gòu)[10]，組成語(yǔ)句的各個(gè)單位處于語(yǔ)義層面，構(gòu)成樹(shù)狀的文本層級(jí)結(jié)構(gòu)[11]，即自然語(yǔ)言是由處在不同層級(jí)結(jié)構(gòu)的單位要素組成的層級(jí)裝置。如圖1所示，在英文句子中，單詞可以認(rèn)為是最低層級(jí)的結(jié)構(gòu)，詞組次之。

圖 1 文本層級(jí)結(jié)構(gòu)示例

語(yǔ)言與其他數(shù)據(jù)一個(gè)顯著的區(qū)別就在于其本身?yè)碛幸欢ǖ膶蛹?jí)結(jié)構(gòu)，因?yàn)檎Z(yǔ)言的組成受到語(yǔ)法規(guī)則限制，低層級(jí)的語(yǔ)義單元組成高層級(jí)的語(yǔ)義單元，而最高層級(jí)的語(yǔ)義單元就代表了整個(gè)句子的含義。人們?cè)?jīng)試圖對(duì)語(yǔ)言的這種結(jié)構(gòu)進(jìn)行建模，利用語(yǔ)法規(guī)則進(jìn)行語(yǔ)義解析，建立語(yǔ)義分析樹(shù)，再根據(jù)解析的結(jié)果從下而上遞歸獲得句子的表征。單位結(jié)構(gòu)層級(jí)越高，在句子中的跨度就越大。這意味著編碼時(shí)能區(qū)分高低層級(jí)的信息；其次，高層級(jí)的信息意味著它要在高層級(jí)對(duì)應(yīng)的編碼區(qū)間保留更久，而低層級(jí)的信息則意味著它在對(duì)應(yīng)的區(qū)間更容易被遺忘。

1.2 文本層級(jí)結(jié)構(gòu)的提取

針對(duì)語(yǔ)言的層級(jí)結(jié)構(gòu)，文獻(xiàn)[9]提出了有序長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Ordered Neurons Long Short-Term Memory，ON-LSTM)。傳統(tǒng)LSTM網(wǎng)絡(luò)中，神經(jīng)元通常都是無(wú)序的，運(yùn)算過(guò)程中涉及到的所有向量的位置按照相同方式重新打亂，權(quán)重的順序也將相應(yīng)地打亂，輸出結(jié)果可以只是原來(lái)向量的重新排序，信息量不變。有序長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)則把神經(jīng)元的序信息利用起來(lái)，按排序分區(qū)間更新?tīng)顟B(tài)，使其表示一些特定的結(jié)構(gòu)。用這種結(jié)構(gòu)來(lái)表征文本層級(jí)信息，使ON-LSTM在訓(xùn)練中自然地學(xué)習(xí)到文本的層級(jí)結(jié)構(gòu)，從而增強(qiáng)語(yǔ)言模型表達(dá)能力。算法流程如圖2所示。

圖 2 有序長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)算法流程

具體過(guò)程為:ON-LSTM單元狀態(tài)ct按照向量索引值進(jìn)行排序，語(yǔ)法層次較高的信息儲(chǔ)存在ct上面的維度中，較低的則儲(chǔ)存在下面的維度。定義兩個(gè)one -hot向量代表歷史信息最低層級(jí)lf和當(dāng)前信息最高層級(jí)li，分區(qū)間更新規(guī)則為：1)lf

經(jīng)過(guò)以上規(guī)則分區(qū)間更新ct，文本高層信息更新頻率較低，在模型循環(huán)過(guò)程中能保留較長(zhǎng)距離，文本底層信息在每一個(gè)時(shí)間步內(nèi)都可能更新。從而通過(guò)定序嵌入層級(jí)結(jié)構(gòu)，即按信息跨越幅度分組更新輸入文本序列的層級(jí)結(jié)構(gòu)。如圖3所示，對(duì)于給定語(yǔ)言序列[x1,x2,x3]及其句法樹(shù)，ON-LSTM通過(guò)上述算法流程，動(dòng)態(tài)分配其隱藏狀態(tài)向量的維數(shù)，用以對(duì)應(yīng)表示給定文本[x1,x2,x3]的層級(jí)結(jié)構(gòu)。

圖 3 文本層級(jí)結(jié)構(gòu)表征

2 基于文本層級(jí)結(jié)構(gòu)的圖像描述生成算法

2.1 本文模型框架

本節(jié)提出了基于文本層級(jí)結(jié)構(gòu)的圖像描述生成算法，如圖3所示，模型采用編碼器-解碼器架構(gòu)，編碼器提取圖像特征，解碼器接收特征進(jìn)行解碼，生成圖像的最終描述。在編碼器階段，用CNN對(duì)圖像進(jìn)行特征提取，并根據(jù)神經(jīng)網(wǎng)絡(luò)卷積層特性分別獲取圖像對(duì)應(yīng)的全局特征和局部特征。然后，在第二個(gè)階段使用注意力機(jī)制和雙層有序長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)將初始圖像全局特征和局部特征信息相融合，將融合后的信息特征輸入ON-LSTM進(jìn)行解碼。

圖 4 本文模型框架結(jié)構(gòu)

在編碼器階段應(yīng)用了兩種不同尺度的圖像特征，分別為局部特征和全局特征，全局特征包含圖像目標(biāo)語(yǔ)義關(guān)系，引導(dǎo)第一層視覺(jué)LSTM關(guān)注特定目標(biāo)；局部信息包含目標(biāo)具體特征，引導(dǎo)第二層語(yǔ)言LSTM解碼準(zhǔn)確信息。這兩種不同尺度的圖像特征全部由解碼器經(jīng)過(guò)預(yù)先訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)提取得到。在本文中用f表示局部特征，則有：

f={f1,f2,…,fk},fk∈1*r

其中,{f1,f2,…,fk}表示k個(gè)局部特征，fk∈1*r表示每個(gè)圖像區(qū)域的特征維度為1*r。局部特征通過(guò)全局平均池化得到圖像的全局特征

2.2 融合文本層級(jí)結(jié)構(gòu)的解碼過(guò)程

在attend部分中輸入為所有的圖像特征f={f1,f2,…,fk},fk∈1*r和視覺(jué)選擇 LSTM的輸出具體使用的是兩層全連接層，attend模塊的輸出ct的計(jì)算過(guò)程如下式所示：

(1)

αt=softmax(zt)

(2)

(3)

式(1)中,Wa、Wg分別表示兩個(gè)全連接層的映射矩陣，輸出結(jié)果如經(jīng)過(guò)式(2)一層softmax得到對(duì)某一區(qū)域關(guān)注度αt。在(3)式中，關(guān)注度用α表示，其中t表示生成第t個(gè)單詞，t′表示圖像的第t′個(gè)區(qū)域。

其中cusum為累積函數(shù)，以主動(dòng)分配維度來(lái)存儲(chǔ)長(zhǎng)期或短期信息，避免在高級(jí)維度和低級(jí)維度之間進(jìn)行嚴(yán)格劃分。將單元狀態(tài)的維度動(dòng)態(tài)地重新分配給每個(gè)節(jié)點(diǎn)，迫使神經(jīng)元在不同的時(shí)間尺度上代表信息。給定任意序列[y1,y2,…,yn]，cusum計(jì)算公式如下：

cusum([y1,y2,…,yn])=

[y1,y1+y2,…,y1+y2+…yn]

3 實(shí)驗(yàn)結(jié)果和分析

3.1 數(shù)據(jù)準(zhǔn)備和預(yù)處理

本文采用的數(shù)據(jù)集為微軟COCO2014，包含三部分內(nèi)容，訓(xùn)練集、驗(yàn)證集和測(cè)試集。各部分?jǐn)?shù)據(jù)集由圖像和json文件組成，json文件包含對(duì)每幅圖像的5個(gè)英文描述。數(shù)據(jù)集包含的圖像總共82 783張，對(duì)應(yīng)的英文描述為413 915個(gè)。

描述文本的預(yù)處理階段過(guò)程為：1)圖像描述中的特殊符號(hào)“&”用“and”代替，標(biāo)點(diǎn)符號(hào)用空格代替；2)使用圖像id、圖像文件名和圖像描述建立描述句庫(kù)，通過(guò)檢索圖像信息來(lái)查找圖像描述；3)使用數(shù)據(jù)集描述出現(xiàn)單詞建立詞匯表，詞匯表向量每一維度對(duì)應(yīng)數(shù)據(jù)集中單詞，語(yǔ)言模型通過(guò)檢索詞匯表索引值生成描述單詞。

本文圖像描述生成方法在tensorflow平臺(tái)上建立。采用小批量梯度下降法對(duì)損失函數(shù)進(jìn)行優(yōu)化，提高模型訓(xùn)練的收斂速度。學(xué)習(xí)速率為0.01，迭代次數(shù)為100次，最小批次為128次。

3.2 評(píng)價(jià)指標(biāo)和實(shí)驗(yàn)結(jié)果

目前圖像自動(dòng)標(biāo)注領(lǐng)域常用的評(píng)價(jià)標(biāo)準(zhǔn)主要分為5類(lèi)，分別是BLUE、METEOR、ROUGE、CIDEr和SPICE。這5類(lèi)標(biāo)準(zhǔn)能對(duì)模型生成的圖像描述進(jìn)行量化標(biāo)準(zhǔn)的客觀評(píng)價(jià)。在本文實(shí)驗(yàn)中采用BLUE、METEOR和CIDEr對(duì)生成描述進(jìn)行評(píng)分。

表1 MSCOCO數(shù)據(jù)集實(shí)驗(yàn)對(duì)比

實(shí)驗(yàn)結(jié)果證明，本文模型在BLUE、METEOR和CIDEr評(píng)價(jià)指標(biāo)上要優(yōu)于NIC、mRNN、Log BIliner[12]和Soft-Attend模型。

3.3 實(shí)驗(yàn)結(jié)果分析

在實(shí)驗(yàn)結(jié)果可視化對(duì)比中，圖5中本文模型對(duì)比mRNN模型，mRNN模型生成描述句法樹(shù)高度為6，葉子結(jié)點(diǎn)數(shù)為7，本文模型生成描述句法樹(shù)高度為7，葉子結(jié)點(diǎn)數(shù)為11。生成描述將“field”生成為“hillside”，并生成了“l(fā)ush green”加以修飾，即提取到了更為復(fù)雜的語(yǔ)義特征，使描述更加生動(dòng)。圖5中本文模型對(duì)比soft-attend模型，soft-attend模型生成描述句法樹(shù)高度為5，葉子結(jié)點(diǎn)數(shù)為8，本文模型生成描述句法樹(shù)高度為6，葉子結(jié)點(diǎn)數(shù)為11。預(yù)測(cè)了“in the ocean”這一空間背景信息，從整體上提取到更豐富的語(yǔ)義信息，模型語(yǔ)義表達(dá)能力較soft-attend更強(qiáng)。

圖 5 實(shí)驗(yàn)結(jié)果可視化對(duì)比

4 結(jié)論

針對(duì)現(xiàn)有采用編碼器-解碼器框架的圖像描述生成算法，在解碼階段由于語(yǔ)言模型結(jié)構(gòu)簡(jiǎn)單，解碼表達(dá)能力較弱，容易造成語(yǔ)義缺失的問(wèn)題。本文方法通過(guò)引入有序長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)構(gòu)建雙層LSTM架構(gòu)，來(lái)改進(jìn)現(xiàn)有模型解碼器，使模型能夠顯式的提取描述文本層級(jí)結(jié)構(gòu)，解碼出更豐富的語(yǔ)義特征。本文改進(jìn)的方法在MSCOCO數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試，實(shí)驗(yàn)結(jié)果表明，改進(jìn)的算法能夠有效提取文本層級(jí)結(jié)構(gòu)，充分利用圖像空間信息與內(nèi)容語(yǔ)義對(duì)齊來(lái)改善語(yǔ)言模型解碼表達(dá)能力，最終提高了圖像描述實(shí)驗(yàn)效果，生成更加符合自然語(yǔ)言習(xí)慣的描述語(yǔ)句。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡