国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文本信息補(bǔ)充的圖像描述模型

2021-12-08 01:57:14儀秀龍鄭杜磊王志余
關(guān)鍵詞:預(yù)測函數(shù)文本

花 嶸,儀秀龍,鄭杜磊,王志余

(1.山東科技大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,山東 青島266590;2.山東省青島市黃島區(qū)第一人民醫(yī)院,山東 青島 266555)

自動生成圖像的描述是計算機(jī)視覺的一項基礎(chǔ)任務(wù),其目的是識別圖像內(nèi)突出的目標(biāo)、理解目標(biāo)之間的關(guān)系,最終以人類可以理解的自然語言對其進(jìn)行表達(dá)。自然語言與機(jī)器語言的巨大差異使得圖像描述成為一項困難的任務(wù),但其在圖像視頻檢索、協(xié)助視障群體感知環(huán)境等領(lǐng)域具有廣泛的應(yīng)用價值,吸引了學(xué)術(shù)界和工業(yè)界的廣泛興趣。圖像描述任務(wù)作為跨學(xué)科領(lǐng)域的交叉研究問題,將計算機(jī)視覺與自然語言處理聯(lián)合起來,其目標(biāo)是自動生成圖像的描述,難點(diǎn)在于要使計算機(jī)“看到”可見的目標(biāo)并“理解”不可見的目標(biāo)關(guān)系,難度超過圖像分類和目標(biāo)檢測。

機(jī)器翻譯任務(wù)采用編碼解碼的框架,利用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)進(jìn)行編碼及解碼,最大化P(S|T),將源語言中的語句T轉(zhuǎn)化為目標(biāo)語言的語句S。受其啟發(fā),圖像描述任務(wù)考慮到卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的圖像特征提取能力,選擇卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)作為編碼器,RNN作為解碼器。長短時記憶(long short term memory,LSTM)[1]因具有良好的解決梯度消失的能力成為解碼器的首選。LSTM創(chuàng)造性提出了“門控”思想,依靠記憶單元和遺忘門可以有選擇地記憶和遺忘信息,但門控結(jié)構(gòu)對信息的篩選會導(dǎo)致信息的遺失,使LSTM隱藏單元的表達(dá)能力不足。LSTM隱藏單元表達(dá)能力不足會產(chǎn)生兩個問題:一是輸入信息缺失,二是預(yù)測信息不充分。本研究針對LSTM對文本信息的提取問題,提出兩種文本信息補(bǔ)充模型,兩種模型均強(qiáng)調(diào)文本信息在模型中起到的重要作用。

1 相關(guān)工作

近年來,研究者們提出了很多生成圖像描述的方法,主要分為以下3類:①基于模板的方法。利用固定的模板和空白槽來生成標(biāo)題,把檢測到的對象、動作、屬性對空白槽進(jìn)行填充。例如,Kulkarni等[3]在填補(bǔ)空缺之前利用條件隨機(jī)場來預(yù)測對象以及屬性,Li等[4]利用提取與檢測到的對象屬性及相關(guān)關(guān)系的句子來生成圖像的描述。該類方法可以生成語法正確的標(biāo)題,但由于模板是預(yù)定義的,因此生成標(biāo)題較為死板,不具備良好的泛化性;②基于檢索的方法。把視覺上相似圖像的標(biāo)題作為候選標(biāo)題,從候選標(biāo)題中選擇并進(jìn)行簡單調(diào)整以生成目標(biāo)標(biāo)題[5-7]。此類方法可以生成較為靈活的描述,但過于依賴現(xiàn)有的人工描述,難以生成新穎的描述,同樣不具備良好的泛化性,并且該方法需要收集大量且全面的人工描述,訓(xùn)練集也需要多樣化;③基于神經(jīng)網(wǎng)絡(luò)的方法。該類方法受到機(jī)器翻譯的啟發(fā),將圖像描述視為從圖像到文本的翻譯任務(wù),利用LSTM作為解碼器,克服上述兩類方法的局限性。深度神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺、自然語言處理等領(lǐng)域得到廣泛應(yīng)用,并取得了突出的成果。

注意力機(jī)制在目前主流的深度神經(jīng)網(wǎng)絡(luò)方法中得到了廣泛應(yīng)用,其核心目標(biāo)是從眾多信息中選擇出對當(dāng)前任務(wù)目標(biāo)最關(guān)鍵的視覺信息。Xu等[8]將Soft-Attention應(yīng)用在圖像描述任務(wù)中,讓模型在預(yù)測某個單詞時,將視覺的重點(diǎn)放在圖像的某一部分而不是整幅圖像。Lu等[9]提出的Adaptive Model讓模型進(jìn)行預(yù)測時判斷依賴文本信息或是視覺信息。Anderson等[10]提出的Bottom-Up and Top-Down Attention將候選圖像特征變?yōu)橛媚繕?biāo)檢測之后得到的屬性特征。Wang等[11]提出的Hierarchical Attention使注意力可以同時在多個特征上進(jìn)行層次計算。You等[12]提出Semantic Attention,使模型能夠最大化的獲取語義信息。以上模型基于LSTM提取文本信息,使用注意力機(jī)制對模型注入視覺信息,模型性能取決于對視覺信息的利用,但均忽視了文本信息的重要作用。

為了解決LSTM隱藏單元表達(dá)能力不足導(dǎo)致的兩個問題,本研究提出兩種基于文本信息補(bǔ)充的圖像描述模型:一種輸入信息補(bǔ)充(input information supplement,IIS)模型,利用信息提取函數(shù)提取更多的文本信息作為輸入,賦予LSTM更多的輸入信息,解決LSTM的輸入信息缺失問題;另一種輸出信息補(bǔ)充(output information supplement,OIS)模型,通過信息提取函數(shù),在多個時間步的隱藏單元中獲取所需要的預(yù)測信息,解決LSTM預(yù)測信息不充分問題。最后,在Neural Image Caption[2]的基礎(chǔ)上,實現(xiàn)了上述兩種模型并評估了兩種模型的有效性,實驗證明,兩種模型均可以明顯提高各項評價指標(biāo)。

2 基于文本信息補(bǔ)充的圖像描述模型

為解決現(xiàn)有的LSTM存在的輸入信息缺失和預(yù)測信息不充分問題,本研究在Neural Image Caption[2]的基礎(chǔ)上,提出兩種基于文本信息補(bǔ)充的圖像描述模型。

2.1 圖像描述的傳統(tǒng)encoder-decoder架構(gòu)

先介紹用于圖像描述的傳統(tǒng)encoder-decoder架構(gòu),模型結(jié)構(gòu)見圖1。主要計算公式如下:

圖1 圖像描述的傳統(tǒng)編碼解碼模型Fig. 1 Traditional encoding and decoding model of image description

x-1=CNN(I),

(1)

xt=WeSt,

(2)

Pt+1=LSTM(xt)。

(3)

其中:I代表輸入的圖像,圖像經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)得到特征向量,并作為解碼器的第一次輸入,用來告訴解碼器圖像的內(nèi)容;每個詞匯St用one-hot向量表征,向量的維度等于詞典的大小,但由于詞匯向量的維度太大,研究者將詞匯通過詞嵌入We映射到低維度空間,得到每個時間步的輸入xt;Pt+1為模型在每個時間步得到所有單詞的概率分布。

采用如下?lián)p失函數(shù)描述預(yù)測標(biāo)題與人工標(biāo)題的差別:

(4)

通過對卷積神經(jīng)網(wǎng)絡(luò)、詞嵌入、LSTM的所有參數(shù)進(jìn)行優(yōu)化,使上述損失最小。

2.2 基于文本信息補(bǔ)充的圖像描述模型

通過公式(5)用端到端的方式最大化給定圖像的正確描述概率:

(5)

其中:S代表圖像的描述,I代表圖像,θ代表需要學(xué)習(xí)的參數(shù)。理論上圖像描述的生成過程如下:

(6)

以鏈?zhǔn)揭?guī)則計算S0,…,Sn上的聯(lián)合概率。實際操作中使用RNN對式(6)進(jìn)行建模:

ht=RNN(St-1,ht-1),

(7)

p(St|St-1…S0)=p(St|ht)。

(8)

p(St|St-1…S0)=p(St|St-1,ht-1)。

(9)

RNN在時刻t得到了St-1的信息,St-1,…,S0的信息是通過RNN的隱藏狀態(tài)ht-1進(jìn)行表達(dá)的。考慮到LSTM具有良好的解決梯度消失的能力,研究者將RNN替換為LSTM。LSTM提出了“門控”的思想,通過輸入、輸出、遺忘門來獲得所需要的信息。LSTM核心公式如下:

it=σ(Wixxt+Wihht-1),

(10)

ft=σ(Wfxxt+Wfhht-1),

(11)

ot=σ(Woxxt+Wohht-1),

(12)

ct=ft⊙ct-1+it⊙tanh(Wcxxt+Wcfht-1),

(13)

ht=ot⊙ct。

(14)

LSTM模擬人類大腦的遺忘記憶過程,其記憶由前一時刻的記憶經(jīng)過遺忘處理和當(dāng)前時刻的輸入信息組成。門控結(jié)構(gòu)使得LSTM可以對信息進(jìn)行有選擇的篩選,解決了梯度消失和長期依賴問題,但門控結(jié)構(gòu)對信息的篩選會導(dǎo)致信息遺失,使得LSTM隱藏單元表達(dá)能力不足,進(jìn)而使得LSTM輸入信息缺失和預(yù)測信息不充分。事實上,在t時刻可以直接得到前K個狀態(tài)的信息而不需要通過LSTM的記憶單元。通過信息提取函數(shù)f1提取K個狀態(tài)的信息,作為對記憶單元的補(bǔ)充信息輸入LSTM,圖像描述的IIS 模型為:

Si=WeSi,

(15)

xt=f1(St-k,…,St-1),

(16)

ht=LSTM(xt)。

(17)

式(16)中采用的信息提取函數(shù)f1為拼接函數(shù),即:

xt=[St-k,…,St-1]。

(18)

本研究提出的IIS模型結(jié)構(gòu)見圖2??紤]到t時刻的輸出最可能與t時刻之前的K個狀態(tài)有關(guān),將這K個狀態(tài)用信息提取函數(shù)f1提取所需要的信息后作為輸入。通過使用更多時間步的文本信息,解決由門控結(jié)構(gòu)導(dǎo)致的LSTM輸入信息缺失問題。IIS證明了記憶單元會遺忘之前時刻的記憶信息,使得LSTM隱藏單元信息缺失,那么利用LSTM的隱藏單元進(jìn)行預(yù)測必然是不合理的。為此考慮通過信息提取函數(shù)提取更多時間步的隱藏單元信息來進(jìn)行信息補(bǔ)充,為模型的預(yù)測提供充足的信息,保證模型預(yù)測的準(zhǔn)確性。

圖2 輸入信息補(bǔ)充模型結(jié)構(gòu)圖Fig. 2 Structure diagram of IIS model

OIS模型結(jié)構(gòu)圖見圖3,具體計算方式如下:在t時刻得到當(dāng)前時刻及之前時刻共L個隱藏單元值,通過信息提取函數(shù)f2來獲得這L個時間步的信息,得到OIS補(bǔ)充模型:

圖3 輸出信息補(bǔ)充模型結(jié)構(gòu)圖Fig. 3 Structure diagram of OIS model

(19)

(20)

式(19)采用的信息提取函數(shù)f2也是拼接函數(shù),即:

(21)

可見,OIS模型通過更多的隱藏單元進(jìn)行預(yù)測,可以較好地解決LSTM預(yù)測信息不充分問題。

3 實驗

3.1 實驗細(xì)節(jié)

在2017年提出的人為標(biāo)注的AI CHALLENGER大規(guī)模中文數(shù)據(jù)集上分別評估了本研究提出的兩種模型。該數(shù)據(jù)集有訓(xùn)練集21萬張圖片,驗證集3萬張圖片,每張圖片有5個描述。去除出現(xiàn)次數(shù)低于2次的詞匯,最終得到9 813個詞匯,使用BLEU1-4[13]、CIDER[14]、ROUGE-L[15]等不同的度量指標(biāo)來評估,并與其他經(jīng)典模型進(jìn)行比較。為更好地與各種經(jīng)典模型對比,所有實驗都采用同樣的參數(shù)。用預(yù)訓(xùn)練的Resnet-50[16]來獲得圖像的2 048維特征向量,并將其投影到一個新的維數(shù)為256的空間,這也是解碼器雙層LSTM的隱藏單元維數(shù),在訓(xùn)練過程中使用的目標(biāo)函數(shù)為交叉熵?fù)p失函數(shù)[17],使用ADAM優(yōu)化器,學(xué)習(xí)率設(shè)置為0.001,權(quán)重衰減設(shè)置為0.000 1,批量大小設(shè)置為64,Epoch設(shè)置為40。兩種模型在單個NVIDIA-Tesla K80 GPU上訓(xùn)練大約34 h。

3.2 定量分析

3.2.1 IIS模型

針對由遺忘門所導(dǎo)致的LSTM輸入信息缺失問題,上節(jié)提出了一種IIS模型,利用信息提取函數(shù)提取K個詞向量的文本信息作為LSTM的輸入。為找到最理想的K,進(jìn)行了實驗,結(jié)果見表1。

表1 LSTM各階輸入信息補(bǔ)充模型指標(biāo)Tab. 1 Input information of each order of LSTM complements the model indexes

數(shù)據(jù)集的句子長度大多在15左右,為避免取到局部極值,進(jìn)行了所有時間步的實驗。由表1看出,隨著K的增加,LSTM IIS模型在各指標(biāo)上的表現(xiàn)越來越好,證明LSTM存在重要信息缺失,通過增加更多文本信息作為LSTM的輸入,可以解決LSTM輸入信息缺失問題;K=6時,模型性能達(dá)到頂峰;當(dāng)增加過多的文本信息即K>6時,信息冗余對模型產(chǎn)生誤導(dǎo),導(dǎo)致K取更大值時,模型在各指標(biāo)上的表現(xiàn)反而有所下降。故取K=6。

3.2.2 OIS模型

第二節(jié)針對用來預(yù)測的LSTM隱藏單元存在的信息缺失問題,提出了LSTM OIS模型,利用信息提取函數(shù)提取L個時間步的隱藏單元信息進(jìn)行預(yù)測。通過實驗找到最理想的L,完整的實驗數(shù)據(jù)見表2。

表2 LSTM各階OIS模型指標(biāo)Tab. 2 Output information of each order of LSTM complements the model indexes

為避免取到局部極值,與IIS模型類似,OIS模型實驗也取了所有時間步的值。由表2可以看出,當(dāng)L=7時,OIS模型可以獲得最好的實驗效果。實驗結(jié)果證明,通過采用更多的隱藏單元信息可以解決LSTM用來預(yù)測的隱藏單元信息缺失問題。

3.2.3 實驗結(jié)果與分析

將本研究提出的模型與幾種經(jīng)典的圖像描述模型進(jìn)行性能對比,結(jié)果見表3。

由表3可以看出,IIS模型和OIS模型在原模型NIC的基礎(chǔ)上, 性能都有了較大的提升。其中IIS模型效果更是超越了幾種經(jīng)典的注意力機(jī)制模型。因此,圖像描述同時依賴文本信息與視覺信息,LSTM的信息缺失問題帶來的性能瓶頸可以通過文本信息補(bǔ)充模型解決。

3.3 定性分析

為了對本研究得到的模型效果進(jìn)行定性分析,對6個圖像分別利用3種模型進(jìn)行對比(如圖4)。

由圖4可見,本研究提出的IIS模型由于采用更多的文本信息作為輸入,模型獲得更豐富的輸入信號,生成的描述更加精細(xì)、飽滿。圖片中的草原、大廳、足球場、球場、男人等詞匯前都有形容詞來修飾。本研究提出的OIS模型,由于用更多時間步的隱藏單元信息進(jìn)行預(yù)測,預(yù)測更加準(zhǔn)確,對圖片中的典型目標(biāo)如草原、帽子、騎馬、挎包、大廳、女人、四個、足球場、踢足球等都很好進(jìn)行了識別。

圖4 三種模型生成的描述對比Fig. 4 Comparison of the descriptions generated by the three models

3.4 討論

將IIS模型與OIS模型聯(lián)合起來得到聯(lián)合模型,模型結(jié)構(gòu)圖見圖5。

圖5 IIS+OIS聯(lián)合模型結(jié)構(gòu)圖Fig. 5 IIS+OIS joint model structure diagram

將表現(xiàn)最好的IIS模型(K=6)分別與各階OIS模型聯(lián)合起來進(jìn)行實驗,結(jié)果見表4。由表4可以看出,6階IIS模型與5階OIS模型聯(lián)合可以獲得最好的效果,該結(jié)果比單獨(dú)使用OIS模型略好,比IIS模型略差,說明聯(lián)合模型并沒有起到很好的促進(jìn)作用。分析原因是當(dāng)采用LSTM輸入信息補(bǔ)充模型后,由于獲得了充足的輸入信息,可以較好地進(jìn)行預(yù)測,若此時再使用多個隱藏單元值進(jìn)行預(yù)測,其他時間步提供的無用信息會大于有用信息,對模型產(chǎn)生誤導(dǎo),導(dǎo)致模型的效果不佳。實驗結(jié)果再次證明信息冗余會導(dǎo)致模型的性能下降。

表4 IIS+OIS聯(lián)合模型實驗結(jié)果Tab. 4 IIS+OIS joint model experiment results

4 結(jié)論

針對視覺信息的缺失問題,目前已提出了眾多基于注意力機(jī)制的圖像描述模型,本研究證明以LSTM作為圖像描述的解碼器存在文本信息缺失問題,提出了兩種基于文本信息補(bǔ)充的LSTM圖像描述模型—IIS模型以及OIS模型,用來解決由門控結(jié)構(gòu)所導(dǎo)致的輸入信息缺失與預(yù)測信息不充分問題。實驗結(jié)果表明,增加補(bǔ)充信息后模型性能得到提高,但同時,LSTM對補(bǔ)充信息的利用存在上限,在輸入詞向量達(dá)到6個和預(yù)測對于隱藏狀態(tài)的個數(shù)依賴達(dá)到7個以后,模型性能不再提升反而有所下降,這表明冗余的信息會對模型的學(xué)習(xí)過程產(chǎn)生誤導(dǎo)。該結(jié)論在兩個模型的結(jié)合實驗中得到了再次證實。

猜你喜歡
預(yù)測函數(shù)文本
無可預(yù)測
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預(yù)測卷(A卷)
選修2-2期中考試預(yù)測卷(B卷)
二次函數(shù)
第3講 “函數(shù)”復(fù)習(xí)精講
二次函數(shù)
函數(shù)備考精講
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
不必預(yù)測未來,只需把握現(xiàn)在
通州区| 始兴县| 金阳县| 柏乡县| 祁阳县| 安庆市| 旅游| 汨罗市| 杭州市| 韶关市| 玛多县| 陵川县| 横峰县| 正阳县| 祥云县| 精河县| SHOW| 南宫市| 旅游| 昌黎县| 江源县| 天祝| 合川市| 兴义市| 宁津县| 抚顺市| 大邑县| 涡阳县| 赤城县| 宣恩县| 定西市| 济源市| 贵南县| 怀宁县| 资中县| 平顺县| 大庆市| 高平市| 伊宁县| 长阳| 灵武市|