国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文本層級(jí)結(jié)構(gòu)的圖像描述生成算法

2021-08-24 07:57靳華中
關(guān)鍵詞:解碼層級(jí)語(yǔ)義

吳 禹, 靳華中

(湖北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院, 湖北 武漢 430068)

圖像描述生成是一個(gè)融合計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和機(jī)器學(xué)習(xí)的綜合問(wèn)題。圖像描述生成方法使用符合人類(lèi)語(yǔ)言習(xí)慣的句子描述圖像。算法模型在檢測(cè)圖像中的目標(biāo)的同時(shí),還要對(duì)目標(biāo)的視覺(jué)元素,如目標(biāo)的動(dòng)作和屬性有一定的認(rèn)知。在此基礎(chǔ)上,通過(guò)理解目標(biāo)之間的相互關(guān)系,構(gòu)建圖像的場(chǎng)景,目的是生成具有語(yǔ)義關(guān)系的、符合自然語(yǔ)言習(xí)慣的描述句子。

目前圖像描述生成模型普遍采用編碼器-解碼器框架。編碼器利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)從圖像中提取圖像特征[1],解碼器使用循環(huán)神經(jīng)網(wǎng)絡(luò)作為語(yǔ)言模型來(lái)預(yù)測(cè)文本,引入注意力機(jī)制,有效地選擇視覺(jué)特征向量來(lái)初始化語(yǔ)言模型隱藏狀態(tài)[2],提高視覺(jué)信息處理效率,在客觀指標(biāo)上展現(xiàn)出明顯優(yōu)勢(shì)。但在語(yǔ)言模型的構(gòu)建上存在不足,使得語(yǔ)義信息不能充分表達(dá)。文獻(xiàn)[3]將圖像特征向量與每個(gè)單詞的嵌入連接起來(lái),以便為以后生成的單詞保留視覺(jué)信息,但難以解決RNN梯度消散問(wèn)題。文獻(xiàn)[4]提出通過(guò)與自動(dòng)重構(gòu)網(wǎng)絡(luò)(ARnet)耦合來(lái)增加相鄰隱藏狀態(tài)之間的相關(guān)性。并嵌入上一隱藏層狀態(tài)解碼更多語(yǔ)義特征信息,然而使用歐幾里得距離的正則化方法可能會(huì)直接減少每個(gè)隱藏狀態(tài)的L2范數(shù),使得評(píng)價(jià)指標(biāo)沒(méi)有獲得較大改善。文獻(xiàn)[5]在自下而上和自上而下的組合注意力機(jī)制的基礎(chǔ)上融入圖文匹配模型 (Stacked Cross Attention Network,SCAN)[6]對(duì)注意力機(jī)制的訓(xùn)練過(guò)程進(jìn)行弱監(jiān)督,增強(qiáng)了注意力機(jī)制對(duì)單詞和圖像區(qū)域的對(duì)應(yīng)能力,但難以表征圖像目標(biāo)之間語(yǔ)義關(guān)系。這些方法的語(yǔ)言模型普遍只將當(dāng)前單詞隱藏狀態(tài)作為輸入,并僅針對(duì)一種輸出狀態(tài)計(jì)算結(jié)果,忽略了相鄰單詞之間的文本層級(jí)結(jié)構(gòu),容易在最終生成的文本中帶來(lái)累積的錯(cuò)誤。

而在自然語(yǔ)言處理領(lǐng)域,已有文獻(xiàn)利用文本層級(jí)結(jié)構(gòu)進(jìn)行語(yǔ)言建模。文獻(xiàn)[7]引入了句法距離這一概念來(lái)引導(dǎo)語(yǔ)言模型完成句法解析任務(wù),但算法實(shí)現(xiàn)的復(fù)雜度較高,很難在實(shí)際情況中使用。文獻(xiàn)[8]使用具有不同時(shí)間尺度的遞歸模型獲取層次結(jié)構(gòu),更新RNN的隱藏狀態(tài),但需要施加預(yù)定義的層次結(jié)構(gòu)。受此啟發(fā),本文在解碼器階段構(gòu)建雙層LSTM網(wǎng)絡(luò),第一層視覺(jué)選擇LSTM融合注意力機(jī)制,從整體上得到圖像中目標(biāo)之間的語(yǔ)義信息,同時(shí)能夠從細(xì)節(jié)得到圖像特征信息。第二層語(yǔ)言模型LSTM使用有序長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[9],在訓(xùn)練過(guò)程利用文本層級(jí)結(jié)構(gòu)預(yù)測(cè)描述,增強(qiáng)語(yǔ)言模型表達(dá)能力,從而生成更符合自然語(yǔ)言習(xí)慣的描述。

1 自然語(yǔ)言的文本層級(jí)結(jié)構(gòu)分析

1.1 文本層級(jí)結(jié)構(gòu)

在自然語(yǔ)言處理領(lǐng)域中,語(yǔ)言的表現(xiàn)形式遵循一定的層級(jí)結(jié)構(gòu)[10],組成語(yǔ)句的各個(gè)單位處于語(yǔ)義層面,構(gòu)成樹(shù)狀的文本層級(jí)結(jié)構(gòu)[11],即自然語(yǔ)言是由處在不同層級(jí)結(jié)構(gòu)的單位要素組成的層級(jí)裝置。如圖1所示,在英文句子中,單詞可以認(rèn)為是最低層級(jí)的結(jié)構(gòu),詞組次之。

圖 1 文本層級(jí)結(jié)構(gòu)示例

語(yǔ)言與其他數(shù)據(jù)一個(gè)顯著的區(qū)別就在于其本身?yè)碛幸欢ǖ膶蛹?jí)結(jié)構(gòu),因?yàn)檎Z(yǔ)言的組成受到語(yǔ)法規(guī)則限制,低層級(jí)的語(yǔ)義單元組成高層級(jí)的語(yǔ)義單元,而最高層級(jí)的語(yǔ)義單元就代表了整個(gè)句子的含義。人們?cè)?jīng)試圖對(duì)語(yǔ)言的這種結(jié)構(gòu)進(jìn)行建模,利用語(yǔ)法規(guī)則進(jìn)行語(yǔ)義解析,建立語(yǔ)義分析樹(shù),再根據(jù)解析的結(jié)果從下而上遞歸獲得句子的表征。單位結(jié)構(gòu)層級(jí)越高,在句子中的跨度就越大。這意味著編碼時(shí)能區(qū)分高低層級(jí)的信息;其次,高層級(jí)的信息意味著它要在高層級(jí)對(duì)應(yīng)的編碼區(qū)間保留更久,而低層級(jí)的信息則意味著它在對(duì)應(yīng)的區(qū)間更容易被遺忘。

1.2 文本層級(jí)結(jié)構(gòu)的提取

針對(duì)語(yǔ)言的層級(jí)結(jié)構(gòu),文獻(xiàn)[9]提出了有序長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Ordered Neurons Long Short-Term Memory,ON-LSTM)。傳統(tǒng)LSTM網(wǎng)絡(luò)中,神經(jīng)元通常都是無(wú)序的,運(yùn)算過(guò)程中涉及到的所有向量的位置按照相同方式重新打亂,權(quán)重的順序也將相應(yīng)地打亂,輸出結(jié)果可以只是原來(lái)向量的重新排序,信息量不變。有序長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)則把神經(jīng)元的序信息利用起來(lái),按排序分區(qū)間更新?tīng)顟B(tài),使其表示一些特定的結(jié)構(gòu)。用這種結(jié)構(gòu)來(lái)表征文本層級(jí)信息,使ON-LSTM在訓(xùn)練中自然地學(xué)習(xí)到文本的層級(jí)結(jié)構(gòu),從而增強(qiáng)語(yǔ)言模型表達(dá)能力。算法流程如圖2所示。

圖 2 有序長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)算法流程

具體過(guò)程為:ON-LSTM單元狀態(tài)ct按照向量索引值進(jìn)行排序,語(yǔ)法層次較高的信息儲(chǔ)存在ct上面的維度中,較低的則儲(chǔ)存在下面的維度。定義兩個(gè)one -hot向量代表歷史信息最低層級(jí)lf和當(dāng)前信息最高層級(jí)li,分區(qū)間更新規(guī)則為:1)lf

經(jīng)過(guò)以上規(guī)則分區(qū)間更新ct,文本高層信息更新頻率較低,在模型循環(huán)過(guò)程中能保留較長(zhǎng)距離,文本底層信息在每一個(gè)時(shí)間步內(nèi)都可能更新。從而通過(guò)定序嵌入層級(jí)結(jié)構(gòu),即按信息跨越幅度分組更新輸入文本序列的層級(jí)結(jié)構(gòu)。如圖3所示,對(duì)于給定語(yǔ)言序列[x1,x2,x3]及其句法樹(shù),ON-LSTM通過(guò)上述算法流程,動(dòng)態(tài)分配其隱藏狀態(tài)向量的維數(shù),用以對(duì)應(yīng)表示給定文本[x1,x2,x3]的層級(jí)結(jié)構(gòu)。

圖 3 文本層級(jí)結(jié)構(gòu)表征

2 基于文本層級(jí)結(jié)構(gòu)的圖像描述生成算法

2.1 本文模型框架

本節(jié)提出了基于文本層級(jí)結(jié)構(gòu)的圖像描述生成算法,如圖3所示,模型采用編碼器-解碼器架構(gòu),編碼器提取圖像特征,解碼器接收特征進(jìn)行解碼,生成圖像的最終描述。在編碼器階段,用CNN對(duì)圖像進(jìn)行特征提取,并根據(jù)神經(jīng)網(wǎng)絡(luò)卷積層特性分別獲取圖像對(duì)應(yīng)的全局特征和局部特征。然后,在第二個(gè)階段使用注意力機(jī)制和雙層有序長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)將初始圖像全局特征和局部特征信息相融合,將融合后的信息特征輸入ON-LSTM進(jìn)行解碼。

圖 4 本文模型框架結(jié)構(gòu)

在編碼器階段應(yīng)用了兩種不同尺度的圖像特征,分別為局部特征和全局特征,全局特征包含圖像目標(biāo)語(yǔ)義關(guān)系,引導(dǎo)第一層視覺(jué)LSTM關(guān)注特定目標(biāo);局部信息包含目標(biāo)具體特征,引導(dǎo)第二層語(yǔ)言LSTM解碼準(zhǔn)確信息。這兩種不同尺度的圖像特征全部由解碼器經(jīng)過(guò)預(yù)先訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)提取得到。在本文中用f表示局部特征,則有:

f={f1,f2,…,fk},fk∈1*r

其中,{f1,f2,…,fk}表示k個(gè)局部特征,fk∈1*r表示每個(gè)圖像區(qū)域的特征維度為1*r。局部特征通過(guò)全局平均池化得到圖像的全局特征

2.2 融合文本層級(jí)結(jié)構(gòu)的解碼過(guò)程

在attend部分中輸入為所有的圖像特征f={f1,f2,…,fk},fk∈1*r和視覺(jué)選擇 LSTM的輸出具體使用的是兩層全連接層,attend模塊的輸出ct的計(jì)算過(guò)程如下式所示:

(1)

αt=softmax(zt)

(2)

(3)

式(1)中,Wa、Wg分別表示兩個(gè)全連接層的映射矩陣,輸出結(jié)果如經(jīng)過(guò)式(2)一層softmax得到對(duì)某一區(qū)域關(guān)注度αt。在(3)式中,關(guān)注度用α表示,其中t表示生成第t個(gè)單詞,t′表示圖像的第t′個(gè)區(qū)域。

其中cusum為累積函數(shù),以主動(dòng)分配維度來(lái)存儲(chǔ)長(zhǎng)期或短期信息,避免在高級(jí)維度和低級(jí)維度之間進(jìn)行嚴(yán)格劃分。將單元狀態(tài)的維度動(dòng)態(tài)地重新分配給每個(gè)節(jié)點(diǎn),迫使神經(jīng)元在不同的時(shí)間尺度上代表信息。給定任意序列[y1,y2,…,yn],cusum計(jì)算公式如下:

cusum([y1,y2,…,yn])=

[y1,y1+y2,…,y1+y2+…yn]

3 實(shí)驗(yàn)結(jié)果和分析

3.1 數(shù)據(jù)準(zhǔn)備和預(yù)處理

本文采用的數(shù)據(jù)集為微軟COCO2014,包含三部分內(nèi)容,訓(xùn)練集、驗(yàn)證集和測(cè)試集。各部分?jǐn)?shù)據(jù)集由圖像和json文件組成,json文件包含對(duì)每幅圖像的5個(gè)英文描述。數(shù)據(jù)集包含的圖像總共82 783張,對(duì)應(yīng)的英文描述為413 915個(gè)。

描述文本的預(yù)處理階段過(guò)程為:1)圖像描述中的特殊符號(hào)“&”用“and”代替,標(biāo)點(diǎn)符號(hào)用空格代替;2)使用圖像id、圖像文件名和圖像描述建立描述句庫(kù),通過(guò)檢索圖像信息來(lái)查找圖像描述;3)使用數(shù)據(jù)集描述出現(xiàn)單詞建立詞匯表,詞匯表向量每一維度對(duì)應(yīng)數(shù)據(jù)集中單詞,語(yǔ)言模型通過(guò)檢索詞匯表索引值生成描述單詞。

本文圖像描述生成方法在tensorflow平臺(tái)上建立。采用小批量梯度下降法對(duì)損失函數(shù)進(jìn)行優(yōu)化,提高模型訓(xùn)練的收斂速度。學(xué)習(xí)速率為0.01,迭代次數(shù)為100次,最小批次為128次。

3.2 評(píng)價(jià)指標(biāo)和實(shí)驗(yàn)結(jié)果

目前圖像自動(dòng)標(biāo)注領(lǐng)域常用的評(píng)價(jià)標(biāo)準(zhǔn)主要分為5類(lèi),分別是BLUE、METEOR、ROUGE、CIDEr和SPICE。這5類(lèi)標(biāo)準(zhǔn)能對(duì)模型生成的圖像描述進(jìn)行量化標(biāo)準(zhǔn)的客觀評(píng)價(jià)。在本文實(shí)驗(yàn)中采用BLUE、METEOR和CIDEr對(duì)生成描述進(jìn)行評(píng)分。

表1 MSCOCO數(shù)據(jù)集實(shí)驗(yàn)對(duì)比

實(shí)驗(yàn)結(jié)果證明,本文模型在BLUE、METEOR和CIDEr評(píng)價(jià)指標(biāo)上要優(yōu)于NIC、mRNN、Log BIliner[12]和Soft-Attend模型。

3.3 實(shí)驗(yàn)結(jié)果分析

在實(shí)驗(yàn)結(jié)果可視化對(duì)比中,圖5中本文模型對(duì)比mRNN模型,mRNN模型生成描述句法樹(shù)高度為6,葉子結(jié)點(diǎn)數(shù)為7,本文模型生成描述句法樹(shù)高度為7,葉子結(jié)點(diǎn)數(shù)為11。生成描述將“field”生成為“hillside”,并生成了“l(fā)ush green”加以修飾,即提取到了更為復(fù)雜的語(yǔ)義特征,使描述更加生動(dòng)。圖5中本文模型對(duì)比soft-attend模型,soft-attend模型生成描述句法樹(shù)高度為5,葉子結(jié)點(diǎn)數(shù)為8,本文模型生成描述句法樹(shù)高度為6,葉子結(jié)點(diǎn)數(shù)為11。預(yù)測(cè)了“in the ocean”這一空間背景信息,從整體上提取到更豐富的語(yǔ)義信息,模型語(yǔ)義表達(dá)能力較soft-attend更強(qiáng)。

圖 5 實(shí)驗(yàn)結(jié)果可視化對(duì)比

4 結(jié)論

針對(duì)現(xiàn)有采用編碼器-解碼器框架的圖像描述生成算法,在解碼階段由于語(yǔ)言模型結(jié)構(gòu)簡(jiǎn)單,解碼表達(dá)能力較弱,容易造成語(yǔ)義缺失的問(wèn)題。本文方法通過(guò)引入有序長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)構(gòu)建雙層LSTM架構(gòu),來(lái)改進(jìn)現(xiàn)有模型解碼器,使模型能夠顯式的提取描述文本層級(jí)結(jié)構(gòu),解碼出更豐富的語(yǔ)義特征。本文改進(jìn)的方法在MSCOCO數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,實(shí)驗(yàn)結(jié)果表明,改進(jìn)的算法能夠有效提取文本層級(jí)結(jié)構(gòu),充分利用圖像空間信息與內(nèi)容語(yǔ)義對(duì)齊來(lái)改善語(yǔ)言模型解碼表達(dá)能力,最終提高了圖像描述實(shí)驗(yàn)效果,生成更加符合自然語(yǔ)言習(xí)慣的描述語(yǔ)句。

猜你喜歡
解碼層級(jí)語(yǔ)義
真實(shí)場(chǎng)景水下語(yǔ)義分割方法及數(shù)據(jù)集
科室層級(jí)護(hù)理質(zhì)量控制網(wǎng)的實(shí)施與探討
層級(jí)護(hù)理模式對(duì)血液透析患者的影響
軍工企業(yè)不同層級(jí)知識(shí)管理研究實(shí)踐
文化解碼
解碼eUCP2.0
文化 解碼
職務(wù)職級(jí)并行后,科員可以努力到哪個(gè)層級(jí)
文明 解碼
“吃+NP”的語(yǔ)義生成機(jī)制研究
信宜市| 大渡口区| 台南县| 农安县| 吉安市| 长春市| 哈巴河县| 秭归县| 九江县| 清镇市| 竹北市| 宜兴市| 东乡族自治县| 普格县| 吕梁市| 安乡县| 称多县| 柯坪县| 南宫市| 房山区| 阜新市| 宁德市| 乐安县| 枣阳市| 孙吴县| 本溪市| 黄骅市| 昌宁县| 乐安县| 千阳县| 上高县| 泽州县| 商城县| 台安县| 嵊州市| 百色市| 屏东市| 东阳市| 宝山区| 庐江县| 鄂托克前旗|