国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于視覺(jué)-語(yǔ)義中間綜合屬性特征的圖像中文描述生成算法

2021-05-27 06:31:04肖雨寒江愛(ài)文王明文揭安全
中文信息學(xué)報(bào) 2021年4期
關(guān)鍵詞:語(yǔ)句語(yǔ)義特征

肖雨寒,江愛(ài)文,王明文,揭安全

(江西師范大學(xué) 計(jì)算機(jī)信息工程學(xué)院,江西 南昌 330022)

0 前言

圖像描述是計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理與機(jī)器學(xué)習(xí)的交叉領(lǐng)域多模態(tài)信息處理任務(wù),是當(dāng)前人工智能的研究熱點(diǎn)。近年來(lái),圖像描述技術(shù)在早期幼兒教育、機(jī)器人視覺(jué)、人機(jī)交互、圖像檢索、視障人士幫護(hù)等領(lǐng)域得到了深入的研究和應(yīng)用[1-2]。

圖像描述任務(wù)需要算法能夠有效地處理圖像和語(yǔ)言兩種不同模態(tài)的信息,在理解圖像內(nèi)容的同時(shí),在不同語(yǔ)義層面用自然語(yǔ)言表述圖像的內(nèi)容。由于異構(gòu)語(yǔ)義鴻溝的存在,該任務(wù)仍具有較大的挑戰(zhàn)性。當(dāng)前,圖像描述的研究任務(wù)存在兩個(gè)比較突出的不足。

首先,現(xiàn)有研究大多針對(duì)圖像的英文描述。然而,中文是世界上使用人口最多的語(yǔ)言。研究圖像的中文描述對(duì)于實(shí)現(xiàn)技術(shù)本土化、增強(qiáng)中國(guó)文化自信具有重要的意義。相比英文,中文在語(yǔ)法結(jié)構(gòu)、詞義表述等方面更為豐富。因此,在實(shí)現(xiàn)圖像中文描述的算法學(xué)習(xí)過(guò)程中,模型不僅需要對(duì)中文語(yǔ)料進(jìn)行必要的分詞、詞嵌入表示等預(yù)處理,還需要考慮詞語(yǔ)的多義性。因此,研究圖像中文描述需要考慮的技術(shù)問(wèn)題更多、難度更大。

其次,現(xiàn)有圖像語(yǔ)句描述的算法并沒(méi)有并重考慮視覺(jué)和語(yǔ)言兩方面的信息。多數(shù)算法對(duì)發(fā)展較為成熟的語(yǔ)言模型更為倚重,對(duì)圖像的視覺(jué)信息,尤其是圖像內(nèi)容的分布信息,處理方式簡(jiǎn)單粗暴,信息利用不充分。因此,生成的描述語(yǔ)句通常表現(xiàn)為語(yǔ)法較為合理,但語(yǔ)句內(nèi)容相對(duì)單調(diào),與圖像內(nèi)容相關(guān)度比較低。如何對(duì)視覺(jué)信息進(jìn)行充分處理,并與語(yǔ)言生成過(guò)程充分融合是圖像描述任務(wù)的難點(diǎn)。

為了彌補(bǔ)以上兩方面研究的不足,本文充分考慮圖像高層視覺(jué)語(yǔ)義對(duì)應(yīng)的中文屬性信息,結(jié)合目標(biāo)檢測(cè)算法,提出多層次多尺度的中間屬性特征抽取模塊,獲取圖像的視覺(jué)語(yǔ)義要素,克服存在的異構(gòu)語(yǔ)義鴻溝問(wèn)題;使用選擇性注意力機(jī)制,將語(yǔ)義屬性要素進(jìn)行加權(quán)綜合,將不同尺度和層次的屬性上下文信息應(yīng)用到圖像的描述生成過(guò)程中。本文算法在公開的兩個(gè)圖像中文描述數(shù)據(jù)集AI Challenger 2017和Flick8k-CN上進(jìn)行了測(cè)試,其中AI Challenger 2017是目前規(guī)模最大的圖像中文描述數(shù)據(jù)集。通過(guò)與主流先進(jìn)算法進(jìn)行實(shí)驗(yàn)對(duì)比,發(fā)現(xiàn)本文所提出的算法具有較好的測(cè)試性能。本文算法所生成的描述語(yǔ)句除了能保證具有良好的語(yǔ)法正確性外,在語(yǔ)句內(nèi)容的豐富程度和視覺(jué)關(guān)聯(lián)性上都保持了較為優(yōu)越的測(cè)試性能。

本文的創(chuàng)新點(diǎn)主要體現(xiàn)在兩方面:①本文根據(jù)中文語(yǔ)言特點(diǎn),利用中文分詞篩選出具有明確意義的中層屬性語(yǔ)義詞,并以此作為圖像內(nèi)容的中間語(yǔ)義特征,增強(qiáng)視覺(jué)和語(yǔ)言之間的信息關(guān)聯(lián)度;②本文利用多層次中間語(yǔ)義屬性特征,提出基于顯著目標(biāo)候選區(qū)域選擇性注意機(jī)制的圖像中文描述生成算法。在公開圖像中文描述數(shù)據(jù)集AI Challenger2017和Flick8k-CN上的實(shí)驗(yàn)結(jié)果表明,相比較主流算法,本文算法取得了性能上的大幅提升。相關(guān)算法模型和代碼已在Github上公開(1)https://github.com/ShemoonX/Chinese-image-caption.。

1 相關(guān)工作

圖像的語(yǔ)句描述是人工智能的研究熱點(diǎn)。近年來(lái),該方向涌現(xiàn)了不少優(yōu)秀的算法。這些算法大致可以分為基于語(yǔ)言模板和基于神經(jīng)網(wǎng)絡(luò)模型兩大類。

基于語(yǔ)言模板的方法,使用視覺(jué)依存表示來(lái)提取對(duì)象之間的關(guān)系,設(shè)定固定的語(yǔ)言模板,然后根據(jù)所檢測(cè)識(shí)別出的視覺(jué)語(yǔ)義要素,按照句法解析的要求,填入相應(yīng)的語(yǔ)句位置,生成最終的描述句子。其優(yōu)點(diǎn)是得到的語(yǔ)言描述在語(yǔ)法上可能更正確,但缺點(diǎn)是高度依賴于模板,不適用于所有圖像,且限制了輸出的多樣性。代表性的工作有,F(xiàn)arhadi等人[3]提出使用三元組場(chǎng)景元素填充模板槽以生成圖像標(biāo)題;Kulkarni等人[4]提出基于檢測(cè)得到的對(duì)象屬性和介詞,使用條件隨機(jī)場(chǎng)共同推理合適的單詞填入槽。

基于神經(jīng)網(wǎng)絡(luò)模型的方法,已經(jīng)成為圖片文字描述生成領(lǐng)域的主導(dǎo)技術(shù)。其主要算法框架采用“編碼-解碼”的結(jié)構(gòu)[5],其中,“編碼”模塊主要用于提取圖像視覺(jué)特征,常采用固定長(zhǎng)度矢量的形式表示?!敖獯a”模塊用于有序地生成描述語(yǔ)句。代表性的工作有,Mao等人[6]提出的多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)(m-RNN模型),使用深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取圖像特征,使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)保存語(yǔ)句序列的特征,最后結(jié)合單詞嵌入特征、圖像特征、RNN隱含特征一起輸入多模態(tài)層預(yù)測(cè)下一個(gè)詞的分布。相比于m-RNN,Vinyals等人[7]提出基于深度重構(gòu)架構(gòu)的生成模型(神經(jīng)圖像描述模型,NIC模型),該模型用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)替代傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),使用預(yù)訓(xùn)練好的Inception v2作為編碼器提取圖像特征,并作為生成圖像描述語(yǔ)句的解碼器LSTM的初始狀態(tài)。以此為基礎(chǔ),后續(xù)研究如Karpathy等人[8]提出的NeuralTalk模型結(jié)合目標(biāo)檢測(cè)算法RCNN[9],學(xué)習(xí)描述語(yǔ)句斷句和圖片區(qū)域潛在的對(duì)齊關(guān)系。Li等人[10]構(gòu)建了首個(gè)中文圖像摘要數(shù)據(jù)集Flickr8k-CN,并在NIC模型基礎(chǔ)上提出面向中文描述的生成模型CS-NIC。Xu等人[11]將視覺(jué)注意力機(jī)制引入到圖像描述任務(wù)中,在描述語(yǔ)句生成過(guò)程中動(dòng)態(tài)捕捉到圖像卷積層特征的局部信息。Lu等人[12]注意到在生成圖像描述的過(guò)程中,非視覺(jué)詞的梯度會(huì)誤導(dǎo)或者降低視覺(jué)信息的有效性,因此提出帶有視覺(jué)標(biāo)記的自適應(yīng)注意力模型。Jia等人[13]提出的長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)的擴(kuò)展模型(gLSTM模型),將從圖像中提取的語(yǔ)義信息作為額外輸入添加到LSTM塊的每個(gè)單元中,更緊密地將圖像內(nèi)容耦合到描述生成過(guò)程。

由于異構(gòu)語(yǔ)義鴻溝[14]的存在,圖像低層視覺(jué)特征和高層的語(yǔ)言描述之間無(wú)法做到準(zhǔn)確匹配,多模態(tài)信息融合難度較大。為了有效實(shí)現(xiàn)多模態(tài)數(shù)據(jù)融合,Wu等人[15]提出att-LSTM模型,使用中間視覺(jué)語(yǔ)義信息來(lái)表征圖像的內(nèi)容。Aneja等人[16]提出利用掩膜式卷積神經(jīng)網(wǎng)絡(luò)(masked convolutions)來(lái)代替LSTM,緩解時(shí)間維度的依賴性。Gu等人[17]提出采用堆疊式注意力模型,逐層精細(xì)化地生成圖像的語(yǔ)言描述。余燕[18]提出基于視覺(jué)注意力與主題模型的圖像中文描述生成方法。與本文不同的是,雖然他們也考慮了注意力機(jī)制的重要性,但所處理的依然是卷積層視覺(jué)特征,而不是高層中間語(yǔ)義信息。類似的方法還有,呂世偉[19]采用深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)結(jié)合雙層門控循環(huán)單元(GRU)網(wǎng)絡(luò)完成對(duì)圖像的編解碼以及中文語(yǔ)句的生成。

Yang 等人[20]基于多任務(wù)學(xué)習(xí)機(jī)制,利用對(duì)抗生成學(xué)習(xí)過(guò)程,將圖像描述生成和文本生成圖像兩個(gè)對(duì)偶任務(wù)聯(lián)合起來(lái)訓(xùn)練,發(fā)掘二者的內(nèi)在關(guān)聯(lián)。Zhao 等人[21]提出一個(gè)兩層的視覺(jué)注意力模型,能夠自動(dòng)關(guān)注最相關(guān)的幀和每一幀中突出的區(qū)域。類似的還有,Xiao 等人[22]采用多層循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行解碼生成圖像描述。

Yang等人[23]提出根據(jù)目標(biāo)檢測(cè)區(qū)域的圖像特征和位置信息,采用注意力機(jī)制進(jìn)行圖像信息編碼,用于描述生成。Peter 等人[24]提出結(jié)合由上至下和由下至上的主要機(jī)制,根據(jù)圖片中每個(gè)目標(biāo)或顯著區(qū)域的特征計(jì)算注意力分布圖,預(yù)測(cè)圖像語(yǔ)句描述。他們的模型思路與我們的方法比較接近,但仍存在重要區(qū)別,主要體現(xiàn)在本文采用了語(yǔ)義屬性特征和不同的目標(biāo)區(qū)域劃定策略。Lu 等人[25]提出生成帶“插槽”的句子“模板”。其中,槽的位置明確與圖像區(qū)域相關(guān)聯(lián)。目標(biāo)檢測(cè)器利用在該區(qū)域中所找到的概念填充這些槽。

2 基于視覺(jué)-語(yǔ)義中間綜合屬性特征的圖像中文描述生成算法

2.1 模型框架

總體模型框架如圖1所示。模型采用圖像的中間語(yǔ)義特征提取和描述語(yǔ)句的生成兩階段過(guò)程。其中,特征提取階段又包含了兩部分的網(wǎng)絡(luò):圖像全局視覺(jué)特征檢測(cè)器和圖像高層中間語(yǔ)義屬性特征檢測(cè)器。

圖1 算法模型總體框架

2.2 圖像全局視覺(jué)特征抽取網(wǎng)絡(luò)

圖像全局視覺(jué)特征抽取網(wǎng)絡(luò)使用預(yù)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)作為圖像低層視覺(jué)特征提取器。在本文去除預(yù)訓(xùn)練的ResNet50[26]的最后全連接層后,網(wǎng)絡(luò)輸出的2 048維向量被用作圖像全局視覺(jué)特征。該特征雖然帶有一定高度的內(nèi)容抽象,但依然缺乏顯式的語(yǔ)義對(duì)應(yīng)關(guān)系,是對(duì)圖像低層視覺(jué)特征的概括。

2.3 圖像高層中間語(yǔ)義屬性特征抽取網(wǎng)絡(luò)

圖像高層中間語(yǔ)義屬性特征抽取網(wǎng)絡(luò)包含兩個(gè)處理階段。首先,構(gòu)建視覺(jué)內(nèi)容的關(guān)鍵屬性詞表,用于表征中間語(yǔ)義信息。其次,為了有效地實(shí)現(xiàn)屬性詞表中所表示的中間語(yǔ)義屬性與視覺(jué)特征的關(guān)聯(lián),訓(xùn)練屬性分類器,用于預(yù)測(cè)中間語(yǔ)義的概率。

2.3.1 屬性詞表構(gòu)建

圖像高層屬性特征指的是圖像高層中間語(yǔ)義信息,目的是為了能夠顯式地反映與圖像數(shù)據(jù)集內(nèi)容相關(guān)的視覺(jué)語(yǔ)義。因此,我們需要建立一個(gè)既側(cè)重于詞性和詞語(yǔ)內(nèi)容表達(dá)豐富程度,又與數(shù)據(jù)集內(nèi)容密切相關(guān)的屬性詞表。

以圖像中文描述數(shù)據(jù)集AI Challenger 2017為例,首先對(duì)訓(xùn)練集中的所有圖像描述語(yǔ)句進(jìn)行分詞,剔除與視覺(jué)內(nèi)容無(wú)關(guān)的虛詞,只保留具有明確意義的名詞、動(dòng)詞、形容詞、數(shù)詞和約定俗成的成語(yǔ)。然后,從中選擇頻率最高且最能代表圖像視覺(jué)要素的2 048個(gè)中文詞用于構(gòu)建屬性詞表。其中,名詞數(shù)量約1 279個(gè),例如運(yùn)動(dòng)服、籃球、臥室、電視等;動(dòng)詞數(shù)量約582個(gè),例如,遞、哭、觀察、撲等;形容詞數(shù)量約89個(gè),例如,舒坦、明亮、整潔、平靜等;數(shù)量詞如一群、一桶、一瓶等共60個(gè);約定俗成的成語(yǔ)38個(gè),例如,白雪皚皚、奇裝異服、琳瑯滿目等。圖像中文描述數(shù)據(jù)集Flick8k-CN的屬性詞表構(gòu)建過(guò)程類似。

2.3.2 圖像高層中間語(yǔ)義屬性分類網(wǎng)絡(luò)

當(dāng)屬性詞表確定后,訓(xùn)練數(shù)據(jù)集中的圖像描述語(yǔ)句經(jīng)過(guò)分詞后轉(zhuǎn)換成與之對(duì)應(yīng)的屬性向量。具體地,第i幅圖像的屬性向量為2 048維向量:ai=[ai1,ai2,…,ai2 048]。其中,如果圖像i的描述語(yǔ)句中包含屬性詞j,則aij=1,否則aij=0。經(jīng)過(guò)數(shù)據(jù)轉(zhuǎn)換之后,原圖像描述數(shù)據(jù)集便轉(zhuǎn)換成新的“圖像-屬性”多標(biāo)簽數(shù)據(jù)集。我們可以利用該數(shù)據(jù)形式訓(xùn)練圖像高層屬性特征檢測(cè)器。

我們把圖像高層中間語(yǔ)義屬性的檢測(cè)過(guò)程看成多標(biāo)簽分類過(guò)程。具體地,使用預(yù)訓(xùn)練好的101層殘差網(wǎng)絡(luò)(ResNet101網(wǎng)絡(luò))作為基準(zhǔn)模型,將網(wǎng)絡(luò)的原始全連接層替換成增加輸出維度為2 048維的全連接層。在訓(xùn)練過(guò)程中,網(wǎng)絡(luò)損失函數(shù)定義為多標(biāo)簽損失函數(shù)。新的語(yǔ)義屬性分類網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示。

圖2 圖像高層中間語(yǔ)義屬性分類網(wǎng)絡(luò)結(jié)構(gòu)

我們輸入一幅圖像到圖像語(yǔ)義屬性分類網(wǎng)絡(luò),輸出的是2 048維概率向量βi=[βi1,βi2,…,βi2 048]。其中,輸出向量的每個(gè)元素值代表相應(yīng)屬性詞的預(yù)測(cè)概率。對(duì)比該圖像的真實(shí)屬性向量,網(wǎng)絡(luò)在訓(xùn)練時(shí),需要最小化下列代價(jià)函數(shù)J(θ),如式(1)所示。

(1)

圖3 基于目標(biāo)檢測(cè)的圖像初步語(yǔ)義分塊示意圖

2.4 基于注意力機(jī)制的描述語(yǔ)句生成網(wǎng)絡(luò)

我們采用基于注意力機(jī)制的長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為圖像描述語(yǔ)句的生成器。

首先,對(duì)圖像的中文描述語(yǔ)句進(jìn)行分詞,形成圖像對(duì)應(yīng)的中文單詞序列y=(y0,y1,…,yL,yL+1)。其中,y0是特殊初始字符,yL+1是特殊結(jié)束字符。

然后,將圖像低層的視覺(jué)特征和圖像的高層中間語(yǔ)義屬性特征,共計(jì)k+2個(gè)不同層面和尺度的圖像表示,作為生成器的輸入。我們將全部的特征向量進(jìn)行特征變換,均處理成長(zhǎng)度相等的n維向量。變換過(guò)程為v=ReLU(Whα)。從而,得到:

為了幫助描述語(yǔ)句生成網(wǎng)絡(luò)能夠更準(zhǔn)確、更有效率地處理所獲得的視覺(jué)-語(yǔ)義特征,我們使用選擇性注意力機(jī)制對(duì)特征進(jìn)行權(quán)值動(dòng)態(tài)重分配。注意力計(jì)算過(guò)程如式(3)~式(5)所示。

其中,gt代表當(dāng)前第t時(shí)刻,使用注意力機(jī)制得到的綜合向量。αtm表示第t時(shí)刻分配給第m個(gè)屬性特征的權(quán)重,ztm表示第m個(gè)屬性特征與屬性特征集合的的相關(guān)程度。

具體的圖像語(yǔ)句描述生成過(guò)程如下:①以變換后的圖像低層視覺(jué)特征v1作為描述生成器—長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的初始隱藏狀態(tài)st-1和初始單元狀態(tài)ct-1。②在每一時(shí)刻,LSTM根據(jù)前一時(shí)刻生成的單詞的詞嵌入向量e(yt-1)與當(dāng)前時(shí)刻的圖像綜合屬性特征gt的串聯(lián),結(jié)合上一個(gè)時(shí)刻的隱層狀態(tài)st-1和細(xì)胞單元狀態(tài)ct-1,更新當(dāng)前時(shí)刻的對(duì)應(yīng)狀態(tài),從而得到新的st和ct。整個(gè)循環(huán)生成過(guò)程如式(6)所示。

其中,gt代表圖像根據(jù)選擇性注意力機(jī)制加權(quán)得到的綜合視覺(jué)特征。

描述語(yǔ)句生成網(wǎng)絡(luò)在每個(gè)時(shí)刻產(chǎn)生的字符標(biāo)記(token)概率ot的計(jì)算如式(7)所示。

當(dāng)網(wǎng)絡(luò)的輸出為特殊結(jié)束字符或網(wǎng)絡(luò)生成的序列長(zhǎng)度達(dá)到系統(tǒng)設(shè)置的最大序列長(zhǎng)度時(shí),則停止輸出。我們采用實(shí)際預(yù)測(cè)概率分布的ot與真實(shí)分布pt之間的交叉熵作為網(wǎng)絡(luò)的訓(xùn)練損失函數(shù),如式(8)所示。通過(guò)最小化損失函數(shù)Loss(θ)來(lái)優(yōu)化網(wǎng)絡(luò)的待學(xué)習(xí)參數(shù)θ。

其中,N表示數(shù)據(jù)集訓(xùn)練樣本總數(shù),L(i)為第i個(gè)訓(xùn)練樣本的詞語(yǔ)序列實(shí)際長(zhǎng)度。

3 實(shí)驗(yàn)與評(píng)估

3.1 數(shù)據(jù)集

本文在AI Challenger 2017和Flick8k-CN這兩個(gè)業(yè)內(nèi)公共的數(shù)據(jù)集上進(jìn)行算法驗(yàn)證和性能評(píng)估。其中,AI Challenger 2017是目前圖像中文描述領(lǐng)域最大的數(shù)據(jù)集,包含訓(xùn)練集、驗(yàn)證集和測(cè)試集三部分。訓(xùn)練數(shù)據(jù)集有21萬(wàn)幅圖像,每幅圖像都配有五句人工標(biāo)注的中文描述,較詳細(xì)地涵蓋了圖像中主要人物場(chǎng)景、動(dòng)作等內(nèi)容。直觀的示例如圖4所示。

圖4 AI Challenger 2017數(shù)據(jù)集的示例樣本

Flick8k-CN數(shù)據(jù)集[10]總共包含8 000幅圖像,其中每幅圖像同樣配有五句人工標(biāo)注的中文描述,側(cè)重于同一幅圖像的多義表述。Flick8k-CN是雅虎英文數(shù)據(jù)集Flick8k的中文擴(kuò)展,具體示例如圖5所示。整個(gè)Flick8k-CN數(shù)據(jù)集分為三部分:訓(xùn)練集、驗(yàn)證集和測(cè)試集。其中,訓(xùn)練集6 000張圖片,驗(yàn)證集和測(cè)試集各包含1 000張圖片。

圖5 Flick8k-CN數(shù)據(jù)集的示例樣本

3.2 實(shí)驗(yàn)細(xì)節(jié)

算法模型采用PyTorch1.0版本實(shí)現(xiàn)。描述語(yǔ)句生成網(wǎng)絡(luò)采用單層LSTM結(jié)構(gòu),其中,循環(huán)單元的隱層狀態(tài)數(shù)設(shè)置為512。算法使用開源工具jieba-0.38進(jìn)行中文分詞。詞嵌入特征向量的維度設(shè)置為512。網(wǎng)絡(luò)模型訓(xùn)練的優(yōu)化器設(shè)置為Adam算法,訓(xùn)練批量大小(batchsize)設(shè)置為8,訓(xùn)練學(xué)習(xí)率初始化為0.001。

為了保持模型結(jié)構(gòu)的一致,F(xiàn)lick8k-CN數(shù)據(jù)集和AI Challenger 2017數(shù)據(jù)集對(duì)應(yīng)的屬性詞表大小均設(shè)置為2 048。具體地,在AI Challenger 2017數(shù)據(jù)集中,提取的屬性詞詞頻在50以上。由于Flick8k-CN數(shù)據(jù)集[10]相對(duì)比較小,所提取的屬性詞詞頻設(shè)置為在2以上。由于我們提取的這些屬性詞的詞性和意義均比較豐富,因此詞頻不影響屬性詞匯表的語(yǔ)義表達(dá)有效性。

需要說(shuō)明的是,本文算法思想及設(shè)計(jì)思路同樣可適用于英文描述生成,因?yàn)橐坏┩瓿芍形姆衷~和中文屬性特征抽取,模型的學(xué)習(xí)過(guò)程便與語(yǔ)言無(wú)關(guān)。但是由于模型的輸入與輸出針對(duì)的均為中文語(yǔ)句語(yǔ)料,中文的語(yǔ)序和詞義的內(nèi)涵都比英文要豐富些。詞義屬性定義及語(yǔ)言規(guī)則的不同,會(huì)不同程度地影響模型參數(shù)的優(yōu)化過(guò)程,因此本實(shí)驗(yàn)所學(xué)習(xí)得到的模型參數(shù)不能直接用于英文描述的生成。更多的英文描述生成實(shí)驗(yàn)我們將在后續(xù)的工作中驗(yàn)證。本文實(shí)驗(yàn)將主要集中于準(zhǔn)確生成圖像的中文描述。

3.3 評(píng)測(cè)指標(biāo)

本文使用BLEU-1234、METEOR[29]、Rouge[30]和CIDEr[31]來(lái)評(píng)估描述生成結(jié)果的質(zhì)量。BLEU-n用于分析待評(píng)價(jià)的生成描述語(yǔ)句和參考語(yǔ)句之間n元組相關(guān)性。METEOR是一種基于召回率的相似度衡量方法,用于度量基于一元組的精度和召回率的調(diào)和平均。CIDEr專門針對(duì)圖像描述問(wèn)題,用于衡量圖像描述的一致性。

3.4 評(píng)測(cè)結(jié)果

本文所選擇的基準(zhǔn)模型(baseline)為:只使用圖像底層視覺(jué)特征的CS-NIC[10],使用掩膜卷積(masked convolutions)代替LSTM的CIC[16]以及由粗到細(xì)的多級(jí)堆疊注意力模型SC[17]。

與此同時(shí),本文還進(jìn)行了多個(gè)模型簡(jiǎn)化測(cè)試(ablation study):①為了評(píng)估注意力機(jī)制的有效程度,我們注意力機(jī)制去除后得到本文模型的變體“Ours_no_att”。該變體模型未做圖像語(yǔ)義劃分,僅使用了全局的中間語(yǔ)義屬性特征作為生成網(wǎng)絡(luò)的初始輸入。②為了評(píng)估使用目標(biāo)檢測(cè)進(jìn)行圖像的初步語(yǔ)義分塊的重要性,我們將圖像的分塊方式改為平均分塊,得到本文模型的另一變體“Ours_grid”。該變體模型在進(jìn)行圖像分塊時(shí),將圖像平均分為M塊,如2×2劃分。

為了評(píng)估的公平性,本文使用AI Challenger 2017的訓(xùn)練數(shù)據(jù)集對(duì)所選擇的基準(zhǔn)模型、本文提出的算法模型及其變體進(jìn)行訓(xùn)練,在AI Challenger 2017測(cè)試集上進(jìn)行測(cè)試。測(cè)試數(shù)據(jù)包含60 000幅圖像。算法性能采用AI Challenger 2017提供的官方評(píng)估代碼進(jìn)行評(píng)估,結(jié)果如表2所示。

表2的實(shí)驗(yàn)結(jié)果顯示,即使同為基于全局特征的模型,模型“Ours_no_att”在所有的評(píng)估指標(biāo)上均全面領(lǐng)先于僅使用圖像底層視覺(jué)特征的基準(zhǔn)模型CS-NIC和CIC。這主要是因?yàn)槟P汀癘urs_no_att”引入了圖像高層中間語(yǔ)義屬性特征。因此,高層中間語(yǔ)義屬性特征在信息表示方面具有明顯的優(yōu)越性。

表2 在AI Challenger 2017測(cè)試集上的性能比較

表2的結(jié)果同時(shí)還顯示,加入了圖像平均分塊空間信息和注意力選擇機(jī)制后,在圖像的表示上,模型“Ours_grid”能夠更好地綜合不同層次和尺度上的語(yǔ)義信息,達(dá)到更優(yōu)越的實(shí)驗(yàn)性能。當(dāng)在圖像分塊方式上進(jìn)一步使用目標(biāo)檢測(cè)進(jìn)行語(yǔ)義分塊時(shí),本文模型“Ours”取得了實(shí)驗(yàn)的最優(yōu)性能。具體地,在AI-Chllenger 2017測(cè)試集上,在指標(biāo)BLEU-1、2、3、4上較模型CS-NIC分別提升了17.3%、28.3%、39.1%、50.5%;較模型CIC分別提升了11.1%、17.3%、23.5%、30.1%;較模型SC分別提升了0.9%、2.1%、3.8%、5.3%。在Rouge指標(biāo)上,較模型CS-NIC、CIC和SC分別提升了19.4%、9.5%、2.6%。在METEOR指標(biāo)上,較模型CS-NIC、CIC和SC分別提升了18.8%、9.6%、3.3%。在CLDEr指標(biāo)上,較模型CS-NIC、CIC和SC分別提升了76.6%、41.2%、13.0%。

類似地,在Flick8k-CN數(shù)據(jù)集上,我們也進(jìn)行了訓(xùn)練和測(cè)試。實(shí)驗(yàn)結(jié)果如表3所示。與基準(zhǔn)模型相比較,本文模型因?yàn)槭褂昧硕鄬哟我曈X(jué)-語(yǔ)義屬性特征并采用動(dòng)態(tài)的選擇性注意力機(jī)制進(jìn)行綜合,在Flick8k-CN數(shù)據(jù)集上取得了最好的性能。實(shí)驗(yàn)結(jié)論與表2基本一致。

表3 在Flick8k-CN數(shù)據(jù)集的性能比較

盡管我們的算法在主流性能指標(biāo)上表現(xiàn)良好,但為了進(jìn)一步直觀說(shuō)明描述語(yǔ)句生成的結(jié)果,我們還對(duì)部分生成結(jié)果進(jìn)行了展示,如表4~表6所示。這是因?yàn)槟壳霸u(píng)價(jià)圖像的語(yǔ)言描述生成的性能的客觀標(biāo)準(zhǔn)采用的是傳統(tǒng)機(jī)器翻譯性能指標(biāo)。雖然當(dāng)前機(jī)器翻譯算法取得的質(zhì)量評(píng)測(cè)分?jǐn)?shù)在特定數(shù)據(jù)集上可以與人類所取得的性能相媲美[32],但是,我們很清楚目前智能算法的實(shí)用性能還遠(yuǎn)不及人類的能力。現(xiàn)有的機(jī)器翻譯自動(dòng)評(píng)價(jià)標(biāo)準(zhǔn)并不能高質(zhì)量地全面、客觀評(píng)估描述語(yǔ)句的內(nèi)容豐富程度和與圖像內(nèi)容的關(guān)聯(lián)程度。

表4展現(xiàn)的是本文算法完全正確生成描述的情況。從效果上看,雖然基準(zhǔn)模型CS-NIC和CIC所生成的描述語(yǔ)句的語(yǔ)法是正確的,但是不少描述的語(yǔ)義與圖像視覺(jué)內(nèi)容無(wú)關(guān)。主要的原因是算法過(guò)分依賴語(yǔ)言模型,對(duì)圖像內(nèi)容的利用不充分。雖然SC模型取得比較好的效果,但在圖像內(nèi)容細(xì)節(jié)上存在一些不準(zhǔn)確的描述。相比之下,本文所提出的模型所生成的描述語(yǔ)句無(wú)論在語(yǔ)法準(zhǔn)確性,還是在圖像內(nèi)容的相關(guān)度上都有不錯(cuò)的表現(xiàn),能夠更好地描述圖像中的實(shí)際內(nèi)容。更為值得關(guān)注的是,本文模型所生成的描述語(yǔ)句在內(nèi)容的豐富程度上也比其他對(duì)比模型要好,其中還包含了其他模型忽視的視覺(jué)內(nèi)容。

表4 實(shí)際中文描述的生成效果比較示例(完全正確描述情況,AI Challenger 2017)

表5展現(xiàn)的是本文算法實(shí)際生成不完全正確描述的情況。在此類情況中,雖然所生成的描述存在著細(xì)節(jié)不準(zhǔn)確的地方,但是其表述的內(nèi)容依然是合理的,能夠準(zhǔn)確表達(dá)圖像的關(guān)鍵信息,例如人物特征等。由于所對(duì)比的基準(zhǔn)方法所生成描述完全錯(cuò)誤,且與圖像內(nèi)容毫不相關(guān),因此,我們?cè)诒?中沒(méi)有列舉它們的結(jié)果。

表5 實(shí)際生成表述不完全正確示例(但內(nèi)容合理、關(guān)鍵性信息到位,AI Challenger 2017)

從表4、表5的展示結(jié)果來(lái)看,本文所提出的算法較好地平衡了語(yǔ)言模型依賴性和圖像內(nèi)容的相關(guān)性,這也進(jìn)一步說(shuō)明了實(shí)現(xiàn)多層次選擇性視覺(jué)語(yǔ)義屬性特征,在生成圖像中文描述上具有明顯的優(yōu)越性。

表6列舉出了一些本文模型表述錯(cuò)誤的例子。在這些樣例中,基準(zhǔn)模型的結(jié)果也同樣是完全錯(cuò)誤。與大部分的數(shù)據(jù)驅(qū)動(dòng)方法一樣,當(dāng)圖像出現(xiàn)的視覺(jué)要素(物品、行為等)在訓(xùn)練集中較少出現(xiàn)時(shí),模型極易發(fā)生表述錯(cuò)誤。這是目前我們模型的不足,在將來(lái)的工作中,我們將深入研究對(duì)應(yīng)的解決方案。

表6 實(shí)際生成完全表述錯(cuò)誤效果示例(AI Challenger 2017)

4 總結(jié)

本文提出了基于視覺(jué)-語(yǔ)義中間綜合屬性特征的圖像中文描述生成方法。該算法在編碼過(guò)程中獲取了圖像的低層視覺(jué)特征和多粒度中文高層屬性特征,在解碼過(guò)程中通過(guò)注意力機(jī)制有選擇地提取多層次視覺(jué)-屬性上下文特征,幫助描述生成。為了驗(yàn)證本文算法的有效性,模型在兩個(gè)公開的圖像中文描述數(shù)據(jù)集AI Challenger 2017和Flick8k-CN上分別進(jìn)行了訓(xùn)練和測(cè)試,并與主流的算法進(jìn)行了比較。測(cè)試性能采用主流的BLEU-n、Rouge、METEOR和CLDEr指標(biāo)進(jìn)行度量。對(duì)比實(shí)驗(yàn)的數(shù)據(jù)表明,本文提出的算法模型能夠大幅度提升模型的性能,所生成的中文描述不僅內(nèi)容比較豐富,而且與圖像內(nèi)容的相關(guān)性比較大,有效地實(shí)現(xiàn)了視覺(jué)-語(yǔ)義的關(guān)聯(lián)。

猜你喜歡
語(yǔ)句語(yǔ)義特征
重點(diǎn):語(yǔ)句銜接
語(yǔ)言與語(yǔ)義
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
精彩語(yǔ)句
抓住特征巧觀察
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語(yǔ)義模糊
如何搞定語(yǔ)句銜接題
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
建瓯市| 鹤峰县| 工布江达县| 洱源县| 离岛区| 宽城| 横峰县| 岳普湖县| 崇左市| 莱西市| 阿勒泰市| 长泰县| 石棉县| 睢宁县| 奉节县| 阿拉善盟| 万盛区| 阿拉尔市| 缙云县| 大埔县| 舟曲县| 静海县| 阿勒泰市| 泸州市| 永昌县| 龙陵县| 舟曲县| 武宣县| 宜兴市| 宜良县| 江北区| 潜山县| 舟曲县| 偃师市| 灵丘县| 来宾市| 仪征市| 洛宁县| 仁化县| 英山县| 兴文县|