国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于預(yù)訓(xùn)練模型的注意力疊加方法及其在圖像字幕生成中的應(yīng)用

2024-01-09 16:54:04倪玉航張杰
關(guān)鍵詞:解碼器字幕編碼器

倪玉航,張杰

(1.江蘇理工學(xué)院機(jī)械工程學(xué)院,江蘇常州 213001;2.江蘇理工學(xué)院計(jì)算機(jī)工程學(xué)院,江蘇常州 213001)

隨著計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域的快速發(fā)展,圖像字幕生成作為一項(xiàng)重要的任務(wù),受到了越來(lái)越多的關(guān)注。圖像字幕生成旨在讓計(jì)算機(jī)自動(dòng)地使用文本對(duì)給定的圖像加以描述,其在圖像檢索、人機(jī)對(duì)話、盲人導(dǎo)航和自動(dòng)安防等領(lǐng)域被廣泛使用[1]。受神經(jīng)機(jī)器翻譯發(fā)展的啟發(fā),注意力機(jī)制已經(jīng)廣泛應(yīng)用于當(dāng)前的編碼器-解碼器圖像字幕框架,并取得了令人矚目的成果。目前的圖像描述框架中,通常是先通過(guò)網(wǎng)絡(luò)將圖像編碼為一組特征向量,然后通過(guò)基于RNN的網(wǎng)絡(luò)解碼為單詞,其中,注意力機(jī)制通過(guò)在每個(gè)時(shí)間步上生成提取的特征向量的加權(quán)平均值來(lái)指導(dǎo)解碼過(guò)程[2]。然而,這些方法存在一定的局限性,如提取的特征不夠充分、注意力容易被誤導(dǎo)等。為了克服這些問(wèn)題,近年來(lái),預(yù)訓(xùn)練模型和對(duì)注意力機(jī)制的改進(jìn)被廣泛應(yīng)用于圖像字幕生成領(lǐng)域。

本文將預(yù)訓(xùn)練模型與注意力疊加相結(jié)合,提出了一種基于預(yù)訓(xùn)練模型和注意力疊加(Attention on Attention)[3]的圖像字幕生成框架,該框架結(jié)合了最新的技術(shù)和模型,用于提高字幕生成的質(zhì)量和性能。具體而言,編碼器部分采用了預(yù)訓(xùn)練的CLIP(Contrastive Language-Image Pre-Training)[4]模型及精煉模塊,用于提取更好的圖像特征。在解碼器部分,采用了預(yù)訓(xùn)練的GPT-2[5]模型、LSTM[6]模型和注意力疊加模塊,以更準(zhǔn)確地生成字幕。首先,將原始圖像輸入CLIP模型中,獲得圖像的特征信息;然后,將原始圖像特征輸入精煉模塊,以獲取更好的經(jīng)過(guò)改進(jìn)的圖像特征,將與圖像配對(duì)的真實(shí)字幕文本輸入GPT-2 中,獲得文本輸入特征;最后,將改進(jìn)后的圖像特征和文本特征輸入LSTM 模型中,生成相應(yīng)的圖像描述。在公共圖像數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,基于預(yù)訓(xùn)練模型和注意力疊加的圖像字幕生成框架相比傳統(tǒng)方法具有更好的性能。

1 相關(guān)工作

1.1 圖像字幕生成

圖像字幕生成作為一項(xiàng)跨模態(tài)的任務(wù),近年來(lái)吸引了大量研究者的關(guān)注。通常,圖像字幕生成模型首先將輸入圖像編碼為特征向量,然后使用這些向量生成最終的單詞序列[7]。早期的圖像描述方法采用基于模板或基于檢索的方法。基于模板的方法是指在預(yù)設(shè)的模板字幕文本上采用填詞的方法來(lái)生成字幕,這種方法通常通過(guò)檢測(cè)圖像中的對(duì)象、屬性和動(dòng)作來(lái)填充模板中的空白部分,從而生成語(yǔ)法正確的字幕文本。然而,這種方法只能在預(yù)定義的模板上操作,缺乏靈活性?;跈z索的方法通過(guò)檢索現(xiàn)有的字幕文本數(shù)據(jù)庫(kù)來(lái)生成字幕文本,這種方法首先在文本數(shù)據(jù)庫(kù)中查找公共特征子空間中距離較近的語(yǔ)句文本,然后將其作為候選字幕輸出,這種方法不受預(yù)定義模板的限制,更加靈活。

近期主要采用基于深度神經(jīng)網(wǎng)絡(luò)的方法,具體來(lái)說(shuō),是利用受神經(jīng)機(jī)器翻譯發(fā)展啟發(fā)的深度編碼器-解碼器框架。Vinyals等人[8]提出了一個(gè)端到端的框架,其中CNN 將圖像編碼為特征向量,LSTM 將其解碼為描述語(yǔ)句。Xu 等人[9]將CNN 特征圖上的空間注意力機(jī)制用于融合視覺(jué)上下文。Lu等人[10]提出了一種基于空間注意力和通道注意力的模型。Yao等人[11]在編碼器-解碼器框架中引入了自適應(yīng)注意力機(jī)制,以決定何時(shí)激活視覺(jué)注意。隨后,更復(fù)雜的信息,如對(duì)象、屬性和關(guān)系,被整合到圖像描述中,以生成更好的描述。

1.2 預(yù)訓(xùn)練模型

近年來(lái),預(yù)訓(xùn)練模型的出現(xiàn)將計(jì)算機(jī)視覺(jué)(CV)和自然語(yǔ)言處理(NLP)等單模態(tài)領(lǐng)域帶入了一個(gè)新時(shí)代。大量的工作表明,預(yù)訓(xùn)練模型有益于下游單模態(tài)任務(wù),并避免了從頭開始訓(xùn)練一個(gè)新模型。近來(lái),研究人員發(fā)現(xiàn)預(yù)訓(xùn)練模型可以應(yīng)用于跨模態(tài)任務(wù),包括跨模態(tài)檢索與跨模態(tài)生成。以跨模態(tài)檢索[12-15]為例,預(yù)訓(xùn)練模型通過(guò)在大規(guī)模的多模態(tài)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)到了豐富的跨模態(tài)表示[16]。這些表示不僅包含了圖像、文本、音頻等單模態(tài)特征,還能夠捕捉到不同模態(tài)之間的語(yǔ)義關(guān)聯(lián)和相似性。

CLIP 模型用于聯(lián)合表示圖像和文本描述。CLIP模型包括2個(gè)編碼器,一個(gè)用于視覺(jué),另一個(gè)用于文本。CLIP模型在無(wú)監(jiān)督的對(duì)比損失引導(dǎo)下訓(xùn)練了超過(guò)4億個(gè)圖像-文本對(duì),生成了豐富的語(yǔ)義潛空間,同時(shí),適用于視覺(jué)和文本數(shù)據(jù)。許多工作已經(jīng)成功地使用CLIP 模型進(jìn)行需要理解某些輔助文本的計(jì)算機(jī)視覺(jué)任務(wù),例如:基于自然語(yǔ)言條件生成或編輯圖像。本文利用CLIP 模型的圖像編碼器進(jìn)行輸入圖像的特征提取任務(wù)。

GPT-2模型是一種強(qiáng)大的自然語(yǔ)言處理預(yù)訓(xùn)練模型,其使用了改進(jìn)的transformer 架構(gòu),并通過(guò)大規(guī)模的無(wú)監(jiān)督語(yǔ)言模型預(yù)訓(xùn)練來(lái)建立語(yǔ)言的深層次理解。預(yù)訓(xùn)練過(guò)程中,GPT-2 模型在大量的文本數(shù)據(jù)上進(jìn)行自我監(jiān)督學(xué)習(xí),以預(yù)測(cè)下一個(gè)詞的概率分布。預(yù)訓(xùn)練完成后,GPT-2 模型可以用于各種下游NLP任務(wù),例如文本生成、文本分類和命名實(shí)體識(shí)別等。為了對(duì)輸入的真實(shí)字幕描述進(jìn)行嵌入表示,本文使用GPT-2 模型進(jìn)行文本特征提取任務(wù)。這一過(guò)程可以更好地幫助解碼器理解輸入字幕描述的語(yǔ)義信息,并為后續(xù)的文本生成任務(wù)提供更加準(zhǔn)確和有用的文本特征。

2 方法

本節(jié)首先介紹了注意力疊加(Attention on Attention,簡(jiǎn)稱AoA)模塊,然后展示了如何將預(yù)訓(xùn)練模型和注意力疊加模塊結(jié)合起來(lái),應(yīng)用在圖像編碼器和字幕解碼器中,從而構(gòu)建出基于預(yù)訓(xùn)練的注意力疊加方法的圖像字幕生成模型。

2.1 注意力疊加

注意力機(jī)制[17]源于人類的直覺(jué),已廣泛應(yīng)用于各種序列學(xué)習(xí)任務(wù),并取得了重大的進(jìn)展。在注意力機(jī)制中,首先,為每個(gè)候選向量計(jì)算重要性分?jǐn)?shù);然后,使用softmax 函數(shù)將分?jǐn)?shù)歸一化為權(quán)重;最后,將這些權(quán)重應(yīng)用于候選向量以生成注意力結(jié)果,即加權(quán)平均向量。另外,還有許多已經(jīng)被應(yīng)用在圖像字幕生成領(lǐng)域的其他注意力機(jī)制,例如:空間和通道注意力[18]、堆疊注意力[19]、多級(jí)注意力[20]、多頭注意力和自注意力[21]。

如圖1(a)所示,注意力模塊fatt(Q,K,V)接收查詢向量Q(queries)、鍵向量K(keys)和值向量V(values),并對(duì)它們進(jìn)行操作以生成加權(quán)平均向量?。首先,測(cè)量Q 和K 之間的相似性;然后,使用相似性得分計(jì)算V 上的加權(quán)平均向量??梢员硎緸椋?/p>

式中:qi是Q 中第i 個(gè)查詢,kj是K 中第j 個(gè)鍵;vj是V 中第j 個(gè)值;fsim是計(jì)算每個(gè)qi和kj相似性得分的函數(shù);而? 是查詢qi所關(guān)注的向量。

注意力模塊對(duì)每個(gè)查詢都會(huì)輸出加權(quán)平均向量,不論查詢和鍵值對(duì)之間是否存在關(guān)聯(lián)。即使沒(méi)有相關(guān)的向量存在,注意力模塊仍然會(huì)生成加權(quán)平均向量V?,這可能會(huì)產(chǎn)生不相關(guān)甚至誤導(dǎo)性的信息。

因此,可以利用AoA 模塊來(lái)衡量注意力結(jié)果與查詢之間的關(guān)聯(lián),如圖1(b)所示。AoA 模塊通過(guò)2個(gè)單獨(dú)的線性變換生成“信息向量”i 和“注意力門控”g,這兩個(gè)變換都是在注意力結(jié)果和當(dāng)前上下文(即查詢)q 的條件下進(jìn)行的,公式如下:

AoA 模塊通過(guò)將注意力門控應(yīng)用于信息向量,使用逐元素乘法添加了另一個(gè)注意力,得到所關(guān)注的信息?:

其中,⊙表示逐元素乘法,整個(gè)AoA 的流程可以表示為:

2.2 基于預(yù)訓(xùn)練模型和注意力疊加的字幕生成模型

本文提出了一種基于預(yù)訓(xùn)練模型與注意力疊加的圖像字幕生成模型,采用編碼器-解碼器的框架,其中編碼器和解碼器均嵌入了AoA 模塊。編碼器部分由預(yù)訓(xùn)練的CLIP 模型及帶有AoA 的精煉模塊構(gòu)成,用于提取圖像特征;解碼器部分由預(yù)訓(xùn)練的GPT-2 模型、LSTM 模型及AoA 構(gòu)成,用于生成圖像字幕。整體框架圖如圖2 所示。

圖2 基于預(yù)訓(xùn)練模型與注意力疊加的圖像字幕生成模型框架

2.2.1 圖像字幕編碼器

本文對(duì)輸入的一張圖片I ,使用CLIP 模型提取一組圖像特征向量A={a1,a2,a3,…,ak},其中,ai∈?D,k 是向量集合A 中向量的數(shù)量,D 是每個(gè)向量的維度。

為了提高編碼器中特征的表示能力,在編碼器部分引入精煉模塊對(duì)編碼器輸出的特征進(jìn)行進(jìn)一步的處理。精煉模塊中包含了一個(gè)AoA 模塊,用于對(duì)原始圖像特征進(jìn)行精煉,如圖3 所示。編碼器中的AoA 模塊采用了多頭注意力機(jī)制,其中Q,K 和V 是特征向量A 的3 個(gè)獨(dú)立線性投影。AoA 模塊之后接殘差連接和層歸一化,具體如下:

圖3 圖像字幕生成模型編碼器的精煉模塊

其中:WQe、WKe和WVe是3 個(gè)大小為D×D 的線性變換矩陣;fmh-att是多頭注意力函數(shù)。將每個(gè)輸入的Q、K 、V 沿通道維度分為h 份,本文中h=8,并對(duì)每個(gè)分片Qi、Ki、Vi應(yīng)用縮放的點(diǎn)積注意力函數(shù)fdot-att,最后,將每個(gè)分片的結(jié)果連接起來(lái),形成最終的注意力向量。具體如下:在這個(gè)精煉模塊中,多頭注意力模塊旨在尋找圖像中對(duì)象之間的交互關(guān)系,并應(yīng)用AoA 來(lái)度量它們之間的相關(guān)性。在精煉后,更新圖像特征向量A →A'。精煉模塊不改變A 的維度,因此可以堆疊N 次(本文中N=6)。

2.2.2 圖像字幕解碼器

解碼器利用精煉后的圖像特征A 生成字幕序列y ,如圖4 所示。為了計(jì)算詞匯表上的條件概率,建立一個(gè)上下文向量ct:

圖4 圖像字幕生成模型解碼器框架

其中: I是輸入的圖片;Wp是待學(xué)習(xí)的權(quán)重參數(shù),Wp∈?D×|∑|;|∑|是詞匯表的大小。

上下文向量ct包含了解碼器當(dāng)前的狀態(tài)以及利用注意力模塊得到的最新信息,注意力模塊可以是單頭或多頭注意力,其關(guān)注特征向量并與LSTM的輸出ht結(jié)合生成上下文向量ct。

解碼器中的LSTM 模型用于實(shí)現(xiàn)字幕解碼過(guò)程,LSTM的輸入包括當(dāng)前時(shí)間步的輸入單詞嵌入以及視覺(jué)向量(a+ct-1)。其中,輸入單詞嵌入由GPT-2模型的嵌入層輸出,a 表示圖像特征向量,ct-1表示上一時(shí)間步的上下文向量(在初始步驟時(shí),ct-1初始化為全零向量)。解碼過(guò)程可表示為:

其中:We是詞嵌入矩陣,We∈?E×|∑|,|∑|表示詞匯表的大??;∏t是時(shí)間步t 時(shí)輸入單詞wt的獨(dú)熱編碼。

如圖4所示,對(duì)于AoA解碼器,ct是從被標(biāo)記為AoAD的AoA模塊中獲?。?/p>

其中:WQd、WKd、WVd均為D×D 的線性變換矩陣;ht和mt為L(zhǎng)STM 的隱藏狀態(tài),且ht用作注意力查詢。

2.3 訓(xùn)練過(guò)程

在自然語(yǔ)言處理領(lǐng)域中,交叉熵?fù)p失是一種常用的損失函數(shù),用于衡量模型在分類任務(wù)中的預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽之間的差異。圖像描述生成任務(wù)可以將其看作是一個(gè)序列到序列的問(wèn)題,模型需要將圖像編碼用向量表示,然后使用該向量作為輸入,生成對(duì)應(yīng)的自然語(yǔ)言描述。為了訓(xùn)練一個(gè)良好的圖像描述生成模型,通常需要最小化交叉熵?fù)p失函數(shù),以使模型能夠盡可能準(zhǔn)確地預(yù)測(cè)每個(gè)詞的概率分布,從而生成最佳的自然語(yǔ)言描述。

AdamW 算法是一種變種的Adam 優(yōu)化算法,在標(biāo)準(zhǔn)Adam算法的基礎(chǔ)上增加了權(quán)重衰減項(xiàng),旨在緩解模型過(guò)擬合的問(wèn)題。相比于其他優(yōu)化算法,AdamW 算法在實(shí)驗(yàn)中表現(xiàn)出更快的收斂速度和更好的訓(xùn)練效果,使得模型能夠更好地生成精準(zhǔn)的字幕描述。與傳統(tǒng)的隨機(jī)梯度下降(SGD)法相比,AdamW 算法能夠更好地處理訓(xùn)練數(shù)據(jù)中的噪聲和稀疏性,并更快地達(dá)到收斂狀態(tài)。在本文中,采用AdamW 算法來(lái)優(yōu)化模型參數(shù),以最小化交叉熵?fù)p失函數(shù):

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集及參數(shù)設(shè)置

本實(shí)驗(yàn)在流行的MSCOCO 數(shù)據(jù)集和Flickr30k 數(shù)據(jù)集上評(píng)估了本文所提出的方法。MSCOCO 數(shù)據(jù)集和Flickr30k 數(shù)據(jù)集分別包含123 287 和31 014 張圖像,每張圖像都標(biāo)有5 個(gè)字幕。實(shí)驗(yàn)使用離線的“Karpathy”數(shù)據(jù)拆分進(jìn)行離線性能比較,并將所有句子轉(zhuǎn)換為小寫,刪除出現(xiàn)次數(shù)少于5 次的單詞。經(jīng)過(guò)處理后的數(shù)據(jù)分布如表1 所示。本實(shí)驗(yàn)中設(shè)置模型的Epoch為20,batch size 為10,迭代次數(shù)為6 000。

表1 不同數(shù)據(jù)集參數(shù)對(duì)比

3.2 參數(shù)分析

學(xué)習(xí)率是深度學(xué)習(xí)模型中的重要超參數(shù),控制著模型在每一輪迭代中參數(shù)的更新步長(zhǎng),模型在最佳參數(shù)下會(huì)收斂到最優(yōu)。因此,本文針對(duì)模型的學(xué)習(xí)率進(jìn)行了實(shí)驗(yàn),使用了CIDEr-D 和METEOR 指標(biāo)來(lái)評(píng)估模型性能。本文將學(xué)習(xí)率分別設(shè)置為1e-2、1e-3、1e-4 和1e-5,對(duì)不同學(xué)習(xí)率條件下的本文模型進(jìn)行了對(duì)比,并將Epoch統(tǒng)一設(shè)置為20。圖5展示了在不同學(xué)習(xí)率條件下模型性能的變化趨勢(shì),從實(shí)驗(yàn)結(jié)果中可以觀察到,學(xué)習(xí)率的大小對(duì)模型的性能有著顯著的影響。

圖5 學(xué)習(xí)率對(duì)CIDEr-D 和METEOR的影響

當(dāng)學(xué)習(xí)率設(shè)置為1e-2 時(shí),模型在初始迭代階段的學(xué)習(xí)步長(zhǎng)較大,可能導(dǎo)致模型在訓(xùn)練過(guò)程中發(fā)生震蕩,難以穩(wěn)定地收斂到最優(yōu)解。因此,模型性能最差,CIDEr-D 和METEOR 指標(biāo)得分最低。當(dāng)學(xué)習(xí)率設(shè)置為1e-3時(shí),模型的學(xué)習(xí)步長(zhǎng)適中,能夠較快地收斂到一定程度的最優(yōu)解。實(shí)驗(yàn)結(jié)果顯示,此時(shí)模型在測(cè)試數(shù)據(jù)上取得了較好的性能,CIDEr-D 和METEOR 指標(biāo)得分較高。當(dāng)學(xué)習(xí)率設(shè)置為1e-4時(shí),模型的學(xué)習(xí)步長(zhǎng)較小,可能導(dǎo)致模型收斂速度過(guò)慢,需要更多的迭代次數(shù)才能達(dá)到較好的性能。因此,相比于1e-3,模型在測(cè)試數(shù)據(jù)上的表現(xiàn)稍遜,CIDEr-D 和METEOR 指標(biāo)得分有所下降。當(dāng)學(xué)習(xí)率設(shè)置為1e-5 時(shí),模型的學(xué)習(xí)步長(zhǎng)非常小,導(dǎo)致模型在訓(xùn)練過(guò)程中很難更新參數(shù),這將導(dǎo)致模型陷入局部最優(yōu)或者無(wú)法收斂。因此,模型性能有所下降,CIDEr-D 和METEOR 指標(biāo)得分較低。

綜上所述,在本文的模型中,學(xué)習(xí)率的選擇對(duì)于模型的性能至關(guān)重要。合理地選擇學(xué)習(xí)率可以幫助模型更快地收斂到最優(yōu)解并取得較好的性能。在本實(shí)驗(yàn)中,學(xué)習(xí)率設(shè)置為1e-3時(shí)表現(xiàn)最佳。

3.3 對(duì)比方法

本實(shí)驗(yàn)使用不同的評(píng)價(jià)指標(biāo),包括BLEU、METEOR、ROUGE-L、CIDEr-D 和SPICE 來(lái)評(píng)估所提出的方法,并與主流方法進(jìn)行比較。這些方法包括:(1)NIC,該模型使用CNN 對(duì)圖像進(jìn)行編碼,并使用LSTM進(jìn)行解碼;(2)SCST[22],該模型采用改進(jìn)的視覺(jué)注意力并首次使用SCST 直接優(yōu)化評(píng)估指標(biāo);(3)FCLN[23],該模型使用完全卷積的定位網(wǎng)絡(luò)來(lái)同時(shí)檢測(cè)和描述圖像中的對(duì)象區(qū)域;(4)Clip-Prefix[24],該模型采用了全新的前綴結(jié)構(gòu),將圖像特征表示嵌入文本空間中作為前綴;(5)Up-Down[25],該模型采用兩層LSTM模型,并使用從FasterRCNN提取的自底向上特征;(6)AAT[26],該模型引入了自適應(yīng)注意力時(shí)間,通過(guò)動(dòng)態(tài)確定生成每個(gè)字幕單詞所需的注意力步驟數(shù)量,實(shí)現(xiàn)了更靈活和準(zhǔn)確的圖像字幕生成。

3.4 定量結(jié)果分析

以下是本文模型(Pretrained-AoA)在公共離線測(cè)試集上的表現(xiàn),以及與其他基準(zhǔn)模型進(jìn)行比較的結(jié)果,所有的值都是表示百分值(詳見表2)。由于BLEU- n(其中n 代表n-gram,如BLEU-1、BLEU-2、BLEU-3、BLEU-4)的分?jǐn)?shù)在一個(gè)特定的文本生成任務(wù)中的升降趨勢(shì)是一致的,即隨著n的增加,BLEU 分?jǐn)?shù)會(huì)逐漸降低。BLEU-1 關(guān)注的是單個(gè)詞語(yǔ)的匹配,而BLEU-4關(guān)注的是4個(gè)連續(xù)詞語(yǔ)的匹配。因此,本實(shí)驗(yàn)選擇了BLEU-1 和BLEU-4 作為評(píng)價(jià)指標(biāo)。這樣既考慮到了不同類型的匹配,以確保實(shí)驗(yàn)結(jié)果客觀準(zhǔn)確,又可以使表格結(jié)果更為簡(jiǎn)潔明了。

表2 模型在Flickr30k和MSCOCO測(cè)試集上的性能表現(xiàn)

為了對(duì)比實(shí)驗(yàn)的公平性,所有的模型都是在交叉熵(XE)損失下進(jìn)行訓(xùn)練的。與其他基準(zhǔn)模型相比,本文模型在多個(gè)評(píng)估標(biāo)準(zhǔn)中均取得了最優(yōu)的性能。與Up-Down 模型相比,本文模型在MSCOCO 數(shù)據(jù)集和Flickr30k 數(shù)據(jù)集上的性能都有顯著的提升。與Up-Down 模型相比,在MSCOCO 數(shù)據(jù)集上,本文模型在BLEU-1、METEOR 和CIDEr-D 指標(biāo)上分別提高了3.2%、1.7%和11.6%。由于CIDEr-D 評(píng)價(jià)指標(biāo)更加注重文本的連貫性和相關(guān)性,而且其處理重復(fù)詞匯的方式與其他指標(biāo)有所不同。本文模型在文本生成質(zhì)量方面表現(xiàn)卓越,生成的文本更接近人工標(biāo)注的真實(shí)字幕。此外,本文模型還有效地處理了文本中的重復(fù)詞匯,這進(jìn)一步提高了CIDEr-D 分?jǐn)?shù)。因此,本文模型在CIDEr-D 指標(biāo)上表現(xiàn)較為突出。在Flickr30k 數(shù)據(jù)集上,在相同的評(píng)估標(biāo)準(zhǔn)下,模型的性能分別提高了1.6%、1.5%、11.3%。相對(duì)主流方法中的基準(zhǔn)模型,本文方法展現(xiàn)了更為優(yōu)越的性能,這主要得益于引入了預(yù)訓(xùn)練模型和注意力疊加方法。預(yù)訓(xùn)練模型在編碼器和解碼器部分的應(yīng)用使模型可以提取到更高層次的特征信息,并且注意力疊加模塊的添加使模型得以專注于圖像中的關(guān)鍵區(qū)域。因此,基于預(yù)訓(xùn)練模型的注意力疊加方法使得模型在生成字幕時(shí)能夠更好地捕捉圖像的語(yǔ)義信息,產(chǎn)生更具描述性和準(zhǔn)確性的字幕。由表2 的結(jié)果可知,本文模型在Flickr30k 和MSCOCO 數(shù)據(jù)集上CIDEr-D 指標(biāo)的值分別為61.4%和119.3%,比第二名的模型分別提高了0.9 個(gè)百分點(diǎn)和9.2 個(gè)百分點(diǎn)。此外,本文模型在其他4 種指標(biāo)上的得分相較于第二名的模型都有了不同程度的提升。實(shí)驗(yàn)結(jié)果表明,本文模型在Flickr30k 和MSCOCO 數(shù)據(jù)集上的表現(xiàn)均優(yōu)于其他所有對(duì)比方法。

3.5 定性分析

表3 展示了由本文提出的基于預(yù)訓(xùn)練模型的注意力疊加方法的圖像字幕生成模型和一個(gè)基準(zhǔn)模型生成的圖像和字幕示例,以及人工標(biāo)注的真實(shí)字幕。通過(guò)重新實(shí)現(xiàn)Up-Down 模型來(lái)得到基準(zhǔn)模型,從這些示例中可以發(fā)現(xiàn)基準(zhǔn)模型生成的字幕在語(yǔ)言邏輯上是符合的,但與圖像內(nèi)容不是特別符合,而本文的模型生成了高質(zhì)量且準(zhǔn)確的字幕。具體來(lái)說(shuō),在以下2 個(gè)方面優(yōu)于基準(zhǔn)模型:(1)對(duì)象描述更準(zhǔn)確。在第1個(gè)例子中,本文提出的模型正確地描述了年輕男子在人行道上騎著滑板的情景,而基準(zhǔn)模型僅僅將他們描述為站在滑板上。在第2個(gè)例子中,本文提出的模型準(zhǔn)確地描述了一群人站在大象旁邊,而基準(zhǔn)模型只提到了一群大象站在一起。這表明本文提出的模型能夠更準(zhǔn)確地理解圖像中的對(duì)象和它們的位置關(guān)系。(2)對(duì)象互動(dòng)理解更好。在第3 個(gè)例子中,本文的模型準(zhǔn)確地描述了浴室的組成部分,而基準(zhǔn)模型則簡(jiǎn)單地提到了2 個(gè)洗手盆。在第4 個(gè)例子中,本文的模型準(zhǔn)確地描述了一盞紅色的交通燈鄰近一座高樓,而基準(zhǔn)模型只是簡(jiǎn)單地描述了一盞紅色的交通燈在城市街道上。這表明本文提出的模型能夠更好地理解圖像中對(duì)象之間的互動(dòng)和環(huán)境背景。

表3 本文提出的模型和基準(zhǔn)模型生成的字幕示例,以及相應(yīng)的真實(shí)字幕

總而言之,本文提出的模型在對(duì)象描述和對(duì)象互動(dòng)理解上比基準(zhǔn)模型更準(zhǔn)確。通過(guò)使用預(yù)訓(xùn)練模型和注意力疊加的方法,該模型能夠更好地理解圖像內(nèi)容并生成準(zhǔn)確、細(xì)致的字幕描述。與基準(zhǔn)模型相比,本文提出的模型通過(guò)使用多個(gè)預(yù)訓(xùn)練模型,如CLIP 和GPT-2,結(jié)合LSTM 經(jīng)典模型,從輸入圖像中提取特征,并使用精煉模塊進(jìn)行特征優(yōu)化,同時(shí),注意力疊加機(jī)制使模型能夠聚焦于圖像中的重要區(qū)域,并生成更具描述性的字幕。

3.6 消融實(shí)驗(yàn)

為了驗(yàn)證本文模型的有效性和探究基于預(yù)訓(xùn)練模型的注意力疊加方法的作用,本文進(jìn)行了一系列消融實(shí)驗(yàn),結(jié)果如表4 所示。本文的模型由CLIP、GPT-2、LSTM 以及注意力疊加模塊組成,實(shí)驗(yàn)以Up-Down模型為基準(zhǔn)模型。本實(shí)驗(yàn)分別對(duì)基準(zhǔn)模型進(jìn)行了不同的設(shè)置,并在MSCOCO 數(shù)據(jù)集上進(jìn)行了性能評(píng)估,分別驗(yàn)證CLIP、GPT-2和注意力疊加模塊對(duì)整個(gè)模型的作用,所有變體模型的設(shè)置均在表4中展現(xiàn)。

表4 消融實(shí)驗(yàn)的設(shè)置和結(jié)果

本實(shí)驗(yàn)將模型主要分成以下幾個(gè)部分:(1)基準(zhǔn)+CLIP。為了驗(yàn)證CLIP 模型的作用,該模型將基準(zhǔn)模型編碼器中的ResNet 模型換成CLIP模型。(2)基準(zhǔn)+GPT-2。該模型使用了GPT-2 進(jìn)行文本特征提取,其余部分采用基準(zhǔn)模型的設(shè)置。(3)基準(zhǔn)+注意力疊加模塊。為了驗(yàn)證注意力疊加方法的有效性,該模型在基準(zhǔn)模型的基礎(chǔ)上添加了注意力疊加模塊。

從表4可以看出,基于預(yù)訓(xùn)練模型和注意力疊加方法的圖像字幕生成模型在不同設(shè)置下性能都有所提升。其中,基準(zhǔn)+CLIP 模型在BLEU-1、METEOR 和CIDEr-D 指標(biāo)上分別提升了3.2%、6.0%和5.5%,證明了基于CLIP模型的編碼器提取特征的有效性。基準(zhǔn)+ GPT-2 模型在BLEU-1、METEOR 和CIDEr-D 指標(biāo)上分別提升了2.8%、2.6%和4.3%,驗(yàn)證了GPT-2 模型對(duì)文本嵌入的有效性?;鶞?zhǔn)+注意力疊加模塊的模型在BLEU-1、METEOR 和CIDEr-D 指標(biāo)上分別提升了3.1%、5.2%和8.5%,注意力疊加方法能夠使模型聚焦于圖像中的重要區(qū)域,消融實(shí)驗(yàn)證明了其有效性。完整的圖像字幕生成模型在BLEU-1、METEOR和CIDEr-D 指標(biāo)上分別提升了4.3%、6.3%以及10.8%。實(shí)驗(yàn)結(jié)果表明,采用預(yù)訓(xùn)練模型以及注意力疊加方法能夠有效地提高模型的性能,使模型能夠生成更加準(zhǔn)確自然的圖像描述。

4 結(jié)語(yǔ)

圖像字幕生成是一項(xiàng)復(fù)雜的跨模態(tài)任務(wù),其質(zhì)量的提升需要依賴準(zhǔn)確的模型設(shè)計(jì)和優(yōu)化。本文致力于改進(jìn)圖像字幕生成任務(wù),提出了一種基于預(yù)訓(xùn)練模型的注意力疊加方法的圖像字幕生成框架。相較于傳統(tǒng)的CNN 和RNN 組合,該框架充分利用了更多的數(shù)據(jù)和特征,從而提高了模型的性能和效果。通過(guò)在公共數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn),驗(yàn)證了基于預(yù)訓(xùn)練模型的注意力疊加方法的圖像字幕生成模型框架具有更出色的性能。

猜你喜歡
解碼器字幕編碼器
Word和Excel聯(lián)手字幕添加更高效
科學(xué)解碼器(一)
科學(xué)解碼器(二)
科學(xué)解碼器(三)
線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
基于FPGA的同步機(jī)軸角編碼器
基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
整合適應(yīng)選擇度下的動(dòng)畫電影字幕翻譯——以《冰河世紀(jì)》的字幕漢譯為例
論紀(jì)錄片的字幕翻譯策略
人間(2015年22期)2016-01-04 12:47:26
JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
電子器件(2015年5期)2015-12-29 08:42:24
且末县| 宜兴市| 承德县| 宜阳县| 铜鼓县| 县级市| 秦皇岛市| 吉林省| 武安市| 印江| 孝昌县| 麻栗坡县| 平邑县| 神木县| 莎车县| 兰坪| 海原县| 忻州市| 翼城县| 丹凤县| 北流市| 余江县| 包头市| 罗平县| 会泽县| 揭阳市| 武城县| 朝阳市| 苗栗县| 县级市| 巴林左旗| 台江县| 南康市| 康乐县| 兴化市| 泸西县| 和硕县| 德安县| 平乐县| 丘北县| 昭通市|