郭文雅 張 瑩 劉勝哲 楊巨峰 袁曉潔
(南開大學計算機學院 天津 300350)
(guowenya@dbis.nankai.edu.cn)
指代短語理解(referring expression comprehension,REC)要求在圖像中定位短語指代的物體[1].REC 可以被廣泛應用于其他視覺理解任務,如視覺問答[2-4]、圖像描述生成[5-7].指代短語理解的核心在于2 個方面:1)找到具有短語中所述類別和屬性的物體;2)根據(jù)短語中定義的物體之間的關系定位正確的區(qū)域.盡管卷積神經網絡,如VGGNet[8]和ResNet[9],能夠很好地識別圖像物體的屬性,但是精確定位短語所描述的關系仍然非常具有挑戰(zhàn)性.
近年來,對關系建模的探索主要集中在2 個方面:文獻[10-12]使用圖來表示圖像中的關系,并據(jù)此定位短語所指的區(qū)域.然而,將圖像轉換為圖的過程中可能會丟失一些微妙但關鍵的信息,并且進一步確定被指代的區(qū)域仍然需要分析復雜的圖結構.在一些其他研究中[1,13-14],研究人員用一種更直接的方式來模擬圖像中物體之間的關系,自適應地提取短語中對關系的描述,并將其與預先定義的視覺特征相關聯(lián).在這類方法中,當前待評估物體(以下稱為“候選物體”)所具備的關系被定義為與其周圍物體(以下稱為“上下文物體”)之間的相對位置.而后,通過基于短語的跨模態(tài)注意力機制學習不同“上下文-候選關系”的權重,根據(jù)得到的權重對“上下文-候選關系”進行聚合,與短語中的文本描述計算匹配分數(shù),以此評估當前候選物體是否為短語所指代的正確區(qū)域,如圖1 所示.
Fig.1 Illustration of relationship aggregation in REC圖1 指代短語理解中的關系聚合示意圖
然而,由于上下文區(qū)域之間并非完全獨立,在指代短語理解中,僅考慮上下文候選關系是不夠的.如圖1 所示,實線框內為當前候選物體,即:模型將要對該物體進行打分,編號為1~5 的5 個物體為當前候選物體周圍的上下文物體.要定位圖像中的“red guy on the left next to 3 others”(左邊的穿著紅衣服挨著另外3 個人的人),模型必須理解并建立2 個關系:“l(fā)eft”(在左邊)和“next to”(挨著).雖然“在左邊”的關系可以從候選物體與其上下文之間的關系推斷出來,但是理解和定位到“穿紅色衣服的人”具體“挨著”什么內容仍然非常具有挑戰(zhàn)性.而目標“3 others”(另外3 個人)是包括編號為2~4 的區(qū)域的整體.當只考慮上下文-候選關系時,編號為2~4 物體被分別單獨處理,很難將它們識別為一個群體.相比之下,由于編號為2~4 的對象彼此接近,利用上下文物體之間的關系,分析它們之間的相對空間關系,很容易就能識別出“另外3 個人”具體包括哪些區(qū)域.綜上所述,在指代短語理解的過程中,考慮上下文之間的相互關系,模型能夠根據(jù)更加完整的信息準確地定位到短語指代的內容.
針對以上問題,本文提出了一個基于注意的關系聚合網絡(relationship aggregation network,RAN)以便更好地建模圖像物體之間的關系.利用候選區(qū)域與上下文區(qū)域的位置關系來表示“上下文-候選”關系,并利用圖注意網絡(graph attention network,GAT)[15-16]來建模上下文區(qū)域之間的關系.在此基礎上,根據(jù)建立的關系與輸入短語的相似度來對建模的關系進行聚合,進而根據(jù)聚合后的關系來衡量當前候選物體的得分.
此外,多項研究表明,注意力機制傾向于關注最重要的內容,容易忽略掉其他的補充信息[14,17],而輸入的指代短語往往會從多個角度描述目標對象(例如,圖1 中的“l(fā)eft”和“next to 3 others”).研究人員嘗試用擦除策略來促使模型從除了最重要的角度外,挖掘更多的有利于找到正確物體的內容[14].但是本文發(fā)現(xiàn),Liu 等人[14]只擦除輸入短語權重最高的一個單詞,這種方法并不能很好地遮蓋掉一個完整的描述物體的角度.因此,本文對其擦除策略進行了改進,自適應地擦除多個單詞以便完全擦除在一個角度上的描述.利用最重要的單詞來定位到該部分的位置,并在其周圍尋找連續(xù)的單詞來進行擦除操作.
綜上所述,本文的貢獻總結為3 方面:
1)提出了一個基于注意的關系聚合網絡,在指代短語理解任務中,同時考慮了“上下文-候選關系”和“上下文-上下文關系”.
2)設計了一種新的擦除策略,可以完整地擦除指代短語中在一個角度上的描述,促使模型利用更多的線索來定位正確的區(qū)域.
3)在3 個常用數(shù)據(jù)集上進行的大量實驗表明,本文提出的方法與最先進的方法相比具有良好的性能.
本節(jié)主要介紹與所提出的方法密切相關的指代短語理解的最新方法.
指代短語理解的目標是在圖像中定位出指代短語所描述的區(qū)域[1].最近的一些工作[18-22]將此任務與指代短語生成任務相關聯(lián),并構建CNN/LSTM 結構來處理圖像區(qū)域和指代短語,不同的上下文信息被用來輔助對視覺信息的理解.在文獻[20]中,整個圖像被用作上下文信息;而在文獻[21]中,多實例學習獲得的區(qū)域被用來建模圖像區(qū)域之間的關聯(lián),類似地,對象之間的差異也用于表示視覺上下文.在文獻[22]中,研究人員構建了一個“表達”-“聽取”的結構,利用2 個任務之間的關聯(lián)建模指代短語和圖像區(qū)域的關系.
另外一些方法側重于衡量輸入短語和視覺區(qū)域特征在公共特征空間中的兼容性[18,23-24].但是這些方法忽略了圖像和指代短語復雜的結構.為了克服這一局限性,一些研究人員對表達式進行分解,并使用模塊化網絡來處理不同的組件.這種模塊化網絡已成功應用于包括視覺問答[25-27]、視覺推理[28-29]和多任務強化學習[30]等多種任務中.在指代短語理解任務中,早期的方法依賴于外部語言解析器[25-26,30],后來一些工作通過注意機制進行語言分解[1,13,31].Hu 等人[13]將表達式解析為主語、關系和賓語.由于并非所有表達式都滿足“主語、關系和賓語”的模板,后來的研究人員提出了更靈活的分解方案.在文獻[1]中,表達式被分解為主語、關系和位置.Wang 等人[31]進一步將圖像中的關系分為同類物體之間的關系和不同類物體之間的關系.除了模塊化的處理方式,另一種對復雜數(shù)據(jù)建模的方法是使用圖結構[10,12,32-33]或樹結構[34]來表示圖像中的區(qū)域和引用表達式中的單詞之間的關系.上述方法都是基于預先提取好的視覺區(qū)域,提取區(qū)域的質量影響模型效果,為了克服這一限制,最近開始有一些研究轉向了單階段的指代短語理解方法,直接從圖像預測被指代的區(qū)域[35-37].
作為一種有效的深度學習技術,注意力機制常被用來提取與圖像相關的文本內容和與語言描述相關的重要圖像區(qū)域[38-40].Deng 等人[38]提出了一種針對指代短語、圖像內容和候選區(qū)域的累積注意機制;而在文獻[40]中,對圖像內容和視覺區(qū)域的注意是并行進行的.最近,Hu 等人[39]利用雙向跨模態(tài)注意模塊更好地學習跨模態(tài)關系.
然而,這些方法主要關注圖像中的視覺內容,而忽略了對象之間的交互作用.為了更好地處理對象間的關系和提升模型對圖像的理解能力,本文提出了一種基于注意的關系聚合網絡.圖注意網絡被用來構建一套完整的關系,從中可以提取關鍵信息內容,以提高學習與文本的匹配效果.
本文提出了一個基于注意的關系聚合網絡來完成指代短語理解任務,通過充分考慮圖像中對象之間的關系來定位輸入短語指代的區(qū)域.如圖2 所示,RAN 首先將輸入圖像表示為一系列物體區(qū)域,為當前候區(qū)域選擇其周圍的5 個鄰居作為上下文區(qū)域,利用LSTM 提取輸入表達式的文本特征,構建物體之間的關系;然后利用注意機制提取和聚集與短語相關的重要關系,聚合這些關系并計算表達式的相似性分數(shù).
Fig.2 Illustration of RAN圖2 關系聚合網絡示意圖
給定一個圖像I包含N個圖像區(qū)域,即I=本文的目標是預測出由給定短語E所指代的區(qū)域R*.本文為所有區(qū)域的計算與短語匹配分數(shù),將分數(shù)最高的區(qū)域作為最終預測結果.
在本節(jié)中,本文計算圖像區(qū)域和輸入指代短語的特征表示,在接下來的關系構建和關系聚合模塊,模型為每個候選區(qū)域(可以是圖像中的任何物體)計算與輸入短語的匹配分數(shù).
1)視覺特征抽取
為了更好地建模對象之間的關系,本文將每個圖像I表示為一系列圖像區(qū)域特征.每個區(qū)域特征包括對應的視覺內容和在原始圖像中的位置特征.與之前做法[14]相同,本文使用以ResNet101[41]為基礎網絡的Faster R-CNN[9]來生成區(qū)域的視覺表示.具體來說,本文從Faster R-CNN 的C3 和C4 層提取特征,C3提取的特征包含低級顏色特征,而C4 包含高級類別特征,最終區(qū)域Ri的視覺特征被表示為vi.為了進一步理解圖像中的空間關系,本文使用一個5 維向量來表示區(qū)域在原始圖像中的絕對位置.區(qū)域的絕對位置表示為
其中(xtl,ytl)和(xbr,ybr)分別用來指代區(qū)域左上角和右下角的坐標.于是,候選物體Ri可以表示為ri=(vi,li).
本文用相對位置來表示區(qū)域之間的關系.對于要評估的當前區(qū)域(即候選區(qū)域),本文在它周圍選擇最多5 個相鄰區(qū)域(即上下文區(qū)域).每個上下文區(qū)域的相對位置可以計算為
那么Ri的第j個上下文區(qū)域的特征可以表示為以下關于關系的操作基于這些獲得的視覺特征以及位置特征進行.
2)短語特征抽取
對于具有m個單詞的短語,本文用預訓練好的Glove[42]向量來表示每一個單詞.整個短語可以表示為一系列單詞向量的集合:沒有在Glove 詞表中的單詞則被隨機初始化.然后本文將單詞的詞向量輸入到雙向LSTM 網絡中,LSTM 隱含層特征維度為dq.此外,為了將短語的特征與圖像相關內容進行關聯(lián),本文用整個圖像的特征v0=CNN(I),來初始化LSTM.將LSTM 輸出的向量作為短語的特征表示,
基于獲得的特征,在本節(jié)中RAN 構造了完備的物體之間的關系,以便更好地理解圖像中的對象與輸入短語之間的關聯(lián).
1)視覺關系構建
2)短語內關系構建
為了更好地建模指代短語中的語義關聯(lián),本文采用了尺度點乘注意力層(scaled dot-product attention,SDPA)和前饋層神經網絡層來計算q中每個元素的重要度,包含查詢Q、關鍵值K和特征值V.尺度點乘注意力計算方法為
其中dk是輸入的查詢Q和關鍵值K.前饋神經網絡層(feed-forward network,F(xiàn)FN)計算方法為:
盡管關系構建模塊可以有效地模擬圖像內部和文本中的關系,但是REC 中還有另外一個關鍵點,即重要區(qū)域與指代短語之間的跨模態(tài)的關聯(lián).如圖1 所示,這些關系對計算當前候選對象和表達式的匹配分數(shù)具有不同的貢獻.在本節(jié)中,本文將介紹如何根據(jù)指代短語抽取關鍵的關系信息.
本節(jié)為每一個候選物體計算與輸入短語的匹配分數(shù).理所當然地,如果當前的候選區(qū)域為短語所指代的區(qū)域,那么它將具有與短語的最高匹配分數(shù).
遵循Yu 等人[1]的做法,本文采用模塊化的方式對區(qū)域的匹配分數(shù)進行計算.除了物體本身的性質外,對于物體所具有的關系,人們通常會使用相對位置來區(qū)別與其同一類別的其他物體(如 “man on the left”).因此,在計算匹配分數(shù)的過程中,使用3 個模塊來對當前候選物體進行評價:主體模塊(以下縮寫為sub)、位置關系模塊(以下縮寫為loc)和其他類型的關系(以下縮寫為rel).這3 個模塊的權重自適應地從輸入短語中學習得來:(wsub,wloc,wrel)=softmax(fc(hm)).
本文利用注意力機制將輸入短語自適應地分解為3 部分qsub,qloc,qrel,分別用來計算不同模塊中的匹配分數(shù).而不同模塊中的視覺特征是區(qū)域的視覺特征以及位置特征衍生出來的.主體模塊用來處理區(qū)域的類別、屬性等信息,不考慮物體之間的關聯(lián),所用的視覺特征為位置關系經常被用來區(qū)分具有相同類別的物體,在位置關系模塊中,本文著重考察物體之間的相對位置關系,使用的視覺特征包括構造的“上下文-候選”關系以及“上下文之間”的關系,即并且其中,fRC(·)和fRA(·)分別代表關系構造模塊和關系聚合模塊.對于不同的模塊,本文利用函數(shù)fm(a,b)=a·b來計算相應的視覺特征和文本內容之間的匹配分數(shù):
最終,當前候選物體的匹配分數(shù)計算為
本文使用三重排序損失(triplet ranking loss)來促使模型為正確的區(qū)域分配更高的分數(shù),并減少錯誤區(qū)域的分數(shù):
除此之外,由于屬性在區(qū)分同類對象中起著重要作用,與Yu 等人[1]相同,本文也增加了屬性學分支來更好地理解表達式中相應的描述.屬性識別使用的標簽是使用現(xiàn)成的語言解析器從表達式中提取的基本屬性.屬性分支被定義為從vi出發(fā),預測區(qū)域所具有的屬性特點.在屬性分支訓練的過程中,本文使用了二分類交叉熵損失函數(shù)(binary-cross-entropy loss)來進行多標簽分類訓練.損失函數(shù)值被定義為Ri第k個屬性的預測概率pik與真實值yik之間的差距:
最終模型的總體損失函數(shù)被定義為
指代短語通常從多個角度來描述視覺內容,可以為REC 提供多種線索,如類別、屬性以及與其他對象的關系等.但是常用的注意力機制往往只捕捉最具辨別力的信息[17].為了克服這一局限性,Liu 等人[14]使用了一種注意力引導的擦除方法來擦除最主要的內容,利用擦除后的數(shù)據(jù)進行訓練,鼓勵模型發(fā)現(xiàn)其他補充線索以找到正確的區(qū)域.
擦除的核心是找到最主要的內容,并擦除它們.對于指代短語理解任務,需要擦除的內容是文本中描述視覺內容的多個角度中的一個.對于視覺特征,Liu 等人[14]根據(jù)學習到的注意權重,對重要網格的視覺特征、位置特征或鄰近區(qū)域的特征進行擦除,是非常全面且有效的.而對于指代短語,權重最高的單詞被替換為占位符單詞“
為了解決上述問題,本文將文本擦除的范圍從一個單詞擴展到多個連續(xù)的單詞,這些單詞可以是對視覺特征在一個角度上的完整描述.本文使用權重最高的詞來尋找最具辨別力的線索的大致位置,然后通過擦除該詞語及其周圍的詞來擦除對于該角度的完整描述.本文方法將線索的最大字數(shù)設置為2,對于輸入短語E,xt代表注意力權重最高的單詞,權重為at.如果xt為名詞或形容詞,則很有可能出現(xiàn)圖3 的情況,此時就需要在xt周圍尋找第2 個待擦除的單詞.本文計算要擦除的第2 個單詞的權值閾值τ=(1 -αt)·σ,其中σ是控制該閾值的參數(shù),具體值根據(jù)實驗來選擇.除了xt之外,如果xt-1和xt+1的權重高于閾值τ,本文就擦除其中權重更高的單詞.如圖3 所示,當本文擦除“white sweater”時,模型只能利用“polka dot skirt”尋找正確區(qū)域,學習到的視覺注意力圖會相應地對相關區(qū)域分配更高的權重.
本節(jié)首先介紹實驗使用的數(shù)據(jù)集和一些實現(xiàn)細節(jié);然后,將本文的方法與現(xiàn)有的指代短語理解方法進行了比較,并通過消融實驗來驗證模型中不同組成部分的有效性;最后,本文在可視化中展示了一些實例,直觀地展示方法效果.
如表1 和表2 所示,本文在3 個常用數(shù)據(jù)集上進行實驗:RefCOCO[52],RefCOCO+[52],RefCOCOg[19].所有數(shù)據(jù)集所用的圖像都是從MSCOCO[53]中收集來的.RefCOCO 和RefCOCO+數(shù)據(jù)集是通過交互式游戲收集的.RefCOCOg 是在非交互設置中注釋的,指代短語比其他數(shù)據(jù)集長(平均長度為8.43 個單詞).RefCOCO 包含142 210 個指代短語,用來描述19 994個圖像中的50 000 個對象;RefCOCO+在19 992 個圖像中有49 856個對象和141 564個指代短語.RefCOCOg 包含25 799個圖像和95 010個指代短語,共有49 822 個被指代的對象.RefCOCO 和RefCOCO+中的每個圖像至少包含2 個相同類別的對象.在RefCOCO+中禁止使用像“l(fā)eft”這樣的絕對位置詞,每張圖像中有2~4 個同類物體.
Table 1 Comparison with the State-of-the-Art Methods for REC Based on Ground-truth Regions表1 與現(xiàn)有的基于真實區(qū)域的指代短語理解方法的比較 %
Table 2 Comparison with the State-of-the-Art Methods for REC Based on Automatically Detected Regions表2 與現(xiàn)有的基于自動檢測區(qū)域的指代短語理解方法的比較 %
RefCOCO 和RefCOCO+被劃分為“train”“val”“testA”“testB”四個集合.“train”集合是用來訓練本文的模型,“val”“testA”“testB”分別用于在不同的角度評估模型.“testA”中的圖像包含多人,“testB”中的圖像包含多個其他類別的對象.圖像中的對象不會在不同的分割之間重疊.RefCOCOg 有2 種類型的劃分:第1 種類型[19]將對象隨機分為“train”“val”“testA”,由于測試集未發(fā)布,因此最近的工作將在驗證集上進行評估,此驗證集表示為“val*”.因為該劃分是基于對象的,所以相同的圖像可能同時出現(xiàn)在“train”“val”集合中.在第2 種劃分方式中[20],圖像分為“train”“val”“testA”集合,本文的實驗采用“val”和“test”進行數(shù)據(jù)劃分.
用于提取候選物體特征表示的Faster R-CNN 是在MSCOCO 的測試集中預訓練的,出現(xiàn)在3 個數(shù)據(jù)集的驗證集和測試集中的圖像沒有參與預訓練過程.采用的dropout 比率為0.1,F(xiàn)aster R-CNN 的參數(shù)在特征抽取過程中是固定的(這部分的實驗設置與文獻[1]相同,因此沒有在實驗部分進行更多驗證).在數(shù)據(jù)規(guī)范化預處理中,與文獻[1]相同,本文為每個標注物體保留最多3 個短語,指代短語的單詞數(shù)m被設置為每一個批次中最大的長度,為候選物體選擇的上下文物體的個數(shù)被設置為5,對于那些不夠5 個上下文物體的情況,用全0 向量進行補齊.短語的詞向量維度dw=300,抽取短語特征的雙向LSTM 的隱含層向量以及經過線性變換后的位置向量維度dq和dv都被設置為512.本文使用Adam 算法來訓練模型,學習率(learning rate)被初始化為0.000 1.本文方法建立在經典的MattNet[1]基礎上.在模型訓練中,本文的所有實驗均在顯存為13 GB 的NVIDIA 2080Ti 顯卡中訓練,訓練策略與Liu 等人[14]的相同,首先在原始數(shù)據(jù)上預訓練提出的RAN 模型(所有模型均訓練15個epoch),然后在擦除后的數(shù)據(jù)中對訓練好的模型進行微調(訓練30 個epoch).為了更好地適應比較短的指代短語,本文將擦除的單詞長度設置為2,即:對于長度大于3 的短語,最多擦除短語中的2 個單詞.
給定指代短語E,RAN 為圖像中的每一個候選區(qū)域計算匹配分數(shù),最終選擇匹配分數(shù)最高的區(qū)域作為定位到的區(qū)域,評價指標為準確率.本文在基于真實區(qū)域和基于檢測區(qū)域2 種實驗設置下與現(xiàn)有的指代短語理解方法進行了比較,實驗結果分別展示在表1 和表2 中.在基于真實區(qū)域的實驗中,候選區(qū)域來自MSCOCO 的原始標注,正確的區(qū)域包含在候選區(qū)域中,因此,只有當正確的區(qū)域被選擇時,才認為模型得到了正確的結果.在基于檢測區(qū)域的設置中,候選區(qū)域為利用Faster R-CNN 檢測的區(qū)域,當模型選擇的區(qū)域與真實區(qū)域的面積交并比(intersection-over-union,IoU)大于0.5 時,則認為模型給出的結果是正確的.
如表1 和表2 所示,在2 種實驗設置下,本文的方法都得到了最佳的性能.整體上,以ResNet101 為基礎網絡的模型效果高于以VGGNet 為基礎網絡的模型,這說明更強大的特征抽取器可以幫助模型更好地理解圖像內容特征,有利于分析物體屬性.與典型的模塊化網絡MattNet[1]相比,RAN 使用的基于注意的關系聚合方法能夠提取更重要的內容,因此匹配分數(shù)與該精確信息相比更準確,從而預測出正確的區(qū)域.此外,基于圖結構[11,31,33]的方法考慮了各區(qū)域之間的復雜關系和表達式之間的關系,模型關系是全面的,但是理解起來也更加復雜;而本文的方法只考慮候選區(qū)域與其鄰域之間的有用關系,消除了整個圖的復雜搜索,從而更方便地聚合了有效信息.另外Ref-NMS[46]是一種針對可插拔的候選物體篩選方法,可以應用在現(xiàn)有的基于檢測的實驗設置中,為了更公平地比較,本文也將其用在了RAN 中,如表2所示,本文的方法取得了最佳的效果.
本文在表3 中顯示了RAN 在指代短語分割(referring expression segmentation,RES)[54-55]中的結果.與Yu 等人[1]一致,本文首先用訓練好的RAN 模型輸出與指代短語匹配分數(shù)最高的區(qū)域,然后本文直接用預測的區(qū)域計算語義分割圖.本文使用P@0.5和交并比(IoU)作為評價指標.P@0.5 表示預測的指代短語分割圖與真實的分割圖的交并比至少為0.5.如表3 所示,與現(xiàn)有方法相比,本文提出的RAN 在2個評價指標中都取得了最好的效果.
Table 3 Comparison with the State-of-the-Art RES Methods表3 與現(xiàn)有的指代短語分割方法的比較 %
本節(jié)進行了一系列消融實驗以說明本文方法中每個模塊的有效性,相關結果見表4,由于RefCOCO+和RefCOCOg 這2 個數(shù)據(jù)集的實驗結果趨勢類似,表4 中只展示了來自RefCOCO 數(shù)據(jù)集的結果.本文的基線模型是MattNet[1],它包含主題、位置和關系模塊.每個模塊的匹配分數(shù)是根據(jù)圖像和表達式中特征的連接來計算的.“RC”是3.2 節(jié)中描述的關系構建模塊,“RA”是3.3 節(jié)中所示的關系聚合模塊,“Erase”為3.6 節(jié)中說明的擦除方法.“√”和“×”表示相應的模塊是否有被使用;“RC-?”表示在進行關系構建時,只考慮上下文-候選關系;“Erase-?1”表示使用Liu 等人[14]提出的擦除方式,即每次只擦除權重最高的1 個單詞;“Erase-?3”表示擦除單詞的個數(shù)設置為3 時的效果.表4 中最后一行為本文提出的RAN 的效果,同時考慮上下文-候選關系和上下文物體之間的關系,在擦除的過程中最多擦除2 個單詞.
Table 4 Results of Ablation Study on RefCOCO Dataset表4 RefCOCO 數(shù)據(jù)集中消融實驗結果
從表4 可以得出3 條結論:1)“RC-?”效果略好于基線模型,說明注意力機制在REC 中是有用的.2)由于同時考慮了多個上下文區(qū)域之間的關系和上下文候選關系,同時使用關系構建模塊和關系聚合模塊進一步提高了性能.3)如表4 最后3 行所示,與其他2 種擦除方式相比,本文的擦除策略可以更好地測試模型、發(fā)現(xiàn)更多的信息,從而提高模型效果,相對于Liu 等人[14]的擦除方式,本文的方法更能完整地擦除短語在一個角度的描述;當擦除的單詞數(shù)設置為3 時,需要短語的單詞數(shù)大于4,而滿足條件的短語數(shù)較少,這影響了擦除策略的效果,正因如此,本文的實驗部分將擦除單詞的最大個數(shù)限制為2.
本節(jié)測試了擦除第2 個單詞采用的閾值中參數(shù)σ對于模型實驗效果的影響.圖4展示了當σ取0.1~0.9 時RAN 在RefCOCO 上的準確率的變化情況.如圖4 所示,當σ=0.5,也就是閾值τ=(1 -αt)×0.5 時,模型效果最好.因此本文其他部分實驗中σ的值都被設置為0.5.
Fig.4 Performance on the validation split of RefCOCO when σ is set as different values圖4 σ 設置為不同值時RefCOCO 的驗證集效果
由于τ控制的是第2 個單詞擦除與否,在一定程度上代表了文本注意力機制是否為第2 個單詞分配了更高的權重.當注意力權重同時為連續(xù)的2 個單詞都分配了較高的權重,說明這2 個單詞大概率具有連貫的語義,例如圖3 中的“white sweater”.σ值較小代表放寬連續(xù)2 個單詞語義連貫性的要求,同時擦除2 個單詞的數(shù)據(jù)比例更高,對模型的微調提出更高的要求,一方面迫使模型發(fā)現(xiàn)更多有用信息,另一方面也可能會影響模型對于整個短語的理解從而限制模型的效果.而σ值較大時效果恰好相反,σ=0.5 恰好是2 方面的折中,因而具有最佳效果.
本文在圖5 中提供了定性結果,它顯示了學習到的候選區(qū)域的視覺注意力結果以及對預測結果貢獻最大的上下文區(qū)域.第1 行是MattNet[1]的結果,第2行是本文RAN 結果.對于圖5(a)的示例,基線模型和RAN 都能根據(jù)短語中描述的物體類別和屬性信息找到正確的區(qū)域.但是對于圖5(b)中的示例,盡管基線模型預測出了正確的區(qū)域,但卻選擇了錯誤的上下文,得到的正確預測結果來自于區(qū)域屬性和類別.相比之下,由于RAN 充分考慮了候選區(qū)域和上下文區(qū)域之間的關系,因此在準確的上下文的基礎上得到了正確的結果.圖5(c)中的示例與圖1 中的示例相同,要求充分理解多個對象之間的關系,找到正確的人需要理解“3 others”的含義,并在上下文區(qū)域中找到他們.RAN 能夠同時對上下文-候選關系和多個上下文區(qū)域之間的關系進行建模,因此能夠從綜合關系中預測正確的區(qū)域.此外,圖5(d)中的指代短語涉及由“alone”一詞隱含地描述與多個對象的關系,基于正確的上下文信息,RAN 也得到了正確的結果.
Fig.5 Visualization of MattNet[1] and RAN on RefCOCO dataset圖5 MattNet[1] 和RAN 在RefCOCO 數(shù)據(jù)集的預測結果可視化
圖6 展示了一些失敗案例.由于輸入的文本短語和視覺內容之間存在語義鴻溝,很難在圖像中準確反映語言線索.如圖6 所示,白色部分在學習的視覺注意中被突出顯示,但是表達中的完整線索是“all white”(全白色).此外,如圖6(b)所示,該短語提到細粒度的類別“woman”(女性),在特征抽取器的預訓練過程中并沒有使用“woman”,基線模型和本文的方法都理解了預測區(qū)域是“man”(人),而不是更加細粒度的類別“man”(男人)和“woman”(女人).因此,模型很難根據(jù)表達式中的類別來區(qū)分具有相同視覺類別的2 個區(qū)域,從而導致錯誤的預測.這個問題在其他跨模態(tài)任務中也很普遍,我們將在今后的工作中努力解決這個問題.
Fig.6 Failure cases圖6 失敗樣例
本文提出了一個關系聚合網絡(RAN)來完成指代短語理解的任務.RAN 模型根據(jù)完備的關系建立了表達區(qū)域和其他圖像區(qū)域之間的映射關系.具體地說,RAN 構建了上下文候選關系和多個上下文區(qū)域之間的關系,利用圖像與指代短語之間的跨模態(tài)對應關系來聚合所構建的關系.此外,本文還設計了一種新的擦除策略,促使模型根據(jù)更多的線索來預測正確的區(qū)域.在3 個數(shù)據(jù)集上的實驗結果表明了該方法的優(yōu)越性.
作者貢獻聲明:郭文雅提出了算法的思路和實驗方案;張瑩完成了論文初稿撰寫;劉勝哲完成論文相關實驗;楊巨峰對論文內容進行潤色;袁曉潔確定了論文最終內容.