魏慶為, 張麗紅
(山西大學(xué) 物理電子工程學(xué)院, 山西 太原 030006)
圖像分割是圖像識別和目標分類至關(guān)重要的預(yù)處理方法. 目前, 基于深度學(xué)習(xí)的圖像分割方法主要有3種: 語義分割、 實例分割和全景分割. 但這些方法僅僅是利用了圖像特征, 沒有涉及文本信息, 在分割過程中經(jīng)常會出現(xiàn)類別數(shù)量分割錯誤, 或是相同類別區(qū)域顏色不同的問題.
近年來, 基于文本表達的圖像分割方法取得了較好的成果. 通過文本信息可以指導(dǎo)網(wǎng)絡(luò)對圖像進行針對性分割, 打破了以往方法中只對圖像本身進行處理的局限性. Hu等人利用一個端到端的可訓(xùn)練網(wǎng)絡(luò)框架, 結(jié)合圖像特征和文本特征, 得到了較粗糙的像素級分類[1]; Wu等人提出了模塊化方法, 將類別、 屬性和相關(guān)聯(lián)的視覺特征進行結(jié)合, 但是分割精度不高[2]; Ye等人利用跨模態(tài)自注意模塊來捕捉視覺和文本之間長期的依賴關(guān)系, 使分割目標得到較好的特征表示[3]; Huang等人提出一種新的跨模態(tài)漸進理解模型, 通過文本引導(dǎo)的特征交換模塊經(jīng)多路通信實現(xiàn)信息交流[4]. 雖然這些方法在一定程度上實現(xiàn)了圖像特征和文本特征的融合, 但是仍然存在視覺和文本難以對齊的問題; 而且目前的研究大都是將指向性目標檢測和目標分割視為兩個獨立的任務(wù), 分別進行處理, 沒能實現(xiàn)兩個任務(wù)之間的信息交互, 從而導(dǎo)致了網(wǎng)絡(luò)的推理速度緩慢[5].
為解決上述問題, 本文使用多模態(tài)融合方法來處理視覺特征和文本特征, 同時設(shè)計的協(xié)同網(wǎng)絡(luò)結(jié)構(gòu)將指向性目標檢測和目標分割聯(lián)合起來, 不僅解決了視覺和文本的對齊問題, 而且還提高了網(wǎng)絡(luò)的訓(xùn)練速度, 實現(xiàn)了更好的分割效果.
多任務(wù)協(xié)同網(wǎng)絡(luò)整體框架包括兩個部分: 協(xié)同網(wǎng)絡(luò)部分和后處理部分, 網(wǎng)絡(luò)具體結(jié)構(gòu)如圖 1 所示. 其中協(xié)同網(wǎng)絡(luò)使得指向性目標檢測和目標分割兩個任務(wù)之間相互學(xué)習(xí), 同時使用協(xié)同能量最大化方法解決了指向性目標檢測和目標分割之間的預(yù)測分歧問題. 此外, 本文使用目標區(qū)域裁剪的后處理方法, 得到最終的預(yù)測結(jié)果.
圖 1 多任務(wù)協(xié)同網(wǎng)絡(luò)整體框架
協(xié)同網(wǎng)絡(luò)首先使用卷積神經(jīng)網(wǎng)絡(luò)darknet53提取多尺度的視覺特征. 其中, darknet53網(wǎng)絡(luò)包含卷積層、 激活層和池化層, 共有53層卷積, 網(wǎng)絡(luò)的卷積核大小設(shè)置為1×1和3×3, 步長設(shè)置有1和2, 填充設(shè)置有0和1. 網(wǎng)絡(luò)輸出3個不同尺度的檢測圖, 用于檢測不同大小的物體. 同時, 使用雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)編碼文本特征, 然后, 將視覺特征和文本特征經(jīng)過多模態(tài)特征融合, 生成多尺度多模態(tài)特征, 將多模態(tài)特征通過自下而上的連接方式分別輸入到指向性目標檢測和目標分割兩個分支中, 增強兩個任務(wù)的共同學(xué)習(xí). 最后使用協(xié)同能量最大化方法連接這兩個分支, 通過最大化損失優(yōu)化兩個分支的響應(yīng)一致性.
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)是以序列數(shù)據(jù)為輸入, 在序列的演進方向進行遞歸的神經(jīng)網(wǎng)絡(luò)[6]. 但是過擬合和梯度彌散等現(xiàn)象會使得RNN無法建模較長的序列. 雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)(bi-directional gated recurrent neural network, Bi-GRU)是雙向長短時記憶網(wǎng)絡(luò)(bi-directional Long Short-Term Memory, Bi-LSTM)的延伸, 是將Bi-LSTM中的LSTM模塊替換為GRU[7]. GRU是將詞嵌入向量和隱藏層, 狀態(tài)向量經(jīng)過門控計算, 得到最終的輸出向量和隱藏層狀態(tài)向量. 相比于RNN, Bi-GRU的參數(shù)量較少, 同時泛化效果更好, 因此, 在大型語料文本中應(yīng)用廣泛. 本文使用雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)提取文本特征, 其中, GRU單元內(nèi)部結(jié)構(gòu)如圖 2 所示.
圖 2 GRU單元內(nèi)部結(jié)構(gòu)Fig.2 Unit internal structure of GRU
更新門為
zt=σ(Wz·[ht-1,xt]).
(1)
重置門為
rt=σ(Wt·[ht-1,xt]).
(2)
t時刻隱藏點的待選值為
(3)
GRU單元t時刻隱藏點激活值為
(4)
在視覺特征和文本特征融合過程中, 由于文本表達式的多樣化, 本文采用了自適應(yīng)特征選擇的方法, 通過文本表達式的內(nèi)容, 自適應(yīng)地融合不同尺度的視覺特征[8]. 其中多尺度視覺特征為Fv1∈Rw1×h1×d1,Fv2∈Rw2×h2×d2和Fv3∈Rw3×h3×d3, 自適應(yīng)特征選擇如圖 3 所示.
圖 3 自適應(yīng)特征選擇Fig.3 Adaptive feature selection
自適應(yīng)特征選擇是將卷積神經(jīng)網(wǎng)絡(luò)提取的k個多尺度圖像特征通過卷積等操作, 將多尺度特征轉(zhuǎn)換成同等尺寸, 之后通過文本特征ft預(yù)訓(xùn)練的權(quán)重參數(shù)對圖像特征進行加權(quán)求和, 得到輸出的視覺特征, 最后將得到的視覺特征輸入到指向性目標檢測分支中. 該模塊自適應(yīng)地融合不同尺度的視覺特征, 同時也強化了模型對文本表達式的理解能力. 最終得到的特征為
(5)
式中:αi是文本特征ft的預(yù)訓(xùn)練權(quán)重.
圖 4 多模態(tài)特征融合Fig.4 Multimodal features fusion
目前, 大多數(shù)基于文本的分割方法是將指向性目標檢測和目標分割作為兩個獨立的模塊, 分成兩個階段完成. 本文將指向性目標檢測和目標分割結(jié)合成一個階段, 提高了模型的推理速度. 指向性目標檢測是根據(jù)給定的文本表達式, 通過邊界框來固定目標對象. 通常情況下, 指向性目標檢測是從圖片中檢測出目標區(qū)域, 再使用多模態(tài)交互的方法找出圖片中最符合的區(qū)域. 大多數(shù)方法使用目標檢測器先提取視覺特征, 再利用語言特征進行交互. 雖然這種方法性能較高, 但是計算效率低下. 指向性目標分割常用的方法是對文本進行編碼, 再將編碼后的文本特征輸入到分割網(wǎng)絡(luò), 但是難以得到精確的分割掩碼.
事實上, 指向性目標檢測有助于指向性目標分割正確定位分割對象, 同時, 指向性目標分割利用像素級標簽, 使得指向性目標檢測更好地實現(xiàn)視覺和文本的對齊. 因此, 本文使用指向性目標檢測和目標分割兩個分支共同學(xué)習(xí)的方法, 使得二者相互增強, 互為補充, 從而達到較好的效果. 在指向性目標檢測分支中, 使用回歸層來預(yù)測置信度得分和檢測邊界框的位置, 目標檢測的損失函數(shù)
(6)
在指向性目標分割分支中, 本文通過使用精細化的多模態(tài)張量和改進的空洞空間金字塔池化模塊來預(yù)測分割掩碼. 目標分割的損失函數(shù)
(7)
式中:h3和w3分別表示特征Fv3的高度和寬度;gl和ol分別表示對應(yīng)真實值的元素和預(yù)測掩碼.
基于文本表達式理解的圖像分割中常見的問題是預(yù)測分歧, 即: 指向性目標檢測分支未能正確理解文本描述, 導(dǎo)致錯誤地固定圖像中的檢測目標, 如圖 5(a) 所示; 或者是指向性目標分割未能對邊界框中目標對象進行正確分割, 如圖 5(b) 所示.
圖 5 預(yù)測分歧Fig.5 Prediction conflict
為了解決上述預(yù)測分歧問題, 本文使用了協(xié)同能量最大化的方法, 如圖 6 所示.
(8)
圖 6 協(xié)同能量最大化Fig.6 Consistency energy maximization
(9)
最終得到協(xié)同能量最大化
(10)
為了確保指向性目標檢測和目標分割兩個任務(wù)的響應(yīng)一致性, 本文通過定義協(xié)同能量最大化損失函數(shù)來優(yōu)化它們的注意力張量, 損失函數(shù)
(11)
式中:h1和w1分別表示特征Fv1的高度和寬度;h3和w3分別表示特征Fv3的高度和寬度;C(i,j)表示最大化的協(xié)同能量.
網(wǎng)絡(luò)的總損失函數(shù)包括協(xié)同能量最大化損失、 指向性目標檢測損失和目標分割損失3個部分. 總損失函數(shù)
lall=lres+lrec+lcem.
(12)
空洞空間金字塔池化(Atrous Spatial Pyramid Pooling, ASPP)主要用于圖像或視頻的分割[8]. ASPP是對網(wǎng)絡(luò)的輸出特征進行多尺度信息提取, 以多個比例捕捉圖像的上下文信息, 然后將輸出的特征映射采用不同膨脹率的空洞卷積進行并行采樣. 通常是采用1×1的卷積來改善輸出通道, 再采用3個具有不同膨脹率的3×3卷積. ASPP模塊中的空洞卷積消除了下采樣操作導(dǎo)致的信息損失, 同時還增大了網(wǎng)絡(luò)的感受野. 但是ASPP模塊中多個3×3卷積會增加參數(shù)的計算量, 造成信息冗余, 在訓(xùn)練中通常會消耗較長時間. 為此, 本文對ASPP模塊做出了必要的改進. 具體是將ASPP模塊中3×3的空洞卷積分解成兩個3×1和1×3的卷積, 將分解后的特征f1,f2,f3,f4和f5組合得到最終的特征f. 該方法在不改變膨脹率的情況下減少了參數(shù)量, 提高了網(wǎng)絡(luò)的訓(xùn)練速度, 改進的ASPP模塊如圖 7 所示.
圖 7 改進的ASPP模塊Fig.7 Improved ASPP module
在指向性目標檢測和目標分割任務(wù)完成之后, 需要進行后處理操作. 為了使得指向性目標分割能夠準確分割目標對象, 本文采用Faster R-CNN網(wǎng)絡(luò)中目標區(qū)域裁剪(ROI Crop)方法[9]. 首先, 指向性目標檢測利用文本表達式檢測出目標對象, 同時指向性目標分割用于輸出分割概率圖; 然后, 利用檢測的邊界框定位分割概率圖中的目標對象, 進而對分割圖進行裁剪; 最后, 將裁剪的目標對象經(jīng)二值化處理得到目標的分割掩碼.
實驗采用RefCOCO數(shù)據(jù)集和RefCOCO+數(shù)據(jù)集, 二者均是基于MSCOCO數(shù)據(jù)集收集的. RefCOCO數(shù)據(jù)集包含來自MSCOCO數(shù)據(jù)集中的19 994張圖片, 有142 210個引用表達式用于50 000個邊界框. 該圖片數(shù)據(jù)集被分為訓(xùn)練集、 驗證集、 測試集A和測試集B, 分別具有120 624, 10 834, 5 657和5 095個樣本. 這些表達式通過交互式游戲界面收集, 短句的平均長度為3.5個單詞.
RefCOCO+數(shù)據(jù)集包含來自MSCOCO數(shù)據(jù)集中的19 992張圖片, 有141 564個引用表達式用于49 856個邊界框. 與RefCOCO數(shù)據(jù)集類似, 該圖片數(shù)據(jù)集被分為訓(xùn)練集、 驗證集、 測試集A和測試集B, 分別具有120 191, 10 758, 5 726和4 889個樣本.
實驗中使用精度(precision)作為指向性目標檢測的評價指標. 精度的具體意義是查出所有正樣本的準確率. 在目標檢測任務(wù)中, 正例通常是希望在圖像中被檢測出的對象, 負例通常是除正例之外的背景. 精度
(13)
式中:TP表示將正例預(yù)測為正類的樣本數(shù);FP表示將負類預(yù)測為正類的樣本數(shù)(誤檢).
對于指向性目標分割的評估, 使用交并比(IoU)作為評價指標. 交并比是圖像分割常用的評價指標, 其計算真實值和預(yù)測值表示的兩個集合的交集和并集之比, 如圖 8 所示.
圖 8 交并比Fig.8 Intersection-over-Union
交并比
(14)
實驗在RefCOCO數(shù)據(jù)集和RefCOCO+數(shù)據(jù)集上進行. 表 1 是使用本文方法與其他方法在驗證指向性目標檢測任務(wù)上的精度對比. 其中, MattNet方法利用Faster R-CNN網(wǎng)絡(luò)來檢測目標對象[10]. 從表 1 可以看出, 與常用方法相比, 本文方法的檢測效果更好, 在RefCOCO數(shù)據(jù)集的測試集A上檢測精度可達到82.30%.
表 1 本文模型與其他模型在兩個數(shù)據(jù)集上的檢測結(jié)果對比
表 2 是使用本文方法與目前方法在驗證指向性目標分割任務(wù)上的準確率對比. 其中, MattNet方法利用Mask R-CNN網(wǎng)絡(luò)對圖像進行分割, 得到像素級的分類. CMSA方法使用門控多級融合模塊, 結(jié)合不同層次的視覺特征來生成圖像的分割掩碼. 從表 2 可以看出, 與目前方法相比, 本文方法的分割效果較好, 在RefCOCO數(shù)據(jù)集的測試集A上分割準確率可達到63.20%.
表 2 本文模型與其他模型在兩個數(shù)據(jù)集上的分割結(jié)果對比
網(wǎng)絡(luò)在訓(xùn)練時輸入圖片的批量大小設(shè)置為4, 學(xué)習(xí)率設(shè)置為0.05. 在RefCOCO數(shù)據(jù)集上訓(xùn)練的總損失函數(shù)曲線如圖 9 所示, 從圖 9 中可以看出, 隨著迭代次數(shù)增加, 函數(shù)變化趨于平穩(wěn).
圖 9 損失函數(shù)曲線Fig.9 Loss function curve
本文方法在RefCOCO數(shù)據(jù)集和RefCOCO+數(shù)據(jù)集上的預(yù)測結(jié)果如圖 10 所示. 圖 10 中的第1列表示輸入的原始圖像, 第2列表示使用本文方法得到的預(yù)測結(jié)果, 第3列表示標注的真實圖像.
圖 10 本文方法在RefCOCO和RefCOCO+數(shù)據(jù)集上的預(yù)測結(jié)果Fig.10 Predictions of this method on the RefCOCO andRefCOCO+ datasets
本文研究了基于文本表達的指向性目標分割分析方法, 模型中的協(xié)同網(wǎng)絡(luò)將多模態(tài)特征輸入到指向性目標檢測和指向性目標分割分支中, 促進二者共同學(xué)習(xí), 采用自適應(yīng)特征選擇方法自適應(yīng)地融合不同尺度的視覺特征, 增強模型對文本表達式的理解能力, 引入?yún)f(xié)同能量最大化方法解決了多任務(wù)結(jié)構(gòu)中的預(yù)測分歧問題. 同時, 改進的ASPP模塊極大地減少了網(wǎng)絡(luò)參數(shù)量, 提高了訓(xùn)練速度.