林浩然 劉春黔 薛榕融 謝勛偉 雷印杰
摘 要:為了解決語義分割應(yīng)用到現(xiàn)實世界的下游任務(wù)時無法處理未定義類別的問題,提出了指稱圖像分割任務(wù)。該任務(wù)根據(jù)自然語言文本的描述找到圖像中對應(yīng)的目標(biāo)?,F(xiàn)有方法大多使用一個跨模態(tài)解碼器來融合從視覺編碼器和語言編碼器中獨立提取的特征,但是這種方法無法有效利用圖像的邊緣特征且訓(xùn)練復(fù)雜。CLIP(contrastive language-image pre-training)是一個強(qiáng)大的預(yù)訓(xùn)練視覺語言跨模態(tài)模型,能夠有效提取圖像與文本特征,因此提出一種在頻域融合CLIP編碼后的多模態(tài)特征方法。首先,使用無監(jiān)督模型對圖像進(jìn)行粗粒度分割,并提取自然語言文本中的名詞用于后續(xù)任務(wù);接著利用CLIP的圖像編碼器與文本編碼器分別對圖像與文本進(jìn)行編碼;然后使用小波變換分解圖像與文本特征,可以充分利用圖像的邊緣特征與圖像內(nèi)的位置信息在頻域進(jìn)行分解并融合,并在頻域分別對圖像特征與文本特征進(jìn)行融合,并將融合后的特征進(jìn)行反變換;最后將文本特征與圖像特征進(jìn)行逐像素匹配,得到分割結(jié)果,并在常用的數(shù)據(jù)集上進(jìn)行了測試。實驗結(jié)果證明,網(wǎng)絡(luò)在無訓(xùn)練零樣本的條件下取得了良好的效果,并且具有較好的魯棒性與泛化能力。
關(guān)鍵詞:指稱圖像分割; CLIP; 小波變換; 零樣本
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A?文章編號:1001-3695(2024)05-040-1562-07
doi:10.19734/j.issn.1001-3695.2023.08.0387
Zero-shot referring image segmentation based onmultimodal feature frequency domain fusion
Abstract:In order to solve the problem that semantic segmentation cannot handle undefined categories when applied to downstream tasks in the real world, it proposed referring image segmentation to find the corresponding target in the image according to the description of natural language text. Most of the existing methods use a cross-modal decoder to fuse the features extracted independently from the visual encoder and language encoder, but these methods cannot effectively utilize the edge features of the image and are complicated to train. CLIP is a powerful pre-trained visual language cross-modal model that can effectively extract image and text features. Therefore, this paper proposed a method of multimodal feature fusion in the frequency domain after CLIP encoding. Firstly, it used an unsupervised model to segment images, and extracted nouns in natural language text for follow-up task. Then it used the image encoder and text encoder of CLIP to encode the image and text respectively. Then it used the wavelet transform to decompose the image and text features,and decomposed and fused in the frequency domain which could make full use of the edge features of the image and the position information in the image, fused the image feature and text feature respectively in the frequency domain, then inversed the fused features. Finally, it matched the text features and image features pixel by pixel, and obtained the segmentation results, and tested on commonly used data sets. The experimental results prove that the network has achieved good results without training zero samples, and has good robustness and generalization ability.
Key words:referring image segmentation; CLIP; wavelet transform; zero-shot
0 引言
語義分割(semantic segmentation)是計算機(jī)視覺中的基本任務(wù),是按照“語義”給圖像上目標(biāo)類別中的每一點打一個標(biāo)簽,使得不同種類的東西在圖像上被區(qū)分開來,需要將視覺輸入分為不同的語義可解釋類別。語義分割可以用于醫(yī)學(xué)圖像中檢測疾病和身體損傷,也可以用于檢測城市街景。語義分割技術(shù)還可以幫助自動駕駛汽車提高對道路上物體的識別能力,從而更好地保障行車安全。
近年來,以深度學(xué)習(xí)為中心的機(jī)器學(xué)習(xí)技術(shù)引起了人們的關(guān)注。比如汽車自動駕駛已經(jīng)逐漸成為可能,但在整個深度學(xué)習(xí)過程,需要算法識別原始數(shù)據(jù)提供的圖像,在這一過程中,就需要用到語義分割技術(shù)。
現(xiàn)有的語義分割網(wǎng)絡(luò)能夠在測試集上有效實現(xiàn)分割的功能,但是現(xiàn)有網(wǎng)絡(luò)在應(yīng)用到現(xiàn)實世界的下游任務(wù)時存在很多局限性,現(xiàn)實世界中存在著大量訓(xùn)練時未見過的類別,這些網(wǎng)絡(luò)無法處理未定義的類別,因此實現(xiàn)這些未定義類別的分割具有挑戰(zhàn)性,進(jìn)而提出了指稱圖像分割(referring image segmentation,RIF)[1]。這個任務(wù)能夠在給定描述區(qū)域的自然語言文本的條件下在圖像中找到與自然語言文本匹配的特定區(qū)域,其目標(biāo)是對自然語言表達(dá)所描述的物體進(jìn)行分割。通過一段自然語言表述(query)在圖像中分割出對應(yīng)實例,在人機(jī)交互、照片編輯等場景有著廣泛應(yīng)用。
解決指稱圖像分割問題的一個常用方法是利用一個強(qiáng)大的視覺語言(“跨模態(tài)”)解碼器來融合從視覺編碼器和語言編碼器中獨立提取的特征。最近方法利用Transformer[2]作為跨模態(tài)解碼器在多種視覺語言任務(wù)中獲得了顯著的成功。CLIP(contrastive language-image pre-training)[3]是一個對比語言-圖像預(yù)訓(xùn)練模型,具有強(qiáng)大的跨模態(tài)編碼能力,是一種可以同時處理文本和圖像的預(yù)訓(xùn)練模型。CLIP的核心思想是學(xué)習(xí)圖像和文本之間的匹配關(guān)系來提高模型的性能。CLIP基于多模態(tài)對比學(xué)習(xí),與計算機(jī)視覺中常用的一些對比學(xué)習(xí)方法如MoCo[4]和SimCLR[5]不同的是,CLIP的訓(xùn)練數(shù)據(jù)是文本-圖像對,因此本文考慮使用CLIP來提取文本與圖像的特征。但是CLIP只能提取圖像的粗粒度特征,想要找到文本對應(yīng)的區(qū)域需要預(yù)先將圖像進(jìn)行分割,將分割后的掩碼進(jìn)行編碼后與文本進(jìn)行匹配。FreeSOLO[6]是一種完全無監(jiān)督的學(xué)習(xí)方法,可以在沒有任何注釋的情況下對實例進(jìn)行分割。但是直接融合經(jīng)過CLIP編碼的圖像特征與分割后的圖像特征,無法充分利用圖像的邊緣信息。小波變換是一種在頻域進(jìn)行信號處理的方式,當(dāng)用于圖像處理時,小波變換的高通濾波器可以提取圖像的邊緣特征,低通濾波器可以有效利用數(shù)據(jù)之間的信息,因此可以用于細(xì)粒度的特征處理。文獻(xiàn)[7]使用小波變換來對丟失的人臉特征進(jìn)行提取,使人臉圖像更加清晰。文獻(xiàn)[8]提出了一種多級離散小波融合的方法,能夠有效地融合特征。
當(dāng)使用前述方法進(jìn)行指稱圖像分割時,都存在著特征與文本難以匹配或者圖像特征提取不充分的問題。因此,本文提出了一種使用小波變換在頻域融合通過CLIP提取圖像與文本特征的方法,用于zero-shot的指稱圖像分割。
1 相關(guān)工作
1.1 語義分割
語義分割是將像素按照圖像中表達(dá)語義含義的不同進(jìn)行分割,如將原始圖像中不同類別的像素分配相應(yīng)的標(biāo)簽。語義分割的目標(biāo)是將語義標(biāo)簽分配給圖像中的每個像素,其中語義標(biāo)簽通常包括不同范圍的物體類別(人、狗、公共汽車、自行車)和背景成分(天空、道路、建筑物、山)。不同于目標(biāo)檢測和識別,語義分割實現(xiàn)了圖像像素級的分類,能夠?qū)⒁粡垐D片或者視頻(視頻以幀來提取的話其實就是圖片),按照類別的異同,分為多個塊。
語義分割的開山之作FCN[9]第一次將卷積用于語義分割并進(jìn)行了不同尺度的信息融合。U-Net[10]解決了小樣本的分割問題并實現(xiàn)了更加豐富的信息融合。SegNet[11]為了防止信息丟失,提出了一種帶有坐標(biāo)的池化。DeepLab[12]提出了帶孔卷積并引入ASPP(atrous spatial pyramid pooling)結(jié)構(gòu),融合了不同層級的特征,還添加了一個簡單有效的解碼器模塊來修正分割結(jié)果,并將深度可分離卷積用于ASPP提升網(wǎng)絡(luò)運算速度。文獻(xiàn)[13]提出了一種使用空洞卷積融合多級特征信息的方法,不斷迭代深層特征來豐富低級視覺信息,并與高級語義特征融合,得到精細(xì)分割結(jié)果的方法。文獻(xiàn)[14]使用了輕量化卷積神經(jīng)網(wǎng)絡(luò),在樣本數(shù)量較少的條件下實現(xiàn)了SAR圖像的語義分割。
1.2 視覺與語言編碼
視覺編碼是指將圖像輸入到神經(jīng)網(wǎng)絡(luò)中,通過一系列的操作,將圖像轉(zhuǎn)換成一定維度的向量,這個向量就是圖像的特征向量。視覺編碼的目的是將圖像信息轉(zhuǎn)換為機(jī)器可以理解和處理的形式,以便于后續(xù)的任務(wù)處理。語言編碼同理,是為了將自然語言文本轉(zhuǎn)換為計算機(jī)能夠處理的形式。
指稱圖像分割的目的是在給定輸入的自然語言表達(dá)的情況下,對圖像中的目標(biāo)物體進(jìn)行分割。對于該任務(wù),目前已經(jīng)提出了幾種全監(jiān)督的方法[15~19],其中使用圖像和文本作為輸入,并給出目標(biāo)掩碼進(jìn)行訓(xùn)練。大多數(shù)研究[15,16]的重點是如何融合從獨立編碼器中提取的不同模態(tài)特征。早期的研究[17,18]通過簡單地拼接視覺和文本特征來提取多模態(tài)特征,并將其輸入文獻(xiàn)[9]提出的分割網(wǎng)絡(luò),以此預(yù)測分割mask。文獻(xiàn)[16]提出了基于注意力機(jī)制的編碼器融合多模態(tài)特征,還有使用基于Transformer解碼器的跨模態(tài)解碼器融合多模態(tài)特征[15]方法的文獻(xiàn)。最近,已經(jīng)提出了一種基于CLIP的方法[19],該方法使用對比預(yù)訓(xùn)練學(xué)習(xí)分離的圖像和文本轉(zhuǎn)換器。這些全監(jiān)督的指稱圖像分割方法總體上表現(xiàn)出良好的性能,但需要對目標(biāo)掩碼進(jìn)行密集的標(biāo)注和對目標(biāo)對象進(jìn)行全面描述。為了解決這個問題,Strudel等人[20]提出了一種弱監(jiān)督指稱圖像分割方法,該方法使用基于文本的圖像級監(jiān)督學(xué)習(xí)分割模型。然而,該方法仍然需要對特定數(shù)據(jù)集的圖像進(jìn)行高級引用表達(dá)式注釋。Yu等人[21]提出了一種無訓(xùn)練的方法,使用CLIP對全局-局部上下文特征進(jìn)行提取實現(xiàn)了分割,但是在圖像的特征提取方面仍然可以改進(jìn)。因此本文使用CLIP的編碼器提取特征并在頻域進(jìn)行特征融合。
1.3 指稱圖像分割
指稱圖像分割需要在給定描述區(qū)域的自然語言文本條件下,在圖像中找到與自然語言文本匹配的特定區(qū)域,現(xiàn)有方法中通常有兩個步驟:a)分別從文本和圖像輸入中提取特征;b)融合多模態(tài)特征來預(yù)測分割掩碼。在第一個過程中,之前方法采用遞歸神經(jīng)網(wǎng)絡(luò)和Transformer[22]對文本輸入進(jìn)行編碼。為了對輸入圖像進(jìn)行編碼,在之前的方法中先后使用了vanilla全卷積網(wǎng)絡(luò)[1]、Deeplab v3[12]和DarkNet[23],目的是學(xué)習(xí)判別表示。多模態(tài)特征融合是現(xiàn)有方法的一個關(guān)鍵環(huán)節(jié)。文獻(xiàn)[1]提出了第一種串聯(lián)操作的方法;文獻(xiàn)[18]采用循環(huán)策略對其進(jìn)行了改進(jìn);文獻(xiàn)[24]通過各種注意機(jī)制對語言和視覺特征之間的跨模態(tài)關(guān)系進(jìn)行建模;文獻(xiàn)[25]利用句子結(jié)構(gòu)知識捕獲多模態(tài)特征中的不同概念(如類別、屬性、關(guān)系等);文獻(xiàn)[22]利用詞間的句法結(jié)構(gòu)指導(dǎo)多模態(tài)上下文聚合。本文采用一種使用已有CLIP的編碼器對圖像和文本進(jìn)行編碼的方法,可以實現(xiàn)無訓(xùn)練、零樣本的圖像分割。
2 整體框架
為了解決指稱圖像分割任務(wù),首先要學(xué)習(xí)投影到多模態(tài)嵌入空間中的圖像與文本特征。為此,本文提出頻域融合指稱圖像分割方法(frequency domain fusion referring-image-segmentation,F(xiàn)DFR),采用CLIP[3]的圖像和文本編碼器來處理圖像和自然語言的跨模態(tài)特征。網(wǎng)絡(luò)框架由三部分組成,如圖1所示:a)用于圖像特征的CLIP編碼器;b)用于文本特征的CLIP自然語言編碼器;c)用于頻域融合的小波變換特征處理器。給定一組由FreeSOLO[6]生成的預(yù)測掩碼,本文首先對每個預(yù)測掩碼進(jìn)行裁剪,使用CLIP對裁剪后的特征以及完整的圖像進(jìn)行編碼,在頻域?qū)煞N編碼特征進(jìn)行分解并將分解后的特征融合,再進(jìn)行反變換得到圖像特征。輸入文本使用NLTK提取到名詞,使用CLIP對完整的自然語言文本和名詞進(jìn)行編碼,使用1D的小波變換對文本進(jìn)行處理并在頻域融合后進(jìn)行反變換提取到文本特征,最后將特征進(jìn)行匹配得到分割結(jié)果。
本文會詳細(xì)介紹模型的各個模塊。首先展示方法的總體框架,然后給出具體的圖像特征與文本特征的提取方法,提取全局特征與局部特征并進(jìn)行融合的方法,總體框架如圖1所示。
2.1 多模態(tài)特征提取
指稱圖像分割任務(wù)需要充分利用圖像特征,因為CLIP是為了學(xué)習(xí)粗粒度圖像級表示設(shè)計的,不支持細(xì)粒度像素級的表征,并不能直接適用于完成圖像分割的任務(wù),對此本文采用一種提取分割后圖像的局部特征的匹配方式。本文首先使用FreeSOLO對輸入的圖像進(jìn)行分割來獲取分割后的圖像,后續(xù)使用CLIP的編碼器對分割后的圖像進(jìn)行處理。
對于每一個預(yù)測掩碼,F(xiàn)DFR首先使用CLIP預(yù)訓(xùn)練模型提取并進(jìn)行編碼。然而,CLIP的原始圖像特征處理器是使用單一的特征向量來描述整個圖像。為了解決這個問題,需要對CLIP中的圖像編碼器進(jìn)行修改,以提取包含被遮擋區(qū)域和周圍區(qū)域信息的特征,學(xué)習(xí)多個對象之間的特性。
CLIP具有兩種圖像編碼器,分別使用了ResNet和Vision Transformer(ViT)兩種不同的架構(gòu)。本文使用了兩種編碼器對特征進(jìn)行處理并對比結(jié)果。
其中:image是輸入的圖像;CLIPresnet-50和CLIPvit-B/32分別代表了使用CLIP的ResNet-50和Vit-B/32兩種不同架構(gòu)的編碼器;fv-res和fv-vit表示的兩種編碼器分別對圖像的編碼結(jié)果。
上一步本文得到了分割后的圖像,對分割后的圖像和原本的圖像同時使用相同的CLIP編碼器處理,得到flocal和fglobal兩種特征,用于后續(xù)在頻域的特征融合。
與圖像的處理相似,CLIP的文本編碼器在訓(xùn)練時使用的是僅有少量單詞的短句,因此缺乏上下文的語義理解能力,無法應(yīng)對復(fù)雜的長句,所以需要對自然語言文本中的名詞進(jìn)行提取,并與分割后的圖像進(jìn)行匹配。因此本文輸入完整的文本并使用NLTK提取文本中的名詞,可以表示為
textnoun=NLTK(text)(2)
其中:text是輸入的完整文本;textnoun是使用NLTK提取后的名詞,使用CLIP的文本編碼器分別對文本和名詞進(jìn)行處理獲得文本特征。
其中:fsentence代表完整文本的特征;fnoun代表名詞特征。后續(xù)將對得到的完整文本特征與名詞特征進(jìn)行融合。
2.2 頻域特征融合
提取到需要的圖像特征后,此時的邊緣特征是不完善的,使用這樣的圖像特征與文本特征直接進(jìn)行匹配,無法有效判斷文本描述的內(nèi)容在圖像中的位置,并且難以辨別圖像中相似的內(nèi)容,導(dǎo)致分割結(jié)果出現(xiàn)誤差。為了有效利用邊緣特征以及判別圖像中的相似內(nèi)容,需要進(jìn)一步對特征進(jìn)行處理,采取哈爾變換[26]來實現(xiàn)并融合。哈爾變換(圖2)包含了一個高通濾波器(high pass filter)和一個低通濾波器(low pass filter),其中高通濾波器用于提取邊緣特征,低通濾波器用于圖像近似。
本文將前面得到的圖像特征與分割后的圖像特征均使用哈爾小波進(jìn)行分解,可以得到低頻與高頻的特征,分別對低頻與高頻的特征進(jìn)行融合(圖2),再進(jìn)行反變換得到用于對比的圖像特征。
哈爾小波的母小波可以表示為
且對應(yīng)的尺度函數(shù)可以表示為
其濾波器h[n]被定義為
使用式(8)對特征進(jìn)行處理。
其中:f是輸入的前面使用CLIP編碼的特征;α和τ代表尺度因子和平移量。
利用小波變換得到flocal和fglobal在頻域的特征fl_wave和fg_wave,在頻域?qū)μ卣鬟M(jìn)行融合:fw=λfl_wave+(1-λ)fg_wave(9)
其中:fw是在頻域融合后的頻域特征;λ是在[0,1]的超參數(shù)。使用小波逆向變換,將頻域特征變換為融合后的圖像特征:
其中:fv是逆變換后得到的圖像特征,這里的小波函數(shù)ξ(t)是一個滿足正交條件的函數(shù),即
其中:δ(t)是單位沖激函數(shù)。
和上面的圖像特征相似,在頻域進(jìn)行融合并逆變換,因為文本特征維度的緣故,這里使用1D小波變換。將前面得到的自然語言特征與名詞特征使用1D小波進(jìn)行分解得到高頻與低頻特征,并分別對高頻與低頻特征進(jìn)行融合(圖3),再進(jìn)行反變換得到用于對比的文本特征,如圖3所示。
其中:DWT1D代表1D小波變換;fs_wave和fnoun_wave分別是完整文本和名詞文本在頻域的特征。
其中:ft是逆變換后的最終文本特征;IDWT1D代表逆變換。
2.3 文本-圖像匹配
通過上面的操作,能夠得到融合后的圖像特征fv和文本特征ft。給定圖像和文本特征的輸入,通過計算余弦相似度對比所有的預(yù)測掩碼與文本特征,在所有預(yù)測掩碼中找到其圖像特征與文本特征之間相似性最高的掩碼,這個相似性最高的掩碼即為分割的結(jié)果。
pred=arg max sim(fv,ft)(15)
其中:pred是匹配的預(yù)測掩碼結(jié)果;fv是融合后的圖像特征;ft是融合后的文本特征;sim是計算兩種特征的余弦相似度。
余弦相似度計算公式如下:
通過余弦相似度的匹配計算,可以找出和文本特征相似度最高的預(yù)測掩碼,也就是分割結(jié)果。
3 實驗與分析
3.1 數(shù)據(jù)集介紹
實驗訓(xùn)練使用的數(shù)據(jù)集是RefCOCO、RefCOCO+[27]、RefCOCOg[28],這三個數(shù)據(jù)集是三個從MS COCO(Microsoft common objects in context)中選取圖像和參考對象的可視化接地數(shù)據(jù)集。
a)RefCOCO數(shù)據(jù)集。共有19 994幅圖像,包含142 209個引用表達(dá)式,包含50 000個對象實例。遵循train/validation/test A/test B的拆分,testA中的圖像包含多人,testB中的圖像包含所有其他對象。每個文本表達(dá)式平均3.5個單詞,平均每張圖像具有1.6個對象。
b)RefCOCO+數(shù)據(jù)集。共有19 992幅圖像,包含49 856個對象實例的141 564個引用表達(dá)式。遵循train/validation/test A/test B的拆分,并且查詢不包含絕對的方位詞,如描述對象在圖像中位置的右邊。每個文本表達(dá)式平均3.5個單詞,平均每張圖像具有3.9個對象。
c)RefCOCOg數(shù)據(jù)集。共有26 711幅圖像,指稱表達(dá)式104 560個,對象實例54 822個。數(shù)據(jù)集在非交互場景中收集。每個文本表達(dá)式平均包含8.4個單詞,平均每張圖像具有3.9個對象,相比之下更難完成任務(wù)。相比前兩個數(shù)據(jù)集,RefCOCO+的一個特點是在文本表達(dá)中禁止使用位置詞,使該數(shù)據(jù)集在指稱圖像分割任務(wù)中更具挑戰(zhàn)性,因此該數(shù)據(jù)集可以更好地評估算法理解實例級細(xì)節(jié)的能力。
3.2 數(shù)據(jù)預(yù)處理與實現(xiàn)細(xì)節(jié)
本文實驗使用的操作系統(tǒng)為Ubuntu 18.04,使用PyTorch 1.10深度學(xué)習(xí)框架,使用顯卡為NVIDIA GeForce RTX 3090,24 GB顯存,使用的CPU為Intel?Xeon?CPU E5-2630 v4 @ 2.20 GHz×40,256 GB RAM。
初始圖像存在研究之外的區(qū)域,導(dǎo)致圖像的質(zhì)量不佳,而將進(jìn)行圖像裁剪可以改善圖像質(zhì)量,消除噪聲,統(tǒng)一圖像灰度值及尺寸。因此本文在對圖像進(jìn)行預(yù)處理時,需要對圖像進(jìn)行裁剪,用于后序特征提取。輸入圖像維度是[3, 428, 640],將其裁剪為[3, 224, 224]。同時為了文本的統(tǒng)一,需要將文本內(nèi)容轉(zhuǎn)換為小寫字母。
然后使用FreeSOLO對圖像進(jìn)行分割,并使用NLTK對完整的自然語言文本進(jìn)行提取,F(xiàn)reeSOLO分割得到圖像的預(yù)測掩碼,NLTK提取到輸入文本中的名詞。使用CLIP的圖像編碼器分別對完整圖像與分割后的圖像進(jìn)行編碼,使用CLIP文本編碼器對完整文本與名詞進(jìn)行編碼。
接著在頻域融合編碼后的特征,首先使用哈爾小波對輸入的圖像特征進(jìn)行分解,然后在高頻與低頻進(jìn)行圖像的特征融合,最后進(jìn)行反變換,得到最終的圖像特征。文本特征與圖像特征有一點區(qū)別,文本是一維的信息,因此文本特征使用1D的哈爾小波進(jìn)行分解,然后分別在高頻與低頻融合編碼后的文本特征,再進(jìn)行反變換。文中設(shè)置的頻域融合的超參數(shù)為λ=0.9,=0.6。
最后計算圖像特征與文本特征的余弦相似度來找出最合適的預(yù)測掩碼,也就是分割的結(jié)果,例如圖像特征維度是[88,512],文本特征的維度是[1,512],代表需要從這88個預(yù)測掩碼中對比得到相似度最高的掩碼。
本文在RefCOCO、RefCOCO+、RefCOCOg三個數(shù)據(jù)集上對FDFR進(jìn)行測試,并與其他方法使用相同編碼器得到的分割結(jié)果進(jìn)行對比。
3.3 評估標(biāo)準(zhǔn)
交并比(intersection over union,IoU)是目標(biāo)檢測中使用的一個概念,IoU計算的是預(yù)測邊框和真實邊框的交疊率,即它們的交集和并集的比值。最理想的情況是完全重疊,即比值為1,IoU的公式為
本文采用oIoU(overall intersection over union)與mIoU(mean intersection over union)[15]來對模型進(jìn)行度量,這兩個指標(biāo)是指稱圖像分割任務(wù)的常用指標(biāo)。oIoU是用所有測試樣本的總相交面積與總結(jié)合面積之比來衡量的,每個測試樣本都是一個語言表達(dá)和一個圖像,這個度量適用于大型對象。
其中:Ai代表每一個測試樣本的預(yù)測掩碼;Bi代表測試樣本的標(biāo)簽。
mIoU是所有測試樣本中預(yù)測值與真實值之間的IoU。
其中:pii、pij、pji分別表示預(yù)測正確、將i預(yù)測為j、將j預(yù)測為i的概率;k為預(yù)測的類別數(shù)。
3.4 定量性能對比實驗
本文將與一些使用CLIP[3]編碼器進(jìn)行編碼的零樣本指稱圖像分割的baseline進(jìn)行比較,為了保證對比的效果,本文在所有的baseline中均使用FreeSOLO生成掩碼提議。
a)Grad-CAM[29]。第一個baseline是使用基于Grad-CAM生成的梯度加權(quán)類激活映射。利用圖像-文本對的相似度得分獲得激活映射后,對所有預(yù)測掩碼進(jìn)行評分,選擇得分最高的掩碼。
b)score map[30]。這是一種是從MaskCLIP中提取score map的方法。與MaskCLIP一樣,將注意力池化中的一個線性層和最后一層轉(zhuǎn)換為兩個連續(xù)的1×1卷積層。將從ResNet中提取的特征直接連接到這兩層,然后與CLIP的文本特征對比并計算余弦相似度。在獲得score map后,本文將預(yù)測掩碼投影到score map。對不同掩碼的分?jǐn)?shù)取平均值,然后選擇得分最高的預(yù)測掩碼。
c)region token[31]。這種方法使用了Adapting CLIP,本文對CLIP視覺編碼器中所有attention層的每個預(yù)測掩碼使用region token,而不是使用超像素。最后,本文計算每個預(yù)測掩碼與CLIP編碼后的文本特征之間的余弦相似度,然后選擇得分最高的掩碼。
d)cropping[32]。最后一個baseline和本文方法相似,也進(jìn)行了局部特征的提取。在使用CLIP作為編碼器的零樣本密集預(yù)測任務(wù)中,常常會用到cropping。因此,本文將裁剪作為零樣本指稱圖像分割的baseline之一。
表1、2展示了頻域融合CLIP圖像與文本編碼特征的方法在RefCOCO、RefCOCO+和RefCOCOg三個數(shù)據(jù)集上的表現(xiàn),本文與其他使用CLIP圖像編碼器的方法,通過oIoU和mIoU兩種指標(biāo)對指稱圖像分割能力進(jìn)行評判。本文方法在很大程度上優(yōu)于其他方法。
與其他的baseline對比oIoU,F(xiàn)DFR使用CLIP的Vit-B/32編碼器進(jìn)行編碼的方法在所有數(shù)據(jù)集中達(dá)到了最佳的效果,同時使用ResNet-50編碼時,也在不同程度上領(lǐng)先于其他的baseline。
同時,使用FDFR得到的mIoU與其他的baseline相比也具有一定的優(yōu)勢。在RefCOCO與RefCOCO+這兩個數(shù)據(jù)集上,本文使用ResNet-50進(jìn)行編碼的方法優(yōu)于所有的baseline,在RefCOCOg數(shù)據(jù)集上,本文使用Vit-B/32進(jìn)行編碼的方法取得了最優(yōu)的效果。
3.5 定性可視化分析
圖4是使用本文方法得到的指稱圖像分割與標(biāo)簽之間的對比,下面給出了三種圖像的示例與可視化對比。從圖中結(jié)果可以看出本文方法,可以更好地提取圖像的細(xì)節(jié),能夠有效區(qū)分與目標(biāo)相似的掩碼。
3.6 消融實驗
為了證明單個模塊的有效性,本文分別對用于圖像預(yù)分割的FreeSOLO網(wǎng)絡(luò)、提取自然語言文本主語的NLTK和頻域融合這三個模塊進(jìn)行了消融。本文分別使用CLIP的ResNet-50和Vit-B/32兩個圖像編碼器對圖像進(jìn)行編碼,消融實驗的結(jié)果如表3所示。
首先對于ResNet-50圖像編碼器,本文通過FreeSOLO[6]對圖像進(jìn)行分割并融合分割后的掩碼特征,消融FreeSOLO后oIoU降低0.87,mIoU降低1.77;消融其他模塊,也出現(xiàn)了類似的情況,具體結(jié)果在表格中顯示。
然后對于Vit-B/32圖像編碼器,與上面的類似,對本文的三個模塊進(jìn)行消融后性能都有不同程度的下降。從上面的結(jié)果可以看出,在加入了FreeSOLO、NLTK和頻域融合的模塊后,系統(tǒng)性能會有所提升。
4 結(jié)束語
針對指稱圖像分割中圖像特征提取不充分的問題,本文提出了FDFR,即通過現(xiàn)有的網(wǎng)絡(luò)CLIP[3]與FreeSOLO[6]并在頻域進(jìn)行特征融合來實現(xiàn)的指標(biāo)圖像分割算法。利用FreeSOLO提取分割后的圖片,利用NLTK提取自然語言文本中的名詞,再使用CLIP的兩種圖像編碼器對處理后的圖像編碼,并使用文本編碼器對自然語言文本和文本名詞進(jìn)行編碼,利用2D小波變換對圖像特征進(jìn)行分解,1D小波變換對文本特征進(jìn)行分解,在頻域?qū)崿F(xiàn)特征融合并反變換得到最終的圖像與文本特征,并計算特征的余弦相似度,得到分割結(jié)果。
本文目的在于利用小波變換的特點,使用高通濾波器提取圖像邊緣特征,低通濾波器分析圖像近似性,為指稱圖像分割的零樣本研究提供有力支撐。本文的研究證明,小波變化在圖像分割任務(wù)中提取細(xì)粒度特征的有效性,未來將繼續(xù)在此領(lǐng)域研究,利用更多的方法進(jìn)行更加細(xì)粒度特征的提取。
參考文獻(xiàn):
[1]Hu Ronghang, Rohrbach M, Darrell T. Segmentation from natural language expressions[M]//Leibe B, Matas J, Sebe N, et al. Computer Vision. Cham: Springer International Publishing, 2016: 108-124.
[2]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[3]Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//Proc of the 38th International Conference on Machine Learning.[S.l.]: PMLR, 2021: 8748-8763.
[4]He Kaiming, Fan Haoqi, Wu Yuxin, et al. Momentum contrast for unsupervised visual representation learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 9729-9738.
[5]Chen Ting, Kornblith S, Norouzi M, et al. A simple framework for contrastive learning of visual representations[C]//Proc of the 37th International Conference on Machine Learning.[S.l.]: PMLR, 2020: 1597-1607.
[6]Wang Xinlong, Yu Zhiding, De Mello S, et al. FreeSOLO: learning to segment objects without annotations[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 14176-14186.
[7]劉穎, 孫定華, 公衍超. 學(xué)習(xí)小波超分辨率系數(shù)的人臉超分算法[J]. 計算機(jī)應(yīng)用研究, 2020,37(12): 3830-3835. (Liu Ying, Sun Dinghua, Gong Yanchao. Wavelet based deep learning algorithm for face super resolution[J]. Application Research of Computers, 2020,37(12): 3830-3835.)
[8]王婷, 宣士斌, 周建亭. 融合小波變換和編解碼注意力的異常檢測 [J]. 計算機(jī)應(yīng)用研究, 2023, 40(7): 2229-2234,2240. (Wang Ting, Xuan Shibing, Zhou Jianting. Anomaly detection fusing wavelet transform and encoder-decoder attention[J]. Application Research of Computers, 2023,40(7): 2229-2234,2240.)
[9]Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2015: 3431-3440.
[10]Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation[C]//Navab N, Hornegger J, Wells W, et al. Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234-241.
[11]Badrinarayanan V, Kendall A, Cipolla R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2017,39(12): 2481-2495.
[12]Chen L C, Zhu Yukun, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2018: 801-818.
[13]馮興杰, 孫少杰. 一種融合多級特征信息的圖像語義分割方法[J]. 計算機(jī)應(yīng)用研究, 2020, 37(11): 3512-3515. (Feng Xingjie, Sun Shaojie. Semantic segmentation method integrating multilevel features[J]. Application Research of Computers, 2020,37(11): 3512-3515.)
[14]水文澤, 孫盛, 余旭,等. 輕量化卷積神經(jīng)網(wǎng)絡(luò)在SAR圖像語義分割中的應(yīng)用[J]. 計算機(jī)應(yīng)用研究, 2021,38(5): 1572-1575,1580. (Shui Wenze, Sun Sheng, Yu Xu. Application of lightweight convolutional neural network in SAR image sematic segmentation[J]. Application Research of Computers, 2021,38(5): 1572-1575,1580.)
[15]Ding Henghui, Liu Chang, Wang Suchen, et al. Vision-language transformer and query generation for referring segmentation[C]//Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2021: 16321-16330.
[16]Feng Guang, Hu Zhiwei, Zhang Lihe, et al. Encoder fusion network with co-attention embedding for referring image segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2021: 15506-15515.
[17]Li Ruiyu, Li Kaican, Kuo Yichun, et al. Referring image segmentation via recurrent refinement networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 5745-5753.
[18]Liu Chenxi, Lin Zhe, Shen Xiaohui, et al. Recurrent multimodal interaction for referring image segmentation[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2017: 1271-1280.
[19]Wang Zhaoqing, Lu Yu, Li Qiang, et al. CRIS: CLIP-driven referring image segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 11686-11695.
[20]Strudel R, Laptev I, Schmid C. Weakly-supervised segmentation of referring expressions [EB/OL]. (2022-05-12). https://arxiv.org/abs/ 2205.04725.
[21]Yu S, Seo P H, Son J. Zero-shot referring image segmentation with global-local context features[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 19456-19465.
[22]Hui Tianrui, Liu Si, Huang Shaofei, et al. Linguistic structure guided context modeling for referring image segmentation[C]//Proc of the 16th European Conference on Computer Vision. Berlin: Springer-Verlag, 2020: 59-75.
[23]Jing Ya, Kong Tao, Wang Wei, et al. Locate then segment: a strong pipeline for referring image segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 9858-9867.
[24]Shi Hengcan, Li Hongliang, Meng Fanman, et al. Key-word-aware network for referring expression image segmentation[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2018: 38-54.
[25]Huang Shaofei, Hui Tianrui, Liu Si, et al. Referring image segmentation via cross-modal progressive comprehension[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2020: 10488-10497.
[26]Chen C F, Hsiao C H. Haar wavelet method for solving lumped and distributed-parameter systems[J]. IEEE Proceedings-Control Theory and Applications, 1997, 144(1): 87-94.
[27]Nagaraja V K, Morariu V I, Davis L S. Modeling context between objects for referring expression understanding[C]//Proc of the 14th European Conference. Cham: Springer, 2016: 792-807.
[28]Kazemzadeh S, Ordonez V, Matten M, et al. ReferitGame: referring to objects in photographs of natural scenes[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 787-798.
[29]Hsia H A, Lin C H, Kung B H, et al. CLIPCAM: a simple baseline for zero-shot text-guided object and action localization[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2022: 4453-4457.
[30]Zhou Chong, Loy C C, Dai Bo. Extract free dense labels from CLIP[M]//Avidan S, Brostow G, Cissé M, et al. Computer Vision. Cham: Springer, 2022: 696-712.
[31]Li Jiahao, Shakhnarovich G, Yeh R A. Adapting clip for phrase localization without further training[EB/OL]. (2022-04-07). https://arxiv.org/abs/2204.03647.
[32]Ding Jian, Xue Nan, Xia Guisong, et al. Decoupling zero-shot semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 11583-11592.