国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于前景感知視覺注意的半監(jiān)督視頻目標(biāo)分割

2022-03-17 04:29:52付利華姜涵煦吳會(huì)賢閆紹興
電子學(xué)報(bào) 2022年1期
關(guān)鍵詞:掩碼前景全局

付利華,趙 宇,2,姜涵煦,趙 茹,吳會(huì)賢,閆紹興

(1.北京工業(yè)大學(xué)信息學(xué)部,北京 100124;2.北京航空航天大學(xué)計(jì)算機(jī)學(xué)院,北京 100191)

1 引言

半監(jiān)督視頻目標(biāo)分割技術(shù)(Semi-Supervised Video Object Segmentation,SVOS)是視頻分析的基礎(chǔ),其主要目標(biāo)是根據(jù)第一幀給定的目標(biāo)分割掩碼,在視頻后續(xù)幀中分割出特定的目標(biāo)對象,是當(dāng)前計(jì)算機(jī)視覺的研究熱點(diǎn),其被廣泛應(yīng)用于基于視頻理解的精確目標(biāo)跟蹤、智能監(jiān)控、視頻檢索和增強(qiáng)現(xiàn)實(shí)等領(lǐng)域.

在深度學(xué)習(xí)的驅(qū)動(dòng)下,半監(jiān)督視頻目標(biāo)分割方法主要依賴3 種策略:在線學(xué)習(xí)策略(Online Learning-Based Methods)、基于掩碼傳播策略(Propagation-Based Methods)以及基于特征匹配策略(Matching-Based Methods).對于處理一段新的視頻,基于在線學(xué)習(xí)策略的半監(jiān)督視頻目標(biāo)分割方法需要在父網(wǎng)絡(luò)上多次迭代訓(xùn)練,具有很好的域適應(yīng)能力[1,2],但卻大大增加了時(shí)間成本.并且這類方法大多數(shù)從靜態(tài)圖分割的角度來對待視頻幀,較少地利用視頻幀間的時(shí)序信息,網(wǎng)絡(luò)模型難以適應(yīng)由于目標(biāo)對象長期運(yùn)動(dòng)所帶來的形變.

基于掩碼傳播策略的半監(jiān)督視頻目標(biāo)分割方法,主要是通過傳播前一幀的目標(biāo)分割掩碼,對給定目標(biāo)進(jìn)行跟蹤[3,4],從而實(shí)現(xiàn)視頻目標(biāo)的分割.但是由于這類方法依賴于視頻中目標(biāo)的連續(xù)性,掩碼傳播過程會(huì)受到目標(biāo)遮擋、多個(gè)相似目標(biāo)重疊和目標(biāo)快速運(yùn)動(dòng)的影響,容易造成跟蹤漂移,導(dǎo)致分割性能下降.

基于特征匹配策略的半監(jiān)督視頻目標(biāo)分割方法主要通過計(jì)算第一幀與當(dāng)前幀的像素級(jí)相似度,判斷當(dāng)前幀中每個(gè)像素是否屬于前景目標(biāo)對象[5],其主要優(yōu)勢在于分割速度快于基于在線學(xué)習(xí)策略的半監(jiān)督視頻目標(biāo)分割方法,同時(shí)在一定程度上解決了跟蹤漂移等問題,但當(dāng)待分割目標(biāo)出現(xiàn)新的外觀特征時(shí),會(huì)出現(xiàn)誤匹配等現(xiàn)象.

半監(jiān)督視頻目標(biāo)分割任務(wù)的本質(zhì)是一個(gè)對比驗(yàn)證過程,模型對于不同目標(biāo)的判別力是提升分割精度的關(guān)鍵.盡管現(xiàn)有的半監(jiān)督視頻目標(biāo)分割方法無論在精度上還是運(yùn)行速度上都取得了較大的進(jìn)步,但仍存在以下幾點(diǎn)問題:(1)大多數(shù)模型內(nèi)部將高層特征進(jìn)行簡單的特征拼接,這種方式過于通用化,難以有效提升模型對于不同目標(biāo)的判別力,導(dǎo)致視頻的多目標(biāo)分割精度下降;(2)現(xiàn)有的分割方法大多將前一幀預(yù)測的分割掩碼與當(dāng)前幀圖像合并為四通道圖像,以此進(jìn)行掩碼傳播,然而,這種掩碼傳播方式對于模型的指導(dǎo)意義并不明顯,容易造成跟蹤漂移,導(dǎo)致分割性能下降;(3)現(xiàn)有模型大多關(guān)注編碼階段以及特征處理,往往忽視解碼器的重要性,導(dǎo)致模型不能有效利用低階特征,丟失邊緣細(xì)節(jié)等信息.

為了解決上述問題,本文主要貢獻(xiàn)有以下3點(diǎn):

(1)設(shè)計(jì)全局前景感知的視覺注意,將第一幀特征與當(dāng)前幀特征進(jìn)行逐元素全局匹配,并利用第一幀掩碼突顯前景特征,然后將其加權(quán)到當(dāng)前幀特征,得到全局前景感知視覺注意特征圖,提升模型對待分割目標(biāo)的重識(shí)別能力,增強(qiáng)模型對于不同目標(biāo)的判別力;

(2)設(shè)計(jì)局部前景感知的視覺注意,將當(dāng)前幀特征與前一幀對應(yīng)局部鄰域的特征進(jìn)行特征匹配,并利用前一幀掩碼突顯前景特征,然后將其加權(quán)到當(dāng)前幀特征,得到局部前景感知視覺注意特征圖,提升模型對待分割目標(biāo)的跟蹤能力,能有效處理目標(biāo)的外觀變化,代替?zhèn)鹘y(tǒng)的掩碼傳播方法;

(3)設(shè)計(jì)一種基于殘差細(xì)化的解碼器,利用殘差學(xué)習(xí)的思想進(jìn)行特征還原,在解碼過程中融入當(dāng)前幀的低階特征,逐步改善分割細(xì)節(jié).

2 相關(guān)工作

2.1 基于在線學(xué)習(xí)的半監(jiān)督視頻目標(biāo)分割

基于在線學(xué)習(xí)的半監(jiān)督視頻目標(biāo)分割是利用給定的分割掩碼,在線微調(diào)網(wǎng)絡(luò)模型,使其適用于給定的目標(biāo)對象[1].OSVOS[2]預(yù)先離線訓(xùn)練一個(gè)通用的前景-背景分割網(wǎng)絡(luò),即父網(wǎng)絡(luò)(Parent Network),用于通用目標(biāo)的前景和背景分割,然后使用視頻第一幀和給定目標(biāo)的分割掩碼,在線微調(diào)網(wǎng)絡(luò)參數(shù).OSVOS-S[6]基于OSVOS 的思想,利用語義實(shí)例分割(Semantic Instance Segmentation),引入語義先驗(yàn)知識(shí)指導(dǎo)分割過程,傳播實(shí)例分割掩碼.OnAVOS[7]將在線學(xué)習(xí)的思想擴(kuò)展到整個(gè)視頻,通過邊框約束篩選出高質(zhì)量的分割結(jié)果,并利用這些分割結(jié)果再次訓(xùn)練模型,以實(shí)現(xiàn)不斷提升分割的效果.Lucid Tracker[8]通過對第一幀進(jìn)行大量的數(shù)據(jù)增強(qiáng),擴(kuò)展了第一幀與給定的分割掩碼,以此模擬目標(biāo)物體在后續(xù)幀中可能發(fā)生的變形,獲得了較高的分割精度.DyeNet[9]通過重識(shí)別(Re-ID)技術(shù)匹配同一目標(biāo),并利用具有較高置信度的分割結(jié)果更新網(wǎng)絡(luò)模型,以此提高分割精度.PReMVOS[10]將在線學(xué)習(xí)、實(shí)例分割[11]、光流(Optical Flow)[12]、細(xì)化(Refinement)和Re-ID[13]等技術(shù)融合在一起,目前取得了最高的精度.

2.2 基于掩碼傳播的半監(jiān)督視頻目標(biāo)分割

基于掩碼傳播的半監(jiān)督視頻目標(biāo)分割利用幀間時(shí)序信息,將前一幀的分割結(jié)果傳播到當(dāng)前幀,增加相鄰兩幀的時(shí)序一致性約束,提升分割精度.Mask-Track[3]通過將前一幀分割結(jié)果與當(dāng)前幀RGB 圖像進(jìn)行合并,形成四通道圖像,輸入網(wǎng)絡(luò)模型,以此提供時(shí)序信息.VPN[14]提出一個(gè)可學(xué)習(xí)的雙邊濾波網(wǎng)絡(luò),用于傳播視頻幀之間的結(jié)構(gòu)化信息.FAVOS[15]首先將第一幀所標(biāo)注的目標(biāo)拆分為多個(gè)部分,然后在后續(xù)幀中跟蹤目標(biāo)的各部分,并對跟蹤結(jié)果進(jìn)行分割,最后將目標(biāo)各部分的分割結(jié)果進(jìn)行合并,得到最終的目標(biāo)分割掩碼.RGMP[4]提出使用孿生編碼器結(jié)構(gòu)(Siamese Network),將第一幀和當(dāng)前幀的高層特征堆疊在一起,進(jìn)而獲得當(dāng)前幀的分割掩碼.OSMN[16]提出使用網(wǎng)絡(luò)調(diào)制技術(shù),將第一幀特征作為視覺調(diào)制參數(shù),將前一幀分割掩碼的高斯分布作為空間調(diào)制參數(shù),并將兩個(gè)調(diào)制參數(shù)融合到主分割網(wǎng)絡(luò)中的每一層,從而實(shí)現(xiàn)給定目標(biāo)的分割.

除了利用前一幀預(yù)測的分割掩碼,將光流作為運(yùn)動(dòng)指導(dǎo)信息也是非常有效的處理方式.MPN[17]利用光流變換前一幀的分割結(jié)果,并將其與當(dāng)前幀的RGB 圖像合并,形成四通道圖像作為網(wǎng)絡(luò)輸入.CTN[18]提出一個(gè)三端全卷積神經(jīng)網(wǎng)絡(luò),輸出分割概率圖、確定性前景概率圖和確定性背景概率圖,然后使用馬爾科夫隨機(jī)場進(jìn)行優(yōu)化得到最終結(jié)果.CRN[19]首先在光流上應(yīng)用運(yùn)動(dòng)輪廓模型,提取粗糙的目標(biāo)分割掩碼,然后提出級(jí)聯(lián)優(yōu)化網(wǎng)絡(luò),將粗糙的目標(biāo)分割掩碼作為輸入,以級(jí)聯(lián)優(yōu)化的方式生成最終的目標(biāo)分割掩碼.

2.3 基于特征匹配的半監(jiān)督視頻目標(biāo)分割

基于特征匹配的半監(jiān)督視頻目標(biāo)分割通過計(jì)算第一幀與當(dāng)前幀的像素級(jí)相似度,判斷當(dāng)前幀中每個(gè)像素是否屬于前景目標(biāo)對象[20],其主要優(yōu)勢在于分割速度快于基于在線學(xué)習(xí)的半監(jiān)督視頻目標(biāo)分割方法,同時(shí)在一定程度上解決了跟蹤漂移等問題.PML[5]利用三元組損失函數(shù)(Triplet Loss),計(jì)算每一個(gè)像素點(diǎn)的嵌入向量(Embedding Vector),基于最鄰近分類算法判斷當(dāng)前像素點(diǎn)是否屬于前景目標(biāo).VideoMatch[21]類似于PML,但其直接使用交叉熵?fù)p失函數(shù)優(yōu)化分割概率圖,并將前景像素和背景像素分開匹配,最后進(jìn)行合并優(yōu)化.FEELVOS[22]使用全局匹配和局部匹配進(jìn)行更魯棒的像素級(jí)匹配.MTN[23]采用全局匹配的方式匹配待分割目標(biāo),同時(shí)提出一種新穎的掩碼轉(zhuǎn)換層代替原有的掩碼傳播方法,為了進(jìn)一步提升分割速度,MTN 極大地縮小特征圖大小以及對應(yīng)的通道數(shù),在保證基本分割精度的同時(shí),具有較高的分割速度.

3 基于前景感知視覺注意的半監(jiān)督視頻目標(biāo)分割

本文提出一種基于前景感知視覺注意的半監(jiān)督視頻目標(biāo)分割方法,整體網(wǎng)絡(luò)模型主要包含4 個(gè)部分:基于三流孿生網(wǎng)絡(luò)的編碼器、基于全局前景感知的視覺注意、基于局部前景感知的視覺注意和基于殘差細(xì)化的解碼器.其主體結(jié)構(gòu)如圖1所示.

圖1 基于前景感知視覺注意的半監(jiān)督視頻目標(biāo)分割網(wǎng)絡(luò)結(jié)構(gòu)圖

首先,基于三流孿生網(wǎng)絡(luò)的編碼器將第一幀、當(dāng)前幀和前一幀共同映射到同一特征空間,使得相同目標(biāo)具有相似特征;然后,通過全局逐元素地匹配第一幀特征與當(dāng)前幀特征的相似性,并利用第一幀掩碼突顯前景特征,獲得基于全局前景感知的視覺注意,提升模型對于不同目標(biāo)的判別力;其次,通過局部地匹配當(dāng)前幀特征和前一幀對應(yīng)局部鄰域特征的相似性,并利用前一幀掩碼突顯前景特征,形成獲得基于局部前景感知的視覺注意,提升模型對待分割目標(biāo)的跟蹤能力,有效處理目標(biāo)的外觀變化,代替?zhèn)鹘y(tǒng)的掩碼傳播方法;最后,基于殘差細(xì)化的解碼器利用殘差學(xué)習(xí)的思想,融合當(dāng)前幀圖像的低階特征,逐步改善分割細(xì)節(jié).

3.1 基于三流孿生網(wǎng)絡(luò)的編碼器

孿生編碼器由三流孿生網(wǎng)絡(luò)和特征轉(zhuǎn)換層共同組成,其目的是將輸入圖像映射到同一特征空間,使同一實(shí)例目標(biāo)的像素點(diǎn)特征不斷接近,不同實(shí)例目標(biāo)的像素點(diǎn)特征不斷遠(yuǎn)離.

3.1.1 三流孿生網(wǎng)絡(luò)

三流孿生網(wǎng)絡(luò)基于ResNet-50,其輸入分別為第一幀圖像、當(dāng)前幀圖像以及前一幀圖像.原始的ResNet-50網(wǎng)絡(luò)具有較大的步長和較深的通道數(shù),相對于輸入圖像,最終輸出的特征圖將被下采樣32 倍.但較低的特征圖分辨率會(huì)丟失大量空間信息,不利于后續(xù)的特征匹配.

由于擴(kuò)張卷積可以在不縮小特征圖分辨率的前提下,增加卷積操作的感受野,因此本文將ResNet-50 的最后兩個(gè)殘差塊的下采樣卷積采用擴(kuò)張卷積代替,最終輸出的特征圖相對于輸入圖像下采樣8倍,使編碼器輸出的特征保留更豐富的空間信息.然后,將輸出特征圖利用1×1 卷積調(diào)整到256 通道,目的是降低后續(xù)特征匹配操作的計(jì)算量,提高分割速度.編碼器通過ImageNet[24]進(jìn)行預(yù)訓(xùn)練獲得初始化權(quán)值.

為了保證分割速度,本文方法每幀只需前向傳播一次,并將其編碼器輸出特征進(jìn)行保存,以便后續(xù)幀使用.通過這種前后幀特征復(fù)用的方式,三流孿生編碼器不會(huì)增加分割網(wǎng)絡(luò)復(fù)雜度,同樣具有較高的分割速度.

3.1.2 特征轉(zhuǎn)換層

對于編碼器輸出的特征圖,本文利用一個(gè)特征轉(zhuǎn)換層提取更廣泛的上下文信息,其結(jié)構(gòu)如圖2 所示.特征轉(zhuǎn)換層由一系列不同擴(kuò)張率的擴(kuò)張卷積和全局平均池化共同組成.通過這種方式獲得具有不同感受野的特征圖,然后以多尺度的方式融合不同感受野的特征圖,提取更廣泛的上下文信息.最后將特征圖中每個(gè)特征點(diǎn)都視為一個(gè)特征向量,利用一個(gè)1×1逐點(diǎn)卷積整合每個(gè)特征向量,使其在特征空間中,屬于同一實(shí)例目標(biāo)的像素點(diǎn)特征不斷接近,不同實(shí)例目標(biāo)的像素點(diǎn)特征不斷遠(yuǎn)離.

圖2 特征轉(zhuǎn)換層結(jié)構(gòu)圖

3.2 基于全局前景感知的視覺注意

基于全局前景感知的視覺注意目標(biāo)是提升模型對于特定目標(biāo)的重識(shí)別能力,增強(qiáng)模型對不同目標(biāo)的判別力.首先,利用全局匹配層將第一幀特征和當(dāng)前幀特征進(jìn)行逐元素匹配,獲得全局相似度矩陣;然后,利用第一幀給定的分割掩碼提取出全局相似度矩陣中的前景信息,忽略背景信息,生成全局前景感知權(quán)重圖;最后,將獲得的全局前景感知權(quán)重圖加權(quán)到當(dāng)前幀特征圖,突顯當(dāng)前幀特征中與前景相似的特征,抑制與背景相似的特征,獲得全局前景感知視覺注意特征圖.

3.2.1 全局匹配

全局匹配目的是計(jì)算第一幀和當(dāng)前幀的任意兩個(gè)位置之間的空間依賴性,具有相似特征的任何兩個(gè)位置均可以相互促進(jìn),且不受到空間維度的距離限制.全局匹配過程如圖3 所示.假設(shè)第一幀I1的特征圖為X1∈Rh×w×c,當(dāng)前幀It的特征圖為Xt∈Rh×w×c,并將特征圖上的每個(gè)特征點(diǎn)都視為一個(gè)1×1×c的特征向量,其中h和w是特征圖的大小,c為特征圖深度.為了方便后續(xù)匹配,將第一幀特征X1重塑為特征集合X1==1,2,…,hw}.通過式(1),計(jì)算特征向量與之間的相似度sij.

如圖3 所示,通過將與當(dāng)前幀特征進(jìn)行逐元素的相似度計(jì)算,獲得與當(dāng)前幀特征圖Xt的相似度矩陣Gj.

圖3 全局匹配示意圖

Gj刻畫了第一幀特征圖中第j個(gè)特征點(diǎn)的特征向量與當(dāng)前幀特征圖中所有特征向量的相似度.計(jì)算第一幀特征圖中每個(gè)特征點(diǎn)的特征向量與當(dāng)前幀特征圖的相似度矩陣,獲得矩陣集合{Gj∈[0,1]h×w|j=1,2,…,hw},即為全局相似度矩陣G.

全局相似度矩陣G中的每個(gè)元素sij表示第j個(gè)位置的第一幀特征對第i個(gè)位置的當(dāng)前幀特征的影響,兩個(gè)位置的特征越相似,則這個(gè)值越大.

3.2.2 基于全局前景感知的視覺注意

全局相似度矩陣G(hw)×(hw)中行表示當(dāng)前幀特征的信息,列表示第一幀特征的信息.為了使模型關(guān)注特定分割目標(biāo),利用第一幀掩碼關(guān)注前景目標(biāo),忽略背景信息.首先將第一幀掩碼M1大小調(diào)整至h×w×1,并將其轉(zhuǎn)置并重構(gòu)成一維行向量M11×hw,其中前景像素點(diǎn)的元素為1,背景像素點(diǎn)的元素為0;其次,利用逐元素乘法⊙,將M11×hw按行加權(quán)到矩陣G的每一行,生成全局前景感知權(quán)重圖AG=(aij)(hw)×(hw)∈[0,1](hw)×(hw);然后,將全局前景感知權(quán)重圖按照矩陣乘法的方式加權(quán)到當(dāng)前幀特征圖;最后,為了使得最終被關(guān)注的特征充分有效,利用殘差學(xué)習(xí)的思想,使用矩陣加法補(bǔ)充可能被錯(cuò)誤抑制的特征,獲得全局前景感知視覺注意特征圖FG.

其中,α為可學(xué)習(xí)參數(shù),由反向傳播時(shí)自動(dòng)調(diào)整.

全局前景感知視覺注意特征圖FG是當(dāng)前幀特征與第一幀特征所有位置的加權(quán)和,并使用第一幀的分割掩碼突顯當(dāng)前幀與前景目標(biāo)相似的特征,抑制與背景相似的特征.因此,F(xiàn)G具有全局上下文信息,并使當(dāng)前幀特征充分關(guān)注給定的待分割目標(biāo),從而提升模型對于特定目標(biāo)的重識(shí)別能力,增強(qiáng)模型對于不同目標(biāo)的判別力.

3.3 基于局部前景感知的視覺注意

FlowNet[12]利用局部互相關(guān)操作提取連續(xù)兩幀間的運(yùn)動(dòng)信息.受到這種運(yùn)動(dòng)提取方式的啟發(fā),本文設(shè)計(jì)一種基于局部前景感知的視覺注意,目的是提升對待分割目標(biāo)的跟蹤能力,有效處理目標(biāo)的外觀變化,代替?zhèn)鹘y(tǒng)的掩碼傳播方法.首先,利用局部匹配層將當(dāng)前幀的特征與前一幀對應(yīng)局部鄰域的特征進(jìn)行特征匹配;其次,根據(jù)最近鄰思想,選取鄰域匹配的最大值作為當(dāng)前幀特征與前一幀對應(yīng)局部鄰域的相似度,獲得局部相似度矩陣;然后,利用前一幀預(yù)測的分割掩碼,提取局部相似度矩陣中的前景信息,忽略背景信息,生成局部前景感知權(quán)重圖;最后,將獲得的局部前景感知權(quán)重圖加權(quán)到當(dāng)前幀特征圖,有效傳播前景信息,獲得局部前景感知視覺注意特征圖.

3.3.1 局部匹配

局部匹配目的是計(jì)算前后兩幀的局部依賴性,將前一幀的前景信息有效傳播到當(dāng)前幀,進(jìn)一步提升網(wǎng)絡(luò)模型對不同目標(biāo)的判別能力.局部匹配過程如圖4所示.假設(shè)當(dāng)前幀的前一幀It-1的特征圖為Xt-1∈Rh×w×c,并將其整理為特征集合Xt-1=∈R1×c|j=1,2,…,hw}.局部匹配與全局匹配類似,主要區(qū)別在于匹配范圍不同.因?yàn)槟繕?biāo)對象可能會(huì)隨著時(shí)間而產(chǎn)生較大的位移,所以全局匹配需要當(dāng)前幀特征圖與第一幀特征圖的每一個(gè)特征向量都進(jìn)行匹配.然而,視頻中的連續(xù)兩幀滿足時(shí)空一致性,即每個(gè)目標(biāo)對象外觀和位置均不會(huì)發(fā)生太大變化.因此對于當(dāng)前幀特征圖中每個(gè)特征向量,只需要考慮前一幀特征圖對應(yīng)位置的局部鄰域.

如圖4 所示,假設(shè)當(dāng)前幀第i個(gè)位置的特征點(diǎn)對應(yīng)前一幀特征圖的局部鄰域?yàn)閚(i),其窗口大小為d,假設(shè)N() ?Xt-1為在前一幀特征圖中對應(yīng)局部鄰域的特征集合.特征集合N()中的元素是橫縱方向上距離最多d個(gè)位置的前一幀特征向量,因此N()包含D個(gè)特征向量,其中D=(2d+1)2.窗口大小d根據(jù)特征圖大小自適應(yīng)改變,變化公式為d=(h/5+w/5)/2.根據(jù)式(1)計(jì)算與N()內(nèi)所有特征向量之間的相似度,由于連續(xù)兩幀的外觀信息差別較小,根據(jù)最近鄰思想,選取其中的最大值作為與前一幀特征圖中對應(yīng)局部鄰域的相似度li.

圖4 局部匹配示意圖

li刻畫了當(dāng)前幀特征圖中第i個(gè)特征點(diǎn)的特征向量與前一幀特征圖中對應(yīng)局部鄰域的相似度.計(jì)算當(dāng)前幀特征圖中每一個(gè)特征向量與其前一幀特征圖中對應(yīng)局部鄰域的相似度,獲得局部相似度矩陣L.

3.3.2 基于局部前景感知的視覺注意

局部前景感知的視覺注意與全局前景感知的視覺注意的方式相同,首先利用前一幀的分割掩碼Mt-1提取局部相似度矩陣的前景信息,抑制背景信息,生成局部前景感知權(quán)重圖AL=(aij)h×w∈[0,1]h×w;然后,利用矩陣的逐元素乘法⊙加權(quán)到當(dāng)前幀特征,同樣利用矩陣加法補(bǔ)充可能被錯(cuò)誤抑制的特征,獲得局部前景感知視覺注意特征圖FL.

其中,β為可學(xué)習(xí)參數(shù),由反向傳播時(shí)自動(dòng)調(diào)整.

局部前景感知視覺注意特征圖FL是當(dāng)前幀特征圖與前一幀特征圖中對應(yīng)局部鄰域特征的加權(quán)和,并使用前一幀分割掩碼傳播前景信息,使得當(dāng)前幀特征更加關(guān)注給定的分割目標(biāo).

通過全局前景感知的視覺注意和局部前景感知的視覺注意,分別獲得全局前景感知視覺注意特征圖FG和局部前景感知視覺注意特征圖FL,將兩者按照通道維度進(jìn)行特征拼接,并利用1×1 卷積調(diào)整通道維度,最終生成充分關(guān)注待分割目標(biāo)的高階特征圖F∈Rh×w×c,并將其輸入殘差細(xì)化解碼器,獲得最終的分割結(jié)果.

3.4 基于殘差細(xì)化的解碼器

基于殘差細(xì)化的解碼器主要目的是將抽象的高階特征逐步還原,并通過連接當(dāng)前幀的低階特征,融合當(dāng)前幀細(xì)節(jié)信息,最終輸出當(dāng)前幀的分割掩碼,實(shí)現(xiàn)目標(biāo)分割.基于殘差細(xì)化的解碼器結(jié)構(gòu)如圖5所示.

圖5 基于殘差細(xì)化的解碼器結(jié)構(gòu)圖

如圖5 所示,在訓(xùn)練過程中,使用雙重?fù)p失監(jiān)督的方式逐步細(xì)化分割結(jié)果.首先將高階特征圖F進(jìn)行2倍上采樣,以便融合當(dāng)前幀的低階特征;其次,利用Sigmoid 函數(shù)直接將上采樣后的特征圖進(jìn)行二分類,并與當(dāng)前幀的分割掩碼計(jì)算損失值L1;再次,利用殘差學(xué)習(xí)的思想,融合當(dāng)前幀的低階特征圖,殘差結(jié)構(gòu)具有保留有效信息去除冗余信息的優(yōu)點(diǎn),在殘差結(jié)構(gòu)中加入低階特征圖,可以增強(qiáng)當(dāng)前高階特征缺失的細(xì)節(jié)特征,提升最終的輸出結(jié)果;然后,將輸出的特征圖同樣利用Sigmoid 函數(shù)進(jìn)行二分類,并與當(dāng)前幀的分割掩碼計(jì)算損失值L2;最后,將兩個(gè)損失值相加,對網(wǎng)絡(luò)反向傳播,進(jìn)行端到端的訓(xùn)練.

3.5 訓(xùn)練細(xì)節(jié)

對于訓(xùn)練數(shù)據(jù)的預(yù)處理,首先,將訓(xùn)練圖像分辨率調(diào)整為240×432,并對其進(jìn)行歸一化和標(biāo)準(zhǔn)化操作;然后,采用隨機(jī)翻折、旋轉(zhuǎn)作為數(shù)據(jù)增強(qiáng)策略;最后,利用隨機(jī)擦除策略模擬圖像可能出現(xiàn)待分割、目標(biāo)被遮擋等情況,擦除的部分使用三通道均值進(jìn)行填充.

訓(xùn)練過程中,在同一個(gè)視頻中隨機(jī)選擇三幀作為視頻的第一幀、當(dāng)前幀以及前一幀.為了模擬在分割過程中出現(xiàn)前一幀分割結(jié)果錯(cuò)誤的情況,本文將前一幀分割掩碼進(jìn)行隨機(jī)膨脹、腐蝕、隨機(jī)擦除以及置為空圖等操作,增強(qiáng)網(wǎng)絡(luò)模型的魯棒性.本文方法的損失函數(shù)由加權(quán)二分類交叉熵[25]損失函數(shù)和Lovász-Softmax[26]損失函數(shù)共同組成,基于PyTorch 開源框架,采用自適應(yīng)矩估計(jì)(Adaptive Moment Estimation,Adam)優(yōu)化算法,batch 大小為4,初始學(xué)習(xí)率為10-4,權(quán)重衰減率為10-5,循環(huán)訓(xùn)練數(shù)據(jù)集100次.

4 實(shí)驗(yàn)結(jié)果與分析

本文的半監(jiān)督視頻目標(biāo)分割方法目的是更好地跟蹤并分割給定的目標(biāo)對象,解決目標(biāo)的相似混淆等問題.為評(píng)價(jià)提出方法的有效性,本文在3 個(gè)公開的大型基準(zhǔn)數(shù)據(jù)集DAVIS-2016[27],DAVIS-2017[28]和YouTube-VOS[29]進(jìn)行實(shí)驗(yàn).YouTube-VOS 數(shù)據(jù)集是2018 年9 月ECCV(European Conference on Computer Vision)最新推出的公開基準(zhǔn)數(shù)據(jù)集,包含4000 多個(gè)來自YouTube 網(wǎng)站的高分辨率視頻數(shù)據(jù),其中訓(xùn)練集包含3471個(gè)視頻,驗(yàn)證集包含474 個(gè)視頻,比DAVIS-2017 數(shù)據(jù)集大30倍.

在訓(xùn)練過程中,由于YouTube-VOS 數(shù)據(jù)集的數(shù)據(jù)量較大,本文分割方法直接在YouTube-VOS 數(shù)據(jù)集上進(jìn)行訓(xùn)練,在DAVIS-2016和DAVIS-2017數(shù)據(jù)集上進(jìn)行測 試.實(shí)驗(yàn)環(huán)境為Intel(R)Xeon(R)E5-2620 v3 2.40GHz CPU、兩塊NVIDIA GeForce GTX 1080 Ti GPU和Linux 64位操作系統(tǒng).

在測試過程中,本文分割方法在線處理視頻的每一幀.每幀只需前向傳播一次,并將其編碼器輸出特征進(jìn)行保存,以便后續(xù)幀使用,因此本文方法具有較高的分割速度.

4.1 主流方法對比

本文使用DAVIS 數(shù)據(jù)集[21,22]提供的基準(zhǔn)代碼計(jì)算預(yù)測的目標(biāo)分割掩碼與正確標(biāo)注的目標(biāo)分割掩碼之間的區(qū)域相似度J(Region Similarity)、輪廓精確度F(Contour Accuracy)以及每幀的處理時(shí)間Time.區(qū)域相似度J用于評(píng)估目標(biāo)分割結(jié)果與正確標(biāo)注的目標(biāo)分割掩碼之間的區(qū)域覆蓋率.輪廓精確度F用于評(píng)估目標(biāo)分割結(jié)果與正確標(biāo)注的目標(biāo)分割掩碼之間分割邊界的相似程度.由于視頻幀具有不同的分辨率,因此本文在處理之前將視頻幀統(tǒng)一縮放到320×576.

將本文的視頻目標(biāo)分割方法與當(dāng)前幾種較流行的視頻目標(biāo)分割方法進(jìn)行比較.其中基于在線微調(diào)的方法有OSVOS[2],OnAVOS[7],MSK[3],STCNN[30];基于掩碼傳播的方法有OSMN[16],F(xiàn)AVOS[15],RGMP[4],RVOS[31];基于特征匹配的方法有PLM[20],PML[5],VM[21],F(xiàn)EELVOS[22],MTN[23],AGUnet[32],MRARnet[33].

4.1.1 DAVIS-2016數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果及分析

DAVIS-2016 數(shù)據(jù)集用于視頻單目標(biāo)分割.在DAVIS-2016 數(shù)據(jù)集上,本文的視頻目標(biāo)分割方法與對比方法的性能評(píng)估結(jié)果如表1 所示.在表1 中,將基于在線微調(diào)、掩碼傳播、特征匹配等方法分開列出,其中“-”表示未公開源碼以及分割結(jié)果,表中的數(shù)據(jù)結(jié)果根據(jù)原論文獲得.

表1 不同視頻目標(biāo)分割方法在DAVIS-2016數(shù)據(jù)集的定量評(píng)估結(jié)果

(1)OSVOS,OnAVOS,MSK,STCNN 等方法都采用了在線微調(diào)方式,基于在線微調(diào)的視頻目標(biāo)分割方法對每一個(gè)測試視頻均在線微調(diào)分割網(wǎng)絡(luò),因此可以取得較好的目標(biāo)分割效果,但是,在線微調(diào)非常耗時(shí),且不能很好地適應(yīng)場景的快速變化.本文分割網(wǎng)絡(luò)采用孿生網(wǎng)絡(luò)結(jié)構(gòu),代替在線微調(diào)的方式,從而有效地減少了目標(biāo)分割的時(shí)間.

(2)OSMN,F(xiàn)AVOS,RGMP 等方法均采用了傳統(tǒng)掩碼傳播的方式,然而,這種掩碼傳播方式對于模型的指導(dǎo)意義并不明顯,且依賴視頻中目標(biāo)的連續(xù)性,容易受到目標(biāo)遮擋、多個(gè)相似目標(biāo)重疊等影響,造成跟蹤漂移,導(dǎo)致分割性能下降.本文提出了一種基于局部前景感知的視覺注意,提升了模型對待分割目標(biāo)的跟蹤能力,能有效處理目標(biāo)的外觀變化,代替?zhèn)鹘y(tǒng)的掩碼傳播方法.

(3)PLM,PML,VM,F(xiàn)EELVOS,MTN,AGUnet 和MRARnet 等方法采用特征匹配的方式.MTN 方法僅利用全局匹配,并提出一種掩碼轉(zhuǎn)換層代替原有掩碼傳播方法.同時(shí),MTN大幅度縮小特征圖大小以及通道數(shù)量,因此分割速度較快.但MTN 只將第一幀與當(dāng)前幀做相似度匹配,同時(shí)掩碼轉(zhuǎn)換層的輸入為第一幀分割掩碼,這導(dǎo)致MTN方法本身難以適應(yīng)目標(biāo)的外觀變化,當(dāng)待分割目標(biāo)的外觀信息相對于第一幀發(fā)生巨大改變時(shí),網(wǎng)絡(luò)整體分割精度明顯下降.PLM,PML,VM,F(xiàn)EELVOS 等方法均將匹配的距離圖直接進(jìn)行解碼輸出,但是逐元素匹配容易產(chǎn)生較大噪聲,當(dāng)出現(xiàn)新的外觀特征時(shí),會(huì)出現(xiàn)誤匹配等問題.AGUnet 模型基于全卷積孿生網(wǎng)絡(luò)對前景和背景區(qū)域進(jìn)行自動(dòng)標(biāo)注,并將這些標(biāo)注信息融合到視頻目標(biāo)分割的U-net 網(wǎng)絡(luò)中.從表1 可以看出,該模型可以獲得較快的分割速度,但是模型的分割精度依賴全卷積孿生網(wǎng)絡(luò)自動(dòng)標(biāo)注的精度.MRARnet 模型通過感知的運(yùn)動(dòng)趨勢,預(yù)測當(dāng)前幀的目標(biāo)感興趣區(qū)域作為模型輸入,并基于幀間的光流信息,動(dòng)態(tài)更新參考幀,以適應(yīng)待分割目標(biāo)的變化.從表1 可以看出,該模型可以獲得較好的分割精度,但是由于光流信息的引入,模型不能獲得較快的分割速度.

(4)本文提出的基于前景感知視覺注意的半監(jiān)督視頻目標(biāo)分割方法,利用相同目標(biāo)特征相似的特點(diǎn)關(guān)注前景目標(biāo)特征,設(shè)計(jì)的全局前景感知和局部前景感知的視覺注意,可增強(qiáng)模型對待分割目標(biāo)的重識(shí)別能力和跟蹤能力,因此本文的分割方法具有較高的分割精度,分割精度達(dá)到81.1(J&F),并且本文方法每幀只需前向傳播一次,在分割過程中保存每一幀的編碼器輸出特征,以便后續(xù)幀使用,因此模型具有較高的分割速度,分割速度為每幀0.11s.

4.1.2 DAVIS-2017數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果及分析

DAVIS-2017 主要用于視頻多目標(biāo)分割,驗(yàn)證集包含30個(gè)高清視頻.本文分割方法與對比方法在DAVIS-2017 數(shù)據(jù)集上的性能評(píng)估結(jié)果如表2 所示,其中“-”表示未公開源碼以及分割結(jié)果,表中的數(shù)據(jù)結(jié)果根據(jù)原論文獲得.

表2 不同視頻目標(biāo)分割方法在DAVIS-2017數(shù)據(jù)集的定量評(píng)估結(jié)果

由表2 可知,本文方法的分割結(jié)果達(dá)到62.1%(J&F),分割速度為每幀0.11 s.本文的網(wǎng)絡(luò)模型僅在YouTube-VOS 訓(xùn)練集進(jìn)行訓(xùn)練,在DAIVS-2017 驗(yàn)證集上進(jìn)行測試,因此分割精度略低于如RGMP 和OnAVOS 等直接在DAVIS-2017 數(shù)據(jù)集上訓(xùn)練的方法.

大多數(shù)模型內(nèi)部將高層特征進(jìn)行簡單地特征拼接,這種方式過于通用化,難以提升模型對不同目標(biāo)的判別力,導(dǎo)致多目標(biāo)分割精度下降.相比于其他分割方法,本文提出一種基于前景感知視覺注意的半監(jiān)督視頻目標(biāo)分割方法,利用特征匹配的思想使模型關(guān)注前景目標(biāo),因此在多目標(biāo)分割中具有較好的分割精度.本文方法與對比方法在DAVIS-2017 數(shù)據(jù)集上的部分分割結(jié)果如圖6所示.

圖6 本文方法與對比方法在DAVIS-2017數(shù)據(jù)集上的部分分割結(jié)果比較

4.1.3 YouTube-VOS數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果及分析

YouTube-VOS 的官方驗(yàn)證集包含474 個(gè)帶有第一幀目標(biāo)分割掩碼的視頻序列,其中具有91個(gè)目標(biāo)類別.為了評(píng)估算法對特定分割目標(biāo)的泛化能力,驗(yàn)證集中有65 個(gè)是訓(xùn)練集中包含的目標(biāo)類別,稱為已知類別(seen),有26 個(gè)是訓(xùn)練集中不包含的目標(biāo)類別,稱為未知類別(unseen).

對于YouTube-VOS 數(shù)據(jù)集,同樣采用區(qū)域相似度J、輪廓精確度F作為評(píng)估指標(biāo),并將J和F分成已知類別分割精度和未知類別分割精度.Goverall代表四個(gè)評(píng)估指標(biāo)的平均值.本文分割方法與對比方法在You-Tube-VOS 驗(yàn)證集上的性能評(píng)估結(jié)果如表3 所示,其中“-”表示未公開源碼以及分割結(jié)果,表中的數(shù)據(jù)結(jié)果根據(jù)原論文獲得.

表3 不同視頻目標(biāo)分割方法在YouTube-VOS驗(yàn)證集的定量評(píng)估結(jié)果(%)

從表3中可以看出,本文方法在YouTube-VOS驗(yàn)證集上,無論在已知類別還是未知類別上都具有穩(wěn)定的分割結(jié)果,總體分割精度達(dá)到64.2%(Goverall).

(1)OSVOS和OnAVOS均采用在線微調(diào)技術(shù).在已知類別和未知類別的視頻中,在線微調(diào)的方法均可達(dá)到較高的分割精度.雖然在離線訓(xùn)練階段沒有預(yù)先學(xué)習(xí)過未知類別的目標(biāo)對象,但是這些方法在測試階段會(huì)基于未知類別視頻的第一幀和對應(yīng)的分割掩碼對主分割網(wǎng)絡(luò)進(jìn)行在線微調(diào),使得其分割網(wǎng)絡(luò)能學(xué)習(xí)到當(dāng)前待分割目標(biāo)的外觀信息,從而實(shí)現(xiàn)對未知類別目標(biāo)對象的有效分割.但由于在線微調(diào)需要對主網(wǎng)絡(luò)進(jìn)行多次迭代訓(xùn)練,這會(huì)大大增加視頻目標(biāo)分割的時(shí)間.

本文利用孿生網(wǎng)絡(luò)將輸入圖像映射到高維特征空間,并利用全局匹配的方式形成全局前景感知的視覺注意.通過這種方法可以提升模型對于給定目標(biāo)的重識(shí)別能力,增強(qiáng)模型對于不同目標(biāo)的判別力,代替在線微調(diào)過程,在不損失精度的前提下,提升分割速度.

(2)RGMP,OSMN,RVOS 均采用傳統(tǒng)掩碼傳播的方式.從在表3 可以看出,現(xiàn)有的掩碼傳播方式在You-Tube-VOS 數(shù)據(jù)集上表現(xiàn)不好,因?yàn)樵摂?shù)據(jù)集中存在大量遮擋、目標(biāo)丟失等情況,使得傳統(tǒng)掩碼傳播方式容易造成跟蹤漂移,導(dǎo)致最終的分割效果下降;此外,這些方法不能很好地處理未知類別,這是由于掩碼傳播方式通常以前一幀預(yù)測掩碼作為額外輸入,但這種方式對于模型的指導(dǎo)意義并不明顯.本文提出利用局部匹配的方式形成局部前景感知的視覺注意,通過這種方式可以提升模型對待分割目標(biāo)的跟蹤能力,有效處理目標(biāo)外觀變化,代替?zhèn)鹘y(tǒng)的掩碼傳播方法.

本文分割方法在YouTube-VOS 驗(yàn)證集上部分的分割結(jié)果如圖7 所示.從圖7 可以看出,無論對于單目標(biāo)還是多目標(biāo)分割,本文分割方法均能較為準(zhǔn)確地分割目標(biāo)對象,并且隨著視頻序列的播放,分割效果可以保持較高的魯棒性.

圖7 本文方法在YouTube-VOS驗(yàn)證集上的部分定性結(jié)果展示

4.2 方法分階段的效果對比

4.2.1 定量分析

為了驗(yàn)證本文分割方法各階段的有效性,分別從基于全局前景感知的視覺注意、基于局部前景感知的視覺注意、特征轉(zhuǎn)換層和基于殘差細(xì)化的解碼器4個(gè)方面,在DAVIS-2017 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)分析,其有效性評(píng)估實(shí)驗(yàn)結(jié)果如表4所示.

表4 本文方法分階段效果的定量分析(%)

為了評(píng)估基于全局前景感知的視覺注意的有效性,保持原有網(wǎng)絡(luò)結(jié)構(gòu),刪去基于全局前景感知的視覺注意部分,直接將局部前景感知視覺注意特征圖FL作為解碼器的輸入,本文將此網(wǎng)絡(luò)命名為“-Global”.此時(shí)整體網(wǎng)絡(luò)失去對待分割目標(biāo)的重識(shí)別能力,僅通過連續(xù)幀之間的運(yùn)動(dòng)關(guān)系跟蹤待分割目標(biāo).從表4 可以看出,僅依靠基于局部前景感知的視覺注意,分割精度將降低9.1%.由此可以看出,基于全局前景感知的視覺注意可以使得網(wǎng)絡(luò)充分關(guān)注待分割目標(biāo),提升分割精度.

為了評(píng)估基于局部前景感知的視覺注意的有效性,保持原有網(wǎng)絡(luò)結(jié)構(gòu),刪去基于局部前景感知的視覺注意部分,直接將全局前景感知視覺注意特征圖FG作為解碼器的輸入,本文將此網(wǎng)絡(luò)結(jié)構(gòu)命名為“-Local”.此時(shí)網(wǎng)絡(luò)在沒有任何時(shí)序信息的情況下,根據(jù)第一幀給定目標(biāo)的外觀特征匹配后續(xù)幀的待分割目標(biāo),失去對特定目標(biāo)的跟蹤能力.從表4 可以看出,僅依靠基于全局前景感知的視覺注意,分割精度將降低16.3%.以此可以看出,基于局部前景感知的視覺注意可以增強(qiáng)模型對待分割目標(biāo)的跟蹤能力,有效提升分割精度.同時(shí),基于局部前景感知的視覺注意的性能提升要明顯高于基于全局前景感知的視覺注意,說明在半監(jiān)督視頻目標(biāo)分割任務(wù)中,有效的掩碼傳播方式對分割精度的影響較大.

為了評(píng)估編碼器中的特征轉(zhuǎn)換層的有效性,保持原有網(wǎng)絡(luò)結(jié)構(gòu),刪去基于三流孿生網(wǎng)絡(luò)的編碼器中的特征轉(zhuǎn)換層,得到對應(yīng)的網(wǎng)絡(luò)為“-ASPP”.此時(shí)網(wǎng)絡(luò)“-ASPP”提取的特征沒有包含更豐富的上下文信息,從表4可以看出,其分割精度將降低7.7%.由此可以看出,在編碼器中加入特征轉(zhuǎn)換層,通過融合不同感受野的特征,可提取具有更廣泛上下文信息的特征,能有效提升分割精度.

為了評(píng)估基于殘差細(xì)化的解碼器的有效性,保持原有網(wǎng)絡(luò)結(jié)構(gòu),刪去基于殘差細(xì)化的解碼器中的低階特征部分,得到對應(yīng)的網(wǎng)絡(luò)為“-ReDecoder”.此時(shí)網(wǎng)絡(luò)“-ReDecoder”由于去除了基于殘差細(xì)化的解碼器中的低階特征,在解碼過程中沒有融合當(dāng)前幀的細(xì)節(jié)信息,從表4 可以看出,網(wǎng)絡(luò)“-ReDecoder”的分割精度將降低6.0%.由此可以看出,在解碼器中,利用殘差學(xué)習(xí)的思想,融合當(dāng)前幀的低階特征圖,可以增強(qiáng)當(dāng)前高階特征缺失的細(xì)節(jié)特征,進(jìn)一步提升分割精度.

4.2.2 定性分析

本文對全局前景感知權(quán)重圖AG和局部前景感知權(quán)重圖AL進(jìn)行可視化,以直觀的方式分析本文所提出的前景感知視覺注意的有效性,可視化結(jié)果如圖8所示.

圖8 全局前景感知權(quán)重圖與局部前景感知權(quán)重圖的可視化示意圖

基于全局前景感知的視覺注意首先將第一幀特征圖和當(dāng)前幀特征圖進(jìn)行逐元素匹配,然后利用第一幀給定的分割掩碼提取對應(yīng)的前景信息,抑制背景信息,進(jìn)而獲得全局前景感知權(quán)重圖AG.全局前景感知權(quán)重圖中每一個(gè)點(diǎn)代表當(dāng)前幀與前景目標(biāo)的相似度.顏色越接近黃色,表示相似度越高;顏色越接近紫色,表示相似度越低.基于全局前景感知的視覺注意目的是提升模型對特定目標(biāo)的重識(shí)別能力,增強(qiáng)模型對不同目標(biāo)的判別力.

如圖8(a)、圖8(b)所示,基于全局前景感知的視覺注意可以較好地將兩個(gè)不同的目標(biāo)進(jìn)行分離.當(dāng)目標(biāo)對象的運(yùn)動(dòng)相對平緩且外觀變化相對穩(wěn)定時(shí),基于全局前景感知的視覺注意具有良好的指導(dǎo)意義,使得模型更加關(guān)注特定的分割目標(biāo),提升模型對于不同目標(biāo)的判別能力;但當(dāng)目標(biāo)對象外觀變化劇烈時(shí),如圖8(c)所示,基于全局前景感知的視覺注意的精確度則會(huì)大幅度下降,并產(chǎn)生大量噪聲.因此在分割過程中,單純利用基于全局前景感知的視覺注意不能較好地處理分割目標(biāo)的外觀變化,使得最終的分割精度下降.

基于局部前景感知的視覺注意首先將當(dāng)前幀的特征與前一幀對應(yīng)局部鄰域的特征進(jìn)行特征匹配,并選取鄰域匹配的最大值作為當(dāng)前幀特征與前一幀對應(yīng)局部鄰域特征的相似度,然后利用前一幀預(yù)測的分割掩碼提取前景信息,忽略背景信息,生成局部前景感知權(quán)重圖AL.局部前景感知權(quán)重圖中每一個(gè)點(diǎn)同樣代表當(dāng)前幀與前景目標(biāo)的相似度.基于局部前景感知的視覺注意目的是提升模型對待分割目標(biāo)的跟蹤能力,有效處理目標(biāo)的外觀變化,代替?zhèn)鹘y(tǒng)的掩碼傳播方法.

如圖8(c)所示,基于局部前景感知的視覺注意可以有效地跟蹤給定的分割目標(biāo).當(dāng)目標(biāo)對象發(fā)生較大的外觀變化時(shí),由于出現(xiàn)大量新的外觀特征,基于全局前景感知的視覺注意可能會(huì)失效.但基于局部前景感知的視覺注意是一種逐步跟蹤的過程,由于視頻幀之間存在時(shí)空一致性,相鄰兩幀在外觀上不會(huì)出現(xiàn)劇烈變化,因此基于局部前景感知的視覺注意可以較為準(zhǔn)確地捕獲到給定的分割目標(biāo),且不受其外觀變化的影響.但由于基于局部前景感知的視覺注意依賴視頻的連貫性,若出現(xiàn)長時(shí)間的遮擋,則不能進(jìn)行目標(biāo)跟蹤,此時(shí)只能依賴基于全局前景感知的視覺注意重新識(shí)別待分割目標(biāo).

5 總結(jié)

針對大多數(shù)半監(jiān)督視頻目標(biāo)分割網(wǎng)絡(luò)模型缺乏對相似目標(biāo)的判別力,且簡單的掩碼傳播對網(wǎng)絡(luò)模型的指導(dǎo)意義不明顯,本文通過利用基于全局前景感知的視覺注意,提升模型對不同目標(biāo)的判別力;其次,利用基于局部前景感知的視覺注意,提升模型對待分割目標(biāo)的跟蹤能力,有效處理目標(biāo)的外觀變化,代替?zhèn)鹘y(tǒng)的掩碼傳播方法;最后,基于殘差細(xì)化的解碼器利用殘差學(xué)習(xí)的思想,融合當(dāng)前幀圖像的低階特征,并使用多級(jí)損失監(jiān)督,逐步提升分割細(xì)節(jié).實(shí)驗(yàn)結(jié)果表明,本文的目標(biāo)分割方法能有效地解決目標(biāo)的相似混淆等問題,能快速、有效地分割出視頻中的給定目標(biāo).

猜你喜歡
掩碼前景全局
Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
我國旅游房地產(chǎn)開發(fā)前景的探討
四種作物 北方種植有前景
離岸央票:需求與前景
中國外匯(2019年11期)2019-08-27 02:06:32
低面積復(fù)雜度AES低熵掩碼方案的研究
落子山東,意在全局
金橋(2018年4期)2018-09-26 02:24:54
基于布爾異或掩碼轉(zhuǎn)算術(shù)加法掩碼的安全設(shè)計(jì)*
量子糾纏的來歷及應(yīng)用前景
太空探索(2016年10期)2016-07-10 12:07:01
基于掩碼的區(qū)域增長相位解纏方法
南陵县| 贵南县| 呼和浩特市| 高台县| 绥宁县| 赣州市| 东丽区| 安宁市| 图们市| 象州县| 辽阳县| 商丘市| 云安县| 瓮安县| 友谊县| 威海市| 都匀市| 清涧县| 龙里县| 秦安县| 永登县| 越西县| 周口市| 霞浦县| 南安市| 汉沽区| 成安县| 福贡县| 上高县| 唐山市| 新兴县| 呼伦贝尔市| 江源县| 城固县| 宜兴市| 红原县| 旅游| 阜新市| 滨海县| 西城区| 千阳县|