国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

掩碼生成動(dòng)態(tài)調(diào)控弱監(jiān)督視頻實(shí)例分割

2023-11-01 01:52:02何自芬張印輝
光學(xué)精密工程 2023年19期
關(guān)鍵詞:掩碼實(shí)例邊界

何自芬, 徐 林, 張印輝, 黃 瀅

(昆明理工大學(xué) 機(jī)電工程學(xué)院,云南 昆明 650000)

1 引 言

視頻實(shí)例分割[1-3]任務(wù)旨在對(duì)時(shí)序變換場(chǎng)景中的多目標(biāo)同時(shí)進(jìn)行檢測(cè)、分割和跟蹤,是當(dāng)前機(jī)器人視覺(jué)感知[4-5]、無(wú)人駕駛道路場(chǎng)景理解[6-7]、雷達(dá)識(shí)別與跟蹤[8-9]等新一代智能機(jī)器前沿交叉領(lǐng)域的一項(xiàng)核心技術(shù),廣泛應(yīng)用于交通、工業(yè)、醫(yī)學(xué)和國(guó)防等重要領(lǐng)域。

根據(jù)分割網(wǎng)絡(luò)是否需要提供訓(xùn)練集精細(xì)掩碼標(biāo)注信息,視頻實(shí)例分割可分為全監(jiān)督和弱監(jiān)督兩種訓(xùn)練類型。全監(jiān)督網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)需要大量精細(xì)掩碼標(biāo)注,但單幀圖像中各實(shí)例的精細(xì)掩碼標(biāo)注所需時(shí)間大約為54~79 s[10],單個(gè)實(shí)例邊界框的標(biāo)注需要7 s,單個(gè)實(shí)例圖像級(jí)類別標(biāo)注只需要1 s[11]。因此,采用弱標(biāo)注代替精細(xì)掩碼標(biāo)注的弱監(jiān)督視頻實(shí)例分割能大幅壓縮標(biāo)注成本,非常適用于需要快速備樣以迅速適應(yīng)新場(chǎng)景的智能機(jī)器視覺(jué)系統(tǒng)。

現(xiàn)有的弱監(jiān)督視頻實(shí)例分割方法分為圖像級(jí)標(biāo)注和邊界框標(biāo)注兩種。Liu 等[12]提出第一個(gè)圖像級(jí)標(biāo)注弱監(jiān)督視頻實(shí)例分割網(wǎng)絡(luò),采用像元關(guān)系網(wǎng)絡(luò)[13]結(jié)合目標(biāo)實(shí)例的光流運(yùn)動(dòng)信息生成偽掩碼標(biāo)簽,然后在掩碼組成模塊中利用視頻幀的時(shí)間一致性進(jìn)行實(shí)例匹配和分割。但該網(wǎng)絡(luò)未實(shí)現(xiàn)端到端訓(xùn)練,且圖像級(jí)標(biāo)注無(wú)法使網(wǎng)絡(luò)精確聚焦實(shí)例區(qū)域。邊界框標(biāo)注視頻實(shí)例分割網(wǎng)絡(luò)[14]沿用實(shí)例分割網(wǎng)絡(luò)BoxInst[15]的兩種掩碼監(jiān)督方式和網(wǎng)絡(luò)框架,并計(jì)算實(shí)例外觀和運(yùn)動(dòng)信息的光流相似性,生成偽標(biāo)簽監(jiān)督訓(xùn)練。但該網(wǎng)絡(luò)初始掩碼預(yù)測(cè)分支特征通道維度突降導(dǎo)致實(shí)例激活特征丟失,且初始預(yù)測(cè)掩碼特征在通道和空間中信息缺乏關(guān)聯(lián),與實(shí)例感知信息的動(dòng)態(tài)交互能力受到制約。另外,光流法受光線變化影響大,計(jì)算量大且耗時(shí)長(zhǎng),無(wú)法使智能機(jī)器分割算法適用實(shí)時(shí)性要求高的任務(wù)。

為了解決上述問(wèn)題,本文構(gòu)建了多級(jí)特征融合模塊,利用特征復(fù)用策略相互學(xué)習(xí)各級(jí)特征以生成初始預(yù)測(cè)掩碼,有效克服掩碼分支預(yù)測(cè)一組原型實(shí)例時(shí)通道維度突降導(dǎo)致預(yù)測(cè)實(shí)例激活特征丟失的問(wèn)題。設(shè)計(jì)了動(dòng)態(tài)調(diào)控機(jī)制在初始預(yù)測(cè)掩碼特征通道和空間中建立依賴關(guān)系,使分割網(wǎng)絡(luò)初始預(yù)測(cè)掩碼與實(shí)例感知信息動(dòng)態(tài)交互,更多關(guān)注實(shí)例區(qū)域,進(jìn)一步提升目標(biāo)分割精度。提出了邊界框與掩碼一致性損失監(jiān)督預(yù)測(cè)掩碼僅在實(shí)例邊界框范圍內(nèi)生成,并計(jì)算輸入圖像和預(yù)測(cè)掩碼的二元顏色相似性,約束預(yù)測(cè)掩碼更加接近實(shí)例區(qū)域。

2 相關(guān)工作

2.1 邊框級(jí)弱監(jiān)督實(shí)例分割

為了解決實(shí)例分割數(shù)據(jù)標(biāo)注量過(guò)大的問(wèn)題,早 期 方 法[10,15,17]僅 對(duì) 訓(xùn) 練 數(shù) 據(jù) 進(jìn) 行 邊 界 框 標(biāo) 注,并尋找實(shí)例區(qū)域的像元特征信息優(yōu)化預(yù)測(cè)掩碼,實(shí)現(xiàn)逐像元實(shí)例分割。第一個(gè)僅用邊界框標(biāo)注的實(shí)例分割框架[10](Simple Does It, SDI),將邊界框以內(nèi)的區(qū)域都標(biāo)注為實(shí)例,以外的都標(biāo)注為背景,以此作為訓(xùn)練的先驗(yàn)信息對(duì)分割結(jié)果進(jìn)行迭代優(yōu)化。然而,此方法先利用目標(biāo)輪廓檢測(cè)算法[16]生成偽標(biāo)簽,再以全監(jiān)督的流程訓(xùn)練網(wǎng)絡(luò),并不能做到端到端訓(xùn)練。類不可知聯(lián)合學(xué)習(xí)弱監(jiān)督網(wǎng)絡(luò)[17]認(rèn)為在邊界框的像元區(qū)域內(nèi),每一行或每一列像元至少有一個(gè)像元點(diǎn)屬于實(shí)例,將這些行和列稱作正包,邊界框外的則稱作負(fù)包,然后將正負(fù)包集合作為訓(xùn)練數(shù)據(jù),設(shè)計(jì)多實(shí)例學(xué)習(xí)方案嵌入到Mask R-CNN[18]全監(jiān)督流程中完成端到端訓(xùn)練。由于保留了兩階段實(shí)例分割先檢測(cè)后分割的范式,依靠大量原圖候選框映射到特征圖相應(yīng)區(qū)域的操作獲得實(shí)例掩碼,該方法的訓(xùn)練和推理速度較慢。BoxInst[15]在一階段實(shí)例分割 網(wǎng) 絡(luò)(Conditional Convolutions For Instance Seg-mentation,CondInst)[19]的基礎(chǔ)上提出投影損失函數(shù)和成對(duì)相似性損失函數(shù),利用實(shí)例邊界框和掩碼在X軸和Y軸上具有相同的投影、相鄰像元大概率具有相同實(shí)例標(biāo)簽兩個(gè)先驗(yàn)信息,約束網(wǎng)絡(luò)生成最終的實(shí)例預(yù)測(cè)掩碼。

2.2 視頻實(shí)例分割

MaskTrack R-CNN[1]是 第 一 個(gè) 提 出 視 頻 實(shí)例分割任務(wù)的兩階段網(wǎng)絡(luò),它創(chuàng)建了第一個(gè)大規(guī)模視頻實(shí)例分割數(shù)據(jù)集YT-VIS,并在Mask RCNN[18]基礎(chǔ)上增加新的跟蹤分支,利用外部記憶追蹤不同幀之間的實(shí)例,為邊框回歸頭生成候選框并分配實(shí)例標(biāo)簽。但該網(wǎng)絡(luò)需利用RoIAlign操作生成大量候選建議框,網(wǎng)絡(luò)訓(xùn)練速度和推理速度緩慢,難以應(yīng)用在實(shí)時(shí)性要求較高的任務(wù)中。受到一階段實(shí)時(shí)實(shí)例分割網(wǎng)絡(luò)YOLACT[20]的啟發(fā),Sipmask[21]引入輕量級(jí)空間保存模塊,在每個(gè)邊界框中生成單獨(dú)空間系數(shù),解決了預(yù)測(cè)邊界框中空間信息不足的問(wèn)題,更好地描繪空間中相鄰實(shí)例;另外,利用掩碼對(duì)齊權(quán)重?fù)p失和利用可變形卷積進(jìn)行特征與回歸框位置對(duì)齊,將掩碼預(yù)測(cè)和實(shí)例檢測(cè)相關(guān)聯(lián)。Li 等[22]發(fā)現(xiàn)單階段實(shí)例分割網(wǎng)絡(luò)存在卷積特征既不與預(yù)測(cè)框?qū)R也不與真實(shí)邊界框?qū)R的問(wèn)題,這降低了掩碼預(yù)測(cè)的空間感知能力,因此,為錨框和真實(shí)邊界框設(shè)計(jì)了特征校準(zhǔn)策略以獲得更精確的空間特征;同時(shí),利用視頻固有特性構(gòu)建了一個(gè)時(shí)間融合模塊聚合當(dāng)前幀與參考幀的掩碼特征,提高了相鄰幀之間的時(shí)間相關(guān)性。然而,基于視頻幀的時(shí)間建模方法[21-22]僅停留在相鄰幀之間。由于時(shí)間維度承載的豐富場(chǎng)景信息對(duì)網(wǎng)絡(luò)分割、定位和類別預(yù)測(cè)有重要作用,在線交叉學(xué)習(xí)網(wǎng)絡(luò)[23](Crossover learning for fast online video instance segmentation,CrossVIS)在實(shí)例分割網(wǎng)絡(luò)CondInst[19]的基礎(chǔ)上建立交叉學(xué)習(xí)模塊,用視頻序列中豐富的上下文信息,將同一目標(biāo)在非相鄰兩幀中的位置信息跨幀融合到每幀的預(yù)測(cè)掩碼,引入位置信息增強(qiáng)實(shí)例表示,同時(shí)削弱背景和與實(shí)例無(wú)關(guān)的信息。CrossVIS[23]利用全卷積網(wǎng)絡(luò)作為初始掩碼預(yù)測(cè)頭,擺脫了兩階段實(shí)例分割方法訓(xùn)練和推理速度慢的缺點(diǎn),但存在初始預(yù)測(cè)掩碼實(shí)例激活特征丟失嚴(yán)重,無(wú)法有效融合實(shí)例感知信息的問(wèn)題。

3 WSVIS 網(wǎng)絡(luò)結(jié)構(gòu)

3.1 生成調(diào)控部分

本文提出了弱監(jiān)督視頻實(shí)例分割網(wǎng)絡(luò)(Weak Supervised Video Instance Segmentation,WSVIS),其整體結(jié)構(gòu)如圖1 所示,分為生成調(diào)控部分和交叉預(yù)測(cè)部分。

圖1 WSVIS 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of WSVIS network

WSVIS 網(wǎng)絡(luò)在同一視頻序列中隨機(jī)抽取兩幀(Ft∈RB×3×H×W,F(xiàn)t'∈RB×3×H×W,B表示Batch size) 圖像作為網(wǎng)絡(luò)生成調(diào)控部分輸入。生成調(diào)控部分由初始特征提取網(wǎng)絡(luò)、檢測(cè)頭、生成融合模塊和動(dòng)態(tài)調(diào)控機(jī)制組成。Ft,F(xiàn)t'經(jīng)過(guò)參數(shù)共享的ResNet50 骨干網(wǎng)絡(luò)[24]和特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[25])提取圖像初始特征。檢測(cè)頭包含分類頭(Class Head)、邊框回歸頭(Box Head)和實(shí)例感知頭(Inst-Aware Head)。FPN 輸出特征分別經(jīng)過(guò)檢測(cè)頭和生成融合模塊。

檢測(cè)頭根據(jù)FPN 各層[P3,P4,P5,P6,P7]輸出特征的每個(gè)像元預(yù)測(cè)與之相關(guān)聯(lián)的類別,并直接回歸錨點(diǎn)到邊框的距離完成實(shí)例邊界框預(yù)測(cè),同時(shí)實(shí)例感知頭與分類頭結(jié)構(gòu)相同用于預(yù)測(cè)掩碼的實(shí)例感知信息At,At'。生成融合模塊的輸入 是 FPN 高 分 辨 率 層 的 輸 出 特 征P3∈RB×128×H×W,P3'∈RB×128×H×W,由 于 實(shí) 例 預(yù)測(cè)所需的相對(duì)位置信息來(lái)自FPN,為了構(gòu)建兩者的聯(lián)系,將初始預(yù)測(cè)特征Fmask,F(xiàn)m'ask尺寸重置為N×8×(H×W)(N取決于邊框回歸頭保留的預(yù)測(cè)實(shí)例數(shù)量),并與它到FPN 各特征層之間的相對(duì)位置信息Lt∈RB×2×(H×W),Lt'∈RB×2×(H×W)在通道維度上進(jìn)行拼接,然后重置為原始特征圖尺寸,生成初始 預(yù) 測(cè) 掩 碼It=∈RB×2×(H×W),It'=∈RB×2×(H×W)。動(dòng)態(tài)調(diào)控機(jī)制生成通道和空間權(quán)重加權(quán) ,強(qiáng)化初始預(yù)測(cè)掩碼在交叉預(yù)測(cè)部分中與實(shí)例感知信息的動(dòng)態(tài)交互能力。

3.1.1 多級(jí)特征融合模塊

CrossVIS[23]原始掩碼預(yù)測(cè)層如圖2(左下角)所示,包含4 個(gè)卷積核大小為3×3,通道數(shù)為128的串行卷積層,最后一層通道數(shù)從128 減少到8,代表生成8 組實(shí)例掩碼。但實(shí)例通道突降會(huì)導(dǎo)致初始預(yù)測(cè)掩碼激活特征丟失,因此受人體姿態(tài)估計(jì)網(wǎng)絡(luò)[26]啟發(fā),本文提出多級(jí)特征融合(Multilevel Feature Fusion,MFF)模塊。為了增強(qiáng)高分辨率信息,通過(guò)將高分辨率和低分辨率卷積并行連接,達(dá)到多尺度特征交互的目的。不同的是,MFF 模塊包含5 級(jí)通道數(shù)不同的串行卷積層,各級(jí)卷積層之間采用特征復(fù)用機(jī)制進(jìn)行特征融合。如圖2 所示,用Lji代表MFF 的5 級(jí)通道變換層,i∈[1,2,3,4,5]代表層級(jí)代號(hào),j∈[1,2,3]代表3個(gè)串行卷積從左到右的順序代號(hào)。MFF 模塊輸入 為 FPN 輸 出 特 征P3∈RB×128×48×80,P3'∈RB×128×48×80。特征經(jīng)過(guò)L11層后并行輸入到L21和L12層,L12層輸出通道為64,然后經(jīng)過(guò)二倍通道上采樣與L21層在通道維度對(duì)齊并相加作為L(zhǎng)31層的輸入;L21層輸出通過(guò)1/2 倍通道下采樣與L22層在通道維度對(duì)齊并作為L(zhǎng)22層的輸入;然后L12層輸出作為L(zhǎng)13層輸入,L31層輸出、L22層輸出和L13層輸出之和作為L(zhǎng)32層的輸入。同理,其他相鄰級(jí)通道特征也通過(guò)這種高級(jí)特征與低級(jí)特征交互融合的方式建立聯(lián)系,能有效緩解激活特征丟失的問(wèn)題。MFF 模塊各級(jí)特征融合計(jì)算流程可表示為:

圖2 MFF 模塊結(jié)構(gòu)Fig.2 Structure of MFF module

式中:表示各卷積層輸出,表示輸出經(jīng)過(guò)Lji層。

經(jīng)過(guò)MFF 模塊后,輸入特征尺寸并不會(huì)改變,因此最終輸出特征與原始掩碼預(yù)測(cè)層的輸出維度一致,可表示為為了使網(wǎng)絡(luò)從初始預(yù)測(cè)到交叉預(yù)測(cè)保持動(dòng)態(tài)聯(lián)系,其中L11層是為每個(gè)樣本學(xué)習(xí)一個(gè)卷積核參數(shù)的 動(dòng) 態(tài) 卷 積CondConv[27],動(dòng) 態(tài) 卷 積 等 同 于 多 個(gè)標(biāo)準(zhǔn)卷積的線性組合,每個(gè)卷積中根據(jù)特征輸入決定卷積核權(quán)重,再對(duì)這些卷積核加權(quán)求和得到一個(gè)適合該輸入的動(dòng)態(tài)卷積核權(quán)重因子。動(dòng)態(tài)卷積計(jì)算過(guò)程可表示為:

輸入特征Input(Fmask,F(xiàn)'mask)經(jīng)過(guò)全局平均池化(Global Average Pooling,GAP)層得到由所有通道的特征圖像的像素平均值組成的池化特征向量,然后特征向量經(jīng)過(guò)全連接層(Fully Connected,F(xiàn)C)后通過(guò)Sigmoid 函數(shù)生成一系列與初始卷積權(quán)重ωi一一對(duì)應(yīng)的權(quán)重ai,訓(xùn)練過(guò)程中ωi同時(shí)學(xué)習(xí)和訓(xùn)練,因此對(duì)于每個(gè)預(yù)測(cè)實(shí)例都會(huì)生成特定權(quán)重。將ωi和ai分別相乘再相加后與輸入Input 做卷積運(yùn)算,最后使用ReLU 函數(shù)增加各層特征之間的非線性關(guān)系。

3.1.2 動(dòng)態(tài)調(diào)控機(jī)制

為加強(qiáng)初始預(yù)測(cè)掩碼與動(dòng)態(tài)實(shí)例感知信息之間的聯(lián)系,本文提出動(dòng)態(tài)調(diào)控機(jī)制尋找空間和通道上對(duì)于區(qū)分前背景更有效的信息,提高網(wǎng)絡(luò)對(duì)實(shí)例區(qū)域的關(guān)注。如圖3 所示,動(dòng)態(tài)調(diào)控機(jī)制分為通道調(diào)控機(jī)制和空間調(diào)控機(jī)制兩個(gè)部分,通道調(diào)控可以區(qū)分網(wǎng)絡(luò)預(yù)測(cè)特征不同通道的重要程度,采取全局最大池化和全局平均池化對(duì)動(dòng)態(tài)生成的N維實(shí)例特征圖進(jìn)行壓縮,以此建立各通道特征之間的關(guān)系。空間調(diào)控在N維實(shí)例特征圖上尋找對(duì)區(qū)分前景和背景起重要作用的像元區(qū)域。

圖3 動(dòng)態(tài)調(diào)控機(jī)制Fig.3 Dynamic control mechanism

通 道 調(diào) 控 機(jī) 制 的 輸 入 為Fin∈R1×N×48×80。首先輸入特征按通道進(jìn)行全局最大池化(Global Max Pooling,GMP)和全局平均池化(Global Average Pooling,GAP)得到兩組尺寸為N×1×1 的池化特征,然后將兩組特征向量分別送入FC 后對(duì)應(yīng)元素相加,最后利用Sigmoid 函數(shù)計(jì)算得到通道權(quán)重系數(shù)ωc∈R1×N×1×1。

其中:θ1,θ2表示全連接層權(quán)重系數(shù),S表示Sigmoid 函數(shù)。ωc為輸入特征Fin每一個(gè)實(shí)例通道賦予不同的權(quán)重,得到N維通道調(diào)控加權(quán)的特征輸出Fωc∈R1×N×48×80。通道調(diào)控加權(quán)后的特征Fωc輸入空間調(diào)控機(jī)制,首先將Fωc在空間上進(jìn)行GMP和GAP 并拼接得到尺寸為2×48×80 的池化特征,然后使用一維卷積將兩個(gè)池化特征圖在通道維度進(jìn)行信息交互,最終經(jīng)過(guò)Sigmoid 生成空間注意力權(quán)重系數(shù)ωs∈R1×N×48×80。

其中:Conv7×7表示尺寸為7×7 的卷積核,Cat表示拼接。然后,ωs與Fωc進(jìn)行逐像素點(diǎn)積運(yùn)算得到 最 終 的 動(dòng) 態(tài) 調(diào) 控 機(jī) 制 輸 出Mt∈R1×N×48×80,Mt'∈R1×N×48×80。

3.2 交叉預(yù)測(cè)部分

WSVIS 網(wǎng)絡(luò)的交叉預(yù)測(cè)部分包含交叉學(xué)習(xí)方案和損失計(jì)算。Ft,F(xiàn)t'兩幀經(jīng)過(guò)生成調(diào)控部分后得到動(dòng)態(tài)預(yù)測(cè)掩碼Mt,Mt',以及來(lái)自實(shí)例感知頭的實(shí)例感知信息At,A't。對(duì)于視頻實(shí)例分割,同一實(shí)例可能出現(xiàn)在視頻兩幀中的不同位置,因此兩幀中同一實(shí)例的外觀信息和位置信息可以相互引導(dǎo)。交叉學(xué)習(xí)方案可表示為:

其 中:Maskpre表示最終掩碼預(yù)測(cè)層,Mt,Mt'是Maskpre的 輸 入 特 征,At,A't提 供Maskpre所 需 的卷積核權(quán)重和偏置,Mcross和M'cross表示最終實(shí)例預(yù)測(cè)掩碼。Maskpre第四層使用ReLU 作為激活函數(shù),最后一層使用Sigmoid 得到最終實(shí)例預(yù)測(cè)概率。

3.2.1 邊界框與掩碼一致性損失

本文網(wǎng)絡(luò)訓(xùn)練時(shí)不具備精細(xì)掩碼標(biāo)注信息,而已知的先驗(yàn)信息是:在平面上,實(shí)例邊界框與實(shí)例掩碼水平方向的長(zhǎng)和垂直方向的寬具有一致性。因此,本文利用真實(shí)標(biāo)注實(shí)例邊界框約束預(yù)測(cè)掩碼在邊界框內(nèi)生成。邊界框與掩碼一致性如圖4 所示。

圖4 實(shí)例邊界框與掩碼區(qū)域一致性示意圖Fig.4 Consistency images of instance bounding box and mask area

假設(shè)真實(shí)標(biāo)注邊界框水平方向長(zhǎng)為bl、垂直方向?qū)挒閎w,預(yù)測(cè)掩碼水平方向長(zhǎng)為ml、垂直方向 寬 為mw,利 用 相 似 度 度 量 函 數(shù)Dice Loss[28]衡量二者偏差,則損失函數(shù)表示為:

其中:Lbm應(yīng)用于所有n個(gè)預(yù)測(cè)實(shí)例概率圖和真實(shí)邊界框的偏差計(jì)算,最終損失值為是Lbm/n。

3.2.2 偽親和標(biāo)簽生成與二元顏色相似性損失

這里以輸入圖像和預(yù)測(cè)掩碼二元像元顏色相似性生成的偽親和標(biāo)簽計(jì)算損失優(yōu)化預(yù)測(cè)掩碼。首先,將圖片下采樣到與交叉預(yù)測(cè)部分預(yù)測(cè)掩碼特征圖的相同尺寸,為了更加直觀地判斷顏色的相似性,將下采樣后的圖像數(shù)據(jù)從RGB 空間轉(zhuǎn)換到更加接近人類視覺(jué)感知的Lab 空間,然后計(jì)算輸入圖像和預(yù)測(cè)掩碼的二元顏色相似性,以此生成偽親和標(biāo)簽,最后計(jì)算二者損失優(yōu)化預(yù)測(cè)掩碼。計(jì)算流程如圖5 所示。

圖5 二元顏色相似性損失計(jì)算流程Fig.5 Flow chart for binary color similarity loss calculation

針對(duì)下采樣后圖像分辨率降低導(dǎo)致原有像素特征丟失的問(wèn)題,本文受到空洞卷積[29]的啟發(fā),將鄰域像元點(diǎn)采樣間隔設(shè)置為2,在保證像元采樣感受野的同時(shí)能獲得最優(yōu)分割性能。

像元采樣如圖6 所示,以圖像上顏色相近的兩像元點(diǎn)大概率具有相同實(shí)例標(biāo)簽作為先驗(yàn),中心像元與領(lǐng)域8 個(gè)像元分別計(jì)算相似度,然后利用顏色相似度閾值過(guò)濾相似度低的一對(duì)像元,計(jì)算二元顏色相似度生成交叉預(yù)測(cè)部分所示的偽親和標(biāo)簽。

圖6 像元采樣示意圖Fig.6 Pixel sampling diagram

假設(shè)p1表示中心像元,p2表示中心像元鄰域任一像元,那么在Lab 空間中p1和p2的顏色相似度可表示為:

其中‖Labp1-Labp2‖表示p1和p2在Lab 空間中的感知相似度。

本文相似度閾值λ是預(yù)先設(shè)置的超參數(shù),延續(xù) 弱 監(jiān) 督 實(shí) 例 分 割 網(wǎng) 絡(luò)BoxInst[15]的 設(shè) 置,λ設(shè) 置為0.1。當(dāng)S≥λ時(shí),兩像元點(diǎn)相似且具有相同的實(shí)例標(biāo)簽;當(dāng)S<λ時(shí),兩像元點(diǎn)所屬標(biāo)簽不相同。對(duì)于預(yù)測(cè)掩碼,上述標(biāo)簽學(xué)習(xí)問(wèn)題轉(zhuǎn)化為像元對(duì)是否同屬于實(shí)例和背景的二分類概率問(wèn)題,在某個(gè)實(shí)例的預(yù)測(cè)掩碼Mcross,M'cross中某對(duì)像元g同為實(shí)例的概率表示為P(g=1),其余為背景的概率表示為P(g=0)。二分類概率計(jì)算像元對(duì)采樣方式與偽標(biāo)簽相似度計(jì)算方式一致。

邊界框與掩碼一致性損失函數(shù)約束掩碼僅在預(yù)測(cè)框內(nèi)生成,最后采用二元交叉熵(BCE)損失函數(shù)優(yōu)化預(yù)測(cè)掩碼與輸入圖像偽親和標(biāo)簽之間的差距。二元顏色相似性損失函數(shù)可寫為:

其中:N表示經(jīng)顏色相似度閾值過(guò)濾后保留的相似像元對(duì)數(shù)量,Gb表示邊界框內(nèi)的像元對(duì)的集合。當(dāng)S≥λ時(shí),τ=1; 當(dāng)S<λ時(shí),τ=0。

3.2.3 總損失函數(shù)

本文聯(lián)合邊界框與掩碼一致性損失和二元顏色相似性損失,實(shí)現(xiàn)僅邊界框標(biāo)注的WSVIS網(wǎng)絡(luò),端到端進(jìn)行檢測(cè)、分割和跟蹤,每個(gè)訓(xùn)練樣本的多任務(wù)損失函數(shù)表示為:

其 中:Lcls,Lbox和Lid與CrossVIS[23]一 致,分 別 表示分類損失、邊界框損失和跟蹤損失,Lbm和Lpair為本文邊界框與掩碼一致性損失和二元顏色相似性損失。

4 實(shí)驗(yàn)結(jié)果及分析

4.1 實(shí)驗(yàn)數(shù)據(jù)

本文數(shù)據(jù)集BoxSet 由382 段視頻數(shù)據(jù)組成,其中329 段視頻用于訓(xùn)練,53 段視頻用于測(cè)試。訓(xùn)練集僅使用邊界框和類別標(biāo)注,測(cè)試集的標(biāo)注方法與全監(jiān)督數(shù)據(jù)集一致并用于網(wǎng)絡(luò)模型分析和調(diào)優(yōu)。

為了驗(yàn)證WSVIS 網(wǎng)絡(luò)的穩(wěn)定性,在大型視頻 實(shí) 例 分 割 數(shù) 據(jù) 集YT-VIS[1]2019 上 與 現(xiàn) 有 弱監(jiān)督視頻實(shí)例分割網(wǎng)絡(luò)FlowIRN[12]和FlowSimi[14]進(jìn) 行 對(duì) 比。YT-VIS[1]數(shù) 據(jù) 集 共 包 含2 883段視頻,其中訓(xùn)練集視頻2 238 段,測(cè)試集338 段,訓(xùn)練時(shí)不使用精細(xì)掩碼標(biāo)注信息。

4.2 訓(xùn)練細(xì)節(jié)

實(shí)驗(yàn)硬件環(huán)境如下:基于Ubuntu18.04 操作系統(tǒng),CPU 型號(hào)為Intel(R)Core(TM)i5-11400,GPU 型 號(hào) 為NVIDIA GeForce RTX2080Ti。軟件環(huán)境如下:深度學(xué)習(xí)框架為PyTorch1.8.1,python 版 本 為3.7,采 用CUDA10.2 運(yùn) 算 平 臺(tái) 和CUDNN8.3.2 工具包加速模型訓(xùn)練。超參數(shù)設(shè)置如表1 所示。

表1 訓(xùn)練參數(shù)設(shè)置Tab.1 Training parameter settings

4.3 視頻實(shí)例分割評(píng)價(jià)指標(biāo)

本文的網(wǎng)絡(luò)評(píng)估指標(biāo)與MaskTrack RCNN[1]一致,其中平均精度(Average Precision,AP)是交并比(Intersection Over Union, IoU)從50%到95%之間步長(zhǎng)為5%的10 個(gè)閾值的總平均 精 度,AP50,AP75分 別 代 表IoU 閾 值 為50%和75%時(shí)的平均精度;AR1,AR10則表示限定條件下的平均召回率。與靜止圖像實(shí)例分割不同的是,視頻中每一個(gè)實(shí)例在整個(gè)視頻序列中都包含了一系列掩碼,因此視頻實(shí)例分割評(píng)估時(shí)IoU 的計(jì)算不僅需要在空間域上進(jìn)行,也要在時(shí)間域上進(jìn)行,則IoU 定義為每一個(gè)實(shí)例的預(yù)測(cè)掩碼與真實(shí)標(biāo)簽的交集與并集的商,即[1]:

在測(cè)試階段,計(jì)算預(yù)測(cè)值與真實(shí)值的IoU 是否大于給定閾值,若IoU 大于閾值表示為TP,小于閾值則表示為FP。則總平均分割精度定義為:

其中:C代表數(shù)據(jù)集中的類別數(shù)量,c為當(dāng)前類別,thr閾值數(shù),t為當(dāng)前閾值。

4.4 實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)對(duì)比了WSVIS 與其他視頻實(shí)例分割網(wǎng)絡(luò)在BoxSet 和YT-VIS[1]上的各項(xiàng)平均精度,結(jié)果如表2 所示。3 種全監(jiān)督視頻實(shí)例分割網(wǎng)絡(luò)均為單階段視頻實(shí)例分割網(wǎng)絡(luò),在BoxSet 上AP 分別達(dá)到了36.2%,37.5%,39.9%,WSVIS 網(wǎng)絡(luò)的AP 超 過(guò) 了Sipmask[21],與STMask[22]相 近,僅比CrossVIS[23]低2.4%,AP50優(yōu) 于 其 他3 個(gè) 全 監(jiān)督 網(wǎng) 絡(luò),達(dá) 到64.7%。 由 于FlowIRN[12]和FlowSimi[14]網(wǎng) 絡(luò) 并 未 公 開,因 此 在YT-VIS[1]上對(duì)3 種弱監(jiān)督網(wǎng)絡(luò)進(jìn)行對(duì)比。圖像級(jí)弱監(jiān)督視頻實(shí)例分割網(wǎng)絡(luò)FlowIRN[12]的AP 為10.5%,邊界框弱監(jiān)督視頻實(shí)例分割網(wǎng)絡(luò)FlowSimi[14]的AP為29.0%,WSVIS 網(wǎng) 絡(luò) 的AP 為30.1%,相 比FlowIRN[12]提升19.6%,比最先進(jìn)的FlowSimi[14]網(wǎng)絡(luò)高1.1%。

表2 不同視頻實(shí)例分割網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果對(duì)比Tab.2 Comparison of experiment results for different video instance segmentation networks (%)

在YT-VIS[1]上,3 種 弱 監(jiān) 督 視 頻 實(shí) 例 分 割網(wǎng)絡(luò)精度分割均低于全監(jiān)督視頻實(shí)例分割網(wǎng)絡(luò)。由于全監(jiān)督視頻實(shí)例分割網(wǎng)絡(luò)采用精細(xì)掩碼標(biāo)注,網(wǎng)絡(luò)利用優(yōu)質(zhì)的監(jiān)督信息在迭代訓(xùn)練中能學(xué)習(xí)到更優(yōu)的參數(shù),因此在測(cè)試中通常能獲得更好的分割精度和效果。而不論是圖像級(jí)標(biāo)注或是邊界框標(biāo)注,弱監(jiān)督視頻實(shí)例分割網(wǎng)絡(luò)都缺乏精細(xì)的真實(shí)掩碼標(biāo)注,僅有接近真實(shí)標(biāo)注的偽親和標(biāo)簽監(jiān)督網(wǎng)絡(luò)訓(xùn)練,網(wǎng)絡(luò)不可避免地會(huì)引入錯(cuò)誤監(jiān)督信息,導(dǎo)致分割精度降低。WSVIS 網(wǎng)絡(luò)在弱監(jiān)督學(xué)習(xí)范式下超過(guò)了目前最先 進(jìn) 的FlowSimi[14],分 割 精 度 和 分 割 效 果 接 近于全監(jiān)督視頻實(shí)例分割網(wǎng)絡(luò),同時(shí)由于不需要精細(xì)掩碼標(biāo)注,與全監(jiān)督網(wǎng)絡(luò)相比,數(shù)據(jù)標(biāo)注量大大減少,加快了各類場(chǎng)景弱監(jiān)督網(wǎng)絡(luò)的開發(fā)進(jìn)程。

圖7 展 示 了WSVIS 網(wǎng) 絡(luò) 與CrossVIS[23]網(wǎng) 絡(luò)的3 段視頻分割結(jié)果。從分割效果可以看到,WSVIS 網(wǎng)絡(luò)具有與全監(jiān)督網(wǎng)絡(luò)相近的分割性能。在3 段視頻中,均可以看到CrossVIS[23]網(wǎng)絡(luò)將一些稀疏背景區(qū)域或?qū)嵗糠謪^(qū)域錯(cuò)誤分割,而WSVIS 卻不存在此類問(wèn)題,這得益于WSVIS網(wǎng)絡(luò)邊界框與掩碼一致性損失的良好性能,使實(shí)例預(yù)測(cè)掩碼總是在邊界框中生成??傮w來(lái)看,WSVIS 網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)僅包含邊界框標(biāo)注的情況下獲得了準(zhǔn)確的分割結(jié)果,具備良好的視頻場(chǎng)景感知和分析能力。

圖7 視頻分割結(jié)果Fig.7 Video segmented results

4.5 消融實(shí)驗(yàn)

為證明MFF 模塊、動(dòng)態(tài)調(diào)控機(jī)制、邊界框與掩碼一致性損失Lbm和二元顏色相似性損失Lpair對(duì)WSVIS 網(wǎng)絡(luò)的有效性,將各模塊和損失在BoxSet 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。

4.5.1Lbm和Lpair實(shí)驗(yàn)

Lbm和Lpair消融實(shí)驗(yàn)結(jié)果如表3 所示??梢钥闯?,當(dāng)僅使用邊界框與掩碼一致性損失Lbm監(jiān)督網(wǎng)絡(luò)掩碼分支訓(xùn)練時(shí),總平均分割精度為23.7%;僅使用二元顏色相似性損失Lpair監(jiān)督網(wǎng)絡(luò)掩碼分支訓(xùn)練時(shí),總平均分割精度為22.5%;而當(dāng)WSVIS網(wǎng)絡(luò)同時(shí)使用二者監(jiān)督訓(xùn)練,總平均分割精度提升10%左右。由此可見(jiàn),邊界框與掩碼一致性損失Lbm和二元顏色相似性損失Lpair共同使用能顯著提升WSVIS 網(wǎng)絡(luò)的弱監(jiān)督分割性能。

表3 Lbm 和Lpair 的有效性驗(yàn)證Tab.3 Effectiveness verification for Lbm and Lpair(%)

4.5.2 MFF 模塊實(shí)驗(yàn)

MFF 模塊的消融實(shí)驗(yàn)結(jié)果如表4 所示。當(dāng)WSVIS 網(wǎng)絡(luò)僅利用Lbm和Lpair兩項(xiàng)損失進(jìn)行監(jiān)督時(shí),在本文數(shù)據(jù)集上的總平均分割精度為32.9%。加入MFF 模塊后,網(wǎng)絡(luò)總平均分割精度從32.9%提高到36.3%。

表4 MFF 模塊的有效性驗(yàn)證Tab.4 Effectiveness verification of MFF module(%)

為了驗(yàn)證MFF 模塊5 級(jí)特征通道逐級(jí)融合對(duì)提升網(wǎng)絡(luò)分割精度的有效性,對(duì)MFF 模塊采用不同層級(jí)通道融合與使用標(biāo)準(zhǔn)卷積和動(dòng)態(tài)卷積作為L(zhǎng)11層進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表5 所示。當(dāng)L11層使用標(biāo)準(zhǔn)卷積時(shí),MFF 模塊層級(jí)從3 級(jí)到5級(jí)的總平均分割精度增加2.2%;而使用動(dòng)態(tài)卷積CondConv[27]時(shí),MFF 模 塊 層 級(jí) 從3 級(jí) 到5 級(jí)精度增加2.0%。CondConv 為5 級(jí)時(shí),MFF 模塊提升網(wǎng)絡(luò)的總平均分割精度最大。

表5 MFF 模塊不同級(jí)、L11 層不同的卷積實(shí)驗(yàn)結(jié)果Tab.5 Convolution experiment results of different MFF module levels and different L11 layers (%)

4.5.3 動(dòng)態(tài)調(diào)控機(jī)制實(shí)驗(yàn)

WSVIS 網(wǎng)絡(luò)在加入動(dòng)態(tài)調(diào)控機(jī)制后的總平均精度從36.3%提高到37.5%,如表6 所示。如圖8 所示,特征經(jīng)過(guò)動(dòng)態(tài)調(diào)控機(jī)制后,實(shí)例區(qū)域得到了更多關(guān)注,從而更有利于初始預(yù)測(cè)掩碼與動(dòng)態(tài)感知權(quán)重和偏置之間進(jìn)行交互。

表6 動(dòng)態(tài)調(diào)控機(jī)制的有效性驗(yàn)證Tab.6 Effectiveness verification of dynamic regulation mechanism (%)

僅邊界框與掩碼一致性損失、二元顏色相似性損失共同監(jiān)督時(shí),WSVIS 網(wǎng)絡(luò)的總平均分割精度為32.9%,通過(guò)構(gòu)建MFF 模塊和動(dòng)態(tài)調(diào)控機(jī)制,WSVIS 網(wǎng)絡(luò)的分割精度提升至37.5%。

由于MFF 模塊采用多級(jí)特征復(fù)用策略進(jìn)行通道特征融合,在一定程度上解決了由于掩碼預(yù)測(cè)分支特征通道突然下降導(dǎo)致實(shí)例激活特征嚴(yán)重丟失的問(wèn)題。原始預(yù)測(cè)掩碼經(jīng)過(guò)特征激活后前景和背景區(qū)域的差別并不明顯,實(shí)例激活特征丟失嚴(yán)重,而MFF 模塊增強(qiáng)了圖像中屬于實(shí)例的目標(biāo)區(qū)域特征信息。動(dòng)態(tài)調(diào)控機(jī)制在空間和通道維度上進(jìn)一步增強(qiáng)了網(wǎng)絡(luò)對(duì)于實(shí)例和背景的感知能力。

對(duì)比圖8(d)和8(b)可看出,MFF 模塊和動(dòng)態(tài)調(diào)控機(jī)制不僅有效增強(qiáng)了網(wǎng)絡(luò)對(duì)實(shí)例區(qū)域的關(guān)注,一些稀疏的背景區(qū)域也得到了增強(qiáng)。然而,這些稀疏背景區(qū)域會(huì)在交叉預(yù)測(cè)部分受到交叉學(xué)習(xí)方案、邊界框與掩碼一致性損失和二元顏色相似性損失的共同抑制,使預(yù)測(cè)掩碼更接近真實(shí)實(shí)例區(qū)域,如圖8(e)所示。

4.5.4 交叉學(xué)習(xí)和幀間隔實(shí)驗(yàn)

WSVIS 網(wǎng)絡(luò)設(shè)計(jì)了交叉預(yù)測(cè)部分,將同一實(shí)例在不同幀的外觀和實(shí)例信息關(guān)聯(lián)起來(lái)實(shí)現(xiàn)幀交叉學(xué)習(xí),在加入MFF 模塊和動(dòng)態(tài)調(diào)控機(jī)制的WSVIS 網(wǎng)絡(luò)基礎(chǔ)上驗(yàn)證兩幀交叉學(xué)習(xí)的有效性以及不同采樣幀間隔對(duì)網(wǎng)絡(luò)的影響,實(shí)驗(yàn)結(jié)果如表7 所示。采樣幀間隔最小為1,最大為35。

由表7 可知,當(dāng)采樣幀間隔趨向于1 時(shí),網(wǎng)絡(luò)總平均分割精度逐漸下降,這是因?yàn)楫?dāng)采樣間隔較小時(shí),采樣兩幀圖像信息非常相似,這會(huì)使得網(wǎng)絡(luò)退化為靜止圖像分割的形式,交叉學(xué)習(xí)不能獲得最大的增益。隨著采樣幀間隔變大,采樣的兩幀中實(shí)例位置和場(chǎng)景上下文信息有明顯的位置和外觀差異,交叉學(xué)習(xí)方式能更好地利用實(shí)例外觀信息和位置信息,將兩個(gè)采樣幀中的同一實(shí)例進(jìn)行關(guān)聯(lián);當(dāng)采樣幀間隔為20 時(shí),WSVIS 網(wǎng)絡(luò)獲得了最好的總平均分割精度,為37.5%;而當(dāng)采樣幀間隔大于20 時(shí),同一實(shí)例在兩幀中的位置和外觀差異較大,網(wǎng)絡(luò)的總平均分割精度逐漸下降,因此兩幀交叉學(xué)習(xí)獲得了相反的引導(dǎo)。此外,當(dāng)選擇最優(yōu)采樣幀間隔20 時(shí),不使用交叉學(xué)習(xí)方案的網(wǎng)絡(luò)總平均分割精度僅為34.6%。由此可知,交叉學(xué)習(xí)方案可以有效利用不同采樣幀的實(shí)例信息,當(dāng)采樣幀間隔為20 時(shí),交叉學(xué)習(xí)的作用最大。

4.6 計(jì)算復(fù)雜度分析

WSVIS 網(wǎng)絡(luò)除去在數(shù)據(jù)集上有良好表現(xiàn)外,在模型復(fù)雜度和推理速度上也具有一定優(yōu)勢(shì)。由于弱監(jiān)督視頻實(shí)例分割網(wǎng)絡(luò)FlowIRN[12]和FlowSimi[14]未 公 開 其 原 始 算 法,因 此 對(duì) 比 了WSVIS 網(wǎng)絡(luò)和全監(jiān)督視頻實(shí)例分割網(wǎng)絡(luò)Sipmask[21],STMask[22]和CrossVIS[23]的 模 型 參 數(shù)量、模型計(jì)算量和推理速度,結(jié)果如表8 所示。分析實(shí)驗(yàn)在YT-VIS[1]測(cè)試集上進(jìn)行,推理速度不計(jì)算數(shù)據(jù)加載和測(cè)試后處理,僅統(tǒng)計(jì)所有視頻推理完成后的平均推理速度。

表8 不同網(wǎng)絡(luò)的模型復(fù)雜度和推理速度對(duì)比Tab.8 Comparison of model complexity and inference speed of different networks

實(shí)驗(yàn)表明,相比Sipmask[21]網(wǎng) 絡(luò),WSVIS 網(wǎng)絡(luò)模型的參數(shù)量降低74%、計(jì)算量降低29.4%;相 比STMask[22]網(wǎng) 絡(luò),WSVIS 網(wǎng) 絡(luò) 模 型 的 參 數(shù)量降低76.7%、計(jì)算量降低69.3%。 相比CrossVIS[23]網(wǎng)絡(luò),MFF 模塊、動(dòng)態(tài)調(diào)控機(jī)制、邊界框與掩碼一致性損失和二元顏色相似性損失使WSVIS 網(wǎng) 絡(luò) 僅 有0.22M 參 數(shù) 量、6.61G 計(jì) 算量的增長(zhǎng);另外,WSVIS 網(wǎng)絡(luò)在弱監(jiān)督學(xué)習(xí)模式下仍然具有實(shí)時(shí)(FPS>30)推理的表現(xiàn),推理速度降低了5.4 frame/s,仍高于Sipmask[21]網(wǎng)絡(luò)和STMask[22]網(wǎng)絡(luò)4~6 frame/s,能夠滿足智能機(jī)器快速適應(yīng)新場(chǎng)景實(shí)現(xiàn)實(shí)時(shí)環(huán)境感知和理解的需求。

5 結(jié) 論

本文提出了WSVIS 網(wǎng)絡(luò),首先構(gòu)建多級(jí)特征融合模塊MFF 生成初始預(yù)測(cè)特征,有效緩解了網(wǎng)絡(luò)通道下降帶來(lái)的激活特征丟失;其次,通過(guò)動(dòng)態(tài)調(diào)控機(jī)制在初始預(yù)測(cè)掩碼特征通道和空間中建立依賴關(guān)系,有效加強(qiáng)網(wǎng)絡(luò)對(duì)實(shí)例目標(biāo)區(qū)域的敏感度;最后,利用邊界框與掩碼一致性損失約束預(yù)測(cè)掩碼在邊界框內(nèi)生成,同時(shí)計(jì)算輸入圖像和預(yù)測(cè)掩碼的二元顏色相似性,約束預(yù)測(cè)掩碼更加接近實(shí)例區(qū)域。實(shí)驗(yàn)結(jié)果及熱力圖可視化表明,MFF 模塊解決了初始預(yù)測(cè)特征丟失問(wèn)題;動(dòng)態(tài)調(diào)控機(jī)制能有效增強(qiáng)網(wǎng)絡(luò)對(duì)實(shí)例區(qū)域的關(guān)注;視頻幀采樣間隔為20 時(shí),交叉學(xué)習(xí)方式能夠最大程度提升網(wǎng)絡(luò)的分割精度。WSVIS 網(wǎng)絡(luò)在BoxSet 數(shù)據(jù)集上的總平均分割精度為37.5%,達(dá)到與全監(jiān)督網(wǎng)絡(luò)相近的分割精度和分割效果;在YT-VIS[1]測(cè)試集上各項(xiàng)分割精度均優(yōu) 于 先 進(jìn) 的FlowSimi[14]網(wǎng) 絡(luò),分 割 速 度 為34.4 frame/s,具備視頻場(chǎng)景實(shí)時(shí)環(huán)境感知和分析理解的能力。

猜你喜歡
掩碼實(shí)例邊界
拓展閱讀的邊界
低面積復(fù)雜度AES低熵掩碼方案的研究
論中立的幫助行為之可罰邊界
基于布爾異或掩碼轉(zhuǎn)算術(shù)加法掩碼的安全設(shè)計(jì)*
基于掩碼的區(qū)域增長(zhǎng)相位解纏方法
基于掩碼的AES算法抗二階DPA攻擊方法研究
完形填空Ⅱ
完形填空Ⅰ
“偽翻譯”:“翻譯”之邊界行走者
思考新邊界
洞头县| 肥东县| 长宁县| 佛教| 商南县| 华蓥市| 科技| 大邑县| 永和县| 明光市| 宁陵县| 从江县| 昭苏县| 大名县| 临猗县| 延边| 商南县| 大渡口区| 彭山县| 秀山| 富源县| 德安县| 邯郸县| 阳春市| 杨浦区| 天气| 日土县| 徐汇区| 祁阳县| 垣曲县| 泰和县| 拉萨市| 温州市| 隆昌县| 和顺县| 陆丰市| 布尔津县| 龙泉市| 封丘县| 射阳县| 新闻|