国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

共享后處理邊緣信息的實例分割算法

2022-07-11 01:12張寧
電子技術與軟件工程 2022年7期
關鍵詞:掩碼分支實例

張寧

(廈門航空有限公司數(shù)字委員會 福建省廈門市 361006)

1 引言

隨著時代的變化和人類科技的提升,人臉識別、目標檢測和圖像分割等領域的研究成果已開始服務于人們生活中的方方面面。因此,人們對于計算機視覺及相關問題的研究也越來越深入,圖像分割(image segmentation)是計算機視覺領域中尤為重要的一個研究和應用方向。它是一種利用計算機來對圖像中的信息進行加工處理、計算分析并理解,從而識別各種各樣不同類別的目標和對象的技術,是神經(jīng)網(wǎng)絡、深度學習算法的一種實踐應用,為其他視覺處理任務提供了一個可靠的基礎支持。圖像分割的研究成果在各個領域都起到了非常重要的作用,其分割結(jié)果有助于后續(xù)的場景分析與理解。但是由于圖像中實例的復雜性、重疊性、不確定性等問題,使得圖像分割這一任務仍面臨著極大的挑戰(zhàn),尤其是在對目標區(qū)域進行較細粒度的分割時,大部分算法得到的結(jié)果往往較為粗糙。

針對此問題,本文提出了一種共享后處理邊緣信息的實例分割算法。該算法將邊緣信息進行預處理,并在Mask R-CNN[1]網(wǎng)絡中引入含有待分割目標邊緣信息的并行分支,加強深層次網(wǎng)絡學習中的邊緣信息,并利用經(jīng)過回歸的邊界框信息可以在后續(xù)RoIAlign 中得到效果更好的特征層,從而優(yōu)化掩碼分割結(jié)果。

2 相關工作

圖像分割是圖像處理中的關鍵技術。自1970 年代以來,這項研究已經(jīng)進行了數(shù)十年,并取得了很大進步。迄今為止,無數(shù)學者已經(jīng)借助各種不同的理論提出了數(shù)千個分割算法,并且這一領域的算法研究現(xiàn)在也依舊十分活躍。

圖像分割算法的研究主要分為兩種類型。一種是使用傳統(tǒng)的圖像處理方法對圖像的顏色,紋理和亮度等特征進行加工,從中選擇出待檢測目標的輪廓信息,從而完成圖像分割任務。例如:基于閾值的分割方法,基于區(qū)域的分割方法,基于邊緣的分割方法。但是,早期的圖像分割算法依賴圖像中低級的視覺信息,當檢測圖片中存在光照不均,成像模糊和噪聲較多等問題時,這些傳統(tǒng)的分割技術常常會得到錯誤的分割結(jié)果。

隨著深度學習的逐漸發(fā)展,學者們進一步研究了一些基于深度學習的圖像分割方法來代替?zhèn)鹘y(tǒng)的分割方法。Bharath Hariharan等人于2014 年提出的SDS 算法稱得上是最早的實例分割算法,也可以說是現(xiàn)有實例分割算法的基礎。該算法將檢測和分割兩個任務結(jié)合在了一起:首先由目標檢測來提供實例的模糊位置,然后利用語義分割對每個像素點進行分類。雖然SDS 算法的準確性與現(xiàn)有的高級算法相比起來有較大差距,但是它作為實例分割算法的開端,給后續(xù)的研究提供了一個有效且精妙的思路,在此基礎上,Bharath 等人基于SDS 算法進行了改進,提出了HyperColumns 算法,對圖像的底層特征和高層特征進行了深度組合,使得該算法可以得到更加精準的細節(jié)信息,從而提高了分割的精度。

Dai 等人于2015 年提出了CFM(卷積特征掩碼,Convolutional Feature Masking)算法,該算法第一次將掩碼(Mask)這一概念引入到實例分割中。圖像掩碼是指使用圖像塊覆蓋住圖像中的部分特定區(qū)域,從而更改圖像處理的范圍。CFM 算法使用矩形框來為特征圖生成掩碼,并且可以把任意區(qū)域生成固定規(guī)模的特征,這種統(tǒng)一的形式方便了后續(xù)的處理。此后,Dai 等人提出了一種新的實例分割方法MNC(多任務網(wǎng)絡級聯(lián),Multitask Network Cascade),MNC 算法通過共享特征實現(xiàn)了多任務的級聯(lián),該算法把對于實例的邊界框預測、類別分類和掩碼分割這三個任務通過級聯(lián)而集成到一個端到端的實例分割網(wǎng)絡框架中,以進行高質(zhì)量的實例分割。

全卷積實例語義分割也是一種端到端處理的實例分割算法。該算法使用CNN(卷積神經(jīng)網(wǎng)絡,Convolutional Neural Networks)來提取特征,用區(qū)域建議算法來生成感興趣的區(qū)域(RoI,Region of Interest)并給這些感興趣區(qū)域計算出相關評分,然后確定實例所屬的最終區(qū)域和分割結(jié)果,從而獲取實例分割的結(jié)果。

Mask R-CNN是目前最常用的且最有效的實例分割算法。該算法在目標檢測算法Faster R-CNN中添加了一個用于預測分割掩碼的分支。該算法不僅可以得到一個高質(zhì)量的實例分割結(jié)果,而且還有強大的可擴展性,可以進一步應用于人體關鍵點檢測等領域。但該算法雖然在實例分割領域處于領先地位,其分割結(jié)果的準確性卻不如語義分割的結(jié)果。

3 本文方法

本文提出了一種共享后處理邊緣信息的實例分割方法,改善了圖像實例分割的結(jié)果。在分析Mask R-CNN 的實例分割結(jié)果時,很容易發(fā)現(xiàn)大部分掩碼的邊緣細節(jié)與對象的實際邊緣具有一定的誤差,嚴重一點的甚至損失了一部分目標。其原因是在執(zhí)行實例分割的過程中,該算法并不是對圖像中的像素點直接進行分類,而是先識別要分割對象的邊緣,然后再對由邊緣信息確定的封閉區(qū)域進行掩碼填充。為了提高算法對實例邊緣的分割準確率,在已有的網(wǎng)絡框架基礎上,本文提出了一種共享后處理邊緣信息的實例分割算法,用以提高掩碼分割的精度。本文算法框架如圖1 所示。

圖1:共享后處理邊緣信息的實例分割算法

3.1 Mask R-CNN網(wǎng)絡結(jié)構

Mask R-CNN 網(wǎng)絡結(jié)構由骨干網(wǎng)絡,頭結(jié)構和掩碼分支這三個模塊組合而成。其中,骨干網(wǎng)絡被用來進行特征提取,頭結(jié)構用于進行邊界框回歸和類別分類,而掩碼分支被用于為每個RoI 進行像素級別的分割。這種網(wǎng)絡結(jié)構使得Mask R-CNN 算法可以同時完成對實例對象的分類,回歸和分割任務。

如圖2 所示,Mask R-CNN 共有三個分支,分別起到對象分類、對象定位和對象掩碼分割的作用。其中,分類分支和定位分支都是Faster R-CNN 中原本就具有的分支。與Faster R-CNN 不同的地方在于,Mask R-CNN 算法使用RoIAlign 對每個感興趣區(qū)域進行校正。RoIAlign 是一種為了矯正偏差而提出的一個量化的、簡單的自由層,已保留精確的空間位置。Faster R-CNN 使用RoI Pooling 將感興趣的區(qū)域從原始圖像區(qū)域映射到了卷積區(qū)域,并且通過池化操作將其調(diào)整到一個固定大小,最后將輸入?yún)^(qū)域的規(guī)模歸一化為卷積網(wǎng)絡所需要的輸入大小。但是在規(guī)范化的過程中,RoI 和提取到的特征不匹配的現(xiàn)象時有發(fā)生,且不可避免,而直接將RoI 和特征的尺寸縮放到統(tǒng)一大小則會導致部分特征的丟失。為了解決這個問題,Mask R-CNN 提出了RoIAlign 的概念,使用RoIAlign層將提取的特征與輸入的感興趣區(qū)域?qū)R,使用雙線性插值的方法來計算RoI 中的四個固定采樣位置得到的輸入特征值值并合并結(jié)果。

圖2:Mask R-CNN 中三個分支的結(jié)構示意圖

增加的用于預測分割掩碼的分支本質(zhì)上是一個小的FCN(Fully Convolutional Networks, 全卷積網(wǎng)絡)網(wǎng)絡,用于實現(xiàn)對圖像像素級別的分割。分類,回歸和分割三部分共同構成了Mask R-CNN 網(wǎng)絡。因此,Mask R-CNN 網(wǎng)絡損失函數(shù)L 可以表示為:

其中,L是分類誤差、L是邊界框回歸誤差、L是分割掩碼誤差。其中,掩碼分割分支會為每一個RoI 定義一個 維度的矩陣,用來表示每個n×n 區(qū)域中的C 個不同的分類,然后使用sigmod 函數(shù)計算相對每一個像素求取相對熵,最后得到平均相對熵誤差L。對于每一個RoI 來說,僅會將該RoI 所屬的類別分支的相對熵誤差計算為誤差值。

3.2 共享后處理邊緣信息

Mask R-CNN 中對象分類與對象定位兩個分支的輸入是完全相同的,這使得這兩個分支之間的信息高度共享,在經(jīng)過了同一個RoIAlign 層和全連接層之后,其接收的邊界框輸入信息都是相同的。但是相對而言,用于進行對象掩碼分割的分支則與上述兩個分支處于一個完全不相同的,與原有分支平行運行的分支中。在經(jīng)過了RPN 網(wǎng)絡,獲得了經(jīng)過不完全的處理后的建議框之后,掩碼分割分支將進入一個網(wǎng)絡層次和處理操作完全不同的分支中。這樣的并行結(jié)構決定了在后續(xù)網(wǎng)絡被執(zhí)行的時候,網(wǎng)絡計算得到的邊界框和分割掩碼分別位于各自的處理分支上,其信息不能互通、不能共享,這意味著掩碼分支既不能參與后續(xù)對邊界框進行的一些優(yōu)化、調(diào)整操作,也無法得到經(jīng)過回歸等操作最終處理后的邊界框信息。

為解決此問題,本文通過使用邊界框定位分支中經(jīng)過后置處理的、更加精準的邊界框信息作為掩碼分割分支的候選框來作為輸入,經(jīng)過掩碼分割分支中的RoIAlign層操作之后,網(wǎng)絡從骨干網(wǎng)絡提供的特征層中映射出的局部特征圖也會更加接近實例對象在原始圖像中的真實位置,從而可以使算法進一步得到邊緣細節(jié)處理更精確的掩碼分割結(jié)果。

如圖3 所示,本文將經(jīng)過回歸操作之后的邊界框信息返回給分割掩碼分支,由于增加了邊界框信息的預判性,將進一步提高實例分割的準確性。在獲取后處理邊緣信息的過程中,主要涵蓋了兩個重要操作:首先是利用在之前的網(wǎng)絡結(jié)構中就已經(jīng)得到的建議框的調(diào)整參數(shù)來對邊框進行回歸;其次是通過非極大值抑制(NMS,non maximum suppression)來獲取最優(yōu)結(jié)果來確定最終的邊界框位置信息。

圖3:共享定位分支的邊界框信息

邊框回歸旨在將候選框坐標映射為真實圖片中的坐標。假設當前候選框坐標為(x, y, w, h),通過公式(2)可得到真實圖片中的坐標(x, y, w, h):

式中Δx 為沿x 軸的平移變換量,Δy 為沿y 軸的平移變換量,S為邊框?qū)挾鹊目s放倍數(shù),S為邊框高度的縮放倍數(shù)。

由于Mask R-CNN 網(wǎng)絡在候選框生成階段對于同一個檢測目標會生成多個候選框,因此需要對這多個候選框進行非極大值抑制,選擇最優(yōu)的候選框進行后處理邊緣信息的共享。非極大值抑制的過程如算法1 所示。

算法1 非極大值抑制算法輸入:回歸后的候選框Pboxs={Pbox0, Pbox1, …, Pboxn}輸出:最優(yōu)邊界框Mbox 1. 根據(jù)置信度得分對Pboxs 進行排序2. 選擇置信度最高的邊界框作為Mbox,并將其從Pboxs 列表中刪除3. 計算Mbox 與Pboxs 中其它候選框的IoU 4. 在Pboxs 中刪除IoU 大于閾值的邊界框5.重復上述過程,直至Pboxs 為空

將最終得到的最優(yōu)邊界框作為后處理的邊緣信息,共享到分割分支,提高分割分支的定位精度。獲得邊緣細節(jié)更加飽滿的分割結(jié)果。

4 實驗

4.1 實驗環(huán)境與數(shù)據(jù)集

為了驗證本文提出的共享后處理邊緣信息的實例分割算法的有效性,在Ubuntu 16.04 LTS 系統(tǒng)下采用Pytorch 進行模型搭建及訓練,并使用MS COCO 2017 數(shù)據(jù)集進行實驗驗證。本文所有實驗均在NVIDIA GeForce RTX 2080 的硬件環(huán)境中運行。

本文選擇的MS COCO 數(shù)據(jù)集是Microsoft 于2014年開始資助標注的數(shù)據(jù)集。該數(shù)據(jù)集被認為是計算機視覺領域中最受關注并且最權威的競賽之一。該數(shù)據(jù)集主要側(cè)重于解決三個問題:目標檢測,目標之間的上下文關系以及目標在二維空間中的精準位置。

4.2 量化指標

實驗選擇IoU 閾值為0.5 時,不同置信度下的真正例TP(True Positives)、假正例FP(False Positives)、真負例TN(True Negatives)和假負例FN(False Negatives)作為計算模型檢測精確率P 的參考值:

式中,c 為模型檢測時采取的置信度,TP,F(xiàn)P,F(xiàn)N表示置信度為c 時模型檢測得到的TP, FP, FN。

當檢測時設置的置信度不同時,精確率P 會發(fā)生變化,因此通過采取10 個等距置信度c={0.50, 0.55, … , 0.95}下的平均精確率AP(Average Precision)作為衡量模型檢測性能的評價指標:

對于多分類模型,不同檢測類別擁有不同的AP,所有類別的平均AP 稱為MAP(Mean Average Precision)。

式中,n 表示模型可以檢測的類別總數(shù),j 為不同的檢測類別。

4.3 實驗結(jié)果

圖4 所示為本文算法在MS COCO 數(shù)據(jù)集上的部分檢測結(jié)果。從圖中可以看出,本文算法可以精確的將目標進行分割,并可以較為完整的找出分割對象的邊緣位置,極大的改善了Mask R-CNN 分割過程中邊緣丟失的問題。

圖4:本文算法的實例分割結(jié)果

為了進一步驗證本文算法的有效性,分別使用Mask R-CNN 網(wǎng)絡與本文所提網(wǎng)絡在MS COCO 數(shù)據(jù)集上進行訓練及驗證。表1 和表2 分別展示了兩種方法的目標檢測結(jié)果和實例分割結(jié)果。從表中可以看出,本文方法在目標檢測和實例分割上的效果均優(yōu)于Mask R-CNN 模型。其中,在目標檢測分支上,本文方法的AP 相比于MaskR-CNN 提高了0.56%,在實例分割分支上,本文方法的AP 相比于MaskRCNN 提高了0.87%。

表1:在COCO2017 數(shù)據(jù)上測試的bbox 分支的結(jié)果

表2:在COCO2017 數(shù)據(jù)上測試的segm 分支的結(jié)果

5 結(jié)論

本文簡要回顧了圖像處理技術的發(fā)展歷程,分析比較了目前流行的幾種基于Mask R-CNN 的圖像實例分割算法,并針對Mask R-CNN 分割精度較差,分割速度緩慢的缺陷,提出了一種共享后處理邊緣信息的實例分割算法。該算法在Mask R-CNN 網(wǎng)絡中添加了含有待分割目標邊緣信息的并行分支,加強深層次網(wǎng)絡學習中的邊緣信息,并利用經(jīng)過回歸的邊界框信息在后續(xù)池化過程中得到效果更好的特征層,從而優(yōu)化掩碼分割結(jié)果。通過與Mask R-CNN 的對比實驗,驗證了本文算法的有效性。

猜你喜歡
掩碼分支實例
巧分支與枝
低面積復雜度AES低熵掩碼方案的研究
一類擬齊次多項式中心的極限環(huán)分支
基于布爾異或掩碼轉(zhuǎn)算術加法掩碼的安全設計*
基于掩碼的區(qū)域增長相位解纏方法
基于掩碼的AES算法抗二階DPA攻擊方法研究
完形填空Ⅱ
完形填空Ⅰ
生成分支q-矩陣的零流出性
碩果累累