陳喬松,陶 亞,申發(fā)海,弓攀豪,孫開(kāi)偉,王 進(jìn),鄧 欣
(重慶郵電大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 計(jì)算智能重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065)
隨著人工智能理論和技術(shù)的日益成熟,場(chǎng)景理解、無(wú)人機(jī)著陸點(diǎn)判斷以及自動(dòng)駕駛等應(yīng)用對(duì)圖像識(shí)別分割技術(shù)提出了更高要求。而與深度學(xué)習(xí)結(jié)合的分割方法,即語(yǔ)義分割,能夠較好地實(shí)現(xiàn)對(duì)復(fù)雜場(chǎng)景的劃分。語(yǔ)義分割就是將圖像中的像素根據(jù)其所屬類(lèi)別的語(yǔ)義不同進(jìn)行分割,將每一像素都標(biāo)記為它所屬類(lèi)別指定的顏色,不同類(lèi)別間顏色互異。
然而,使用CNNs(convolutional neural networks)進(jìn)行語(yǔ)義分割的任務(wù)仍然存在不小的挑戰(zhàn):①深度卷積神經(jīng)網(wǎng)絡(luò)包含重復(fù)的池化層和下采樣使得圖像的分辨率明顯縮小,丟失了很多有用的細(xì)節(jié)(如圖1)。在圖1a中可以看出FCN(fully convolutional network)[1]的輸出具有一定的粗糙性;②由于目標(biāo)的尺度不確定性,經(jīng)常會(huì)導(dǎo)致漏分割或誤分割比感受野更大或者更小的目標(biāo),特別是當(dāng)圖像中的目標(biāo)過(guò)大或者連續(xù)時(shí),可能會(huì)發(fā)生同一目標(biāo)誤分割為多個(gè)語(yǔ)義的情況,如圖1b所示,連續(xù)的目標(biāo)被分割為3種不同的語(yǔ)義;③CNNs里的全連接層將特征圖連接成一維向量不僅損失了空間信息而且導(dǎo)致了大量參數(shù)的產(chǎn)生。這些問(wèn)題影響了分割過(guò)程中目標(biāo)的定位準(zhǔn)確性以及完整性。
考慮到卷積神經(jīng)網(wǎng)絡(luò)提取的特征隨著層數(shù)的加深更趨向于全局化且丟失了大量細(xì)節(jié)信息,但全局信息并不足以精確定位目標(biāo),本文基于全卷積神經(jīng)網(wǎng)絡(luò)在融合低高層特征的基礎(chǔ)上提出了上下文情景結(jié)構(gòu)(contextual structure,CS)層并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了進(jìn)一步的框選優(yōu)化。為解決大目標(biāo)誤分割的問(wèn)題,在增強(qiáng)結(jié)構(gòu)中應(yīng)用了對(duì)傳統(tǒng)卷積核改進(jìn)后的全局卷積,提升了大型目標(biāo)的分割準(zhǔn)確率并降低了大型或連續(xù)目標(biāo)的誤分割率,采用改進(jìn)后的卷積核也改善了因使用過(guò)大的卷積核造成大量參數(shù)的問(wèn)題。為解決多尺度目標(biāo)檢測(cè)的問(wèn)題,在多尺度結(jié)構(gòu)中使用了多通路的策略,結(jié)合空洞卷積實(shí)現(xiàn)了分割不同尺度目標(biāo)的目的,以此解決現(xiàn)實(shí)生活中存在的目標(biāo)不確定性問(wèn)題,多尺度結(jié)構(gòu)的選擇可以根據(jù)實(shí)際數(shù)據(jù)調(diào)整通路數(shù)或尺度大小。通過(guò)實(shí)驗(yàn)結(jié)果顯示,本文提出的結(jié)構(gòu)在避免粗糙分割的同時(shí)降低了大型目標(biāo)及連續(xù)目標(biāo)的誤分割率,在保證算法有效性的同時(shí)控制了運(yùn)行時(shí)間效率。
傳統(tǒng)的圖像分割在于前景背景的分割,主要有基于閾值的分割方法、基于邊緣的分割方法、基于區(qū)域的分割方法、基于圖論的分割方法等?;陂撝档姆指罘椒╗2]主要根據(jù)圖像的灰度特征,設(shè)定閾值以此區(qū)分圖像不同區(qū)域,分割速度快,但對(duì)噪聲較敏感;基于邊緣的分割方法主要依賴(lài)圖像邊緣的檢測(cè)來(lái)分割不同目標(biāo),速度快,但容易產(chǎn)生大量碎邊緣;基于區(qū)域的分割方法,其基本思想是將相似的像素集合構(gòu)成區(qū)域,但對(duì)噪聲較敏感;基于圖論的分割方法則是遵循子圖之間相似性最小,子圖內(nèi)部相似性最大的法則將圖分為若干子圖,主要有GrabCut[3]等方法。
近年來(lái)依靠簡(jiǎn)單視覺(jué)特征進(jìn)行圖像分割的傳統(tǒng)方法已經(jīng)逐漸被深度學(xué)習(xí)算法所取代。自從Krizhevsky等在2012年公布了AlexNet的網(wǎng)絡(luò)架構(gòu),深度學(xué)習(xí)已經(jīng)被廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)的許多領(lǐng)域。Long等[1]2015年提出了用于語(yǔ)義分割任務(wù)的FCN網(wǎng)絡(luò)模型,其提取的語(yǔ)義信息由淺至深,通過(guò)端到端的訓(xùn)練產(chǎn)生分割結(jié)果,但是由于恢復(fù)原分辨率的放大方式過(guò)于粗糙而導(dǎo)致了結(jié)果不精確。
為了優(yōu)化FCN網(wǎng)絡(luò)模型的結(jié)果圖像,2015年Noh等提出了DeconvNet[4],Hong等提出了DecoupleNet[5]。2016年Badrinarayanan等提出了SegNet[6],該模型基于FCN延展了編碼-解碼結(jié)構(gòu),結(jié)果圖像通過(guò)解碼器后恢復(fù)原始分辨率,分割結(jié)果較FCN有了進(jìn)一步的提升,但是這類(lèi)方法的反卷積操作同樣需要訓(xùn)練參數(shù)。Zeiler等[7]提出了重建輸入圖像的方法,主要通過(guò)存儲(chǔ)下采樣時(shí)的位置信息,再通過(guò)特征圖反卷積重建圖像原始分辨率。
2016年P(guān)aszke等提出的E-Net[8]和2017年Lin等提出的RefineNet[9]將多尺度信息應(yīng)用在網(wǎng)絡(luò)結(jié)構(gòu)中并取得語(yǔ)義分割任務(wù)中的進(jìn)一步發(fā)展。Eigen等[10]采用多尺度深層網(wǎng)絡(luò)架構(gòu),一定程度上解決了不能同時(shí)兼顧大小目標(biāo)的問(wèn)題。另一方面,Islam等提出的LRN[11]采用特征融合的策略,合并不同尺度的監(jiān)督信息達(dá)到優(yōu)化分割的目的。同樣地,Liu等[12]也通過(guò)特征融合的方式,將同一網(wǎng)絡(luò)模型下的不同層次特征圖進(jìn)行融合,達(dá)到了更好的效果。
語(yǔ)義分割任務(wù)在CNNs的推動(dòng)下發(fā)展迅速,Zheng等提出的CRF-RNN[13]和Chen等提出的DeepLab-CRF[14]加入了條件隨機(jī)場(chǎng)(conditional random field,CRF)作為后處理方法對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了優(yōu)化并衍生出了新的網(wǎng)絡(luò)框架。2016年Lin等已經(jīng)成功地開(kāi)展了CNNs和CRF的聯(lián)合學(xué)習(xí)[15],如今該系列方法已逐漸演變?yōu)槎藢?duì)端的結(jié)構(gòu),但同時(shí)也增加了網(wǎng)絡(luò)的訓(xùn)練時(shí)間。
本文基于上下文情景結(jié)構(gòu)提出了新的語(yǔ)義分割方法—情景結(jié)構(gòu)分割法,其整體框架如圖2。圖2中,圖像經(jīng)過(guò)基礎(chǔ)網(wǎng)絡(luò)之后,特征圖分辨率縮小為原圖的1/8并進(jìn)入上下文情景結(jié)構(gòu)中繼續(xù)提取增強(qiáng)信息和多尺度信息,最后通過(guò)雙線(xiàn)性插值將圖像恢復(fù)原始尺度。網(wǎng)絡(luò)結(jié)構(gòu)基于VGG16,基礎(chǔ)網(wǎng)絡(luò)中包含4類(lèi)基本內(nèi)容,分別是卷積層、池化層、修正線(xiàn)性單元以及空洞卷積層,并去除全連接層改為卷積層。在基礎(chǔ)網(wǎng)絡(luò)上增加了CS層并融合了前層提取的細(xì)節(jié)特征,最后將該結(jié)構(gòu)提取到的特征進(jìn)一步整合得到分割結(jié)果。
原始VGG16網(wǎng)絡(luò)嚴(yán)重減小了特征圖的分辨率,文獻(xiàn)[5]使用反卷積將圖像恢復(fù)為原始尺度,然而對(duì)等地付出了更多的內(nèi)存和時(shí)間消耗,但是恢復(fù)的像素很大程度上已經(jīng)不具備原先的細(xì)節(jié)特征。
為了在不損失更多細(xì)節(jié)的同時(shí)對(duì)更大區(qū)域進(jìn)行采樣,從而得到包含更多空間信息的結(jié)果,本文的基礎(chǔ)網(wǎng)絡(luò)包含3層參數(shù)為2和2層參數(shù)為1的池化層,所以情景結(jié)構(gòu)分割法只會(huì)將分辨率縮小為原來(lái)的1/8。因摒棄池化層而被影響的感受野由空洞卷積[14]補(bǔ)償,此算法允許我們不縮小圖像就可以增大感受野,只需要將卷積核上采樣到原來(lái)的2倍,即在初始卷積核的核值中間填充0,卷積核的尺寸增大了,但是實(shí)際上我們并沒(méi)有增加任何不必要的操作。
基礎(chǔ)網(wǎng)絡(luò)中對(duì)輸入圖像進(jìn)行的操作公式為
gi(I)=dilated(conv3×3(gi-1(I),pool))
(1)
(1)式中:dilated表示空洞卷積;conv3×3表示卷積核為3×3的卷積操作;pool表示池化操作,不同層池化參數(shù)不同;gi(I)表示第i層的輸出特征圖。
大多數(shù)用于分類(lèi)的框架如VGG Net[16],GoogleNet[17]應(yīng)用全連接層獲得高維特征向量便于分類(lèi),而分割任務(wù)需要得到盡可能豐富的特征圖,這就是類(lèi)似于SegNet,DeconvNet等網(wǎng)絡(luò)結(jié)構(gòu)中選擇使用全卷積網(wǎng)絡(luò)的原因。性能優(yōu)良的語(yǔ)義分割要求不僅實(shí)現(xiàn)分類(lèi)還要完成分割,因此,本文認(rèn)為兼顧全局信息和細(xì)節(jié)特征才能達(dá)到兩者的最優(yōu)結(jié)合,為處理如何將兩者結(jié)合的問(wèn)題,本文提出了CS層,該結(jié)構(gòu)的提出不僅解決了大規(guī)模目標(biāo)的檢測(cè)分割問(wèn)題,同時(shí)解決了同一圖像中不同尺度目標(biāo)的分割問(wèn)題。
糖尿病是臨床常見(jiàn)的內(nèi)分泌疾病,也是引起心血管疾病的獨(dú)立危險(xiǎn)因素之一。長(zhǎng)期高血糖狀態(tài)下可導(dǎo)致靶器官損傷,引起糖尿病慢性并發(fā)癥,進(jìn)而影響患者的生存質(zhì)量和生命安全。心臟是糖尿病常見(jiàn)的受累器官之一,心臟病變是糖尿病患者的主要死亡原因之一[1]。冠心病、心臟自主神經(jīng)病變、糖尿病心肌病是糖尿病患者心臟并發(fā)癥的三種表現(xiàn)形式,前兩者臨床比較常見(jiàn),但糖尿病心肌病卻未引起足夠重視[2]。
CS層結(jié)構(gòu)如圖3。為解決大目標(biāo)的分割問(wèn)題,考慮將感受野變得更大,即盡可能容納整個(gè)目標(biāo),因?yàn)楦惺芤安粔虼蟮那闆r下,卷積操作可能只會(huì)包含目標(biāo)的一部分,目標(biāo)被割裂會(huì)造成同一類(lèi)別的誤分割。但簡(jiǎn)單的擴(kuò)大卷積核(k×k)將占用系統(tǒng)更多的內(nèi)存,同時(shí)造成大量參數(shù)的產(chǎn)生。而CS層的加入則解決了該問(wèn)題,在擴(kuò)大感受野并提取更多上下文相關(guān)信息的同時(shí)并沒(méi)有帶來(lái)成倍增長(zhǎng)的參數(shù)。圖3中,圖像特征在增強(qiáng)結(jié)構(gòu)(藍(lán)色)中得到加強(qiáng),并在后續(xù)的多尺度結(jié)構(gòu)(黃色)中得到更多尺度信息,多尺度結(jié)構(gòu)中的參數(shù)Rate為尺度參數(shù)。
CS層的輸出特征圖公式為
(2)
(2)式中:gfinal(I)表示基礎(chǔ)網(wǎng)絡(luò)中最終層提取的特征圖;φ表示增強(qiáng)結(jié)構(gòu)的操作;ρ表示多尺度結(jié)構(gòu)的操作;n表示CS的層數(shù)。
圖3所示增強(qiáng)結(jié)構(gòu)中使用改進(jìn)后的卷積核代替?zhèn)鹘y(tǒng)卷積核,即1×k+k×1和k×1+1×k的雙通道合并卷積[18],計(jì)算損耗和參數(shù)數(shù)量都比k×k卷積核要少得多,我們稱(chēng)為全局卷積(Global Convolution)。
增強(qiáng)結(jié)構(gòu)的處理操作公式為
φ(I)=(convgc)pre(I)
(3)
(3)式中:pre(I)表示上一層的輸出特征圖;convgc表示全局卷積的操作,具體公式為
convgc=conv1×k+k×1+convk×1+1×k
(4)
(4)式中:conv1×k+k×1和convk×1+1×k分別代表卷積核為1×k+k×1和k×1+1×k的卷積操作。
考慮到如果卷積核足夠大,我們可以提取全圖大小的全局特征,但是本文的目標(biāo)是實(shí)現(xiàn)語(yǔ)義分割,則希望盡可能地提取完整目標(biāo)的全局特征而不是整幅圖像的全局特征。本文的網(wǎng)絡(luò)結(jié)構(gòu)呈順式結(jié)構(gòu),每經(jīng)過(guò)CS層感受野都在持續(xù)變大,這也是增強(qiáng)結(jié)構(gòu)選取k=7的全局卷積核的原因。同時(shí),鑒于目標(biāo)的多樣性和隨機(jī)性,圖像中的一些目標(biāo)可能過(guò)大或者過(guò)小,所以在CS層中加入了多尺度的應(yīng)用。
圖3所示多尺度結(jié)構(gòu)中摒棄了將原始圖像多尺度化的做法,利用空洞卷積實(shí)現(xiàn)稀疏性的卷積核,從而在減少計(jì)算復(fù)雜度的基礎(chǔ)上實(shí)現(xiàn)了分割多尺度目標(biāo)的要求。像前文提到的一樣,只要將卷積核按照所需比例擴(kuò)大,在3×3的卷積核核值之間按參數(shù)(Rate)比例插入一定數(shù)量的0以構(gòu)建不同的稀疏性多尺度卷積核。該過(guò)程沒(méi)有增加參數(shù)和多余的操作達(dá)到了多尺度化的目的。在增強(qiáng)結(jié)構(gòu)之后加入該多尺度卷積,目的是提取每一層增強(qiáng)結(jié)構(gòu)中的多尺度特征信息。
多尺度的操作公式為
(5)
(5)式中:φ(I)表示增強(qiáng)結(jié)構(gòu)的輸出特征圖;Multi-ScaleRate_i表示第i種Rate不同的稀疏多尺度卷積;n表示多尺度的通路數(shù)。本文中應(yīng)用三通路,對(duì)應(yīng)的不同Rate分別為2,4,6,最后將不同尺度的特征圖進(jìn)行融合輸出。
由于對(duì)中間層也進(jìn)行了多尺度化使得我們比只在網(wǎng)絡(luò)的最后一層運(yùn)用多尺度的方法得到了更多的尺度信息。最后將融合得到的多尺度信息送入下一層。對(duì)于尺度差別不同的數(shù)據(jù)集多尺度結(jié)構(gòu)的通路可以相應(yīng)地作出調(diào)整。
CNNs中的每個(gè)池化層會(huì)將圖像下采樣為原來(lái)分辨率的1/2,情景結(jié)構(gòu)分割法采用了3個(gè)池化層,所以最后得到的特征圖分辨率僅為原圖的1/8。為了保持輸出圖像與原圖像分辨率相同,本文采用雙線(xiàn)性插值[19]方法將結(jié)果圖恢復(fù)至原圖分辨率。對(duì)于一個(gè)待插入像素,其坐標(biāo)通過(guò)映射得到浮點(diǎn)坐標(biāo)(i+u,j+v)對(duì)應(yīng)原圖中的位置,其中i,j是非負(fù)整數(shù),u,v是[0,1)的浮點(diǎn)數(shù)。該目的像素的數(shù)值由距離該點(diǎn)最近的4個(gè)點(diǎn)的值加權(quán)求得,即坐標(biāo)為(i,j),(i,j+1),(i+1,j),(i+1,j+1)所對(duì)應(yīng)的數(shù)值。
本文將在運(yùn)行時(shí)間(Speed)、平均交并比(mean Intersection-over-Union,mIoU)、準(zhǔn)確率(Accuracy)指標(biāo)上評(píng)價(jià)情景結(jié)構(gòu)分割法。所有的實(shí)驗(yàn)在Python TensorFlow工具下運(yùn)行,GPU版本為NVIDIA GeForce GTX 1070(8G),訓(xùn)練過(guò)程中batch參數(shù)設(shè)置為5,我們將通過(guò)實(shí)驗(yàn)驗(yàn)證該方法的有效性。
本文中提出的增強(qiáng)結(jié)構(gòu)和多尺度結(jié)構(gòu)對(duì)于網(wǎng)絡(luò)的必要性在PASCAL VOC 2012[23]驗(yàn)證集上的實(shí)驗(yàn)中得到了證實(shí),實(shí)驗(yàn)數(shù)據(jù)如表1。從表1中可以看出,增加的結(jié)構(gòu)對(duì)于基礎(chǔ)網(wǎng)絡(luò)確實(shí)提高了mIoU值,驗(yàn)證網(wǎng)絡(luò)的運(yùn)行次數(shù)為20 k。
表1 本文提出的方法在VAL數(shù)據(jù)集的測(cè)試數(shù)據(jù)Tab.1 Results on the VAL dataset of proposed method
在運(yùn)行時(shí)間數(shù)據(jù)上,基于相同硬件環(huán)境以及相同數(shù)據(jù)集下,F(xiàn)CN-8s的訓(xùn)練時(shí)間為0.96 s/step,Deeplab-CRF的訓(xùn)練時(shí)間為0.93 s/step,本文的情景結(jié)構(gòu)分割法的訓(xùn)練時(shí)間為0.82 s/step。本文方法在增加框選優(yōu)化之后,mIoU高于FCN-8s和Deeplab-CRF的同時(shí),處理時(shí)間仍?xún)?yōu)于這2種方法,同時(shí)實(shí)驗(yàn)結(jié)果也取得了更好的表現(xiàn)??蜻x優(yōu)化主要針對(duì)分割結(jié)果中的目標(biāo)進(jìn)行框選,對(duì)框內(nèi)的目標(biāo)整體及邊緣進(jìn)行評(píng)測(cè),判斷框內(nèi)標(biāo)記是否屬于同一類(lèi)別,達(dá)到優(yōu)化分割的目的。
本文使用PASCAL VOC 2012對(duì)mIoU指標(biāo)進(jìn)行評(píng)測(cè),該數(shù)據(jù)集分為21類(lèi)(包含背景類(lèi)),其中,10 582張圖像用于訓(xùn)練模型,1 449張圖像用于驗(yàn)證,1 456張圖像用于測(cè)試。情景結(jié)構(gòu)分割法在VOC 2012驗(yàn)證集上的結(jié)果如圖4,分別對(duì)比了FCN和Deeplab-CRF[20]方法。
從圖4中可以看出,本文方法和Deeplab-CRF相對(duì)于FCN更細(xì)致。在第2行數(shù)據(jù)結(jié)果中,可以看到FCN和Deeplab-CRF都沒(méi)有分割出重疊部分的人腿,而情景結(jié)構(gòu)分割法在此狀況下分割出了馬背上的人腿部分;在第1行和第3行結(jié)果中,本文的方法分割出了更完整的目標(biāo),既沒(méi)有出現(xiàn)FCN的誤分割問(wèn)題也沒(méi)有出現(xiàn)Deeplab-CRF的未檢全問(wèn)題;在第4行的結(jié)果中本文的分割結(jié)果最為貼合標(biāo)簽圖像,與其他方法相比,本文分割法更加完整準(zhǔn)確;在第5行的結(jié)果中由于圖像場(chǎng)景本身具有一定的復(fù)雜性(背景雜亂、前景目標(biāo)相似度高),所有方法均未分割出較好的結(jié)果,但是本文方法在分割圖像背景中較小尺度的人這一類(lèi)目標(biāo)時(shí)分割結(jié)果優(yōu)于其他方法。因?yàn)閠est數(shù)據(jù)集的標(biāo)簽圖未公布,所以本文將實(shí)驗(yàn)結(jié)果上傳到VOC評(píng)估系統(tǒng)得到的實(shí)驗(yàn)數(shù)據(jù)如表2。從表2中可以看出情景結(jié)構(gòu)分割法在所有對(duì)比方法中取得了最好的結(jié)果,表2中加下劃線(xiàn)的數(shù)據(jù)代表我們?cè)谠擃?lèi)別上的數(shù)據(jù)結(jié)果高于其他方法。另外,本文在VOC 2012 驗(yàn)證集上的部分實(shí)驗(yàn)結(jié)果展示在圖5中。
表2 PASCAL VOC 2012 test數(shù)據(jù)集上的mIoU測(cè)試結(jié)果Tab.2 Comparison results of mIoU on the PASCAL VOC 2012 test dataset %
本文使用CamVid道路場(chǎng)景數(shù)據(jù)集對(duì)Accuracy指標(biāo)進(jìn)行評(píng)測(cè),其中包含367張訓(xùn)練數(shù)據(jù)集,233張測(cè)試數(shù)據(jù)集。數(shù)據(jù)集包含白天和黃昏場(chǎng)景的測(cè)試圖像,分辨率為360×480,對(duì)道路、建筑、汽車(chē)等11類(lèi)進(jìn)行分割,實(shí)驗(yàn)結(jié)果如圖6,測(cè)試數(shù)據(jù)集上的Accuracy指標(biāo)數(shù)據(jù)如表3。從圖6中可以看出,情景結(jié)構(gòu)分割法對(duì)于大型物體的檢測(cè)比較有效,即使在黃昏場(chǎng)景中,對(duì)于道路、車(chē)輛、建筑等目標(biāo)仍做出了明確的分割,并未因光線(xiàn)問(wèn)題出現(xiàn)誤分割。如圖6,道路場(chǎng)景下情景結(jié)構(gòu)分割法仍取得了較好的分割結(jié)果。本文在該數(shù)據(jù)集上訓(xùn)練次數(shù)為20 k,準(zhǔn)確率達(dá)到了83.9%,Deeplab在相同訓(xùn)練環(huán)境下準(zhǔn)確率達(dá)到了81.3%(見(jiàn)表3),本文在所有對(duì)比方法中取得了最好的結(jié)果。
表3 Camvid數(shù)據(jù)集上的準(zhǔn)確率結(jié)果Tab.3 Results of accuracy of Camvid dateset
通過(guò)對(duì)語(yǔ)義分割的分析,本文發(fā)現(xiàn)大的卷積核對(duì)于識(shí)別對(duì)象很重要,所以使用改進(jìn)后的卷積核來(lái)獲得目標(biāo)比較大的對(duì)象并將上下文情景結(jié)構(gòu)中提取的特征與基礎(chǔ)網(wǎng)絡(luò)提取的特征融合,用前層的細(xì)節(jié)特征補(bǔ)足特征圖,達(dá)到更好的分割效果。此外,還添加了多尺度來(lái)解決實(shí)際圖像中存在多目標(biāo)的問(wèn)題,有效分割圖像中的不同尺度目標(biāo)。將本文提出的算法和現(xiàn)存的語(yǔ)義分割算法作對(duì)比,實(shí)驗(yàn)結(jié)果顯示本文算法對(duì)于大目標(biāo)或連續(xù)目標(biāo)具有更好的分割效果。