左俊皓,趙 聰,朱曉龍,任洪娥,2*
(1. 東北林業(yè)大學(xué) 信息與計(jì)算機(jī)工程學(xué)院,黑龍江 哈爾濱150040;2. 黑龍江省林業(yè)智能裝備工程研究中心,黑龍江 哈爾濱 150040)
近些年來(lái),科學(xué)研究從高分辨率遙感影像獲取更加精細(xì)豐富的影像信息。在遙感影像的各類(lèi)地物信息中,其中建筑物提取是城市高分辨率遙感影像的主要應(yīng)用研究之一。建筑物的分布以及對(duì)目標(biāo)建筑物的提取包含許多信息,提取遙感影像中的建筑物是遙感圖像解譯中的重要研究課題之一。由于建筑物在結(jié)構(gòu)和定位信息上特征明顯,適合采用深度學(xué)習(xí)自動(dòng)提取其空間特征,所以利用深度學(xué)習(xí)算法在遙感影像中快速自動(dòng)地提取建筑物十分具有現(xiàn)實(shí)意義,并且可以為城市規(guī)劃管理提供一定的指導(dǎo)意見(jiàn),從而推進(jìn)數(shù)字城市的建設(shè)。
目前,國(guó)內(nèi)外對(duì)于遙感圖像建筑物提取進(jìn)行了很多研究。單一的基于像元的信息提取方法不能充分利用高分遙感影像信息豐富的優(yōu)勢(shì)[1],因此存在很大的應(yīng)用局限。針對(duì)高分影像的特點(diǎn),Baatz M和Schape A提出將圖像分割技術(shù)應(yīng)用到遙感影像領(lǐng)域,即為面向?qū)ο蟮挠跋穹治龇椒╗2]。Taejung Kim等通過(guò)邊緣線段尋找可以建筑物構(gòu)成的目標(biāo)線段,從而提取出建筑物,但是該算法存在時(shí)間代價(jià)和誤差較大的問(wèn)題[3]。Karantzalos[4]提出建筑物形狀模型結(jié)合建筑物自身幾何屬性,結(jié)合水平集分割算法,取得較好的建筑物提取結(jié)果;梁華等[5]利用深度學(xué)習(xí)技術(shù)對(duì)航空影像對(duì)地面目標(biāo)進(jìn)行檢測(cè);周筑博等[6]利用深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸電線路的可見(jiàn)光圖像進(jìn)行目標(biāo)檢測(cè)。
高分辨率遙感影像單類(lèi)目標(biāo)識(shí)別算法需要具有夠快速準(zhǔn)確地識(shí)別出盡可能多的目標(biāo)的特點(diǎn)和一定程度的泛化能力。針對(duì)在高分辨率遙感影像單類(lèi)目標(biāo)識(shí)別問(wèn)題中存在的部分問(wèn)題,本文提出了一種由粗到精的目標(biāo)識(shí)別算法。首先,使用Faster-RCNN網(wǎng)絡(luò)下的VGG16模型代替 Level-Set算法中人工確定初始輪廓的步驟,在高分辨率遙感影像上快速提取一定的候選目標(biāo)區(qū)域,可以視作目標(biāo)的粗略識(shí)別過(guò)程。然后,利用Level-Set算法對(duì)候選目標(biāo)區(qū)域精細(xì)的提取,該過(guò)程是對(duì)粗略識(shí)別結(jié)果的進(jìn)一步精細(xì)處理,是目標(biāo)的精細(xì)識(shí)別過(guò)程。
傳統(tǒng)水平集方法存在初始輪廓線必須包含目標(biāo)物體或完全置于目標(biāo)的內(nèi)部(或外部),并且初始輪廓的確定受人為因素影響較大等問(wèn)題。本文提出Faster-RCNN框架下的VGG16的模型和Level-Set算法結(jié)合,來(lái)解決Level-Set算法中圖像分割結(jié)果初始輪廓受人為標(biāo)記框選的影響較大的問(wèn)題,利用Faster-RCNN模型確定初始化輪廓,再對(duì)初始輪廓進(jìn)行精細(xì)化分割。
遙感影像包含信息量大、背景環(huán)境復(fù)雜,而單類(lèi)目標(biāo)在影像中所占比例較小。傳統(tǒng)的區(qū)域生成算法雖然能夠粗略提取感興趣區(qū)域,但該感興趣區(qū)域中包含大量冗余的背景信息。與需求提取的目標(biāo)信息有著一定的出入,這些背景區(qū)域?qū)τ谶M(jìn)一步的分析研究有著很大的干擾。而本文利用Faster-RCNN粗提取目標(biāo)建筑物的輪廓,只需要簡(jiǎn)單的特征提取和分類(lèi)器就能判斷出是否包含目標(biāo),為之后的精細(xì)化分割做準(zhǔn)備。
Faster-RCNN是把整張高分影像進(jìn)行歸一化處理后直接傳入CNN,并在之后的卷積層輸出的feature map上,添加相應(yīng)的候選框信息,這樣使得之前的CNN運(yùn)算結(jié)果得以共享。此種算法的特點(diǎn)之一是對(duì)每張圖像CNN特征和建議區(qū)域都一次性提取完畢,訓(xùn)練數(shù)據(jù)之接存儲(chǔ)在GPU內(nèi)存中的Loss層,因此候選區(qū)域的計(jì)算過(guò)程中,前幾層特征不需要再重復(fù)計(jì)算而且不再需要在硬盤(pán)中存儲(chǔ)大量實(shí)驗(yàn)數(shù)據(jù),這一優(yōu)點(diǎn)使其非常適用于解決大量樣本中的快速分類(lèi)問(wèn)題。
Girshick[7]提出主要應(yīng)用于目標(biāo)檢測(cè)的Faster-RCNN模型,該模型特點(diǎn)是將特征提取、分類(lèi)等問(wèn)題統(tǒng)一集中在一個(gè)網(wǎng)絡(luò)模型中,由此開(kāi)辟了候選框選取的新方向,與以往的滑動(dòng)窗口和金字塔的辦法有不同,該方法對(duì)窗口采用1∶1,1∶2,2∶1三種比例進(jìn)行選取候選框,提高檢測(cè)準(zhǔn)確率并加快了檢測(cè)速度。
Faster-RCNN是一種深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法,結(jié)構(gòu)如圖1所示。Faster-RCNN主要分為RPN(Region Proposal Network和Fast-RCNN)兩大模塊。其中RPN模塊主要用于預(yù)測(cè)輸入的遙感影像中可能包含目標(biāo)的候選區(qū)域,也就是區(qū)分是目標(biāo)還是背景;而Fast- RCNN用劃分候選區(qū)域,并修正候選區(qū)域的邊界框即為檢測(cè)模塊。兩個(gè)模塊使用共享的卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取感興趣目標(biāo)區(qū)域。
圖1 Faster-RCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Faster-RCNN network structure
將待檢測(cè)的圖像輸入卷積層,通過(guò)卷積層計(jì)算之后得到該圖像對(duì)應(yīng)的feature maps,將原始圖片輸入RPN(并不是feature maps),ROI池化層的作用是提取卷積層輸出的feature maps和RPN輸出的候選框特征塊,將上一步的結(jié)果輸入全連接層,全連接層將會(huì)進(jìn)行分類(lèi)和回歸輸出結(jié)果。
卷積層由卷積函數(shù)、relu函數(shù)和池化層3部分構(gòu)成。其中卷積層的主要功能是提取輸入遙感影像的特征塊[8]。卷積核大小設(shè)定為3×3,進(jìn)行卷積運(yùn)算之前需要對(duì)目標(biāo)影像進(jìn)行0值填充。假設(shè)輸入圖片大小是M×N,經(jīng)過(guò)填充之后大小變?yōu)?M+2)×(N+2),之后進(jìn)行卷積運(yùn)算卷積操作后圖片大小變?yōu)镸×N。
(1)
第一步將RPN輸出的候選特征塊平移,平移使特征塊和目標(biāo)塊二者的中心點(diǎn)重合,即:平移只改變特征塊的中心點(diǎn)坐標(biāo)px和py,公式如下:
(2)
(3)
然后將RPN輸出的候選框特征塊縮放,使得輸入原始的初始輪廓經(jīng)過(guò)縮放得到一個(gè)跟目標(biāo)塊更接近特征塊,縮放改變特征塊的寬pw和高ph,公式如下:
(4)
(5)
最后通過(guò)對(duì)RPN輸出的候選特征塊進(jìn)行平移和縮放操作,從而回歸最接近標(biāo)定(Gx,Gy,Gw,Gh)是回歸的主要任務(wù)。
前一階段的Faster-RCNN對(duì)目標(biāo)輪廓的粗識(shí)別階段剔除了大量不包含目標(biāo)的背景區(qū)域,提取少量感興趣區(qū)域。但這些感興趣區(qū)域通常包含部分或者完整的待識(shí)別目標(biāo),必須對(duì)粗識(shí)別結(jié)果進(jìn)行精細(xì)分割,才能對(duì)更復(fù)雜的特征加以區(qū)分。因此,在對(duì)高分遙感的提取目標(biāo)精細(xì)識(shí)別階段,對(duì)目標(biāo)粗識(shí)別的結(jié)果使用Level-Set算法精細(xì)分割,最終收斂到目標(biāo)建筑物邊界輪廓。該算法在抗噪性、魯棒性和分割精度3個(gè)指標(biāo)上都較傳統(tǒng)的圖像分割方法有優(yōu)勢(shì)。
傳統(tǒng)的Level-Set算法雖然已經(jīng)成為了一種重要的圖像分割方法,但仍然存在一些缺點(diǎn): 例如確定初始輪廓受人為因素影響較大繼而影響實(shí)驗(yàn)精度,迭代次數(shù)和權(quán)系數(shù)γ的值等不具有自適應(yīng)性[9]。
水平集方法(Level Set Method)由Osher和Sethain于1988年最早提出,早先用于計(jì)算火苗的外形變化過(guò)程[10]?;鹈缤庑问莿?dòng)態(tài)變化的并且其拓?fù)浣Y(jié)構(gòu)也在不斷變化,利用水平集方法解決[11]。
Level-Set的基本思想是將變換的曲線作為零水平集然后嵌入進(jìn)高一維的函數(shù)中,由高維曲面演化過(guò)程就可以推演出零水平界面的點(diǎn)的位置,就可以得到函數(shù)的演化方程。
(6)
(7)
在計(jì)算曲線變化方程中水平集函數(shù)的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)時(shí),利用水平集函數(shù)的有限差分進(jìn)行計(jì)算。如定義6個(gè)有限差分算子:
(8)
將式(7)改成滿足“熵守恒”條件的有限差分迭代格式為:
(9)
(10)
(11)
這種差分方法就稱為迎風(fēng)有限差分法(Upwind finite differential method)[13]。
當(dāng)利用水平集方法分割圖像時(shí),需要設(shè)置速度函數(shù),用以確保零水平集曲線演化到圖像邊界時(shí)能夠恰好停止。通常,可將式(6)中的速度函數(shù)F寫(xiě)成如下形式:
F=Fprop+Fcurv+Fodv,
(12)
其中,F(xiàn)curv=-εk表示曲率演化速度,F(xiàn)prop=Vo為常量演化速度,F(xiàn)odv=U·N表示水平對(duì)流速度,U=(u(x,y,t),v(x,y,t))。因此,式(11)可改寫(xiě)為:
(13)
通過(guò)解算上述差分方程式,利用迭代時(shí)刻更新水平集函數(shù),更新完成之后再利用輪廓檢測(cè)方法獲得最新的零水平集,最終得到了的閉合輪廓線[14]。
本文選用IAILD數(shù)據(jù)集作為研究數(shù)據(jù)集。其中每幅遙感影像是覆蓋地理面積為405平方公里,空間分辨率為0.3 m的航空正射高分辨率遙感影像 。這些高分遙感影像覆蓋了不同的城市居民點(diǎn),從人口稠密地區(qū)到郊區(qū)鄉(xiāng)村人口密度較小的地區(qū)。IAILD數(shù)據(jù)集具有180張5 000×5 000像素高分遙感影像,并提供了相應(yīng)的掩碼圖片,如圖2所示。
圖2 芝加哥地區(qū)部分遙感影像Fig. 2 Partially remotely sensed images of the Chicago area
由于原始圖片尺寸過(guò)大,直接使用進(jìn)行目標(biāo)建筑提取會(huì)造成內(nèi)存溢出等一系列的問(wèn)題。因此,我們對(duì)每幅遙感影像進(jìn)行分割,調(diào)整成為500×500像素大小的影像。最終,將圖片以2∶1∶1的比例分成3個(gè)數(shù)據(jù)集,得到了訓(xùn)練集(2 500張)、驗(yàn)證集(1 250張)、測(cè)試集(1 250張)。
在目標(biāo)建筑的粗提取階段,采用Faster-RCNN網(wǎng)絡(luò)下的VGG16模型對(duì)目標(biāo)區(qū)域進(jìn)行提取,過(guò)程如圖3所示。
圖3 Faster-RCNN網(wǎng)絡(luò)模型Fig.3 Faster-RCNN network model
(1)RPN網(wǎng)絡(luò)訓(xùn)練。
該網(wǎng)絡(luò)使用ImageNet預(yù)訓(xùn)練的模型進(jìn)行初始化,然后利用訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練中,利用零均值標(biāo)準(zhǔn)差為0.01的高斯分布隨機(jī)初始化所有新的圖層,訓(xùn)練為模型M1。下一步使用M1生成建議區(qū)域P1。
(2)Fast-RCNN 檢測(cè)網(wǎng)絡(luò)訓(xùn)練。
Fast-RCNN檢測(cè)網(wǎng)絡(luò)利用ImageNet預(yù)訓(xùn)練的網(wǎng)絡(luò)初始化Fast-RCNN模型,使用第一步RPN生成的建議區(qū)域P1得到訓(xùn)練模型M2。
(3)聯(lián)合調(diào)優(yōu)
RPN和Fast-RCNN兩者都需要一個(gè)原始特征提取網(wǎng)絡(luò)[15]。利用上一步的網(wǎng)絡(luò)訓(xùn)練得到的檢測(cè)網(wǎng)絡(luò)初始化區(qū)域的生成網(wǎng)絡(luò)。用M2初始化RPN訓(xùn)練的得到模型M3,并生成建議區(qū)域P2。接下利用M3以及P2訓(xùn)練Fast-RCNN得到最終模型M4,不同的是這一階段的訓(xùn)練固定了共享的卷積層的參數(shù),只微調(diào)區(qū)域生成網(wǎng)絡(luò)的全連接層。由以上訓(xùn)練可知,RPN和Fast-RCNN最終可共用同一個(gè)卷積神經(jīng)網(wǎng)絡(luò),結(jié)果使得整個(gè)提取識(shí)別過(guò)程轉(zhuǎn)換為既定的卷積運(yùn)算,即可完成檢識(shí)提取過(guò)程,構(gòu)生成一個(gè)統(tǒng)一的網(wǎng)絡(luò),徹底解決了以前存在的時(shí)間長(zhǎng)開(kāi)銷(xiāo)大的瓶頸問(wèn)題。每一階段的迭代次數(shù)如表1所示。
表1 Faster-RCNN各階段迭代次數(shù)
Tab.1 Number of iterations of each phase of Faster-RCNN
訓(xùn)練階段網(wǎng)絡(luò)迭代次數(shù)1RPN40 0001Fast-RCNN20 0002RPN40 0002Fast-RCNN20 000
3.2.1 確定初始輪廓曲線
因?yàn)樵谒郊惴ㄖ?,活?dòng)輪廓只能根據(jù)符號(hào)進(jìn)行單向演變,而初始化曲線必須全包圍目標(biāo)區(qū)域或者位于目標(biāo)區(qū)域外部[16]。本文采用了Faster-RCNN網(wǎng)絡(luò)模型測(cè)試出來(lái)的結(jié)果來(lái)確定建筑物的初始輪廓曲線,在這一步驟中提高了Level-Set算法的精度。
3.2.2 自適應(yīng)控制水平集演化
由于距離保持水平集的中值是固定值,這將導(dǎo)致零水平集在捕捉目標(biāo)輪廓和不發(fā)生邊界泄漏兩方面無(wú)法兼顧。自適應(yīng)控制演化停止距離保持水平集方法的迭代次數(shù)是固定值,如果設(shè)定的迭代次數(shù)偏少時(shí),圖像將出現(xiàn)還沒(méi)有分割完成但是迭代就已經(jīng)停止,不能達(dá)到對(duì)目標(biāo)的合理分割效果; 當(dāng)設(shè)定的迭代次數(shù)較多時(shí),對(duì)目標(biāo)的分割已經(jīng)完成,但是零水平集卻還在進(jìn)行冗余的演化,等于增加了程序運(yùn)行的時(shí)間成本。本文提出的解決方法是檢測(cè)相鄰 10 個(gè)的初始輪廓曲線對(duì)應(yīng)的系數(shù)值,假設(shè)這 10個(gè)值的方差小于某一設(shè)定的閾值,則迭代停止。
3.2.3 結(jié)合Level-Set算法實(shí)現(xiàn)圖像精細(xì)化分割
從圖4可以看出,利用Faster-RCNN分割出的建筑物還有一些小的瑕疵,過(guò)擬合、識(shí)別率低、無(wú)法精確到輪廓、有一小塊區(qū)域建筑物部分,在分割的時(shí)候漏掉了。因此,本文結(jié)合Level-Set法,對(duì)前文利用Faster-RCNN分割出的建筑物輪廓再次進(jìn)行精細(xì)分割。具體步驟如下:
(1)選取適量的輪廓進(jìn)行測(cè)試,確定收斂所需要的迭代次數(shù)以及能量參數(shù)。
(2)將初試區(qū)域信息保存到表格中,按行分類(lèi),方便批量讀取。
(3)編寫(xiě)批處理程序,每次循環(huán)讀取表格中一個(gè)框區(qū)域,并根據(jù)參數(shù)進(jìn)行收斂,收斂完畢后記錄區(qū)域。
(4)完成全部收斂后進(jìn)行區(qū)域合并。
圖4 使用Faster-RCNN網(wǎng)絡(luò)模型訓(xùn)練后的測(cè)試結(jié)果Fig.4 Test results after training using the Faster-RCNN network model
本文方法在高分遙感影像上進(jìn)行了多組實(shí)驗(yàn)以驗(yàn)證其分割效果。
實(shí)驗(yàn) 1 中, 待分割影像是包含部分缺損的建筑物影像,建筑部分被遮擋且圖像受高斯噪聲干擾。 圖5(a)SVM方法由于僅考慮遙感影像自身的像素信息,無(wú)法將目標(biāo)檢測(cè)為建筑;圖5(b) K-Means方法對(duì)噪聲較敏感,提取了無(wú)意義的建筑物邊緣;圖5(c) 方法利用了Faster-RCNN框架下的VGG16模型進(jìn)行對(duì)建筑物的初步識(shí)別與提取,圖5(d) 使得輪廓曲線在向目標(biāo)邊緣運(yùn)動(dòng)的同時(shí)再利用Level-Set精細(xì)分割, 故Faster-RCNN框架與Level-Set算法結(jié)合可將被遮蓋的建筑物正確提取出來(lái)。實(shí)驗(yàn)1表明: 由于利用Faster-RCNN提取建筑物的初始輪廓,使得本文方法可以更有效分割被遮蓋的目標(biāo)建筑物,并對(duì)噪聲魯棒。
圖5 實(shí)驗(yàn)1:帶有噪聲的遙感部分建筑物缺損影像的分割結(jié)果Fig.5 Experiment 1:Segmentation result of building defect image of remote sensing part with noise
實(shí)驗(yàn) 2 中,待分割影像為受樹(shù)木陰影遮擋的建筑物。 受背景中部分與目標(biāo)相近的深色像素影響,圖6(a)SVM方法提取了一些無(wú)意義的邊緣; 由于目標(biāo)被遮擋,圖5(b) K-Means方法僅考慮圖像的本身的像素信息,故無(wú)法正確分割出完整的目標(biāo)建筑物;圖6(c,d)方法集成了由粗到精的遙感影像單類(lèi)目標(biāo)識(shí)別方法的優(yōu)點(diǎn),并且利用Level-Set使得曲線的當(dāng)前形狀與建筑物輪廓盡量地靠近。故Faster-RCNN網(wǎng)絡(luò)模型與Level-Set算法結(jié)合可以將建筑物被遮蓋的部分正確分割。實(shí)驗(yàn) 2表明: 本文方法能夠正確分割遙感影像中被樹(shù)木陰影遮擋的建筑物。
圖6 實(shí)驗(yàn)2:對(duì)受樹(shù)木陰影遮擋的建筑物影像提取過(guò)程與結(jié)果Fig.6 Experiment 2:Image extraction process and results of buildings obscured by trees
實(shí)驗(yàn)3中,待分割圖像建筑物因?yàn)楣庹斩a(chǎn)生陰影遮擋,導(dǎo)致建筑物與背景更加難以區(qū)分。 圖7(a)SVM方法受到周邊建筑的干擾,無(wú)法準(zhǔn)確識(shí)別每一個(gè)建筑;圖7(b)方法也將建筑物的陰影當(dāng)作目標(biāo)建筑物的邊緣錯(cuò)誤地分割;圖7(c,d)方法通過(guò)Faster-RCNN識(shí)別提取建筑物輪廓,Level-Set再進(jìn)行精細(xì)分割準(zhǔn)確的提取目標(biāo)建筑實(shí)驗(yàn) 3 表明: 本方法能夠有效地分割遙感影像中被遮擋的目標(biāo)建筑物,受到背景中與目標(biāo)灰度值近似的像素的影響較小。
圖7 實(shí)驗(yàn)3:待分割目標(biāo)的建筑物之間緊密連接影像提取過(guò)程與結(jié)果Fig.7 Experiment 3: The process and results of image extraction with close connection between buildings to be segmented
本文通過(guò)對(duì)圖像分割中的Level-Set算法以及Faster-RCNN框架下的VGG16的模型進(jìn)行研究,并給出了這兩者結(jié)合之后的建筑物提取模型。利用這兩者算法的結(jié)合對(duì)高分遙感影像進(jìn)行了建筑物提取實(shí)驗(yàn),并與傳統(tǒng)的遙感影像提取方法作比較,結(jié)果顯示本文所提出的結(jié)合Faster-RCNN框架下的VGG16的模型的Level-Set算法對(duì)于高分遙感影像的建筑物提取效果較好,解決了Level-Set算法中圖像分割結(jié)果初始輪廓受人為標(biāo)記框選的影響較大以及Faster-RCNN框架無(wú)法精確提取目標(biāo)輪廓的問(wèn)題。實(shí)驗(yàn)表明在提取被遮蓋目標(biāo)建筑物和與背景灰度值相近的取建筑物時(shí),該方法能夠更好地完成對(duì)目標(biāo)的提取分割。能夠?qū)崿F(xiàn)只需將高分遙感影像數(shù)據(jù)集輸入到訓(xùn)練好的網(wǎng)絡(luò)模型中,即可提取建筑物的輪廓,具有高效以及精準(zhǔn)的特點(diǎn)。