基于深度卷積網(wǎng)絡(luò)的無人機(jī)地物場景語義分割

2019-06-06 09:39宋建輝程思宇劉硯菊

沈陽理工大學(xué)學(xué)報(bào) 2019年6期

宋建輝，程思宇，劉硯菊，于洋

(沈陽理工大學(xué) 自動化與電氣工程學(xué)院沈陽 110159)

城市土地作為城市經(jīng)濟(jì)發(fā)展的重要載體，土地利用的變化對社會經(jīng)濟(jì)和城市環(huán)境造成很大的影響[1]。隨著社會經(jīng)濟(jì)的高速發(fā)展和城市面積的不斷擴(kuò)大，人類活動密集以及土地利用不合理等原因?qū)е鲁鞘协h(huán)境質(zhì)量有所下降。城市土地包括城市地表、綠地、水域等，精確的識別城市土地類別決定了城市土地分布信息的有效性，因此設(shè)計(jì)精準(zhǔn)、有效的城市地物分割技術(shù)成為重中之重。傳統(tǒng)的圖像分割技術(shù)有基于閾值分割法、區(qū)域分割法和邊緣檢測分割法等[2-3]，這些方法大多計(jì)算比較簡單、效率高，在邊界清晰的簡單場景下不同物體之間能取得很好的分割效果，但在復(fù)雜場景或存在遮擋的情況下，目標(biāo)邊界分割不精確，所以使用傳統(tǒng)方法對圖像進(jìn)行分割效果往往不是很好。

隨著科技的不斷進(jìn)步，圖形處理器(GPU)在執(zhí)行復(fù)雜的數(shù)字和幾何計(jì)算方面有很強(qiáng)的能力。近年來，依靠GPU強(qiáng)大的計(jì)算能力，深度學(xué)習(xí)得到廣泛的應(yīng)用。圖像的語義分割屬于像素級分割，是在普通分割的基礎(chǔ)上，添加每塊分割區(qū)域的語義信息。最初利用卷積神經(jīng)網(wǎng)絡(luò)(Convolution neural network，CNN)的分割方法[4]，在PASCAL VOC 2012 圖像分割數(shù)據(jù)集上的均交并比(Mean intersection-over-union，MIOU)達(dá)到51.6%，當(dāng)時達(dá)到了最佳性能。Long等[5]提出的全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,FCN)為語義分割奠定了良好的基礎(chǔ)，將網(wǎng)絡(luò)的全連接層換成卷積層，通過反卷積輸出與原圖等大的分割圖，在PASCAL VOC 2012上MIOU達(dá)到62.2%。Badrinarayanan等[6]提出SegNet網(wǎng)絡(luò)延用FCN的網(wǎng)絡(luò)結(jié)構(gòu)，將最大池化指數(shù)轉(zhuǎn)移至解碼器中，改善了分割分辨率，MIOU達(dá)到了63.6%。Yu等[7]在多尺度聚集條件下使用擴(kuò)張卷積聚合上下文信息，這是一種可用于密集預(yù)測的卷積層，MIOU達(dá)到了67.6%。Zhao等[8]提出金字塔池化方法(PSPNet)，在復(fù)雜的場景中獲取全局特征，在PASCAL VOC 2012上MIOU達(dá)到85.4%。Chen等[9]提出改進(jìn)了空間維度上的金字塔空洞池化方法(Atrous Spatial Pyramid Pooling，ASPP)，采用殘差網(wǎng)絡(luò)模塊，設(shè)計(jì)Deeplabv3網(wǎng)絡(luò)，相比于文獻(xiàn)[10]，由于加入了批量歸一化層和使用了更優(yōu)的方法來編碼多尺度背景，在性能上有所提高，在PASCAL VOC 2012上MIOU達(dá)到85.7%。Chen等[11]在Deeplabv3的基礎(chǔ)上提出了Deeplabv3+，這是一個全新的encoder-decoder架構(gòu)，使用Deeplabv3作為encoder模塊，并添加了一個簡單卻有效的decoder模塊，這種架構(gòu)可以獲得清晰的物體邊界，在PASCAL VOC 2012上驗(yàn)證模型的有效性，MIOU達(dá)到89%。

Deeplabv3+可以說是深度學(xué)習(xí)語義分割中的最佳模型，具有精度高、邊界分割清晰、處理速度快等優(yōu)點(diǎn)；將其用于無人機(jī)拍攝的地物場景圖像分割，在精確分割地物場景并附上語義標(biāo)簽的同時，還能計(jì)算其面積及所在區(qū)域的空間分布。參考國內(nèi)外文獻(xiàn)，目前對無人機(jī)影像進(jìn)行語義分割的研究相對較少，大多是對衛(wèi)星遙感圖像的分割。圖像獲取周期時間長，易受自然環(huán)境影響，而無人機(jī)遙感圖像由于是低空拍攝，具有機(jī)動性強(qiáng)、獲取圖像分辨率高、成本低等優(yōu)點(diǎn)，能很好的解決這些問題[12]。本文采用Deeplabv3+深度學(xué)習(xí)方法對無人機(jī)拍攝的地物場景影像進(jìn)行6種類別的分割，這6種分別是樓房、汽車、草地、道路、樹木和水源；使用兩種網(wǎng)絡(luò)骨干模型xception_65和mobilenet_v2分別進(jìn)行實(shí)驗(yàn)，對比兩種模型測試的結(jié)果，選擇最佳模型，對最佳模型進(jìn)行二次遷移訓(xùn)練，對比遷移前后分割效果并計(jì)算出各類別覆蓋面積。

1 基于Deeplabv3+網(wǎng)絡(luò)的語義分割

1.1 Deeplabv3+原理

Deeplabv3+網(wǎng)絡(luò)是在v3的基礎(chǔ)上做了改進(jìn)，分為編碼器與解碼器兩個部分，這兩部分常用于計(jì)算機(jī)視覺任務(wù)中，包括人體姿態(tài)識別、目標(biāo)檢測和語義分割。編碼器-解碼器網(wǎng)絡(luò)包含：(1)編碼器模塊可逐漸減少特征圖并捕獲更高層次的語義信息；(2)解碼器模塊可逐漸恢復(fù)圖像的空間信息。在Deeplabv3+中用Deeplabv3網(wǎng)絡(luò)作為編碼器模塊，使用簡單的網(wǎng)絡(luò)作為解碼器實(shí)現(xiàn)圖像的語義分割。Deeplabv3+網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 Deeplabv3+網(wǎng)絡(luò)結(jié)構(gòu)圖

編碼器部分，原有的Deeplabv3網(wǎng)絡(luò)在改進(jìn)ASPP模塊的基礎(chǔ)上，以ResNet-101[13]網(wǎng)絡(luò)為骨架網(wǎng)絡(luò)進(jìn)行特征提取。Deeplabv3+網(wǎng)絡(luò)將ResNet-101網(wǎng)絡(luò)改為Xception[14]網(wǎng)絡(luò)作為骨架網(wǎng)絡(luò)。Xception網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖2 Deeplabv3+中的Xception網(wǎng)絡(luò)結(jié)構(gòu)

Xception網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集[15]上進(jìn)行圖像分類具有快速計(jì)算能力，這里對模型有所改動：網(wǎng)絡(luò)層數(shù)變深，中間流程重復(fù)16次；最大池化操作使用深度可分離卷積來替換；在每次3×3深度卷積后添加ReLU激活函數(shù)。然后在Xception網(wǎng)絡(luò)后導(dǎo)入ASPP得到特征圖，將其輸入到1×1卷積層中，卷積后得到的高層次特征圖輸入到解碼器中。ASPP模塊最初在Deeplabv2中由文獻(xiàn)[10]提出，Deeplabv3中對ASPP又有所改進(jìn)，多了1×1的卷積層和全局平均池化層；1×1卷積層相當(dāng)于rate很大的空洞卷積，得到的整個特征圖使用全局平均池化層求取平均值。ASPP結(jié)構(gòu)如圖3所示。

圖3 ASPP結(jié)構(gòu)圖

解碼器部分，首先連接低層次特征，利用1×1卷積層對特征圖進(jìn)行卷積，得到低層次特征圖，然后將低層次特征圖與編碼器經(jīng)過4倍上采樣得到的高層次特征圖進(jìn)行融合，最后經(jīng)過3×3卷積操作和4倍的上采樣恢復(fù)至原圖分辨率，得到與最初輸入圖像等大的分割圖，實(shí)現(xiàn)對無人機(jī)圖像的像素級語義分割。

1.2 精度評價(jià)指標(biāo)

圖像語義分割評價(jià)指標(biāo)很多，普遍是像素精度(Pixel Accuracy，PA)及交并比(Intersection over Union，IOU)的一些改進(jìn)。文獻(xiàn)[16]對語義分割評價(jià)標(biāo)準(zhǔn)做了詳細(xì)介紹，假設(shè)需要分割的圖像中共有k+1個類(其中包括背景類)，Pij表示屬于i類的像素?cái)?shù)量但被預(yù)測為j類的像素?cái)?shù)量。Pii代表真正預(yù)測的數(shù)量，Pij和Pji則分別表示為假正和假負(fù)。以下是幾種常用的語義分割的精度評價(jià)標(biāo)準(zhǔn)。

像素精度PA是最基礎(chǔ)的度量方式，表示正確像素占整體像素的比例。

(1)

均像素精度(Mean Pixel Accuracy，MPA)：在PA基礎(chǔ)上的改進(jìn)，先計(jì)算每個類的PA，然后求所有類別的平均值。

(2)

MIOU是語義分割常用的標(biāo)注評價(jià)指標(biāo)。IOU為真實(shí)值和預(yù)測值兩個集合的交集與并集之比。計(jì)算完每類的IOU求和取平均即為MIOU。

(3)

頻權(quán)交并比(Frequency Weighted Intersection over Union，F(xiàn)WIOU)是MIOU的一種提升，根據(jù)每個類出現(xiàn)的頻率對各個類別的IOU進(jìn)行加權(quán)求和。

(4)

在以上的評價(jià)指標(biāo)中，由于MIOU代表性強(qiáng)，因此成為最常用的評價(jià)指標(biāo)，大部分研究人員都使用該指標(biāo)匯報(bào)結(jié)果。

1.3 覆蓋面積計(jì)算

覆蓋面積的計(jì)算是對圖像中的像素點(diǎn)數(shù)統(tǒng)計(jì)，找到可知覆蓋面積的目標(biāo)作為參照物，根據(jù)參照物所占像素得到圖像的空間解析度，計(jì)算公式為

R=a/n

(5)

式中：R為空間解析度(m2/像素點(diǎn)數(shù))；a為參照物面積(m2)；n為參照物像素點(diǎn)數(shù)。

根據(jù)空間解析度，統(tǒng)計(jì)圖像中其他類別的像素?cái)?shù)量，即可得到各個類別的覆蓋面積，面積計(jì)算公式為

Si=RNi

(6)

式中：Si為圖像中第i類目標(biāo)的覆蓋面積；Ni為圖像中第i類的像素點(diǎn)數(shù)。

1.4 數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)集上使用德國波茨坦和Vaihingen城市的無人機(jī)遙感圖像以及大型虛擬現(xiàn)實(shí)游戲中高空錄像截幀獲取圖像，通過人工標(biāo)注得到標(biāo)注文件，經(jīng)過處理得到標(biāo)注圖像，將原圖像和標(biāo)注圖像整理成自制數(shù)據(jù)集；由于數(shù)據(jù)樣本少，將獲取的圖像進(jìn)行平移、翻轉(zhuǎn)達(dá)到數(shù)據(jù)翻倍。最后將數(shù)據(jù)分為訓(xùn)練集和測試集進(jìn)行訓(xùn)練。

1.5 遷移學(xué)習(xí)訓(xùn)練

本文采集的數(shù)據(jù)集數(shù)量較少，對訓(xùn)練完測試得到的結(jié)果會有所影響，故采用遷移學(xué)習(xí)訓(xùn)練。遷移訓(xùn)練可以加快網(wǎng)絡(luò)損失的收斂和提高測試的準(zhǔn)確率。遷移學(xué)習(xí)是用現(xiàn)有領(lǐng)域?qū)W習(xí)的知識，通過遷移到新環(huán)境中，去解決領(lǐng)域相關(guān)的其他問題。目前大型數(shù)據(jù)集訓(xùn)練的預(yù)訓(xùn)練模型已經(jīng)公開，利用遷移學(xué)習(xí)可以將這些預(yù)訓(xùn)練模型應(yīng)用到本文的數(shù)據(jù)集中去解決類似的問題。

遷移學(xué)習(xí)的方法大致分為：(1)特征選擇的遷移學(xué)習(xí)方法；(2)特征映射的遷移學(xué)習(xí)方法；(3)權(quán)重的遷移學(xué)習(xí)方法[17]。特征選擇的遷移學(xué)習(xí)方法是使用高度相關(guān)的特征去解決目標(biāo)問題，需要將大量數(shù)據(jù)集分為不同特征子集去進(jìn)行驗(yàn)證[18]。特征映射的遷移學(xué)習(xí)方法需要源領(lǐng)域與目標(biāo)領(lǐng)域數(shù)據(jù)擁有相同的分布[19]。權(quán)重遷移學(xué)習(xí)方法是使源領(lǐng)域訓(xùn)練的權(quán)重用于目標(biāo)領(lǐng)域?？紤]到數(shù)據(jù)集較少，本文采用權(quán)重遷移學(xué)習(xí)的方法對數(shù)據(jù)進(jìn)行遷移訓(xùn)練。本文的預(yù)訓(xùn)練模型選擇已在Cityscapes數(shù)據(jù)集上訓(xùn)練好的Xception_65模型，該模型底層提取物體的通用特征，一般有局部的紋理、顏色及輪廓，保留Xception_65模型的這些特征，用本文自制的數(shù)據(jù)集來訓(xùn)練目標(biāo)物體的高層特征。

2 實(shí)驗(yàn)分析

采用Deeplabv3+網(wǎng)絡(luò)模型對城市地物場景圖像進(jìn)行語義分割，實(shí)驗(yàn)分三部分進(jìn)行：(1)對城市地物場景圖像目標(biāo)分別進(jìn)行提取，經(jīng)過測試，根據(jù)分割結(jié)果分析該模型對地物場景每個類別的分割效果；(2)對不同網(wǎng)絡(luò)主干的Deeplabv3+網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，將測試結(jié)果進(jìn)行對比，選出最佳網(wǎng)絡(luò)主干；(3)采用遷移學(xué)習(xí)對Deeplabv3+網(wǎng)絡(luò)進(jìn)一步訓(xùn)練，對比遷移前后的分割精度，測算出測試結(jié)果各個類別的覆蓋面積。

實(shí)驗(yàn)主要硬件配置：CPU(Inter core i7-8700k 3.2GHz)；GPU(GeForce RTX 2070)；內(nèi)存(16G)。

2.1 類別的分割效果分析

數(shù)據(jù)集中每個類別的大小都不同，對最后的分割效果也會有影響，故對測試集中每個類別分別進(jìn)行提取。數(shù)據(jù)集共計(jì)2138張，其中訓(xùn)練集2038張，測試集100張。網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)使用交叉熵函數(shù)[20]，采用隨機(jī)梯度下降法對訓(xùn)練進(jìn)行優(yōu)化，學(xué)習(xí)率設(shè)為10-4；衰減學(xué)習(xí)率每2000步下降0.1，學(xué)習(xí)動量設(shè)為0.9，訓(xùn)練批次大小設(shè)為1；ASPP模塊中三個擴(kuò)展率設(shè)為[6,12,18]，模型使用xception_65。由于建筑、汽車、草地、道路、樹木、水源以及背景這七種類別的像素?cái)?shù)量各不相同，無法達(dá)到平衡，故在訓(xùn)練階段對建筑、汽車、草地、道路、樹木、水源這六類設(shè)置較大的權(quán)值，背景與這六類的權(quán)值比分別設(shè)定為1∶1、1∶2、1∶2、1∶1、1∶2、1∶3。訓(xùn)練步數(shù)100000步后，對測試集進(jìn)行精度測試，每個類別的測試結(jié)果如表1所示。

表1 Deeplabv3+模型上各個類別的IOU指數(shù) %

由表1可以看出，建筑物的精度最高，汽車的分割精度最低,MIOU達(dá)到73.97%。測試集在Deeplabv3+模型上測試的效果圖如圖4所示。

圖4 不同類別的Deeplabv3+模型可視化結(jié)果

取其中四類逐類進(jìn)行分析。結(jié)合表1給出的分割精度，可以看出，建筑、樹木、道路和汽車的分割精度是從大到小逐漸降低，說明Deeplabv3+網(wǎng)絡(luò)對較大目標(biāo)的分割精度高于小目標(biāo)。從圖4b和圖4c中可以看到，建筑的標(biāo)注圖和測試圖分布基本一致，分割精度最高。從圖4h和圖4i道路的標(biāo)注圖和測試圖中可以看出，雖然有部分遮擋，但也能將道路的區(qū)域分割出來，說明模型對部分遮擋的目標(biāo)也能進(jìn)行準(zhǔn)確的分割。從圖4k和圖4l中可以看到，汽車總體上被分割出來，與標(biāo)注圖相差不大，相鄰的汽車分割出現(xiàn)融合，說明圖像中目標(biāo)像素值太少，影響了最后的分割效果?？傮w來說，Deeplabv3+對于大目標(biāo)分割精度高，整體分割效果與標(biāo)注圖一致；小目標(biāo)分割上會有所偏差。

2.2 不同網(wǎng)絡(luò)主干的Deeplabv3+模型分割結(jié)果

不同的網(wǎng)絡(luò)主干模型對目標(biāo)特征的擬合程度往往不同。本文針對Deeplabv3+中的兩種網(wǎng)絡(luò)主干模型mobilenet_v2和xception_65分別進(jìn)行訓(xùn)練，分析兩種網(wǎng)絡(luò)主干對模型分割效果的影響，實(shí)驗(yàn)測試可視化結(jié)果如圖5所示，分割精度對比如表2所示。

圖5 不同網(wǎng)絡(luò)主干的Deeplabv3+模型可視化結(jié)果

表2 不同網(wǎng)絡(luò)主干的Deeplabv3+模型地物場景分割結(jié)果 %

從表2可知，xception_65模型的分割精度結(jié)果整體都高于mobilenet_v2模型，mobilenet_v2和xception_65的模型均像素精度都在75%以上。其中xception_65的均像素精度達(dá)到了79.06%。這是因?yàn)閤ception_65的網(wǎng)絡(luò)層數(shù)更深，可以更好的擬合特征，獲得更強(qiáng)大的表達(dá)能力和逐層的特征學(xué)習(xí)能力。圖像上各類別分布不同，網(wǎng)絡(luò)模型越深，學(xué)習(xí)到各個類別的特征信息就越多，xception_65通過逐層學(xué)習(xí)特征信息，得到更精準(zhǔn)的結(jié)果。圖5中，分割的是建筑、汽車、道路、草地和樹木，兩種模型的測試結(jié)果圖基本與標(biāo)注圖一致，均能準(zhǔn)確分割城市地物場景各個類別，但xception_65模型的測試結(jié)果分割更清晰，效果更好。

表3為不同網(wǎng)絡(luò)主干的Deeplabv3+模型訓(xùn)練測試時間。

表3 不同網(wǎng)絡(luò)主干的Deeplabv3+模型訓(xùn)練測試時間

從表3可以看出，mobilenet_v2的訓(xùn)練時間只需要2.5h，這是因?yàn)閙obilenet_v2的網(wǎng)絡(luò)層數(shù)少于xception_65的網(wǎng)絡(luò)層數(shù)，所以在訓(xùn)練時間上要快很多。在測試單張圖片上xception_65比mobilenet_v2要快。mobilenet_v2雖然計(jì)算速度快，但得到的結(jié)果精度卻低于xception_65。所以在不考慮訓(xùn)練時間的情況下，可選用精度更高的xception_65網(wǎng)絡(luò)主干。

2.3 采用遷移學(xué)習(xí)對模型進(jìn)行訓(xùn)練

使用遷移學(xué)習(xí)對少量數(shù)據(jù)集訓(xùn)練可以使分割結(jié)果有所優(yōu)化。最初使用公開數(shù)據(jù)集提供的預(yù)訓(xùn)練模型訓(xùn)練，由于公開的預(yù)訓(xùn)練模型訓(xùn)練的場景數(shù)據(jù)不包括無人機(jī)拍攝的場景數(shù)據(jù)，故為得到更好的訓(xùn)練效果，采用二次遷移的方式，先用預(yù)訓(xùn)練模型訓(xùn)練小批次，再用生成的模型進(jìn)行遷移繼續(xù)訓(xùn)練。兩次訓(xùn)練的步數(shù)都為10萬步，分割結(jié)果見表4所示。損失對比圖如圖6所示。

表4 兩種訓(xùn)練方式的分割結(jié)果 %

從表4可以看出，遷移訓(xùn)練后各項(xiàng)指標(biāo)都有小幅的提升，說明遷移訓(xùn)練對結(jié)果的優(yōu)化有效。

圖6 遷移訓(xùn)練與原始訓(xùn)練的損失對比圖

從圖6中可以看到，遷移后的損失趨勢更加穩(wěn)定，這是因?yàn)椴捎眠w移學(xué)習(xí)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練時，網(wǎng)絡(luò)的前幾層就已經(jīng)可以學(xué)習(xí)到遷移部分的效果。

經(jīng)過遷移訓(xùn)練后各項(xiàng)指標(biāo)有所提升，表5是對遷移前后每個類別分割精度的測試結(jié)果。

表5 遷移前后各個類別的IOU指數(shù) %

從表5中可以看出，在建筑、汽車、草地、道路、樹木、水源這6類的語義分割上，使用遷移訓(xùn)練的分割精度分別提高了0.3%、1.6%、0.5%、2.4%、1.5%、2.8%，MIOU提高了1.48%。

根據(jù)遷移訓(xùn)練后的Deeplabv3+模型測試的預(yù)測圖，統(tǒng)計(jì)圖中每個類別的像素點(diǎn)數(shù)，由標(biāo)注圖中參照物汽車的實(shí)際覆蓋面積和其在圖中所占的像素點(diǎn)數(shù)得到空間解析率；將得到的空間解析率分別與測試圖中各個類別的像素點(diǎn)數(shù)相乘，得到相應(yīng)的覆蓋面積。測算結(jié)果如表6所示。由表6可以看到，汽車的誤差較大，這是因?yàn)槟Ｐ蛯π∧繕?biāo)的分割精度較低所致；其它類別的誤差都在10%以下，平均誤差為4.79%。

表6 單張測試圖目標(biāo)面積測算結(jié)果

3 結(jié)論

基于Deeplabv3+模型對無人機(jī)拍攝的城市地面場景進(jìn)行語義分割，實(shí)驗(yàn)結(jié)果表明，基于深度卷積網(wǎng)絡(luò)的無人機(jī)地物場景語義分割技術(shù)能夠?qū)Φ匚飯鼍皥D像進(jìn)行準(zhǔn)確分割；使用xception_65為網(wǎng)絡(luò)主干的Deeplabv3+模型得到的分割精度最高，該模型對圖像中大目標(biāo)分割效果較好，有小面積遮擋的情況也能較好地分割出目標(biāo)的大致輪廓；對該模型進(jìn)行二次遷移訓(xùn)練，分割精度有所提高。通過對測試結(jié)果圖像計(jì)算覆蓋面積，得到城市地面場景的分布信息，為城市土地規(guī)劃提供了依據(jù)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡