杜 蘭, 呂國(guó)欣, 石 鈺
(西安電子科技大學(xué)雷達(dá)信號(hào)處理國(guó)家重點(diǎn)實(shí)驗(yàn)室, 陜西西安 710071)
逆合成孔徑雷達(dá)(Inverse Synthetic Aperture Radar,ISAR)成像技術(shù)是當(dāng)前對(duì)海、陸、空觀測(cè)的重要方式,它作為一種能夠遠(yuǎn)距離獲取非合作目標(biāo)圖像的技術(shù),在軍事領(lǐng)域起到了重要作用。隨著ISAR成像技術(shù)的不斷成熟,對(duì)ISAR圖像進(jìn)行快速有效的自動(dòng)解譯,獲得目標(biāo)豐富的結(jié)構(gòu)、姿態(tài)、尺寸等信息,受到了越來越廣泛的關(guān)注。ISAR圖像語義分割是ISAR圖像處理和解譯的重要技術(shù)支撐,語義分割指根據(jù)某種準(zhǔn)則將圖像劃分為互不重疊的同質(zhì)區(qū)域,并且給出不同區(qū)域中像素的語義類別,它能夠提取圖像中感興趣區(qū)域,為后續(xù)圖像識(shí)別與分類、場(chǎng)景解析、目標(biāo)檢測(cè)等任務(wù)作預(yù)處理。傳統(tǒng)的語義分割方法利用像素的灰度、色彩、紋理等低級(jí)語義特征對(duì)像素進(jìn)行分類,圖像分割精度有限[1]。隨著深度卷積神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,基于深度學(xué)習(xí)的語義分割方法成為語義分割的主流方法[2-3]。Long 等人[4]在2014年提出的全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)是首個(gè)端到端的深度語義分割模型,目前大多語義分割網(wǎng)絡(luò)都是基于 FCN 的編碼-解碼結(jié)構(gòu)實(shí)現(xiàn)的。 FCN 通過對(duì)編碼過程中提取的特征圖進(jìn)行雙線性插值上采樣將其恢復(fù)至輸入圖像尺寸,實(shí)現(xiàn)像素級(jí)分類。文獻(xiàn)[5]基于編碼-解碼結(jié)構(gòu),解碼器進(jìn)行上采樣時(shí)利用編碼部分記錄的池化索引來恢復(fù)圖像的細(xì)節(jié)信息,提升分割精度。文獻(xiàn)[6]基于編碼-解碼結(jié)構(gòu),引入深度可分離空洞卷積在減少計(jì)算量的同時(shí)增大感受野,采用金字塔池化模塊獲取圖像多尺度上下文信息,提升圖像分割精度。傳統(tǒng)的深度語義分割模型通常采用交叉熵?fù)p失函數(shù)訓(xùn)練模型對(duì)圖像中的每一個(gè)像素進(jìn)行分類,使模型學(xué)習(xí)原始圖像像素到分割圖像像素的映射關(guān)系,因此需要非常精準(zhǔn)的標(biāo)注圖像來對(duì)模型進(jìn)行訓(xùn)練。ISAR圖像與光學(xué)圖像相比表征性差,圖像中散射點(diǎn)的不連續(xù)和強(qiáng)散射點(diǎn)存在的旁瓣效應(yīng),使得人工精準(zhǔn)標(biāo)注十分困難,傳統(tǒng)深度語義分割方法在訓(xùn)練數(shù)據(jù)標(biāo)注不精準(zhǔn)的情況下無法保證分割性能穩(wěn)健。
本文針對(duì)上述問題,提出了一種基于Pix2pixGAN[7]的ISAR圖像語義分割方法。本方法將GAN[8]的對(duì)抗思想引入ISAR圖像語義分割任務(wù)中,通過對(duì)抗學(xué)習(xí)使模型學(xué)習(xí)ISAR圖像分布到其語義分割圖像分布之間的映射,約束方式相比較于像素到像素的映射更加靈活,從而減弱模型對(duì)于精準(zhǔn)標(biāo)注的需求,提升語義標(biāo)注不夠精準(zhǔn)的情況下模型的穩(wěn)健性。
Pix2pixGAN是GAN的衍生模型之一,在圖像生成、圖像翻譯和圖像風(fēng)格轉(zhuǎn)換等任務(wù)上具有十分出色的表現(xiàn)[7]。所提方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,我們定義ISAR圖像為x,其對(duì)應(yīng)語義分割標(biāo)簽圖像集為y,將ISAR圖像作為條件信息約束生成器G生成數(shù)據(jù)的方向,訓(xùn)練生成器G以生成判別器D難以分辨的分割圖像,訓(xùn)練判別器D以盡可能地分辨真假分割圖像,通過這種對(duì)抗訓(xùn)練學(xué)習(xí)ISAR圖像到其分割圖像的映射關(guān)系G:(x,z)→y。本方法將ISAR圖像xi和噪聲向量z作為生成器G的輸入,輸出為生成的分割圖像G(xi,z);將ISAR圖像xi和生成的分割圖像G(xi,z)或ISAR圖像xi和真實(shí)的分割圖像yi作為圖像對(duì)輸入判別器D,輸出為判別器D判斷輸入圖像對(duì)為真實(shí)圖像的概率。采用交替迭代的方式訓(xùn)練該網(wǎng)絡(luò),首先固定生成器G,訓(xùn)練判別器D使其盡可能地區(qū)分G(xi,z)與yi;然后固定判別器D,訓(xùn)練生成器G使其生成的分割圖像G(xi,z)與真實(shí)分割圖像yi盡可能相似;循環(huán)上述交替迭代過程,當(dāng)對(duì)抗達(dá)到平衡時(shí),判別器D無法區(qū)分生成的分割圖像G(xi,z)和真實(shí)的分割圖像yi,也就是說生成器G能夠生成近似于真實(shí)分割圖像的分割結(jié)果。
圖1 基于Pix2pixGAN的ISAR圖像語義分割方法框架
1.1.1 生成器網(wǎng)絡(luò)結(jié)構(gòu)
編碼-解碼結(jié)構(gòu)是語義分割任務(wù)中常用的網(wǎng)絡(luò)結(jié)構(gòu),首先使用編碼器對(duì)輸入圖像進(jìn)行特征提取,再使用解碼器對(duì)特征圖進(jìn)行上采樣,將特征圖尺寸恢復(fù)至輸入圖像分辨率大小進(jìn)行像素級(jí)分類。本文的生成器如圖2所示,在編碼-解碼結(jié)構(gòu)的基礎(chǔ)上引入跳線結(jié)構(gòu),在上采樣時(shí)引入編碼部分的信息,將解碼器每層特征與編碼器中對(duì)稱層的特征按通道拼接后再進(jìn)行上采樣,避免直接對(duì)特征圖進(jìn)行上采樣時(shí)丟失大量細(xì)節(jié)信息,通過融合編碼部分的底層特征來保證輸出圖像在細(xì)節(jié)上能夠有較好的表現(xiàn)。生成器網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,編碼器由8個(gè)卷積層構(gòu)成,對(duì)一張寬度、高度和通道數(shù)為256×256×3的圖像經(jīng)過特征提取后輸出為512個(gè)大小為1×1的特征圖。解碼器由8個(gè)轉(zhuǎn)置卷積層組成,對(duì)512個(gè)大小為1×1的特征圖經(jīng)過上采樣后輸出為一張寬度、高度和通道數(shù)為256×256×3的圖像。
圖2 生成器網(wǎng)絡(luò)結(jié)構(gòu)示意圖
1.1.2 判別器網(wǎng)絡(luò)結(jié)構(gòu)
本文采用馬爾科夫判別器來構(gòu)建生成圖像的局部信息,進(jìn)一步提升生成的語義分割圖像在細(xì)節(jié)上的表現(xiàn)。馬爾科夫判別器的結(jié)構(gòu)如圖3所示,其為一個(gè)全卷積網(wǎng)絡(luò),采用四層卷積層對(duì)輸入圖像進(jìn)行特征提取,得到一張n×n的特征圖,網(wǎng)絡(luò)的輸出為一個(gè)n×n矩陣,其中矩陣中每一個(gè)結(jié)果對(duì)應(yīng)輸入圖像中的一個(gè)感受野,即輸出矩陣為輸入圖像中n×n個(gè)Patch的判別結(jié)果,最終以輸出矩陣的均值判斷輸入圖像為生成圖像還是真實(shí)圖像。馬爾科夫判別器和生成器均是全卷積網(wǎng)絡(luò),因此可以處理任意尺寸的圖像,增強(qiáng)了網(wǎng)絡(luò)的擴(kuò)展性。
圖3 判別器網(wǎng)絡(luò)結(jié)構(gòu)示意圖
本文方法的損失函數(shù)由對(duì)抗損失和重構(gòu)損失兩部分組成。對(duì)抗損失函數(shù)LCGAN(G,D)如式(1)所示:
LCGAN(G,D)=Ex,y[logD(x,y)]+
Ex,z[log(1-D(x,G(x,z)))]
(1)
其中,生成器G的目標(biāo)是生成與真實(shí)分割圖像盡可能相似的圖像以最小化損失函數(shù),判別器D的目標(biāo)是盡可能區(qū)分生成的分割圖像與真實(shí)的分割圖像以最大化損失函數(shù),該過程可表示為
(2)
為了進(jìn)一步提升生成器的性能,減小生成的分割圖像與真實(shí)的分割圖像的差異,本文方法采用L1損失函數(shù)減少生成圖像的模糊程度,所以本方法使用L1損失函數(shù)構(gòu)建生成的分割圖像的低頻部分,促使生成圖像在全局上更接近于真實(shí)圖像,L1重構(gòu)損失如式(3)所示:
LL1(G)=Ex,y,z[‖y-G(x,z)‖1]
(3)
本文方法的目標(biāo)函數(shù)可以表示為式(4)所示的形式:
(4)
式中,λ表示兩個(gè)損失函數(shù)的相對(duì)重要程度。
本文使用由電磁仿真軟件FEKO對(duì)衛(wèi)星目標(biāo)建模、再通過BP成像算法得到的衛(wèi)星目標(biāo)ISAR圖像數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。該數(shù)據(jù)集包含五類衛(wèi)星目標(biāo),分別為阿波羅衛(wèi)星、北斗衛(wèi)星、鎖眼衛(wèi)星、美國(guó)陸地衛(wèi)星和天宮衛(wèi)星,仿真CAD模型和其對(duì)應(yīng)的ISAR圖像示例分別如圖4和圖5所示。為了滿足深度神經(jīng)網(wǎng)絡(luò)對(duì)于訓(xùn)練數(shù)據(jù)量的要求,我們對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行平移和鏡像操作,將訓(xùn)練圖像數(shù)量擴(kuò)充至原始數(shù)據(jù)量的36倍,五類衛(wèi)星ISAR圖像數(shù)量如表1所示。
圖4 衛(wèi)星CAD模型示意圖
圖5 衛(wèi)星目標(biāo)ISAR圖像示例
表1 五類衛(wèi)星目標(biāo)的樣本數(shù)信息
為了定量評(píng)估不同方法的分割性能,本文采用語義分割標(biāo)準(zhǔn)衡量準(zhǔn)則——平均交并比(Mean Intersection over Union,MIoU)作為定量評(píng)判的準(zhǔn)則,MIoU為預(yù)測(cè)結(jié)果與真實(shí)結(jié)果之間的交集與并集之比,計(jì)算示意圖如圖6所示。
圖6 計(jì)算MIoU示意圖
圖6中,TP表示預(yù)測(cè)分割圖像與真實(shí)分割圖像分類一致的像素?cái)?shù),F(xiàn)P表示真實(shí)分割圖像中除去TP以外的像素?cái)?shù),F(xiàn)N表示預(yù)測(cè)分割圖像中除去TP以外的像素?cái)?shù)。
計(jì)算公式如下:
(5)
式中,M表示圖像總數(shù)。
1) 語義分割性能比較分析
圖7給出了本文方法對(duì)不同衛(wèi)星目標(biāo)的分割結(jié)果,圖中第一、二、三列分別為ISAR圖像、分割圖像和標(biāo)簽,第四列和第五列分別為從分割圖像提取到的衛(wèi)星太陽能帆板和主體,并且經(jīng)過邊緣細(xì)化、空洞填充等形態(tài)學(xué)操作后的結(jié)果。結(jié)果表明,對(duì)于不同類型衛(wèi)星目標(biāo)的ISAR圖像,本文方法均能夠取得較好的分割結(jié)果,經(jīng)過掩膜分割后得到完整的太陽能帆板和主體。由圖可知,本文的方法在太陽能帆板與主體粘連處能夠?qū)崿F(xiàn)精細(xì)的分割,在細(xì)節(jié)上有較好的表現(xiàn),這表明本文方法中生成器和判別器的結(jié)構(gòu)能夠提升語義分割的細(xì)節(jié)表現(xiàn),精細(xì)的語義分割結(jié)果能夠?yàn)楹罄m(xù)解譯工作奠定良好的基礎(chǔ)。
為了評(píng)估本文方法與現(xiàn)有的深度語義分割方法性能,表2給出了不同語義分割方法對(duì)于每類衛(wèi)星的MIoU結(jié)果以及五類衛(wèi)星MIoU的平均結(jié)果。由表2可以看出,在ISAR圖像標(biāo)簽不夠精準(zhǔn)的情況下,本文方法依然取得了較好的分割精度,且對(duì)于不同衛(wèi)星目標(biāo)的分割性能穩(wěn)定,說明模型具有較好的魯棒性。由于ISAR圖像人工標(biāo)注無法保證語義標(biāo)簽的精確性,這種情況下MIoU定量評(píng)估結(jié)果并不能完全說明本文方法在分割精度上一定最優(yōu),但是足以說明其具有較好的分割性能。
圖7 本文方法的衛(wèi)星ISAR圖像分割結(jié)果示例(紅色:太陽能板;綠色:主體)
表2 不同語義分割方法的MIoU %
圖8給出了本文方法與三種傳統(tǒng)深度語義分割方法在語義標(biāo)簽不夠精準(zhǔn)的情況下訓(xùn)練數(shù)據(jù)的分割結(jié)果示例。對(duì)照?qǐng)D8中的原圖和Ground Truth可以看出,第一行至第三行的GroundTruth中均存在太陽能板和主體標(biāo)注不完整的問題(主體標(biāo)注明顯不完整),第一、二行的GroundTruth中太陽能板和主體之間存在不同程度的斷裂。其他三種對(duì)比方法的分割結(jié)果存在與GroundTruth相同的問題,分割結(jié)果不夠準(zhǔn)確;相比于對(duì)比方法的分割結(jié)果,本文方法的結(jié)果對(duì)GroundTruth的擬合度較低,但通過對(duì)照原圖和本文方法的結(jié)果可以看出,本文方法能夠比較完整地分割出主體和太陽能板,且太陽能板和主體間的連續(xù)性較好,沒有明顯斷裂的情況。圖8的結(jié)果說明在語義標(biāo)注不夠精準(zhǔn)的情況下,其他對(duì)比的語義分割方法學(xué)習(xí)到的結(jié)果非常接近標(biāo)注、也不夠精準(zhǔn),而本文方法仍然能夠準(zhǔn)確地、完整地將目標(biāo)的太陽能板和主體分割出來。這是因?yàn)樗鶎?duì)比的語義分割方法采用交叉熵?fù)p失函數(shù)學(xué)習(xí)像素到像素之間語義類別的映射,此類方法對(duì)于語義標(biāo)注的精度要求較高,在標(biāo)注圖像不精準(zhǔn)的情況下會(huì)使得模型學(xué)到一些錯(cuò)誤信息,導(dǎo)致分割結(jié)果不夠精準(zhǔn);而GAN的對(duì)抗學(xué)習(xí)思想能夠訓(xùn)練模型學(xué)習(xí)數(shù)據(jù)分布到分布之間的映射,它能夠通過生成器與判別器的對(duì)抗博弈過程探究數(shù)據(jù)的分布情況,即使標(biāo)注本身存在誤差,由于約束方式相比較于像素到像素之間的語義類別映射更加靈活,不會(huì)對(duì)每個(gè)像素的預(yù)測(cè)誤差進(jìn)行懲罰,因而可以減弱模型對(duì)于精準(zhǔn)標(biāo)注的需求,使模型具有較好的泛化性。因此,在語義標(biāo)簽不夠精準(zhǔn)的情況下本文方法的語義分割性能更加穩(wěn)健。
圖8 語義標(biāo)注不精準(zhǔn)情況下不同分割方法的訓(xùn)練結(jié)果示例(紅色:太陽能板;綠色:主體)
2) 不同模型空間、時(shí)間復(fù)雜度分析
為了分析本文方法與現(xiàn)有語義分割方法的模型復(fù)雜度與運(yùn)算效率,表3計(jì)算了用于衡量不同模型時(shí)間復(fù)雜度和空間復(fù)雜度的浮點(diǎn)運(yùn)算次數(shù)(Floating-point Operations, FLOPs)和總參數(shù)量,由于CNN 的FLOPs和參數(shù)量主要集中在卷積層、反卷積層和全連接層,其余層的FLOPs和參數(shù)量相比于卷積層、反卷積層和全連接層非常少,可以忽略,又由于所提方法和對(duì)比方法均未含有全連接層,因此我們分析時(shí)間和空間復(fù)雜度時(shí)僅考慮了卷積層和反卷積層。
時(shí)間復(fù)雜度與模型的FLOPs成正相關(guān),計(jì)算公式如下式所示:
(6)
式中,K為卷積核與反卷積核的尺寸,C為卷積與反卷積通道數(shù),D為卷積層的層數(shù),N為反卷積層的層數(shù),Mout,l為第l卷積層輸出的特征圖尺寸,Min,n為第n反卷積層輸入的特征圖尺寸。
空間復(fù)雜度與模型的總參數(shù)量成正相關(guān),計(jì)算公式如下式所示:
(7)
式中,K為卷積核與反卷積核的尺寸,C為卷積與反卷積通道數(shù),D為卷積層與反卷積層的總層數(shù)。
表3 不同模型總參數(shù)量、FLOPs和MIoU
由表3可以看出,F(xiàn)CN[3]和SegNet[4]具有較高的FLOPs, 這是因?yàn)镕CN和SegNet均用普通的卷積組堆疊構(gòu)成深層編碼-解碼結(jié)構(gòu),并且使用步長(zhǎng)為1的卷積核使得輸出特征圖尺寸較大;Deep-LabV3+[5]模型中使用深度可分離卷積減少了計(jì)算量;本文方法采用步長(zhǎng)為2的卷積核進(jìn)行下采樣使得輸出特征圖尺寸大大減小,因此具有最低的FLOPs;然而,本文方法使用跳線連接保持編碼器細(xì)節(jié)信息的同時(shí)使得解碼器部分的卷積通道數(shù)倍增,因此具有較高的參數(shù)量,如何進(jìn)一步優(yōu)化模型的空間復(fù)雜度,減少模型參數(shù)量是下一步需要探索的方向。
本文針對(duì)ISAR圖像語義分割問題,提出了一種基于Pix2pixGAN的ISAR圖像語義分割方法,該方法采用對(duì)抗學(xué)習(xí)思想學(xué)習(xí)ISAR圖像分布到其語義分割圖像分布的映射關(guān)系,同時(shí)通過構(gòu)建分割圖像的局部信息和全局信息來保證語義分割的精度。實(shí)驗(yàn)結(jié)果證明,本文方法能夠?qū)SAR圖像取得較好的語義分割結(jié)果,且在語義標(biāo)注不夠精準(zhǔn)的情況下模型更穩(wěn)健。然而,本文方法的網(wǎng)絡(luò)存在較高時(shí)間復(fù)雜度的問題,如何進(jìn)一步優(yōu)化模型的時(shí)間復(fù)雜度是下一步需要探索的方向。