面向圖像語義分割的生成對(duì)抗網(wǎng)絡(luò)模型

2022-08-24 11:18竇育民徐廣偉黃晶晶蔡凡凡

無線互聯(lián)科技 2022年12期

竇育民，徐廣偉，黃晶晶，蔡凡凡

(1.新鄉(xiāng)醫(yī)學(xué)院管理學(xué)院，河南新鄉(xiāng) 453000；2.中國電子科技集團(tuán)公司第三十研究所，四川成都 610041)

0 引言

隨著多媒體和網(wǎng)絡(luò)技術(shù)的快速發(fā)展，越來越多的信息以圖像的形式呈現(xiàn)并廣泛應(yīng)用于醫(yī)學(xué)、通信、工農(nóng)業(yè)生產(chǎn)、航天、教育、軍事等多個(gè)領(lǐng)域。在智能空間視域下有效地組織、查詢與瀏覽大規(guī)模的圖像資源已成為迫切需要解決的問題。智能空間可看作是物理世界和信息空間的融合，目的是建立一個(gè)以人為中心的計(jì)算和通信能力的空間, 讓計(jì)算機(jī)參與從未涉及的計(jì)算行為活動(dòng), 讓用戶能與計(jì)算機(jī)系統(tǒng)發(fā)生交互,隨時(shí)隨地獲得人性化服務(wù)[1-3]。

圖像語義標(biāo)注是基于內(nèi)容圖像檢索技術(shù)的關(guān)鍵環(huán)節(jié)[4]，是一個(gè)將現(xiàn)代計(jì)算機(jī)和機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于傳統(tǒng)人文研究的新型跨學(xué)科研究領(lǐng)域，基于圖像的機(jī)器學(xué)習(xí)方法為傳統(tǒng)人文社科研究提供新的研究思路[4-7]。其中大數(shù)據(jù)的科學(xué)發(fā)展對(duì)人文科學(xué)研究有積極的推動(dòng)作用，現(xiàn)有統(tǒng)計(jì)模式識(shí)別方法可以發(fā)現(xiàn)海量數(shù)據(jù)中的潛在信息，在總結(jié)模式規(guī)律方面有出色表現(xiàn)。因此，近年來數(shù)字人文研究逐漸成為信息科學(xué)、人文社會(huì)科學(xué)、人工智能等眾多學(xué)科的研究熱點(diǎn)。

語義分割是當(dāng)今計(jì)算機(jī)視覺領(lǐng)域的關(guān)鍵問題之一。宏觀上，語義分割是一項(xiàng)高層次的任務(wù)，為實(shí)現(xiàn)場景的完整理解鋪平道路。場景理解是一個(gè)核心的計(jì)算機(jī)視覺問題，其中包括自動(dòng)駕駛、機(jī)器人的自動(dòng)感知、智能監(jiān)控、人機(jī)交互、增強(qiáng)現(xiàn)實(shí)等。近年來，隨著深度學(xué)習(xí)的普及，許多語義分割問題采用深層次的結(jié)構(gòu)解決，最常見的是卷積神經(jīng)網(wǎng)絡(luò)，在精度上遠(yuǎn)超其他方法。

語義分割是一項(xiàng)視覺場景理解任務(wù)，即一個(gè)密集的標(biāo)記問題，目的是預(yù)測輸入圖像中每個(gè)像素所屬的類別標(biāo)簽。卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法是現(xiàn)今最流行的方法，在2009年和2013年，Grangier[9]等人與Farabet[10]等人分別利用CNN完成了這項(xiàng)任務(wù)。遵循不同的CNN卷積網(wǎng)絡(luò)架構(gòu)，其共同特點(diǎn)是把圖像分割任務(wù)轉(zhuǎn)化為像素標(biāo)簽變量的分類任務(wù)。

場景理解問題的關(guān)鍵是對(duì)圖像進(jìn)行自動(dòng)語義標(biāo)注。語義標(biāo)注的實(shí)質(zhì)是通過對(duì)圖像視覺特征的分析提取高層語義用于表示圖像的含義，從而在圖像低層特征和高層語義之間建立聯(lián)系，解決低層特征和高層語義間的“鴻溝”問題。其主要思想是從大量圖像樣本中自動(dòng)學(xué)習(xí)語義概念模型，并以此標(biāo)注新的圖像。

1 GAN的基礎(chǔ)架構(gòu)的闡述

生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks，GAN)是一種生成式模型，模型學(xué)習(xí)的是聯(lián)合概率分布P(X,Y) ，學(xué)習(xí)任務(wù)是得到屬性為X且類別為Y時(shí)的聯(lián)合概率。根據(jù)零和博弈原理，一方的收益必然意味著另一方的損失，博弈各方的收益和損失相加總和永遠(yuǎn)為“零”，雙方不存在合作的可能。在零和博弈中，把目標(biāo)設(shè)為讓對(duì)方的最大收益最小化，以使己方達(dá)到最優(yōu)解。

1.1 GAN的條件形式的分割框架

利用一個(gè)基于生成對(duì)抗網(wǎng)絡(luò)的條件生成式模型[11-13]，在原模型基礎(chǔ)上，輸入額外的數(shù)據(jù)作為條件，修改生成器和判別器。在圖像分割數(shù)據(jù)集上，以分割掩模圖類別標(biāo)簽為條件，用來場景區(qū)域的多類別學(xué)習(xí)，在輸入圖像相應(yīng)區(qū)域生成圖像場景理解的描述標(biāo)簽。

Ez～pz(z)[log(1-D(G(z|y)))]

(1)

其中，D：判別器；G：生成器；z：隨機(jī)噪聲；data：訓(xùn)練數(shù)據(jù)；y：條件輸入。

條件GAN[12-13]在GAN的基礎(chǔ)上增加條件進(jìn)行的對(duì)抗模型。條件GAN的模型結(jié)構(gòu)包括兩個(gè)神經(jīng)網(wǎng)絡(luò)，分別是生成器Generator和判別器Discriminator，Discriminator通過對(duì)Generator的評(píng)判提升模型的鑒別能力，Generator通過對(duì)Discriminator的欺騙提升模型的生成能力。其中生成器的目標(biāo)是學(xué)習(xí)樣本的數(shù)據(jù)分布，從而具備生成欺騙判別器樣本的能力；判別器的目標(biāo)是判斷輸入樣本真?zhèn)蔚母怕?。這里使用生成器和判別器都由多層感知機(jī)實(shí)現(xiàn)，整個(gè)網(wǎng)絡(luò)可以用交替優(yōu)化生成器和判別器的方式優(yōu)化目標(biāo)函數(shù)，通過反向傳播算法獲得目標(biāo)函數(shù)更新梯度。

1.2 模型總覽

在生成器和判別器中分別輸入相同條件y，CGAN的網(wǎng)絡(luò)相對(duì)于原始GAN網(wǎng)絡(luò)沒有變化。隨機(jī)變量通過輸入生成器網(wǎng)絡(luò)產(chǎn)生分布，利用判別器與真實(shí)分布進(jìn)行不斷比較，最終得到與真實(shí)分布相似的分布[11-13]。

1.2.1 生成器網(wǎng)絡(luò)

U-net 網(wǎng)絡(luò)結(jié)構(gòu)最早由 Ronneberger[10]等發(fā)表于2015年的MICCAI，逐漸成為大多數(shù)醫(yī)療影像語義分割的研究基礎(chǔ)。U-net網(wǎng)絡(luò)使用全卷積網(wǎng)絡(luò)，是一個(gè)端到端的分割網(wǎng)絡(luò)，包括收縮路徑和擴(kuò)張路徑兩部分，并且為了防止梯度消失和梯度爆炸引入了跳躍連接的方法(見圖1)。卷積過程中為了減少輸出的離群點(diǎn)，卷積后還加入了BatchNormal，并激活ReLU。整個(gè)過程通過圖像特征編碼和解碼完成像素級(jí)圖像分割任務(wù)。

圖1 Unet網(wǎng)絡(luò)

在模型收縮路徑的編碼模塊中，使用可分離卷積和點(diǎn)卷積結(jié)構(gòu)替換兩層卷積層[11]，由于該結(jié)構(gòu)采用的雙分支結(jié)構(gòu)，融合了不同深度的特征信息，因此提取特征比簡單地疊加卷積層更有效。在下采樣階段采用步長為2的卷積層代替池化層，減少了下采樣過程中信息的損失。在模型對(duì)編碼后的特征圖擴(kuò)張路徑進(jìn)行的解碼模塊中，上采樣操作使用反卷積，結(jié)合跳躍連接的特征圖可有效減少上采樣過程中的信息損失。

生成器是U型網(wǎng)絡(luò)，擴(kuò)張路徑通過跳躍連接串聯(lián)對(duì)應(yīng)層進(jìn)行，通過隨機(jī)噪聲作為輸入訓(xùn)練成生成器模型。

1.2.2 判別器網(wǎng)絡(luò)

判別器使用深度神經(jīng)網(wǎng)絡(luò)，可根據(jù)需要設(shè)計(jì)網(wǎng)絡(luò)深度，這里設(shè)置為5次卷積(見圖2)。第1層輸入圖像為自然圖像和掩膜圖像，分別為3通道，疊加送入網(wǎng)絡(luò)；前4次卷積每一層步長stride設(shè)置為 2，padding 為1，第5次卷積前再在特征圖左面和上面分別增加一行和一列，再進(jìn)行一次卷積。除了第1層沒進(jìn)行規(guī)范化外，后面每層對(duì)特征數(shù)據(jù)進(jìn)行了規(guī)范化操作(見表1)，實(shí)例規(guī)范化函數(shù)處理過后，再用LeakyRelu激活函數(shù)[12-13]。

表1 判別器網(wǎng)絡(luò)模型參數(shù)

圖2 判別器網(wǎng)絡(luò)

由于條件GAN捕獲的是圖像的結(jié)構(gòu)信息，在目標(biāo)函數(shù)后增加正則項(xiàng)L1函數(shù)捕獲圖像的低頻信息進(jìn)行補(bǔ)充。

L1(G)=Ex,y,z[‖y-G(x,z)‖1]

(2)

前4次卷積每一層步長stride設(shè)置為 2，padding 為1，第5次卷積前再在特征圖左面和上面分別增加1行和1列，然后再進(jìn)行1次卷積。

2 實(shí)驗(yàn)設(shè)計(jì)與分析

本實(shí)驗(yàn)平臺(tái)為windows10+pytorch3.5，CPU：Intel?(R)i7-6700HQ@2.60 GHz；內(nèi)存大小: 16 GB；GPU：NVIDIA GeForce GTX960M；顯存大小：4 GB。本實(shí)驗(yàn)對(duì)圖像語義分割公共數(shù)據(jù)集ICCV2009[16]進(jìn)行實(shí)驗(yàn)驗(yàn)證，包括715張自然圖像，分別取自LabelMe，MSRC，PASCALVOC，and Geometric Context，與自然圖像匹配的標(biāo)簽文本文件在對(duì)應(yīng)區(qū)域的劃分種類標(biāo)簽。通過圖像像素矩陣形式表示語義類，包括天空、樹、公路、水、建筑、山，前景目標(biāo)用自然數(shù)分別表示，如人、動(dòng)物、汽車等，負(fù)數(shù)表示未知。

本實(shí)驗(yàn)使用其中的*.regions.txt類文件，文件內(nèi)數(shù)字表示圖像中語義類每個(gè)像素的矩陣分割掩膜圖。模型整體訓(xùn)練模型分為判別器和生成器，訓(xùn)練學(xué)習(xí)中，這里把*.regions.txt轉(zhuǎn)換為.img進(jìn)行。

數(shù)據(jù)準(zhǔn)備：因?yàn)閿?shù)據(jù)集的標(biāo)簽掩膜文件以.txt形式存在，利用以下算法把將其轉(zhuǎn)換為圖像文件。

轉(zhuǎn)換算法如下：

im = Image.new("RGB"，(x，y)) # 新建圖像文件緩沖區(qū)

file = open(files[k])# 打開標(biāo)簽文本文件

for i in range(0，x):

讀取文件第i行像素?cái)?shù)字元素

for j in range(0，y):

根據(jù)第j列像素值，賦予對(duì)應(yīng)的顏色

寫入文件緩沖區(qū)，保存生成一張標(biāo)簽掩膜圖像文件。

為了增強(qiáng)模型的泛化性能，減少模型訓(xùn)練學(xué)習(xí)中的過擬合問題，同時(shí)提升訓(xùn)練數(shù)據(jù)的數(shù)據(jù)量和多樣性，采用常規(guī)方法對(duì)輸入模型的批量訓(xùn)練數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)。其中有隨機(jī)裁剪圖像，同時(shí)以圖像x軸和y軸的 0.2倍大小、0.7和0.3比率進(jìn)行隨機(jī)平移、縮放圖像。因需輸入圖像使用相同的數(shù)據(jù)增強(qiáng)方式，所以對(duì)標(biāo)簽也需做相同的數(shù)據(jù)增強(qiáng)。

參數(shù)設(shè)置：訓(xùn)練使用256×256的自然場景圖像和標(biāo)簽掩膜圖，設(shè)置120個(gè) epochs，平滑系數(shù)lr為0.000 2。在訓(xùn)練開始時(shí)，G性能較差，D(G(z))接近0，此時(shí)：log(1-D(G(z)))的梯度值較小，log(D(G(z)))的梯度值較大，把G的目標(biāo)改為最大化logD(G(z))，在早期學(xué)習(xí)中能提供更強(qiáng)的梯度。

如圖3所示，第1和第4行為自然場景圖像，第2和5行為GAN方法預(yù)測的語義分割圖，不同顏色代表不同的對(duì)象類，第3和第6行為樣本給出的真值掩膜圖?？煽闯?，預(yù)測圖基本能給出圖像場景的區(qū)域位置和語義類別，可應(yīng)用在一些有類似樣本圖像的語義標(biāo)注中。

圖3 第1，4行實(shí)景，第2，5行語義分割預(yù)測，第3，6行掩膜

3 結(jié)語

現(xiàn)代的影像應(yīng)用需自動(dòng)推理相關(guān)知識(shí)或語義。語義分割作為人工智能感知系統(tǒng)的核心問題，對(duì)場景理解的重要性日漸突出。自然場景手工標(biāo)注相當(dāng)費(fèi)時(shí)，商業(yè)成本高。因此，利用CGAN方法進(jìn)行自動(dòng)化的語義分割具有廣闊的應(yīng)用前景。