竇育民,徐廣偉,黃晶晶,蔡凡凡
(1.新鄉(xiāng)醫(yī)學(xué)院 管理學(xué)院,河南 新鄉(xiāng) 453000;2.中國電子科技集團(tuán)公司第三十研究所,四川 成都 610041)
隨著多媒體和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,越來越多的信息以圖像的形式呈現(xiàn)并廣泛應(yīng)用于醫(yī)學(xué)、通信、工農(nóng)業(yè)生產(chǎn)、航天、教育、軍事等多個(gè)領(lǐng)域。在智能空間視域下有效地組織、查詢與瀏覽大規(guī)模的圖像資源已成為迫切需要解決的問題。智能空間可看作是物理世界和信息空間的融合,目的是建立一個(gè)以人為中心的計(jì)算和通信能力的空間, 讓計(jì)算機(jī)參與從未涉及的計(jì)算行為活動(dòng), 讓用戶能與計(jì)算機(jī)系統(tǒng)發(fā)生交互,隨時(shí)隨地獲得人性化服務(wù)[1-3]。
圖像語義標(biāo)注是基于內(nèi)容圖像檢索技術(shù)的關(guān)鍵環(huán)節(jié)[4],是一個(gè)將現(xiàn)代計(jì)算機(jī)和機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于傳統(tǒng)人文研究的新型跨學(xué)科研究領(lǐng)域,基于圖像的機(jī)器學(xué)習(xí)方法為傳統(tǒng)人文社科研究提供新的研究思路[4-7]。其中大數(shù)據(jù)的科學(xué)發(fā)展對(duì)人文科學(xué)研究有積極的推動(dòng)作用,現(xiàn)有統(tǒng)計(jì)模式識(shí)別方法可以發(fā)現(xiàn)海量數(shù)據(jù)中的潛在信息,在總結(jié)模式規(guī)律方面有出色表現(xiàn)。因此,近年來數(shù)字人文研究逐漸成為信息科學(xué)、人文社會(huì)科學(xué)、人工智能等眾多學(xué)科的研究熱點(diǎn)。
語義分割是當(dāng)今計(jì)算機(jī)視覺領(lǐng)域的關(guān)鍵問題之一。宏觀上,語義分割是一項(xiàng)高層次的任務(wù),為實(shí)現(xiàn)場景的完整理解鋪平道路。場景理解是一個(gè)核心的計(jì)算機(jī)視覺問題,其中包括自動(dòng)駕駛、機(jī)器人的自動(dòng)感知、智能監(jiān)控、人機(jī)交互、增強(qiáng)現(xiàn)實(shí)等。近年來,隨著深度學(xué)習(xí)的普及,許多語義分割問題采用深層次的結(jié)構(gòu)解決,最常見的是卷積神經(jīng)網(wǎng)絡(luò),在精度上遠(yuǎn)超其他方法。
語義分割是一項(xiàng)視覺場景理解任務(wù),即一個(gè)密集的標(biāo)記問題,目的是預(yù)測輸入圖像中每個(gè)像素所屬的類別標(biāo)簽。卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法是現(xiàn)今最流行的方法,在2009年和2013年,Grangier[9]等人與Farabet[10]等人分別利用CNN完成了這項(xiàng)任務(wù)。遵循不同的CNN卷積網(wǎng)絡(luò)架構(gòu),其共同特點(diǎn)是把圖像分割任務(wù)轉(zhuǎn)化為像素標(biāo)簽變量的分類任務(wù)。
場景理解問題的關(guān)鍵是對(duì)圖像進(jìn)行自動(dòng)語義標(biāo)注。語義標(biāo)注的實(shí)質(zhì)是通過對(duì)圖像視覺特征的分析提取高層語義用于表示圖像的含義,從而在圖像低層特征和高層語義之間建立聯(lián)系,解決低層特征和高層語義間的“鴻溝”問題。其主要思想是從大量圖像樣本中自動(dòng)學(xué)習(xí)語義概念模型,并以此標(biāo)注新的圖像。
生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)是一種生成式模型,模型學(xué)習(xí)的是聯(lián)合概率分布P(X,Y) ,學(xué)習(xí)任務(wù)是得到屬性為X且類別為Y時(shí)的聯(lián)合概率。根據(jù)零和博弈原理,一方的收益必然意味著另一方的損失,博弈各方的收益和損失相加總和永遠(yuǎn)為“零”,雙方不存在合作的可能。在零和博弈中,把目標(biāo)設(shè)為讓對(duì)方的最大收益最小化,以使己方達(dá)到最優(yōu)解。
利用一個(gè)基于生成對(duì)抗網(wǎng)絡(luò)的條件生成式模型[11-13],在原模型基礎(chǔ)上,輸入額外的數(shù)據(jù)作為條件,修改生成器和判別器。在圖像分割數(shù)據(jù)集上,以分割掩模圖類別標(biāo)簽為條件,用來場景區(qū)域的多類別學(xué)習(xí),在輸入圖像相應(yīng)區(qū)域生成圖像場景理解的描述標(biāo)簽。
Ez~pz(z)[log(1-D(G(z|y)))]
(1)
其中,D:判別器;G:生成器;z:隨機(jī)噪聲;data:訓(xùn)練數(shù)據(jù);y:條件輸入。
條件GAN[12-13]在GAN的基礎(chǔ)上增加條件進(jìn)行的對(duì)抗模型。條件GAN的模型結(jié)構(gòu)包括兩個(gè)神經(jīng)網(wǎng)絡(luò),分別是生成器Generator和判別器Discriminator,Discriminator通過對(duì)Generator的評(píng)判提升模型的鑒別能力,Generator通過對(duì)Discriminator的欺騙提升模型的生成能力。其中生成器的目標(biāo)是學(xué)習(xí)樣本的數(shù)據(jù)分布,從而具備生成欺騙判別器樣本的能力;判別器的目標(biāo)是判斷輸入樣本真?zhèn)蔚母怕?。這里使用生成器和判別器都由多層感知機(jī)實(shí)現(xiàn),整個(gè)網(wǎng)絡(luò)可以用交替優(yōu)化生成器和判別器的方式優(yōu)化目標(biāo)函數(shù),通過反向傳播算法獲得目標(biāo)函數(shù)更新梯度。
在生成器和判別器中分別輸入相同條件y,CGAN的網(wǎng)絡(luò)相對(duì)于原始GAN網(wǎng)絡(luò)沒有變化。隨機(jī)變量通過輸入生成器網(wǎng)絡(luò)產(chǎn)生分布,利用判別器與真實(shí)分布進(jìn)行不斷比較,最終得到與真實(shí)分布相似的分布[11-13]。
1.2.1 生成器網(wǎng)絡(luò)
U-net 網(wǎng)絡(luò)結(jié)構(gòu)最早由 Ronneberger[10]等發(fā)表于2015年的MICCAI,逐漸成為大多數(shù)醫(yī)療影像語義分割的研究基礎(chǔ)。U-net網(wǎng)絡(luò)使用全卷積網(wǎng)絡(luò),是一個(gè)端到端的分割網(wǎng)絡(luò),包括收縮路徑和擴(kuò)張路徑兩部分,并且為了防止梯度消失和梯度爆炸引入了跳躍連接的方法(見圖1)。卷積過程中為了減少輸出的離群點(diǎn),卷積后還加入了BatchNormal,并激活ReLU。整個(gè)過程通過圖像特征編碼和解碼完成像素級(jí)圖像分割任務(wù)。
圖1 Unet網(wǎng)絡(luò)
在模型收縮路徑的編碼模塊中,使用可分離卷積和點(diǎn)卷積結(jié)構(gòu)替換兩層卷積層[11],由于該結(jié)構(gòu)采用的雙分支結(jié)構(gòu),融合了不同深度的特征信息,因此提取特征比簡單地疊加卷積層更有效。在下采樣階段采用步長為2的卷積層代替池化層,減少了下采樣過程中信息的損失。在模型對(duì)編碼后的特征圖擴(kuò)張路徑進(jìn)行的解碼模塊中,上采樣操作使用反卷積,結(jié)合跳躍連接的特征圖可有效減少上采樣過程中的信息損失。
生成器是U型網(wǎng)絡(luò),擴(kuò)張路徑通過跳躍連接串聯(lián)對(duì)應(yīng)層進(jìn)行,通過隨機(jī)噪聲作為輸入訓(xùn)練成生成器模型。
1.2.2 判別器網(wǎng)絡(luò)
判別器使用深度神經(jīng)網(wǎng)絡(luò),可根據(jù)需要設(shè)計(jì)網(wǎng)絡(luò)深度,這里設(shè)置為5次卷積(見圖2)。第1層輸入圖像為自然圖像和掩膜圖像,分別為3通道,疊加送入網(wǎng)絡(luò);前4次卷積每一層步長stride設(shè)置為 2,padding 為1,第5次卷積前再在特征圖左面和上面分別增加一行和一列,再進(jìn)行一次卷積。除了第1層沒進(jìn)行規(guī)范化外,后面每層對(duì)特征數(shù)據(jù)進(jìn)行了規(guī)范化操作(見表1),實(shí)例規(guī)范化函數(shù)處理過后,再用LeakyRelu激活函數(shù)[12-13]。
表1 判別器網(wǎng)絡(luò)模型參數(shù)
圖2 判別器網(wǎng)絡(luò)
由于條件GAN捕獲的是圖像的結(jié)構(gòu)信息,在目標(biāo)函數(shù)后增加正則項(xiàng)L1函數(shù)捕獲圖像的低頻信息進(jìn)行補(bǔ)充。
L1(G)=Ex,y,z[‖y-G(x,z)‖1]
(2)
前4次卷積每一層步長stride設(shè)置為 2,padding 為1,第5次卷積前再在特征圖左面和上面分別增加1行和1列,然后再進(jìn)行1次卷積。
本實(shí)驗(yàn)平臺(tái)為windows10+pytorch3.5,CPU:Intel?(R)i7-6700HQ@2.60 GHz;內(nèi)存大 小: 16 GB;GPU:NVIDIA GeForce GTX960M;顯存大小:4 GB。本實(shí)驗(yàn)對(duì)圖像語義分割公共數(shù)據(jù)集ICCV2009[16]進(jìn)行實(shí)驗(yàn)驗(yàn)證,包括715張自然圖像,分別取自LabelMe,MSRC,PASCALVOC,and Geometric Context,與自然圖像匹配的標(biāo)簽文本文件在對(duì)應(yīng)區(qū)域的劃分種類標(biāo)簽。通過圖像像素矩陣形式表示語義類,包括天空、樹、公路、水、建筑、山,前景目標(biāo)用自然數(shù)分別表示,如人、動(dòng)物、汽車等,負(fù)數(shù)表示未知。
本實(shí)驗(yàn)使用其中的*.regions.txt類文件,文件內(nèi)數(shù)字表示圖像中語義類每個(gè)像素的矩陣分割掩膜圖。模型整體訓(xùn)練模型分為判別器和生成器,訓(xùn)練學(xué)習(xí)中,這里把*.regions.txt轉(zhuǎn)換為.img進(jìn)行。
數(shù)據(jù)準(zhǔn)備:因?yàn)閿?shù)據(jù)集的標(biāo)簽掩膜文件以.txt形式存在,利用以下算法把將其轉(zhuǎn)換為圖像文件。
轉(zhuǎn)換算法如下:
im = Image.new("RGB",(x,y)) # 新建圖像文件緩沖區(qū)
file = open(files[k])# 打開標(biāo)簽文本文件
for i in range(0,x):
讀取文件第i行像素?cái)?shù)字元素
for j in range(0,y):
根據(jù)第j列像素值,賦予對(duì)應(yīng)的顏色
寫入文件緩沖區(qū),保存生成一張標(biāo)簽掩膜圖像文件。
為了增強(qiáng)模型的泛化性能,減少模型訓(xùn)練學(xué)習(xí)中的過擬合問題,同時(shí)提升訓(xùn)練數(shù)據(jù)的數(shù)據(jù)量和多樣性,采用常規(guī)方法對(duì)輸入模型的批量訓(xùn)練數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)。其中有隨機(jī)裁剪圖像,同時(shí)以圖像x軸和y軸的 0.2倍大小、0.7和0.3比率進(jìn)行隨機(jī)平移、縮放圖像。因需輸入圖像使用相同的數(shù)據(jù)增強(qiáng)方式,所以對(duì)標(biāo)簽也需做相同的數(shù)據(jù)增強(qiáng)。
參數(shù)設(shè)置:訓(xùn)練使用256×256的自然場景圖像和標(biāo)簽掩膜圖,設(shè)置120個(gè) epochs,平滑系數(shù)lr為0.000 2。在訓(xùn)練開始時(shí),G性能較差,D(G(z))接近0,此時(shí):log(1-D(G(z)))的梯度值較小,log(D(G(z)))的梯度值較大,把G的目標(biāo)改為最大化logD(G(z)),在早期學(xué)習(xí)中能提供更強(qiáng)的梯度。
如圖3所示,第1和第4行為自然場景圖像,第2和5行為GAN方法預(yù)測的語義分割圖,不同顏色代表不同的對(duì)象類,第3和第6行為樣本給出的真值掩膜圖??煽闯?,預(yù)測圖基本能給出圖像場景的區(qū)域位置和語義類別,可應(yīng)用在一些有類似樣本圖像的語義標(biāo)注中。
圖3 第1,4行實(shí)景,第2,5行語義分割預(yù)測,第3,6行掩膜
現(xiàn)代的影像應(yīng)用需自動(dòng)推理相關(guān)知識(shí)或語義。語義分割作為人工智能感知系統(tǒng)的核心問題,對(duì)場景理解的重要性日漸突出。自然場景手工標(biāo)注相當(dāng)費(fèi)時(shí),商業(yè)成本高。因此,利用CGAN方法進(jìn)行自動(dòng)化的語義分割具有廣闊的應(yīng)用前景。