楊 雨, 趙熙俊, 王一全, 李兆冬
(中國(guó)北方車輛研究所,北京 100072)
近年來(lái),深度學(xué)習(xí)技術(shù)由于其強(qiáng)大的自動(dòng)學(xué)習(xí)能力和高效的特征表達(dá)能力受到廣泛關(guān)注,且已經(jīng)在圖像分類、目標(biāo)檢測(cè)等任務(wù)中取得了重大成果[1].深度學(xué)習(xí)模型需要大量的訓(xùn)練數(shù)據(jù),但在軍用領(lǐng)域,目前公開的數(shù)據(jù)集較少[2],且在數(shù)據(jù)收集過(guò)程中存在一定困難或采集此類數(shù)據(jù)有一定的風(fēng)險(xiǎn):
1)針對(duì)某些特定場(chǎng)景和天氣,可能無(wú)法獲取大量數(shù)據(jù),如高原、沙漠等人跡罕至的地區(qū)以及雨雪等惡劣天氣;
2)實(shí)地拍攝數(shù)據(jù)集一般周期較長(zhǎng),這對(duì)科研人員來(lái)說(shuō)是非常耗時(shí)耗力的;
3)小規(guī)模的圖像數(shù)據(jù)集無(wú)法滿足深度學(xué)習(xí)算法數(shù)據(jù)量的需求.從數(shù)據(jù)收集的目的來(lái)看,采集的圖像一般用于基于深度學(xué)習(xí)的目標(biāo)檢測(cè)和定位分析,而深度學(xué)習(xí)算法需要極大的數(shù)據(jù)量.目前公開的軍用圖像數(shù)據(jù)集較少,其數(shù)量難以支撐神經(jīng)網(wǎng)絡(luò)算法的訓(xùn)練.
仿真圖像是重要的圖像數(shù)據(jù)補(bǔ)充手段[3-4].仿真圖像是根據(jù)實(shí)際場(chǎng)景圖像,在真實(shí)圖像基礎(chǔ)上進(jìn)行場(chǎng)景結(jié)構(gòu)設(shè)計(jì).通過(guò)建立不同的背景模型和大氣效應(yīng)模型,仿真出不同地形、地物、天氣的圖像.真實(shí)圖像在人跡罕至的地區(qū)和惡劣天氣下難以獲得,可以通過(guò)仿真的手段解決.目前較著名的仿真系統(tǒng)有SE-WORKBENCH-IR仿真系統(tǒng)[5]、Vega Prime仿真系統(tǒng)[6]和OGRE仿真系統(tǒng)[7-8].盡管研究人員提出許多新的圖像仿真方法,但是現(xiàn)有的圖像仿真方法與真實(shí)圖像仍然存在許多差距,如背景紋理特征差距較大,無(wú)法仿真出與真實(shí)圖像具有相同細(xì)節(jié)的圖像.
Pix2Pix算法[9]由伯克利AI實(shí)驗(yàn)室的Phillip Isola提出,是一種典型的基于生成對(duì)抗網(wǎng)絡(luò)(GAN,Generative Adversarial Networks)的圖像遷移算法,能夠完成從一種風(fēng)格的圖像到另一種風(fēng)格圖像的轉(zhuǎn)換.該算法可以根據(jù)現(xiàn)有圖像生成類似風(fēng)格的圖像,例如將白天圖像轉(zhuǎn)換為黑夜圖像,將灰度圖轉(zhuǎn)換為彩色圖,將街景分割圖像轉(zhuǎn)換為街景圖像.該算法具有兩個(gè)方向,以灰度圖和彩色圖像的轉(zhuǎn)換為例,若用A表示灰度圖像,B表示彩色圖像,該算法既可以完成A至B的轉(zhuǎn)換,也能夠完成B至A的轉(zhuǎn)換.
受該算法的啟發(fā),本研究采用Pix2Pix算法實(shí)現(xiàn)虛擬圖像生成,通過(guò)訓(xùn)練好的網(wǎng)絡(luò)模型輸出大量虛擬圖像,并使用真實(shí)圖像訓(xùn)練的目標(biāo)檢測(cè)模型對(duì)虛擬圖像進(jìn)行測(cè)試,完成虛擬圖像的可用性驗(yàn)證.結(jié)合設(shè)計(jì)實(shí)例試驗(yàn),證明生成的虛擬圖像可用于實(shí)際目標(biāo)的檢測(cè).
本研究采用基于Pix2Pix算法的圖像生成與目標(biāo)檢測(cè),主要包括基于Pix2Pix算法的虛擬圖像生成和虛擬圖像可用性驗(yàn)證兩個(gè)子模塊.
模塊一:基于Pix2Pix算法的虛擬圖像生成.首先,收集真實(shí)圖像數(shù)據(jù)集并進(jìn)行圖像標(biāo)注工作,然后采用Pix2Pix[9]算法基于真實(shí)標(biāo)注圖像交替訓(xùn)練生成器和鑒別器模型,訓(xùn)練完成后保存訓(xùn)練好的模型,最后利用生成器模型進(jìn)行測(cè)試,保存輸出的虛擬圖像.
模塊二:虛擬圖像可用性驗(yàn)證.為驗(yàn)證虛擬圖像的可用性,本研究分別從圖像的灰度特征、邊緣特征、目標(biāo)特征三方面設(shè)計(jì)實(shí)例試驗(yàn),從多個(gè)角度對(duì)比真實(shí)圖像和虛擬圖像的相似性.
基于Pix2Pix算法的虛擬圖像生成框架如圖1模塊一所示.本節(jié)目標(biāo)是通過(guò)Pix2Pix算法生成虛擬圖像.通過(guò)訓(xùn)練生成器和鑒別器,使其具備從分割圖像轉(zhuǎn)換為真實(shí)圖像的能力,從而利用訓(xùn)練好的生成器產(chǎn)生大量虛擬圖像,實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)的目標(biāo).
圖1 基于Pix2Pix算法的虛擬圖像生成和可用性驗(yàn)證關(guān)系框圖
1)訓(xùn)練階段
Pix2Pix算法是一種典型的生成對(duì)抗網(wǎng)絡(luò),包含生成器和鑒別器兩部分.生成器通過(guò)訓(xùn)練能夠?qū)W習(xí)到如何從分割圖映射到真實(shí)圖像.生成器的輸入和輸出均為256×256的圖像,生成器的結(jié)構(gòu)如圖2所示,它共包含8個(gè)卷積層和7個(gè)反卷積層,卷積層的維度分別為64、128、256、512、512、512、512、512.為更好的保留輸入圖像的信息,在卷積層和反卷積層之間添加了跳躍連接結(jié)構(gòu),所以反卷積層的維度分別為512、1024、1024、1024、1024、512、256、128.卷積層中濾波器的大小為4×4,步長(zhǎng)為2,每個(gè)卷積層的輸出特征圖均為該層輸入特征圖的一半大小.
圖2 生成器結(jié)構(gòu)
生成器的結(jié)構(gòu)類似于編碼器-解碼器結(jié)構(gòu),輸入的分割圖像經(jīng)過(guò)層層卷積后特征圖變小,之后通過(guò)7個(gè)反卷積層逐漸恢復(fù)至原始圖像的大小.本研究生成器的輸入為經(jīng)過(guò)標(biāo)注后的分割圖像,目標(biāo)輸出為真實(shí)圖像.經(jīng)過(guò)訓(xùn)練后,生成器能夠根據(jù)輸入的分割圖像輸出與真實(shí)圖像類似風(fēng)格的虛擬圖像,即假圖像.
鑒別器包含6個(gè)卷積層,維度分別為64、128、256、512、64、128.鑒別器的輸入為真實(shí)圖像和生成圖像,輸出為概率值.一個(gè)好的鑒別器應(yīng)當(dāng)具備判別真假圖像的能力.鑒別器將整幅圖像分為不同大小的塊,對(duì)這些塊進(jìn)行真假的判斷,最后所有塊的結(jié)果取平均值作為最后的判斷結(jié)果.此操作相比于對(duì)整張圖片進(jìn)行判斷,計(jì)算量更小,效率更高,速度更快,對(duì)真實(shí)圖像鑒別器的輸出為1,對(duì)生成圖像輸出為0.
圖3為訓(xùn)練階段.訓(xùn)練過(guò)程需要分別訓(xùn)練生成器和鑒別器,圖中的G代表生成器,D代表鑒別器.鑒別器通過(guò)訓(xùn)練在真實(shí)的圖像對(duì)和生成的圖像對(duì)之間進(jìn)行判斷,具有判別真假的能力,對(duì)真實(shí)圖像對(duì)判別為真,對(duì)生成圖像對(duì)判別為假.生成器試圖生成足夠接近真實(shí)圖像的假圖像,以混淆鑒別器,鑒別器通過(guò)訓(xùn)練,提高鑒別真假圖像對(duì)的能力,生成器和鑒別器交替訓(xùn)練.
圖3 基于Pix2Pix算法的訓(xùn)練
生成器和鑒別器的訓(xùn)練可以看作是二者博弈的過(guò)程,也就是二者對(duì)抗訓(xùn)練,最終訓(xùn)練使得二者達(dá)到一個(gè)平衡,即生成器產(chǎn)生的生成圖像足以迷惑鑒別器,鑒別器無(wú)法判別生成圖像是真是假,即鑒別器對(duì)真假圖像的輸出概率均為0.5.
一般的生成對(duì)抗網(wǎng)絡(luò)輸入為噪聲,通過(guò)訓(xùn)練,由噪聲生成與目標(biāo)圖像類似的圖像.Pix2Pix是一種條件生成對(duì)抗網(wǎng)絡(luò),它在噪聲的基礎(chǔ)上,輸入還加入了圖像.其目標(biāo)函數(shù)可表示為:
G*=argminmaxEx,s~Pdata(x,s)[logD(x,s)]+Ex~Pdata[log(1-D(x,G(x,z)))]+λLL1LL1(G)=Ex,s~Pdata(x,s),z~Pz(z)[||s-G(x,z)||1],
(1)
式中:x是輸入圖像;z是噪聲向量;s是目標(biāo)圖像;λ是正則化的權(quán)重.
2)圖像生成
圖像生成階段僅使用訓(xùn)練好的生成器產(chǎn)生虛擬圖像,不使用鑒別器.圖4為圖像生成過(guò)程示意圖.在訓(xùn)練過(guò)程之后,生成器模型已經(jīng)學(xué)習(xí)到如何從分割圖像生成逼真的圖像.此時(shí)將未經(jīng)訓(xùn)練的分割圖像輸入到訓(xùn)練好的生成器模型中,模型可以生成與之前訓(xùn)練網(wǎng)絡(luò)的目標(biāo)圖像類似風(fēng)格的圖像.
圖4 基于Pix2Pix算法的測(cè)試
3)算法流程
對(duì)圖像生成步驟進(jìn)行總結(jié),整體的算法的流程如圖5所示.
圖5 基于Pix2Pix算法的虛擬圖像生成算法流程
4)圖像生成結(jié)果
部分真實(shí)圖像和虛擬圖像的對(duì)比圖如圖6所示,其中圖6(a)為真實(shí)圖像,圖6(b)為虛擬圖像.
由圖6中真實(shí)圖像和虛擬圖像的對(duì)比可以看到:虛擬圖像和真實(shí)圖像非常相似,虛擬圖像和真實(shí)圖像具有相同的顏色、光線和紋理.從人眼主觀評(píng)價(jià)看,虛擬圖像無(wú)論是車輛、行人、集裝箱還是錐筒,均與真實(shí)圖像非常相似.
圖6 真實(shí)圖像和虛擬圖像示例
在獲取虛擬圖像之后,需要對(duì)虛擬圖像的可用性進(jìn)行驗(yàn)證.下面分別從灰度特征、邊緣特征、目標(biāo)特征完成對(duì)虛擬圖像的評(píng)價(jià),對(duì)比框架如圖7所示.
圖7 生成圖像與真實(shí)圖像相似度對(duì)比框圖
灰度直方圖特征能夠反映圖像灰度值的統(tǒng)計(jì)特性.分別計(jì)算虛擬圖像和真實(shí)圖像的灰度直方圖特征,示例圖如圖8所示.橫坐標(biāo)代表灰度級(jí),灰度值間距設(shè)置為1個(gè)像素值,即灰度級(jí)為256個(gè),灰度直方圖呈連續(xù)的特性.縱坐標(biāo)為每個(gè)灰度值占整幅圖像所有像素值的比例.
圖8 灰度直方圖特征對(duì)比
Gi=P[i],i=1,2,...,256,
(2)
式中:i表示灰度值;P[i]表示該灰度值出現(xiàn)的頻率,通過(guò)觀測(cè)灰度直方圖特征能夠了解圖像的亮度分布.
通過(guò)灰度直方圖特征的對(duì)比,可以看到真實(shí)圖像和虛擬圖像的灰度直方圖特征是比較相近的,兩者的曲線趨勢(shì)一致,灰度值的分布也比較相似.
邊緣方向直方圖特征能夠反映圖像的輪廓信息.分別計(jì)算虛擬圖像和真實(shí)圖像的邊緣方向直方圖特征,如圖9所示.在提取邊緣方向直方圖的過(guò)程中,首先需要對(duì)圖像進(jìn)行邊緣檢測(cè),本研究使用Canny算子進(jìn)行邊緣檢測(cè);之后計(jì)算邊緣的方向并進(jìn)行統(tǒng)計(jì),將[-180°,180°]分為32組,每10°為一組.橫坐標(biāo)為邊緣的方向,縱坐標(biāo)為該方向值占圖像中所有方向值的比例.
圖9 邊緣直方圖特征對(duì)比
Ei=P[O(p)=i],i=1,2,...,32,
(3)
式中:i表示邊緣點(diǎn)的梯度方向,p表示邊緣點(diǎn),O(p)表示邊緣點(diǎn)p的梯度方向,P表示梯度方向i出現(xiàn)的概率.
從虛擬圖像和真實(shí)圖像的邊緣方向直方圖特征對(duì)比來(lái)看,兩者的邊緣值分布和邊緣峰值是一致的,因此虛擬圖像和真實(shí)圖像的邊緣輪廓信息非常接近.
設(shè)計(jì)試驗(yàn)對(duì)虛擬圖像和真實(shí)圖像的目標(biāo)特征進(jìn)行比較.利用真實(shí)圖像訓(xùn)練YOLOv3[10]目標(biāo)檢測(cè)算法,訓(xùn)練完成后保存模型,并在虛擬圖像上進(jìn)行測(cè)試,試驗(yàn)框架如圖10所示.
圖10 虛擬圖像與真實(shí)圖像目標(biāo)特征對(duì)比
試驗(yàn)系統(tǒng)為ubuntu16.04,試驗(yàn)環(huán)境為Tensorflow1.4,顯卡為NVIDIA GTX1080Ti.訓(xùn)練后保存目標(biāo)檢測(cè)模型.識(shí)別目標(biāo)為車輛、行人、垃圾桶、集裝箱和錐筒5類.利用訓(xùn)練好的模型在虛擬圖像上進(jìn)行測(cè)試,測(cè)試結(jié)果如圖11所示.
圖11 虛擬圖像目標(biāo)測(cè)試結(jié)果
試驗(yàn)結(jié)果表明,使用真實(shí)圖像訓(xùn)練的目標(biāo)檢測(cè)模型能夠在虛擬圖像中檢測(cè)到車輛、行人、垃圾桶、集裝箱、錐筒5類目標(biāo),在一定程度上證明虛擬圖像和真實(shí)圖像具有相似的目標(biāo)特征和背景特征,所提圖像生成方法能夠作為一種數(shù)據(jù)增強(qiáng)方法輔助深度學(xué)習(xí)模型進(jìn)行訓(xùn)練.
本研究主要關(guān)注基于Pix2Pix算法的數(shù)據(jù)增強(qiáng)問題.首先,采用一種基于Pix2Pix算法的圖像生成方法,利用收集的少量真實(shí)圖像訓(xùn)練Pix2Pix模型,并輸出虛擬圖像;然后,通過(guò)灰度特征、邊緣特征對(duì)比虛擬圖像和真實(shí)圖像的相似度.結(jié)果表明虛擬圖像和真實(shí)圖像具有相似的灰度特征和邊緣特征.最后,設(shè)計(jì)試驗(yàn)驗(yàn)證虛擬圖像和真實(shí)圖像的目標(biāo)特征,利用真實(shí)圖像訓(xùn)練YOLOv3目標(biāo)檢測(cè)模型,在虛擬圖像上進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明使用真實(shí)圖像訓(xùn)練的目標(biāo)檢測(cè)模型能夠在虛擬圖像中檢測(cè)到車輛、行人、垃圾桶、集裝箱、錐筒5類目標(biāo),虛擬圖像與真實(shí)圖像具有相似的目標(biāo)特征和背景特征.
目前的研究工作只在真實(shí)圖像訓(xùn)練的模型上測(cè)試了虛擬圖像,后續(xù)研究一方面利用虛擬圖像訓(xùn)練目標(biāo)檢測(cè)模型,在真實(shí)圖像上測(cè)試;另一方面使用不同混合比例的真實(shí)圖像和虛擬圖像訓(xùn)練目標(biāo)檢測(cè)模型,根據(jù)真實(shí)圖像目標(biāo)檢測(cè)結(jié)果判斷最佳混合比例,從而最大程度利用虛擬圖像輔助訓(xùn)練深度學(xué)習(xí)模型,減輕數(shù)據(jù)收集的壓力.