冉建國(guó),劉 珩,張 月
(陸軍工程大學(xué),江蘇 南京 210007)
數(shù)碼迷彩是采用規(guī)則的最小可分辨色塊,進(jìn)行排列組合生成的一種能在不同分辨率下和背景特征相匹配的迷彩方案。在國(guó)外,美國(guó)自20世紀(jì)70年代開展數(shù)碼迷彩研究以來(lái),先后經(jīng)歷了雙重紋理偽裝和Dual-Tex數(shù)碼迷彩,20世紀(jì)末,又相繼開發(fā)了林地型、城市型和荒漠型數(shù)碼迷彩,2001年加拿大國(guó)防研究基地申請(qǐng)了CADPAT TW專利。國(guó)內(nèi)數(shù)碼迷彩研究始于1984年,在87式防雷達(dá)偵察偽裝遮障研制中提出并應(yīng)用了雙重結(jié)構(gòu)迷彩,其形態(tài)與目前的數(shù)碼迷彩如出一轍。2006年,在二維結(jié)構(gòu)網(wǎng)面上實(shí)現(xiàn)了三維結(jié)構(gòu)設(shè)計(jì),國(guó)慶70周年大部分閱兵裝備上也采用了數(shù)碼迷彩。在數(shù)碼迷彩偽裝方案設(shè)計(jì)中,通常用提前設(shè)計(jì)好的通用模板進(jìn)行填充。迷彩的本質(zhì)是無(wú)限接近于使用環(huán)境以方便隱藏目標(biāo),如圖1所示。在目標(biāo)上實(shí)施迷彩的偽裝成效,主要取決于背景顏色的復(fù)制水平和采用迷彩的類型。迷彩偽裝通常依賴于聚類方法以提取主色。大多數(shù)背景基本上是色彩斑駁的,很少有單一顏色。因此,主色提取的準(zhǔn)確與否被用來(lái)衡量迷彩偽裝的優(yōu)劣。
圖1 不同迷彩偽裝方案的視覺(jué)比較
傳統(tǒng)方法的一個(gè)潛在缺點(diǎn)是在主色提取后,原始圖像中的結(jié)構(gòu)、紋理和顏色可能會(huì)發(fā)生變化。另外,大多數(shù)用于迷彩偽裝方案設(shè)計(jì)的經(jīng)典技術(shù),使用手工拼圖技術(shù),這對(duì)設(shè)計(jì)方法的結(jié)果有顯著影響。為此,我們提出了一種基于pix2pix(Image-to Image Translation,圖像翻譯)的設(shè)計(jì)方法,圖像處理、計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺(jué)中的許多問(wèn)題都可以歸結(jié)為將輸入圖像“翻譯”成相應(yīng)的輸出圖像。該方法不僅消除了對(duì)參考圖像的需求,而且獲得了與地面真實(shí)情況的高度視覺(jué)相似性。本文利用pix2pix架構(gòu)將背景圖像數(shù)據(jù)集和相應(yīng)的數(shù)碼迷彩數(shù)據(jù)集訓(xùn)練后,比較生成的數(shù)碼迷彩方案與背景的真實(shí)情況。結(jié)果表明,使用pix2pix有利于提取紋理的特征,表現(xiàn)出顯著的改進(jìn),保存重要顏色信息。此外,本文的方法從像素出發(fā)預(yù)測(cè)底層結(jié)構(gòu),因此,可以說(shuō)pix2pix是一種有效的處理方法,可以減少人工干預(yù)的影響。
深度神經(jīng)網(wǎng)絡(luò)是一種模仿神經(jīng)網(wǎng)絡(luò)進(jìn)行信息分布式處理的數(shù)學(xué)模型,生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)是一種神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),具備生成數(shù)據(jù)的能力,是深度學(xué)習(xí)的一種高級(jí)形式。由于其生成數(shù)據(jù)的強(qiáng)大能力,在深度學(xué)習(xí)的領(lǐng)域廣受歡迎。雖然僅僅過(guò)去幾年的時(shí)間,但生成對(duì)抗網(wǎng)絡(luò)的功能已經(jīng)不再只產(chǎn)生模糊數(shù)字,而是能夠生成非常逼真的圖像,但GAN采用無(wú)監(jiān)督學(xué)習(xí)的方式在提取特征的過(guò)程中沒(méi)有針對(duì)性,導(dǎo)致生成的圖像顏色布局比較隨意,主要顏色失真度較高,圖像結(jié)構(gòu)難以保持穩(wěn)定。生成器負(fù)責(zé)將噪聲向量映射到潛在輸出空間目標(biāo)域,判別器負(fù)責(zé)區(qū)分圖像是訓(xùn)練生成的還是真實(shí)的。生成器和判別器都是用反向傳播訓(xùn)練的,它們都有各自的損耗函數(shù)。在這里,我們分別稱它們?yōu)楹汀AN的網(wǎng)絡(luò)架構(gòu)示意圖如圖2所示,是潛在空間,其流程是負(fù)責(zé)將采集的噪聲矢量傳達(dá)到,是生成器網(wǎng)絡(luò),將傳達(dá)過(guò)來(lái)的噪聲矢量轉(zhuǎn)變成圖像,接著,將生成的假的樣本和訓(xùn)練數(shù)據(jù)使用的真的樣本同時(shí)輸入,是判別器,可以設(shè)定不同的判別參數(shù),用以區(qū)分生成的圖像和真實(shí)的數(shù)據(jù)集圖像,最后,看兩者圖像之間的差別是否比設(shè)定的參數(shù)小來(lái)區(qū)別真假圖像。目前,幾乎所有的GAN都是這樣的網(wǎng)絡(luò)架構(gòu)。GAN最初的目標(biāo)函數(shù)如下所示。
圖2 GAN的架構(gòu)
~()[log(1-(()))]
(1)
其中,()是判別網(wǎng)絡(luò)模型,()是生成網(wǎng)絡(luò)模型,()是真實(shí)數(shù)據(jù)分布,()是生成網(wǎng)絡(luò)生成的數(shù)據(jù)分布,是期望輸出。在訓(xùn)練過(guò)程中,(判別網(wǎng)絡(luò),discriminator)試圖最大化公式的最終取值,而(生成網(wǎng)絡(luò),generator)試圖最小化該值。如此訓(xùn)練出來(lái)的GAN中,生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)之間會(huì)達(dá)到一種平衡,此時(shí)模型即“收斂”了。
目前,國(guó)內(nèi)外對(duì)迷彩偽裝圖案設(shè)計(jì)開展了大量的研究,從國(guó)外公開的技術(shù)資料來(lái)看,主要也是利用分形、聚類等方法設(shè)計(jì)迷彩圖案,美國(guó)已實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)設(shè)計(jì)圖案,由機(jī)具或機(jī)器人實(shí)施噴涂作業(yè)。國(guó)內(nèi)的迷彩偽裝研究起步于20世紀(jì)60年代,目前,迷彩圖案設(shè)計(jì)研究較多的大學(xué)和科研院所主要有陸軍工程大學(xué)、國(guó)防科技大學(xué)、陸軍研究院、西安工業(yè)大學(xué)、東北大學(xué)等。采用多種模型和聚類方法對(duì)顏色、亮度、紋理、邊緣、尺寸開展了迷彩圖案設(shè)計(jì)。賈其等分析了目標(biāo)偽裝面臨的偵察威脅,從人眼的分辨率和偽裝斑點(diǎn)的設(shè)計(jì)原則出發(fā)對(duì)迷彩的斑點(diǎn)形狀和尺寸進(jìn)行了研究;陳祥安分析了迷彩偽裝的特點(diǎn),指出了小斑點(diǎn)迷彩的優(yōu)點(diǎn),論述了色彩混合規(guī)律和同色異譜現(xiàn)象,并提出了小斑點(diǎn)迷彩設(shè)計(jì)的初步方案;雙曉結(jié)合數(shù)碼迷彩和仿造迷彩的基本特點(diǎn),借助計(jì)算機(jī)圖像處理技術(shù),通過(guò)提取自然背景的主色、紋理以及層次性等主要特征信息,形成以像素點(diǎn)陣為基本單元、能反映背景斑塊特征的數(shù)碼迷彩圖案;武國(guó)晶等在充分考慮人雙目立體成像的生理特征的基礎(chǔ)上提出了一種基于柱透鏡光柵的數(shù)碼迷彩立體動(dòng)態(tài)成像算法,推導(dǎo)出迷彩立體動(dòng)態(tài)成像的視差設(shè)計(jì)原理,并根據(jù)背景深度信息將數(shù)碼迷彩圖像分為多幅迷彩深度序列圖,最終生成一幅光柵圖像,用來(lái)裱貼于光柵板后即可實(shí)現(xiàn)立體動(dòng)態(tài)數(shù)碼迷彩;張勇針對(duì)迷彩偽裝設(shè)計(jì)的難題,提出了仿生迷彩的概念,將生物特征信息融入傳統(tǒng)迷彩設(shè)計(jì)準(zhǔn)則,闡述了仿生迷彩生成方法,設(shè)計(jì)了四種仿生迷彩,并對(duì)仿生迷彩偽裝的效果進(jìn)行了評(píng)估。除此之外,還有很多學(xué)者利用計(jì)算機(jī)視覺(jué)技術(shù)為提高偽裝圖像的質(zhì)量進(jìn)行了相關(guān)研究。這些方法從不同的角度設(shè)計(jì)迷彩偽裝圖像,并取得了偽裝質(zhì)量的改善,但是在偽裝圖像與背景的匹配質(zhì)量及生成偽裝圖像的效率方面依然有比較大的提升空間。目前,對(duì)于偽裝設(shè)計(jì)方法的研究已經(jīng)不僅僅局限于迷彩斑點(diǎn)的設(shè)計(jì),高精度的戰(zhàn)場(chǎng)環(huán)境對(duì)偽裝的準(zhǔn)確性與實(shí)時(shí)性都提出了很高的要求,這也促使更多學(xué)者從不同角度采用不同方法來(lái)解決偽裝技術(shù)的設(shè)計(jì)難題,提出可行的偽裝設(shè)計(jì)方法能夠使裝備與背景更好地融合并且更有效率地實(shí)施偽裝,已經(jīng)成為軍事科學(xué)界研究的重要難題。
在GAN中,生成器僅從潛在變量產(chǎn)生圖像。然而,在圖像到圖像的轉(zhuǎn)換任務(wù)中,生成的圖像必須與源圖像相關(guān)。為了解決這個(gè)問(wèn)題,可以使用條件GANs (cGAN),將附加信息作為輸入。例如,接收源圖像作為生成器和鑒別器的附加信息。cGANs的損失函數(shù)如下:
~()[log(1-((·)·))]
(2)
本文首次使用pix2pix來(lái)進(jìn)行數(shù)碼迷彩方案設(shè)計(jì)。pix2pix是一個(gè)擴(kuò)展的cGAN,它學(xué)習(xí)從輸入圖像到輸出圖像的映射,并使用一個(gè)損失函數(shù)來(lái)訓(xùn)練這種映射。在pix2pix中,L1損耗鼓勵(lì)生成器生成一個(gè)類似于條件變量的樣本。它是訓(xùn)練圖像和生成圖像(,)之間每個(gè)像素差的絕對(duì)值的平均值。
1()=,,[‖(·)-‖]
(3)
最后,式(3)作為一個(gè)L1規(guī)范化術(shù)語(yǔ)被添加到式(2),用作對(duì)抗性損失。本工作中的損耗函數(shù)如下:
(·)=(·)+1()
(4)
其中,λ表示控制項(xiàng)權(quán)重的超參數(shù)。在本文的例子中,它被設(shè)置為100。在訓(xùn)練期間,最小化生成器,最大化判別器。換句話說(shuō),訓(xùn)練的目的是找到解決優(yōu)化問(wèn)題的目標(biāo)函數(shù):
~()[(())]
(5)
pix2pix方法需要訓(xùn)練階段的圖像對(duì),由原始圖像和相應(yīng)的變換圖像組成,生成器中使用的U-net和鑒別器中的PatchGAN有類似的架構(gòu)。在U-net架構(gòu)中,編碼器層和解碼器層通過(guò)圖中黃色模塊和藍(lán)色模塊“跳躍連接”的方式直接連接。因?yàn)檫@種連接可以避開編碼器-解碼器網(wǎng)絡(luò)的瓶頸傳輸?shù)图?jí)信息(這些信息通常在輸入和輸出圖像之間共享),能夠充分融合特征,有效地提高了圖像轉(zhuǎn)換的性能。在卷積PatchGAN中,將每張圖像分成×段,不是對(duì)整個(gè)圖像進(jìn)行分類而是判斷輸入的*大小區(qū)域是真還是假。最后,取所有答案的平均值,進(jìn)行最終的分類。換句話說(shuō),只有特定規(guī)模的補(bǔ)丁結(jié)構(gòu)才會(huì)受到懲罰。pix2pix通用框架如圖3所示。通過(guò)判別器輸出的對(duì)抗損耗和數(shù)碼迷彩圖像輸出的損耗約束生成圖像和真實(shí)圖像之間的差異,更新生成器的權(quán)值。同時(shí)訓(xùn)練一個(gè)條件生成器和判別器。訓(xùn)練生成器根據(jù)輸入圖像生成圖像(以生成數(shù)碼迷彩圖像為例)。該判別器的目的是對(duì)生成的數(shù)碼迷彩圖像進(jìn)行真假分類。
圖3 pix2pix框架圖
本文中的優(yōu)化模型改善了得到圖像的清晰度,以真實(shí)背景數(shù)據(jù)為基礎(chǔ),通過(guò)改進(jìn)目標(biāo)函數(shù)極大地減小了生成數(shù)據(jù)與真實(shí)數(shù)據(jù)間的差異;其次,通過(guò)擴(kuò)展顏色空間參數(shù)盡可能地保留背景的主要顏色。最后,通過(guò)結(jié)構(gòu)相似性分析和心理物理學(xué)實(shí)驗(yàn)進(jìn)行效果評(píng)估,說(shuō)明了模型在迷彩偽裝中的客觀性與可靠性,對(duì)偽裝作業(yè)設(shè)計(jì)與實(shí)施均具有重要意義。
本文將pix2pix與三種較好的數(shù)碼迷彩生成技術(shù)進(jìn)行了比較。
本文數(shù)據(jù)集由240張背景圖與相應(yīng)的數(shù)碼迷彩圖組成,每張圖像大小為256×256像素,擴(kuò)充后最終得到了450張非重疊的數(shù)據(jù)集。對(duì)于訓(xùn)練集,我們從這些圖像中提取400對(duì)隨機(jī)圖像。另外,為了定量評(píng)估,我們將剩余的50張圖像作為測(cè)試集(在訓(xùn)練集中看不到)。為了驗(yàn)證所提出算法的有效性,本文編寫了Python程序并完成了相關(guān)實(shí)驗(yàn)。在Windows 10系統(tǒng)上選用Python搭建生成對(duì)抗網(wǎng)絡(luò)。訓(xùn)練過(guò)程使用GPU芯片,顯卡型號(hào)為TITAN V,顯存大小為120 G。
Pix2pix不僅學(xué)習(xí)真實(shí)背景到數(shù)碼迷彩斑塊的映射,還學(xué)習(xí)一個(gè)損失函數(shù)來(lái)訓(xùn)練這種映射。由于判別器的訓(xùn)練相對(duì)于生成器來(lái)說(shuō)是快速的,因此,判別器損耗分為兩部分來(lái)減緩訓(xùn)練過(guò)程(見(jiàn)圖4)。生成器和判別器模型都使用隨機(jī)梯度下降的Adam版本進(jìn)行訓(xùn)練,學(xué)習(xí)速率為0.000 2。動(dòng)量參數(shù)=0.5。此外,兩個(gè)網(wǎng)絡(luò)權(quán)值都是從均值為0、標(biāo)準(zhǔn)差為0.02的高斯分布初始化的。每次實(shí)驗(yàn)訓(xùn)練30個(gè)epoch,每幅圖像后更新模型,換句話說(shuō),batch size為1。根據(jù)損耗值進(jìn)行訓(xùn)練后,我們選擇一個(gè)背景模型,然后使用這個(gè)模型,可以將該圖像轉(zhuǎn)換成數(shù)碼迷彩圖案。圖4表示生成器和判別器損失函數(shù)在訓(xùn)練過(guò)程中的變化情況。
圖4 生成器和判別器在訓(xùn)練期間的損失
利用結(jié)構(gòu)相似性(Structural SIMilarity,SSIM)算法來(lái)評(píng)估生成數(shù)碼迷彩的有效性,在評(píng)估相似性時(shí),這個(gè)值的下降部分是由于兩類數(shù)據(jù)集之間的微小差異造成的。因此,為了展示STST的優(yōu)秀結(jié)果,我們檢驗(yàn)了不同的評(píng)價(jià)指標(biāo)。用于比較的度量是結(jié)構(gòu)相似指數(shù)(SSIM)、峰值信噪比(PSNR)、均方誤差(MSE),如表1所示。
圖5a)代表原背景圖,b)~f)分別表示使用不同方法生成的數(shù)碼迷彩,結(jié)合表1中的數(shù)據(jù)分析生成數(shù)碼迷彩的質(zhì)量,SSIM值整體偏低,說(shuō)明幾種方法生成的數(shù)碼迷彩在變形方面有不錯(cuò)的效果,但前4種方法顏色失真度較高,本文方法與原背景圖融合性較高,所以SSIM 值稍高,顏色方面pix2pix保持得相對(duì)較好。大多數(shù)計(jì)算指標(biāo)的設(shè)計(jì)不是為了直接衡量歸一化圖像的感知相似性,因此,評(píng)價(jià)結(jié)果有時(shí)可能與主觀印象不相容。但通過(guò)視覺(jué)評(píng)價(jià),一般可以檢驗(yàn)不同方法的有效性,如表2所示。
表1 使用不同方法生成的數(shù)碼迷彩方案評(píng)價(jià)指標(biāo)(平均值±std)
圖5 對(duì)來(lái)自不同方法生成的數(shù)碼迷彩比較
表2 用不同方法生成的數(shù)碼迷彩時(shí)間對(duì)比
下面從心理物理學(xué)角度檢驗(yàn)幾種類型迷彩的遮蔽效果,類別判定法是一種對(duì)刺激的感知進(jìn)行分類的心理物理學(xué)實(shí)驗(yàn)方法。該方法要求觀察者進(jìn)行刺激感知后按照類別判定量表進(jìn)行分類,如表3所示。采用該方法實(shí)驗(yàn)時(shí),根據(jù)Torgerson的類別判定法和統(tǒng)計(jì)假設(shè)理論,將統(tǒng)計(jì)結(jié)果轉(zhuǎn)化為等距量表。
表3 類別判定量表
在實(shí)驗(yàn)設(shè)計(jì)中,共安排了10名色覺(jué)正常的觀察者參加,均為在校大學(xué)本科生,包括5名男性和5名女性,年齡介于20~25歲之間。每名觀察者進(jìn)行了兩次實(shí)驗(yàn),用來(lái)分析觀察者間的精度。因此,本實(shí)驗(yàn)所獲得的視覺(jué)評(píng)價(jià)數(shù)據(jù)共有100個(gè)。
將不同方法生成的圖案制作成6.8 m×6.8 m的制式偽裝網(wǎng),在200 m距離上利用人眼進(jìn)行觀察。光柵法生成的數(shù)碼迷彩10名學(xué)生當(dāng)中7名選擇類別5(恰好不可接受),另外3名選擇類別4(勉強(qiáng)可以接受);馬爾科夫鏈法生成的迷彩10名學(xué)生當(dāng)中5名選擇類別4(勉強(qiáng)可以接受),另外5名選擇類別5(恰好不可接受);立體動(dòng)態(tài)和循環(huán)一致生成網(wǎng)絡(luò)生成的迷彩結(jié)果10名學(xué)生當(dāng)中7名選擇類別3(可感知且可完全接受),2名選擇選擇類別4(勉強(qiáng)可以接受),1名選擇類別5(恰好不可接受);本文方法10名學(xué)生當(dāng)中7名選擇類別1(無(wú)色差),另外3名選擇類別3(可感知且可完全接受)。
表4 心理物理學(xué)統(tǒng)計(jì)
本文使用了pix2pix架構(gòu)來(lái)進(jìn)行圖像到圖像的轉(zhuǎn)換,為背景紋理和顏色的模擬提供了合適的技術(shù)途徑。以生成對(duì)抗網(wǎng)絡(luò)為支撐的設(shè)計(jì)技術(shù)體系可以生成融合度較高的數(shù)碼迷彩圖案,能有效對(duì)付不同距離的偵察威脅。針對(duì)模型效果評(píng)估的問(wèn)題,提出利用結(jié)構(gòu)相似性(SSIM)和心理物理學(xué)實(shí)驗(yàn)方法進(jìn)行偽裝效果評(píng)估。實(shí)驗(yàn)結(jié)果表明,該方法獲得的處理時(shí)間比所有測(cè)試方法都要短(見(jiàn)表2),并且在評(píng)價(jià)指標(biāo)上取得了不錯(cuò)的效果,驗(yàn)證了所提出方法在數(shù)碼迷彩設(shè)計(jì)中的有效性。因此我們得出結(jié)論,該方法優(yōu)于經(jīng)典常規(guī)的數(shù)碼迷彩生成方法,可用于數(shù)碼迷彩的方案設(shè)計(jì)。