應(yīng)衛(wèi)強,張 帆,張玲燕
(1. 浙江大學(xué)城市學(xué)院,浙江 杭州 310015;2. 浙江大學(xué)軟件學(xué)院,浙江 杭州 310027)
圖像作為信息獲取的主要來源,大力推動著與其相關(guān)的識別、分割、檢測、追蹤等圖像處理技術(shù)發(fā)展[1],近年來,對圖像的研究范圍也逐漸拓展至圖像生成領(lǐng)域。隨著圖像生成領(lǐng)域的廣泛普及,基于對抗學(xué)習(xí)理念的生成式對抗網(wǎng)絡(luò)[2]應(yīng)時而生,成為人工智能領(lǐng)域中最具深遠(yuǎn)影響力的關(guān)鍵技術(shù)。該模型與傳統(tǒng)網(wǎng)絡(luò)模型大不相同,其生成器與判別器分別借助對方的對抗模式,強化自身的圖像特征學(xué)習(xí)能力。當(dāng)前,生成式對抗網(wǎng)絡(luò)已然成為一個新興課題。
張素素等人[3]與徐強等人[4]分別對生成式對抗網(wǎng)絡(luò)做出了改進,前者基于注意力機制,利用局部細(xì)化生成器,取得細(xì)粒度樣本,形成清晰的生成圖像;后者就圖像紋理復(fù)雜程度,探索循環(huán)一致?lián)p失系數(shù)對圖像的影響,獲取高質(zhì)量的生成圖像;張光華等人[5]則將生成式對抗網(wǎng)絡(luò)應(yīng)用于生成天文圖像,利用神經(jīng)元拋棄法與韋氏距離,優(yōu)化網(wǎng)絡(luò)與損失函數(shù),得到適用于天文圖像的生成模型。
隨著現(xiàn)代成像技術(shù)的進步,圖像模態(tài)呈多元化發(fā)展趨勢。為實現(xiàn)跨模態(tài)圖像生成,本文通過優(yōu)化生成式對抗網(wǎng)絡(luò),構(gòu)建出半監(jiān)督學(xué)習(xí)模式下的跨模態(tài)圖像生成方法。生成式對抗網(wǎng)絡(luò)憑借較強的特征學(xué)習(xí)能力與表達能力,在圖像生成領(lǐng)域表現(xiàn)突出,為使其更適用于生成跨模態(tài)圖像,優(yōu)化生成式對抗網(wǎng)絡(luò)。半監(jiān)督學(xué)習(xí)作為機器學(xué)習(xí)領(lǐng)域的關(guān)鍵技術(shù)之一,通過多個未標(biāo)識信息與較少的帶標(biāo)識信息,即可完成學(xué)習(xí),不僅降低對信息做標(biāo)識的成本,減少人力物力,而且有助于取得更精準(zhǔn)的目標(biāo)結(jié)果,提升泛化能力;添加批量歸一化處理策略,提升初始網(wǎng)絡(luò)參數(shù)質(zhì)量與模型收斂速率,避免梯度隱沒;利用監(jiān)督訓(xùn)練模式與生成器生成的偽信息訓(xùn)練分類器,彌補半監(jiān)督學(xué)習(xí)中標(biāo)識信息不充足的弊端。
生成式對抗網(wǎng)絡(luò)的主要部分是生成器與判別器,前者用于學(xué)習(xí)實際信息分布,為生成結(jié)果提供分布形式;后者用于區(qū)分輸入信息真?zhèn)?,為從生成的偽信息中提取出真信息提供參考依?jù)。
把從某概率分布收集到的任意噪點輸入生成器,經(jīng)非線性映射函數(shù)得到生成信息,將其與實際信息一同輸入判別器獲取幾率值,該值反映了輸入信息為真信息的幾率,如果輸入的是偽信息,則幾率值取0,反之取1。
假設(shè)G、D分別表示生成式對抗網(wǎng)絡(luò)的生成器與判別器,x是實際信息分布Pdata中的一個真信息,z是先驗分布Pz中的一個噪點,期望值是E,則采用下列表達式界定生成式對抗網(wǎng)絡(luò)的目標(biāo)函數(shù)
=Ex~Pdata(x)[logD(x)]+Ez~Pz(z)[log(1-D(G(z)))]
(1)
在保持判別器D不變的情況下,采用下列損失函數(shù)表達式改進生成器G
(2)
在保持生成器G不變的情況下,采用下列損失函數(shù)表達式改進判別器D
+Ez~Pz(z)[log(1-D(G(z)))]
(3)
綜上所述,推導(dǎo)出下列求導(dǎo)V(D,G)時的最佳判別器D′(x)
(4)
合并式(1)與D′(x),通過形成的生成器目標(biāo)函數(shù),反映Pg(x)與Pdata(x)的優(yōu)化目標(biāo)。
半監(jiān)督學(xué)習(xí)作為監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)的學(xué)習(xí)方法之一,僅采用幾個帶標(biāo)識信息,結(jié)合多個未標(biāo)識信息,即可完成性能優(yōu)化,取得更精準(zhǔn)的目標(biāo)結(jié)果,提升泛化性。
已知某概率分布形式中帶標(biāo)識與未標(biāo)識的信息集合分別如下所示
L={(x1,y1),(x2,y2),…,(x|L|,y|L|)}
(5)
U={x1,x2,…,x|U|}
(6)
式中,|L|、|U|表示兩個信息集合含有的信息個數(shù)。通過期望函數(shù)f:X→Y能夠準(zhǔn)確預(yù)估出信息x的標(biāo)識y。
將上述生成式對抗網(wǎng)絡(luò)與半監(jiān)督學(xué)習(xí)相結(jié)合,得到圖1所示的半監(jiān)督學(xué)習(xí)生成式對抗網(wǎng)絡(luò)模型框架。如果由該網(wǎng)絡(luò)生成的圖像信息屬于K+1類別,則需增加判別網(wǎng)絡(luò)至K+1維。將監(jiān)督損失與無監(jiān)督損失融合,得到半監(jiān)督訓(xùn)練形式,令其為網(wǎng)絡(luò)模型的損失函數(shù),讓監(jiān)督學(xué)習(xí)對象為帶標(biāo)識信息,無監(jiān)督學(xué)習(xí)對象為未標(biāo)識信息,提升半監(jiān)督的目標(biāo)準(zhǔn)度[6]。
圖1 半監(jiān)督學(xué)習(xí)生成式對抗網(wǎng)絡(luò)模型
以取得更深層次圖像特征、加快模型收斂速度為目標(biāo),在判別器與生成器中分別添加卷積神經(jīng)網(wǎng)絡(luò)[7]與反卷積神經(jīng)網(wǎng)絡(luò)[8],并在整體結(jié)構(gòu)中引入一個分類器,改進半監(jiān)督學(xué)習(xí)生成式對抗網(wǎng)絡(luò)模型,使模型更具穩(wěn)定性。該模型的優(yōu)化部分具體描述如下:
1)用反卷積替換生成器池化層,用全卷積替換判別器池化層;
2)用全局平均池化替換全連接層;
3)批量歸一化處理對象不包含生成器輸出層與判別器輸入層,提升初始網(wǎng)絡(luò)參數(shù)質(zhì)量與模型收斂速率,避免梯度隱沒;
4)生成器輸出層為雙曲正切函數(shù),剩余各層為線性整流函數(shù)[9],而判別器除輸出層是歸一化指數(shù)函數(shù)外,各網(wǎng)絡(luò)層都采用帶泄露修正線性單元函數(shù);
5)分類器添加:該分類器在已知真信息時將生成偽標(biāo)識,而生成器則在已知真標(biāo)識時生成偽信息。
根據(jù)以上改進部分,利用三個網(wǎng)絡(luò)的聯(lián)合分布形式,構(gòu)建出圖2所示的半監(jiān)督學(xué)習(xí)生成式對抗網(wǎng)絡(luò)改進模型。該模型中的判別器具備通過分類器訪問未標(biāo)識信息標(biāo)識預(yù)估的能力,對生成器下達強制生成命令后,即可生成有效的圖像標(biāo)識。
圖2 半監(jiān)督學(xué)習(xí)生成式對抗網(wǎng)絡(luò)改進模型
通過下列表達式完成該網(wǎng)絡(luò)模型的對抗目標(biāo)函數(shù)界定
=E(x,y)~P(x,y)[logD(x,y)]
+αE(x,y)~Pc(x,y)[log(1-D(x,y))]
+(1-α)E(x,y)~Pg(x,y)[log(1-D(G(y,z),y))]
(7)
式中,控制生成的常數(shù)項為α,取值范圍是0~1。
基于改進半監(jiān)督學(xué)習(xí)生成式對抗網(wǎng)絡(luò)模型,以分類器與生成器的最佳平衡狀態(tài)為基礎(chǔ),利用全變差正則化項[10],建立如下所示的偽判別損失函數(shù),通過監(jiān)督訓(xùn)練模式與生成器G生成的偽信息來完成分類器D訓(xùn)練,以彌補半監(jiān)督學(xué)習(xí)中標(biāo)識信息不夠充足的弊端
(8)
1)用θc、θd以及θg分別指代分類器C、判別器D以及生成器G三個網(wǎng)絡(luò)的可訓(xùn)練參數(shù),并進行合理設(shè)置;
2)采集信息(xg,yg)~Pg(x,y)、(xc,yc)~Pc(x,y)以及(xd,yd)~Pd(x,y),信息數(shù)量各是mg、mc以及md;
3)假設(shè)梯度上升方向是Td,表達式如下所示,則以此作為判別器D的更新依據(jù):
(9)
4)利用式(8)計算偽判別損失函數(shù)RP,交叉熵?fù)p失函數(shù)RL由下式解得
RL=E(x,y)~P(x,y)[-logPc(y|x)]
(10)
5)假定梯度下降方向為Tc,結(jié)合偽判別損失函數(shù)RP與交叉熵?fù)p失函數(shù)RL,架構(gòu)出下列分類器C更新依據(jù)Tc
(11)
6)同上,架構(gòu)出下列生成器G更新依據(jù)Tg
(12)
7)直到算法開始收斂或滿足預(yù)設(shè)循環(huán)周期數(shù)量,停止迭代。
改進半監(jiān)督學(xué)習(xí)下生成式對抗網(wǎng)絡(luò)的跨模態(tài)圖像生成過程主要分為生成網(wǎng)絡(luò)、分類網(wǎng)絡(luò)以及判別網(wǎng)絡(luò)三個階段。各階段的詳細(xì)操作內(nèi)容描述如下:
1)利用生成器的反卷積網(wǎng)絡(luò),上采樣處理輸入的任意噪點向量:在全局平均池化層中輸入噪點,該噪點是從某指定分布形式中任意選取的,通過轉(zhuǎn)換維度取得三維笛卡爾張量,按序展開反卷積,完成批量歸一化處理,輸出層的輸出張量就是生成的最終圖像。
2)通過由卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成的判別器,取得歸一化種類幾率:將圖像樣本信息輸入卷積層,經(jīng)卷積操作與批量歸一化處理,得到圖像特征,邏輯向量由全局平均池化層輸出后,利用歸一化指數(shù)函數(shù)獲取歸一化種類幾率。
3)采取分類器劃分圖像信息標(biāo)識類別:把實際信息x從P(x)內(nèi)提取出來得到偽標(biāo)識,近似描述條件分布形式,將分類器與生成器的偽標(biāo)識輸入判別器后,實現(xiàn)真?zhèn)伪鎰e。
采用Linux操作系統(tǒng),Intel core(R)i5@3.6Hz處理器,16GB內(nèi)存搭建仿真環(huán)境。從sketch-celeb A數(shù)據(jù)集中隨機選取多張樣本圖像,統(tǒng)一裁剪成612*612規(guī)格。針對生成式對抗網(wǎng)絡(luò),設(shè)定分類器等各網(wǎng)絡(luò)的可訓(xùn)練參數(shù)為23、19、13,學(xué)習(xí)率是0.0004。
為有效反映生成圖像水平及其與草圖的相似度,分別采用弗雷歇距離FID、均方根誤差RMSE以及平均絕對誤差MSE三個指標(biāo),評價本文方法生成的跨模態(tài)圖像質(zhì)量。評價指標(biāo)計算公式分別如下所示
(13)
(14)
(15)
式中,Pr、Pg表示圖像特征函數(shù)φ的高斯向量,μr、μg表示信息均值,ξr、ξg表示信息協(xié)方差;p表示向量u、v的維度。
利用Proteus軟件模擬生成跨模態(tài)圖像,得到圖3所示的生成效果。
圖3 跨模態(tài)圖像生成效果示意圖
根據(jù)所示的跨模態(tài)生成效果圖可以看出,改進前生成的圖像存在多個模糊區(qū)域,更嚴(yán)重的是缺失了目標(biāo)的部分重要信息;從視覺感官出發(fā),發(fā)現(xiàn)改進后方法得到的生成圖像更具真實感,且保留了大部分的目標(biāo)特征。這是因為批量歸一化處理了各隱藏層,各網(wǎng)絡(luò)層采用了不同的函數(shù),并通過監(jiān)督訓(xùn)練模式與生成器生成的偽信息,完成了分類器訓(xùn)練,使構(gòu)建的偽判別損失函數(shù)滿足了散度全局最佳均衡點不受影響的假設(shè)推論,故改進后方法生成效果更佳。
表1所示為改進前與改進后,弗雷歇距離、均方根誤差以及平均絕對誤差三個指標(biāo)的實驗數(shù)據(jù)。
表1 改進前與改進后各評估指標(biāo)數(shù)據(jù)
根據(jù)表1中各指標(biāo)的評估結(jié)果可以看出,改進后的指標(biāo)數(shù)據(jù)較改進前有大幅下降,結(jié)合圖像質(zhì)量與各指標(biāo)值之間的負(fù)相關(guān)關(guān)系可知,改進后方法由于在整體結(jié)構(gòu)中引入了分類器,可在已知真信息時生成偽標(biāo)識,并近似描述條件分布形式,分類圖像信息標(biāo)識,同時利用設(shè)計的隨機梯度下降優(yōu)化算法,實現(xiàn)了散度似然比的直接優(yōu)化,基于解得的偽判別損失函數(shù)與交叉熵?fù)p失函數(shù),將梯度的上升、下降方向作為判別器、生成器以及分類器的更新依據(jù),故生成的圖像質(zhì)量較高,在跨模態(tài)圖像生成領(lǐng)域中具有明顯的突出作用。
跨模態(tài)圖像即經(jīng)各項技術(shù)途徑獲得的圖像信息,該信息呈現(xiàn)出相同目標(biāo)的各個屬性特征,其生成過程類似于圖像間的相互轉(zhuǎn)換。生成式對抗網(wǎng)絡(luò)作為圖像生成領(lǐng)域的主流手段,在該領(lǐng)域中取得了突出的成就與表現(xiàn)。為此,本文通過改進生成式對抗網(wǎng)絡(luò)和半監(jiān)督學(xué)習(xí),構(gòu)建出跨模態(tài)圖像生成策略。實驗結(jié)果證明,本文方法生成的圖像質(zhì)量較高,能夠保留大量信息。接下來將與U-Net結(jié)構(gòu)、注意力機制等進行有效結(jié)合作為研究重點,以獲取更高的圖像生成質(zhì)量;應(yīng)將本文方法應(yīng)用于除真實人臉外的其它圖像種類,拓展方法適用范圍;改進模型中網(wǎng)絡(luò)數(shù)量較多,結(jié)構(gòu)相對復(fù)雜,訓(xùn)練用時較長,需就此展開深入研究,加快模型訓(xùn)練速度;在今后的工作中繼續(xù)探索無監(jiān)督學(xué)習(xí)下的跨模態(tài)生成效果,根據(jù)成本與用時來選取更合適的學(xué)習(xí)模式;應(yīng)學(xué)習(xí)生成式對抗網(wǎng)絡(luò)理論知識,從其穩(wěn)定性方面做進一步優(yōu)化,提升方法的整體性能。