劉建鋒,鐘國(guó)韻
(東華理工大學(xué) 信息工程學(xué)院,江西 南昌 330013)
傳統(tǒng)的圖像風(fēng)格遷移方法通常被作為紋理合成的一個(gè)廣義問題來處理和研究,即從風(fēng)格圖S(Style image)中采集紋理并將其遷移到內(nèi)容圖C(Content image)中。Efros 等人提出了一種將樣本紋理進(jìn)行拼接和重組的簡(jiǎn)單紋理合成算法[1];基于類推思想,Hertzmann 等人通過圖像特征映射關(guān)系合成了帶有新紋理的圖像[2]。傳統(tǒng)圖像風(fēng)格遷移方法只是提取圖像的低層次的圖像特征,而非高層次的圖像語義信息,在對(duì)色彩與紋理較為繁雜的圖像進(jìn)行風(fēng)格化時(shí),合成效果圖會(huì)十分不理想,很難在實(shí)際應(yīng)用場(chǎng)景中使用。
基于以上討論,雖然傳統(tǒng)的圖像風(fēng)格遷移算法能夠誠(chéng)實(shí)地描繪出某些特定的圖像風(fēng)格,然而它們存在一定的局限性,靈活性不足、風(fēng)格不夠多樣化且圖像結(jié)構(gòu)提取困難。因而,需要全新的算法,來解除這些限制。于是便出現(xiàn)了神經(jīng)網(wǎng)絡(luò)圖像風(fēng)格遷移領(lǐng)域。
隨著人工智能的發(fā)展,Gatys 等人[3]開創(chuàng)性地提出了一種基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移技術(shù)。圖1 所示是基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移效果。該算法的核心原理是:通過預(yù)訓(xùn)練VGG 模型[4]迭代優(yōu)化圖像,目的是將內(nèi)容圖像和風(fēng)格圖像的高層次抽象特征分布進(jìn)行匹配,然后通過對(duì)輸入的隨機(jī)噪聲圖進(jìn)行迭代優(yōu)化的方式合成風(fēng)格化的原內(nèi)容圖像。
圖1 神經(jīng)網(wǎng)絡(luò)圖像風(fēng)格遷移效果
本文系統(tǒng)性地綜述了圖像風(fēng)格遷移的起源與發(fā)展,首先對(duì)圖像風(fēng)格遷移的應(yīng)用前景進(jìn)行了概述和分析,然后再對(duì)圖像風(fēng)格遷移中存在的問題還有未來的發(fā)展方向做了進(jìn)一步的探討。為進(jìn)一步深入風(fēng)格遷移研究打下了堅(jiān)實(shí)的基礎(chǔ),并提出了一些極具參考價(jià)值的建議,最后總結(jié)了風(fēng)格遷移未來所面臨的困難和發(fā)展方向。
由于藝術(shù)風(fēng)格化其廣泛的應(yīng)用范圍,一直以來都是計(jì)算機(jī)圖形學(xué)重要的研究領(lǐng)域。在基于深度學(xué)習(xí)的圖像風(fēng)格遷移出現(xiàn)之前,相關(guān)研究已經(jīng)擴(kuò)展到了非真實(shí)感渲染(Non-Photorealistic Rendering,NPR)領(lǐng)域。但是大多數(shù)NPR 算法都是為特定的藝術(shù)風(fēng)格設(shè)計(jì)的,很難擴(kuò)展到其他風(fēng)格。本節(jié)將簡(jiǎn)要地回顧一些傳統(tǒng)的圖像風(fēng)格遷移算法。
基于筆觸的渲染(Stroke-Based Rendering,SBR)是通過在虛擬畫布放置稱為筆畫的離散元素以渲染具有特定風(fēng)格圖像的過程[5]。
SBR 算法的目標(biāo)是忠實(shí)地繪制指定的風(fēng)格,它們通??梢杂行У啬M某些類型的風(fēng)格(例如油畫、水彩、素描)。但是,SBR 算法都僅僅只針對(duì)一種特定風(fēng)格進(jìn)行了精心設(shè)計(jì),無法模擬任意風(fēng)格。
基于類推思想,Hertzmann 等人通過圖像特征映射關(guān)系合成了帶有新紋理的圖像[2]。圖像類推算法通過在示例訓(xùn)練對(duì)中學(xué)習(xí)類推變換,并在給出測(cè)試輸入照片時(shí)輸出相似的風(fēng)格化圖像。圖像類推還能以各種方式進(jìn)行擴(kuò)展,例如,學(xué)習(xí)用于肖像畫渲染的筆觸位置[6]。
一般說來,圖像類推對(duì)于各種藝術(shù)風(fēng)格有較好的效果。然而,在實(shí)踐中通常無法獲得配對(duì)的訓(xùn)練數(shù)據(jù)。另一個(gè)限制是圖像類推僅僅利用了圖像的底層次的特征,因此,圖像類推通常不能有效地捕獲圖像的內(nèi)容和風(fēng)格,最終合成的圖像效果都不太理想。
藝術(shù)形象的塑造是以形象的簡(jiǎn)單化和抽象化為目標(biāo)的過程。因此可以考慮采用一些相關(guān)的圖像濾波器來渲染特定的照片。Winnem?ller 等人首次利用雙邊濾波器[7]和高斯濾波器的差異[8]產(chǎn)生了類似卡通的效果。
與其他類型的圖像風(fēng)格遷移技術(shù)相比,圖像濾波技術(shù)更快、更穩(wěn)定,可滿足工業(yè)界落地的需求。然而,它們?cè)陲L(fēng)格多樣性方面非常有限。
目前的神經(jīng)網(wǎng)絡(luò)風(fēng)格遷移算法可分為基于圖像優(yōu)化和基于模型優(yōu)化這兩類。第一類通過優(yōu)化更新圖像來轉(zhuǎn)換圖像風(fēng)格;第二類優(yōu)化神經(jīng)網(wǎng)絡(luò)生成模型,通過前向神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)快速風(fēng)格遷移,其優(yōu)化對(duì)象是神經(jīng)網(wǎng)絡(luò)模型。
基于圖像優(yōu)化的思想,首先建模提取相應(yīng)的風(fēng)格和內(nèi)容圖像中的特征信息,組合內(nèi)容和風(fēng)格特征信息,然后對(duì)目標(biāo)圖像所匹配的風(fēng)格化合成圖像進(jìn)行迭代優(yōu)化重建。以下將對(duì)基于Gram 矩陣[9]、基于馬爾可夫隨機(jī)場(chǎng)(Markov Random Field,MRF)這兩類比較具有代表性的風(fēng)格化算法展開詳細(xì)的探討。
2.1.1 基于Gram矩陣
Gatys 等人[3]經(jīng)過對(duì)VGG 網(wǎng)絡(luò)中間層抽象特征的重新構(gòu)建,觀察出神經(jīng)網(wǎng)絡(luò)能夠從任意圖像中提取圖像內(nèi)容特征信息,并且通過構(gòu)建Gram 矩陣能夠從任意圖像中提取出風(fēng)格特征信息。據(jù)此,他們首先使用Gram 矩陣提取指定風(fēng)格圖像中的風(fēng)格信息,再根據(jù)圖像重建方法,通過梯度下降的方法更新重建后的圖像像素值,使其內(nèi)容圖的Gram 矩陣逼近風(fēng)格圖的Gram 矩陣,然后使得該VGG 網(wǎng)絡(luò)的高層次特征信息接近內(nèi)容圖的特征信息,最終獲得了風(fēng)格化的結(jié)果圖。
其算法細(xì)節(jié)如下,給定目標(biāo)圖像I、內(nèi)容圖像Ic和風(fēng)格圖像Is,Gatys 等人[10]方法總損失函數(shù)表示如下:
其中,α 是圖像內(nèi)容損失函數(shù)Lc(I,Ic)的平衡權(quán)重系數(shù),β是圖像風(fēng)格損失函數(shù)Ls(I,Is)的平衡權(quán)重系數(shù)。而圖像內(nèi)容損失Lc由內(nèi)容圖像在VGG 中第l 層的內(nèi)容特征表示Fl和用噪聲圖像初始化的風(fēng)格化圖像I 的特征表示Fl之間的平方歐幾里德距離定義:
其中{lc}表示用于計(jì)算內(nèi)容損失的VGG 模型層集合。對(duì)于風(fēng)格損失Ls,風(fēng)格損失由Is和I 基于Gram 矩陣的表示之間的平方歐幾里得距離定義:
其中G 表示內(nèi)容圖像和風(fēng)格圖像的Gram 矩陣,{lc}表示用于計(jì)算風(fēng)格損失的VGG 模型層集合。
2.1.2 基于馬爾可夫隨機(jī)場(chǎng)
基于馬爾可夫隨機(jī)場(chǎng)的非參數(shù)化圖像合成是傳統(tǒng)圖像風(fēng)格遷移的經(jīng)典框架[11]。Li 和Wand[12]最早提出了一種基于馬爾可夫隨機(jī)場(chǎng)的神經(jīng)網(wǎng)絡(luò)風(fēng)格遷移算法。其核心思想是將基于馬爾可夫隨機(jī)場(chǎng)的損失函數(shù)取代了基于Gram 矩陣的損失函數(shù)。將圖像風(fēng)格特征映射分割成若干區(qū)域,然后進(jìn)行匹配,去尋找并逼近與其最接近的風(fēng)格區(qū)域。給定目標(biāo)圖像I、內(nèi)容圖像Ic和風(fēng)格圖像Is,基于馬爾可夫隨機(jī)場(chǎng)的總損失函數(shù)表示如下:
其中Ψ(Fl(I))是局部區(qū)域內(nèi)容特征的Fl集合。Ψi表示第i 個(gè)局部區(qū)域,并且ΨNN(i)是與風(fēng)格圖像中的第i 個(gè)局部區(qū)域最相似的風(fēng)格區(qū)域。通過計(jì)算風(fēng)格圖像Is中所有風(fēng)格區(qū)域塊的歸一化互相關(guān)性來獲得最佳匹配ΨNN(i)。因?yàn)長(zhǎng)i 和Wand 的算法匹配區(qū)域塊級(jí)別的風(fēng)格,所以可以更好地保存圖像中精細(xì)的局部結(jié)構(gòu)等信息。
Li 和Wand 算法優(yōu)勢(shì)之處在于,由于基于馬爾可夫損失,對(duì)于照片真實(shí)感風(fēng)格,或者更具體地說,當(dāng)內(nèi)容圖像和風(fēng)格圖像在形狀和透視上相似時(shí),它圖像合成效果特別好。然而,當(dāng)內(nèi)容圖像和風(fēng)格圖像在透視和結(jié)構(gòu)上有很大差異時(shí),由于圖像塊不能正確匹配,因而在保留深度信息和精細(xì)的結(jié)構(gòu)方面也遭到了限制。
盡管基于圖像優(yōu)化的圖像風(fēng)格遷移能夠產(chǎn)生令人印象深刻的風(fēng)格化圖像,但仍然存在計(jì)算效率低下的問題。而第二類基于模型優(yōu)化的風(fēng)格遷移方法通過利用已訓(xùn)練好的可合成風(fēng)格化結(jié)果圖的網(wǎng)絡(luò)生成模型,很大程度上解決了計(jì)算速度及成本的問題,即通過大量圖像Ic優(yōu)化前饋神經(jīng)網(wǎng)絡(luò)g,用于一個(gè)或多個(gè)風(fēng)格圖像Ic:
根據(jù)單個(gè)前饋神經(jīng)網(wǎng)絡(luò)g 可以產(chǎn)生的藝術(shù)風(fēng)格的數(shù)量,基于模型優(yōu)化算法進(jìn)一步分為單模型單風(fēng)格的風(fēng)格遷移算法、單模型多風(fēng)格的風(fēng)格遷移算法和單模型任意風(fēng)格的風(fēng)格遷移算法。
2.2.1 單模型單風(fēng)格的風(fēng)格遷移算法
(1)基于統(tǒng)計(jì)分布的參數(shù)化單模型單風(fēng)格的風(fēng)格遷移
前兩個(gè)基于模型優(yōu)化的圖像風(fēng)格遷移算法是由Johnson 和Ulyanov 分別提出的。這兩種方法思想相同,那就是預(yù)先訓(xùn)練好一個(gè)前向神經(jīng)網(wǎng)絡(luò),通過該模型生成一個(gè)風(fēng)格化的結(jié)果圖。兩者只是在神經(jīng)網(wǎng)絡(luò)架構(gòu)上面有所不同,Johnson 的架構(gòu)設(shè)計(jì)是基于Radford 等人所提出的殘差神經(jīng)網(wǎng)絡(luò)[13],Ulyanov 使用了多尺度架構(gòu)神經(jīng)網(wǎng)絡(luò)。兩者損失函數(shù)類似于Gatys 等人的算法,都使用Gram 矩陣來進(jìn)行風(fēng)格化建模。
之后,Ulyanov 等人[14]進(jìn)一步發(fā)現(xiàn),簡(jiǎn)單地將歸一化應(yīng)用于每一單個(gè)圖像而不是批圖像將顯著改進(jìn)風(fēng)格化圖像質(zhì)量。這種單一圖像歸一化被稱為實(shí)例歸一化(Instance Normalisation,IN),這相當(dāng)于當(dāng)批次大小設(shè)置為1時(shí)的批次歸一化(Batch Normalization,BN)。使用IN 的風(fēng)格遷移網(wǎng)絡(luò)顯示出比BN 更快的收斂速度,并且在視覺上也取得了更好的效果。IN 是風(fēng)格標(biāo)準(zhǔn)化的一種形式,可以直接將每個(gè)內(nèi)容圖像的風(fēng)格標(biāo)準(zhǔn)化為所需的風(fēng)格[15]。
(2)基于MRF 的非參數(shù)化單模型單風(fēng)格的風(fēng)格遷移
Li 和Wand[16]的另一項(xiàng)工作是受第2.1.2 節(jié)中基于MRF 的神經(jīng)網(wǎng)絡(luò)風(fēng)格遷移[17]算法的啟發(fā)。他們利用對(duì)抗性訓(xùn)練來解決馬爾可夫前向網(wǎng)絡(luò)的效率問題。他們的算法是一種基于馬爾可夫的非參數(shù)方法。他們的方法被證明優(yōu)于Johnson 和Ulyanov 等人的算法,在紋理及結(jié)構(gòu)復(fù)雜的圖像中能保持一貫連續(xù)的紋理,這要?dú)w功于它們基于區(qū)塊的設(shè)計(jì)。然而,他們的算法對(duì)于非紋理性風(fēng)格(例如人臉圖像)的性能不太令人滿意,因?yàn)樗麄兊乃惴ㄈ狈φZ義方面的考慮。
2.2.2 單模型多風(fēng)格的風(fēng)格遷移算法
上述單模型單風(fēng)格模型必須為每個(gè)特定風(fēng)格圖像訓(xùn)練單獨(dú)的生成神經(jīng)網(wǎng)絡(luò),這相當(dāng)耗時(shí)且不靈活。許多繪畫(例如印象派繪畫)都有相似的繪畫筆觸,只是調(diào)色板不同??陀^地說,利用一個(gè)單獨(dú)的神經(jīng)網(wǎng)絡(luò)來為每一種風(fēng)格進(jìn)行訓(xùn)練是多余的。因此,單模型多風(fēng)格被提出,它通過將多種風(fēng)格進(jìn)一步融合到一個(gè)單一模型中,提高了單模型單風(fēng)格的靈活性。解決這個(gè)問題通常有兩種途徑,具體如下。
(1)每種風(fēng)格只綁定少量參數(shù)
Dumoulin 等人[18]研究發(fā)現(xiàn)在卷積神經(jīng)網(wǎng)絡(luò)中,使用相同的卷積參數(shù),僅對(duì)IN 層中參數(shù)進(jìn)行仿射變換就足以模擬不同的樣式。因此,他們提出了一種基于條件實(shí)例歸一化(Conditional Instance Normalization,CIN)的多風(fēng)格遷移模型,其定義如下:
其中F 是輸入特征表示,s 是一組風(fēng)格圖像中所需風(fēng)格的索引。如式(6)所示,在歸一化特征表示F(Ic)之后,通過縮放和移動(dòng)參數(shù)γ 和β 來完成對(duì)每種風(fēng)格的條件處理,即每種風(fēng)格都可以通過參數(shù)的仿射變換來實(shí)現(xiàn)。此外,Dumoulin 等人的算法還可以擴(kuò)展為通過組合不同風(fēng)格的仿射參數(shù)在單個(gè)風(fēng)格結(jié)果中組合多個(gè)風(fēng)格。
(2)將風(fēng)格和內(nèi)容結(jié)合起來作為輸入
第一類多風(fēng)格模型缺點(diǎn)是模型大小會(huì)隨著風(fēng)格數(shù)量的增多而增加。而第二類多風(fēng)格模型打破了這一限制,它充分探索了單個(gè)網(wǎng)絡(luò)的能力,并將內(nèi)容和風(fēng)格結(jié)合到網(wǎng)絡(luò)中以識(shí)別風(fēng)格。
對(duì)于給定N 個(gè)目標(biāo)風(fēng)格,Li 等人[19]設(shè)計(jì)一個(gè)用于風(fēng)格選擇的選擇單元,它是一個(gè)N 維one-hot 向量。對(duì)應(yīng)每一種風(fēng)格,Li 等人首先從均勻分布中采樣對(duì)應(yīng)的噪聲映射f(Is),然后將f(Is)輸入風(fēng)格子網(wǎng)絡(luò)模型以獲得對(duì)應(yīng)的風(fēng)格編碼特征F(f(Is))。通過將風(fēng)格編碼特征F(f(Is))和圖像內(nèi)容編碼特征Enc(Ic)的鏈接到一起輸入到風(fēng)格遷移神經(jīng)網(wǎng)絡(luò)中的解碼器模塊Dec中,就可產(chǎn)生期望的風(fēng)格化結(jié)果:I=Dec(F(f(Is))⊕Enc(Ic))。
2.2.3 單模型任意風(fēng)格的風(fēng)格遷移算法
多風(fēng)格模型雖然一定程度上解決了模型尺寸的問題,不過生成一種新的風(fēng)格仍需有額外時(shí)間來進(jìn)行訓(xùn)練。而后任意風(fēng)格模型出現(xiàn)了,即通過單一模型來生成任意風(fēng)格圖像。任意風(fēng)格模型分為兩類。
(1)基于MRF 的非參數(shù)化任意風(fēng)格遷移模型
Chen 和Schmidt[20]通過從預(yù)先訓(xùn)練的VGG 網(wǎng)絡(luò)特征空間中找到與內(nèi)容區(qū)塊匹配的風(fēng)格區(qū)塊后,將內(nèi)容區(qū)塊和風(fēng)格區(qū)塊進(jìn)行交換,之后用圖像重建算法對(duì)交換得到的特征圖進(jìn)行快速重建。該算法比之以往的風(fēng)格遷移算法更加靈活,可生成任意風(fēng)格圖像。但是風(fēng)格化圖像往往不盡人意,因?yàn)轱L(fēng)格交換時(shí)內(nèi)容區(qū)塊通常與不代表所需風(fēng)格的風(fēng)格區(qū)塊交換。所以風(fēng)格通常不能很好地體現(xiàn)出來。
(2)基于統(tǒng)計(jì)分布的參數(shù)化任意風(fēng)格遷移模型
受基于條件實(shí)例歸一化多風(fēng)格遷移模型[18]中CIN層啟發(fā),Huang 和Belongie[15]提出了自適應(yīng)實(shí)例歸一化(Adaptive Instance Normalization,AdaIN),其定義如下:
AdaIN 在內(nèi)容和風(fēng)格特征空間之間傳遞信道均值和方差特征統(tǒng)計(jì)信息,且該風(fēng)格遷移網(wǎng)絡(luò)中的編碼器是固定的,解碼器部分需要使用大量風(fēng)格和內(nèi)容圖像進(jìn)行訓(xùn)練,以將AdaIN 之后的特征信息解碼為風(fēng)格化結(jié)果:
Huang 和Belongie 的算法能實(shí)時(shí)實(shí)現(xiàn)風(fēng)格化。然而,該算法需以數(shù)據(jù)驅(qū)動(dòng)的方式在大體量風(fēng)格和內(nèi)容圖上進(jìn)行訓(xùn)練。此外,簡(jiǎn)單地調(diào)整信道均值和方差使得很難生成具有細(xì)節(jié)豐富和結(jié)構(gòu)復(fù)雜的風(fēng)格效果圖。
隨著神經(jīng)網(wǎng)絡(luò)風(fēng)格遷移算法的研究的深入,圖像風(fēng)格化效果有很高的提升,具有極高的的商業(yè)價(jià)值。本節(jié)將總結(jié)這些主流風(fēng)格遷移應(yīng)用方向。
如今,社交網(wǎng)絡(luò)中流通的大多數(shù)圖像都已經(jīng)過數(shù)字圖像處理,基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移的出現(xiàn)給圖像處理領(lǐng)域注入新的活力。最近出現(xiàn)的名為Prisma[21]的移動(dòng)應(yīng)用程序是首批將基于神經(jīng)網(wǎng)絡(luò)風(fēng)格遷移算法作為服務(wù)提供的商業(yè)應(yīng)用程序之一。由于其圖像風(fēng)格化的高質(zhì)量,Prisma 取得了巨大的成功,并在世界各地流行起來。一些其他提供相同服務(wù)的應(yīng)用程序也相繼出現(xiàn)。在這些應(yīng)用程序的幫助下,人們可以任意創(chuàng)作自己的藝術(shù)畫,并在社交平臺(tái)上與他人分享自己的藝術(shù)品。
也有一些相關(guān)的應(yīng)用論文:Chen 等人[22]提出了一種感知內(nèi)容的風(fēng)格遷移方法,圖像修復(fù)領(lǐng)域可應(yīng)用該方法進(jìn)行有效修復(fù);Zhang 等人[23]提出了一種給漫畫草稿圖添加色彩的技術(shù)。
基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移的另一個(gè)用途是讓它充當(dāng)用戶風(fēng)格設(shè)計(jì)輔助工具。雖然在創(chuàng)建工具中還沒有流行的應(yīng)用基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移技術(shù),但我們相信它在未來將是一個(gè)有前途的潛在應(yīng)用。作為畫家和設(shè)計(jì)師的創(chuàng)作工具,基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移可以讓畫家更方便地創(chuàng)作特定風(fēng)格的藝術(shù)品,尤其是在創(chuàng)作電腦制作的藝術(shù)品時(shí)。此外,有了基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移算法,為時(shí)裝設(shè)計(jì)師制作風(fēng)格化的時(shí)尚元素和為各種風(fēng)格的建筑師制作風(fēng)格化的CAD 圖紙都很簡(jiǎn)單,而手工制作這些圖紙的成本會(huì)很高。
一些娛樂應(yīng)用程序,如電影、動(dòng)畫和游戲也可應(yīng)用基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移。例如,創(chuàng)建一個(gè)動(dòng)畫通常需要8 到24 幀每秒。如果基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移能夠自動(dòng)將真人視頻轉(zhuǎn)化為動(dòng)畫風(fēng)格,制作成本將大大降低。同樣,在一些電影和電腦游戲的創(chuàng)作中,基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移可以大大節(jié)省時(shí)間和成本。
基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移算法已經(jīng)具有了較好的性能,一些算法已經(jīng)在工業(yè)應(yīng)用中找到了用武之地,但仍然存在一些挑戰(zhàn)。
(1)參數(shù)調(diào)整。為獲得風(fēng)格化理想的圖像結(jié)果,都需要手動(dòng)調(diào)整參數(shù),尤其是基于模型優(yōu)化方法,每次調(diào)整模型參數(shù)后都需重新訓(xùn)練模型。雖然Li[25]等人提出了一種不需要學(xué)習(xí)訓(xùn)練的方式來進(jìn)行任意風(fēng)格遷移的方法能減輕參數(shù)調(diào)整的問題,且不需為不同風(fēng)格單獨(dú)訓(xùn)練模型,但是該方法的訓(xùn)練過程較為復(fù)雜,圖像合成效果也不顯著。因此,找到一種簡(jiǎn)單可控且可保證圖像質(zhì)量的方案是下一個(gè)研究的重心。
(2)預(yù)訓(xùn)練模型的限制?,F(xiàn)如今,絕大多的計(jì)算機(jī)學(xué)者都使用VGG 模型來進(jìn)行圖像特征提取。VGG 是一個(gè)體量龐大的神經(jīng)網(wǎng)絡(luò)模型,對(duì)于圖像特征提取這一方面效果顯著,但同時(shí)VGG 也存在計(jì)算量巨大的問題,因而,微小型的特征提取器是基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移未來發(fā)展趨勢(shì)。生成對(duì)抗性網(wǎng)絡(luò)或許能突破預(yù)訓(xùn)練模型的這一限制,因?yàn)樯墒綄?duì)抗網(wǎng)絡(luò)能合成更加真實(shí)的圖像,生成器和判別器的對(duì)抗性訓(xùn)練在提取圖像特征方面也具有較為理想的結(jié)果。
(3)評(píng)價(jià)體系風(fēng)格遷移評(píng)價(jià)體系的完善。風(fēng)格遷移評(píng)價(jià)體系還處于初始階段,需要有更加完善的數(shù)學(xué)方法和理論指導(dǎo)。風(fēng)格遷移評(píng)價(jià)體系完備對(duì)基于深度學(xué)習(xí)的圖像風(fēng)格遷移的未來發(fā)展具有十分重要的意義。
在本文中,首先對(duì)圖像風(fēng)格遷移的應(yīng)用前景進(jìn)行了概述和分析,然后再對(duì)圖像風(fēng)格遷移中存在的問題還有未來的發(fā)展方向做了進(jìn)一步的探討。關(guān)于圖像風(fēng)格遷移技術(shù),雖然現(xiàn)有技術(shù)已經(jīng)成功應(yīng)用到多個(gè)領(lǐng)域,但是未來還有很大的空間去進(jìn)行完善。最后,風(fēng)格遷移技術(shù)一直以來是一個(gè)具有廣大前景的方向,堅(jiān)持對(duì)風(fēng)格圖像遷移技術(shù)的研究具有深遠(yuǎn)的研究意義。