蔡湧達(dá) 徐佐騰 葉武劍 劉怡俊 王振友 何霽軒 劉峰
摘要:傳統(tǒng)的字體特效通常由人工完成設(shè)計(jì),這耗費(fèi)大量的人力物力。為了提高字體特效的生成效率,提出了一種基于風(fēng)格遷移的字體特效渲染方法。該方法首先使用VGG-19網(wǎng)絡(luò)提取圖片特征值,然后根據(jù)Gram矩陣計(jì)算特征值之間的差距作為損失函數(shù)。經(jīng)過梯度下降迭代優(yōu)化算法最小化損失函數(shù)可以將輸入風(fēng)格圖片的風(fēng)格逐漸遷移到字體中。實(shí)驗(yàn)結(jié)果顯示大部分生成的字體能夠很好地將圖片中的風(fēng)格信息遷移到字體圖片中,達(dá)到了字體特效渲染藝術(shù)效果。
關(guān)鍵詞:字體特效渲染;風(fēng)格遷移;VGG-19; Gram矩陣;特征值
中圖分類號:TP39 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2019)04-0151-03
Abstract: Traditional font effects were designed by artificial which is spending a lot of time and resources. In order to enhance the font effects generate effectiveness, we put forward a font effects translate method based on style neural transfer. The method firstly extract feature from style picture by using VGG-19 net. According to Gram matrix we can obtain the lost function between style picture and generated picture. Then, we minimize the lost function by using gradient descent method. The style of style picture can transfer to font picture for several times iterative optimization . The experimental result shows that lots of generated picture can transform style to font picture which achieve the art effect of font effects rendering.
Key words: font effects rendering; style transform; VGG-19; Gram matrix; feature value
1引言
字體特效在生活中無處不在,街頭巷尾的廣告、傳單、標(biāo)識和部分商標(biāo)一般會使用加工過的字體以吸引人們的閱讀興趣。傳統(tǒng)字體特效的設(shè)計(jì)過程通常是由人工完成,這耗費(fèi)了大量的人力物力。而且,人工設(shè)計(jì)的藝術(shù)字還有一個(gè)缺點(diǎn),設(shè)計(jì)出來的某一特定字體的風(fēng)格不能遷移到另一個(gè)字體上。因此,借助計(jì)算機(jī)科學(xué)技術(shù)實(shí)現(xiàn)文字風(fēng)格的設(shè)計(jì)逐漸成為圖像風(fēng)格遷移領(lǐng)域的一個(gè)研究熱點(diǎn)問題。
2相關(guān)工作
隨著深度學(xué)習(xí)技術(shù)發(fā)展,圖像風(fēng)格遷移方法取得了很大的進(jìn)步。圖像風(fēng)格遷移方法可以歸納為藝術(shù)風(fēng)格遷移,神經(jīng)風(fēng)格遷移以及這兩種風(fēng)格遷移方法的改進(jìn)和擴(kuò)展三種類型 [1]。其中,神經(jīng)風(fēng)格遷移方法受到廣泛關(guān)注 [2-3]。文獻(xiàn) [2]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移方法。這種方法通過卷積神經(jīng)網(wǎng)絡(luò)來合成紋理來融合輸入風(fēng)格圖片的風(fēng)格和輸入內(nèi)容圖片的內(nèi)容。文獻(xiàn) [4]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的多尺度合成方法,它首先通過使用直方圖損失來解決合成紋理的不穩(wěn)定的問題。此外它還展示了如何進(jìn)行多尺度框架中整合到風(fēng)格遷移對象的風(fēng)格損失。這些損失可以改善分離內(nèi)容和風(fēng)格的比例,使得經(jīng)過遷移的圖片視覺效果更加自然。為了使遷移后的風(fēng)格圖片更加體現(xiàn)細(xì)節(jié)特征,Shaohua Li等人在卷積神經(jīng)網(wǎng)絡(luò)中引入拉普拉斯損失 [5]。實(shí)驗(yàn)結(jié)果顯示該損失能夠保存輸入內(nèi)容圖片的很多細(xì)節(jié)信息。
上面介紹的大多數(shù)是圖像優(yōu)化慢神經(jīng)方法,還有一種圖像優(yōu)化快速神經(jīng)方法 [1]。文獻(xiàn) [3]提出使用感知損失函數(shù)來訓(xùn)練前饋網(wǎng)絡(luò)以進(jìn)行圖像轉(zhuǎn)換任務(wù)。該方法結(jié)合了輸入圖片與目標(biāo)圖片之間的像素級損失和從預(yù)訓(xùn)練網(wǎng)絡(luò)提取的高級特征來定義和優(yōu)化感知損失函數(shù)。論文中的結(jié)果顯示其優(yōu)化速度得到很大的提高。Yijun Li提出了一種深度生成的前饋網(wǎng)絡(luò),它可以在一個(gè)網(wǎng)絡(luò)中有效地合成多個(gè)紋理,并在它們之間進(jìn)行有意義的插值 [6]。這是一種一個(gè)模型融合多種風(fēng)格的遷移方法。另外,還有一種一個(gè)模型融合任意風(fēng)格的方法 [7]。該方法的核心是一個(gè)自適應(yīng)實(shí)例正則化(AdaIN)層,用于對齊平均值和方差內(nèi)容功能與樣式功能。這種方法具有很快的速度,沒有對預(yù)定義樣式集的限制。
作為圖像風(fēng)格遷移方法研究和應(yīng)用領(lǐng)域的一個(gè)延伸,文本風(fēng)格遷移正受到學(xué)者的關(guān)注 [8]。文獻(xiàn) [8]提出了基于統(tǒng)計(jì)的方法來進(jìn)行文本風(fēng)格遷移。文中提出了一個(gè)具有三個(gè)互補(bǔ)項(xiàng)的目標(biāo)函數(shù),以綜合考慮圖像局部多尺度紋理、圖像全局分布和視覺效果。但是,這種方法對輸入圖片的要求比較高,擴(kuò)展應(yīng)用相對困難。
在本文中提出了基于卷積神經(jīng)網(wǎng)絡(luò)的字體特效遷移方法。應(yīng)用Gatys [2]的風(fēng)格化方法對字體特效風(fēng)格進(jìn)行特效遷移,實(shí)現(xiàn)內(nèi)容圖到特效圖的轉(zhuǎn)換。生成圖的初始圖片為一般字體圖片,這樣的好處是在迭代過程中可以不用計(jì)算內(nèi)容損失只需要考慮風(fēng)格損失的問題,本方法可實(shí)現(xiàn)任意字體的特效渲染,并取得不錯(cuò)效果,有利于輔助字體效果設(shè)計(jì)等相關(guān)領(lǐng)域。
3 文本風(fēng)格轉(zhuǎn)換原理
3.1 VGG網(wǎng)絡(luò)
VGG網(wǎng)絡(luò)主要是從Alex-Net發(fā)展而來的。它采用3*3的卷積核能夠很好地提取圖像的特征信息。由于其結(jié)構(gòu)是多個(gè)卷積層與非線性的激活層相互替換的,深層的特征信息得以被挖掘。VGG-19網(wǎng)絡(luò)如圖1所示 [10],它包含輸入和輸出,五個(gè)卷積層,五個(gè)池化層以及三個(gè)全連接層。其中,Conv_layer1包含2層3*3的卷積核64個(gè),Conv_layer2包含2層3*3的卷積核128個(gè),Conv_layer3包含4層3*3的卷積核256個(gè),Conv_layer4包含4層3*3的卷積核512個(gè),Conv_layer5也是含有4層3*3的卷積核512個(gè)。池化層對特征數(shù)據(jù)進(jìn)行最大池化。由于在風(fēng)格轉(zhuǎn)換過程中使用VGG網(wǎng)絡(luò)是為了提取特征,所以在本文中只使用Conv_layer5輸出的特征數(shù)據(jù)。
3.2 風(fēng)格轉(zhuǎn)換原理
假設(shè)有一張風(fēng)格圖像[s]和字體圖像[c]。對風(fēng)格圖像[s]使用VGG-19卷積網(wǎng)絡(luò)提取特征值,特征值組成的集合記為[S]。
與此同時(shí),對字體圖像 使用VGG-19卷積網(wǎng)絡(luò)提取特征值,特征值組成的集合記為集合[C]。我們的優(yōu)化目的是使得重構(gòu)圖片[r]的內(nèi)容可以保持字體圖像的內(nèi)容信息同時(shí)又具有風(fēng)格圖像的風(fēng)格。
由于使用字體圖片作為生成圖的初始圖片,故只考慮風(fēng)格表示問題。建立風(fēng)格表示我們需要引入Gram矩陣。Gram矩陣可以計(jì)算出每一層的特征值之間的關(guān)系。假設(shè)某一層特征值集可以表示成[Fl∈RNl×Ml]這里[Nl]和[Ml]表示特征值集的長和寬。那么特征集中的一個(gè)元素就可以表示為[Flij]。從而Gram矩陣的一個(gè)元素計(jì)算公式如式子(1)所示 [2]。
3.3 文本遷移結(jié)構(gòu)
本文文本遷移迭代優(yōu)化結(jié)構(gòu)如圖2所示。在輸入層包含風(fēng)格圖片、生成圖像首張圖片。風(fēng)格圖片進(jìn)入迭代操作后使用卷積層和池化層交叉的方法依次提取圖片特征值。優(yōu)化過程采用梯度下降法,如在卷積層5輸出的是特征值集合[SL],每次迭代都會計(jì)算生成圖的全部卷積層其卷積層5輸出的是特征值集合[GL]。那么根據(jù)公式(2)可以得到損失函數(shù)[EL],再根據(jù)公式(3)計(jì)算總的損失函數(shù)[Ltotal],然后根據(jù)梯度下降法對生成圖進(jìn)行更新。
4 實(shí)驗(yàn)結(jié)果
如圖3,分析實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)經(jīng)過500次優(yōu)化迭代,風(fēng)格圖的風(fēng)格已經(jīng)能夠遷移一部分到字體中。經(jīng)過3000次迭代,生成的藝術(shù)字已經(jīng)能夠達(dá)到良好的藝術(shù)效果。但是,實(shí)驗(yàn)發(fā)現(xiàn)藝術(shù)字生成效果受原始的遷移文本圖的影響很大。如圖4所示,輸入白底黑字的“竹”字,即使經(jīng)過2500次優(yōu)化迭代其生成效果也很糟糕。這說明只有遷移文本圖的背景與風(fēng)格圖的背景相同或相似才能在使用本文方法中獲得良好的藝術(shù)效果。
這是因?yàn)樵谔卣魈崛∵^程中,從風(fēng)格圖片中提取的特征值已經(jīng)把風(fēng)格和背景分別提取出來了。當(dāng)輸入字體的背景與風(fēng)格背景相同或者相似時(shí),風(fēng)格就能夠遷移到字體上。反之,如果風(fēng)格背景與字體顏色相近,生成的字體也就更多地體現(xiàn)背景特征而不能夠把風(fēng)格遷移到字體上。
第1列為輸入的風(fēng)格圖片,第2列為輸入的字體圖片它作為生成圖的首張圖片,第3列為500次迭代優(yōu)化的藝術(shù)字生成圖,第4列為3000次迭代優(yōu)化的藝術(shù)字生成圖。
第1列為輸入的風(fēng)格遷移文本圖,第2-6列為迭代不同次數(shù)的實(shí)驗(yàn)結(jié)果圖。
4 結(jié)論
本文提出了一種基于風(fēng)格遷移的字體特效渲染方法。該方法通過輸入一張風(fēng)格圖片和一張字體圖片,經(jīng)過數(shù)次迭代優(yōu)化就可以生成具有藝術(shù)效果的字體特效。但是,部分字體圖片中字體顏色與風(fēng)格圖片背景顏色相同或者相似的在實(shí)驗(yàn)中不能起到很好的渲染效果。所以下一步要對現(xiàn)有方法進(jìn)一步改進(jìn),使該方法對輸入的任何字體背景都能進(jìn)行很好地進(jìn)行風(fēng)格渲染。
參考文獻(xiàn):
[1] Jing Y, Yang Y, Feng Z, et al. Neural Style Transfer: A Review[OL]. [2017-05-11], http://cn.arxiv.org/abs/1705.04058.
[2] Gatys L A, Ecker A S, Bethge M. Image Style Transfer Using Convolutional Neural Networks[C]. Computer Vision and Pattern Recognition. IEEE, 2016:2414-2423.
[3] Johnson J, Alahi A, Li F F. Perceptual Losses for Real-Time Style Transfer and Super-Resolution[C]. European Conference on Computer Vision. Springer, Cham, 2016:694-711.
[4] Risser E, Wilmot P, Barnes C. Stable and Controllable Neural Texture Synthesis and Style Transfer Using Histogram Losses[OL]. [2017-02-01] http://cn.arxiv.org/abs/1701.08893.
[5] Li S, Xu X, Nie L, et al. Laplacian-Steered Neural Style Transfer[C. Proceeding MM '17 Proceedings of the 2017 ACM on Multimedia Conference 2017:1716-1724.
[6] Y. Li, C. Fang, J. Yang, Z. Wang, X. Lu and M. Yang. Diversified Texture Synthesis with Feed-Forward Networks[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, Hawaii, USA. 2017:266-274.
[7] X. Huang and S. Belongie. Arbitrary Style Transfer in Real-Time with Adaptive Instance Normalization[C]. 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, 2018:1510-1519.
[8] S. Yang, J. Liu, Z. Lian, and Z. Guo. Awesome typography: Statistics-based text effects transfer[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017:7464-7473.
[9] Isola P, Zhu J Y, Zhou T, et al. Image-to-Image Translation with Conditional Adversarial Networks[C]. 30th IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2016:5967-5976.
[10] Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[OL]. [2015-08-10], http://cn.arxiv.org/abs/1409.1556.
【通聯(lián)編輯:唐一東】