關鍵人臉輪廓區(qū)域卡通風格化生成算法

2021-04-10 05:56范林龍張笑欽

圖學學報 2021年1期

范林龍，李毅，張笑欽

范林龍1，李毅1，張笑欽2

(1. 溫州大學計算機與人工智能學院，浙江溫州 325035； 2. 溫州大學大數(shù)據(jù)與信息技術研究院，浙江溫州 325035)

針對人臉輪廓特征區(qū)域的局部化限定，結合關鍵特征點的提取和臉部鄰近顏色區(qū)域的融合，并引入注意力機制，提出了一種基于CycleGAN的關鍵人臉輪廓區(qū)域卡通風格化生成算法，以此作為初始樣本構建生成對抗網(wǎng)絡(GAN)并獲取自然融合的局部卡通風格化人臉圖像。利用人臉輪廓及關鍵特征點進行提取，結合顏色特征信息限定關鍵人臉風格化區(qū)域，并通過局部區(qū)域二值化生成關鍵區(qū)域人臉預處理的采樣圖像；為了使生成圖像能夠自然匹配所提取特征區(qū)域，利用均值濾波操作對所提取區(qū)域的邊緣輪廓進行平滑羽化處理，并相應地擴展風格化生成圖像的過渡區(qū)域；最后通過構建基于無監(jiān)督學習的生成對抗網(wǎng)絡，使用訓練數(shù)據(jù)集進行人臉圖像局部輪廓特征區(qū)域的卡通風格化生成。算法對人臉輪廓區(qū)域的邊緣及鄰近區(qū)域顏色進行濾波處理，可實現(xiàn)良好的邊緣輪廓過渡融合，生成自然的人臉局部輪廓區(qū)域的卡通風格化圖像。實驗結果表明，該算法對于人臉圖像的生成具有很高的魯棒性，能夠應用于各種尺度人臉圖像的風格化生成。

人臉特征；局部區(qū)域；對抗生成網(wǎng)絡；風格化

人臉特征已廣泛地應用于人臉輪廓提取、分割、識別[1-3]、檢索[4-5]和分類等眾多研究領域。作為人體自然特征最重要的表征區(qū)域，人臉輪廓和關鍵器官特征點的提取技術，對于人體的生物識別、目標跟蹤和行為分析具有非常重要的理論價值。尤其是在基于機器視覺技術的人工智能領域，快速并準確的人臉特征提取經(jīng)常作為算法的首要條件之一。

近年來，基于特征提取的人臉關鍵區(qū)域風格化生成技術受到了市場的極大關注[6-7]。涌現(xiàn)了一大批基于人臉區(qū)域特征提取的應用技術[8-9]，如人臉圖像的編輯美化、視頻人臉風格貼圖、“變臉”(Deepfakes)等，在影視娛樂、動漫游戲、廣告宣傳領域得到了廣泛應用。采用傳統(tǒng)的圖像處理技術，能夠?qū)崿F(xiàn)人臉關鍵特征的風格改變和遷移，從而達到美化人臉圖像的目的。隨著計算機視覺領域的發(fā)展，采用深度學習技術，能夠?qū)崿F(xiàn)更加智能快速的人臉特征風格化及特征融合。

傳統(tǒng)的人臉風格化方法是利用圖像處理的技術[10]，通過提取人臉面部特征位置，根據(jù)所需表情從素材庫中調(diào)取相應的五官貼圖，進行匹配或替換生成卡通圖像；在視頻圖像處理領域[11]，利用非真實感渲染，通過學習特定風格的筆觸特征[12]，模擬表現(xiàn)人臉區(qū)域的藝術化特質(zhì)；在圖像濾波研究領域，研究人員利用Kuwahara濾波器[13]平滑權重函數(shù)代替矩形區(qū)域，考慮各向異性的權重函數(shù)形成聚類的方法，能夠在平滑圖像的同時保留圖像有意義的邊緣信息，從而提高圖像風格化的結果。

近年來，隨著深度學習的快速發(fā)展，基于對抗生成網(wǎng)絡(generative adversarial networks，GAN)的人臉生成領域成為研究熱點[14-15]。在人臉圖像合成領域，F(xiàn)aceID-GAN將傳統(tǒng)的GAN進行擴展，通過加入分類器，確保了生成的人臉具有高質(zhì)量的身份保留輸出，并遵循網(wǎng)絡信息的對稱性特點，減小訓練難度，以實現(xiàn)多視角和表情的人臉圖像生成。清華大學的學者提出了一種專用的全局場景卡通風格化的GAN架構的CartoonGAN[16]，能夠有效地學習使用不成對的數(shù)據(jù)集進行訓練，通過利用稀疏正則化語義損失函數(shù)，推進了邊緣的對抗損失，保證了清晰的生成圖像邊緣。最近，一種新的標簽協(xié)助加強版CycleGAN網(wǎng)絡被提出生成卡通風格化人臉圖像[17]，通過面部特征定義一致性的同時，指導在網(wǎng)絡模型中訓練局部鑒別器，從用戶研究、特定辨識度、結果的總體評價3個方向?qū)W(wǎng)絡進行構建研究，使最終的生成圖像取得了很好的結果。本文基于CycleGAN的深度學習網(wǎng)絡架構，對于局部關鍵區(qū)域卡通風格化的研究，結合人臉輪廓區(qū)域分割技術，局部特征的稀疏化提取，能夠有效地減少網(wǎng)絡的學習時間，具有很大地應用價值。

基于CycleGAN技術的關鍵人臉輪廓區(qū)域卡通風格化生成算法，如圖1所示。通過人臉輪廓特征區(qū)域的局部化限定，結合關鍵特征點的提取和臉部鄰近顏色區(qū)域的融合，并引入無監(jiān)督學習的注意力機制(attention mechanism)，以此作為初始樣本構建GAN并獲取自然融合的局部卡通風格化人臉圖像。

圖1 人臉關鍵特征區(qū)域和局部卡通風格化

本文首先利用人臉輪廓及關鍵特征點進行提取，結合顏色特征信息限定關鍵人臉風格化區(qū)域，并通過局部區(qū)域二值化生成特征區(qū)域人臉預處理的采樣圖像；為了使生成圖像能夠自然匹配所提取特征區(qū)域，利用均值濾波操作對所提取區(qū)域的邊緣輪廓進行平滑羽化處理，并相應地擴展風格化生成圖像的過渡區(qū)域；然后通過構建基于CycleGAN的GAN，調(diào)整樣本區(qū)域進行訓練學習；最后，使用訓練數(shù)據(jù)集進行人臉圖像局部輪廓特征區(qū)域的卡通風格化生成。具體步驟如下：

步驟1. 首先輸入一張圖片，利用DLIB的HOG特征檢測器檢測人臉區(qū)域，得到包圍區(qū)域頂點坐標；根據(jù)頂點坐標，確定人臉矩形框，同時計算獲得一個最小化人臉橢圓特征區(qū)域，將此橢圓區(qū)域記為Mask 1。

步驟2. 限定矩形區(qū)域內(nèi)人臉關鍵點，通過68點的關鍵點檢測方法，得到人臉特征關鍵點區(qū)域Mask 2。同時采集計算臉部區(qū)域膚色獲得感興趣區(qū)(region of interest，ROI) Mask 3。通過計算獲得最終人臉學習ROI區(qū)域Mask。

步驟3.根據(jù)所得ROI區(qū)域，結合構建基于U-GAT-IT方法的無監(jiān)督注意力機制網(wǎng)絡來實現(xiàn)圖像的轉(zhuǎn)化與融合。通過與Mask進行并集計算，獲得局部區(qū)域內(nèi)的卡通生成圖像。

步驟4. 最后利用泊松融合的方法將轉(zhuǎn)換后的圖像與原始圖片進行融合。同時，對于臉部區(qū)域不夠明顯的區(qū)域，采用均值濾波，通過調(diào)整網(wǎng)絡卷積核大小來進行臉部輪廓邊緣的平滑操作，能夠達到很好地擴寬過度邊緣的效果。算法框架流程如圖2所示。

圖2 人臉關鍵區(qū)域風格化生成算法流程圖

1 人臉局部特征區(qū)域的風格化方法設計

1.1 基于人臉關鍵特征的輪廓提取

Mask 1. 在計算機視覺及圖像處理中，梯度方向直方圖(histogram oriented gradient，HOG)是一種基于形狀邊緣特征，能對物體進行檢測的描述算子，基本思想是利用梯度信息很好地反映圖像目標的邊緣信息，并通過局部梯度的大小將圖像局部的外觀和形狀特征化。利用DLIB的HOG特征檢測器檢測人臉區(qū)域[1]，即

其中，G，G，(,)分別為像素點(,)在水平方向及垂直方向的梯度以及像素的灰度值。

最終得到包圍區(qū)域頂點坐標，通過這2個點可以計算出中心坐標及半徑。根據(jù)面部特征盡可能去擬合額頭區(qū)域。

Mask 2.關鍵點算法是基于集成回歸樹(ensemble of regression tress，ERT)算法，即梯度提高學習的回歸樹方法，如圖3所示。該算法通過建立一個級聯(lián)的殘差回歸樹(gradient boosting decistion tree，GBDT)使人臉的當前形狀逐步回歸到真實形狀。每一個GBDT的每一個葉子節(jié)點上均存儲著一個殘差回歸量，當輸入落到一個節(jié)點時，就將殘差加到該輸入上，起到回歸的目的，最終將所有殘差疊加在一起，就完成了人臉對齊的目的，即

其中，為第t級回歸器的形狀，是一個由坐標組成的向量，更新策略采用GBDT梯度提升決策樹，即每級回歸器學習均是當前形狀與樣本形狀的殘差。

最終得到68個關鍵點的坐標，包含眼鏡、眉毛、鼻子、嘴巴等主要特征，取最外層27個點得到一個不規(guī)則形狀Mask 2，如圖4所示。

Mask 3. 根據(jù)膚色提取特征，采用YCrCb顏色空間Cr分量+Otsu法閾值分割。

圖4 關鍵點坐標圖

(1) 將RGB圖像轉(zhuǎn)換到YCrCb顏色空間，提取Cr分量圖像；

(2) 對Cr做自二值化閾值分割處理(Otsu算法)。Otsu算法(最大類間方差法)采用的是聚類的思想，將圖像的灰度數(shù)按灰度級分成2個部分，并使其灰度值差異最大，每個部分之間的灰度差異最小，通過方差的計算尋找一個合適的灰度級別進行劃分。在二值化時采用Otsu算法自動選取閾值并進行二值化。Otsu算法被認為是圖像分割中閾值選取的最佳算法，計算簡單，不受圖像亮度和對比度的影響。因此，使用類間方差最大的分割意味著錯分概率最小。

圖像總平均灰度為

其中，為設定的閾值，初始值為圖像的平均灰度；0為分開后前景像素點數(shù)占圖像的比例；0為分開后前景像素點的平均灰度；1為分開后背景像素點數(shù)占圖像的比例；1為分開后背景像素點的平均灰度。從個灰度級遍歷，當為某值時，前景和背景的方差最大，則該值便是要求的閾值。其中，方差的計算為

該式計算量較大，可簡化為

最終將3個Mask合并，得到需要提取的圖像，即

1.2 基于GAN的卡通風格化生成網(wǎng)絡

無監(jiān)督圖像到圖像是本文采用的全新方法，如圖5所示，其結合了注意力模塊和自適應歸一化模塊。本文模型通過基于類激活器(class activation map，CAM)獲得的注意力圖以區(qū)分源域和目標域，引導圖像在生成時，聚焦于重要區(qū)域而忽略次要區(qū)域。這些注意力圖將被嵌入到生成器和鑒別器中，以聚焦生成語義上更重要的區(qū)域，從而促進模型變換，如圖6所示。

圖5 一種無監(jiān)督圖像到圖像的對抗生成網(wǎng)絡

圖6 注意力機制圖

數(shù)據(jù)集具有不同形狀和紋理變化量，其變化結果的質(zhì)量除與注意力機制有關，還受歸一化函數(shù)選擇的影響。參考批處理實例標準化(btch-instance normalization)，采用了自適應層實例標準化(adaptive layer-instance normalization)，適當?shù)剡x擇實例標準化(instance normalization)和層標準化(layer normalization)之間的適當比率，在訓練期間從數(shù)據(jù)集中學習其參數(shù)?？蛇x歸一化功能幫助注意力引導模型靈活控制紋理和形狀。主要內(nèi)容歸納：

(1) 采用無監(jiān)督圖像到圖像新的轉(zhuǎn)換方法，其集新的注意模塊和新的歸一化函數(shù)AdaLIN為一體。

(2) 注意模塊通過基于輔助分類器獲得的關注圖來區(qū)分源域和目標域，從而幫助模型知道在何處進行密集轉(zhuǎn)換。

(3) AdaLIN功能幫助注意力引導模型靈活地控制更改形狀和紋理的數(shù)量。

1.2.1 生成器

圖像依次經(jīng)過一個下采樣模塊和一個殘差塊后，得到了編碼后的特征圖。其分為2路，一路是通過一個輔助分類器，得到有每個特征圖的權重信息，并與另外一路編碼后的特征圖相乘，得到有注意力的特征圖。注意力特征圖仍分為2路：①經(jīng)過一個1×1卷積和激活函數(shù)層，得到1,···,特征圖。特征圖則通過全連接層置于解碼器中；②作為解碼器的輸入，經(jīng)過一個自適應的殘差塊和自適應歸一化層上采樣模塊后得到生成結果。

首先計算的是實例的標準化和層標準化

為了防止超出[0,1]范圍，對其進行了區(qū)間裁剪

1.2.2 判別器

判別器的設計結合了全局判別器(global discriminator)以及局部判別器(local discriminator)的原理，將全局和局部判別結果進行連接。判別器中加入了分類激活映射(class activation mapping，CAM)模塊[18]，雖然CAM未在判別器下做域的分類，但由于注意力圖能夠注意到目標域中真實圖像和偽圖像之間的差異并對其進行微調(diào)，所以注意力模塊的加入有助于判別圖像真?zhèn)巍?/p>

1.2.3 CAM與輔助分類器

CAM對圖片中的關鍵部分進行定位[18]。通過圖像下采樣和殘差塊得到的編碼器特征圖，經(jīng)過平均池化(global average pooling)和最大池化(global max pooling)后得到依托通道數(shù)的特征向量。創(chuàng)建可學習參數(shù)權重，經(jīng)過全連接層壓縮。對于編碼器特征圖的每一個通道，可賦予一個權重，該權重決定了這一通道對應特征的重要性，從而實現(xiàn)了特征映射(feature map)的注意力機制。

當生成器可以很好地區(qū)分源域和目標域輸入時，注意力模塊可以幫助模型知道在何處進行密集轉(zhuǎn)換。將平均池化和最大池化得到的注意力圖做連接，經(jīng)過一層卷積層還原為輸入通道數(shù)，最終送入 AdaLIN中進行自適應歸一化處理。

1.2.4 損失函數(shù)

本文模型的完整目標包括4個損失函數(shù)?？墒褂米钚《薌AN目標進行穩(wěn)定訓練，而不是使用Least Squares GAN。對抗性損失使用Adversarial loss匹配翻譯圖像與目標圖像分布的差異

循環(huán)損失為了緩解模式崩潰問題，cycle-gan架構下的環(huán)一致性loss，A翻譯到B，然后B翻譯到A’，A和A’需要相同，loss采用的是1loss。

身份丟失為了確保輸入圖像和輸出圖像的顏色分布相似，本文將身份一致性約束應用于生成器，即

生成器和鑒別器的CAM loss不同表現(xiàn)為：

生成器CAM loss，采用的是BCE_loss

鑒別器CAM loss，采用的是MSE

用CAM的原因是利用輔助分類器η和ηD的信息，給定一個圖像∈{X,X}，G→和D了解當前狀態(tài)下2個域之間的最大區(qū)別是什么。

最后，聯(lián)合訓練編碼器、解碼器、鑒別器和輔助分類器，以優(yōu)化最終目標

通過訓練，可以得到轉(zhuǎn)換成卡通風格化的圖片，然后利用泊松融合法將轉(zhuǎn)換后的圖片與原始臉部圖片進行融合，并對邊緣部分進行濾波操作，保證圖片平滑過度，最終完成局部人臉輪廓提取區(qū)域風格化的操作。

2 實驗結果與分析

2.1 數(shù)據(jù)集與損失函數(shù)

本文采用一個由真實圖片和動畫作品組成的數(shù)據(jù)集，所有圖像均已調(diào)整為256×256進行訓練，自定義數(shù)據(jù)集采用女性照片作為訓練數(shù)據(jù)和測試數(shù)據(jù)，數(shù)據(jù)來源均是從Anime Planet爬取。首先檢索動漫角色人物，然后提取面部圖像。訓練數(shù)據(jù)集的大小為3 400，測試數(shù)據(jù)集的大小為100，圖像均為256×256，如圖7所示。

圖7 Selfie2anime數(shù)據(jù)集

損失函數(shù)包括：①判別器損失曲線(圖8)：Discriminator_loss表示判別器鑒別偽造數(shù)據(jù)和真實數(shù)據(jù)的能力，損失值越小，鑒別能力越強；②生成器損失曲線(圖9)：Generator_loss表示偽造圖片技術的能力，損失值越低，說明偽造能力越強。

圖8 判別器損失曲線

綜上，從圖8和圖9可以看出，無論是Discriminator_loss還是Generator_loss都有著明顯的變化，雖然損失函數(shù)在訓練中發(fā)生振蕩，是因為生成器和判別器彼此會消除對方的學習。不過損失函數(shù)圖像最終很明顯均呈下降趨勢，隨著迭代次數(shù)的增加，Discriminator_loss以及Generator_loss都明顯降低，鑒別能力和偽造能力均明顯增強。直到鑒別器無法分出數(shù)據(jù)是真實的還是生成器生成的數(shù)據(jù)時，這時對抗的過程達到一個動態(tài)的平衡。

圖9 生成器損失曲線

2.2 實驗結果分析

為了測試本文方法的可行性和有效性，采用該算法，對不同的輸入圖像進行處理，得到局部人臉輪廓提取的區(qū)域風格化效果圖像。以下實驗均在Windows10操作系統(tǒng)中完成，Intel(R) Core(TM) i9-9900K CPU 3.6 GHz GeForce RTX 2080 Ti，16 G內(nèi)存，Pycharm python編程實現(xiàn)，實驗結果如圖10所示。

圖10 實驗最終生成效果圖

同時，還將本文算法模型與其他圖像遷移模型進行了對比，如圖11所示，實驗結果很好地展現(xiàn)了本文算法的優(yōu)良性。圖11(b)由于CAM模塊的聚焦，很明顯眼睛周圍的轉(zhuǎn)換要比其他模型好，圖像之間不同形狀和紋理變化量，其變化結果的質(zhì)量除了與注意力機制有關，也明顯受到歸一化函數(shù)選擇的影響。通過這2個模塊，其轉(zhuǎn)換后的目標圖像不論從細節(jié)、形狀都得到了極大的提升。

實驗結果表明注意力模塊(圖12)和AdaLIN (圖13)可以在含有定制網(wǎng)絡架構和超參數(shù)的各種數(shù)據(jù)集中產(chǎn)生更加喜人的效果。輔助分類器獲得的注意力機制圖可以指導生成器更加關注源域和目標域之間的不同區(qū)域。此外，還發(fā)現(xiàn)，在引導模型靈活地控制形狀更改和紋理數(shù)量上，AdaLIN也發(fā)揮著重要作用。

通過本文方法生成的區(qū)域卡通風格化效果圖片色彩鮮明。轉(zhuǎn)換后的人物頭像生動形象，具有卡通動漫人物所特有的特征，對局部卡通藝術風格結果圖像進行了較好的模擬。

圖11 不同GAN圖像遷移模型((a)源圖像；(b)本文結果；(c)基于CycleGAN的結果；(d)基于UNIT的結果；(e)基于MUNIT的結果；(f)基于DRIT的結果；(g)基于AGGAN的結果；(h)基于CartoonGAN的結果)

圖12 CAM模塊分析((a)源圖像；(b)生成器的注意力圖；(c~d)鑒別器的局部注意力圖和全局注意力圖；(e)帶有CAM模塊的結果；(f)不帶CAM模塊的結果)

(1) 采用CAM模塊分析。對于CAM模塊，通過消融實驗來確定生成器和辨別器使用的注意力模塊的優(yōu)點。如圖12(b)特征圖幫助生成器聚焦于與目標域更具辨別力的源圖像區(qū)域。如圖12(c)和(d)所示，分別通過可視化鑒別器的局部注意力圖和全局注意力圖判別鑒別器集中注意力的區(qū)域，以確定目標圖像是真實的還是偽造的。生成器可以用注意力圖調(diào)整鑒別器所關注的區(qū)域。請注意，本文結合了2個感受野大小不同的鑒別器的全局和局部注意力圖?？梢詭椭善鞑东@全局結構(比如面部區(qū)域和眼睛周圍)作為局部區(qū)域。有了這些信息，一些區(qū)域的解析會更加謹慎。如圖12(e)所示的關注模塊的結果驗證了在圖像翻譯任務中利用關注特征圖的有利效果。另一方面，可以看到在沒有使用注意力模塊的情況下根本無法完成良好的遷移，如圖12(f)所示。

圖13 AdLIN模塊分析((a)源圖像；(b)本文結果；(c)僅在解碼器使用IN的結果；(d)僅在解碼器使用LN的結果；(e)僅在解碼器使用AdaLIN的結果；(f)僅在解碼器使用GN的結果)

(2) AdaLIN結構分析。本文將AdaLIN應用到了生成器的解碼器上，殘差塊在解碼器中的作用是嵌入特征，上采樣卷積塊在解碼器中的作用是從嵌入特征生成目標域圖像。如果門參數(shù)的學習值接近1，則意味著對應層更多地依賴于IN。同樣地，如果學習的值接近于0，則意味著對應層更多依賴于LN。如圖13(c)所示，僅在解碼器中使用IN時，源域的特征(例如，耳環(huán)和顴骨周圍的陰影)由于在殘差塊中使用的(基于Channel-wise的規(guī)范化特征統(tǒng)計)按信道的規(guī)范化特征統(tǒng)計而被很好地保留。然而，由于上采樣卷積塊中的IN無法捕獲全局樣式，因此對目標域樣式的轉(zhuǎn)換量有些不足。另一方面，如圖13(d)所示，如果在解碼器中僅使用LN，則借助于在上采樣卷積中使用的(基于layer-wise的規(guī)范化特征統(tǒng)計)分層歸一化特征統(tǒng)計，可以充分地轉(zhuǎn)換目標域樣式。但是，在殘差塊中使用LN，對源域圖像的特征保留較少。對2種極端情況的分析表明，在特征表示層中更多地依賴于IN而不是LN來保持源域的語義特征是有益的，而對于從特征嵌入中實際生成圖像的上采樣層則相反。因此，在無監(jiān)督的圖像到圖像轉(zhuǎn)換任務中，根據(jù)源域和目標域的分布來調(diào)整解碼器中IN和LN的比例的AdaLIN更為可取。圖13(e)和(f)是采用AdaIN和GN的結果。顯然與這些方法相比，采用AdaLIN方法顯示出更好的效果。

3 結束語

本文提出了一種新的基于GAN技術的關鍵人臉輪廓區(qū)域卡通風格化生成算法。首先利用人臉輪廓及關鍵特征點的提取，結合顏色特征信息限定關鍵人臉風格化區(qū)域，并通過采用二值化技術生成關鍵區(qū)域人臉預處理的采樣圖像；為了使生成圖像能夠自然匹配所提取區(qū)域，利用均值濾波操作對所提取區(qū)域的邊緣輪廓進行平滑羽化操作，并相應地擴展風格化生成圖像的過渡區(qū)域；然后通過構建基于無監(jiān)督圖像到圖像轉(zhuǎn)換方法，調(diào)整樣本區(qū)域進行訓練學習；最后，使用訓練數(shù)據(jù)集進行人臉圖像局部輪廓特征區(qū)域的卡通風格化生成。本文算法由于對人臉輪廓區(qū)域的邊緣及背景顏色進行濾波處理，而且在初始化階段對采樣區(qū)域進行了尺寸的自適應修正，在量化生成的過程中，能夠?qū)崿F(xiàn)良好的邊緣輪廓過渡融合，生成了自然的人臉局部輪廓區(qū)域的卡通風格化圖像。本文算法對于人臉圖像的生成具有很高的魯棒性，能夠應用于各種尺度人臉圖像的風格化生成，適用范圍非常廣泛。

[1] ZHANG X Q, WANG D, ZHOU Z Y, et al. Robust low-rank tensor recovery with rectification and alignment[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2019, PP(99): 1-1.

[2] ZHANG X Q, JIANG R H, WANG T, et al. Attention-based interpolation network for video deblurring[EB/OL]. [2020-10-20]. https://doi.org/10.1016/j.neucom.2020.04.147.

[3] ZHOU E J, FAN H Q, CAO Z M, et al. Extensive facial landmark localization with coarse-to-fine convolutional network cascade[C]//2013 IEEE International Conference on Computer Vision Workshops. New York: IEEE Press, 2013: 386-391.

[4] WU Y, HASSNER T, KIM K, et al. Facial landmark detection with tweaked convolutional neural networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(12): 3067-3074.

[5] KOWALSKI M, NARUNIEC J, TRZCINSKI T. Deep alignment network: a convolutional neural network for robust face alignment[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). New York: IEEE Press, 2017: 2034-2043.

[6] WANG N N, GAO X B, TAO D C, et al. Facial feature point detection: a comprehensive survey[J]. Neurocomputing, 2018, 275: 50-65.

[7] ZHANG Y, DONG W M, DEUSSEN O, et al. Data-driven face cartoon stylization[C]//SIGGRAPH Asia 2014 Technical Briefs on - SIGGRAPH ASIA’14. New York: ACM Press, 2014: 201-300.

[8] SUN Y, WANG X G, TANG X O. Deep convolutional network cascade for facial point detection[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2013: 3476-3483.

[9] ZHANG Z P, LUO P, LOY C C, et al. Facial landmark detection by deep multi-task learning[M]//Computer Vision – ECCV 2014. Cham: Springer International Publishing, 2014: 94-108.

[10] XU Z J, CHEN H, ZHU S C, et al. A hierarchical compositional model for face representation and sketching[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(6): 955-969.

[11] WINNEM?LLER H, OLSEN S C, GOOCH B. Real-time video abstraction[J].ACM Transactions on Graphics, 2006, 25(3): 1221-1226.

[12] KYPRIANIDIS J E, COLLOMOSSE J, WANG T H, et al. State of the “art”: a taxonomy of artistic stylization techniques for images and video[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(5): 866-885.

[13] PAPARI G, PETKOV N, CAMPISI P. Artistic edge and corner enhancing smoothing[J]. IEEE Transactions on Image Processing, 2007, 16(10): 2449-2462.

[14] ZHANG K P, ZHANG Z P, LI Z F, et al. Joint face detection and alignment using multitask cascaded convolutional networks[J]. IEEE Signal Processing Letters, 2016, 23(10): 1499-1503.

[15] SHEN Y J, LUO P, LUO P, et al. FaceID-GAN: learning a symmetry three-player GAN for identity-preserving face synthesis[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 821-830.

[16] CHEN Y, LAI Y K, LIU Y J. CartoonGAN: generative adversarial networks for photo cartoonization[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 9465-9474.

[17] WU R Z, GU X D, TAO X, et al. Landmark assisted CycleGAN for cartoon face generation[EB/OL]. [2019-10-04]. https://arxiv.org/abs/1907.01424.

[18] ZHOU B L, KHOSLA A, LAPEDRIZA A, et al. Learning deep features for discriminative localization[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 2921-2929.

Generative adversarial network-based local facial stylization generation algorithm

FAN Lin-long1, LI Yi1, ZHANG Xiao-qin2

(1. College of Computer Science and Artificial Intelligence, Wenzhou University, Wenzhou Zhejiang 325035, China; 2. Institute of Big Data and Information Technology of Wenzhou University, Wenzhou Zhejiang 325035, China)

In view of the localized facial contour features, combining with the extraction of key feature points and the fusion of adjacent color regions of the face, we presented a CycleGAN-based local facial stylization generation algorithm, and constructed the deep learning network with the attention mechanism to generate the local facial cartoon stylization. The sample facial images were marked by using the local area binarization method to constrain the key features and points. In order to naturally match the generated image with the extracted features, the mean filtering operation was utilized to smooth and feather the edge contour of the extracted region. Finally, the generative adversarial networks (GAN) network was constructed, and the training data set was employed to generate cartoon stylization images in the local contour feature area of facial images. The experiment results show that the presented algorithm exhibits high robustness for generating facial stylization, and that it can be applied to the generation of stylized facial images of various scales.

facial features; local area;generative adversarial networks; stylization

TP 391

10.11996/JG.j.2095-302X.2021010044

2095-302X(2021)01-0044-08

2020-04-13；

13 April，2020；

2020-08-02

2 August，2020

國家重點研發(fā)計劃項目(2018YFB1004904)；溫州市科技計劃項目(G20180036，R20200025)

：The National Key Research and Development Program of China (2018YFB1004904);Basic Science and Technology Project ofWenzhou (G20180036, R20200025)

范林龍(1997–)，男，四川成都人，本科生。主要研究方向為計算機視覺。E-mail：4624986@qq.com

FAN Lin-long (1997-), male, undergraduate. His main research interest covers computer vision. E-mail：4624986@qq.com

李毅(1984–)，男，寧夏銀川人，講師，博士。主要研究方向為計算機圖形學、計算機視覺等。E-mail：liyi@wzu.edu.cn

LI Yi (1984–), male, lecturer, Ph.D. His main research interests cover computer graphics, computer vision, etc. E-mail：liyi@wzu.edu.cn

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

關鍵人臉輪廓區(qū)域卡通風格化生成算法

1 人臉局部特征區(qū)域的風格化方法設計

1.1 基于人臉關鍵特征的輪廓提取

1.2 基于GAN的卡通風格化生成網(wǎng)絡

2 實驗結果與分析

2.1 數(shù)據(jù)集與損失函數(shù)

2.2 實驗結果分析

3 結束語