国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

引入標記分布的人臉表情圖像生成

2021-07-03 03:52:14楊靜波趙啟軍呂澤均
現(xiàn)代計算機 2021年12期
關鍵詞:人臉標簽維度

楊靜波,趙啟軍,呂澤均

(四川大學計算機學院,成都610065)

0 引言

人臉表情是人的情感最直接的表現(xiàn)形式之一,由于數(shù)字媒體等技術的需要如今有越來越多針對人臉表情的研究,如人臉表情識別[1-2]與人臉表情遷移[3-4]等。而隨著深度學習的發(fā)展,人臉表情識別方法與人臉表情遷移方法的效果都有明顯提升。但深度學習方法往往需要大量訓練數(shù)據(jù),現(xiàn)有人臉數(shù)據(jù)庫的數(shù)據(jù)量往往有限、數(shù)據(jù)質(zhì)量參差不齊,且大多數(shù)針對傳統(tǒng)六種基本表情。

得益于生成對抗網(wǎng)絡[5]的提出,許多基于生成對抗網(wǎng)絡的人臉表情生成方法被驗證。但現(xiàn)有的人臉表情生成方法往往更關注于傳統(tǒng)六種基本表情,忽略了表情的豐富性。于是,本文提出引入標記分布[6]的人臉表情圖像生成方法,用有限訓練數(shù)據(jù)獲得更豐富的表情數(shù)據(jù),最終生成高質(zhì)量的人臉表情圖像,對人臉表情數(shù)據(jù)庫進行擴充。該方法基于生成對抗網(wǎng)絡,使用Arousal-Valence 維度情感模型劃分表情類別以表示更豐富的表情,同時引入標記分布彌補數(shù)據(jù)量的缺失,并在Oulu-CASIA 數(shù)據(jù)庫和OSU 數(shù)據(jù)庫上進行了驗證。

1 相關工作

1.1 Arousal-Valence維度情感模型

量化面部情感行為的模型一般分為3 類[7]:①分類模型:從情感相關類別中選取代表性的情感分類,如Ekman[8]提出的六種基本表情:高興、厭惡、驚訝、悲傷、憤怒和恐懼;②維度模型:在連續(xù)的情感區(qū)域內(nèi)選擇一個值來代表情緒;③面部動作編碼系統(tǒng)模型:所有的面部動作都由動作單元表示。

Arousal-Valence 維度情感模型是,從Arousal 和Valence 兩個維度描述情感。其中Arousal 代表激活度,取值從-1 到1 代表情感從平靜到激動。Valence 代表愉悅度,取值從-1 到1 代表情感從消極到積極[9]。本文方法將兩個維度各劃分21 類,共21×21 個表情粒度。

1.2 生成對抗網(wǎng)絡

生成對抗網(wǎng)絡[5]是十分典型和有效的生成模型之一,由生成器和判別器兩部分組成,生成器生成“假”圖像,判別器用以判別“真”和“假”圖像,通過生成器和判別器的博弈最終生成高質(zhì)量的圖像。其中一個代表是條件生成對抗網(wǎng)絡[10],引入條件信息控制圖像生成:

其中G表示生成器,D表示判別器,x表示真實數(shù)據(jù),z表示隨機噪聲,y表示條件。

1.3 人臉表情圖像生成

人臉表情圖像生成是很有挑戰(zhàn)性的圖像生成任務之一,人臉圖像復雜,人的表情更是多樣。近年來基于生成對抗網(wǎng)絡的人臉表情圖像生成方法不斷被提出改進,如G2-GAN[11]使用人臉特征點作為幾何先驗控制表情的生成,ExprGAN[12]提出了表情強度控制模塊,這兩者均基于傳統(tǒng)基本表情對表情進行劃分生成。AttGAN[13]對人臉多種屬性進行編輯,改進的CAAE[16]和本文一樣基于維度情感模型,但其訓練數(shù)據(jù)量較大。Cascade EF-GAN[15]提出局部關注和級聯(lián)生成的思想,其基于表情動作單元對表情進行劃分,但網(wǎng)絡結(jié)構(gòu)復雜。

本文提出的引入標記分布的人臉表情圖像生成方法,則是在ExprGAN[12]的基礎上,引入標記分布,使用較輕量級的生成對抗網(wǎng)絡,在較少的訓練數(shù)據(jù)下生成高質(zhì)量人臉表情圖像。

2 算法實現(xiàn)

2.1 標記分布

在訓練數(shù)據(jù)量充足的情況下,訓練階段使用的標簽往往是獨熱標簽,即一個訓練數(shù)據(jù)對應一個類別標簽。但本文中為了在訓練數(shù)據(jù)有限的情況下獲得訓練數(shù)據(jù)提供的更多信息,利用標記分布學習與標記增強[6],將代表一個類別維度表情標簽轉(zhuǎn)化為服從高斯分布的分布式形式,為缺少訓練數(shù)據(jù)類別也提供部分信息。標簽處理偽代碼如下:

輸入:維度情感模型標簽(V,A),V、A∈[-1,1],保留小數(shù)點后一位

輸出:訓練使用的42 位表情標簽y

2.2 網(wǎng)絡結(jié)構(gòu)

網(wǎng)絡的輸入為R128×128×3的人臉表情圖像和R42的表情標簽,輸出生成的R128×128×3人臉表情圖像,是一個端到端的過程。網(wǎng)絡結(jié)構(gòu)為條件生成對抗網(wǎng)絡,分為生成器與判別器,同時引入人臉識別模型對生成人臉表情圖像的身份進行控制。其中生成器由編碼器和解碼器兩部分組成,判別器與表情識別模塊共享部分權(quán)重。

圖1 網(wǎng)絡結(jié)構(gòu)

2.3 生成器

生成器由編碼器和解碼器組成。編碼器輸入為原始輸入圖像x,輸出為低維特征z。低維特征z∈R50,與表情標簽y有相同維度。將z與y拼接在一起作為解碼器的輸入,使解碼生成的圖像具有表情標簽y提供的表情信息。為保證圖像生成質(zhì)量,本文通過最小化輸入人臉表情圖像x與生成人臉表情xg之間的L1 距離控制生成圖像與輸入圖像的差別:

2.4 判別器

本文使用傳統(tǒng)的條件生成對抗網(wǎng)絡損失函數(shù)來對生成圖像進行約束,判別器的輸入為原始輸入圖像x與生成圖像xg,對抗損失函數(shù)表示為:

其中P表示數(shù)據(jù)分布。

2.5 人臉識別模塊

為了保持x與xg之間的人臉同一性,本文參考Ex?prGAN[12]引入一個預先訓練好的人臉識別模型VGG Face[16]來增強人臉身份特征層的相似性:

其中fj是人臉識別網(wǎng)絡第j層卷積層的特征映射,ρj為對應權(quán)值。

2.6 表情判別器

表情判別模塊與判別器共享權(quán)重,實質(zhì)是一個人臉表情識別網(wǎng)絡。由于本文表情標簽的特殊性,其不同于常見的人臉表情識別網(wǎng)絡是分類模型,而是一個回歸模型。其輸入為原始輸入圖像x和生成圖像xg,分別輸出yx與yg,本文通過最小化輸入yx與yg之間的L2 距離控制生成圖像與輸入圖像的表情:

3 實驗與分析

3.1 數(shù)據(jù)庫

本文方法在Oulu-CASIA 數(shù)據(jù)庫[17]與CFEED 數(shù)據(jù)庫[18]上進行驗證,兩數(shù)據(jù)庫數(shù)據(jù)均不為Arousal-Va?lence 維度情感模型標識數(shù)據(jù)。Oulu-CASIA 數(shù)據(jù)庫數(shù)據(jù)為包含80 名采集者6 種基本情緒的三種不同光照條件下的表情視頻圖像序列,本文選取正常光照條件下的視頻圖像對所有幀的圖像數(shù)據(jù)進行重新人工標注,并采用2.1 小節(jié)方法對標簽進行處理。同樣,對CFEED 數(shù)據(jù)庫中包含230 名采集者正常光照下通過面部表情動作單元標注的表情圖像數(shù)據(jù),做相同標注處理。最終獲得15407 張數(shù)據(jù),15000 作為訓練數(shù)據(jù),其余作為測試。

本文使用MTCNN[19]對所有數(shù)據(jù)進行人臉檢測和對齊,并將人臉區(qū)域裁剪縮放為128×128 大小的圖像。

3.2 實現(xiàn)細節(jié)

本文主體為條件生成對抗網(wǎng)絡,生成器由編碼器和解碼器構(gòu)成,編碼器在VGG 網(wǎng)絡的基礎上加入輸出維度50 的全連接層,共五層卷積層和四層全連接層。解碼器包含一個全連接層和七個反卷積層。判別器則由四個卷積層和兩個全連接層組成。表情判別器模塊則在判別器的基礎上加入四層全連接層,與判別器共享權(quán)重??倱p失函數(shù)

其中l(wèi)1=l3=l3=1、l2=0.1。

訓練使用TensorFlow 深度學習框架,使用Adam優(yōu)化器進行優(yōu)化。由于訓練數(shù)據(jù)有限,對全局訓練造成困難,本文采用兩階段增量訓練,第一階段僅訓練解碼器于判別器,損失函數(shù)為:

ρ1=1,ρ2=0.01。第二階段加入所有部分,使用總損失函數(shù)Ltotal進行訓練。

3.3 生成效果

為達到數(shù)據(jù)擴充的目的,可使用本文方法對數(shù)據(jù)庫數(shù)據(jù)進行數(shù)據(jù)擴充。首先可對數(shù)據(jù)庫以采集身份信息數(shù)據(jù)進行表情豐富性的擴充,如圖2 所示為部分生成效果,針對輸入人臉,賦予不同的表情標簽,可獲得表情更多樣的人臉表情數(shù)據(jù)。

圖2 輸入人臉表情圖像生成效果

其次,可僅使用解碼器對隨機噪聲進行圖像生成,獲得不同身份信息的人臉表情圖像生成,如圖3 所示。網(wǎng)絡結(jié)構(gòu)中低維特征z使用服從均勻分布的隨機噪聲,提供不同于數(shù)據(jù)庫數(shù)據(jù)的身份信息與圖像信息,與表情標簽拼接后作為解碼器的輸入,獲得更多身份信息的人臉表情圖像。

圖3 輸入隨機噪聲生成效果

可以看出,以數(shù)據(jù)庫原有圖像作為輸入,可以在保留身份信息的前提下獲得更豐富的表情圖像。以隨機噪聲作為輸入,可以生成新的身份信息的多種表情圖像。可以看出圖3 第三行生成的CFEED 數(shù)據(jù)庫圖像風格數(shù)據(jù)視覺效果略差,考慮是因為CFEED 訓練數(shù)據(jù)僅為Oulu-CASIA 數(shù)據(jù)庫數(shù)據(jù)的1/2。

3.4 圖像質(zhì)量評估

針對生成圖像,使用PSNR 在Oulu-CASIA 數(shù)據(jù)集上對圖像質(zhì)量進行評估,PSNR 為峰值信噪比,常用來對圖像質(zhì)量進行評估,其數(shù)值越大代表生成圖像質(zhì)量越高。本文與ExprGAN 方法[12]進行對比,可以看出本文生成圖像質(zhì)量略高。

表1 AV-GAN 方法數(shù)據(jù)分布

4 結(jié)語

為對人臉表情圖像數(shù)據(jù)進行擴充,本文提出了可在小規(guī)模數(shù)據(jù)集上運用標記分布進行人臉表情圖像生成方法。在Oulu-CASIA 數(shù)據(jù)庫與CFEED 數(shù)據(jù)庫上的實驗結(jié)果表明,使用本文方法可以生成較高質(zhì)量的人臉表情圖像。

猜你喜歡
人臉標簽維度
有特點的人臉
淺論詩中“史”識的四個維度
中華詩詞(2019年7期)2019-11-25 01:43:00
三國漫——人臉解鎖
動漫星空(2018年9期)2018-10-26 01:17:14
無懼標簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉標簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
光的維度
燈與照明(2016年4期)2016-06-05 09:01:45
標簽化傷害了誰
“五個維度”解有機化學推斷題
基于多進制查詢樹的多標簽識別方法
計算機工程(2015年8期)2015-07-03 12:20:27
馬面部與人臉相似度驚人
徐闻县| 潼南县| 鞍山市| 贺州市| 阆中市| 曲麻莱县| 玛沁县| 蕉岭县| 洛扎县| 襄樊市| 黄浦区| 夏河县| 克山县| 祥云县| 嘉义县| 灵丘县| 桃江县| 都安| 巴林右旗| 西充县| 百色市| 柞水县| 孟村| 刚察县| 建水县| 延长县| 城固县| 民权县| 新蔡县| 罗山县| 杭锦旗| 江城| 南召县| 佛教| 荥经县| 湘潭县| 无极县| 云浮市| 延川县| 西宁市| 青海省|