胡春龍,陳建軍,徐 丹,左 欣,江登表
(江蘇科技大學(xué) 計(jì)算機(jī)學(xué)院, 鎮(zhèn)江 212100)
人臉屬性分析是計(jì)算機(jī)視覺、生物特征識別研究領(lǐng)域的一個熱點(diǎn)課題,包括人臉識別、表情識別等技術(shù).人臉年齡估計(jì)同樣是人臉屬性分析的一個重要子課題,近年來得到廣泛關(guān)注.通過年齡估計(jì)可以對未成年人實(shí)現(xiàn)安全控制,實(shí)現(xiàn)不同年齡段的個性化市場營銷,為刑事偵查中的身份驗(yàn)證提供輔助證據(jù),因此年齡估計(jì)研究在安全防護(hù)、人機(jī)交互、商品推薦、市場分析、人臉演化預(yù)測等領(lǐng)域都有廣泛的應(yīng)用價值[1-2].
基于人臉圖像的年齡估計(jì)即根據(jù)輸入圖像的人臉外貌,使用計(jì)算機(jī)算法估計(jì)人臉的年齡信息.年齡信息依據(jù)劃分方式可以分為大致的年齡段范圍(少年、青年、中年、老年)和具體的數(shù)值標(biāo)簽兩種類型.年齡標(biāo)簽根據(jù)標(biāo)注方式不同,又可以分為真實(shí)年齡和表觀年齡兩種類型.前者的年齡標(biāo)簽是該人臉圖像的真實(shí)生理年齡,后者的年齡標(biāo)簽是標(biāo)注志愿者根據(jù)該人臉圖像表觀給出的年齡評估值.表觀年齡與真實(shí)年齡相比是可變的,不同的標(biāo)注者可能給出不同的表觀年齡估計(jì),但是不同標(biāo)注者給出的表觀年齡均值通常是高度穩(wěn)定的.
盡管研究人員對年齡估計(jì)取得了一定進(jìn)展,但是年齡估計(jì)仍然是一個挑戰(zhàn)性的課題,即使是人工年齡估計(jì)也很難準(zhǔn)確估計(jì)出一個人的具體年齡.首先,人臉具有結(jié)構(gòu)復(fù)雜、變化豐富等特點(diǎn),在包含年齡屬性的同時,也包含了性別、種族、表情、姿態(tài)等大量屬性,這些屬性對年齡估計(jì)造成了一定干擾;其次,人臉年齡既與人臉的全局變化有關(guān),如顱骨形狀、皮膚色澤,也與人臉局部變化有關(guān),如額頭皺紋、眼角皺紋等;再者,因?yàn)樯盍?xí)慣、遺傳基因、工作環(huán)境等因素影響,每個人的年齡化過程具有很大的個性差異性;最后,人臉年齡圖像的采集還受到光照、遮擋等因素影響.這些因素都會給當(dāng)前年齡估計(jì)研究帶來極大困難.
年齡估計(jì)研究常用的評價指標(biāo)有平均絕對誤差(mean absolute error, MAE)、累積指數(shù)(cumulative score, CS)和ε-error 3種.平均絕對誤差是計(jì)算估計(jì)年齡和標(biāo)簽?zāi)挲g之間的絕對值誤差,其計(jì)算如式(1),式中:sk為標(biāo)簽?zāi)挲g;s′k為估計(jì)年齡.MAE越小表示年齡誤差越小,算法準(zhǔn)確性越高.累積指數(shù)為一種度量在能接受的誤差范圍內(nèi)的年齡估計(jì)準(zhǔn)確率,其計(jì)算公式如式(2),式中:Ne≤j為測試集中估計(jì)年齡與標(biāo)簽?zāi)挲g的絕對誤差不超過j的測試圖像數(shù);N為測試圖像總數(shù).ε-error主要用于觀年齡估計(jì)的評價,是一種同時衡量估計(jì)結(jié)果與均值和方差綜合關(guān)系的評價方式,其計(jì)算如式(3),式中:μ為若干評價者給出的年齡標(biāo)簽均值;σ為標(biāo)準(zhǔn)差;x為預(yù)測的年齡標(biāo)簽.
(1)
(2)
(3)
基于人臉的年齡估計(jì)研究可以分為圖像預(yù)處理、特征提取、年齡估計(jì)模型設(shè)計(jì)等步驟.圖像預(yù)處理步驟主要是對圖像進(jìn)行人臉檢測和矯正、歸一化等操作;特征提取和年齡估計(jì)模型主要從人臉圖像中提取與年齡密切相關(guān)的特征,并使用有效的估計(jì)模型進(jìn)行年齡標(biāo)簽識別.此外,年齡估計(jì)數(shù)據(jù)集是另一個影響和制約年齡估計(jì)研究進(jìn)展的重要因素.文中基于人臉圖像的年齡估計(jì)的常用數(shù)據(jù)集、年齡特征提取、年齡模型估計(jì)3個重要部分對現(xiàn)有研究工作和進(jìn)展進(jìn)行總結(jié).
一個高質(zhì)量,大規(guī)模的人臉年齡圖像數(shù)據(jù)集是高效年齡估計(jì)算法研究的基礎(chǔ).然而對于年齡估計(jì)而言,由于年齡屬于隱私信息,其數(shù)據(jù)的大量收集存在一定困難.常用的年齡估計(jì)數(shù)據(jù)集如下.
FG-NET[3]數(shù)據(jù)集于2002年公布,是早期年齡估計(jì)最流行的數(shù)據(jù)集之一.該數(shù)據(jù)集包含了不同種族的82個對象在不同年齡的1 002張彩色或者黑白的人臉圖像,年齡標(biāo)簽分布在0~69歲,同時每張人臉圖像提供了68個人臉關(guān)鍵點(diǎn)的標(biāo)注信息.
MORPH2[4]是一個大規(guī)模的數(shù)據(jù)集,包含了13 000個不同性別、不同種族的對象在不同年齡的55 608張人臉圖像,其年齡標(biāo)簽分布在16~77歲,并且每張人臉圖像提供了68個人臉關(guān)鍵點(diǎn)的標(biāo)注信息.
UIUC-IFP-Y[5]年齡數(shù)據(jù)庫又稱為YGA數(shù)據(jù)集,收集了自然環(huán)境下的1 600個對象的共8 000張人臉圖像,每張人臉圖像包含豐富的光照和面部表情變化.該數(shù)據(jù)集的年齡標(biāo)簽分布在0~93歲.
Adience[6]包含2 284個對象的26 580張人臉圖像,其圖像是在真實(shí)場景下采集得到的,因此圖像中包含較多的噪聲和光照、姿態(tài)變化.每張人臉圖像包含性別和不連續(xù)的8個年齡段標(biāo)簽,其年齡段標(biāo)簽范圍為0~2歲,4~6歲,8~13歲,15~20歲,25~32歲,38~43歲,48~53歲,≥60歲.
CACD[7]包含2 000個名人共163 446張人臉圖像,其年齡標(biāo)簽分布在16~62歲,數(shù)據(jù)集中每張人臉圖像提供了16個人臉關(guān)鍵點(diǎn)的標(biāo)注信息.
IAD[8]包含了從網(wǎng)絡(luò)上收集的175 000張人臉圖像,年齡標(biāo)簽分布在0~80歲.?dāng)?shù)據(jù)集中的人臉來自于不同種族、不同性別、不同環(huán)境,且圖像具有較多的光照、姿態(tài)、表情等變化.
LHI[9]中用于年齡估計(jì)的數(shù)據(jù)集包含8 000張彩色人臉圖像,男性和女性各占一半,其年齡標(biāo)簽分布在9~89歲,平均每個年齡有大約100張圖像.
LAP[10]包含ICCV2015和CVPR2016提供的兩個Looking at People Challenge競賽表觀年齡估計(jì)數(shù)據(jù)集,LAP2015共包含了4 699張人臉圖像,LAP2016共包含了7 591張人臉圖像.LAP數(shù)據(jù)集的年齡標(biāo)簽并不是真實(shí)年齡,而是標(biāo)注者給出的表觀年齡,標(biāo)簽的制定平均至少10個人的標(biāo)注結(jié)果,最終每張圖像標(biāo)注有一個年齡均值和標(biāo)注的標(biāo)準(zhǔn)差.年齡標(biāo)簽分布在0~100歲,但是20~40歲的人臉圖像居多.
IMDB-WIKI[11]是目前最大的人臉年齡數(shù)據(jù)集,其中IMDB子集包含20 284個名人,共460 723張人臉圖像,WIKI子集包含62 328張人臉圖像,每張圖像包含年齡和性別兩個標(biāo)簽.該數(shù)據(jù)集中女性人臉圖像居多.
AFAD[12]是一個大規(guī)模年齡數(shù)據(jù)集,包含了164 432張人臉圖像,年齡標(biāo)簽分布在15~40歲.該數(shù)據(jù)集的樣本來自于人人網(wǎng),因此樣本均為中國人,部分頭像圖片質(zhì)量欠佳.
MegaAge[13]共有41 941張人臉圖像,其中MegaAge-Asian包含40 000張亞洲人臉圖像,數(shù)據(jù)集的年齡標(biāo)簽基本分布在0~70歲.
總之,上述年齡估計(jì)數(shù)據(jù)集中FG-NET、MORPH、IMDB-WIKI、MegaAge、Adience、AFAD是目前常用的公開數(shù)據(jù)集,其他數(shù)據(jù)集并未被公開發(fā)布和使用.從數(shù)據(jù)集規(guī)模和樣本變化的豐富性角度,MORPH、IAD、IMDB-WIKI、MegaAge、AFAD等數(shù)據(jù)集含有比較豐富的種族、性別、表情等各種人臉屬性變化,以及光照、遮擋等各種圖像變化下的各年齡的人臉圖像,有利于研究通用的年齡估計(jì)模型.
高效的年齡特征提取是下一步年齡估計(jì)模型設(shè)計(jì)的重要基礎(chǔ),也是影響年齡估計(jì)性能的關(guān)鍵因素.人臉在年齡化過程中的主要變化通常表現(xiàn)在人臉形狀、皮膚亮度、人臉皺紋等方面,因此現(xiàn)有人工年齡特征提取的方法主要使用形狀和紋理特征在合適的圖像空間中表示人臉年齡,其可以歸類為基于模型的特征、基于年齡模式子空間的特征、基于流形空間的特征、基于表觀的特征.隨著深度學(xué)習(xí)方法在圖像識別領(lǐng)域取得巨大成功,將深度學(xué)習(xí)特征提取方法用到年齡估計(jì)研究中,提取多層次的人臉年齡特征.文中將對年齡估計(jì)中現(xiàn)有的特征研究方法進(jìn)行總結(jié).
人體測量學(xué)模型和主動外觀模型(active appearance models, AAM)是早期的年齡估計(jì)研究中具有代表性的兩種人臉圖像表示方法.
人體測量學(xué)模型基于顱面發(fā)展理論,主要描述頭部輪廓變化規(guī)律.文獻(xiàn)[14]首次從正面人臉圖像中計(jì)算眼睛、鼻子、嘴巴等部位的特征點(diǎn)之間的6種幾何距離來區(qū)分嬰兒和成人.人體測量學(xué)模型主要度量人臉的幾何結(jié)構(gòu)變化信息,因而對于區(qū)分成年人和未成年人比較有效,因?yàn)閶胗變弘S著年齡的變化頭型逐漸變化,但是成年后其臉部形狀基本固定,很少發(fā)生變化,此時人體測量學(xué)模型將失去效用.為解決該問題,文獻(xiàn)[14]通過計(jì)算人臉圖像的皺紋特征對成年人進(jìn)行年齡估計(jì).
AAM是一種對人臉的形狀和紋理進(jìn)行統(tǒng)計(jì)建模的人臉模型,文獻(xiàn)[15]首次將主動外觀模型用于人臉的年齡估計(jì),將AAM模型的50個參數(shù)作為人臉圖像的年齡特征.相比人體測量學(xué)模型只包含人臉的幾何信息,AAM同時建立了人臉的形狀信息和全局紋理信息模型,因此一般而言能夠識別任意年齡.AAM的缺點(diǎn)是依賴于準(zhǔn)確定位面部特征點(diǎn),并且無法提取人臉局部區(qū)域的紋理信息.
年齡模式子空間(aging pattern subspace, AGES)[16]是在AAM的基礎(chǔ)上提出的一種個性化的年齡特征表示方法.不同于對單張人臉圖像進(jìn)行AAM建模的方法,AGES方法對同一個對象在各個不同年齡時期下構(gòu)成的一組圖像序列進(jìn)行建模,該圖像序列稱為該對象的年齡模式,如果該模式中所有年齡的人臉圖像都存在,那么該模式稱為完整年齡模式,否則稱為不完整年齡模式.在訓(xùn)練階段,AGES模型采用AAM模型表示每張人臉圖像,然后使用主成分分析(principal component analysis, PCA)方法學(xué)習(xí)每個年齡模式的子空間模型.對于不完整的年齡模式,AGES使用最小重構(gòu)誤差迭代算法學(xué)習(xí)得到缺失圖像的特征向量.在測試階段,未知圖像的年齡值由所有年齡模式的所有位置上與其具有最小重構(gòu)誤差的年齡位置確定.
AGES方法的優(yōu)點(diǎn)是可以對不同個體的年齡化過程進(jìn)行個性化建模,這種思路符合不同個體,具有不同的年齡化過程的年齡演化規(guī)律.AGES方法的缺點(diǎn)是要求數(shù)據(jù)集中的每個對象在不同年齡時期的人臉圖像盡可能的完整,否則將影響年齡估計(jì)精度,但是因?yàn)槟挲g圖像搜集困難,這一要求很難滿足.
與AGES方法學(xué)習(xí)每個個體年齡序列的個性化年齡模式子空間方法不同,流形空間方法學(xué)習(xí)所有個體在每個年齡時期共有的年齡模式,主要思想是使用流形嵌入技術(shù)從每個年齡所有個體的人臉圖像中學(xué)習(xí)一個低維的年齡子空間.文獻(xiàn)[17-19]基于UIUC-IFP-Y和MORPH年齡數(shù)據(jù)集比較了常用的PCA、局部線性嵌入、局部保持投影(locality preserving projection, LPP)、正交局部保持投影(orthogonal locality preserving projection, OLPP)等流形嵌入技術(shù)在提取年齡特征方面的性能,實(shí)驗(yàn)結(jié)果表明有監(jiān)督的OLPP流形學(xué)習(xí)方法相比其他3個無監(jiān)督方法可以更好表示年齡流形.文獻(xiàn)[5]進(jìn)一步證明使用有監(jiān)督的保角嵌入分析進(jìn)行年齡流形嵌入可以獲得更好的年齡估計(jì)效果.文獻(xiàn)[20]基于對線性判別分析的改進(jìn)提出一種跨種族的判別分析方法學(xué)習(xí)各種族共有的年齡流形,通過將不同種族的年齡模式投影到一個共用空間,學(xué)習(xí)到各種族共同的年齡模式,可以較好解決跨種族的年齡估計(jì)問題.
基于流形空間學(xué)習(xí)的年齡特征提取方法,優(yōu)點(diǎn)是能夠?qū)W習(xí)一個低維的年齡特征,捕捉潛在的年齡成長模式,缺點(diǎn)是仍然需要大量的人臉圖像來學(xué)習(xí)一個具有判別力的年齡流形空間.
基于表觀的特征主要通過研究不同年齡人臉的外觀差異來抽取人臉的年齡特征.文獻(xiàn)[21]將人臉劃分成若干局部圖像塊,并從每個圖像塊抽取二維離散余弦變換局部特征,最后對所有局部特征進(jìn)一步使用高斯混合模型建模得到其全局分布特征.文獻(xiàn)[22]采用局部二值模式(local binary pattern, LBP),同時提取人臉的全局和局部紋理特征進(jìn)行年齡估計(jì).文獻(xiàn)[23]用仿生學(xué)特征(bio-inspired features, BIF)進(jìn)行年齡估計(jì),該特征受到人類大腦視覺皮層機(jī)制的啟發(fā),采用簡單細(xì)胞層C和復(fù)雜細(xì)胞層S交替組成,簡單細(xì)胞層C執(zhí)行Gabor濾波,復(fù)雜細(xì)胞層S執(zhí)行MAX過濾操作.文獻(xiàn)[24]提出一種多分辨率的分層人臉模型表示方法進(jìn)行年齡估計(jì),該方法從粗到細(xì)逐層提取人臉膚色、幾何結(jié)構(gòu)、紋理等面部特征,并采用圖模型關(guān)聯(lián)各層之間的關(guān)系.文獻(xiàn)[25]提出一種融合人臉全局和局部特征的混合特征進(jìn)行年齡估計(jì),全局特征使用AAM提取人臉的形狀和外觀信息,在局部特征提取階段,使用Gabor濾波器提取不同方向不同尺度的皺紋特征,并使用LBP提取皮膚特征.
外觀特征能有效表示人臉年齡的關(guān)鍵是提取與年齡變化密切相關(guān)的人臉外觀變化信息,包括多尺度的紋理和形狀信息.年齡化過程中的外觀特征可以實(shí)現(xiàn)對各年齡人臉圖像進(jìn)行年齡估計(jì),但是由于人臉屬性的復(fù)雜性,外觀特征不僅包含年齡信息,還包含其他冗余信息,這將對年齡估計(jì)帶來一定的負(fù)面影響.
近年來,隨著深度學(xué)習(xí)理論的快速發(fā)展,以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)為代表的深度特征得到了廣泛的關(guān)注.CNN是一種深層次的神經(jīng)網(wǎng)絡(luò)模型,具有局部感受野、層次化特征等特性,在圖像識別領(lǐng)域獲得了巨大成功.文獻(xiàn)[26]提出使用CNN學(xué)習(xí)年齡特征的方法,為減小過擬合風(fēng)險,該CNN特征只擁有3個卷積層和2個全連接層.文獻(xiàn)[11]提出一種在ImageNet和IMDB-WIKI上預(yù)訓(xùn)練一個基于VGG16網(wǎng)絡(luò)的CNN年齡模型,但是該模型的計(jì)算量十分巨大.文獻(xiàn)[27]提出一種多尺度的CNN網(wǎng)絡(luò),首先將人臉圖像劃分成23組對稱的局部圖像塊,然后對每組圖像塊生成一個子網(wǎng)絡(luò),每個子網(wǎng)絡(luò)包括一個卷積層、一個Max池化層和一個局部響應(yīng)層,最后在全連接層融合所有圖像塊的特征響應(yīng),該方法可以捕捉到人臉更多局部的年齡信息.
使用深度學(xué)習(xí)網(wǎng)絡(luò)可以提取更多層次的年齡信息,但是通常需要大量樣本學(xué)習(xí)魯棒的模型,而在較小的數(shù)據(jù)集上容易出現(xiàn)過擬合現(xiàn)象.為克服此缺點(diǎn),現(xiàn)有深度學(xué)習(xí)方法通常是首先在一個大型的圖像分類或人臉識別數(shù)據(jù)集上預(yù)訓(xùn)練一個通用的深度網(wǎng)絡(luò)[28-29],然后在大規(guī)模的年齡數(shù)據(jù)集上對網(wǎng)絡(luò)進(jìn)行微調(diào).
不同于身份、性別、表情等其他人臉屬性識別任務(wù)中標(biāo)簽的無序性,年齡標(biāo)簽之間具有一定的時序關(guān)系,因此年齡估計(jì)是一種特殊的模式識別任務(wù).現(xiàn)有的年齡估計(jì)模型主要包括分類方法、回歸方法、排序方法、混合方法、多任務(wù)學(xué)習(xí)方法等.文中對這些模型中的有代表性方法進(jìn)行綜述和比較.
基于分類的年齡估計(jì)方法將不同的年齡看作不同類別,用分類模型進(jìn)行年齡建模.文獻(xiàn)[30]分別基于單層精確年齡分類方法和分層的年齡段和年齡分類方法評估了二次函數(shù)、最近鄰分類器(K-nearest neighbors, KNN)和自組織映射等分類器在年齡分類任務(wù)上的性能.實(shí)驗(yàn)結(jié)果表明,在使用PCA人臉模型時,基于二次函數(shù)的分層年齡估計(jì)方法可以獲得更好的性能.文獻(xiàn)[31]基于非負(fù)矩陣分解法提取人臉特征,并采用基于Boosting RBF的神經(jīng)網(wǎng)絡(luò)進(jìn)行年齡分類.文獻(xiàn)[32]基于Gabor、BIF等多個人臉圖像特征采用極限學(xué)習(xí)機(jī)(extreme learning machines, ELM)進(jìn)行年齡分類.文獻(xiàn)[33]在CNN特征的基礎(chǔ)上使用核ELM年齡分類方法進(jìn)一步提高算法的速度和精度.從這些文獻(xiàn)的實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn)分類方法一定程度上可以解決年齡估計(jì)問題,但其缺點(diǎn)是沒有考慮年齡標(biāo)簽的時序特性,并且分類會存在邊界問題.
基于回歸的年齡估計(jì)方法將年齡標(biāo)簽看作連續(xù)數(shù)值,用回歸模型進(jìn)行年齡建模.文獻(xiàn)[18]在OLPP年齡流形特征的基礎(chǔ)上,采用了支持向量回歸(support vector regression, SVR)方法進(jìn)行年齡估計(jì).文獻(xiàn)[34]基于分層人臉模型分別比較了線性回歸、邏輯回歸、多層感知器(multi-layer perception, MLP)和SVR等回歸器在年齡估計(jì)任務(wù)上的性能,實(shí)驗(yàn)結(jié)果表明MLP獲得了最好的性能.文獻(xiàn)[21]基于圖像塊的核相似性使用無參的核回歸模型進(jìn)行年齡估計(jì).文獻(xiàn)[35]結(jié)合CNN提出一種端對端的深度回歸森林方法進(jìn)行年齡估計(jì).文獻(xiàn)[36]提出一種結(jié)合多個線性回歸器的錨定回歸網(wǎng)絡(luò)進(jìn)行年齡估計(jì),相比傳統(tǒng)的回歸方法其性能顯著提升.
基于回歸的年齡估計(jì)方法更符合年齡標(biāo)簽的時序關(guān)系特性,因此相比基于分類的方法其性能通常更好.但是當(dāng)人臉存在遮擋、光照等噪聲時,年齡回歸模型可能導(dǎo)致過擬合問題.
基于排序的方法將年齡估計(jì)問題看作一系列二元分類問題,即大于某年齡還是小于某年齡的問題.文獻(xiàn)[37]提出一種由一系列二元分類器構(gòu)成的排序分類器,其性能優(yōu)于SVM和SVR等分類和回歸方法.文獻(xiàn)[38]結(jié)合分類和排序思想提出一種個性化的年齡估計(jì)方法,對訓(xùn)練集中的每個個體采用Ranking SVM學(xué)習(xí)其年齡函數(shù),對于測試圖像使用相似人臉的年齡函數(shù)進(jìn)行年齡估計(jì).文獻(xiàn)[12]將年齡估計(jì)問題表示成一個多輸出的CNN模型,每個輸出單元都是一個二分類問題,對預(yù)測值是否大于某個年齡標(biāo)簽進(jìn)行判定,其實(shí)驗(yàn)結(jié)果證明使用排序信息可以提高年齡估計(jì)性能.文獻(xiàn)[39]對每個二元年齡分類問題訓(xùn)練一個CNN模型,最后聯(lián)合所有二元分類結(jié)果進(jìn)行年齡估計(jì).
年齡標(biāo)簽是一種有序的標(biāo)簽,排序方法通過一系列的二元分類結(jié)果獲得人臉的年齡估計(jì)值,相比回歸和分類方法可以更好學(xué)習(xí)年齡化過程的動態(tài)性,但是也需要花費(fèi)更多的模型學(xué)習(xí)時間.
基于混合模型的年齡估計(jì)方法試圖將多個年齡估計(jì)模型有機(jī)融合,以刻畫不同群體不同的年齡模式.文獻(xiàn)[18]提出一個局部調(diào)整魯邦回歸模型,首先使用SVR得到一個全局年齡估計(jì),并對該估計(jì)值進(jìn)行局部范圍的調(diào)整,然后使用SVM在調(diào)整后的年齡范圍內(nèi)進(jìn)行精確的年齡估計(jì).文獻(xiàn)[40-41]具有共同的思路,首先采用分類器將人臉圖像劃分為若干個年齡段,然后為每個年齡段分別訓(xùn)練一個回歸模型進(jìn)行精確年齡估計(jì).區(qū)別在于,文獻(xiàn)[40]采用SVM進(jìn)行年齡段分類,SVR進(jìn)行精確年齡回歸,文獻(xiàn)[41]采用級聯(lián)的端對端CNN依次學(xué)習(xí)年齡段分類器和精確年齡回歸器.文獻(xiàn)[11]提出一種基于端對端CNN分類器的年齡估計(jì)模型,將CNN分類的softmax概率和標(biāo)簽數(shù)值相乘再求和求期望作為年齡估計(jì)值,在LAB2015年齡估計(jì)競賽上取得了較好的效果.文獻(xiàn)[13]從辨別兩個人的年齡大小比直接預(yù)測兩人的年齡更容易的角度,將每張人臉圖像與不同參考圖像進(jìn)行兩兩對比得到其年齡概率分布,提出一種同時學(xué)習(xí)年齡標(biāo)簽和年齡概率分布的年齡估計(jì)方法.文獻(xiàn)[42]基于文獻(xiàn)[11]提出一種分段年齡回歸的網(wǎng)絡(luò),首先使用一個平移和縮放參數(shù)來獲得動態(tài)的年齡段劃分,然后進(jìn)行分段年齡回歸,最后計(jì)算各年齡段回歸的均值.文獻(xiàn)[43]在深度CNN特征提取的基礎(chǔ)上,融合了基于年齡數(shù)值的回歸模型和基于高斯標(biāo)簽分布的分類模型進(jìn)行年齡估計(jì).
由于年齡估計(jì)問題的復(fù)雜性,不同的群體通常具有不同的年齡模式,因此使用復(fù)合的模型融合多個年齡估計(jì)模式通常比單個年齡估計(jì)模型具有更好的性能.
多任務(wù)學(xué)習(xí)方法通過相關(guān)任務(wù)的聯(lián)合學(xué)習(xí)提高每個任務(wù)的學(xué)習(xí)性能.人臉屬性的多樣性和相關(guān)性,以及人臉年齡化過程的個性化,使得通過多任務(wù)學(xué)習(xí)框架進(jìn)行年齡估計(jì)可以得到更好的年齡估計(jì)模型.文獻(xiàn)[44]中提出一種多任務(wù)包裹的高斯過程(multi-task warped gaussian process, MTWGP)進(jìn)行個性化年齡回歸函數(shù)的學(xué)習(xí).文獻(xiàn)[45]對相似人臉進(jìn)行聚類,以聚族年齡估計(jì)為任務(wù)標(biāo)準(zhǔn),采用多任務(wù)SVR解決年齡估計(jì)問題.文獻(xiàn)[46]提出一種端對端的輕量級多任務(wù)CNN方法同時進(jìn)行年齡回歸和性別分類,并采用深度可分離的卷積來減小模型規(guī)模.文獻(xiàn)[47]提出一種雙層的多任務(wù)學(xué)習(xí)方法解決年齡估計(jì)問題,第一層同時進(jìn)行個性化年齡估計(jì)和全局年齡估計(jì);第二層對上一層每個任務(wù)利用所有訓(xùn)練圖像進(jìn)行多個二分類年齡標(biāo)簽得分函數(shù)的聯(lián)合學(xué)習(xí).文獻(xiàn)[48]提出一種深度多任務(wù)學(xué)習(xí)框架聯(lián)合預(yù)測人臉圖像中的年齡、性別和種族屬性,該框架利用各屬性之間的相關(guān)性在CNN的前期共享特征表示,利用各屬性的異構(gòu)性在CNN的后期使用多任務(wù)學(xué)習(xí)方法同時進(jìn)行特定任務(wù)的特征學(xué)習(xí)進(jìn)而聯(lián)合完成多個屬性的識別任務(wù).
多任務(wù)學(xué)習(xí)框架主要使用相關(guān)人臉屬性來輔助年齡估計(jì)任務(wù),或者針對年齡化過程的個性化特點(diǎn),同時進(jìn)行多個個性化的年齡估計(jì)任務(wù).基于多任務(wù)學(xué)習(xí)的年齡估計(jì)方法能夠更好學(xué)習(xí)不同群體之間共享的年齡模式,同時保留各群體獨(dú)自的年齡特性,因此相比單任務(wù)的年齡估計(jì)方法可以獲得更好性能.
基于人臉圖像的年齡估計(jì)研究首先需要使用人臉檢測和定位方法確定人臉位置,并在此基礎(chǔ)上研究使用年齡特征提取和年齡模型學(xué)習(xí)兩大關(guān)鍵技術(shù)解決年齡估計(jì)問題.人臉檢測和定位技術(shù)目前已經(jīng)成為一個獨(dú)立的研究分支,文獻(xiàn)[49]提出的基于膚色模型等方法,通常不是年齡估計(jì)的研究重點(diǎn).因此文中從年齡估計(jì)的數(shù)據(jù)集、特征表示和模型學(xué)習(xí)3個重要因素出發(fā)歸納和總結(jié)了現(xiàn)有的年齡估計(jì)方法,并對有代表性的年齡估計(jì)方法進(jìn)行性能比較(表1),從特征表示和模型學(xué)習(xí)兩個角度對結(jié)果進(jìn)行對比分析.
表1 年齡估計(jì)方法性能比較Table 1 Comparison of the performance of age estimation algorithms
“-”表示該算法未使用該性能度量進(jìn)行評估.
年齡估計(jì)特征表示方法可以概括為人工特征和深度特征兩種.人工特征一般利用經(jīng)驗(yàn)從人臉抽取與年齡相關(guān)的形狀和紋理等特性,比如LBP特征、AAM特征、BIF特征、流形特征等,并在此基礎(chǔ)上進(jìn)行多種局部和全局特征的融合.從表1可以看出端對端的深度學(xué)習(xí)方法比基于人工特征的年齡估計(jì)模型具有較大的性能提升.原因在于深度學(xué)習(xí)方法能夠自動學(xué)習(xí)人臉豐富的多層次特征,并且在端對端的模型訓(xùn)練過程中,特征提取過程利用了年齡標(biāo)簽,可以提取與人臉年齡更相關(guān)的特征,而無監(jiān)督的人工特征方法主要依賴經(jīng)驗(yàn)進(jìn)行年齡特征提?。巧疃忍卣鞯奶崛⌒枰笠?guī)模的年齡數(shù)據(jù)集,否則會發(fā)生模型欠擬合問題.在IMDB-WIKI、Adience等大型年齡數(shù)據(jù)集出現(xiàn)前,通常在大型圖像識別數(shù)據(jù)集或人臉識別數(shù)據(jù)集上預(yù)訓(xùn)練一個深度網(wǎng)絡(luò),然后在年齡數(shù)據(jù)集上對網(wǎng)絡(luò)進(jìn)行微調(diào).
年齡估計(jì)模型可以進(jìn)一步概括為單任務(wù)方法和多任務(wù)方法,單任務(wù)方法包括分類、回歸、排序以及混合模型.從表1可以看出多任務(wù)學(xué)習(xí)方法通??梢匀〉酶玫男阅?原因在于其利用人臉性別、種族等與年齡相關(guān)屬性的幫助,通過多個年齡估計(jì)任務(wù)的聯(lián)合學(xué)習(xí),獲得多任務(wù)共享的年齡特征和任務(wù)特定的年齡模式.單任務(wù)學(xué)習(xí)中回歸方法、排序方法和混合方法的效果普遍優(yōu)于分類方法,其原因在于年齡標(biāo)簽具有特殊的時序特性和分段特性.
文中在總結(jié)現(xiàn)有年齡估計(jì)方法基礎(chǔ)上,對年齡估計(jì)下一步研究方向給出展望.
(1) 時空特征提取.現(xiàn)有研究都是從單張靜態(tài)圖像中提取諸如紋理等能反應(yīng)年齡特性的圖像特征進(jìn)行年齡估計(jì),但是人臉年齡化過程是一個緩慢的時間過程,包含了很多動態(tài)特征,如果能夠收集人臉在某一時間段內(nèi)的年齡化圖像序列,并從中提取到人臉年齡的時空特征,將能更好辨別當(dāng)前人臉圖像所處的年齡化進(jìn)程.年齡模式子空間方法[16]是這一方法的有益嘗試,但是目前這方面的研究還比較缺乏.因此人臉圖像序列的動態(tài)時空特征提取是年齡估計(jì)未來潛在的研究方向之一.
(2) 除年齡外,人臉還具有性別、種族、表情、姿態(tài)等多種屬性,這些屬性存在一定的相關(guān)性,比如不同性別的人通常具有不同的年齡化過程,不同種族的人也具有不同的年齡化過程.通過同時聯(lián)合年齡與性別、種族等相關(guān)屬性進(jìn)行多任務(wù)同時學(xué)習(xí),對年齡估計(jì)也有一定的幫助.此外不同的個體通常也具有不同的年齡化過程,因此也開展了研究基于個體為任務(wù)標(biāo)準(zhǔn)的多任務(wù)年齡估計(jì)方法.根據(jù)這些輔助任務(wù)與年齡估計(jì)任務(wù)的相關(guān)性程度,選擇合適的任務(wù)進(jìn)行基于多任務(wù)學(xué)習(xí)的年齡估計(jì)是未來研究的一個重要方向.
(3) 人類的年齡特性不僅體現(xiàn)在面部外觀變化上,還體現(xiàn)在語速變化和行為特點(diǎn)的差異上,這些特征都可以有效反應(yīng)年齡變化.因此在年齡估計(jì)研究時,同時集合面部變化特征、語音特征和行為特征進(jìn)行多模態(tài)年齡估計(jì)理論上可以提高年齡估計(jì)的精度.然而,現(xiàn)有的年齡估計(jì)研究大多基于單張人臉圖像信息進(jìn)行的,并沒有采集和利用語音和行為動作等信息.另外,多模態(tài)信息融合方式可以采取特征階段融合和決策階段融合兩種方式,哪一種方式更符合年齡估計(jì)規(guī)律也仍有待研究.文獻(xiàn)[50]對基于人臉圖像的年齡估計(jì)和對基于聽覺的年齡估計(jì)方法分別進(jìn)行了介紹,并對兩者的融合進(jìn)行了展望,但是目前并未有其他更多的多模態(tài)年齡估計(jì)研究工作.因此基于多模態(tài)信息采集和融合的年齡估計(jì)方法是另一個潛在的研究方向.