白昊洋+胡???馬可心+高策
摘要:人臉圖像年齡估計(jì)在計(jì)算機(jī)視覺領(lǐng)域中已經(jīng)成為一項(xiàng)非常重要的任務(wù),具有廣泛的實(shí)際應(yīng)用價(jià)值。針對(duì)非受限條件下人臉圖像年齡分類困難的問題,提出了一種基于深度殘差網(wǎng)絡(luò)的非受限條件下人臉年齡分類方法。首先,具體介紹了34層殘差網(wǎng)絡(luò)的結(jié)構(gòu),并將其作為卷積神經(jīng)網(wǎng)絡(luò)模型處理人臉年齡分類問題。然后,對(duì)Adience數(shù)據(jù)集詳細(xì)描述,并在此數(shù)據(jù)集上對(duì)網(wǎng)絡(luò)訓(xùn)練和測(cè)試。最后,通過與現(xiàn)有年齡估計(jì)方法的結(jié)果進(jìn)行對(duì)比,可得該文方法獲得了較好的年齡分類準(zhǔn)確度。
關(guān)鍵詞:殘差網(wǎng)絡(luò);人臉圖像:年齡分類:非受限條件:Adience數(shù)據(jù)集
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)14-0169-02
1概述
人臉圖像包含很多信息,如身份、表情、姿態(tài)、性別和年齡。其中,年齡是人的重要生物特征,可以應(yīng)用于多種場(chǎng)景,如基于年齡的人機(jī)交互系統(tǒng)、基于年齡的訪問控制、電子商務(wù)中個(gè)性營(yíng)銷及刑事案件偵查中的年齡過濾等n,。很多研究者在人臉圖像年齡估計(jì)方面做了大量研究,早期,主要用Gabor,LBP,SFP和BIF等提取特征以及SVM方法進(jìn)行年齡分類,這些人工提取特征的方法在受限條件下的人臉數(shù)據(jù)集上獲得了不錯(cuò)的結(jié)果,但是在非受限條件下的人臉年齡分類任務(wù)中效果不佳;近幾年,深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)成為了計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。從5層的LeNet,到8層的AlexNet,再到19層的VGGm和22層的GoogleNet,直到上千層的ResNets,無論是網(wǎng)絡(luò)的學(xué)習(xí)能力還是深度都得到顯著提高。因此,越來越多的學(xué)者采用DCNN解決年齡分類問題,并證明其在非受限條件下能獲得明顯優(yōu)于手工提取特征方法的結(jié)果。
在人臉年齡分類中,人臉圖像往往受到面部姿態(tài)、光線、化妝和背景等影響,極大地限制了人臉年齡分類的準(zhǔn)確性。針對(duì)非受限條件下人臉圖像年齡分類困難的問題,本文提出了一種基于深度殘差網(wǎng)絡(luò)的非受限條件下人臉年齡分類方法。
2 34層殘差網(wǎng)絡(luò)
He等提出了深度殘差網(wǎng)絡(luò)(ResNets),該網(wǎng)絡(luò)采用殘差塊作為網(wǎng)絡(luò)的基本組成部分,可以很大程度上解決DCNN隨著深度增加而帶來的網(wǎng)絡(luò)退化問題。ResNets在原始卷積層外部加人越層連接(shoacut)支路構(gòu)成基本殘差塊RB,使原始的映射H(X)被表示為H(X)=F(X)+x。ResNets通過殘差塊結(jié)構(gòu)將網(wǎng)絡(luò)對(duì)爿(X)的學(xué)習(xí)轉(zhuǎn)化為對(duì)F(X)的學(xué)習(xí),而對(duì)F(X)的學(xué)習(xí)較H(X)更為簡(jiǎn)單。基于殘差塊更易學(xué)習(xí)的特性,ResNets通過順序累加殘差塊成功地緩解了DCNN的退化問題,提高了網(wǎng)絡(luò)性能。
ResNet-34結(jié)構(gòu)如圖1所示,殘差塊的具體表達(dá)式如下,函數(shù)F(x)表示殘差映射,x和y分別代表殘差塊的輸入和輸出。當(dāng)x和F數(shù)相同時(shí),采用式(1),此時(shí)越層連接既沒有增加額外參數(shù)也沒有增加計(jì)算復(fù)雜度。當(dāng)x和F維數(shù)不同時(shí),采用式(2),通過越層連接執(zhí)行1×1卷積映射G(x)以匹配維數(shù)。
ResNet-34網(wǎng)絡(luò)輸入圖像大小為224×224。首先經(jīng)過卷積層,卷積核為7×7,步長(zhǎng)為2,輸出特征圖為112×112;再經(jīng)過最大池化層;其次經(jīng)過四組不同殘差塊,各殘差塊組的殘差塊數(shù)量分別為3、4、6和3,并且同組中的殘差塊輸入輸出維度相同,分別為64、128、256和512,各組輸出特征圖大小依次為56×56、28×28、14×14、7×7。最后經(jīng)過平均池化層和全連接層,通過softmax分類器,輸出分類結(jié)果。
3數(shù)據(jù)集
Adience數(shù)據(jù)集來自人們從智能手機(jī)設(shè)備自動(dòng)上傳到網(wǎng)絡(luò)相冊(cè)的圖像。這些圖像在上傳之前并沒有經(jīng)過人工過濾,且這些圖像都是在非受限條件下拍攝的。這些圖像在頭部姿勢(shì)、面部表情和光線條件質(zhì)量等方面都存在很大差異,所以在Adi-ence數(shù)據(jù)集下的人臉圖像年齡分類任務(wù)面臨巨大挑戰(zhàn)。
Adience包含2284個(gè)人的26580張人臉圖像,年齡范圍為0-100歲,共8個(gè)年齡段(0-2,4-6,8-13,15-20,25-32,38-43,48-53,60-),年齡分布如表1。
4實(shí)驗(yàn)結(jié)果與分析
為了提升網(wǎng)絡(luò)的人臉分類性能,本文選用ResNet-34在人臉圖像Adience數(shù)據(jù)集上做年齡分類。訓(xùn)練和測(cè)試時(shí)動(dòng)量值為0.9,權(quán)重衰減為0.0001。batch大小設(shè)為64,epoch設(shè)為164,初始學(xué)習(xí)率為0.1,在81和122個(gè)epoch之后學(xué)習(xí)率分別降為0.01和0.001。本文實(shí)驗(yàn)?zāi)P筒捎肗vidia Titan X GPU訓(xùn)練,運(yùn)行環(huán)境為torch7。
本文采用文獻(xiàn)[7]中的交叉驗(yàn)證方法,將Adience數(shù)據(jù)集分成五組不同圖像(fold-0,fold-1,fold-2,fold-3,fold-4),令其中一組圖像作為測(cè)試集,其余四組圖像作為訓(xùn)練集,共構(gòu)成五種檢測(cè)方式。通過計(jì)算平均分類準(zhǔn)確度和1-off值作為評(píng)估標(biāo)準(zhǔn)。在fold-0測(cè)試的年齡分類準(zhǔn)確度的曲線圖如圖2所示,由此可知網(wǎng)絡(luò)能夠很好地收斂。
為了驗(yàn)證本文方法的有效性,將現(xiàn)有在Adience數(shù)據(jù)集上的年齡分類方法與本文方法對(duì)比,各方法人臉年齡分類結(jié)果如表2所示。由表2可以看出本文提出的方法獲得了除DEX w/IMDB-WIKI Pretrain方法以外的最高年齡分類準(zhǔn)確度,主要由于文獻(xiàn)[10]用大規(guī)模人臉數(shù)據(jù)集IMDB-WIKI微調(diào)網(wǎng)絡(luò)。不經(jīng)過大數(shù)據(jù)集對(duì)網(wǎng)絡(luò)微調(diào)時(shí),本文提出的基于深度殘差網(wǎng)絡(luò)的年齡分類方法獲得了最高年齡分類準(zhǔn)確度。
5結(jié)論
針對(duì)非受限條件下人臉圖像年齡分類準(zhǔn)確度低的問題,本文提出了一種非受限條件下的殘差網(wǎng)絡(luò)人臉年齡估計(jì)方法。采用ResNet-34網(wǎng)絡(luò)在非受限條件下的Adience數(shù)據(jù)集上進(jìn)行了年齡分類實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明當(dāng)不用大數(shù)據(jù)集微調(diào)時(shí),本文提出的方法能夠有效地提高非受限條件下人臉圖像年齡分類準(zhǔn)確度。