李超琪 王紹宇
摘要:人臉包含了較多的可區(qū)分生物特征信息,這些信息除了可用于身份認(rèn)證和識(shí)別外,還可用于人臉年齡分類等應(yīng)用。為克服人臉?biāo)碚髂挲g信息會(huì)受到復(fù)雜的非線性因素例如個(gè)體的基因差異、居住環(huán)境、健康情況和種族差別等因素的影響,本文使用深度卷積神經(jīng)網(wǎng)絡(luò),通過(guò)設(shè)計(jì)一系列的卷積、池化、全連接和歸一化層,對(duì)人臉的年齡進(jìn)行了有效地分類。本算法能克服傳統(tǒng)SVM分類算法不能有效處理人臉圖像和實(shí)際年齡間復(fù)雜的非線性關(guān)系而帶來(lái)的準(zhǔn)確率下降問(wèn)題,在FG-NET人臉數(shù)據(jù)測(cè)試集上達(dá)到了94.4%的準(zhǔn)確率,能有效地應(yīng)用在安防、人機(jī)交互和娛樂(lè)影音等領(lǐng)域。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);年齡分類
0引言
人臉作為人類個(gè)體鮮明顯著的生物特征之一,包含著豐富的個(gè)人信息。隨著計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,相關(guān)的人臉識(shí)別等技術(shù)已成為這些項(xiàng)目任務(wù)的熱點(diǎn)課題,并在法醫(yī)、電子化客戶關(guān)系管理、安防、生物識(shí)別和娛樂(lè)影音等諸多領(lǐng)域中得到廣泛應(yīng)用。人臉除了可進(jìn)行身份認(rèn)證和識(shí)別外,還可以提取出性別、種族和年齡等信息,特別是可以將年齡及分布特征用于人機(jī)交互和商業(yè)智能等應(yīng)用中,因此年齡估計(jì)研究具有重要的科學(xué)意義和實(shí)用價(jià)值。
相對(duì)于人臉識(shí)別,人臉?biāo)鼙碚鞯哪挲g信息要受到很多因素的影響,例如不同個(gè)體的基因差異、生活習(xí)慣、環(huán)境、抗壓能力、健康情況和種族差別等有很大的關(guān)系。同時(shí),相同個(gè)體因發(fā)型、化妝和表情的不同也會(huì)影響年齡的估計(jì)。因此,如果要基于傳統(tǒng)的分類算法(如支持向量機(jī))并利用人臉圖像信息來(lái)進(jìn)行年齡分類將很難得到理想的結(jié)果。針對(duì)這些問(wèn)題,目前的研究還相對(duì)不足,如果能有效解決上述問(wèn)題,對(duì)大部分潛在的應(yīng)用領(lǐng)域也都將帶來(lái)深刻的影響。
1相關(guān)工作
年齡分類的主要流程是先根據(jù)人臉圖像獲取特征,再通過(guò)機(jī)器學(xué)習(xí)方法構(gòu)建模型,通過(guò)把年齡分為多個(gè)年齡區(qū)段,即每個(gè)年齡段對(duì)應(yīng)一個(gè)類別(比如未成年或成年人等)。因此可以把年齡分類看成是一個(gè)二分類或者多分類的分類問(wèn)題來(lái)進(jìn)行求解。1994年,Kwon和Lobo則從人臉圖像中獲取年齡分類,把人分為3種不同的類別,也就是兒童、青年人和老年人,強(qiáng)調(diào)重要特征點(diǎn)的選擇。2002年Lanitis等人提出了能自動(dòng)對(duì)年齡實(shí)現(xiàn)估計(jì)的年齡量化方法。而且,王先梅等的綜述中也整體梳理了相關(guān)年齡估計(jì)技術(shù)的研究發(fā)展。王紹宇等人還基于SMV采用生物特征對(duì)人臉進(jìn)行分類,分為小孩和成人。此外在2016年,董遠(yuǎn)等人更將遷移學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)用于人的年齡和性別分類。
傳統(tǒng)的淺層機(jī)器學(xué)習(xí)模型,如支持向量機(jī)(SVM)等分類方法很難建立一個(gè)統(tǒng)一的模型去表示人臉圖像和實(shí)際年齡之間復(fù)雜的非線性關(guān)系,如果要提高年齡分類的準(zhǔn)確性,需要通過(guò)大量地協(xié)配人工參與來(lái)研究提取能區(qū)分對(duì)應(yīng)不同年齡類別的大量特征。深度學(xué)習(xí)算法能夠優(yōu)質(zhì)克服傳統(tǒng)淺層學(xué)習(xí)算法中需要手工提取特征的缺點(diǎn),能自動(dòng)地從低級(jí)別的圖像中抽取特征,再逐層地抽取特征,最后獲取高級(jí)別的抽象特征。卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)算法的一種,近幾年呈現(xiàn)迅速發(fā)展態(tài)勢(shì),并在許多圖像識(shí)別任務(wù)中取得了很大的成功。Krizhevskv等在2010年的ILSVRC中利用深度卷積神經(jīng)網(wǎng)絡(luò),對(duì)1000種不同類別的圖片展開分類,取得了當(dāng)時(shí)最好的識(shí)別率。此外,還在諸如語(yǔ)音識(shí)別、圍棋等領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)也得到了大量的應(yīng)用。
本文工作主要面向不需要提取準(zhǔn)確年齡信息,只需區(qū)分對(duì)象所處年齡段的應(yīng)用場(chǎng)合,通過(guò)基于CNN的模型來(lái)對(duì)年齡進(jìn)行兒童和成人的分類,能有效用于自動(dòng)售貨機(jī)出售酒精和香煙產(chǎn)品的授權(quán)、上網(wǎng)用戶的成年人認(rèn)證和公共場(chǎng)合對(duì)未成年人的重點(diǎn)視頻監(jiān)控等實(shí)際應(yīng)用中。