杜星悅+董洪偉+楊振
摘要:標(biāo)定三維人臉模型特征點(diǎn)對(duì)人臉識(shí)別、人臉建模等都具有重要作用。針對(duì)人臉特征點(diǎn)標(biāo)定需要手工干預(yù)、標(biāo)定特征點(diǎn)個(gè)數(shù)少或不準(zhǔn)確、標(biāo)定時(shí)間長(zhǎng)等問(wèn)題,提出了一種基于投影與深度學(xué)習(xí)網(wǎng)絡(luò)的人臉三維模型特征點(diǎn)標(biāo)定法?;谡煌队?,生成人臉三維模型二維深度圖與二維特征點(diǎn)位置,采用以卷積神經(jīng)網(wǎng)絡(luò)為主的深度學(xué)習(xí)網(wǎng)絡(luò)模型訓(xùn)練測(cè)試,將深度圖上特征點(diǎn)映射到三維人臉模型,實(shí)現(xiàn)眉毛、眼睛、鼻尖、嘴巴等重要區(qū)域的特征點(diǎn)定位。實(shí)驗(yàn)表明,該方法可自動(dòng)標(biāo)定三維人臉模型特征點(diǎn),快速、準(zhǔn)確預(yù)測(cè)足夠數(shù)量特征點(diǎn)位置。
關(guān)鍵詞:三維人臉;特征點(diǎn)定位;投影;卷積神經(jīng)網(wǎng)絡(luò)
DOIDOI:10.11907/rjdk.171924
中圖分類號(hào):TP301
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2017)012-0012-03
Abstract:Calibration of the three-dimensional face model feature points has an important role on face recognition, face modeling, and so.Some problems still exist,like that Face feature points need to be manually calibrated, the number of calibration points is small or inaccurate, the calibration time is long, and so on. A feature point calibration method of face 3D model based on projection and depth learning network is proposed. Firstly, based on the orthogonal projection, the two-dimensional depth map and two-dimensional feature point position of the human face 3D model are generated.Then we use the depth learning network model, mainly based on the convolution neural network, to train and test, and map the feature points on the depth map to the 3D human model .Finally,we achieve facial key points on eyebrows, eyes, the nose tip and the mouth. Experiments show that this method can automatically calibrate enough 3D face model feature points, fastly and accurately.
Key Words:three dimensional; face feature point positioning; projection; convolution neural network
0 引言
二維人臉識(shí)別技術(shù)發(fā)展迅速,但沒(méi)有很好解決光照、表情等問(wèn)題。光照條件、姿態(tài)變化等因素都對(duì)二維人臉精確檢測(cè)與識(shí)別有較大影響。近年,三維人臉識(shí)別技術(shù)受到了越來(lái)越多關(guān)注。相對(duì)于二維人臉識(shí)別技術(shù),三維人臉識(shí)別技術(shù)較容易做到姿態(tài)與光照的不變性[1-2]。隨著技術(shù)發(fā)展,三維模型獲取日趨簡(jiǎn)化,促進(jìn)了三維人臉識(shí)別[3-4]、三維表情識(shí)別[5-6]、三維人臉?lè)指頪7-8]等三維人臉?lè)矫娴难芯俊?/p>
國(guó)內(nèi)外關(guān)于三維人臉特征點(diǎn)定位的一些研究包括:①基于曲率進(jìn)行特征點(diǎn)定位,曲率是三維研究中重要基本屬性之一,且有歐氏變換不變性,Chang等[9]綜合利用平均曲率及高斯曲率定位眼眶、鼻尖、鼻梁等人臉特殊區(qū)域?;谇实娜S特征點(diǎn)定位算法缺點(diǎn)是對(duì)于數(shù)據(jù)噪聲較為敏感,除了內(nèi)眼點(diǎn)以及鼻尖點(diǎn)外,其余特征點(diǎn)定位效果達(dá)不到要求;②王蜜宮等[10]基于局部形狀圖的方法,半徑大小選擇很關(guān)鍵,但大小確定較困難,選擇不當(dāng)直接影響結(jié)果精度,且只能對(duì)個(gè)別幾個(gè)特征點(diǎn)進(jìn)行預(yù)測(cè);③利用較成熟二維圖像數(shù)據(jù)人臉特征點(diǎn)定位技術(shù),輔助定位三維人臉數(shù)據(jù)特征點(diǎn),但此類算法要求三維數(shù)據(jù)存在二維輔助圖像,無(wú)法僅用于三維信息人臉數(shù)據(jù)。
結(jié)合上述研究以及解決方法不足之處,本文提出基于正交投影獲得三維數(shù)據(jù)對(duì)應(yīng)二維深度圖與深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行三維人臉特征點(diǎn)的定位方法。
1 正交投影
正交投影理論介紹如圖1所示,在右手坐標(biāo)系中,觀察空間中正交投影矩形觀察體,原點(diǎn)代表相機(jī)位置,f代表遠(yuǎn)裁剪面到相機(jī)面距離,n代表近裁剪面到相機(jī)面距離,p是該空間中某一個(gè)點(diǎn),p′是點(diǎn)p投影之后得到的點(diǎn)。
2 深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)
深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)算法,采取局部連接與權(quán)值共享方式,網(wǎng)絡(luò)結(jié)構(gòu)除了輸入與輸出層,還包括中間卷積層、抽樣層、全連接層。當(dāng)網(wǎng)絡(luò)輸入層是多維圖像時(shí),卷積神經(jīng)網(wǎng)絡(luò)避免了傳統(tǒng)復(fù)雜的特征提取與數(shù)據(jù)重建過(guò)程,優(yōu)點(diǎn)更為明顯。其在二維圖像處理上有眾多優(yōu)勢(shì),如網(wǎng)絡(luò)能自行抽取顏色、形狀、紋理等圖像特征,具有良好魯棒性、運(yùn)算效率等。輸入若干由d維人臉構(gòu)成圖像x∈Rd,p維目標(biāo)輸出變量Tg(x)∈Rp,深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)出一個(gè)從圖像到目標(biāo)值的映射函數(shù):F:x→T。映射F是復(fù)雜的非線性函數(shù),各層網(wǎng)絡(luò)作用可看作最小化以下目標(biāo)函數(shù):
3 算法
3.1 流程
本文方法流程主要分為訓(xùn)練及測(cè)試。
(1)訓(xùn)練。①標(biāo)定三維模型特征點(diǎn)位置;②對(duì)三維模型進(jìn)行正交投影;③獲得深度圖像(包括三維特征點(diǎn)所對(duì)應(yīng)二維坐標(biāo)位置);④深度網(wǎng)絡(luò)訓(xùn)練:以卷積神經(jīng)網(wǎng)絡(luò)為主要結(jié)構(gòu)(樣本是深度圖的值,標(biāo)簽是特征點(diǎn)二維坐標(biāo))進(jìn)行訓(xùn)練。
(2)預(yù)測(cè)。①輸入三維模型進(jìn)行正交投影獲得深度圖像(不包括特征點(diǎn)位置);②使用已訓(xùn)練好的深度網(wǎng)絡(luò)對(duì)深度圖像進(jìn)行特征點(diǎn)二維坐標(biāo)預(yù)測(cè);③輸出二維坐標(biāo)一一反投影到三維坐標(biāo),在三維模型上得到特征點(diǎn)位置。
其中,本文檢測(cè)人臉特征點(diǎn)位置目前標(biāo)記為左眼中心、左眼內(nèi)側(cè)、左眼外側(cè)、右眼中心、右眼內(nèi)側(cè)、右眼外側(cè)、左眉外側(cè)、左眉內(nèi)側(cè)、右眉外側(cè)、右眉內(nèi)側(cè)、鼻尖、嘴巴上側(cè)、嘴巴下側(cè)、嘴巴左側(cè)、嘴巴右側(cè)共計(jì)15個(gè)特征點(diǎn),如圖4所示??勺杂稍黾佑?xùn)練樣本特征點(diǎn)個(gè)數(shù),以預(yù)測(cè)更多特征點(diǎn)。
3.2 正交投影與透視投影對(duì)比
本文之所以采用正交投影,存在合理性。平面投影一般分為正交投影及透視投影。透視投影是視錐觀察體,基本原理如圖5所示。透視投影會(huì)據(jù)物體離視點(diǎn)遠(yuǎn)近縮放物體,深度值會(huì)發(fā)生一定扭曲。扭曲深度值作為實(shí)驗(yàn)數(shù)據(jù)無(wú)法反映真實(shí)深度,所以選擇正交投影而非透視投影。
3.3 深度網(wǎng)絡(luò)架構(gòu)
本文深度網(wǎng)絡(luò)架構(gòu)主要由卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,先是輸入層,經(jīng)過(guò)3層以卷積層、池化層為主網(wǎng)絡(luò)結(jié)構(gòu),然后是2層全連接層,最后是計(jì)算損失層。各層網(wǎng)絡(luò)主要參數(shù)如下:第一層卷積層:kernel size=5,stride=1;下接ReLU層;第一層池化層:kernel size=2,stride=2。第二層卷積層:kernel size=5,stride=1;下接ReLU層;第二層池化層:kernel size=2,stride=2。第三層卷積層:kernel size=3,stride=1;下接ReLU層。然后下接2個(gè)全連接層,參數(shù)num_output分別為500、30。
本文深度網(wǎng)絡(luò)架構(gòu)主要由卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,與傳統(tǒng)機(jī)器學(xué)習(xí)方法(如SVM、隨機(jī)森林等)相比,深度學(xué)習(xí)對(duì)圖像有強(qiáng)大特征提取能力,取得特征更加豐富,取得效果會(huì)有一定程度提升。另外,由于本文數(shù)據(jù)量很大,若使用傳統(tǒng)機(jī)器學(xué)習(xí)方法,訓(xùn)練會(huì)非常耗時(shí),而深度學(xué)習(xí)網(wǎng)絡(luò)依賴更加成熟GPU加速技術(shù),在縮短訓(xùn)練時(shí)間上有很大優(yōu)勢(shì)。
4 實(shí)驗(yàn)
4.1 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)數(shù)據(jù)庫(kù)采用bfm數(shù)據(jù)庫(kù),庫(kù)中每個(gè)三維人臉包括53 490個(gè)點(diǎn)及106 400個(gè)三角面。訓(xùn)練200個(gè)三維人臉人臉,每個(gè)人臉繞著xyz軸在一定范圍旋轉(zhuǎn)加上平移得到50個(gè)不同姿勢(shì)下深度圖像,增加訓(xùn)練樣本大小。再在庫(kù)中選取200個(gè)三維人臉進(jìn)行后期測(cè)試。
4.2 實(shí)驗(yàn)結(jié)果
硬件條件為顯卡gtx960,本文運(yùn)用GPU加速并行架構(gòu)。GPU近年來(lái)發(fā)展迅速,可以極大提升計(jì)算速度。在投影階段GPU加速示意圖如圖6所示。正交投影200個(gè)三維人臉時(shí)間,計(jì)算時(shí)間單CPU模式下約2h,GPU模式下約15min,提高10倍左右。
訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),迭代50 000次,在GPU模式下訓(xùn)練時(shí)間為25min左右,效率比CPU模式下快很多。
4.3 結(jié)果分析
使用GPU并行技術(shù),大幅縮短訓(xùn)練時(shí)間,是本文方法優(yōu)勢(shì)之一。另外,從測(cè)試實(shí)驗(yàn)結(jié)果中選取3個(gè)三維人臉,特征點(diǎn)結(jié)果預(yù)測(cè)結(jié)果如圖7、圖8、圖9所示。實(shí)驗(yàn)表明,運(yùn)用本文方法來(lái)預(yù)測(cè)人臉,三維人臉特征點(diǎn)定位結(jié)果準(zhǔn)確。
5 結(jié)語(yǔ)
本文方法利用基于三維人臉模型正交投影生成合理深度值的二維深度圖像,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的圖像特征提取及擬合能力,解決了三維人臉特征點(diǎn)需人工手動(dòng)定位以及標(biāo)定三維特征點(diǎn)耗時(shí)長(zhǎng)等問(wèn)題。由實(shí)驗(yàn)結(jié)果可見,本文方法訓(xùn)練及測(cè)試時(shí)間短,三維特征點(diǎn)定位準(zhǔn)確,并且可增加三維人臉預(yù)測(cè)特征點(diǎn)數(shù)目。本文實(shí)驗(yàn)預(yù)測(cè)了15個(gè)關(guān)鍵特征點(diǎn),可通過(guò)擴(kuò)充訓(xùn)練庫(kù)人臉關(guān)鍵特征點(diǎn)數(shù)目,預(yù)測(cè)大于15個(gè)三維人臉特征點(diǎn)。
參考文獻(xiàn):
[1] 呂士文,達(dá)飛鵬,鄧星.基于區(qū)域改進(jìn)LBP的三維人臉識(shí)別[J].東南大學(xué)學(xué)報(bào):自然科學(xué)版,2015(4):64-68.
[2] 王健,高媛,秦品樂(lè),等.基于改進(jìn)的LBP算法的三維人臉識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2016(12):234-238.
[3] 鄧星,達(dá)飛鵬,楊喬生.基于自適應(yīng)人臉切割的三維人臉識(shí)別算法[J].東南大學(xué)學(xué)報(bào):自然科學(xué)版,2016(2):34-38.
[4] 劉述木,楊建,陳躍.保角特征結(jié)合改進(jìn)差分進(jìn)化算法的三維人臉識(shí)別[J].計(jì)算機(jī)應(yīng)用研究,2016(6):304-308.
[5] 李江,冉君軍,張克非.一種基于降噪自編碼器的人臉表情識(shí)別方法[J].計(jì)算機(jī)應(yīng)用研究,2016(12):329-332.
[6] 黃建,李文書,高玉娟.人臉表情識(shí)別研究進(jìn)展[J].計(jì)算機(jī)科學(xué),2016(S2):132-135.
[7] XUN GONG, GUOYIN WANG.Automatic 3D face segmentation based on facial feature extraction[C].IEEE International Conference on Industrial Technology,2006:1154-1159.
[8] 賈暉,耿國(guó)華,周明全,等.基于區(qū)域離散曲率的三維網(wǎng)格分水嶺分割[J].計(jì)算機(jī)工程與應(yīng)用, 2015,51(11):182-186.
[9] CHANG K I,BOWYER W,F(xiàn)LYNN P J.Multiple nose region matching for 3D face recognitlon under varying facial expression[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(10):1695-1700.
[10] 王密宮,陳鍛生,林超.基于局部形狀圖的三維人臉特征點(diǎn)自動(dòng)定位[J].計(jì)算機(jī)應(yīng)用,2010 (5):121-124.
(責(zé)任編輯:何 麗)