李澤東,曹 丹,陸 敏,段曉東2a,,王存睿
(1.東北大學(xué) 系統(tǒng)科學(xué)研究所,遼寧 沈陽 110819;2. 大連民族大學(xué) a.計算機(jī)科學(xué)與工程學(xué)院;b.大連市民族文化數(shù)字技術(shù)重點(diǎn)實(shí)驗(yàn)室,遼寧 大連 116605;3. 北方民族大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,寧夏 銀川 750021)
?
基于計算機(jī)視覺的未識別民族面部特征研究
李澤東1,2a,曹丹2b,陸敏3,段曉東2a,2b,王存睿1,2a
(1.東北大學(xué) 系統(tǒng)科學(xué)研究所,遼寧 沈陽 110819;2. 大連民族大學(xué) a.計算機(jī)科學(xué)與工程學(xué)院;b.大連市民族文化數(shù)字技術(shù)重點(diǎn)實(shí)驗(yàn)室,遼寧 大連 116605;3. 北方民族大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,寧夏 銀川 750021)
摘要:基于計算機(jī)視覺通過特征點(diǎn)定位方法提取圖像中的人臉特征點(diǎn),利用其構(gòu)建了眉間距、瞳孔間距、眼睛寬度等多項(xiàng)指標(biāo)來刻畫民族人臉特征,并分析了穿青人、南京人、蔡家人和革家人等未識別民族的特征,且與漢族、朝鮮族、藏族、蒙古族、壯族和維族等民族進(jìn)行了相似性度量。實(shí)驗(yàn)表明未識別民族的面部特征分布存在一定規(guī)律,但受性別影響,不同民族面部之間的相似性也不盡相同。研究結(jié)果不僅證實(shí)了利用計算機(jī)視覺技術(shù)對多民族人臉特征進(jìn)行分析的可行性,也為民族學(xué)人類學(xué)的相關(guān)研究提供了一種新途徑。
關(guān)鍵詞:計算機(jī)視覺,面部特征,未識別民族,相似性度量
人臉面部特征包含有民族、性別和年齡等基本屬性,其中民族屬性在人臉認(rèn)知過程中先于性別和年齡特征,是人臉判別的重要依據(jù)[1]。人類學(xué)研究已證實(shí),受文化、遺傳、地域等諸多客觀因素影響,不同民族面部特征之間差異的客觀存在性[2-5]。因此,利用計算機(jī)視覺技術(shù)深入分析和挖掘多民族面部特征及其規(guī)律,對于深化人類學(xué)相關(guān)研究具有重要意義。
人臉特征描述主要分為全局特征和局部特征[6]。全局特征是指特征向量的每一維都包含了人臉圖像中所有部分的信息,反映的是人臉整體屬性。而局部特征中,每一維向量只對應(yīng)人臉圖像中的一個局部區(qū)域,側(cè)重于提取人臉的細(xì)節(jié)特征。在人臉識別的研究中,兩種類型特征被廣泛使用。近年來,利用計算機(jī)視覺技術(shù)對人臉的民族特征研究在國際上逐漸開展起來,其中包括Shakhnarovich利用boosting算法對亞洲人以及非亞洲人進(jìn)行了民族特征研究[7];Lu和Jain利用線性判別分析(Linear Discriminant Analysis,LDA)對亞洲人以及非亞洲人種提取多維度面部特征進(jìn)行研究[8];Hosoi和Takikawa等對蒙古人種、高加索人以及黑種人等進(jìn)行了面部特征提取和模式分析[9]。但國際上主要集中于全球幾個主要人種之間的面部特征分析,對屬于同一人種的不同民族或族群的研究相對較少。直到20世紀(jì)90年代初,有學(xué)者開始對中國人外貌特征進(jìn)行了初期研究[10],但針對民族人臉特征的相關(guān)研究尚處于起步階段[11-12]。本課題組從2005年開始對中國多民族人臉特征進(jìn)行研究,通過田野調(diào)查重點(diǎn)采集了我國西南、西北等地區(qū)的民族人臉圖像,初步構(gòu)建了具有6 000余樣本的多民族人臉數(shù)據(jù)庫[11-12]。并利用主成分分析(Principal Component Analysis,PCA)、線性判別分析和Gabor等方法對部分民族的人臉特征進(jìn)行了前期研究,并驗(yàn)證了不同民族面部特征的多樣性。
未識別民族占我國人口的極少部分,約64萬人[13],主要分布在貴州、云南、四川和西藏等地,探索嘗試研究未識別民族的面部特征對于豐富和完善現(xiàn)有民族面部特征研究工作具有一定意義。為此,本文在國家民委項(xiàng)目支持下,將人臉民族特征分析與體質(zhì)人類學(xué)的相關(guān)工作作為結(jié)合點(diǎn),研究革家人、蔡家人、穿青人和南京人等未識別民族的人臉特征分布規(guī)律以及民族面部特征信息之間的內(nèi)在規(guī)律。文中利用計算機(jī)視覺技術(shù)取人臉部件的幾何形態(tài)特征點(diǎn),并構(gòu)建長度、高度和角度等18個指標(biāo)刻畫前述未識別民族的人臉特征,進(jìn)而探索其面部特征的分布規(guī)律;同時與漢族、朝鮮族、藏族、蒙古族、維吾爾族、壯族[14]等民族之間進(jìn)行相關(guān)性分析,探求不同民族面部特征之間的相關(guān)規(guī)律。
1人臉面部特征構(gòu)建
1.1面部特征定位
個體人臉的形態(tài)差異會導(dǎo)致圖像不同人臉的形變,因此檢測算法模型應(yīng)對人臉的形狀變變化具有一定的魯棒性。主動形狀模型方法 (Active Shape Models, ASM)[15]是一種較為流行的方法,通過建立每個特征點(diǎn)的局部灰度模型,在形狀搜索時作為啟發(fā)式信息更新特征點(diǎn)位置,從而達(dá)到對目標(biāo)輪廓的精確定位。其過程如下
首先對每一幅訓(xùn)練圖像標(biāo)記特征點(diǎn)為中心,沿著其法線方向分別在特征點(diǎn)兩邊取k個像素的灰度值,然后以法線段上某個點(diǎn)為中心,截取k*k的窗口,該窗口內(nèi)像素的平均值就作為該中心點(diǎn)的灰度值,每一個點(diǎn)對應(yīng)的灰度模板就是關(guān)于這2k+1個灰度值(包括特征點(diǎn)的灰度)的均值和方差模型。
對于i幅圖像的第j個特征點(diǎn),其向量表示為
(1)
(2)
對ΔGij進(jìn)行標(biāo)準(zhǔn)化,有
類似地,都可得到每個特征點(diǎn)的局部特征。之后目標(biāo)圖像中的某候選點(diǎn)的標(biāo)準(zhǔn)化灰度導(dǎo)數(shù)向量y’與其訓(xùn)練好的局部特征之間的相似性度量為
(3)
反映了目標(biāo)圖像中候選點(diǎn)與第j個特征點(diǎn)之間的相似度,d值越小相似度越大。相似度最大的候選點(diǎn)作為目標(biāo)圖像中與特征點(diǎn)j最匹配的目標(biāo)點(diǎn)。根據(jù)ASM方法原理,文中對民族人臉圖像進(jìn)行定位,并提取其中76個特征點(diǎn),如圖1。
圖1 人臉部件定位特征點(diǎn)
1.2面部特征構(gòu)建
本文借鑒人體測量學(xué)[16-17]以及人臉幾何特征形態(tài),構(gòu)建了與民族人臉面部特點(diǎn)關(guān)系密切的眉內(nèi)間距、瞳孔間距、眼睛寬度、鼻寬和眉眼長軸夾角等18個人臉特征。特征點(diǎn)及其計算方法見表1、表2。
表1 人臉面部幾何特征
表2 人臉特征計算方式
表2中,li(xi,yi)表示圖像中人臉部件特征點(diǎn)的x軸和y軸坐標(biāo),d(li,lj)表示li和lj兩點(diǎn)之間的距離,arc表示角度特征。
2未識別民族人臉特征分析
2.1未識別民族人臉特征統(tǒng)計
根據(jù)表1中構(gòu)建的18個人臉面部特征,文中對穿青人、南京人、蔡家人和革家人等4個未識別民族的男性和女性面部特征分別進(jìn)行統(tǒng)計,其部分結(jié)果見表3。
表3 未識別民族人臉面部幾何特征統(tǒng)計(節(jié)選)
從表3可知,在眉內(nèi)間距、瞳孔間距以及眼睛寬度等距離特征中,穿青人、南京人和蔡家人之間相似性較高,而革家人的度量值較小且與其相差較大;而下頜下巴夾角、顴點(diǎn)眉心點(diǎn)夾角和鼻孔眉心夾角等角度特征的分布相對集中,且變化范圍相對低于距離特征,更有利于表達(dá)未識別民族人臉之間的差異。
由于未識別民族的人數(shù)導(dǎo)致樣本的不均衡亦是形成以上差異的可能因素之一。但其結(jié)果仍具有代表性,可作為不同民族之間人臉特征分析的重要依據(jù)。
2.2面部特征相似性分析方法
本文使用層次聚類方法度量不同民族面部特征之間的相似性。聚類是將物理或抽象對象的集合分成由不同對象組成的多個類的過程,要求同類中各個對象之間的模式比非同類中的模式具有更多的相似性。常用的聚類方法有層次聚類、K-means以及模糊C均值(Fuzzy C-means, FCM)等方法[18]。其中層次聚是根據(jù)給定的簇間距離度量準(zhǔn)則,構(gòu)造和維護(hù)一棵由簇和子簇形成的聚類樹,直至滿足某個終結(jié)條件為止,且能夠以樹模式展示不同民族之間的相似關(guān)系。
本文采用基于AGNES算法的層次聚類分析多民族之間的相似性。層次聚類方法可分為凝聚、分裂的兩種方案,代表方法分別為AGNES和DIANA方法。AGNES算法是一種自底向上的策略,首先將每個對象作為一個簇,然后合并這些原子簇為越來越大的簇,直到所有的對象都在一個簇中,或者某個終結(jié)條件被滿足,絕大多數(shù)層次聚類方法屬于這一類,只是在簇間相似度的定義上有所不同。DIANA算法采用自頂向下的策略,與AGNES算法相反,首先將所有對象置于同一個簇中,然后逐漸細(xì)分為越來越小的簇,直到每個對象自成一簇,或者達(dá)到了某個終止條件。
而各個簇之間的距離通常采用最小距離、最大距離、平均值距離和平均距離等方式度量。假設(shè)Ci和Cj為兩個簇,其中p∈Ci為簇Ci中的一個特征樣本,p’∈Cj為簇Cj中的一個特征樣本,其度量方式如下所示:
(4)
(5)
平均值距離:是指用兩個簇各自中心之間的距離代表兩個類的距離。
(6)
式中,mi是簇Ci的平均值,mj是簇Cj的平均值。
(7)
式中,ni是簇Ci中的樣本數(shù)量;nj是簇Cj中的樣本數(shù)量。
2.3多民族面部特征相似性分析
利用層次聚類方法,本文對穿青人、南京人、蔡家人、革家人以及漢族、朝鮮族、藏族、蒙古族、壯族、維族[14]等民族的男性和女性人臉面部特征分別進(jìn)行了相似度分析,見表4、表5。
表4 多民族男性面部特征相似度矩陣
表5 多民族女性面部特征相似度矩陣
由表4和表5中各民族的相似度可知:① 未識別民族群落面部特征之間的分布存在一定的規(guī)律。男性中,南京人、穿青人、蔡家人和革家人之間的相似系數(shù)分別為0.871 7、0.805 4和0.792 9;女性中南京人、穿青人、蔡家人和革家人之間的相似系數(shù)分別為0.899 3、0,814 7和0.736 7;之后未識別民族與其他民族面部特征較為相似。② 多民族間的面部特征相似規(guī)律體現(xiàn)在兩個層面:一方面體現(xiàn)在民族之間的相似性;另一方面是依據(jù)相似度形成了不同的相似群落。例如女性中朝鮮族、蒙古族、漢族形成的群落與維族之間的相似度為0.904 3,男性中,漢族、蒙古族和朝鮮族群落和壯族、維族形成的群落之間的相似度為0.932 9。③ 多民族面部特征間具有相似性,但男性和女性所屬民族的相似程度不同。男性中漢族和蒙古族最為接近(相似度為0.969 8,下同),其次是漢族和朝鮮族(0.957 2)、蒙古族和朝鮮族族(0.957 2);女性中朝鮮族和蒙古族最接近(0.974 8),其次是漢族和朝鮮族(0.954 9)、漢族和蒙古族(0.954 9)。
3結(jié)論
本文以計算機(jī)視覺技術(shù)為手段,通過對民族人臉圖像特征點(diǎn)進(jìn)行定位,構(gòu)建眉內(nèi)間距、瞳孔間距、眼寬度、嘴寬度、顴骨-眉心角和眉眼長軸夾角等18個指標(biāo),對南京人、蔡家人、穿青人和革家人等部分未識別民族的面部特征進(jìn)行刻畫;同時與漢族、朝鮮族、藏族、蒙古族、壯族、維族等民族的人臉面部特征進(jìn)行了相似性度量,并且初步分析了部分未識別民族面部特征相似性規(guī)律。但受樣本量限制,在后續(xù)研究中仍需繼續(xù)豐富多民族人臉樣本數(shù)據(jù),以便進(jìn)一步揭示不同民族面部特征之間內(nèi)在的關(guān)聯(lián)關(guān)系,為多民族融合發(fā)展提供依據(jù)。
此外,本文的研究證實(shí)了利用計算機(jī)技術(shù)對人臉特征進(jìn)行分析的可行性,不僅可以代替?zhèn)鹘y(tǒng)的人工測量,節(jié)省了大量工作時間,也可根據(jù)多民族人臉特征之間的分布規(guī)律對不同民族的特征進(jìn)行定量分析和挖掘,是人臉特征分析的重要手段,為民族學(xué)和人類學(xué)研究提供了可借鑒的途徑,也為多民族人臉形態(tài)數(shù)字化留存提供了新手段。
參考文獻(xiàn):
[1] FU S, HE H, HOU Z G. Learning Race from Face: A Survey[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 36(12):2483-2509.
[2] 張振標(biāo), 張建軍. 廣西壯族體質(zhì)特征[J]. 人類學(xué)學(xué)報, 1983(3):260-271.
[2] 張振標(biāo). 藏族的體質(zhì)特征[J]. 人類學(xué)學(xué)報, 1985(3):250-258.
[4] 艾瓊?cè)A, 肖輝. 維吾爾族的體質(zhì)特征研究[J]. 人類學(xué)學(xué)報, 1993(4):357-365.
[5] 崔靜, 鄭連彬, 沈新生. 新疆塔塔爾族體質(zhì)特征調(diào)查[J]. 人類學(xué)學(xué)報, 2004, 23(1):47-54.
[6] 蘇煜, 山世光, 陳熙霖, 等. 基于全局和局部特征集成的人臉識別[J]. 軟件學(xué)報, 2010, 21(8):1849-1862.
[7] SHAKHNAROVICH G, VIOLA P A, MOGHADDAM B. A unified learning framework for real time face detection and classification[C]∥ IEEE International Conference on Automatic Face and Gesture Recognition. IEEE Computer Society, 2002:14-21.
[8] LU X, JAIN A K. Ethnicity identification from face images[C]∥ Proceedings of SPIE-The International Society for Optical Engineering, 2004, 5404:114-123.
[9] HOSOI S, TAKIKAWA E, KAWADE M. Ethnicity estimation with facial images[C]∥ IEEE International Conference on Automatic Face and Gesture Recognition, 2004:195-200.
[10] GAO W, CAO B, SHAN S, et al. The CAS-PEAL Large-Scale Chinese Face Database and Baseline Evaluations[J]. IEEE Transactions on Systems Man and Cybernetics-Part A:Systems and Humans, 2008, 38(1):149-161.
[11] 段曉東, 李澤東, 王存睿, 等 . 基于AFS的多民族人臉語義描述與挖掘方法研究[J/OL]. 計算機(jī)學(xué)報, [2015-11-17].http:∥ www.cnki,net/kcms/detail/11.1826.TP.2015117.1315.006.html
[12] 段曉東,王存睿,劉向東,等. 人臉的民族特征抽取及其識別.計算機(jī)科學(xué)[J]. 2010, 37(8): 276-279, 301.
[13] 國務(wù)院人口普查辦公室. 中國2010年人口普查資料[Z]. 北京:中國統(tǒng)計出版社, 2012.
[14] 李志潔, 段曉東, 王存睿. 中國6個民族的面部幾何特征聚類分析[J]. 大連民族學(xué)院學(xué)報, 2015(1):73-76.
[15] COOTES T F, TAYLOR C J, COOPER D H,et al. Active shape models-their training and application[J]. Computer vision and image understanding, 1995, (61): 38-59.
[16] 張繼宗. 中國體質(zhì)人類學(xué)研究[M]. 北京:科學(xué)出版社, 2010.
[17] 席煥久. 體質(zhì)人類學(xué)[M]. 北京:知識產(chǎn)權(quán)出版社, 2011.
[18] 高新波. 模糊聚類分析及其應(yīng)用[M]. 西安:西安電子科技大學(xué)出版社, 2004.
(責(zé)任編輯王楠楠)
The Study for Facial Features of Unrecognized Ethnic Groups Based on Computer Vision
LI Ze-dong1,2a, CAO Dan2b, LU Min3, DUAN Xiao-dong2a,2b, WANG Cun-rui1,2a
(1.Institute of System Science, Northeastern University, Shenyang Liaoning 110819, China;2a.School of Computer Science and Engineering; 2b.Dalian Key Lab of Digital Technology for National Culture, Dalian Minzu University, Dalian Liaoning 116605, China; 3.College of Computer Science and Engineering,Beifang University of Nationalities, Yinchuan Ningxia 750021, China)
Abstract:The facial feature points are first extracted from images using landmark method in this paper. Then, the facial features, such as brow distance, pupil distance, eye wide, ect. are constructed for describing facial characteristics. Last, unrecognized ethnic groups such as Chuanqing, Nanjing, Caijia and Gejia are analyzed, and the similarity measurement is also conducted by clustering method among multi-ethnic groups including Chuanqing, Nanjing, Caijia, Gejia, Han, Korean, Tibetan, Mongolian, Zhuang and Uygur. The experiments show that there are regularities in the distribution of unrecognized ethnic groups. Due to the effect of gender, the similarities are also different among multi-ethnic groups. The results not only confirm the effectiveness for facial feature analysis using computer technology, but also provide a new approach for anthropology research.
Key words:computer vision; facial features; unrecognized ethnic groups; similarity measurement
收稿日期:2016-03-21;最后修回日期:2016-04-29
基金項(xiàng)目:國家民委科研項(xiàng)目(GM-2009-66);遼寧省科學(xué)計劃項(xiàng)目(2013405003)。
作者簡介:李澤東(1985-),男,遼寧蓋州人,東北大學(xué)博士研究生,主要從事模糊知識挖掘、模式識別及數(shù)據(jù)挖掘研究。
文章編號:2096-1383(2016)03-0260-06
中圖分類號:TP391.4
文獻(xiàn)標(biāo)志碼:A