任艷,張茜
(1.沈陽航空航天大學 人工智能學院,遼寧 沈陽 110136; 2.沈陽航空航天大學 自動化學院,遼寧 沈陽110136)
近年來隨著數(shù)碼相機的廣泛使用和數(shù)碼相冊的出現(xiàn),以人臉為對象的索引和檢索已經(jīng)引起了人們的濃厚興趣。傳統(tǒng)的人臉檢索以人臉圖像底層視覺特征的相似程度來判斷人臉是否相似。然而,從人類認知角度,人類更傾向于通過描述對象特征的“語義”或“概念”來對人臉進行相似性判別。以一條語義查詢條件“一個留著絡腮胡子的戴著眼鏡的阿拉伯裔中年男性”為例,基于圖像底層視覺特征的人臉檢索無法完成這樣的任務,然而這樣的檢索在日常生活中需求量很大。由于人與計算機對圖像相似性判別依據(jù)之間的不同,造成了人所理解的“語義相似”與計算機理解的“視覺相似”之間的“語義鴻溝”。這是目前人臉檢索系統(tǒng)面臨的一個挑戰(zhàn)。
當前,大多數(shù)人臉檢索系統(tǒng)仍受查詢條件的限制,源于人類更傾向于用“語義”或是“概念”檢索圖像,而傳統(tǒng)的圖像檢索已無法滿足這一需求。在大多數(shù)情況下,用戶無法提供被檢索人的照片,只能夠提供目擊者關(guān)于被檢索人特征的語言描述,因此,人臉圖像的語義提取方法對于人臉檢索、人臉驗證有著至關(guān)重要的作用。
目前人臉圖像語義的提取方式主要有基于知識的語義提取、人工交互語義提取、利用外部信息源的語義提取。這3種方法在應用上有各自的優(yōu)勢,但通過這3種方法將圖像低層特征映射到高層語義,即縮小“語義鴻溝”還存在費時、費力且精度得不到保障等局限性。
針對上述問題,Ren等[1]學者基于AFS理論設計了人臉語義描述,用來刻畫人臉的眼睛、鼻子、嘴等主要區(qū)域的大小特征,實驗結(jié)果表明該方法提取的面部語義更接近人類感知。Palacios等學者提出FARLAT-LQD方法[2]從數(shù)據(jù)中來獲取合適的隸屬度函數(shù)和模糊關(guān)聯(lián)規(guī)則,但該方法中隸屬函數(shù)是事先給定的三角隸屬函數(shù),這類隸屬函數(shù)的定義是獨立于原始數(shù)據(jù)和客觀事實的。這對現(xiàn)實大規(guī)模智能系統(tǒng)是不適用的。Karczmarek等[3]對未來人臉語義刻畫的前景進行了展望,提出未來的研究應該基于更復雜、客觀的模糊集的人臉特征表示。當前文獻中的這類表示都受限于隸屬函數(shù)的形式,如三角形或梯形。因此,建立更自然的方式來表示人臉特征的語義必將成為該研究的潛在目標。
綜上,本文將公理模糊集框架下的隸屬函數(shù)與信息粒深度結(jié)合提出了一種新的人臉語義提取算法(IAFSGD)。該方法的關(guān)鍵思想是利用公理模糊集框架下的隸屬函數(shù)來優(yōu)化信息粒的邊界。這是由于該隸屬函數(shù)是基于被觀測數(shù)據(jù)和整個空間上表示的模糊邏輯運算定義的。該隸屬函數(shù)是由概率分布確定的,因此,基于由從一個概率空間抽取的觀測數(shù)據(jù)確定的隸屬函數(shù)和它們的邏輯運算發(fā)現(xiàn)的規(guī)律能夠被應用到整個空間中去。這樣的隸屬函數(shù)定義要優(yōu)于獨立于原始數(shù)據(jù)和客觀事實的三角形、梯形等隸屬函數(shù),適用于更復雜、更客觀的系統(tǒng)。我們相信本文的研究結(jié)果將有助于推動人臉相關(guān)應用的發(fā)展。
劉曉東教授于1995年提出了公理模糊集(axiomatic fuzzy sets,AFS)理論[4]。公理模糊集AFS理論為處理模糊信息的語義提供了一個新的研究方向,其本質(zhì)是研究如何把蘊含在訓練數(shù)據(jù)或數(shù)據(jù)庫中的內(nèi)在規(guī)律或模式轉(zhuǎn)化到模糊集及其邏輯運算中。目前AFS 理論已經(jīng)被應用到諸多領(lǐng)域,例如商業(yè)智能[5]、圖像處理[6]、金融數(shù)據(jù)分析[7-8]等。
下面給出AFS結(jié)構(gòu)和隸屬函數(shù)的定義。
定義1[9-10]X為論域,M為X上簡單概念m的集合, 2M是M中所有子集構(gòu)成的集合,如果(M,τ,X)滿足下面公理AX1和AX2,則 (M,τ,X)為一個AFS結(jié)構(gòu)。
在實際應用中,τ可以根據(jù)線性有序關(guān)系“?m”來構(gòu)造,即
定義2[9]設(Ω ,F,P)是一個概率空間,M是 Ω 上的一個模糊集,X是來自概率空間 (Ω ,F,P)的一組有限的樣本,ρξ為模糊概念 ξ上的權(quán)函數(shù)。對任意m∈M,x∈Ω,{m}?(x)∈F,以下隸屬度計算公式皆成立:
如果隸屬函數(shù)族T={μξ(x)|ξ∈ EM}[11]與AFS模糊邏輯系統(tǒng) (E M,∨,∧)以及AFS結(jié)構(gòu) (M,τ,X)和諧一致,則稱其為一致隸屬函數(shù)。樣本x屬于模糊概念的一致隸屬函數(shù)[12]被定義為
其中,Aτi(x)={y∈X|x?my,?m∈Ai}是論域X的一個子集,Nu為u∈X的次數(shù)。
關(guān)于AFS基礎(chǔ)理論及應用研究的詳細介紹見參考文獻[9]。
本文提出了一種基于公理模糊集與信息粒理論的人臉語義提取算法(IAFSGD),算法流程如圖1所示,算法流程為:
圖1 人臉語義提取算法流程Fig.1 Flowchart of the proposed semantic extraction algorithm
1) 將人臉圖像轉(zhuǎn)化為人臉關(guān)鍵點。對全部人臉圖像進行裁剪與矯正,并通過AR模型檢測出人臉關(guān)鍵點。
2) 將人臉關(guān)鍵點轉(zhuǎn)化為類簇。根據(jù)人臉關(guān)鍵點計算得到人臉特征值,并對特征值進行AFS聚類,得到聚類結(jié)果(類簇)。
3) 將類簇轉(zhuǎn)化為信息粒。根據(jù)AFS聚類結(jié)果構(gòu)建信息粒,并通過信息粒對人臉特征值再分類。然后,提取粒度描述,計算每個信息粒的覆蓋率和特異性。最后,通過AFS語義刻畫提取出具有可解釋性的語義描述。
IAFSGD算法的優(yōu)勢在于利用AFS一致隸屬函數(shù)來優(yōu)化信息粒的上下邊界,得到的信息粒對于人臉五官的刻畫將更加客觀、穩(wěn)定,同時還能提取出具有可解釋性的人臉語義描述。
本文利用AR人臉關(guān)鍵點檢測模型[13]在人臉五官中提取130個關(guān)鍵點Li={li},i=1,2,···,130,li=(xi,yi),其中xi、yi分別是第i個人臉關(guān)鍵點的橫、縱坐標,如圖2中人臉所示。
圖2 第k個人臉圖像 Ik 右眼成分的特征提取Fig.2 Feature extraction of the right eye of the k-th face imageIk
由于人臉的大小在尺度空間上略有不同,因此為了提取準確的人臉特征,需要事先對人臉圖像進行校正,將人臉關(guān)鍵部分裁剪出來,并對數(shù)據(jù)庫中人臉圖像進行縮放。
本節(jié)將介紹如何提取出人臉特征。首先令I(lǐng)Face={I1,I2,···,IN}為人臉圖像的集合,其中Ik是集合IFace中第k個人臉圖像,N是人臉圖像的數(shù)量。
令f為人臉主要區(qū)域,這里的f以右眼為例。Vf={V1f,V2f,···,Vnf}為右眼特征集合,每個右眼特征含義如表1所示,其中n=4,對應右眼的特征值為,j=1,2,3,4。
表1 右眼的每個特征及其語義概念Table 1 Each feature of the right eyeand its semanticconcept
表1 右眼的每個特征及其語義概念Table 1 Each feature of the right eyeand its semanticconcept
images/BZ_171_406_1108_452_1162.png右眼特征 對應特征的含義 images/BZ_171_1113_1108_1172_1162.png簡單概念images/BZ_171_331_1181_377_1231.png右眼的周長大、小、中images/BZ_171_331_1256_377_1306.png右眼的高images/BZ_171_331_1331_377_1381.png右眼邊界到質(zhì)心距離之和images/BZ_171_331_1404_377_1454.png外眼角
在提取人臉特征后,對人臉主要區(qū)域f進行語義特征的提取。首先,對人臉主要區(qū)域f的特征值進行聚類;然后,對每類樣本構(gòu)建信息粒;利用得到的信息粒對人臉主要區(qū)域f進行再分類;最后,得到具有解釋性強的類描述。
2.3.1 AFS語義描述
式中?是AFS代數(shù)中定義的模糊邏輯運算。
2) 計算兩張人臉I(yè)i和Ij的等價關(guān)系rij,進而建立所有樣本的模糊等價關(guān)系矩陣R。rij的計算公式為
3) 從模糊等價關(guān)系矩陣R中選擇閾值,使聚類有效性指標Iθ達到最小,從而確定最優(yōu)閾值θ[14]。當rij≥ θ時,說明兩張人臉I(yè)i和Ij處于同一類,進而得到劃分最清晰的聚類結(jié)果Ci,i=1,2,···,l。
對于模糊描述 ζIk
f
,如果類Ci中隸屬于 ζIk
f的程度大于λ的樣本個數(shù)與Ci中的樣本總數(shù)的比值大于ω的話,那么 ζIk
f被認為是能夠表現(xiàn)出類樣本共性的描述。因此參數(shù)ω、λ控制著類Ci語義描述的普遍性和特殊性。在實驗過程中,設置ω、λ為相同的參數(shù)值,實驗結(jié)果表明當λ ∈[0.5,0.9]和ω ∈[0.5,0.9]時,聚類效果是穩(wěn)定的,當參數(shù)在合理的范圍內(nèi)取值時,聚類算法對于參數(shù)的設置并不敏感,所以本文令參數(shù) ω =0.6,λ =0.6。
Γi是類Ci中有代表性的樣本語義描述集合,接著將 Γi中最顯著的模糊描述結(jié)合起來得到類Ci的描述 ζCi:
2.3.2 信息粒及其解釋
首先,通過上述聚類結(jié)果,構(gòu)建每一類樣本的類中心vij:
式中Ni是類Ci的樣本個數(shù)。
然后,在類中心周圍根據(jù)合理粒度的原則[15]構(gòu)造信息粒[16],信息粒的范圍為 [ab]。信息粒的參數(shù)形式由隸屬函數(shù)來描述,并且滿足(vij)=1。隸屬函數(shù)為
由于在AFS框架下,數(shù)據(jù)被處理成數(shù)據(jù)間的線性有序關(guān)系,因此采用AFS一致隸屬函數(shù)定義信息粒的參數(shù)形式,并用其來校準隸屬度 μCi(x),校準機制為
式中: μCi(x)為AFS聚類后樣本對第i類Ci的隸屬度,因此式(14)可以理解為
信息粒由類中心vij及下邊界a、上邊界b構(gòu)成,其對數(shù)據(jù)的覆蓋范圍[15]由f1和f2兩個量來確定:
接下來,本文將f1(a)和f2(a)的乘積作為優(yōu)化最優(yōu)下邊界aopt的指標,即
同理,B中元素為上邊界b的候選值b∈B,根據(jù)式 (13)~(17),可得到最優(yōu)上邊界bopt。由此一維數(shù)據(jù)的信息粒G構(gòu)建完成,依次構(gòu)建n維信息粒,將n維信息粒的最小值作為人臉圖像Ik的信息粒,即:
最后,通過信息粒對人臉圖像進行再分類,獲得了新的類別Cq,q=1,2,···,l及 每類的語義描述 ζCq。
下面給出粒度描述的覆蓋率[15]和特異性的求取方法。
1) 覆蓋率
其中Gij為第i類在第j個特征上的信息粒。
進而,由一維隸屬度值Gij()得到屬于第i類信息粒的隸屬度Gi(),其計算公式為
最終,信息粒對樣本的覆蓋率為
2) 特異性
特異性旨在描述信息??坍嫎颖镜募氈鲁潭取1疚娜缦露x帶有良好語義的信息粒Gi的特異性:
式中:Z(Gij)為信息粒Gij內(nèi)第i類樣本的個數(shù);Ni為第i類樣本的總數(shù);
通過每張圖像的人臉關(guān)鍵點來構(gòu)造特征值矩陣xf,其時間復雜度為O(N);AFS聚類結(jié)果Ci的時間復雜度為O(l2);構(gòu)建信息粒G的時間復雜度為O(nl);通過信息粒對人臉特征值再分類的時間復雜度為O(nlN2);AFS語義提取的時間復雜度為O(l2),其中N是人臉圖像IFace的總數(shù),l為聚類數(shù)目,n為特征值xf的維度。因此,IAFSGD算法的整體時間復雜度為O(nlN2)。
本章在Multi-PIE數(shù)據(jù)庫[17]、AR數(shù)據(jù)庫[18]和FEI數(shù)據(jù)庫[19]上對算法進行了驗證。
Multi-PIE數(shù)據(jù)庫包含337個主題的755 370張人臉圖像。本文選擇249張人臉的正面圖像作為實驗數(shù)據(jù),來驗證IAFSGD算法的可行性。
當聚類有效性指標Iθ達到最小,閾值θ=0.955 8時,聚類結(jié)果最清晰,數(shù)據(jù)被聚成4類。在上述聚類結(jié)果的基礎(chǔ)上,進一步求得每類的信息粒。表2舉例給出了當參數(shù) α =2.0,γ=0時大眼睛類、中眼睛類1、中眼睛類2、小眼睛類具有信息粒特征的語義描述,每類的信息粒如圖3 所示。
圖3 Multi-PIE數(shù)據(jù)庫的信息??梢暬?,其中參數(shù)α=2.0,γ =0Fig.3 Granular prototypes visualization on Multi-PIE database, and the selected values of parameters α=2.0,γ =0
表2 Multi-PIE數(shù)據(jù)庫中4類右眼的語義描述Table 2 Semantic descriptions of the four clusters for the right eyes on Multi-PIE database
圖4給出了Multi-PIE數(shù)據(jù)庫“大眼睛”類的4個人臉圖像樣本和“小眼睛”類的4個人臉圖像樣本。比較結(jié)果表明,“大眼睛”類的人的眼睛明顯大于“小眼睛”類的人的眼睛。
圖4 “大眼睛”和“小眼睛”的結(jié)果對比(Multi-PIE數(shù)據(jù)庫)Fig.4 Comparison of “l(fā)arge eyes” and “small eyes”(Multi-PIE database)
AR人臉數(shù)據(jù)庫包含896張正面人臉圖像,包括58名男性和54名女性的面部圖像。數(shù)據(jù)庫還提供了這112人的4種面部表情(自然、微笑、憤怒、尖叫)的圖像,這896張圖像是這112名參與者分兩次采集的。本文選擇兩次采集的112個人的自然面部表情圖像作為實驗數(shù)據(jù)。
當閾值 θ =0.9018時,聚類有效性指標Iθ達到最小,此時類別數(shù)為4。在AFS聚類結(jié)果上構(gòu)建信息粒,對AR人臉數(shù)據(jù)進行再分類。表3舉例給出了當參數(shù) α =2.0,γ=0時4類具有信息粒特征的語義描述,4類的信息粒如圖5所示。
圖5 AR數(shù)據(jù)庫的信息??梢暬?,其中參數(shù)α=2.0,γ =0Fig.5 Granular prototypes visualization on AR database, and the selected values of parameters α =2.0,γ=0
表3 AR數(shù)據(jù)庫中4類右眼的語義描述Table 3 Semantic descriptions of four clusters for the right eyes on AR database
圖6給出了AR數(shù)據(jù)庫“大眼睛”類的4個人臉圖像樣本和“小眼睛”類的4個人臉圖像樣本?!按笱劬Α鳖惖娜说难劬γ黠@大于“小眼睛”類的人的眼睛,證明了本文提出方法的有效性。
圖6 “大眼睛”和“小眼睛”的語義描述提取結(jié)果對比(AR數(shù)據(jù)庫)Fig.6 Comparison of “l(fā)arge eyes” and “small eyes” (AR database)
FEI數(shù)據(jù)庫是由FEI人工智能實驗室拍攝的一組人臉圖像,其中男性女性各100人,由每人角度各不相同的14張圖像組成共2 800張圖像。本文選擇這200人的正面圖像作為實驗圖像。
表4 FEI數(shù)據(jù)庫中4類右眼的語義描述Table 4 The semantic descriptions of four clusters for the right eyes on FEI database
圖7 “大眼睛”和“小眼睛”的語義描述提取結(jié)果對比(FEI數(shù)據(jù)庫)Fig.7 Comparison of “l(fā)arge eyes” and “small eyes” (FEI database)
本節(jié)將 FCM[20]、CAN[21]、FCMGD[22]、AFSGD[23]、KMT[24]與本文提出的IAFSGD算法進行比較分析。
3.4.1 參數(shù)設置與評價指標
AFS聚類算法的參數(shù)取值為 ω =0.6,λ=0.6;由式(15)、(16)可知,信息粒的上、下邊界受參數(shù)α、γ的影響,所以接下來的對比實驗選取了不同的α、γ值,并對結(jié)果進行了分析。同時,由于FCM算法隨機選取初值,其聚類結(jié)果受初值影響,因此本文對FCM和FCMGD算法進行100次實驗,并給出了聚類結(jié)果的平均值。
為驗證IAFSGD聚類結(jié)果的清晰程度,通過每類右眼面積的平均值(Area)和蘭德系數(shù)[25](Rand Index,RI)對聚類性能進行評價。其中,Area的計算公式如下:
聚類結(jié)果中“大眼睛”類的Area應越大越好,“小眼睛”類的Area應越小越好,這能夠說明算法獲得了較好的聚類效果。
RI[25]是一種用排列組合原理來對聚類進行評價的方法,其中
式中:TP為同一類的人臉被分到同一個類簇;TN為不同類的人臉被分到不同類簇;FP為不同類的人臉被分到同一個類簇;FN為同一類人臉被分到不同類簇。
本實驗共征集了10位實驗人員,分別對3個人臉數(shù)據(jù)庫右眼標記類別。由于每個人對于人臉右眼類別的判斷不同,因此在計算蘭德系數(shù)時,先分別統(tǒng)計10個人的類標結(jié)果與聚類結(jié)果的蘭德系數(shù)值,再將其平均值作為最終該聚類算法的蘭德系數(shù)。RI的值應在[0,1]之間,且越大越好。
3.4.2 對比試驗及分析
表5、表6分別給出FCM、CAN、FCMGD、AFSGD、KMT、IAFSGD算法在Multi-PIE、AR人臉數(shù)據(jù)庫右眼面積Area的對比實驗結(jié)果,可以發(fā)現(xiàn)IAFSGD算法得到的“大眼睛”類右眼面積的平均值明顯大于其他5種算法得到的“大眼睛”類右眼面積的平均值;該算法得到的“小眼睛”類右眼面積的平均值小于其他5種算法得到的“小眼睛”類右眼面積的平均值。
在表5中,當 α =0.5,γ =0時IAFSGD算法在處理Multi-PIE數(shù)據(jù)庫時,“小眼睛”類的平均面積值稍大于AFSGD算法,但低于其他算法。由于兩種算法優(yōu)化信息粒的參數(shù)形式不同,所以出現(xiàn)了表5中的結(jié)果。在表6中,當 α =1.0,γ =0時,α=2.0,γ =0時,IAFSGD算法在AR數(shù)據(jù)庫上得到的結(jié)果中,“小眼睛”類的面積平均值稍大于FCMGD算法,但低于其他算法。這是由于FCMGD算法得到的“小眼睛”類樣本數(shù)量少,所以小眼睛類的面積平均值相對小一點。
表5 FCM、CAN、FCMGD、AFSGD、KMT、IAFSGD 在 Multi-PIE 數(shù)據(jù)庫實驗結(jié)果的比較Table 5 Comparison of FCM, CAN, FCMGD, AFSGD, KMT and IAFSGD on Multi-PIE database
表6 FCM、CAN、FCMGD、AFSGD、KMT、IAFSGD算法對AR數(shù)據(jù)庫的對比Table 6 Comparisons of FCM, CAN, FCMGD, AFSGD, KMT and IAFSGD algorithm on AR database
基于蘭德系數(shù)在Multi-PIE、AR、FEI人臉數(shù)據(jù)庫上驗證聚類算法的結(jié)果如表7、8、9所示。IAFSGD算法的RI值全部大于FCM、CAN、FCMGD、AFSGD、KMT算法的RI值,更符合人類感知。
表7 FCM、CAN、FCMGD、AFSGD、KMT、IAFSGD 算法對Multi-PIE數(shù)據(jù)庫的聚類有效性對比Table 7 Comparisons of clustering effectiveness via FCM,CAN, FCMGD, AFSGD, KMT and IAFSGD algorithms on Multi-PIE database
表8 FCM、CAN、FCMGD、AFSGD、KMT、IAFSGD 算法對AR數(shù)據(jù)庫的聚類有效性對比Table 8 Comparisons of clustering effectiveness via FCM,CAN, FCMGD, AFSGD, KMT and IAFSGD algorithms on AR database
表9 FCM、CAN、FCMGD、AFSGD、KMT、IAFSGD 算法對FEI數(shù)據(jù)庫的聚類有效性對比Table 9 Comparisons of clustering effectiveness via FCM,CAN, FCMGD, AFSGD, KMT and IAFSGD algorithms on FEI database
綜上所述,本研究提出的IAFSGD算法可以將人臉圖像聚類得到清晰的聚類結(jié)果,并提取出可解釋的人臉語義描述,實驗結(jié)果說明本研究提出的人臉語義提取方法是合理且有效的。而且其他方法獲得的聚類結(jié)果只是樣本的類別信息,IAFSGD算法可通過簡單概念構(gòu)建類的語義描述,這些語義描述能夠被計算機理解并處理。
本文基于公理模糊集與信息粒理論提出了一種人臉語義提取算法,利用AFS一致隸屬函數(shù)優(yōu)化信息粒的邊界,構(gòu)建出更符合人類感知的信息粒,對面部五官重新聚類并提取語義,使得人臉具有精確、簡潔,可解釋性的特點。本文還將IAFSGD算法與其他聚類算法進行比較,實驗結(jié)果表明,本文提出的IAFSGD算法在Multi-PIE、AR、FEI數(shù)據(jù)庫中均取得良好的結(jié)果,使每一類人臉圖像具有可解釋的語義描述。下一步,本文研究的算法將應用在基于語義的人臉圖像檢索上。