摘要:人臉圖像數(shù)據(jù)常常由幾千或幾萬(wàn)個(gè)像素點(diǎn)組成,每個(gè)像素點(diǎn)都代表一個(gè)特征。在進(jìn)行人臉識(shí)別、圖像分類(lèi)等任務(wù)時(shí),若使用全部像素點(diǎn),會(huì)導(dǎo)致特征維度非常高,進(jìn)而造成分析處理數(shù)據(jù)效率低下、儲(chǔ)存成本過(guò)高等問(wèn)題,此時(shí)對(duì)數(shù)據(jù)進(jìn)行降維就極為重要。等距特征映射(isometric feature mapping,Isomap)是流形學(xué)習(xí)中一個(gè)非線性降維方法。對(duì)于人臉這樣的高維流形結(jié)構(gòu),Isomap 可以找到最優(yōu)的低維表示,并保持原始數(shù)據(jù)之間的拓?fù)潢P(guān)系,從而更好地捕捉數(shù)據(jù)的局部結(jié)構(gòu)和流形特征,例如人臉的表情、姿態(tài)、光照等因素。利用Isomap方法對(duì)jaffe人臉數(shù)據(jù)集中的部分人臉灰度圖像進(jìn)行降維處理,對(duì)高維數(shù)據(jù)進(jìn)行可視化,得到該組數(shù)據(jù)的各個(gè)表情的位置分布,以此來(lái)展示Isomap對(duì)人臉圖像數(shù)據(jù)的降維效果。
關(guān) 鍵 詞:氧化鈷; 納米結(jié)構(gòu); 電容器; 電催化人臉圖像; 降維; 等距特征映射; 可視化
中圖分類(lèi)號(hào):O212
文獻(xiàn)標(biāo)志碼:A
doi:10.3969/j.issn.1673-5862.2024.04.010
Isomap dimensionality reduction processing of face images
CUI Song1,2, LYU Yan1,2, CHEN Lanfeng1,2LIU Ruiyin, ZHANG Huiyang
(1. College of Physical Science and Technology, Shenyang Normal University, Shenyang 110034, China)(College of Mathematics and Systems Science, Shenyang Normal University, Shenyang 110034, China)
Abstract:Face image data is often made up of thousands or tens of thousands of pixels, each of which represents a feature. When performing tasks such as face recognition and image classification, if all pixels are used, the feature dimension will be very high, which will lead to problems such as low efficiency and high storage cost of data analysis and processing, so it is extremely important to reduce the dimensionality of data. Isometric feature mapping (Isomap) is a nonlinear dimensionality reduction method in manifold learning. For high-dimensional manifold structures such as human faces, Isomap can find the optimal low-dimensional representations and maintain the topological relationship between the original data, so as to better capture the local structure and manifold features of the data, such as facial expressions, postures, lighting, and other factors. In this paper, the Isomap method was used to reduce the dimensionality of some face grayscale images in the jaffe face dataset, and the high-dimensional data were visualized to obtain the position distribution of each expression in this group of data, so as to demonstrate the dimensionality reduction effect of Isomap on the face image data.
Key words:face images; dimensionality reduction; isometric feature mapping; visualization
人臉圖像是一個(gè)典型的高維流形數(shù)據(jù),假設(shè)一張人臉圖像的分辨率為64×64,那么它在計(jì)算機(jī)中需要用4096維的向量來(lái)表示,并且向量的維數(shù)會(huì)隨著分辨率的增大而增大。在處理彩色圖片時(shí),還要考慮RGB通道,此時(shí)數(shù)據(jù)變得更加復(fù)雜,容易造成“維數(shù)災(zāi)難”[1]。因此,針對(duì)人臉圖像相關(guān)的數(shù)據(jù)處理,降維就起到了極為重要的作用。人臉由于其復(fù)雜的變化特征和豐富的形狀變化,在高維空間中具有非線性的流形結(jié)構(gòu),如果使用傳統(tǒng)的線性降維方法,例如主成分分析法(principal components analysis, PCA)或多維尺度分析法(multidimensional scaling, MDS)[2-3],會(huì)使數(shù)據(jù)丟失本真結(jié)構(gòu),造成信息缺失,或忽略數(shù)據(jù)間的其他非線性關(guān)系的信息。本文利用等距特征映射法(isometric feature mapping,Isomap)[4]處理人臉圖像數(shù)據(jù),可以把人臉高維數(shù)據(jù)映射到低維空間并且盡可能地保證人臉原始流形的幾何結(jié)構(gòu)。相較于PCA和MDS,Isomap可以更好地捕捉數(shù)據(jù)間的非線性關(guān)聯(lián),不僅降低了數(shù)據(jù)的維度,減少了數(shù)據(jù)計(jì)算和儲(chǔ)存的成本,還保留了高維數(shù)據(jù)的全局特征[5-7]。
1 方法介紹
傳統(tǒng)的PCA和MDS方法應(yīng)用簡(jiǎn)單,處理數(shù)據(jù)降維高效。通過(guò)PCA方法,可以把數(shù)據(jù)從n維降到k維,保留前k個(gè)方差最大的維度特征,即只保留方差最大的k個(gè)主成分,以此實(shí)現(xiàn)數(shù)據(jù)特征的降維。經(jīng)典的MDS方法可以使高維的數(shù)據(jù)在降維后仍然保持距離的相等或近似,能使數(shù)據(jù)在低維空間中仍保留在高維空間中的相似度,適用于用距離度量相似度的應(yīng)用。然而MDS和PCA方法是線性降維方法,都假設(shè)原始數(shù)據(jù)在高維空間中呈線性分布,這使得它們無(wú)法應(yīng)對(duì)非線性挑戰(zhàn),而實(shí)際問(wèn)題中遇到的數(shù)據(jù)多數(shù)呈非線性的流形結(jié)構(gòu),在這種情況下,線性降維方法難以充分捕捉數(shù)據(jù)中的非線性關(guān)系。例如,圖1中的三維瑞士卷數(shù)據(jù)集,三維空間中的2個(gè)點(diǎn)之間的實(shí)際距離不再簡(jiǎn)簡(jiǎn)單單是2個(gè)點(diǎn)之間的連線形成的“線段”之間的距離。在測(cè)量這2個(gè)點(diǎn)的距離時(shí),不能用直線歐氏距離測(cè)量,需要順著流形做測(cè)地線距離測(cè)量,這樣才能反映流形的真實(shí)結(jié)構(gòu)。試想一下,圖1中有一只螞蟻在這個(gè)流形體的表面上要從A點(diǎn)爬到B點(diǎn),它想找到一個(gè)最短路徑,顯然要沿著實(shí)線爬行,無(wú)法按著虛線爬行,畢竟它不能穿過(guò)流形體的結(jié)構(gòu)從一邊爬到另一邊,即它要爬行的距離是測(cè)地線距離,不再是簡(jiǎn)單的2個(gè)點(diǎn)之間的歐氏距離,因而線性降維方法存在一些局限性。本文采用Isomap方法來(lái)解決類(lèi)似這種流形的降維。
圖1中A點(diǎn)到B點(diǎn)的距離是實(shí)線代表的測(cè)地線距離,不是虛線代表的線段的距離,虛線距離無(wú)法反映它們之間內(nèi)在的真實(shí)性。
Isomap算法建立在經(jīng)典的MDS算法之上,用測(cè)地線距離解決了MDS處理不了的流形問(wèn)題,保留了數(shù)據(jù)的內(nèi)在幾何結(jié)構(gòu)。對(duì)于圖1,如何計(jì)算A和B點(diǎn)間的測(cè)地線距離呢?首先找出A點(diǎn)和B點(diǎn)間的一系列近鄰點(diǎn),先考慮近鄰點(diǎn)間的距離。對(duì)于近鄰點(diǎn)間距離的計(jì)算,可以應(yīng)用歐氏距離[8]。因?yàn)榱餍卧诰植颗c歐氏空間同胚,因而在局部仍然可以用歐氏距離作為距離度量方式進(jìn)行計(jì)算。這樣,近鄰點(diǎn)之間都可以計(jì)算出距離,從而從A到B可以構(gòu)建一個(gè)近鄰連接圖。于是,這2個(gè)點(diǎn)之間的測(cè)地線距離近似等于2個(gè)點(diǎn)在近鄰連接圖上的最短路徑距離,可以以此構(gòu)建所有點(diǎn)之間的距離矩陣作為MDS算法距離矩陣的輸入,然后應(yīng)用MDS算法得到高維數(shù)據(jù)在低維空間中的映射結(jié)果。
圖2顯示出當(dāng)把流形\"展開(kāi)\"后,可以使用2個(gè)點(diǎn)之間的最短路徑距離去近似替代2個(gè)點(diǎn)之間的測(cè)地線距離,進(jìn)而表示為這2個(gè)點(diǎn)在高維空間中的距離。
等距特征映射算法Isomap有3個(gè)步驟。
第1步: 在輸入空間X中,依據(jù)點(diǎn)對(duì)之間的歐氏距離確定哪些點(diǎn)是近鄰點(diǎn)。常用的第1種方法是以一個(gè)點(diǎn)為中心,固定鄰域半徑為e,那么落入鄰域范圍內(nèi)的點(diǎn)就是這個(gè)點(diǎn)的近鄰點(diǎn)。第2種方法是事先給定一個(gè)K,只保留距離該點(diǎn)最近的K個(gè)點(diǎn)為近鄰點(diǎn)。近鄰點(diǎn)對(duì)之間的距離為歐氏距離,非近鄰點(diǎn)之間不進(jìn)行連接,從而構(gòu)成近鄰連接圖。
第2步:構(gòu)建近鄰連接圖后,用弗洛伊德算法計(jì)算點(diǎn)對(duì)之間的最短路徑即獲得該點(diǎn)對(duì)之間的測(cè)地線距離[9]。
第3步:在知道任意點(diǎn)對(duì)之間的測(cè)地線距離后,應(yīng)用MDS方法計(jì)算樣本點(diǎn)在低維空間中的坐標(biāo)[10]。
具體算法如下:
1)輸入。樣本集X={X1,X2,…,Xm},近鄰參數(shù)為K,低維空間維數(shù)為d。
2)過(guò)程。確定每個(gè)Xi(i=1,2,…,m)的K近鄰,計(jì)算近鄰點(diǎn)之間的歐氏距離,非近鄰點(diǎn)之間的距離設(shè)為無(wú)窮大。調(diào)用弗洛伊德算法計(jì)算任意2個(gè)樣本點(diǎn)間的最短路徑以獲得任意2個(gè)樣本點(diǎn)間的距離dist(Xi,Xj),把dist(Xi,Xj)的值作為使用MDS算法的輸入。
3)結(jié)果。得到MDS算法的輸出,獲得樣本點(diǎn)在低維空間的坐標(biāo) 。
2 數(shù)據(jù)分析
本文的人臉識(shí)別數(shù)據(jù)來(lái)自于jaffe人臉數(shù)據(jù)集。jaffe數(shù)據(jù)集由10位女性的面部表情照片組成,面部表情共有7種,分別為中性(neutral)、高興(happy)、悲傷(sad)、驚訝(surprise)、厭惡(disgust)、害怕(fear)、憤怒(angry),且所有的圖片均為灰度圖片。本文選擇數(shù)據(jù)集中的一位女性作為實(shí)驗(yàn)對(duì)象,探討如何對(duì)其不同的表情狀態(tài)進(jìn)行識(shí)別。該女性一共有23張臉部表情照片,各個(gè)表情圖片的示例如圖3所示。
首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,原圖片的分辨率較大,為256×256,為了方便數(shù)據(jù)處理,對(duì)原圖片進(jìn)行壓縮,修改為30×30分辨率。
實(shí)驗(yàn)數(shù)據(jù)集共包含23張圖片,把它們讀取到R語(yǔ)言程序中。在R語(yǔ)言程序中每一張圖片被讀取為一個(gè)30×30的像素矩陣G30×30,矩陣中的元素對(duì)應(yīng)于該圖片中相應(yīng)位置的像素值。然后把每一張圖片的數(shù)據(jù)向量化,向量化后的數(shù)據(jù)記為G=(g1,g2,…,g900)。這樣,這23張圖片就對(duì)應(yīng)23個(gè)900維的向量。再把這23個(gè)向量按行組合成一個(gè)23行900列的新矩陣M23×900,這就是需要處理的數(shù)據(jù)集。對(duì)矩陣M進(jìn)行Isomap降維,設(shè)近鄰參數(shù)k=2,目標(biāo)維數(shù)設(shè)為1∶10,通過(guò)殘差圖來(lái)確定降維的目標(biāo)維數(shù)。殘差圖如圖4所示。
殘差圖的橫坐標(biāo)代表降維后的目標(biāo)維數(shù),縱坐標(biāo)代表降維到該維數(shù)的殘差,其中該殘差表示最短路徑距離矩陣和使用Isomap降維后的低維坐標(biāo)的歐氏距離矩陣之間的殘差。
通過(guò)殘差圖可以發(fā)現(xiàn),當(dāng)目標(biāo)維數(shù)降到3維時(shí),殘差圖出現(xiàn)拐點(diǎn),因而最佳目標(biāo)維數(shù)為3維。為了便于觀察降維后數(shù)據(jù)點(diǎn)的分布,且降到2維時(shí)殘差也較小,本文把目標(biāo)維數(shù)定為2維。
降維后的散點(diǎn)圖如圖5所示,害怕、惡心、生氣的表情分布在圖左側(cè),中性表情分布在中間,悲傷、高興、驚訝的面部表情依次向右,不同表情的圖片分布在不同的區(qū)域??傮w上看,左側(cè)面部圖片的表情變化較大,中間面部圖片的表情沒(méi)什么變化,右側(cè)面部圖片的表情變化居中。整體上看,同種表情的圖片分布較近,不同表情的圖片分布較遠(yuǎn)。面部變化較為相似的表情,例如悲傷和中性、高興和驚訝距離較近,面部變化區(qū)別較大的表情,如害怕和開(kāi)心距離較遠(yuǎn)。但也有特殊情形,比如一張面部表情為驚訝的圖片出現(xiàn)在了左上方。此數(shù)據(jù)集總體降維效果良好,數(shù)據(jù)映射到低維空間中的結(jié)果較為準(zhǔn)確,可用于后續(xù)的分類(lèi)識(shí)別。
3 結(jié) 語(yǔ)
本文通過(guò)Isomap方法對(duì)人臉圖像這樣的高維流形數(shù)據(jù)進(jìn)行降維處理,使得數(shù)據(jù)可視化,并能夠觀察到各個(gè)高維數(shù)據(jù)點(diǎn)在低維空間中的分布和相對(duì)位置關(guān)系。相較于降維前的大維數(shù)據(jù),Isomap方法將測(cè)地線距離作為距離的度量方式,不僅考慮了全局的流形拓?fù)浣Y(jié)構(gòu),還能更好地識(shí)別數(shù)據(jù)集中的非線性關(guān)系。本文方法在極大地減少了數(shù)據(jù)復(fù)雜度的同時(shí),還使得降維后的數(shù)據(jù)具有良好的可視化效果,有利于深入理解數(shù)據(jù)的內(nèi)在特性,也有利于后續(xù)所需的特征提取、分類(lèi)識(shí)別、機(jī)器學(xué)習(xí)等數(shù)據(jù)分析處理任務(wù),為進(jìn)一步的工作提供了有力的數(shù)據(jù)支持。
3 結(jié)論
致謝 感謝沈陽(yáng)師范大學(xué)博士科研啟動(dòng)基金項(xiàng)目(BS202016)的支持。
參考文獻(xiàn):
[1]PESTOV V.On the geometry of similarity search:Dimensionality curse and concentration of measure[J].Inform Process Lett,2000,73:47-51.
[2]MACKIEWICZ A,RATAJCZAK W.Principal components analysis(PCA)[J].Comput GeosciI-UK,1993,19(3):303-342.
[3]TORGERSON W S.Multidimensional scaling:I.theory and method[J].Psychometrika,1952,17(4):401-419.
[4]TENENBAUM J B,SILVA V,LANGFORD J C.A global geometric framework for nonlinear dimensionality reduction[J].Science,2000,290:2319-2323.
[5]MAHWISH Y.高維數(shù)據(jù)集的非線性Isomap降維方法研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2021.
[6]尹峻松.流形學(xué)習(xí)理論與方法研究及在人臉識(shí)別中的應(yīng)用[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2007.
[7]馮海亮.流形學(xué)習(xí)算法在人臉識(shí)別中的應(yīng)用研究[D].重慶:重慶大學(xué),2008.
[8]徐蓉,姜峰,姚鴻勛.流形學(xué)習(xí)概述[J].智能系統(tǒng)學(xué)報(bào),2006(1):44-51.
[9]HOFNER P,MOLLER B.Dijkstra,floyd and warshall meet kleene[J].Form Asp Comput,2012,24:459-476.
[10]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016:225-237.KRAJCINOVIC D,F(xiàn)ONSEKA G U.The continuous damage theory of brittle materials[J].J Appl Mech,1981,48(4):809-824.
【責(zé)任編輯:溫學(xué)兵】