歐陽寧,王先傲,蔡曉東,林樂平
(桂林電子科技大學(xué)信息與通信學(xué)院,廣西壯族自治區(qū)桂林541004)
針對低分辨率人臉識別,傳統(tǒng)解決方法可分為兩種:一種是先進(jìn)行超分辨率增強(qiáng),然后提取特征進(jìn)行識別,即兩階段方法;另一種是對低分辨率 (Low Resolution,LR) 圖像提取穩(wěn)健性特征,然后進(jìn)行人臉特征比對,即直接識別。相比第1種方式,當(dāng)分辨率極低時,提取的穩(wěn)健性特征難以有效提高人臉識別準(zhǔn)確率。而近年來隨著深度學(xué)習(xí)的快速發(fā)展,圖像超分辨率重建取得了較大進(jìn)展。文中采用第1種方式進(jìn)行低分辨率人臉識別。
首先,低分辨率人臉重建是為了從退化圖像中恢復(fù)出高分辨率(High Resolution,HR)清晰圖像。在圖像增強(qiáng)、圖像壓縮以及人臉識別方面有重要應(yīng)用。與其他圖像復(fù)原的任務(wù)一樣,人臉重建是一個不適定的問題,即一張低分辨率圖像對應(yīng)的高分辨率圖像,存在非常多的可能性。文獻(xiàn)[1]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率方法(Super Resolution Convolutional Neural Network,SRCNN),首先使用卷積神經(jīng)網(wǎng)絡(luò)解決圖像超分辨率問題,其良好的重建效果超越了傳統(tǒng)重建算法。在圖像重構(gòu)任務(wù)中,稀疏表示是一種有效的方法,文獻(xiàn)[2]提出了一種全局稀疏梯度耦合張量擴(kuò)散的圖像去噪模型,能得到較好的去噪結(jié)果。文獻(xiàn)[3]提出了一種多尺度模型,通過多尺度特征融合與局部殘差學(xué)習(xí)的方法,有效提高了模型性能。文獻(xiàn)[4]提出一種多映射卷積神經(jīng)網(wǎng)絡(luò)的重建方法,通過引入變分約束,能夠提高重構(gòu)圖像的細(xì)節(jié)。文獻(xiàn)[5]提出了一種遞歸網(wǎng)絡(luò)(Deep Recursive Residual Network,DRRN),在模型中采用了遞歸模塊,并且利用權(quán)重共享減少了模型參數(shù),使生成圖像的峰值信噪比(Peak Signal to Noise Ratio,PSNR)進(jìn)一步提高。文獻(xiàn)[6]將小波變換與神經(jīng)網(wǎng)絡(luò)相結(jié)合 (Wavelet-based Super Resolution Network,Wavelet-SRNet),即使是極低分辨率的人臉圖像,其仍能夠重建出高質(zhì)量圖像,但是其生成圖像相對平滑。上述重建方法都是以圖像層面的均方誤差(Mean Squared Error,MSE)優(yōu)化模型參數(shù),使用均方誤差的優(yōu)點(diǎn)是可以帶來更高的PSNR值,但是并不一定能夠有效提高圖像重建后的識別率。
為了提高重建圖像的判別能力,進(jìn)而提升人臉識別準(zhǔn)確率,筆者提出一種結(jié)合哈爾小波與遞歸神經(jīng)網(wǎng)絡(luò)的低分辨率人臉識別方法。其優(yōu)點(diǎn)如下:
(1)以神經(jīng)網(wǎng)絡(luò)預(yù)測小波系數(shù),將人臉重建從低維到高維的映射過程轉(zhuǎn)化為同等維度的預(yù)測,能夠更有效地重建出清晰圖像;通過在卷積神經(jīng)網(wǎng)絡(luò)中加入遞歸模塊,能夠以同樣的參數(shù)達(dá)到更深的深度,來提高模型的擬合能力。
(2)采用預(yù)訓(xùn)練的人臉識別網(wǎng)絡(luò),通過融合小波系數(shù)的重建損失與感知損失[7]優(yōu)化網(wǎng)絡(luò)參數(shù),最終能夠重建出有利于識別的人臉圖像,可以有效提高識別準(zhǔn)確率。
哈爾小波的包分解可以將原始圖像分解為多個小波系數(shù),每個小波系數(shù)代表原始圖像的一個頻率分量。而且哈爾小波變換是最簡單的一種正交小波變換,易于實(shí)現(xiàn)的同時,能夠根據(jù)分解得到的小波系數(shù)可以無誤差地重構(gòu)原始圖像。借助此特點(diǎn),可以將哈爾小波變換融入到人臉重建過程當(dāng)中,以神經(jīng)網(wǎng)絡(luò)預(yù)測小波系數(shù),然后通過小波逆變換得到高分辨率圖像。受文獻(xiàn)[6-8]的啟發(fā),文中將哈爾小波融入到人臉重建過程中,改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 結(jié)合哈爾小波的人臉重建網(wǎng)絡(luò)
為了能夠獲得判別能力更強(qiáng)的人臉圖像,筆者對文獻(xiàn)[6]提出的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了重新設(shè)計。整體網(wǎng)絡(luò)框架分為3個模塊,分別為深度特征提取、小波系數(shù)預(yù)測和人臉特征重建。
(1)設(shè)計一個由殘差單元組成的深度網(wǎng)絡(luò)進(jìn)行特征提取。深層次的網(wǎng)絡(luò)能夠提取更加抽象的特征,殘差單元以及批歸一化層(Batch Normalization,BN)[9]的加入,可在一定程度上緩解深度網(wǎng)絡(luò)帶來的梯度消失與梯度爆炸問題,加速網(wǎng)絡(luò)收斂?;A(chǔ)殘差單元如圖2(a)所示。網(wǎng)絡(luò)中的卷積核大小均為3×3,相比大尺寸的卷積核,3×3的卷積核參數(shù)更少,并且可以通過堆疊多個3×3卷積核達(dá)到相同的感受野,同時提高非線性映射能力。
(2)提出一個多支路遞歸卷積方法進(jìn)行小波系數(shù)預(yù)測。由于小波系數(shù)之間有不同的頻率分量,擁有較強(qiáng)的獨(dú)立性,所以小波系數(shù)預(yù)測模塊由多個并行的支路組成,每個支路負(fù)責(zé)預(yù)測對應(yīng)的小波系數(shù)。同時采用遞歸卷積[5]來減少參數(shù)冗余,所采用的遞歸模塊如圖2(b)所示。其中每個遞歸卷積塊共享參數(shù),圖中只有3個卷積層的參數(shù),但是可以達(dá)到9層的深度,能夠較大程度地提高模型的擬合能力,同時大大減少了參數(shù)數(shù)量。
(3)提供一個結(jié)合感知損失[7]的人臉特征重建模塊以提高重建圖像的判別能力。感知損失是在特征層面做均方誤差,使得重建圖像與原始圖像的深度特征能夠保持一致。與文獻(xiàn)[7]不同的是,所提出的方法以基于角度度量損失的人臉識別網(wǎng)絡(luò)SphereFace[8]代替圖像識別模型(Visual Geometry Group,VGG)[10]網(wǎng)絡(luò)進(jìn)行特征重建,角度度量損失對softmax損失做了進(jìn)一步優(yōu)化,其能夠增大類間距離的同時減小類內(nèi)距離,相比VGG更適用于人臉特征提取。特征重建網(wǎng)絡(luò)結(jié)構(gòu)如表1所示,其中S2表示步長為2,F(xiàn)c表示全連接層,特征重建采用第15層的卷積層。
圖2 殘差單元與遞歸模塊結(jié)構(gòu)
表1 特征重建模塊結(jié)構(gòu)
文中所提出的算法優(yōu)化過程如算法1所示,其中iteration表示當(dāng)前迭代次數(shù),Max-iteration表示最大迭代次數(shù)。
算法1人臉重建算法優(yōu)化。
輸入:尺寸為3×h×w的低分辨率人臉圖像。
輸出:高分辨率圖像。
While iteration (1)通過設(shè)計的深度特征提取網(wǎng)絡(luò),將低分辨率圖像映射至多維特征空間。 (4)根據(jù)目標(biāo)圖像IHR,通過設(shè)計的人臉特征重建模塊,使用感知損失對ISR進(jìn)行特征重建,計算感知損失Lp。 (5)基于融合的重建與感知損失,反向傳播優(yōu)化參數(shù)。 End。 大多數(shù)圖像重建方法以圖像層面的均方誤差作為重建損失,從而得到峰值信噪比較高的圖像。PSNR作為圖像質(zhì)量評價指標(biāo),其表達(dá)式為 (1) 其中,IMSE表示兩幅圖像像素之間的均方誤差。 由式(1)可以看出,兩幅圖像之間的均方誤差越小,則對應(yīng)的峰值信噪比值越高,說明兩幅圖像之間的像素平均值更加接近,往往會生成相對平滑的圖像,在一定程度上可能會影響人臉識別的準(zhǔn)確性。 由于上述原因,所提出的方法沒有在圖像層面計算均方誤差,而是借鑒文獻(xiàn)[6]提出的小波系數(shù)重建損失,提出了一種將小波系數(shù)重建損失與感知損失[7]相融合的目標(biāo)函數(shù),具體如下: L=Lwavelet+λLp, (2) (3) Lwavelet的主要作用是使預(yù)測的小波系數(shù)與原始圖像分解得到的小波系數(shù)保持一致,其又分為L1和L2兩部分,如式(3)所示。L1是計算小波系數(shù)與標(biāo)簽之間的F范數(shù)。當(dāng)i<4時,ρ=0.99,對應(yīng)小波系數(shù)中的低頻信息;當(dāng)i>4時,ρ=0.01,對應(yīng)小波系數(shù)中的高頻信息。低頻信息采用較大的權(quán)重,是因?yàn)榈皖l信息對應(yīng)人臉的輪廓,有助于網(wǎng)絡(luò)收斂與圖像的穩(wěn)定生成。而L2的作用是使得預(yù)測的小波系數(shù)的F范數(shù)與標(biāo)簽接近,保證圖像的高頻信息非零,防止圖像細(xì)節(jié)退化。α與ε為平衡因子。 感知損失Lp可表示為 (4) 文中實(shí)驗(yàn)平臺的配置為GTX1080Ti 顯卡以及 Ubuntu14.04 操作系統(tǒng),并使用pytorch深度學(xué)習(xí)框架實(shí)現(xiàn)。 采用公開的CASIA-WebFace[11]人臉數(shù)據(jù)庫對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,篩選掉錯誤的和重復(fù)的圖片之后,最終的樣本庫包含 10 575 人,共454 539 張圖片。使用公開人臉庫 (Lbeled Faces in the Wild,LFW)[12]進(jìn)行測試。LFW 數(shù)據(jù)庫有 5 479個人,共 13 233 張人臉圖片。LFW數(shù)據(jù)集提供了一個6 000對人臉比對的標(biāo)簽,使用LFW數(shù)據(jù)集進(jìn)行了重建質(zhì)量與識別率的對比。 對所有訓(xùn)練和測試樣本都進(jìn)行相同的預(yù)處理,首先,使用 Multi-Task Cascaded Convolutional Networks (MTCCN)[13]算法對每一張樣本進(jìn)行人臉檢測,最后將所有人臉下采樣至指定大小(8×8,16×16)。 在實(shí)驗(yàn)中,平衡系數(shù)λ=0.01,μ2=1,α=1.2,ε=0。在網(wǎng)絡(luò)優(yōu)化過程中,以高斯分布進(jìn)行參數(shù)初始化,固定學(xué)習(xí)速率為0.000 1,權(quán)重衰減設(shè)置為0.000 5,批次設(shè)為256。采用Adam[14](β1=0.9,β2=0.999)算法進(jìn)行隨機(jī)梯度優(yōu)化。在學(xué)習(xí)過程中,預(yù)訓(xùn)練的人臉特征提取網(wǎng)絡(luò)的參數(shù)保持不變,微調(diào)其他層參數(shù)。借鑒殘差模型[5-6,8]結(jié)構(gòu),并結(jié)合一定實(shí)驗(yàn),確定了網(wǎng)絡(luò)的層數(shù)。 測試結(jié)果分4個方面:①重建圖像的視覺效果對比,以人的視覺主觀判斷為主;②圖像重建質(zhì)量對比,以峰值信噪比和結(jié)構(gòu)相似度(Structural Similarity Index,SSIM)為參考標(biāo)準(zhǔn);③重建圖像的識別準(zhǔn)確率對比,將重建圖像與清晰圖像(兩幅圖像并不相同)進(jìn)行1∶1人臉比對,得到人臉識別準(zhǔn)確率。準(zhǔn)確率越高,說明重建圖像的判別能力越強(qiáng);④圖像識別實(shí)例分析。 2.3.1 重建圖像的視覺效果對比 文獻(xiàn)[15]對不同分辨率圖像的識別性能進(jìn)行了對比,64×64與128×128的人臉圖像相比,其識別準(zhǔn)確率相差較小。同時考慮到重建效率,所以將重建后的圖像大小設(shè)為64×64,并對8×8和16×16兩種分辨率進(jìn)行了實(shí)驗(yàn)。文中方法與其他方法的對比效果如圖3所示。 由圖3可以看出,當(dāng)輸入圖像分辨率為8×8時,SRCNN[1]與DRRN[5]均無法重建出清晰人臉圖像,Wavelet-SRNet[6]與筆者提出方法可以重建出與原圖較為接近的圖像,但Wavelet-SRNet方法相對更加平滑。當(dāng)輸入圖像分辨率為16×16時,DRRN與Wavelet-SRNet的重建效果明顯好于SRCNN與Bicubic,相比之下,所提出方法的重建結(jié)果更加銳利,特別是牙齒與頭發(fā)部分。但是存在一定的塊狀效應(yīng),這是由于沒有在圖像層面優(yōu)化均方誤差,并且加入了感知損失所帶來的結(jié)果,需要做進(jìn)一步研究尋找解決方法。 圖3 文中方法與其他方法的重建結(jié)果對比(8×8分辨率) 圖4 文中方法與其他方法的重建結(jié)果對比(16×16分辨率) 2.3.2 圖像重建質(zhì)量對比 峰值信噪比與結(jié)構(gòu)相似度是評價圖像重建質(zhì)量的常用參考標(biāo)準(zhǔn)。雖然所提出的方法并沒有為了提高相應(yīng)數(shù)值專門進(jìn)行優(yōu)化,但是為了能夠更全面地對比圖像復(fù)原結(jié)果,通過LFW[11]測試數(shù)據(jù)集與其他方法進(jìn)行了對比,如表2和表3所示。相比其他方法,文中的峰值信噪比與結(jié)構(gòu)相似度數(shù)值并不高,其原因在于并沒有在圖像層面優(yōu)化均方誤差(MSE)。對于8×8的LR圖像,文中方法雖然低于DRRN的峰值信噪比值,但是通過圖3的對比可以看出,其可以更加準(zhǔn)確地重建出人臉的五官,而峰值信噪比值較高并不一定意味著其用于識別任務(wù)的特征更加豐富,識別率對比如表4所示。 表2 8×8分辨率放大8倍重建質(zhì)量對比 表3 16×16分辨率放大4倍重建質(zhì)量對比 2.3.3 重建圖像的識別率對比 通過LFW數(shù)據(jù)集,對重建圖像的識別性能進(jìn)行了測試,以表明方法的有效性。LFW數(shù)據(jù)集提供了一個6 000對人臉比對的標(biāo)簽,將每對中的其中一張人臉用重建人臉代替,測試其1∶1比對的正確率。為區(qū)別于人臉重建網(wǎng)絡(luò),人臉識別采用MobilefaceNets[16]中的人臉識別網(wǎng)絡(luò),并以中心度量損失[17]進(jìn)行了重新訓(xùn)練。人臉識別準(zhǔn)確率對比如表4所示,相比SRCNN、DRRN、Wavelet-SRNet方法,所提出方法的PSNR與SSIM數(shù)值雖然不是最高,但是其識別準(zhǔn)確率相比其他方法得到了有效提升,尤其是在輸入圖像分辨率較低的情況下。針對目前重建效果領(lǐng)先的Wavelet-SRNet方法,對于放大8倍的8×8圖像,其識別準(zhǔn)確率約提高2.53%;對于放大4倍的16×16人臉圖像,其識別準(zhǔn)確率提升有限(約0.11%),這是因?yàn)?6×16的圖像本身已經(jīng)包含了一定的信息,而且放大倍數(shù)有所降低,所以相比8×8分辨率,其識別率的提高沒有那么明顯。 表4 重建圖像的識別率對比 % 2.3.4 圖像識別實(shí)例分析 文中方法與Wavelet-SRNet方法對識別樣例進(jìn)行了對比,圖5所示為身份相同的人臉比對。Wavelet-SRNet方法無法準(zhǔn)確地重建眼鏡部分,整體較為平滑,在比對時將其判斷為兩個人。文中提出的方法在一定程度上能夠重建出眼鏡的輪廓,雖然存在一定的塊狀效應(yīng),但人臉五官在視覺上更加清晰,在一定程度上有助于識別。 圖5 圖像識別實(shí)例對比 表5 模型的大小對比 對于算法的時效性,采用放大4倍時的模型大小作為客觀衡量標(biāo)準(zhǔn),對比結(jié)果如表5所示。其中,SRCNN的執(zhí)行效率最高,文中方法與Wavelet-SRNet相差不多,但是與SRCNN與DRRN還有一定差距,在時效性方面,文中方法還具有一定的進(jìn)步空間。 筆者提出了一種結(jié)合哈爾小波與遞歸神經(jīng)網(wǎng)絡(luò)的低分辨率人臉識別方法。首先進(jìn)行超分辨率增強(qiáng),根據(jù)輸入的低分辨率圖像,使用神經(jīng)網(wǎng)絡(luò)預(yù)測對應(yīng)的小波系數(shù),利用小波逆變換重構(gòu)清晰圖像。通過加入遞歸模塊來加深網(wǎng)絡(luò)深度并降低參數(shù)冗余,對小波系數(shù)重建損失與感知損失進(jìn)行聯(lián)合優(yōu)化,提高重建圖像的判別性。通過LFW數(shù)據(jù)集,與目前領(lǐng)先的重建算法進(jìn)行了圖像視覺效果與識別性能對比,結(jié)果表明,提出的方法可以有效提高低分辨率人臉的識別準(zhǔn)確率,但是重建圖像存在一定的塊狀效應(yīng),需要進(jìn)一步研究來提高重建效果。1.2 優(yōu)化的重建與感知損失融合方法
2 實(shí)驗(yàn)結(jié)果與分析
2.1 實(shí)驗(yàn)數(shù)據(jù)與預(yù)處理
2.2 實(shí)驗(yàn)參數(shù)設(shè)置
2.3 實(shí)驗(yàn)結(jié)果分析
3 結(jié)束語