王鶴銘,沈文忠
(上海電力大學(xué) 電子與信息工程學(xué)院,上海 200090)
虹膜識別技術(shù)[1]是從拍攝到的虹膜圖像中提取生物特征并識別身份。在不可控的應(yīng)用場景中,例如監(jiān)控、移動生物識別,由于設(shè)備或采集距離的限制,采集的虹膜圖像缺失像素分辨率,導(dǎo)致虹膜定位錯誤,嚴(yán)重影響識別性能。圖像超分辨率(Super Resolution,SR)重建技術(shù)為解決這一問題提供了方法。
圖像超分辨率重建技術(shù)[2]可分為基于插值、基于重構(gòu)和基于學(xué)習(xí)的方法?;诓逯档姆椒?,如雙三次插值法和Lanczos 重采樣,快速簡單,但重建圖像精度不足?;谥貥?gòu)的方法,如鄰域嵌入法[3]、梯度輪廓清晰法[4]等,采用復(fù)雜的先驗信息限制可能的解空間,并生成銳利清晰的紋理細節(jié)。但當(dāng)縮放因子增大時,耗時也增加,重建性能迅速退化。
近年來,隨著計算機硬件的進步及深度學(xué)習(xí)技術(shù)的發(fā)展,基于學(xué)習(xí)的方法在自然圖像領(lǐng)域取得巨大成功。該方法主要利用卷積神經(jīng)網(wǎng)絡(luò),通過學(xué)習(xí)大量高、低分辨率圖像對,找到它們之間的非線性映射,利用映射關(guān)系重建高分辨率圖像。Dong[5]首次利用CNN 進行SR 重建(SRCNN),SRCNN 僅有三層卷積層,圖像的重建質(zhì)量遠遠優(yōu)于插值法和重構(gòu)法。但由于網(wǎng)絡(luò)結(jié)構(gòu)簡單,非線性映射不充分,重建圖像仍有模糊現(xiàn)象。Kim[6]拓展SRCNN 的網(wǎng)絡(luò)深度,提出深度卷積網(wǎng)絡(luò)VDSR,以20 層的VGG-net 為基本架構(gòu),并采用梯度削波解決網(wǎng)絡(luò)過深帶來的梯度消失問題,取得良好的重建效果。Shi[7]改進了SRCNN 的放大策略,將亞像素卷積層作為一種新的后放大策略,在低維度空間實施超分辨,降低了計算復(fù)雜度。隨后,Kim[8]為減少網(wǎng)絡(luò)參數(shù),重復(fù)堆疊遞歸層,運用遞歸監(jiān)督和跳躍連接加速網(wǎng)絡(luò)收斂,穩(wěn)定訓(xùn)練過程,最終提高重建圖像質(zhì)量。Zhang[9]結(jié)合殘差塊和密集塊的獨特優(yōu)勢,設(shè)計更復(fù)雜的殘差密集網(wǎng)絡(luò)RDN,大量連接結(jié)構(gòu)充分融合上下文信息,進一步提高重建精度。
不同于自然圖像,虹膜圖像擁有獨特的屬性,其結(jié)構(gòu)信息較少,虹膜紋理具有隨機性、復(fù)雜性,這使得對開放的虹膜圖像庫進行超分辨任務(wù)變得尤為困難。此外,自然圖像僅僅關(guān)注視覺效果,著重于優(yōu)化保真度指標(biāo)(PSNR與SSIM)。而虹膜圖像除提升視覺感受外,還應(yīng)考慮其識別性能。本文在上述工作的基礎(chǔ)上,提出自適應(yīng)加權(quán)殘差網(wǎng)絡(luò),主要有以下幾點貢獻:(1)結(jié)合虹膜圖像特點,提出適用于虹膜圖像超分辨率重建的自適應(yīng)加權(quán)殘差網(wǎng)絡(luò),并設(shè)計虹膜匹配實驗以驗證網(wǎng)絡(luò)的重建效果與識別性能。(2)考慮虹膜圖像紋理特征,通過級聯(lián)加權(quán)殘差塊加深網(wǎng)絡(luò),提高網(wǎng)絡(luò)重建能力。設(shè)計加權(quán)殘差塊整合不同層次的特征以充分獲取高頻信息。采用后放大策略重建高分辨率虹膜圖像,最大限度減少誤差信息。實驗結(jié)果證明,本文算法重建的高分辨率虹膜圖像有較高的保真度和良好的識別性能。
Dong 首次提出SRCNN 網(wǎng)絡(luò)結(jié)構(gòu)用于圖像超分辨任務(wù),將該任務(wù)分為特征提取、非線性映射以及圖像重建三個部分。之后的網(wǎng)絡(luò)大多改進非線性映射部分,VDSR、DRCN 通過增加網(wǎng)絡(luò)深度,RDN 設(shè)計復(fù)雜的模塊化結(jié)構(gòu)提高非線性映射能力。本文在以上研究基礎(chǔ)上,提出自適應(yīng)加權(quán)殘差網(wǎng)絡(luò)(Adaptive Weighted Residual Net,AWRN)如圖1 所示??紤]到虹膜圖像的紋理特征,重新設(shè)計三部分網(wǎng)絡(luò)模塊。
特征提取采用一組3×3 卷積核,提取淺層特征F0,為減小計算量,直接對低分辨率虹膜圖像(LR)提取特征。非線性映射包含N 個自適應(yīng)加權(quán)殘差塊(Adaptive Weight Residual Block,AWRB)及全局加權(quán)殘差連接。疊加殘差塊可以增加網(wǎng)絡(luò)深度,擴大感受野,提取豐富的虹膜特征信息。為降低網(wǎng)絡(luò)優(yōu)化難度,提升性能,添加加權(quán)殘差連接,以強化特征信息傳遞和梯度流通[10,11]。設(shè)第n 個AWRB輸出為 Fn,則第 n+1 個 AWRB 的輸入 Fn+1為:
式中,xn,yn分別表示當(dāng)前特征 Fn與淺層特征 F0的加權(quán)系數(shù)。加權(quán)殘差連接將低維度特征圖F0共享到每一個AWRB,F(xiàn)n+1融合了高低兩層次的虹膜信息,避免由于卷積操作帶來的特征丟失。最終,非線性映射提取的深層虹膜特征FN為:
圖像重建將低維空間的特征通過上采樣映射為目標(biāo)尺寸。插值法是常用的上采樣方法,通常與前置放大策略結(jié)合。這種方法會損壞原始圖像的關(guān)鍵信息,增加網(wǎng)絡(luò)計算復(fù)雜度,不利于圖像的精確重建。而虹膜圖像對細微的紋理信息極為敏感,微小的重建誤差可能導(dǎo)致較差的識別效果。本文采用亞像素卷積層(Pixel Shuffle layer,PS)作為上采樣模型。PS 適用于虹膜圖像,并與特征提取相對應(yīng),直接對低維特征上采樣,不會引入錯誤信息,減少計算量。其次,PS 不使用人工卷積核,而是通過訓(xùn)練得到一組周期移動卷積核,這些卷積核切合虹膜圖像的超分辨任務(wù),有效保證重建質(zhì)量。PS 可表示為:
式中,w 和 h 是像素坐標(biāo),r 為上采樣因子,T 表示網(wǎng)絡(luò)中的張量。PS 將 H×W×(R2×C)特征圖映射為 RH×RW×C 大小。圖 1 中,3×3 卷積層將 FN與 F0特征通道數(shù)調(diào)整為R2×C,通過PS 映射為目標(biāo)尺寸后,加權(quán)相加得到重建的高分辨率圖像SR:
式中,fx,fy表示調(diào)整特征通道數(shù)。
虹膜圖像超分辨率重建的目的在于恢復(fù)丟失的高頻信息,VDSR、DRCN 等高速網(wǎng)絡(luò)在信息傳遞時存在信息丟失或損耗現(xiàn)象,不利于高頻信息的保存。Ledgi[12]在SRResnet將殘差塊作為生成器的基本模塊,通過同一性短連接融合高頻信息,恢復(fù)更多圖像細節(jié)紋理。
圖1 自適應(yīng)加權(quán)殘差網(wǎng)絡(luò)
受Ledgi 啟發(fā),本文提出AWRB 作為基本特征提取模塊,如圖2 所示。AWRB 包含三個殘差單元、特征融合和密集連接。AWRB 與Resnet 殘差塊的不同之處在于:(1)本文提出的殘差學(xué)習(xí)結(jié)構(gòu)堆疊了三個原始殘差塊,并以密集連接的方式構(gòu)成。殘差塊相當(dāng)于高通濾波器,將高頻虹膜信息保留并像素加和,增強特征表達能力。密集連接通過特征重用改善了網(wǎng)絡(luò)中信息流和梯度流,使網(wǎng)絡(luò)易于訓(xùn)練而不會額外增加參數(shù)量。(2)本文的殘差連接都以自適應(yīng)加權(quán)的方式按照一定比例相加。SRResnet 中殘差連接的系數(shù)是固定的,限制了梯度的傳遞。本文將權(quán)重設(shè)置為可訓(xùn)練標(biāo)量,動態(tài)調(diào)整殘差特征和深度特征的比例,提高重建圖像精度。每個AWRB 中有4 個殘差連接。設(shè)第n 個AWRB 中第m(1≤m≤3)個殘差單元的輸入特征為:
式中,f 為殘差單元中的卷積層,γ 為激活函數(shù)。密集連接會使特征通道數(shù)翻倍,采用1×1 卷積核降維,特征融合之后,整個AWRB 輸出為:
式中,θ([·])表示密集連接。
圖2 加權(quán)殘差塊
本文采用中科院CASIA-IrisV4-Lamp 虹膜數(shù)據(jù)庫的圖像,該數(shù)據(jù)庫是在不同光照條件下采集的,瞳孔會隨光照變化而彈性變形,這使得虹膜圖像SR 難度增加,但選用Lamp 旨在模擬應(yīng)用場景,更具現(xiàn)實意義。Lamp 包含411 人,選擇300 人,每人左右眼各10 幅圖像作為訓(xùn)練集。選擇300 人,左右眼各6 幅圖像作為測試集。訓(xùn)練網(wǎng)絡(luò)需要高低分辨率圖像對,Lamp 圖像視為HR,采用Bicubic 作為退化模型對Lamp 下采樣,模擬LR。
實驗所采用的設(shè)備配置為:處理器Intel?Core(TM)i7-8700K CPU@3.70GHz 3.70GHz,顯卡 GeForce RTX 2080 Ti,運行環(huán)境是Tensorflow。初始化學(xué)習(xí)率為10-4,學(xué)習(xí)率更新策略為Adam,動量參數(shù)β 設(shè)置為0.9,訓(xùn)練周期為100,激活函數(shù)為Relu。本文使用MAE 作為損失函數(shù)。
本文算法進行了2 倍、4 倍和8 倍的重建,并與Bicubic、ESPCN、VDSR、DRCN、RDN 等算法比較,這些網(wǎng)絡(luò)的訓(xùn)練采用與本文相同的訓(xùn)練集和測試集,訓(xùn)練設(shè)置均與其對應(yīng)開源代碼一致。
圖3 顯示了AWRB 數(shù)量對網(wǎng)絡(luò)性能的影響。固定縮放因子為4,隨著AWRB 的增加,PSNR 呈現(xiàn)先增加后減小的變化趨勢。加深網(wǎng)絡(luò)增強了網(wǎng)絡(luò)的非線性表達能力,能夠更好地學(xué)習(xí)虹膜高低分辨率圖像之間的復(fù)雜變換。之后,網(wǎng)絡(luò)性能逐漸飽和并下降,這是由于過深的網(wǎng)絡(luò)存在梯度消失、過擬合等問題,使得網(wǎng)絡(luò)優(yōu)化困難。AWRB數(shù)量為5 時,網(wǎng)絡(luò)性能最優(yōu)。
圖3 AWRB 數(shù)量對網(wǎng)絡(luò)性能的影響
表1 顯示了對局部加權(quán),全局加權(quán)效應(yīng)的消融研究。Baseline 沒有任何添加權(quán)重,性能最差,添加自適應(yīng)加權(quán)系數(shù)后,重建性能逐漸提升。這是因為加權(quán)殘差連接強化了梯度和特征信息的流動,進一步優(yōu)化了網(wǎng)絡(luò),也驗證了加權(quán)殘差連接的有效性。
表1 加權(quán)連接消融研究
表2 不同超分辨率重建算法的PSNR 與SSIM
圖4 重建圖像視覺對比×2
圖5 重建圖像視覺對比×4
表3 各算法的EER
不同超分辨率算法重建虹膜圖像的PSNR 和SSIM如表2 所示。本文算法均取得較高的PSNR 和SSIM,僅在×2 時,本文算法的SSIM 低于DRCN 0.0019,客觀上表明本文算法的巨大優(yōu)勢。圖4、5 分別是虹膜圖像在×2、×4時超分辨率重建的主觀比較?!? 時,各算法的重建效果都較理想,僅Bicubic 的重建圖像邊緣有輕微的模糊感?!?時,Bicubic 已經(jīng)完全模糊,其他算法都由于過度平滑而丟失大量細節(jié)信息。放大圖中塊狀細節(jié)可以看出,本文算法較為準(zhǔn)確地重建更多紋理,結(jié)構(gòu)也相對清晰,主觀上證明本文算法的較大優(yōu)勢。
PSNR 與SSIM 無法完全反映高頻紋理細節(jié)重建效果,因此本文進行了虹膜匹配實驗,根據(jù)匹配分?jǐn)?shù)統(tǒng)計等錯誤率(EER),該值越小,圖像重建越精確。原始虹膜圖像的EER 為1.394%,其他算法的EER 如表3 所示。在×2時,ESPCN 的 EER 最優(yōu),本文算法與其有0.005%的差距,因為×2 的超分辨任務(wù)相比×4、×8 簡單得多,高頻信息更易恢復(fù)?!? 與×8 時,本文算法都是最優(yōu)結(jié)果,表明本文算法更加準(zhǔn)確地重建了人的身份信息,取得良好的識別效果。
本文提出一種適用于虹膜圖像超分辨率的自適應(yīng)加權(quán)殘差網(wǎng)絡(luò),為恢復(fù)更多虹膜紋理細節(jié),直接將低分辨率虹膜圖像作為輸入,亞像素卷積層作為上采樣模型,優(yōu)點是提取特征信息準(zhǔn)確,計算復(fù)雜度低。同時采用大量加權(quán)殘差連接和密集連接重建高分辨率虹膜圖像,用以保留和傳遞高頻虹膜信息。實驗結(jié)果表明,該算法重建的高分辨率虹膜圖像紋理細節(jié)豐富,識別效果優(yōu)勢突出。
接下來的工作可將該網(wǎng)絡(luò)部署到移動虹膜識別設(shè)備上,進一步優(yōu)化調(diào)試網(wǎng)絡(luò),以期能真正實際運用到虹膜識別領(lǐng)域。