許若波,李陽(yáng)
(江蘇信息職業(yè)技術(shù)學(xué)院物聯(lián)網(wǎng)工程學(xué)院(信息安全學(xué)院),江蘇無(wú)錫 214153)
人臉超分辨率技術(shù)是指利用計(jì)算機(jī)信息技術(shù)將低分辨率人臉圖像恢復(fù)至清晰的高分辨率人臉圖像。人臉超分辨率技術(shù)應(yīng)用在多個(gè)領(lǐng)域,例如,它能夠作為基礎(chǔ)任務(wù)應(yīng)用在人臉檢測(cè)和人臉識(shí)別等領(lǐng)域。近年來(lái),出現(xiàn)了眾多圖像超分辨率算法,分為基于傳統(tǒng)的圖像超分辨率算法與基于深度學(xué)習(xí)的超分辨率算法,其中基于深度學(xué)習(xí)技術(shù)的超分辨率算法在近幾年得到了快速的發(fā)展。例如,Dong 等人[1]提出了使用3層卷積神經(jīng)網(wǎng)絡(luò)恢復(fù)低分辨率圖像(SRCNN),與基于傳統(tǒng)的圖像超分辨率算法相比較,SRCNN在客觀評(píng)估指標(biāo)方面獲得了較大的提升;Kim 等人[2]提出了利用更深層次的殘差網(wǎng)絡(luò)學(xué)習(xí)圖像的殘差信息(VDSR) ;Dai 等人[3]提出了一種深度二階注意力網(wǎng)絡(luò)(SAN),所提出的二階通道注意力模塊,更加有利于網(wǎng)絡(luò)學(xué)習(xí)特征之間的相關(guān)度;Zhang等人[4]提出了一種基于混合高階注意力網(wǎng)絡(luò)(MHAN),該算法分為兩個(gè)子任務(wù),分別是特征提取和恢復(fù)重要細(xì)節(jié)任務(wù),最終重建出清晰的高分辨率圖像。
本文算法的主要核心是采用深度殘差網(wǎng)絡(luò)與特征增強(qiáng)注意力機(jī)制相結(jié)合的方式自適應(yīng)增強(qiáng)重要的特征,首先采用特征提取模塊將輸入的人臉圖像轉(zhuǎn)化為多通道的特征圖像,然后采用特征增強(qiáng)注意力機(jī)制模塊選擇性地恢復(fù)有用的人臉高頻細(xì)節(jié)信息,最后采用重建模塊獲取高分辨率人臉圖像。
在2017 年,Ledig 等人[5]提出了一種生成對(duì)抗網(wǎng)絡(luò),獲得了逼真的主觀視覺(jué)效果,其中它的生成網(wǎng)絡(luò)是由多個(gè)殘差塊組成的深度殘差網(wǎng)絡(luò),因此深度殘差網(wǎng)絡(luò)在圖像超分辨率重建任務(wù)中也獲得了廣泛的應(yīng)用;近年來(lái)也出現(xiàn)了眾多采用注意力機(jī)制提升網(wǎng)絡(luò)性能的算法,例如Hu 等人[6]提出了一種SENet 結(jié)構(gòu)的注意力機(jī)制,可以自適應(yīng)地重新校準(zhǔn)通道特征響應(yīng)。同時(shí)SAN 與MHAN 圖像超分辨率算法在網(wǎng)絡(luò)中也加入了注意力機(jī)制并獲得了良好的重建效果。因此本文重點(diǎn)采用深度殘差網(wǎng)絡(luò)與特征增強(qiáng)注意力機(jī)制相結(jié)合的方式完成人臉圖像的重建任務(wù),其中特征增強(qiáng)注意力機(jī)制可以自適應(yīng)增強(qiáng)人臉高頻細(xì)節(jié)信息。
本文提出的基于特征增強(qiáng)注意力機(jī)制的人臉超分辨率網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。該網(wǎng)絡(luò)結(jié)構(gòu)分為3個(gè)模塊,分別是特征提取模塊、特征增強(qiáng)注意力機(jī)制模塊和重建模塊。其中特征提取模塊用于將輸入的人臉圖像轉(zhuǎn)化為多通道的人臉特征圖像,特征增強(qiáng)注意力機(jī)制模塊用于自適應(yīng)恢復(fù)人臉高頻細(xì)節(jié)信息,重建模塊用于重建高分辨率人臉圖像。
圖1 基于特征增強(qiáng)注意力機(jī)制的人臉超分辨率網(wǎng)絡(luò)結(jié)構(gòu)
特征提取模塊主要是為了將輸入的彩色圖像轉(zhuǎn)換為含有多個(gè)特征通道的人臉特征圖像,所輸出的人臉特征圖像作為下一步特征增強(qiáng)注意力機(jī)制模塊的輸入。
特征提取模塊網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。由單個(gè)卷積層和ReLU 激活函數(shù)層串聯(lián)組成,其中卷積層的卷積核大小為3×3,輸出256個(gè)通道特征圖。特征提取模塊的輸出作為特征增強(qiáng)注意力機(jī)制模塊的輸入,因此特征提取模塊輸出特征圖操作為:
特征增強(qiáng)注意力機(jī)制模塊是本文算法的核心模塊,該模塊能夠利用殘差塊提取特征的同時(shí),自適應(yīng)選擇重要的特征,特征增強(qiáng)注意力機(jī)制模塊共包含12個(gè)子模塊,每個(gè)子模塊均采用了殘差塊與注意力機(jī)制相結(jié)合的結(jié)構(gòu),以此來(lái)自適應(yīng)增強(qiáng)人臉圖像的高頻細(xì)節(jié)信息。
特征增強(qiáng)注意力機(jī)制模塊專注于自適應(yīng)學(xué)習(xí)特征通道之間的相關(guān)性,因此可以增強(qiáng)人臉圖像的高頻細(xì)節(jié)信息,如圖1所示,該模塊中的子模塊網(wǎng)絡(luò)結(jié)構(gòu)由殘差塊和注意力機(jī)制組成,其中殘差塊由2對(duì)卷積層與ReLU 激活函數(shù)層串聯(lián)組成,卷積核大小均為3×3,輸出256 個(gè)通道特征圖。因此,特征增強(qiáng)注意力機(jī)制模塊第1個(gè)殘差塊提取特征操作為:
注意力機(jī)制能夠自適應(yīng)地將重要特征進(jìn)行提純,獲取有用的特征,淡化無(wú)用的特征。其網(wǎng)絡(luò)結(jié)構(gòu)首先由1個(gè)卷積層與1個(gè)BN層串聯(lián)組成,為了保留重要的特征,將卷積層的卷積核大小設(shè)置為1×1,同時(shí)為了保證注意力機(jī)制在訓(xùn)練過(guò)程中的穩(wěn)定性,因此加入了BN層;其次設(shè)計(jì)并行的分支結(jié)構(gòu),其中一條分支由平均池化層、全連接層、ReLU激活函數(shù)層和全連接層組成,另一條分支由最大池化層、全連接層、ReLU 激活函數(shù)層和全連接層組成;然后將兩條分支的輸出分別進(jìn)行加權(quán)相乘;最后將加權(quán)后的結(jié)果相加并輸入至Sigmoid 激活函數(shù)層,因此注意力機(jī)制輸出重要權(quán)重系數(shù)操作為:
其中,Conv_BN(·)表示卷積操作和批規(guī)范化操作,Avgpool(·)表示平均池化操作,Maxpool(·)表示最大池化操作,它們均表示壓縮輸入特征映射的空間維度,使其具有全局的感受野,壓縮后表示為1×1×C,C表示通道數(shù)量,?(·)表示串聯(lián)組成的全連接層操作、ReLU激活函數(shù)層操作和全連接層操作,第1個(gè)全連接層操作表示特征壓縮,提純重要的特征信息,表示為1×1×(C/m),m表示倍數(shù),m設(shè)置為16,第2 個(gè)全連接層操作將壓縮后的特征數(shù)量升至原來(lái)的數(shù)量,表示為1×1×C,其中a和b表示權(quán)重系數(shù),均設(shè)置為0.5,SigmoidATTN(·)表示激活函數(shù)操作表示生成的自適應(yīng)權(quán)重系數(shù)。
生成的自適應(yīng)權(quán)重系數(shù)與殘差塊提取的特征進(jìn)行相乘操作,則可以增強(qiáng)重要的特征,并將結(jié)果與進(jìn)行短跳躍連接操作,因此特征增強(qiáng)操作表示為:
特征增強(qiáng)注意力機(jī)制模塊共含有12個(gè)子模塊,因此特征增強(qiáng)注意力機(jī)制模塊輸出操作為:
其中,l=1表示第1個(gè)子模塊,以此類推,經(jīng)過(guò)第12 個(gè)子模塊后,則生成最終的特征增強(qiáng)注意力機(jī)制特征
為了進(jìn)一步將特征增強(qiáng)注意力機(jī)制模塊輸出的特征圖像重建成細(xì)節(jié)豐富的高分辨率圖像,必須設(shè)計(jì)最終的重建網(wǎng)絡(luò)結(jié)構(gòu)。重建模塊能夠進(jìn)一步提取重要的特征,并將低分辨率空間升至高分辨率空間大小。重建模塊首先由2個(gè)串聯(lián)的殘差塊組成,與2.2小節(jié)使用的殘差塊結(jié)構(gòu)一致,卷積核大小均為3×3,輸出256個(gè)通道特征圖,同時(shí)進(jìn)行短跳躍連接操作;其次設(shè)計(jì)了串聯(lián)組成的卷積層和ReLU 激活函數(shù)層,其中卷積核大小與輸出通道數(shù)量分別為3×3和256;然后設(shè)計(jì)由單個(gè)卷積層、子像素卷積層、卷積層和子像素卷積層串聯(lián)組成的結(jié)構(gòu),起到了上采樣的作用,上采樣倍數(shù)為4,最后通過(guò)1個(gè)輸出通道數(shù)量為3的卷積層重建出最終的高分辨率人臉圖像。具體步驟是,首先將特征圖像通過(guò)2個(gè)殘差塊;其次通過(guò)卷積層和ReLU激活函數(shù)層;然后通過(guò)上采樣操作;最后通過(guò)1個(gè)卷積層重建出最終的高分辨率人臉圖像。因此重建模塊的輸出操作為:
其中,f REC(·)表示重建網(wǎng)絡(luò)表示最終重建的高分辨率人臉圖像。
由于L1損失函數(shù)有較好的網(wǎng)絡(luò)收斂能力,因此本文算法采用L1損失函數(shù)作為網(wǎng)絡(luò)的損失函數(shù),基于特征增強(qiáng)注意力機(jī)制的人臉超分辨率損失函數(shù)為:
其中,ki表示原始的人臉圖像表示最終重建的高分辨率人臉圖像,Loss表示基于特征增強(qiáng)注意力機(jī)制的人臉超分辨率損失。
本文算法采用FEI數(shù)據(jù)集,F(xiàn)EI數(shù)據(jù)集包含400張圖像,選用360張作為訓(xùn)練,40張作為測(cè)試,原始圖像大小為260×360 像素,采用雙三次插值法(Bicubic)下采樣4倍形成低分辨率數(shù)據(jù)集,低分辨率數(shù)據(jù)集圖像大小為65×90 像素,從而形成對(duì)應(yīng)的高分辨率數(shù)據(jù)集和低分辨率數(shù)據(jù)集。
本文算法的實(shí)驗(yàn)硬件主要為NVIDIA GTX 1080Ti顯卡,采用分塊的方式形成訓(xùn)練集,低分辨率圖像塊大小為48×48像素,為了更快地讓網(wǎng)絡(luò)收斂,學(xué)習(xí)率設(shè)置0.000 1,共訓(xùn)練290 個(gè)時(shí)期,為了提升網(wǎng)絡(luò)的泛化能力,同時(shí)使網(wǎng)絡(luò)能夠自適應(yīng)調(diào)整學(xué)習(xí)率,故采用了Adam優(yōu)化器。
本文算法采用峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)作為客觀評(píng)估指標(biāo),一般情況下,PSNR與SSIM的值越高,說(shuō)明圖像質(zhì)量越高。本文算法與多個(gè)算法進(jìn)行比較,其中包括Bicubic、VDSR、SAN 和MHAN 算法,尤其是SAN 和MHAN 算法均使用了注意力機(jī)制,因此更能凸顯本文算法的優(yōu)越性。
本文算法與Bicubic、VDSR、SAN和MHAN算法進(jìn)行主觀視覺(jué)效果比較,如圖2所示,從人類的肉眼明顯可以看出,Bicubic算法雖然可以將低分辨率圖像升至高分辨率圖像空間大小,但是未能恢復(fù)細(xì)節(jié),重建效果很差,從放大的人臉圖像眼睛區(qū)域可以看出,細(xì)節(jié)屬于完全模糊的狀態(tài);VDSR算法比Bicubic算法恢復(fù)的細(xì)節(jié)更多一些,但是雙眼皮中的褶皺痕跡已經(jīng)變形,細(xì)節(jié)信息嚴(yán)重丟失;SAN 算法的雙眼皮褶皺痕跡與原始圖像相比,有少量的細(xì)節(jié)并未恢復(fù),褶皺痕跡不明顯;MHAN 算法與SAN 算法的情況大致相同,同樣是褶皺痕跡的細(xì)節(jié)信息尚未完全恢復(fù);本文算法的主觀視覺(jué)效果最接近于原始圖像,從圖2中可知,本文算法的主觀視覺(jué)效果超越了對(duì)比算法。
圖2 主觀視覺(jué)效果圖
在客觀評(píng)估方面,本文算法與其他算法的實(shí)驗(yàn)結(jié)果如表1所示,表1列出的實(shí)驗(yàn)結(jié)果為40張測(cè)試圖像的平均PSNR 和SSIM 值。本文算法的PSNR、SSIM 值均超越了對(duì)比算法,尤其超越了使用注意力機(jī)制的SAN 與MHAN 算法。因此,本文算法在FEI 數(shù)據(jù)集上的主觀和客觀效果均表現(xiàn)出出色的重建效果。
表1 客觀評(píng)估實(shí)驗(yàn)結(jié)果
本文提出了一種基于特征增強(qiáng)注意力機(jī)制的人臉超分辨率算法,該算法采用了3個(gè)模塊,分別是特征提取模塊、特征增強(qiáng)注意力機(jī)制模塊和重建模塊,3個(gè)模塊完成不同的重建任務(wù);該算法能夠?qū)W習(xí)通道特征之間的自適應(yīng)權(quán)重系數(shù),增強(qiáng)重要的特征信息,有利于恢復(fù)更多的人臉高頻細(xì)節(jié)信息,提升網(wǎng)絡(luò)的表達(dá)能力。