摘 要:為解決汽車運動過快產(chǎn)生模糊導(dǎo)致車牌識別算法失效的問題,對深度學(xué)習(xí)的生成對抗網(wǎng)絡(luò)去模糊方法進(jìn)行了研究,提出了一種基于生成對抗網(wǎng)絡(luò)的模糊車牌圖像復(fù)原方法。主要思路為使用圖像復(fù)原網(wǎng)絡(luò)NAFNet中的NAFBlock替換DeblurGAN-v2生成器中的基本卷積塊,并在特征提取網(wǎng)絡(luò)中加入了高效通道注意力機(jī)制。對于原模型和修改后的模型,設(shè)計了四組不同模型消融實驗。實驗結(jié)果表明,提出方法在復(fù)原模糊車輛圖像復(fù)原任務(wù)數(shù)據(jù)上,峰值信噪比為21.262 4,結(jié)構(gòu)相似度為0.643 1,較好地解決了模糊車牌復(fù)原的問題。
關(guān)鍵詞:運動模糊;圖像處理;生成對抗網(wǎng)絡(luò);圖像復(fù)原
中圖分類號:TP391.4 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2024)20-0153-06
A Method for Restoring Motion-Blurred License Plate Images Based on Generative Adversarial Network
ZHA Anqin, Yang Bin
(Software Engineering Institute of Guangzhou, Guangzhou 510990, China)
Abstract: To solve the problem of license plate recognition algorithms failing due to blurriness caused by fast-moving vehicles, this paper studies the Generative Adversarial Network deblurring method of Deep Learning, and proposes a fuzzy license plate image restoration method based on Generative Adversarial Network. The main idea is to use the NAFBlock in the image restoration network NAFNet to replace the basic convolution block in the DeblurGAN-v2 generator, and an Efficient Channel Attention mechanism is added to the feature extraction network. For the original model and the modified model, four groups of different model ablation experiments are designed. The experiment results show that the proposed method has a peak signal-to-noise ratio of 21.262 4 and a structural similarity index of 0.643 1 on the task data of restoring blurred vehicle image restoration, which better solves the problem of blurred license plate restoration.
Keywords: motion blur; image processing; Generative Adversarial Network; image restoration
0 引 言
車牌識別是一項計算機(jī)視覺領(lǐng)域的任務(wù),旨在指定的圖像上自動識別和提取車輛上的車牌號碼。在車牌識別任務(wù)中,由于攝像機(jī)抖動,車速過快等因素導(dǎo)致車輛圖像產(chǎn)生運動模糊,從而影響識別算法的性能。近年來,隨著神經(jīng)網(wǎng)絡(luò)版本的迭代,從清晰圖像中識別出車牌號碼的準(zhǔn)確率已經(jīng)大大提高。但在模糊圖像上,傳統(tǒng)的識別算法和現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型往往表現(xiàn)不佳,難以達(dá)到令人滿意的效果。因此,使用生成對抗網(wǎng)絡(luò)去除運動模糊,對提升識別算法模型準(zhǔn)確率有著一定的潛力。
在圖像產(chǎn)生模糊時,模糊模型可被建模為模糊圖像與模糊核的卷積過程。模糊核已知時,去模糊任務(wù)被稱為非盲去模糊,模糊核未知時,去模糊任務(wù)被稱為盲去模糊。現(xiàn)實場景下的大多數(shù)去模糊場景屬于后者?,F(xiàn)有的模糊圖像復(fù)原方法分為傳統(tǒng)的去模糊方法和基于神經(jīng)網(wǎng)絡(luò)的去模糊方法,傳統(tǒng)方法在去模糊的研究重點在于先估計模糊核,再將問題轉(zhuǎn)變?yōu)榉敲D像去模糊問題。然而,傳統(tǒng)方法更適用于均勻模糊,對于物體運動模糊環(huán)境下的非均勻模糊效果不佳[1]。近年來,基于深度學(xué)習(xí)的去模糊方法涌現(xiàn)迅速,基于深度學(xué)習(xí)的去模糊方法能更好地捕捉到圖像中的復(fù)雜特征,且具有高效的非線性表示能力,對于去模糊任務(wù)有著一定的泛化能力。常見基于深度學(xué)習(xí)的去模糊方法有基于卷積神經(jīng)網(wǎng)絡(luò)的去模糊方法,基于循環(huán)神經(jīng)網(wǎng)絡(luò)的去模糊方法以及基于生成對抗網(wǎng)絡(luò)的去模糊方法。其中,生成對抗網(wǎng)絡(luò)擁有著較強的功能與優(yōu)勢,對圖像修復(fù)的研究起到了巨大的推薦作用。生成對抗網(wǎng)絡(luò)最早由Goodfellow等[2]提出,從此生成對抗網(wǎng)絡(luò)的基本主體結(jié)構(gòu),以及博弈訓(xùn)練的思想被確立下來。早期的生成對抗網(wǎng)絡(luò)在訓(xùn)練時會出現(xiàn)諸多問題,如穩(wěn)定性和收斂性難以保證,或者出現(xiàn)模式崩潰與模式崩塌的問題。對生成的樣本也無法隨機(jī)調(diào)控。為了解決這一問題,許多生成對抗網(wǎng)絡(luò)的變體被提出,如深度卷積生成對抗網(wǎng)絡(luò)(Deep Convolutional Generative Adversarial Network, DCGAN),條件生成對抗網(wǎng)絡(luò)(Conditional Generative Adversarial Network, CGAN)和Wasserstein生成對抗網(wǎng)絡(luò)等,這些網(wǎng)絡(luò)將生成對抗網(wǎng)絡(luò)生成樣本難以控制和容易出現(xiàn)模式崩潰和模式崩塌的問題一一避免[3]。2018年,Kupyn等[4]提出了用于去模糊的生成對抗網(wǎng)絡(luò)Deblur-GAN,其生成器中包含兩個步幅為1/2的卷積塊,9個殘差塊以及2個轉(zhuǎn)置卷積塊,并在模型中引入了全局跳躍連接,使得訓(xùn)練過程更快,模型的泛化性更好。但存在著只修復(fù)了局部模糊,而未修復(fù)全局模糊的情況。隨后,Gong等[5]提出了將圖像的清晰部分與模糊部分分開,并利用清晰部分知道模糊部分的復(fù)原過程,優(yōu)化了圖像局部去模糊的清晰度,但依舊存在著模型只修復(fù)局部模糊的問題。Zhang等[6]提出了訓(xùn)練兩個生成對抗網(wǎng)絡(luò)模型,使用學(xué)習(xí)模糊的BGAN(leaning-to-Blur GAN)和學(xué)習(xí)去模糊的DBGAN(learning-to-DeBlur GAN)來解決合成模糊圖像不能充分模擬現(xiàn)實場景中模糊過程問題。但使用兩個GAN也讓圖像的復(fù)原速度較慢。Zhao等[7]提出了一種輕量級域轉(zhuǎn)換單元和無參數(shù)頻域?qū)Ρ葐卧?,解決了GAN修復(fù)模糊圖像速度慢的問題。但其網(wǎng)絡(luò)FCL-GAN(Termed Frequency-domain Contrastive Loss Constrained Lightweight CycleGAN)對帶有紋理內(nèi)容的運動模糊復(fù)原效果較差。
本文在參考以上網(wǎng)絡(luò)實現(xiàn)思路的基礎(chǔ)上,嘗試使用了DeblurGAN-v2算法對運動模糊車牌進(jìn)行圖像復(fù)原,然而其復(fù)原效果不是很好。結(jié)合近期較常使用的模型改進(jìn)思路。提出了一種基于生成對抗網(wǎng)絡(luò)DeblurGAN-v2的改進(jìn)架構(gòu),改進(jìn)后的DeblurGAN-v2的去模糊效果有明顯提升,在一定程度上解決了運動模糊車牌圖像復(fù)原問題。
1 網(wǎng)絡(luò)設(shè)計
1.1 生成對抗網(wǎng)絡(luò)工作原理
本文使用了生成對抗網(wǎng)絡(luò)進(jìn)行運動模糊圖像復(fù)原任務(wù),生成對抗網(wǎng)絡(luò)由生成器G和判別器D組成。生成器用于接收模糊圖片,提取模糊圖片的語義特征來生成清晰圖片樣本,以欺騙判別器。而判別器的任務(wù)為區(qū)分輸入圖像來源于真實圖像還是來源于生成器生成的虛假清晰圖像,判別器得到的損失為對抗性損失,該損失被用于直接訓(xùn)練判別器,以提高其判別能力。此外,判別器的損失也會被用于計算生成器的損失,通過這種方式來間接訓(xùn)練生成器。經(jīng)過多次訓(xùn)練迭代后,生成器生成的數(shù)據(jù)會越來越趨近真實圖像,而判別器的辨別能力也會增強。理論上,生成器與判別器最終會達(dá)到納什均衡狀態(tài),此時生成器的生成圖像已經(jīng)跟真實的清晰圖像沒有差別,無法被判別器輕易區(qū)分[2]。生成對抗網(wǎng)絡(luò)的原理如圖1所示。
1.2 主體網(wǎng)絡(luò)DeblurGAN-v2架構(gòu)
1.2.1 生成器
如圖2所示,DeblurGAN-v2的生成器使用了原本用于目標(biāo)檢測的特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network, FPN)來進(jìn)行特征融合,F(xiàn)PN包含一個自下而上的特征提取網(wǎng)絡(luò)和一個自上而下的特征重建網(wǎng)絡(luò)。特征提取網(wǎng)絡(luò)由卷積層和池化層組合而成,用于接收模糊圖像并壓縮圖像的語義信息。對于特征提取主干網(wǎng)絡(luò),DeblurGAN-v2提供了三個選擇,Inception-ResNet-v2、MobileNetV2和MobileNet-DSC。
Inception-ResNet-v2作為模型框架效果最好,但相對的參數(shù)量較大。MobileNetV2較為輕量,適用于移動設(shè)備,而MobileNet-DSC在MobileNetV2的基礎(chǔ)上進(jìn)一步簡化,將所有常規(guī)卷積層替換為深度可分離卷積層,參數(shù)量較小,訓(xùn)練時間較短,但效果不如Inception-ResNet-v2。為了獲得更好的實驗結(jié)果,本文選用了Inception-ResNet-v2作為主干網(wǎng)絡(luò)。
Inception-ResNet-v2是一個結(jié)合了InceptionV3和ResNet網(wǎng)絡(luò)優(yōu)點的混合型卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)。該架構(gòu)使用多尺度處理來捕捉圖像的各種特征,每個模塊中存在并行的卷積層,能夠并行處理數(shù)據(jù),并將結(jié)果合并至下一層。這樣做能在增加網(wǎng)絡(luò)表示能力和特征提取能力的同時,確保模型不會因為過深而產(chǎn)生梯度消失或過擬合,產(chǎn)生的代價是網(wǎng)絡(luò)的運算量會不可避免地增大。為了降低運算量,Inception-ResNet-v2的每個模塊間都插入了1×1的卷積塊進(jìn)行降維。此外,ResNet中的殘差連接也使得梯度更容易反向傳播,從而加快了網(wǎng)絡(luò)的收斂速度,提高了網(wǎng)絡(luò)的訓(xùn)練效率。
DeblurGAN-v2的特征重建網(wǎng)絡(luò)由池化層,添加層和上采樣層組成。負(fù)責(zé)對特征提取網(wǎng)絡(luò)提取出來的圖像語義信息進(jìn)行重建與復(fù)原。兩個網(wǎng)絡(luò)間通過一個1×1的卷積塊連接,這使得提取出的每層圖像特征細(xì)節(jié)都得以在重建中被使用。特征重建網(wǎng)絡(luò)的最終輸出為五個不同尺寸的特征圖,這些特征圖會被統(tǒng)一轉(zhuǎn)換為原圖1/4大小,并串聯(lián)成一個張量,代表著不同層次的語義信息。合成后的張量經(jīng)過上采樣和卷積層處理,恢復(fù)成原圖大小,從而得到生成的清晰圖片。
1.2.2 判別器
與早期生成對抗網(wǎng)絡(luò)的標(biāo)準(zhǔn)架構(gòu)不同,圖3所示的DeblurGAN-v2使用了全局判別器和局部判別器兩個判別器來判斷圖片是否由生成器生成。全局判別器用于評估完整的圖像,其擁有更大的感受野,能夠理解圖片的全局上下文信息,用于保證圖像整體的結(jié)構(gòu)的合理性,例如圖像的布局,幾何形狀等,以增強生成圖像與真實圖像的結(jié)構(gòu)相似度。而局部的判別器用于接收被隨機(jī)裁切后的圖像小塊,相比全局判別器更加關(guān)注小尺度特征的真實性,如圖像的局部細(xì)節(jié)與紋理。通過同時使用全局判別器與局部判別器,DeblurGAN-v2能在不同的尺度下提升生成圖像的質(zhì)量,不僅在宏觀上保證了生成圖像的結(jié)構(gòu)合理,也在微觀上保持了生成圖像的細(xì)節(jié)。全局判別器與局部判別器在對圖像進(jìn)行判別時輸出的對抗性損失,被整合進(jìn)DeblurGAN-v2的生成器損失函數(shù)用于訓(xùn)練。DeblurGAN-v2 判別器架構(gòu)如圖3所示。
1.2.3 損失函數(shù)
DeblurGAN-v2所使用的損失函數(shù)如式(1)所示:
(1)
其中Ladv包含了全局判別器和局部判別器的損失,Lp為使用均方誤差(Mean Square Error,MSE)計算的像素空間損失,即直接在原始圖像和生成器生成的重建圖像的像素層面計算它們差異平方的平均值,用于評估生成圖像與目標(biāo)圖像之間的差異。Lx為感知損失,其通過將生成圖像與模糊圖像放入預(yù)訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)模型VGG19(Visual Geometry Group 19-layer Network),提取特征映射后計算特征得出,負(fù)責(zé)捕捉圖像更高層次的語義信息,比如物體的結(jié)構(gòu)特征,從而生成更逼真、更具細(xì)節(jié)的圖像[8]。相比起像素空間損失,感知損失更注重于圖像的感官質(zhì)量,確保生成的圖像在視覺上更為自然。這種多重?fù)p失函數(shù)的設(shè)計,使得DeblurGAN-v2能夠在不同層次上優(yōu)化生成圖像的質(zhì)量,使其在模糊圖像復(fù)原任務(wù)中的性能提升。
1.3 基于DeblurGAN-v2網(wǎng)絡(luò)架構(gòu)的改進(jìn)
1.3.1 使用NAFBlock替換常規(guī)卷積塊
在DeblurGAN-v2的生成器中,部分特征圖的提取由常規(guī)卷積塊進(jìn)行,這些常規(guī)卷積塊包含一個二維卷積層,一個歸一化層和一個ReLU激活函數(shù)。這樣的卷積塊的設(shè)計較為簡單,可能無法應(yīng)對實際應(yīng)用中的復(fù)雜場景。為了優(yōu)化生成器的性能,本文考慮了加入近年來在圖像處理中應(yīng)用較為廣泛的先進(jìn)技術(shù),如殘差連接或注意力機(jī)制,來替換這些常規(guī)的卷積塊,以提升特征的重用性和傳遞性,并增強特征的表達(dá)能力,從而捕捉到更加細(xì)致和有意義的圖像信息。
本文借鑒了NAFNet(Nonlinear Activation Free Network)[9]網(wǎng)絡(luò)架構(gòu),使用了NAFNet中的核心結(jié)構(gòu)NAFBlock替代了DeblurGAN-v2中的常規(guī)卷積塊,以增強神經(jīng)網(wǎng)絡(luò)對模糊圖像特征的提取能力。NAFNet是一種用于圖像恢復(fù)任務(wù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其設(shè)計重點在于簡化其他在圖像恢復(fù)領(lǐng)域上表現(xiàn)優(yōu)異的模型,同時保持或提升這些模型的性能。NAFNet采用了經(jīng)典包含跳躍連接的單段U形架構(gòu),從而簡化了塊間復(fù)雜性,并替換掉了塊內(nèi)的非線性激活函數(shù),降低了塊內(nèi)復(fù)雜性。NAFNet在擁有低塊間復(fù)雜性和低塊內(nèi)復(fù)雜性的同時,保持著較高的圖像復(fù)原水平。NAFBlock是NAFNet的核心組成部分,其內(nèi)部包含歸一層,卷積層,深度可分離卷積層(Depth-wise Convolution),由逐元素相乘法實現(xiàn)的SimpleGate,以及簡化過后的通道注意力機(jī)制。NAFBlock的結(jié)構(gòu)如圖4所示。
與DeblurGAN-v2原有的常規(guī)卷積塊相比,NAFBlock包含以下兩點優(yōu)勢:第一,NAFBlock中相對原有的卷積塊引入了殘差邊,當(dāng)訓(xùn)練過程中發(fā)生了梯度消失,或神經(jīng)網(wǎng)絡(luò)層訓(xùn)練效果不佳時,殘差邊可將前一層提取的特征直接傳遞到下一層,忽略發(fā)生梯度消失的神經(jīng)網(wǎng)絡(luò)層,使得網(wǎng)絡(luò)訓(xùn)練更加順暢。同時,由于跳躍連接的存在,原始的輸入的特征可以直接傳遞到后續(xù)層次,保持了特征的完整性。雖然殘差邊的存在會額外增加一些運算量,但主要的運算仍然集中在卷積層,因此殘差邊的存在并未顯著增加計算復(fù)雜度。第二,NAFBlock引入了深度可分離卷積,并且整個塊中沒有非線性激活函數(shù),減少了相應(yīng)的參數(shù),降低了模型的存儲需求以及過擬合的風(fēng)險,同時保持了卷積的表達(dá)能力。
綜上所述,本文通過在DeblurGAN-v2中引入NAFNet的NAFBlock,不僅提升了網(wǎng)絡(luò)的訓(xùn)練效率,還在保持高復(fù)原水平的同時,簡化了模型結(jié)構(gòu)。這種改進(jìn)有助于在實際應(yīng)用中更有效地處理模糊圖像,提高圖像恢復(fù)的整體性能。
1.3.2 高效通道注意力機(jī)制
注意力機(jī)制是一種模擬人類在處理大量信息時專注于其中某些重要部分的技術(shù),也是近期深度學(xué)習(xí)的核心組件之一,該機(jī)制的主要思想是讓模型在提取特征時,不必平均地關(guān)注所有信息,而是根據(jù)當(dāng)前任務(wù)的需要,對重要的信息給予更多關(guān)注。注意力機(jī)制已在許多圖像復(fù)原的模型中被廣泛應(yīng)用,并被證實其有效性。為使神經(jīng)網(wǎng)絡(luò)在提取特征時更關(guān)注圖像的細(xì)節(jié)特征,本文在DeblurGAN-v2的特征提取網(wǎng)絡(luò)中插入了高效通道注意力機(jī)制來改進(jìn)DeblurGAN-v2。
高效通道注意力機(jī)制(Efficient Channel Attention, ECA)是基于經(jīng)典通道注意力網(wǎng)絡(luò)(Squeeze-and-Excitation Networks, SENet)改進(jìn)而成的注意力機(jī)制,SENet主要通過壓縮(Squeeze)和激勵(Excitation)來提升重要特征的表達(dá)能力。壓縮操作通過全局平均池化(Global Average Pooling)將每個通道的特征圖壓縮成一個單獨的標(biāo)量,這相當(dāng)于對每個通道信息的全局總結(jié)。這一步驟的特征圖會由H×W×C降維為一個1×1×C的向量。激勵操作則通過兩個全連接層,將每個通道的權(quán)重進(jìn)行重新校準(zhǔn),在這個過程中,輸入的C維向量在第一個全連接層根據(jù)縮減比例r被降維到C/r維,再在第二個全連接層擴(kuò)展至C維。經(jīng)過這一步驟,對于當(dāng)前任務(wù)重要的特征得以被凸顯出來,不重要的特征被抑制下去。最后,這些權(quán)重系數(shù)與原始特征圖的每個通道相乘,來對原始特征圖的每個通道的重要性進(jìn)行重新校準(zhǔn)。盡管SENet提升了許多計算機(jī)視覺相關(guān)的網(wǎng)絡(luò)模型,然而兩個全連接層使得計算量較大,在其間發(fā)生的降維操作可能會使得網(wǎng)絡(luò)無法完全捕捉通道間的重要信息[10]。
為了克服這些局限性,高效通道注意力機(jī)制主要針對SENet的顯著降維操作進(jìn)行了改進(jìn),在得到一個1×1×C的向量后,ECA使用了一個帶有自適應(yīng)核大小的1×1卷積來直接捕獲通道間的交互關(guān)系。其通過一個一維的卷積層來實現(xiàn)通道注意力,避免了維度減少步驟帶來的復(fù)雜度和信息丟失問題,以及降低了計算復(fù)雜度。ECA的卷積核大小取決于通道數(shù)C,具體公式如式(2)所示:
(2)
其中,|t|odd說明k的值只能取奇數(shù)。b與γ為參數(shù),可以在程序中自行定義,本文沿用了高效注意力機(jī)制原論文[10]的取值,設(shè)定γ為1,b為2。
通過在DeblurGAN-v2中引入ECA機(jī)制,模型在處理模糊圖像復(fù)原任務(wù)時,能夠更好地關(guān)注到圖像的細(xì)節(jié)特征,從而生成更加清晰,更加真實的圖像。ECA不僅在計算上的效率更高,在保留通道間的信息方面表現(xiàn)優(yōu)異,為圖像復(fù)原任務(wù)提供了有力支持。
2 實驗分析
2.1 實驗數(shù)據(jù)
本實驗的數(shù)據(jù)源自混合互聯(lián)網(wǎng)上分享的車牌數(shù)據(jù)集,對于部分只有清晰圖像的車牌,通過運動模糊核在原圖上進(jìn)行卷積運算來退化原清晰圖像,使得清晰圖像變?yōu)檫\動模糊圖像,并與原本的清晰圖像組成圖片對,所使用的圖像的退化模型如式(3)所示:
(3)
其中g(shù)(x,y)為退化后的運動模糊圖像,f(x,y)為清晰圖像,h(x,y)為卷積核,*為卷積操作,為圖像加入運動模糊的過程中,沒有加入噪聲。本文使用了3 000個車牌的清晰/模糊圖片對,共6 000張圖像。并抽取其中的2 700對圖片用作訓(xùn)練集,剩下的300對圖像對用作測試集。
2.2 實驗配置
本文在深度學(xué)習(xí)云環(huán)境中進(jìn)行了模型訓(xùn)練與測試,在基于Ubuntu 22.04,Python 3.10和PyTorch 2.1.2的環(huán)境下編寫代碼運行實驗。所用的CPU型號為Xeon(R) Platinum 8255C,并通過顯存為11 GB的RTX 2080 Ti顯卡進(jìn)行加速訓(xùn)練,加速訓(xùn)練所使用的CUDA版本為11.8。訓(xùn)練輪數(shù)為200,使用的優(yōu)化器為Adam,學(xué)習(xí)率為0.001。
2.3 實驗結(jié)果與評價
本文使用了常規(guī)的峰值信噪比PSNR和結(jié)構(gòu)相似性SSIM來評價算法。PSNR是衡量圖像質(zhì)量的標(biāo)準(zhǔn)指標(biāo),用于評估生成器生成圖像與真實圖像之間的相似程度。PSNR越高,說明模型生成器生成的圖像與原始圖像差異越小,這意味著生成器生成的去模糊效果較好。
本文使用的PSNR計算式如式(4)所示:
(4)
其中,MSE為原始圖像I與重建圖像的均方誤差,其計算式如式(5)所示:
(5)
由于PSNR只考慮了生成圖像與原圖像相似間的差異,未考慮人眼對圖像結(jié)構(gòu)內(nèi)容的感知,因此本文同時使用了結(jié)構(gòu)相似性SSIM來計算相似度。SSIM的計算式如式(6)所示:
(6)
式(6)中的,,分別為生成器的重建圖像與原本真實圖像的亮度差異,對比度差異以及結(jié)構(gòu)差異。
本文基于在DeblurGAN-v2上的兩個改進(jìn)策略,設(shè)計了四組不同模型消融實驗,并取得每次訓(xùn)練在測試集上PSNR與SSIM得分最高的模型作為最終模型。實驗結(jié)果如表1所示。
由表1可知,將常規(guī)卷積塊替換成NAFBlock后的神經(jīng)網(wǎng)絡(luò)模型的PSNR比基準(zhǔn)網(wǎng)絡(luò)DeblurGAN-v2高出4.2%,SSIM高出了0.8%,說明了NAFBlock加強了生成器的特征圖提取能力,另一方面,在特征提取網(wǎng)絡(luò)中加入高效通道注意力機(jī)制使得PSNR增加了5.1%,SSIM增加了1.5%,說明高效通道注意力機(jī)制增強了生成器對模糊圖像細(xì)節(jié)特征的提取能力。當(dāng)兩種方法結(jié)合時,網(wǎng)絡(luò)的性能得到了進(jìn)一步的提升,所得出的最終模型PSNR比原本提高了5.9%,SSIM比原本提高了3.6%,說明了本文方法的有效性。除此之外,在訓(xùn)練過程中,原本的DeblurGAN-v2模型每個Epoch的平均訓(xùn)練時長為3分16秒,而改進(jìn)后的DeblurGAN-v2模型每個epoch的平均訓(xùn)練時長為3分28秒,說明模型的計算復(fù)雜度并未顯著增加。
本文選取了測試集中的300張模糊車牌圖像進(jìn)行復(fù)原,使用DeblurGAN-v2以及改進(jìn)后的DeblurGAN-v2的復(fù)原圖像對比如圖5所示。由對比結(jié)果可知,改進(jìn)后的DeblurGAN-v2算法相較于原算法,復(fù)原圖像的質(zhì)量相較于原算法更高。
3 結(jié) 論
針對現(xiàn)實場景中的車牌運動模糊,導(dǎo)致識別算法失效的問題,本文提出了一種基于改進(jìn)DeblurGAN-v2的圖像復(fù)原模型,并通過實驗與基準(zhǔn)模型進(jìn)行了對比分析,驗證了改進(jìn)算法的有效性。通過將特征圖提取的普通卷積塊替換成NAFBlock,以及在特征提取網(wǎng)絡(luò)中加入ECA高效通道注意力機(jī)制,提升了DeblurGAN-v2生成器的特征提取能力,較好地解決了運動模糊車牌復(fù)原的問題,為現(xiàn)實場景中運動模糊的車牌圖像復(fù)原提供了有效手段。為滿足現(xiàn)實中模糊車牌的鑒別問題,未來進(jìn)一步需將本模型與其他車牌識別算法進(jìn)行整合,進(jìn)行端對端的訓(xùn)練,以進(jìn)一步增強模型的實用性。
參考文獻(xiàn):
[1]胡張穎,周全,陳明舉,等.圖像去模糊研究綜述 [J].中國圖象圖形學(xué)報,2024,29(4):841-861.
[2] GOODFELLOW I,POUGET-ABADIE J,MIRZA M,et al. Generative Adversarial Nets [C]//Proceedings of the 27th International Conference on Neural Information Processing Systems.Cambridge:MIT Press,2014:2672-2680.
[3] 龔穎,許文韜,趙策,等.生成對抗網(wǎng)絡(luò)在圖像修復(fù)中的應(yīng)用綜述 [J].計算機(jī)科學(xué)與探索,2024,18(3):553-573.
[4] KUPYN O,BUDZAN V,MYKHAILYCH M,et al. DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks [C]//Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:8183-8192.
[5] GONG G,ZHANG K. Local Blurred Natural Image Restoration based on Self-Reference Deblurring Generative Adversarial Networks [C]//Proceedings of the 2019 IEEE International Conference on Signal and Image Processing Applications. Piscataway:IEEE,2019:231-235.
[6] ZHANG K,LUO W,ZHONG Y,et al. Deblurring by Realistic Blurring [C]//Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition,Seattle.Piscataway:IEEE,2020:2737-2746.
[7] ZHAO S,ZHANG Z,HONG R,et al. FCL-GAN: A Lightweight and Real-time Baseline for Unsupervised Blind Image Deblurring [C]//Proceedings of the 30th ACM International Conference on Multimedia.New York:ACM,2022:6220-6229.
[8] KUPYN O,MARTYNIUK T,WU J,et al. DeblurGAN-v2: Deblurring (Orders-of-magnitude) Faster and Better [C]//Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision.Seoul:IEEE,2019:8877-8886.
[9] CHEN L,CHU X,ZHANG X,et al. Simple Baselines for Image Restoration [C]//European Conference on Computer Vision. Cham:Springer Nature Switzerland,2022:17-33.
[10] WANG Q,WU B,ZHU P,et al. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks [C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition.New York:IEEE,2020:11534-11542.
作者簡介:查安秦(1997—),男,漢族,廣東肇慶人,助教,碩士,研究方向:深度學(xué)習(xí);楊斌(1985—),男,漢族,湖北孝感人,助教,碩士,研究方向:智能制造、計算機(jī)應(yīng)用。