摘 要:在弱光條件下會出現(xiàn)一些質(zhì)量低的圖像,這類圖像可能會受到噪聲、曝光和對比度低等問題的影響,導(dǎo)致視覺質(zhì)量下降。本文針對該問題提出一種在語義引導(dǎo)低照度圖像增強(qiáng)網(wǎng)絡(luò)基礎(chǔ)上的改進(jìn)模型,簡稱NSG-LLIE(New Semantic Guided-Low light image enhancement)。首先,在增強(qiáng)網(wǎng)絡(luò)中加入SE通道注意力機(jī)制模塊,該模塊能夠抑制噪聲引起的特征干擾訓(xùn)練。其次,在SE模塊的基礎(chǔ)上加入非局部均值模塊,使系統(tǒng)在增強(qiáng)過程中能夠保留全局特征,減少曝光情況。最后,在DarkFace數(shù)據(jù)集中進(jìn)行對比試驗,結(jié)果表明,與原模型相比本文的PNSR、SSIM和NIQE分別提高了1.93、0.07和0.37。
關(guān)鍵詞:低照度圖像;通道注意力機(jī)制;非局部均值
中國分類號:TP 391 " " " 文獻(xiàn)標(biāo)志碼:A
在現(xiàn)實生活中,由于獲取圖像的設(shè)備較差以及環(huán)境等因素,因此會得到一些低質(zhì)量的圖像。這類圖像一般會有整體偏暗、對比度差以及細(xì)節(jié)不明顯問題。
為解決暗低照度圖像出現(xiàn)的視覺問題,研究人員利用Retinex-Net低照度圖像增強(qiáng)網(wǎng)絡(luò)得到一種基于Retinex和深度學(xué)習(xí)的改善低照度條件下的圖像質(zhì)量方法。KinD網(wǎng)絡(luò)在Retinex-Net基礎(chǔ)上進(jìn)行改進(jìn),增強(qiáng)了光照不均勻處理能力。JIANG等[1]提出的EnlightenGAN是一種無監(jiān)督的GAN網(wǎng)絡(luò),其能夠增強(qiáng)未配對的低照度圖像畫質(zhì),不再受參考圖像制約,并且可以降低圖像獲取的成本。LI等[2]基于Zero-DCE++算法設(shè)計了一種輕量級的光增強(qiáng)曲線逼近網(wǎng)絡(luò)。張亞邦等[3]對低光照圖像的亮度通道的主要結(jié)構(gòu)和邊緣細(xì)節(jié)分別進(jìn)行對比度增強(qiáng),更好地抑制圖像細(xì)節(jié)丟失。
語義信息在高級視覺任務(wù)中十分重要,但是研究人員忽略了語義信息,因此語義引導(dǎo)低照度圖像增強(qiáng)(Semantic-Guided Zero-shot,SGZ)采用一種新的語義損失來保留圖像中的語義信息,在復(fù)雜場景中的低照度圖像在增強(qiáng)過程中不會破壞圖像的高層次語義結(jié)構(gòu)。為了進(jìn)一步提高圖像增強(qiáng)的效果,本文在該網(wǎng)絡(luò)中引入通道注意力機(jī)制和非局部均值模塊,能夠幫助模型更好地捕捉圖像中的重要特征和全局上下文信息,降低圖像噪聲和曝光度,提升圖像增強(qiáng)效果。
1 語義引導(dǎo)低照度圖像增強(qiáng)
基礎(chǔ)模型語義引導(dǎo)低照度圖像增強(qiáng)網(wǎng)絡(luò)是在沒有配對圖像、配對數(shù)據(jù)集和分割標(biāo)注的情況下訓(xùn)練的,其結(jié)合無監(jiān)督學(xué)習(xí)和語義信息,能夠增強(qiáng)低照度圖像亮度。包括以下3個網(wǎng)絡(luò)。
1.1 增強(qiáng)因子提取網(wǎng)絡(luò)
增強(qiáng)因子提?。‥nhancement Factor Extraction,EFE)網(wǎng)絡(luò)的主要功能是學(xué)習(xí)并提取低光照圖像中的像素級光照不足信息。具體來說,EFE網(wǎng)絡(luò)具有深度可分離卷積層和跳躍連接結(jié)構(gòu),能夠有效地捕捉圖像中的細(xì)粒度特征,并將這些特征轉(zhuǎn)化為一個增強(qiáng)因子。這個增強(qiáng)因子記錄了圖像中每個像素點的光照不足程度,為后續(xù)的圖像增強(qiáng)過程提供關(guān)鍵信息。學(xué)習(xí)低光照圖像的像素級光照不足情況,EFE網(wǎng)絡(luò)能夠準(zhǔn)確地捕捉這些信息并對其進(jìn)行編碼,使增強(qiáng)因子成為后續(xù)圖像增強(qiáng)網(wǎng)絡(luò)的重要參考。
1.2 遞歸圖像增強(qiáng)網(wǎng)絡(luò)
遞歸圖像增強(qiáng)(Recurrent Image Enhancement,RIE)網(wǎng)絡(luò)可以逐步調(diào)整圖像的亮度和對比度,使低光照圖像逐漸清晰、明亮。這種方法不僅提高了圖像的視覺質(zhì)量,還保留了圖像中的結(jié)構(gòu)信息和重要細(xì)節(jié),保證增強(qiáng)過程的自然性和一致性。RIE網(wǎng)絡(luò)利用從EFE網(wǎng)絡(luò)得到的增強(qiáng)因子以及先前階段的輸出逐步增強(qiáng)低光照圖像。
1.3 無監(jiān)督語義分割網(wǎng)絡(luò)
為了保留圖像增強(qiáng)過程中的語義信息,無監(jiān)督語義分割(Unsupervised Semantic Segmentation,USS)網(wǎng)絡(luò)采用無監(jiān)督方法發(fā)現(xiàn)圖像中的潛在語義區(qū)域,然后將這些區(qū)域的特征作為輔助信息,完成零樣本的目標(biāo)任務(wù)。與此同時,對增強(qiáng)后的圖像進(jìn)行精確的逐像素分割,并利用語義損失函數(shù)保留在圖像漸進(jìn)增強(qiáng)的過程中的語義信息。
1.4 損失函數(shù)
為了提升圖像增強(qiáng)效果,圖卷積(Simple Graph Convolution,?SGC)網(wǎng)絡(luò)設(shè)計了多個損失函數(shù),包括空間一致性損失、亮度損失、總變分損失和語義損失。下面詳細(xì)介紹每個損失函數(shù)的設(shè)計及其作用。
1.4.1 空間一致性損失
空間一致性損失的作用是保證增強(qiáng)后的圖像在空間中的結(jié)構(gòu)與原始圖像一致。計算增強(qiáng)圖像與低光照圖像在空間域內(nèi)的梯度差異得到空間一致性損失,如公式(1)所示。
(1)
式中:Lspa為空間一致性損失;A為局部區(qū)域的邊,本文設(shè)為4;i為從1遍歷至4的像素單元;j為遍歷?(i)的鄰域值;?(i)為4個相鄰單元(上,下,左,右)的鄰域值;Yi、Ii分別為增強(qiáng)圖像和弱光圖像在i像素單元處的像素值;Yj、Ij分別為增強(qiáng)圖像和弱光圖像在相鄰單元處的像素值;α為非鄰域值的權(quán)重系數(shù),本文設(shè)為0.5;k為遍歷?(i)中的鄰域值;?(i)為4 個非相鄰單元(左上,右上,左
下,右下)的鄰域值;Yk與Ik分別為增強(qiáng)圖像和弱光圖像在非相鄰單元處的像素值。
1.4.2 亮度損失
亮度損失的作用是控制圖像的全局亮度,保證增強(qiáng)后的圖像在亮度方面達(dá)到預(yù)期效果。計算圖像整體亮度的差異來得到亮度損失,計算過程如公式(2)所示。
(2)
式中:Lbri為亮度損失;Ya為在a處的像素值;E為將特定區(qū)域的平均像素值降至預(yù)定曝光水平,也就是理想的圖像曝光值,本文設(shè)為0.60。
1.4.3 總變分損失
總變分損失的作用是減少圖像中的噪聲,提高圖像的平滑度和視覺質(zhì)量。其計算過程如公式(3)所示。
(3)
式中:Ltv為總變分損失;C、H和W分別為圖像的通道、高度和寬度;c、h和w為索引變量,其作用是遍歷所有的通道、高度和寬度,取值為[1,C]、[1,H]和[1,W];Δx和Δy分別為水平和垂直的梯度;Yc,h,w為增強(qiáng)后的圖像在c、h和w處的像素值;(ΔxYc,h,w)+(ΔyYc,h,w)為圖像的梯度總和,最小化該損失可以使圖像更加平滑、自然。
1.4.4 語義損失
語義損失可以保留圖像中的語義信息,保證增強(qiáng)過程不會破壞圖像的高層次語義結(jié)構(gòu)。該損失函數(shù)利用預(yù)訓(xùn)練的語義分割網(wǎng)絡(luò)提取圖像的語義特征,計算圖像增強(qiáng)前后在語義特征空間的差異。其計算過程如公式(4)所示。
(4)
式中:Lsem為語義損失,參考焦點損失來編寫成本函數(shù)。該損失不需要分割標(biāo)簽,只需要1個預(yù)先初始化的模型β1、β2為焦點系數(shù);ρi,j 為分割網(wǎng)絡(luò)在高度為i、寬度為j的像素點的估計類概率;(1-ρi,j )為在二分類交叉熵?fù)p失基礎(chǔ)上加入的一個調(diào)節(jié)因子,可以使模型更關(guān)注錯分的樣本。
2 改進(jìn)的語義引導(dǎo)低照度圖像增強(qiáng)
2.1 SE通道注意力機(jī)制模塊
利用EFE和RIE網(wǎng)絡(luò)對圖像進(jìn)行增強(qiáng)后,模型不能很好地捕捉能夠使光照增強(qiáng)的信息并產(chǎn)生噪聲,為了提高圖像質(zhì)量,降低噪聲,突出有用信息,本文引入SE通道注意力機(jī)制模塊,如圖1所示。
2.1.1 全局平均池化
SEBlock會對輸入的特征圖執(zhí)行全局平均池化操作,將特征圖的每個通道都壓縮成一個標(biāo)量值。
2.1.2 全連接層和激活函數(shù)
SEBlock利用2個全連接層和ReLU激活函數(shù)生成每個通道的權(quán)重。
2.1.3 Sigmoid激活和擴(kuò)展
利用Sigmoid激活函數(shù)將權(quán)重調(diào)整至0~1,并將其擴(kuò)展至原始特征圖的維度。
2.1.4 通道重新加權(quán)
將這些權(quán)重與原始特征圖逐元素相乘,在通道間進(jìn)行自適應(yīng)加權(quán)。
2.2 非局部均值模塊
基礎(chǔ)模型經(jīng)常會出現(xiàn)過曝光的情況,因此本文引入了非局部均值(Non-Local Means,NLM)模塊,如圖2所示,NLM模塊有助于捕捉全局的特征信息,通道注意力機(jī)制能夠調(diào)整不同通道的重要程度,評估像素之間的相似性。結(jié)合兩者可以同時關(guān)注全局特征,使系統(tǒng)在增強(qiáng)過程中能夠更有效地保留全局特征。如果局限于局部的鄰域像素,那么訓(xùn)練效果不佳,例如曝光過于嚴(yán)重以及某些地方?jīng)]有加強(qiáng)。增強(qiáng)低照度圖像的全局特征可以提供關(guān)于圖像整體屬性和結(jié)構(gòu)的信息,這些信息可以在模型學(xué)習(xí)的過程中作為參考,幫助模型更好地理解圖像并確定哪些區(qū)域需要多加強(qiáng),哪些區(qū)域需要適度加強(qiáng)。具體步驟如下。
2.2.1 降維卷積
NLM模塊利用1×1卷積層將輸入特征圖的通道數(shù)減半,以降低計算復(fù)雜度。
2.2.2 展平和轉(zhuǎn)置
將降維后的特征圖展平并轉(zhuǎn)置,以計算自相似度。
2.2.3 自相似度計算
先計算特征圖中所有像素之間的相似度,然后利用Sigmoid激活函數(shù)進(jìn)行處理,使結(jié)果為0~1,生成相似度矩陣。
2.2.4 特征重建
根據(jù)相似度矩陣對降維后的特征圖進(jìn)行加權(quán)求和,重建特征圖。
2.2.5 恢復(fù)維度
利用1×1卷積層將特征圖的通道數(shù)恢復(fù)為原始維度,并與輸入特征圖相加,融合全局上下文信息。
2.3 改進(jìn)后的整體網(wǎng)絡(luò)模型
將SE模塊與非局部均值模塊串聯(lián)至EFE網(wǎng)絡(luò)的卷積層中,得到改進(jìn)的增強(qiáng)因子提取網(wǎng)絡(luò),如圖3所示。融合SE通道注意力機(jī)制模塊和非局部均值模塊的語義引導(dǎo)低照度圖像增強(qiáng)。NSG-LLIE整體網(wǎng)絡(luò)框如圖4所示。
3 試驗與結(jié)果分析
本文模型使用深度學(xué)習(xí)框架Pytorch在單個NVIDIA 4060Ti GPU中進(jìn)行100批次的訓(xùn)練,初始學(xué)習(xí)率為0.000 1。批處理大小為6,需要約3 h來進(jìn)行收斂。在每個訓(xùn)練迭代中進(jìn)行前向傳播。將低光照圖像輸入增強(qiáng)網(wǎng)絡(luò),經(jīng)過一系列卷積層、SE block、Non-Local Means和光照模塊,輸出增強(qiáng)后的圖像,前向傳播過程是計算網(wǎng)絡(luò)對輸入圖像進(jìn)行處理并生成輸出圖像的過程。采用反向傳播算法計算損失的梯度,并使用Adam優(yōu)化器更新網(wǎng)絡(luò)參數(shù)。反向傳播過程是計算損失函數(shù)對網(wǎng)絡(luò)參數(shù)的梯度來調(diào)整網(wǎng)絡(luò)參數(shù)的過程,使損失逐漸降低,模型性能逐漸優(yōu)化。
3.1 數(shù)據(jù)集
在DarkFace數(shù)據(jù)集中有6 000 張在極端低光照條件中拍攝的圖像,因為光照不足,所以不能準(zhǔn)確檢測和識別這些圖像中的人臉。圖像在街道、商店和家庭等多種場景中拍攝,其具有多樣性,為評估低光照圖像增強(qiáng)算法的魯棒性和通用性提供了良好的測試環(huán)境。
3.2 試驗結(jié)果
本文從DarkFace數(shù)據(jù)集中選擇400張低光圖像作為測試數(shù)據(jù),低照度圖像與改進(jìn)前后增強(qiáng)的圖像如圖5所示,觀察增強(qiáng)圖像的燈籠、店鋪牌可知改進(jìn)后曝光情況減少,觀察樹周圍可知改進(jìn)后噪聲情況減少。試驗結(jié)果表明需要提升亮度與對比度,也要減少噪聲、曝光與失真的情況。
將本文模型與2018年至今的熱門的低照度圖像增強(qiáng)模型進(jìn)行比較,包括基礎(chǔ)模型SGZ、Retinex-net、KinD、Zero-DCE++和DID。使用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)、結(jié)構(gòu)相似指數(shù)(Structural Similarity Index,SSIM)和無參考圖像質(zhì)量評估器(Natural Image Quality Evaluator,NIQE)來評估模型的性能。不同模型評價指標(biāo)見表1。由表1可知,DID的PSNR最高為23.99,本文模型PSNR為23.29,并沒有獲得最好的效果,在圖像的細(xì)節(jié)保持程度上還有不足。由于PSNR不能完整地反映圖像的好壞,還需要利用其他指標(biāo)或者圖像增強(qiáng)后的視覺效果來評判圖像的質(zhì)量,因此得到的增強(qiáng)后的圖像整體保真度較高,噪聲較小。本文模型的SSIM最高,為0.92,說明增強(qiáng)前后圖像在結(jié)構(gòu)上非常相似。本文模型的NIQE也最高,為3.27,該指標(biāo)可以較好地模擬人眼對低照度圖像質(zhì)量的判斷,說明本文圖像視覺效果較好。
4 結(jié)語
本文針對基礎(chǔ)模型中出現(xiàn)的噪聲和曝光問題提出一種基于SE通道注意力機(jī)制模塊和非局部均值模塊的語義引導(dǎo)低照度圖像增強(qiáng)的模型(NSG-LLIE)。試驗結(jié)果表明,與原模型相比,PSNR、SSIM和NIQE分別提高了1.93、0.07和0.37,低照度圖像視覺效果更好。增強(qiáng)后的圖像可以在后續(xù)人臉識別、目標(biāo)檢測[4]和夜間駕駛[5]等領(lǐng)域中發(fā)揮重要作用。
參考文獻(xiàn)
[1]JIANG Y,GONG X,LIU D,et al.Enlightengan:Deep light
enhancement without paired supervision[J].IEEE Transactions on image
processing,2021(30):2340-2349.
[2] LI C,GUO C,LOY C C.Learning to enhance low-light image
via zero-reference deep curve estimation[J].IEEE Transactions on pattern
analysis and machine intelligence,2021,44(8):4225-4238.
[3]張亞邦,李佳悅,王滿利.基于HSV空間的煤礦井下低光照圖像增強(qiáng)方法[J].紅外技術(shù),2024,46(1):74-83.
[4]陳科圻,朱志亮,鄧小明,等.多尺度目標(biāo)檢測的深度學(xué)習(xí)研究綜述[J].軟件學(xué)報,2021,32(4):1201-1227.
[5]祝文斌,苑晶,朱書豪,等.低光照場景下基于序列增強(qiáng)的移動機(jī)器人人體檢測與姿態(tài)識別[J].機(jī)器人,2022,44(3):299-309.