范溢華,王永振,燕雪峰,宮麗娜,郭延文,魏明強(qiáng)
人臉識(shí)別任務(wù)驅(qū)動(dòng)的低光照?qǐng)D像增強(qiáng)算法
范溢華1,王永振1,燕雪峰1,宮麗娜1,郭延文2,魏明強(qiáng)1
(1. 南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 210016;2. 南京大學(xué)計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023)
圖像容易受外界照明條件的影響或相機(jī)參數(shù)條件的限制,導(dǎo)致圖像整體偏暗、視覺(jué)效果不佳,降低了下游視覺(jué)任務(wù)的性能,從而引發(fā)安全問(wèn)題。以人臉識(shí)別任務(wù)為驅(qū)動(dòng),提出了一種基于對(duì)比學(xué)習(xí)范式的非成對(duì)低光照?qǐng)D像增強(qiáng)算法Low-FaceNet。Low-FaceNet主干采用基于U-Net結(jié)構(gòu)的圖像增強(qiáng)網(wǎng)絡(luò),引入特征保持、語(yǔ)義分割和人臉識(shí)別3個(gè)子網(wǎng)絡(luò)輔助圖像增強(qiáng)網(wǎng)絡(luò)的訓(xùn)練。使用對(duì)比學(xué)習(xí)范式可以使得真實(shí)世界大量非成對(duì)的低光照和正常光照?qǐng)D像作為負(fù)/正樣本,提高了真實(shí)場(chǎng)景的泛化能力;融入高階語(yǔ)義信息,可以指導(dǎo)低階圖像增強(qiáng)網(wǎng)絡(luò)更高質(zhì)量地增強(qiáng)圖像;任務(wù)驅(qū)動(dòng)可以增強(qiáng)圖像的同時(shí)提升人臉識(shí)別的準(zhǔn)確率。在多個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行驗(yàn)證,可視化與量化結(jié)果均表明,Low-FaceNet能在增強(qiáng)圖像亮度的同時(shí)保持圖像中各種細(xì)節(jié)特征,并有效地提升低光照條件下人臉識(shí)別的準(zhǔn)確率。
低光照?qǐng)D像增強(qiáng);人臉識(shí)別;對(duì)比學(xué)習(xí);任務(wù)驅(qū)動(dòng);語(yǔ)義分割
視覺(jué)信息在人類(lèi)所接收的各種復(fù)雜信息中占據(jù)80%以上的比例,由此可見(jiàn)圖像信息是一種不可或缺的傳播媒介[1]。隨著科技水平的不斷提升和各種拍攝設(shè)備的普及與日益便攜化,圖像在人類(lèi)社會(huì)中發(fā)揮著愈發(fā)重要的作用,每個(gè)人都在成為圖像的創(chuàng)造者與傳播者。然而,受外界照明環(huán)境影響或技術(shù)條件限制,拍攝的圖像往往會(huì)出現(xiàn)曝光不足、對(duì)比度低、細(xì)節(jié)丟失等問(wèn)題,此類(lèi)圖像即被稱(chēng)為低光照?qǐng)D像。低光照?qǐng)D像增強(qiáng)技術(shù)旨在對(duì)低亮度、低對(duì)比度、噪聲、偽影等問(wèn)題進(jìn)行處理,以改善圖像質(zhì)量,并在處理過(guò)程中盡可能保持圖像的細(xì)節(jié)特征,以滿(mǎn)足特定場(chǎng)景的需求。
低光照?qǐng)D像增強(qiáng)方法可以分為傳統(tǒng)基于先驗(yàn)的方法和基于深度學(xué)習(xí)的方法。
早期傳統(tǒng)方法主要包括基于直方圖均衡和基于Retinex模型的方法。直方圖均衡方法將圖像的直方圖分布限制在一定范圍內(nèi),使其趨近于均勻分布,提高原始低光照?qǐng)D像的對(duì)比度。PIZER等[2]使用累積分布函數(shù)來(lái)調(diào)整圖像的像素值,以使整張圖片的像素強(qiáng)度值均勻化。后續(xù)進(jìn)一步衍生出自適應(yīng)的直方圖均衡方法。LAND[3]提出的Retinex理論為低光照?qǐng)D像增強(qiáng)領(lǐng)域奠定了重要的理論基礎(chǔ)。Retinex是一個(gè)由視網(wǎng)膜(retina)和大腦皮層(cortex)構(gòu)成的合成詞。該理論認(rèn)為捕獲的圖像可以分解成光照?qǐng)D和反射圖。由于光照?qǐng)D是隨著外界環(huán)境會(huì)發(fā)生變化的量,而反射圖是物體的本質(zhì)屬性,因此基于Retinex的方法通常是通過(guò)求解反射圖來(lái)獲得增強(qiáng)圖像。GUO等[4]基于Retinex提出了低光照?qǐng)D像增強(qiáng)(low-light image enhancement,LIME)方法,其利用RGB三通道的最大像素值來(lái)估算光照?qǐng)D的像素值,再利用結(jié)構(gòu)先驗(yàn)調(diào)節(jié)光照?qǐng)D進(jìn)行圖像增強(qiáng)。不同于一般基于Retinex的方法需要同時(shí)計(jì)算反射分量與光照分量,該方法僅通過(guò)預(yù)測(cè)光照分量,就能達(dá)到預(yù)期效果,減少了計(jì)算成本。
近年來(lái),隨著深度學(xué)習(xí)的飛速發(fā)展,利用深度學(xué)習(xí)方法進(jìn)行低光照?qǐng)D像增強(qiáng)任務(wù)取得了開(kāi)創(chuàng)性的成功,相較于傳統(tǒng)方法,基于深度學(xué)習(xí)的方法具有更好的準(zhǔn)確性、魯棒性和計(jì)算效率。根據(jù)算法所使用的學(xué)習(xí)策略,基于深度學(xué)習(xí)的低光照?qǐng)D像增強(qiáng)方法又可以分為監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)與半監(jiān)督學(xué)習(xí)等。
在主流的監(jiān)督學(xué)習(xí)方法中,低光照網(wǎng)絡(luò)(low-light network,LLNet)[5]是第一個(gè)采用深度學(xué)習(xí)方法在低光照?qǐng)D像增強(qiáng)任務(wù)上的成功嘗試。在此模型的基礎(chǔ)上,提出了多分支低光照增強(qiáng)網(wǎng)絡(luò)(multi-branch low-light enhancement network,MBLLEN)[6]和邊緣增強(qiáng)多曝光度融合網(wǎng)絡(luò)(edge-enhanced multi-exposure fusion network,EEMEFN)[7]等方法。WEI等[8]提出的Retinex網(wǎng)絡(luò)(Retinex network,Retinex-Net)將Retinex理論與深度網(wǎng)絡(luò)結(jié)合起來(lái)。FAN等[9]在Retinex模型中融入語(yǔ)義信息,使用語(yǔ)義信息來(lái)引導(dǎo)反射分量的重建并估計(jì)噪聲,進(jìn)一步提升增強(qiáng)效果。盡管上述方法能夠取得較好的增強(qiáng)效果,但由于此類(lèi)方法只能使用合成的數(shù)據(jù)進(jìn)行訓(xùn)練,而真實(shí)數(shù)據(jù)和合成數(shù)據(jù)間存在的領(lǐng)域鴻溝會(huì)導(dǎo)致這類(lèi)方法在真實(shí)數(shù)據(jù)上泛化性差。為此,一些方法開(kāi)始探索采集真實(shí)數(shù)據(jù)用于網(wǎng)絡(luò)訓(xùn)練或生成更加真實(shí)的訓(xùn)練數(shù)據(jù)。CHEN等[10]建立了一套真實(shí)的低光照?qǐng)D像數(shù)據(jù)集,并訓(xùn)練網(wǎng)絡(luò)尋找從低光照?qǐng)D像到長(zhǎng)曝光高質(zhì)量圖像的映射。CAI等[11]建立了一個(gè)多曝光度圖像數(shù)據(jù)集,稱(chēng)之為單一圖像對(duì)比度增強(qiáng)(single image contrast enhancement,SICE),不同曝光的低對(duì)比度圖片有其對(duì)應(yīng)的高質(zhì)量參考圖片,這些參考圖片是通過(guò)不同方法增強(qiáng)后擇優(yōu)選出的。
為解決在合成數(shù)據(jù)集上訓(xùn)練成對(duì)數(shù)據(jù)可能導(dǎo)致的過(guò)擬合和泛化性差等問(wèn)題,JIANG等[12]提出了低光照?qǐng)D像增強(qiáng)領(lǐng)域中第一個(gè)基于非成對(duì)數(shù)據(jù)訓(xùn)練的照亮生成對(duì)抗網(wǎng)絡(luò)(enlighten generative adversarial network,EnlightenGAN)。GUO等[13]提出了零參考深度曲線(xiàn)估計(jì)(zero-reference deep curve estimation,Zero-DCE)方法,將低光照?qǐng)D像增強(qiáng)重新定義為圖像特定曲線(xiàn)的估計(jì)問(wèn)題,而非建立低光照?qǐng)D像到正常圖像的映射問(wèn)題。
為了同時(shí)兼具監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)兩者的優(yōu)點(diǎn),YANG等[14]設(shè)計(jì)了一種基于半監(jiān)督學(xué)習(xí)框架的深度遞歸帶狀網(wǎng)絡(luò)(deep recursive band network,DRBN)。此方法通過(guò)訓(xùn)練成對(duì)數(shù)據(jù)集來(lái)恢復(fù)圖像的細(xì)節(jié),并采用對(duì)抗學(xué)習(xí)訓(xùn)練非成對(duì)數(shù)據(jù)集,提高了圖像的光照、顏色等視覺(jué)感知質(zhì)量。
本文將低光照?qǐng)D像增強(qiáng)任務(wù)與人臉識(shí)別任務(wù)相結(jié)合,設(shè)計(jì)了非成對(duì)的低光照人臉圖像增強(qiáng)網(wǎng)絡(luò)(low-light face image enhancement network,Low-FaceNet),采用對(duì)比學(xué)習(xí)范式提升模型的泛化性,并在其中加入提取出的高階語(yǔ)義信息,解決了同類(lèi)型算法可能帶來(lái)的局部曝光不均勻等問(wèn)題,同時(shí)能夠有效提升人臉識(shí)別任務(wù)的性能。
針對(duì)目前監(jiān)督學(xué)習(xí)方式存在的難以獲取大規(guī)模的成對(duì)數(shù)據(jù)集及低光照?qǐng)D像增強(qiáng)過(guò)程的不適定性難題,本文提出了一種非成對(duì)的低光照?qǐng)D像增強(qiáng)方法Low-FaceNet。
LEE等[15]指出現(xiàn)有方法通常只將圖像增強(qiáng)作為預(yù)處理方法,未與下游的高級(jí)視覺(jué)任務(wù)結(jié)合起來(lái),從而導(dǎo)致增強(qiáng)后的圖像對(duì)視覺(jué)任務(wù)性能的提升并不明顯,甚至沒(méi)有作用。針對(duì)上述問(wèn)題,本文面向人臉識(shí)別應(yīng)用,提出一種以人臉識(shí)別任務(wù)為驅(qū)動(dòng)的非成對(duì)低光照?qǐng)D像增強(qiáng)網(wǎng)絡(luò),稱(chēng)為L(zhǎng)ow-FaceNet,將低階圖像增強(qiáng)任務(wù)與高階人臉識(shí)別任務(wù)結(jié)合起來(lái),以聯(lián)合學(xué)習(xí)的方式優(yōu)化2個(gè)任務(wù),使其相互促進(jìn)。Low-FaceNet主干采用基于U-Net結(jié)構(gòu)的圖像增強(qiáng)網(wǎng)絡(luò),使用對(duì)比學(xué)習(xí),融入高階語(yǔ)義信息,增強(qiáng)圖像的同時(shí)提升人臉識(shí)別的準(zhǔn)確率。
圖1為本文提出的低光照?qǐng)D像增強(qiáng)方法Low-FaceNet的網(wǎng)絡(luò)架構(gòu)圖,使用對(duì)比學(xué)習(xí)損失、特征保持損失、語(yǔ)義亮度一致性損失和人臉識(shí)別損失函數(shù)共同約束網(wǎng)絡(luò)的訓(xùn)練。
圖2為低光照?qǐng)D像增強(qiáng)主干網(wǎng)絡(luò)的層次結(jié)構(gòu)圖,采用基于U-Net的網(wǎng)絡(luò)架構(gòu),其中包含7個(gè)卷積、激活模塊和8個(gè)迭代增強(qiáng)模塊,采用端到端的方式訓(xùn)練網(wǎng)絡(luò)。
圖1 Low-FaceNet網(wǎng)絡(luò)架構(gòu)圖
圖2 低光照?qǐng)D像增強(qiáng)網(wǎng)絡(luò)層次圖
現(xiàn)有基于深度學(xué)習(xí)的低光照?qǐng)D像增強(qiáng)方法大都采用監(jiān)督學(xué)習(xí)方式,需要使用帶有標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練,即同時(shí)需要低光照和其對(duì)應(yīng)的正常光照?qǐng)D像。然而受環(huán)境光和相機(jī)參數(shù)的影響,在同一場(chǎng)景同時(shí)獲得低光照和正常光照的圖像十分困難。因此,本文采用對(duì)比學(xué)習(xí)范式,直接基于真實(shí)世界正常光照/低光照?qǐng)D像構(gòu)建正/負(fù)樣本,并利用對(duì)比學(xué)習(xí)在特征空間中將增強(qiáng)后的圖像與正樣本拉進(jìn),從而遠(yuǎn)離負(fù)樣本。所提出的對(duì)比學(xué)習(xí)框架借助提取的特征信息保留了增強(qiáng)圖像中不同尺度的細(xì)節(jié)信息,并利用高階語(yǔ)義信息解決了增強(qiáng)圖像中可能存在的曝光不均勻問(wèn)題。最后,將低光照?qǐng)D像增強(qiáng)與人臉識(shí)別任務(wù)相結(jié)合,采用人臉識(shí)別損失使增強(qiáng)后的結(jié)果能有效提升識(shí)別準(zhǔn)確率,從而實(shí)現(xiàn)了完整的低光照?qǐng)D像增強(qiáng)流程。
對(duì)比學(xué)習(xí)的基本思想是在特征空間中學(xué)習(xí)一種特征表示,將相關(guān)聯(lián)的特征(正樣本)拉近,同時(shí)遠(yuǎn)離不相關(guān)的特征(負(fù)樣本),從而學(xué)習(xí)到不同樣本間的特征表示,更好地服務(wù)于目標(biāo)任務(wù)。對(duì)于低光照?qǐng)D像增強(qiáng)任務(wù),對(duì)比學(xué)習(xí)可表示為
其中,I為增強(qiáng)圖像;I為正樣本(正常光照?qǐng)D像);I為負(fù)樣本(低曝光圖像);為Gram矩陣;為平均亮度值;為距離。式(1)表示基于對(duì)比學(xué)習(xí)的特征恢復(fù);式(2)表示基于對(duì)比學(xué)習(xí)的亮度恢復(fù)。
本文采用預(yù)訓(xùn)練好的Vgg-16網(wǎng)絡(luò)來(lái)提取圖像特征,使用Gram矩陣定量描述圖像的潛在特征
為了從低光照?qǐng)D像中更好地恢復(fù)出正常光照?qǐng)D像,本文采用真實(shí)世界非成對(duì)的正常光照?qǐng)D像和低光照?qǐng)D像作為正負(fù)樣本,并通過(guò)對(duì)比學(xué)習(xí)范式將增強(qiáng)后的圖像的特征與正樣本進(jìn)行拉近,同時(shí)遠(yuǎn)離負(fù)樣本。其示意圖如圖3所示。
圖3 對(duì)比學(xué)習(xí)示意圖
因此,對(duì)比學(xué)習(xí)損失可以表示為
其中,α和β為常數(shù),在訓(xùn)練時(shí)分別被設(shè)置成0.04和0.30,λ和λ分別為相應(yīng)損失的權(quán)重系數(shù),在訓(xùn)練時(shí)分別被設(shè)置成1.0和1.4。
LI等[16]指出對(duì)比學(xué)習(xí)范式用于視覺(jué)任務(wù)中,能通過(guò)隨機(jī)性學(xué)習(xí)到更多信息。為進(jìn)一步提高模型的魯棒性,本方法在訓(xùn)練過(guò)程中,每次迭代都隨機(jī)選取正負(fù)樣本。
為更好地保留增強(qiáng)圖像的細(xì)節(jié)特征,本文考慮利用高階語(yǔ)義信息來(lái)指導(dǎo)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,提出了一種語(yǔ)義亮度一致性損失,該約束可以保證增強(qiáng)圖像中相同的語(yǔ)義類(lèi)別亮度保持一致。此外,采用該約束也能在一定程度上解決增強(qiáng)后圖像存在的局部曝光不足和曝光過(guò)度問(wèn)題。
在真實(shí)場(chǎng)景中,屬于同一語(yǔ)義類(lèi)別下的像素通常分布在相鄰的位置,并且應(yīng)該具有相似的亮度水平,而現(xiàn)有的低光照?qǐng)D像增強(qiáng)方法往往使得增強(qiáng)圖像出現(xiàn)局部曝光不均勻的問(wèn)題?;诖爽F(xiàn)象,本文定義了每個(gè)語(yǔ)義類(lèi)別中像素的平均亮度為即
其中,為語(yǔ)義標(biāo)注真值圖片中包含的語(yǔ)義類(lèi)別數(shù)量;p為第個(gè)語(yǔ)義類(lèi)別的類(lèi)別真值;q為第個(gè)語(yǔ)義類(lèi)別的類(lèi)別預(yù)測(cè)值,其權(quán)重系數(shù)為1.0。
鑒于感知損失(perceptual loss)可以使經(jīng)過(guò)處理后的圖像與原始圖像在感知上保持一致,本文使用感知損失使圖像在增強(qiáng)前后的特征保持一致。特征保留損失為
其中,(I)為輸入圖像第l層的特征映射;(I)為經(jīng)過(guò)網(wǎng)絡(luò)增強(qiáng)后的圖像在第l層的特征映射。
在低光照?qǐng)D像增強(qiáng)領(lǐng)域中,尤其需要關(guān)注顏色的自然性。BUCHSBAUM[17]于1980年提出基于灰色世界的顏色恒定假設(shè),即3個(gè)通道的像素平均值往往具有相同的數(shù)值。本文基于這一假設(shè)提出一種顏色一致性損失L,其限制了3個(gè)通道像素值的比例,以防止增強(qiáng)圖像中出現(xiàn)顏色偏差問(wèn)題。其表達(dá)式為
其中,為圖片的通道,可取值范圍為{R, G, B};(,)為一組通道;為增強(qiáng)圖像的通道的像素平均值。
此外,為避免相鄰像素之間出現(xiàn)急劇變化,本文還使用總變分損失(TV loss)促進(jìn)增強(qiáng)圖像的空間平滑性。其表達(dá)式為
感知損失L、顏色一致性損失L與總變分損失L共同組成了特征保持損失,即
其中,λ,λ,λ為相應(yīng)損失的權(quán)重系數(shù)。在實(shí)驗(yàn)中,將λ的值設(shè)置為1.0,λ的值設(shè)置為1.0,λ的值設(shè)置為200以達(dá)到最佳的實(shí)驗(yàn)結(jié)果。
為了使低階的低光照?qǐng)D像增強(qiáng)任務(wù)能夠更好地服務(wù)于高階人臉識(shí)別任務(wù),本文提出了以人臉識(shí)別任務(wù)為驅(qū)動(dòng)的深度學(xué)習(xí)框架。首先使用正常光照的人臉數(shù)據(jù)集預(yù)訓(xùn)練識(shí)別網(wǎng)絡(luò),然后將其引入到低光照?qǐng)D像增強(qiáng)網(wǎng)絡(luò)中作為一個(gè)子模塊,并固定其權(quán)重,輔助低光照?qǐng)D像增強(qiáng)主干網(wǎng)絡(luò)的訓(xùn)練。
鑒于交叉熵?fù)p失函數(shù)已廣泛應(yīng)用于各種分類(lèi)任務(wù)中,而人臉識(shí)別任務(wù)本質(zhì)上也屬于分類(lèi)任務(wù),因此本文采用交叉熵?fù)p失函數(shù)作為人臉識(shí)別任務(wù)的損失函數(shù)。
人臉識(shí)別的具體流程如圖4所示。首先將訓(xùn)練集中包含的每個(gè)人都選一張人臉圖像放入人臉數(shù)據(jù)庫(kù)中;然后進(jìn)行編碼,編碼結(jié)果包括人名和人臉特征的2個(gè)部分,其中人臉特征的編碼需要使用人臉檢測(cè)網(wǎng)絡(luò)與人臉識(shí)別網(wǎng)絡(luò)實(shí)現(xiàn);接下來(lái)將當(dāng)前待識(shí)別的人臉圖像通過(guò)人臉識(shí)別網(wǎng)絡(luò),得到當(dāng)前待識(shí)別人臉圖像的特征向量,并將此特征向量與先前數(shù)據(jù)庫(kù)中編碼得到的人臉特征計(jì)算余弦距離,并將余弦距離最大值所對(duì)應(yīng)的索引作為預(yù)測(cè)結(jié)果,其真值為當(dāng)前人臉的實(shí)際身份在人臉數(shù)據(jù)庫(kù)中的索引。
圖4 人臉識(shí)別流程圖
通過(guò)余弦距離與身份真值即可計(jì)算出人臉識(shí)別損失,即
其中,為人臉數(shù)據(jù)庫(kù)中包含的人臉總數(shù);p為人臉身份真值;q為人臉身份預(yù)測(cè)值,其權(quán)重系數(shù)為1.0。
本文設(shè)計(jì)的低光照?qǐng)D像增強(qiáng)網(wǎng)絡(luò)Low-FaceNet在訓(xùn)練過(guò)程中由上文所述的4項(xiàng)損失函數(shù)共同約束,分別為對(duì)比學(xué)習(xí)損失L、語(yǔ)義亮度一致性損失L、特征保持損失L以及人臉識(shí)別損失face??倱p失函數(shù)為
其權(quán)重系數(shù)均為1.0。
從門(mén)禁解鎖、電子支付到高鐵安檢、醫(yī)院就醫(yī)等,人臉作為生物特征逐漸成為人們進(jìn)入萬(wàn)物互聯(lián)世界的數(shù)字身份證。人臉檢測(cè)與識(shí)別具有廣闊的發(fā)展前景,從2005年左右,人臉檢測(cè)技術(shù)逐漸邁入實(shí)際應(yīng)用階段,在數(shù)碼相機(jī)與數(shù)字監(jiān)控等應(yīng)用領(lǐng)域興起。2014年,隨著深度卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的逐漸發(fā)展,人臉識(shí)別技術(shù)逐漸成熟,并在安全、金融、民生、政務(wù)等諸多領(lǐng)域得到了應(yīng)用[18]。
人臉檢測(cè)是在給定圖像上定位并標(biāo)注出人臉?biāo)谖恢玫募夹g(shù),是后續(xù)進(jìn)行人臉識(shí)別、人臉解析等相關(guān)任務(wù)的必要前提步驟。本文使用由Insightface團(tuán)隊(duì)提出的one-stage人臉檢測(cè)網(wǎng)絡(luò)RetinaFace[19]進(jìn)行人臉檢測(cè),使用了大規(guī)模人臉檢測(cè)數(shù)據(jù)集WIDER FACE[20]進(jìn)行預(yù)訓(xùn)練。
為了解決人臉檢測(cè)中多尺度的問(wèn)題,RetinaFace算法的特征提取網(wǎng)絡(luò)使用FPN特征金字塔結(jié)構(gòu),可以有效改善模型的小尺度檢測(cè)性能,且?guī)缀醪恍枰黾佑?jì)算量。圖5共使用了從2到6特征金字塔的5個(gè)等級(jí)。2到5是由相應(yīng)的殘差連接網(wǎng)絡(luò)的輸出特征圖(2至6)分別自上而下和橫向連接計(jì)算得到的,6是5采用步長(zhǎng)為2、大小為3×3的卷積核進(jìn)行卷積采樣得到的。1到5使用了預(yù)訓(xùn)練于ImageNet-11數(shù)據(jù)集的ResNet-512網(wǎng)絡(luò)的殘差層,通過(guò)Xavieer方法隨機(jī)初始化6的卷積層[21]。
圖5 RetinaFace網(wǎng)絡(luò)結(jié)構(gòu)
人臉識(shí)別使用谷歌團(tuán)隊(duì)于2015年提出的FaceNet[22]網(wǎng)絡(luò),由于同一人臉在不同的角度或姿態(tài)條件下,圖像的內(nèi)聚程度較高,而不同人臉圖像之間的耦合程度較低。因此,采用卷積神經(jīng)網(wǎng)絡(luò)將人臉映射到歐式空間的特征向量上,訓(xùn)練時(shí)基于同一個(gè)體的人臉距離總是比不同個(gè)體的人臉距離小這一先驗(yàn)知識(shí)。圖6為FaceNet人臉識(shí)別網(wǎng)絡(luò)的總體流程圖。
圖6 FaceNet人臉識(shí)別網(wǎng)絡(luò)流程圖
具體來(lái)說(shuō),本文使用經(jīng)過(guò)圖像剪裁、人臉校正的CASIA-WebFace[23]數(shù)據(jù)集預(yù)訓(xùn)練人臉識(shí)別網(wǎng)絡(luò)FaceNet,其主干網(wǎng)絡(luò)用于提取特征。原始的FaceNet使用Inception-ResNetV1作為主干特征提取網(wǎng)絡(luò),本文使用MobilenetV1網(wǎng)絡(luò),該網(wǎng)絡(luò)是Google提出的一種輕量級(jí)深層神經(jīng)網(wǎng)絡(luò),主要應(yīng)用于手機(jī)等嵌入式設(shè)備,其核心思想是深度可分離卷積塊。深度可分離卷積塊包括深度可分離卷積(通常設(shè)置為3×3)和1×1普通卷積2個(gè)部分,深度可分離卷積相比于普通的3×3卷積使用的參數(shù)量更小,主要用于特征提取,通道數(shù)的調(diào)整則依賴(lài)于1×1的普通卷積。
將通過(guò)特征提取主干網(wǎng)絡(luò)得到的特征層進(jìn)行平均池化、全連接,可以得到一個(gè)128維的特征向量。接著進(jìn)行2標(biāo)準(zhǔn)化,其作用是使得不同個(gè)體人臉的特征向量處于同一數(shù)量級(jí),便于后續(xù)的特征比對(duì)。首先需要計(jì)算2范數(shù),或稱(chēng)為歐幾里得范數(shù),即向量元素絕對(duì)值的平方之和再開(kāi)方
2標(biāo)準(zhǔn)化即將向量中的每個(gè)元素除以2范數(shù)。
FaceNet使用三重態(tài)損失(triplet loss)作為損失函數(shù),即為
其中,為待識(shí)別圖像通過(guò)網(wǎng)絡(luò)得到的128維人臉特征向量;為與待識(shí)別圖像屬于同一個(gè)體的圖像通過(guò)網(wǎng)絡(luò)得到的128維人臉特征向量;為與待識(shí)別圖像屬于不同個(gè)體的圖像通過(guò)網(wǎng)絡(luò)得到的128維人臉特征向量;為歐幾里得距離。本文希望網(wǎng)絡(luò)學(xué)習(xí)到同一個(gè)體不同圖像的人臉特征向量之間的歐幾里得距離盡可能接近,而不同個(gè)體圖像的人臉特征向量之間的歐幾里得距離盡可能遠(yuǎn)離。
但是,網(wǎng)絡(luò)在僅使用三重態(tài)損失進(jìn)行訓(xùn)練的情況下難以收斂,于是本文額外使用了交叉熵?fù)p失,表達(dá)式見(jiàn)式(11),用于輔助網(wǎng)絡(luò)收斂。二者共同構(gòu)成了人臉識(shí)別網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)。
為了從多方面對(duì)本文提出的低光照?qǐng)D像增強(qiáng)方法Low-FaceNet進(jìn)行評(píng)價(jià),在選擇數(shù)據(jù)集時(shí)考慮了數(shù)據(jù)的多樣性與質(zhì)量情況。在實(shí)驗(yàn)中,首先對(duì)語(yǔ)義分割子模塊進(jìn)行性能評(píng)價(jià),接著對(duì)任務(wù)驅(qū)動(dòng)技術(shù)的有效性進(jìn)行驗(yàn)證;之后進(jìn)行對(duì)比實(shí)驗(yàn),從可視化結(jié)果和量化指標(biāo)結(jié)果2個(gè)方面驗(yàn)證本方法的優(yōu)越性;最后進(jìn)行消融實(shí)驗(yàn),驗(yàn)證本文提出的模塊、損失函數(shù)及所使用的對(duì)比學(xué)習(xí)負(fù)樣本的有效性,并定量分析各個(gè)部件對(duì)實(shí)驗(yàn)結(jié)果的貢獻(xiàn)大小。
4.1.1 數(shù)據(jù)集
LaPa[24]是京東人工智能發(fā)布的數(shù)據(jù)集,共有22 176張彩色圖像,以及與之對(duì)應(yīng)的語(yǔ)義標(biāo)簽圖像和關(guān)鍵點(diǎn)信息。其中,訓(xùn)練集、驗(yàn)證集、測(cè)試集分別有18 176,2 000和2 000張圖像。此數(shù)據(jù)集用于訓(xùn)練語(yǔ)義分割網(wǎng)絡(luò)DeepLabV3+[25]。由于LaPa數(shù)據(jù)集中人名標(biāo)簽存在很多謬誤,需要手動(dòng)挑選改正。原始的訓(xùn)練集經(jīng)過(guò)挑選改正,并劃分訓(xùn)練集與測(cè)試集。改正后的訓(xùn)練集有4 000張,其中包含2 185組人臉圖像,有1 146組包含多張同一個(gè)體的圖像;測(cè)試集有1 789張圖像,其中包含1 313組人臉圖像,有362組包含多張同一個(gè)體的圖像。本文將挑選改正后的數(shù)據(jù)集稱(chēng)為L(zhǎng)aPa-Face,暗化處理之后用于訓(xùn)練低光照?qǐng)D像增強(qiáng)主干網(wǎng)絡(luò)。
CelebA-HQ數(shù)據(jù)集是高分辨率的人臉圖像數(shù)據(jù)集。從中挑選了360張圖像作為對(duì)比學(xué)習(xí)的正樣本,并對(duì)圖像進(jìn)行暗化處理,得到對(duì)應(yīng)的360張曝光不足的圖像作為負(fù)樣本。此外,在測(cè)試階段另外挑選1 000張圖像作為評(píng)價(jià)增強(qiáng)圖像質(zhì)量的標(biāo)準(zhǔn)圖像,經(jīng)過(guò)暗化處理之后作為測(cè)試數(shù)據(jù)集。
WIDER FACE[20]是人臉檢測(cè)的一個(gè)基準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集共計(jì)有393 703個(gè)帶標(biāo)注的人臉,32 203張圖像。其中,訓(xùn)練集有158 989個(gè)標(biāo)注人臉,驗(yàn)證集有39 496個(gè)標(biāo)注人臉,用于訓(xùn)練人臉檢測(cè)網(wǎng)絡(luò)RetinaFace[19]。
CASIA-WebFace是當(dāng)時(shí)數(shù)據(jù)量最大的公開(kāi)人臉識(shí)別數(shù)據(jù)集,總計(jì)10 575個(gè)人臉,494 414張圖像。本文使用經(jīng)過(guò)剪裁和校正之后的數(shù)據(jù)集訓(xùn)練人臉識(shí)別網(wǎng)絡(luò)FaceNet,此外,為了驗(yàn)證人臉識(shí)別任務(wù)驅(qū)動(dòng)方案的有效性,將經(jīng)過(guò)人臉剪裁和校正的數(shù)據(jù)集暗化處理后再次訓(xùn)練人臉識(shí)別網(wǎng)絡(luò)。
LFW數(shù)據(jù)集中共有13 000余張人臉圖像,其中有1 680組包含2張及以上同一個(gè)體的人臉圖像,在評(píng)價(jià)人臉識(shí)別算法的性能方面有廣闊的應(yīng)用。在本文中用于評(píng)價(jià)人臉識(shí)別的性能并測(cè)試低光照?qǐng)D像增強(qiáng)方法對(duì)于人臉識(shí)別任務(wù)準(zhǔn)確率的提升情況。
CASIA-FaceV5是由500個(gè)人組成的亞洲人臉數(shù)據(jù)集,其中每個(gè)人包含5張圖像,共計(jì)2 500張圖像。本文僅使用數(shù)據(jù)集第一部分的100個(gè)人,共500張作為測(cè)試集。
4.1.2 實(shí)驗(yàn)設(shè)置
本文在一臺(tái)配備了Intel(R) Core(TM) i7-4770 CPU (主頻3.40 GHz),16.0 GB DDR3內(nèi)存和NVIDIA GeForce GTX TITAN X的臺(tái)式計(jì)算機(jī)上進(jìn)行實(shí)驗(yàn)。將訓(xùn)練集的圖像重新調(diào)整變換成384×384大小的圖片。將訓(xùn)練過(guò)程的epoch設(shè)置為50,batch size設(shè)置為2,學(xué)習(xí)率固定設(shè)置為0.000 1,模型基于PyTorch框架實(shí)現(xiàn),使用Adam優(yōu)化器。數(shù)據(jù)集的暗化處理是通過(guò)將圖像的像素值整體下調(diào)一定的比例實(shí)現(xiàn)的。
作為本文提出的低光照?qǐng)D像增強(qiáng)網(wǎng)絡(luò)中的一個(gè)子網(wǎng)絡(luò),語(yǔ)義分割網(wǎng)絡(luò)提供的語(yǔ)義高階信息更好地引導(dǎo)了低光照?qǐng)D像增強(qiáng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程。在本節(jié)中,對(duì)語(yǔ)義分割模塊進(jìn)行定性和定量的評(píng)價(jià)。
4.2.1 可視化結(jié)果
圖7和圖8為語(yǔ)義分割網(wǎng)絡(luò)的可視化結(jié)果。由可視化結(jié)果可以看出,本文訓(xùn)練的語(yǔ)義分割網(wǎng)絡(luò)可以正確地進(jìn)行語(yǔ)義分類(lèi)。
圖7 語(yǔ)義分割預(yù)測(cè)結(jié)果示例1((a)輸入;(b)預(yù)測(cè);(c)真值)
圖8 語(yǔ)義分割預(yù)測(cè)結(jié)果示例2((a)輸入;(b)預(yù)測(cè);(c)真值)
4.2.2 量化結(jié)果
本文使用像素準(zhǔn)確率(pixel accuracy,PA)、平均像素準(zhǔn)確率(mean pixel accuracy,MPA)、平均交并比(mean intersection over union,MIoU)、加權(quán)交并比(frequency weighted intersection over union,F(xiàn)WIoU)等4項(xiàng)準(zhǔn)確率評(píng)價(jià)指標(biāo)評(píng)估所訓(xùn)練的語(yǔ)義分割網(wǎng)絡(luò)的性能。共訓(xùn)練100個(gè)epoch,在每個(gè)epoch訓(xùn)練完成后使用4項(xiàng)指標(biāo)進(jìn)行評(píng)價(jià),根據(jù)指標(biāo)數(shù)值選擇第96個(gè)epoch的結(jié)果作為最終結(jié)果。表1為語(yǔ)義分割網(wǎng)絡(luò)epoch 96的準(zhǔn)確率評(píng)價(jià)指標(biāo)結(jié)果。
為驗(yàn)證本文以人臉識(shí)別任務(wù)作為驅(qū)動(dòng)的低光照?qǐng)D像增強(qiáng)方法的有效性,特提出了如下驗(yàn)證方案:首先,使用正常光照的原始訓(xùn)練數(shù)據(jù)集訓(xùn)練人臉識(shí)別網(wǎng)絡(luò),記為FaceNet1,同樣使用正常光照的測(cè)試數(shù)據(jù)集通過(guò)此人臉識(shí)別網(wǎng)絡(luò),計(jì)算人臉識(shí)別準(zhǔn)確率,作為人臉識(shí)別準(zhǔn)確率上限;然后,使用暗化處理之后的低光照訓(xùn)練數(shù)據(jù)集訓(xùn)練人臉識(shí)別網(wǎng)絡(luò),記為FaceNet2,同樣使用暗化處理之后的低光照測(cè)試數(shù)據(jù)集通過(guò)此人臉識(shí)別網(wǎng)絡(luò),計(jì)算人臉識(shí)別準(zhǔn)確率,作為人臉識(shí)別準(zhǔn)確率下限;之后,使用不同的增強(qiáng)方法對(duì)低光照數(shù)據(jù)集進(jìn)行增強(qiáng),將增強(qiáng)結(jié)果通過(guò)FaceNet1(因?yàn)榇藭r(shí)是接近于正常光照的圖像),計(jì)算人臉識(shí)別準(zhǔn)確率。若此時(shí)得到的人臉識(shí)別準(zhǔn)確介于人臉識(shí)別準(zhǔn)確率上、下限之間,就能夠說(shuō)明本方案的有效性。
表1 語(yǔ)義分割準(zhǔn)確率評(píng)價(jià)指標(biāo)結(jié)果
本文分別在3個(gè)測(cè)試數(shù)據(jù)集上進(jìn)行了人臉識(shí)別準(zhǔn)確率的測(cè)試,分別為L(zhǎng)aPa-Face數(shù)據(jù)集的測(cè)試部分、CASIA-FaceV5 (僅使用第一部分的500張圖像)以及LFW數(shù)據(jù)集(下同)。為敘述方便,將亮訓(xùn)練、亮測(cè)試(上限)的情況標(biāo)記為up,將暗訓(xùn)練、暗測(cè)試(下限)的情況標(biāo)記為low,得到的人臉識(shí)別準(zhǔn)確率對(duì)比結(jié)果見(jiàn)表2。
表2 任務(wù)驅(qū)動(dòng)方案有效性驗(yàn)證實(shí)驗(yàn)結(jié)果(%)
由表2可知,本文方法對(duì)輸入的低光照?qǐng)D像進(jìn)行增強(qiáng)后,再通過(guò)人臉識(shí)別網(wǎng)絡(luò)FaceNet1計(jì)算的人臉識(shí)別準(zhǔn)確率介于上文所述的準(zhǔn)確率上、下限之間,并且與準(zhǔn)確率上限之間的差距較小,可說(shuō)明本文提出的以人臉識(shí)別任務(wù)驅(qū)動(dòng)方案的有效性。
4.4.1 可視化結(jié)果
據(jù)本文調(diào)研,現(xiàn)有的低光照?qǐng)D像增強(qiáng)方法大都基于自然場(chǎng)景圖像的增強(qiáng),不能直接將這些方法應(yīng)用于人臉數(shù)據(jù)集,進(jìn)行對(duì)比實(shí)驗(yàn)時(shí),需要將每種方法通過(guò)本文提出的人臉數(shù)據(jù)集LaPa-Face重新訓(xùn)練后再進(jìn)行比較。本文選取Zero-DCE[13]方法、RUAS[26]方法與本方法進(jìn)行比較。Zero-DCE方法是基于深度卷積神經(jīng)網(wǎng)絡(luò)的方法,與本文方法使用相同的低光照?qǐng)D像增強(qiáng)主干網(wǎng)絡(luò);RUAS方法則是將傳統(tǒng)的Retinex方法與深度學(xué)習(xí)相結(jié)合的典型方法。圖9和圖10為對(duì)比實(shí)驗(yàn)的可視化結(jié)果。
圖9 對(duì)比實(shí)驗(yàn)可視化結(jié)果對(duì)比示例1
圖10 對(duì)比實(shí)驗(yàn)可視化結(jié)果對(duì)比示例2
由以上可視化結(jié)果對(duì)比可以看出,Zero-DCE方法丟失了許多細(xì)節(jié)信息,并且存在曝光過(guò)度問(wèn)題;RUAS方法雖然能較好地保持圖像的色彩與細(xì)節(jié),但存在局部曝光的問(wèn)題(如面部),不利于人臉識(shí)別系統(tǒng)的面部識(shí)別;而本文方法在增強(qiáng)圖像的同時(shí)能夠保持圖像中各種尺度的細(xì)節(jié)信息。
4.4.2 人臉識(shí)別準(zhǔn)確率對(duì)比
表3為對(duì)比實(shí)驗(yàn)的人臉識(shí)別準(zhǔn)確率結(jié)果。
表3 對(duì)比實(shí)驗(yàn)人臉識(shí)別準(zhǔn)確率對(duì)比(%)
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
由表3可知,本文方法在3個(gè)測(cè)試數(shù)據(jù)集上的人臉識(shí)別準(zhǔn)確率基本優(yōu)于其他方法。其中RUAS在CASIA-FaceV5上的準(zhǔn)確率略高于本文方法,經(jīng)過(guò)分析,其原因在于此數(shù)據(jù)集的平均亮度處于較低的水平,而RUAS方法使得一般的增強(qiáng)圖像出現(xiàn)曝光過(guò)度問(wèn)題,導(dǎo)致此數(shù)據(jù)集的增強(qiáng)結(jié)果較為合適,從而人臉識(shí)別的準(zhǔn)確率較高。
4.4.3 圖像質(zhì)量評(píng)價(jià)指標(biāo)對(duì)比
除了人臉識(shí)別準(zhǔn)確率的對(duì)比,本文同樣關(guān)注增強(qiáng)圖像的質(zhì)量。圖像質(zhì)量評(píng)價(jià)指標(biāo)有全參考與無(wú)參考之分,全參考評(píng)價(jià)需要使用與待評(píng)價(jià)圖像對(duì)應(yīng)的標(biāo)準(zhǔn)圖像作為參考,而無(wú)參考意為僅根據(jù)待評(píng)價(jià)圖像自身的信息進(jìn)行評(píng)價(jià)。本文使用全參考圖像質(zhì)量評(píng)價(jià)指標(biāo)峰值信噪比(peak signal to noise ratio,PSNR)與結(jié)構(gòu)相似性(structural similarity index,SSIM),以及無(wú)參考圖像質(zhì)量評(píng)價(jià)指標(biāo)統(tǒng)一無(wú)參考圖像質(zhì)量和不確定性評(píng)估器(unified no-reference image quality and uncertainty evaluator,UNIQUE)來(lái)評(píng)價(jià)增強(qiáng)圖像的質(zhì)量。在高分辨率的CelebA-HQ數(shù)據(jù)集上選取1 000張圖像作為測(cè)試集進(jìn)行測(cè)試(下同),得到的圖像質(zhì)量指標(biāo)對(duì)比情況見(jiàn)表4。
表4 對(duì)比實(shí)驗(yàn)圖像質(zhì)量評(píng)價(jià)指標(biāo)對(duì)比
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
由表4可知,本文方法在3個(gè)圖像質(zhì)量評(píng)價(jià)指標(biāo)上的表現(xiàn)均明顯優(yōu)于其他方法。本文提出的低光照?qǐng)D像增強(qiáng)方法能夠在增強(qiáng)圖像的同時(shí)保持圖像各種尺度的特征,使得增強(qiáng)圖像的質(zhì)量更佳。
4.4.4 模型泛化性驗(yàn)證實(shí)驗(yàn)
為探究本文采用的數(shù)據(jù)集暗化處理方式是否存在局限性,導(dǎo)致在該數(shù)據(jù)集下訓(xùn)練的模型泛化能力差,本文重新采用Gamma校正方式對(duì)測(cè)試集圖像進(jìn)行暗化處理,并使用在原數(shù)據(jù)集下訓(xùn)練的模型對(duì)其進(jìn)行增強(qiáng)處理,結(jié)果如圖11和圖12所示。
圖11 Gamma校正方式可視化結(jié)果對(duì)比示例1
由圖11和圖12可見(jiàn),更換不同的暗化處理方式后,在不重新訓(xùn)練模型的情況下,本文方法仍然可以較好地進(jìn)行亮度增強(qiáng),相比于其他方法,更優(yōu)地保留了圖像細(xì)節(jié)的顏色和結(jié)構(gòu)特性。
此外,為進(jìn)一步驗(yàn)證本文方法在真實(shí)暗光場(chǎng)景下的泛化性,選取了2張真實(shí)世界暗光圖像并通過(guò)不同方法對(duì)其進(jìn)行增強(qiáng)處理。圖13和圖14為真實(shí)暗光圖像的增強(qiáng)可視化對(duì)比結(jié)果,圖像均采集于網(wǎng)絡(luò)??梢?jiàn),本文方法在處理真實(shí)場(chǎng)景圖像時(shí)依然可以得到高質(zhì)量的增強(qiáng)圖像,色彩和保真度明顯優(yōu)于其他方法。而使用Zero-DCE方法增強(qiáng)后的圖像出現(xiàn)了明顯的細(xì)節(jié)模糊問(wèn)題,RUAS方法出現(xiàn)了局部曝光不均勻問(wèn)題。本實(shí)驗(yàn)充分驗(yàn)證了本文方法可以有效地應(yīng)對(duì)真實(shí)世界的暗光場(chǎng)景,具有較好的泛化能力。
圖12 Gamma校正方式可視化結(jié)果對(duì)比示例2
圖13 真實(shí)暗光場(chǎng)景可視化結(jié)果對(duì)比示例1
圖14 真實(shí)暗光場(chǎng)景可視化結(jié)果對(duì)比示例2
為了驗(yàn)證本文提出任務(wù)驅(qū)動(dòng)型低光照?qǐng)D像增強(qiáng)網(wǎng)絡(luò)框架中各個(gè)部件的有效性,還進(jìn)行對(duì)比學(xué)習(xí)模塊(標(biāo)記為NoM)、語(yǔ)義分割模塊(標(biāo)記為NoM)的模塊消融性分析,并進(jìn)行特征保留損失(標(biāo)記為NoL)、人臉識(shí)別損失(標(biāo)記為Noface)的損失函數(shù)消融性分析,定量分析各個(gè)模塊與損失函數(shù)的貢獻(xiàn)大小。此外,為探究對(duì)比學(xué)習(xí)負(fù)樣本的有效性,采用無(wú)負(fù)樣本訓(xùn)練(標(biāo)記為NoS)與原始結(jié)果對(duì)比驗(yàn)證。實(shí)驗(yàn)結(jié)果從視覺(jué)效果與量化分析兩個(gè)方面進(jìn)行對(duì)比分析。
4.5.1 可視化結(jié)果
圖15和圖16為使用本文方法與去掉模塊/損失函數(shù)的方法對(duì)圖像進(jìn)行增強(qiáng)的可視化結(jié)果對(duì)比情況。圖17為使用本文方法與去掉對(duì)比學(xué)習(xí)負(fù)樣本的方法進(jìn)行可視化結(jié)果對(duì)比示例。
圖15 模塊/損失函數(shù)消融實(shí)驗(yàn)可視化結(jié)果對(duì)比示例1
圖16 模塊/損失函數(shù)消融實(shí)驗(yàn)可視化結(jié)果對(duì)比示例2
圖17 負(fù)樣本消融實(shí)驗(yàn)可視化結(jié)果對(duì)比示例
由圖15和圖16中可視化結(jié)果對(duì)比可以看出:NoM去掉對(duì)比學(xué)習(xí)模塊之后增強(qiáng)結(jié)果仍然很暗,說(shuō)明基于對(duì)比學(xué)習(xí)進(jìn)行亮度恢復(fù)的有效性;NoM去掉語(yǔ)義分割模塊之后增強(qiáng)圖像中出現(xiàn)了局部區(qū)域曝光過(guò)度的現(xiàn)象,說(shuō)明引入語(yǔ)義信息對(duì)于保證圖像中相同語(yǔ)義類(lèi)別下的亮度一致的有效性;NoL去掉特征保持損失之后增強(qiáng)圖像中丟失部分細(xì)節(jié)信息,部分區(qū)域呈現(xiàn)藍(lán)色,說(shuō)明特征保持損失對(duì)于保留圖像細(xì)節(jié)特征的有效性;Noface去掉人臉識(shí)別損失與Ours的方法對(duì)圖像進(jìn)行增強(qiáng)的結(jié)果相差不大,但其能夠有效地提升人臉識(shí)別的準(zhǔn)確率,且對(duì)于人臉圖像的增強(qiáng)質(zhì)量有一定程度的促進(jìn)作用。由圖17(b)與(c)可視化結(jié)果對(duì)比可以看出:去除對(duì)比學(xué)習(xí)負(fù)樣本之后的訓(xùn)練結(jié)果難以正確恢復(fù)圖像亮度,增強(qiáng)圖像的整體亮度仍處于較低的水平。
4.5.2 人臉識(shí)別準(zhǔn)確率對(duì)比
表5為消融實(shí)驗(yàn)的人臉識(shí)別準(zhǔn)確率對(duì)比情況。
表5 消融實(shí)驗(yàn)人臉識(shí)別準(zhǔn)確率對(duì)比(%)
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
由表5可知,本文提出的2個(gè)模塊、2項(xiàng)損失函數(shù)與采用的對(duì)比學(xué)習(xí)負(fù)樣本對(duì)于人臉識(shí)別準(zhǔn)確率的提升起到了不同程度的促進(jìn)作用。其中M,M,L和S用于亮度增強(qiáng)、曝光度控制與細(xì)節(jié)的保持和恢復(fù),通過(guò)增強(qiáng)圖像來(lái)提升人臉識(shí)別的性能,而face是通過(guò)任務(wù)驅(qū)動(dòng)技術(shù),直觀地從網(wǎng)絡(luò)中學(xué)習(xí)提升人臉識(shí)別準(zhǔn)確率的信息,從而進(jìn)一步提高了準(zhǔn)確率。
4.5.3 增強(qiáng)圖像質(zhì)量評(píng)價(jià)指標(biāo)對(duì)比
表6為消融實(shí)驗(yàn)的增強(qiáng)圖像質(zhì)量評(píng)價(jià)指標(biāo)對(duì)比情況。
由表6可知,本文方法在全參考圖像質(zhì)量評(píng)價(jià)指標(biāo)PSNR與SSIM均優(yōu)于其他方法,框架中的各個(gè)模塊與損失函數(shù)都對(duì)結(jié)果起到了不同程度的促進(jìn)作用。本方法的UNIQUE指標(biāo)略遜于不加入人臉識(shí)別損失的增強(qiáng)方法,但需要注意的是本文更關(guān)注人臉識(shí)別應(yīng)用的性能,圖像質(zhì)量評(píng)價(jià)只是輔助評(píng)價(jià)方法。
表6 消融實(shí)驗(yàn)圖像質(zhì)量評(píng)價(jià)指標(biāo)對(duì)比
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
本文針對(duì)低光照?qǐng)D像增強(qiáng)與人臉識(shí)別應(yīng)用提出了一個(gè)新穎的非成對(duì)低光照?qǐng)D像增強(qiáng)算法,設(shè)計(jì)了以人臉識(shí)別任務(wù)為驅(qū)動(dòng)的低光照?qǐng)D像增強(qiáng)網(wǎng)絡(luò)Low-FaceNet。Low-FaceNet由4個(gè)子網(wǎng)絡(luò)構(gòu)成,其中主干網(wǎng)絡(luò)是圖像增強(qiáng)網(wǎng)絡(luò),3個(gè)子網(wǎng)絡(luò)分別為特征提取網(wǎng)絡(luò)、語(yǔ)義分割網(wǎng)絡(luò)和人臉識(shí)別網(wǎng)絡(luò)。為解決低光照?qǐng)D像增強(qiáng)領(lǐng)域中難以獲取大規(guī)模的低光照?qǐng)D像與其對(duì)應(yīng)的正常光照?qǐng)D像,本文采用了對(duì)比學(xué)習(xí)技術(shù)直接從真實(shí)世界的正常光照/低正常圖像構(gòu)建正/負(fù)樣本,為網(wǎng)絡(luò)訓(xùn)練提供額外的監(jiān)督信息。此外,通過(guò)特征保持損失、語(yǔ)義亮度一致性損失和人臉識(shí)別損失來(lái)共同約束圖像增強(qiáng)網(wǎng)絡(luò)的訓(xùn)練。為了讓子網(wǎng)絡(luò)能有效地服務(wù)于圖像增強(qiáng)網(wǎng)絡(luò)的訓(xùn)練,本文先采用預(yù)訓(xùn)練的方式分別訓(xùn)練人臉識(shí)別網(wǎng)絡(luò)和語(yǔ)義分割網(wǎng)絡(luò),然后固定其權(quán)重以端到端的方式訓(xùn)練圖像增強(qiáng)網(wǎng)絡(luò),訓(xùn)練過(guò)程中僅更新主干網(wǎng)絡(luò)的參數(shù)。
視覺(jué)和定量結(jié)果均表明,本文方法相較于其他圖像增強(qiáng)方法,得到的增強(qiáng)圖像質(zhì)量更好,能夠保留圖像中不同尺度的細(xì)節(jié)特征。此外,本文以人臉識(shí)別任務(wù)為驅(qū)動(dòng)的方案能夠有效地提升低光照條件下人臉識(shí)別的準(zhǔn)確率。
本文方法的局限性主要表現(xiàn)在:當(dāng)使用小規(guī)模數(shù)據(jù)集對(duì)網(wǎng)絡(luò)訓(xùn)練時(shí),通常不能取得較好的增強(qiáng)效果,這是因?yàn)閷?duì)比學(xué)習(xí)范式通常需要大量的樣本對(duì)才能獲得良好的性能。此外,當(dāng)前訓(xùn)練所使用的數(shù)據(jù)集圖像質(zhì)量欠佳,可能會(huì)對(duì)模型的性能產(chǎn)生一定的影響。在后續(xù)工作中,考慮構(gòu)建一套真實(shí)場(chǎng)景下的高質(zhì)量人臉識(shí)別數(shù)據(jù)集來(lái)解決這一問(wèn)題,并進(jìn)一步探索本文所提出的學(xué)習(xí)方案在其他無(wú)監(jiān)督低階視覺(jué)任務(wù)中的潛力。
[1] 王坤. 基于卷積神經(jīng)網(wǎng)絡(luò)的低光照?qǐng)D像增強(qiáng)算法研究[D]. 贛州: 江西理工大學(xué), 2020.
WANG K. Research on low light image enhancement algorithm based on convolutional neural network[D]. Ganzhou: Jiangxi University of Science and Technology, 2020 (in Chinese).
[2] PIZER S M, JOHNSTON R E, ERICKSEN J P, et al. Contrast-limited adaptive histogram equalization: speed and effectiveness[C]//The 1st Conference on Visualization in Biomedical Computing. New York: IEEE Press, 1990: 337-345.
[3] LAND E H. The retinex theory of color vision[J]. Scientific American, 1977, 237(6): 108-128.
[4] GUO X J, LI Y, LING H B. LIME: low-light image enhancement via illumination map estimation[J]. IEEE Transactions on Image Processing, 2017, 26(2): 982-993.
[5] LORE K G, AKINTAYO A, SARKAR S. LLNet: a deep autoencoder approach to natural low-light image enhancement[J]. Pattern Recognition, 2017, 61: 650-662.
[6] LV F F, LU F, WU J H, et al. MBLLEN: low-light image/video enhancement using CNNs[C]//The 29th British Machine Vision Conference. Durham: The British Machine Vision Association and Society for Pattern Recognition Press, 2018: 4.
[7] ZHU M F, PAN P B, CHEN W, et al. EEMEFN: low-light image enhancement via edge-enhanced multi-exposure fusion network[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 13106-13113.
[8] WEI C, WANG W J, YANG W H, et al. Deep retinex decomposition for low-light enhancement[EB/OL]. (2018-06-08) [2022-05-07]. https://arxiv.org/abs/1808.04560.
[9] FAN M H, WANG W J, YANG W H, et al. Integrating semantic segmentation and retinex model for low-light image enhancement[C]//The 28th ACM International Conference on Multimedia. New York: ACM Press, 2020: 2317-2325.
[10] CHEN C, CHEN Q F, XU J, et al. Learning to see in the dark[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 3291-3300.
[11] CAI J R, GU S H, ZHANG L. Learning a deep single image contrast enhancer from multi-exposure images[J]. IEEE Transactions on Image Processing, 2018, 27(4): 2049-2062.
[12] JIANG Y F, GONG X Y, LIU D, et al. EnlightenGAN: deep light enhancement without paired supervision[J]. IEEE Transactions on Image Processing, 2021, 30: 2340-2349.
[13] GUO C L, LI C Y, GUO J C, et al. Zero-reference deep curve estimation for low-light image enhancement[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 1777-1786.
[14] YANG W H, WANG S Q, FANG Y M, et al. From fidelity to perceptual quality: a semi-supervised approach for low-light image enhancement[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 3060-3069.
[15] LEE Y, JEON J, KO Y, et al. Task-driven deep image enhancement network for autonomous driving in bad weather[C]//2021 IEEE International Conference on Robotics and Automation. New York: IEEE Press, 2021: 13746-13753.
[16] LI W B, YANG X S, KONG M H, et al. Triplet is All You Need with Random Mappings for Unsupervised Visual Representation Learning[EB/OL]. (2021-06-08) [2022-04-20]. https://arxiv.org/abs/2107.10419.
[17] BUCHSBAUM G. A spatial processor model for object colour perception[J]. Journal of the Franklin Institute, 1980, 310(1): 1-26.
[18] 孫哲南, 赫然, 王亮, 等. 生物特征識(shí)別學(xué)科發(fā)展報(bào)告[J]. 中國(guó)圖象圖形學(xué)報(bào), 2021, 26(6): 1254-1329.
SUN Z N, HE R, WANG L, et al. Overview of biometrics research[J]. Journal of Image and Graphics, 2021, 26(6): 1254-1329 (in Chinese).
[19] DENG J K, GUO J, VERVERAS E, et al. RetinaFace: single-shot multi-level face localisation in the wild[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 5202-5211.
[20] YANG S, LUO P, LOY C C, et al. WIDER FACE: a face detection benchmark[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press,2016: 5525-5533.
[21] 牛作東, 覃濤, 李捍東, 等. 改進(jìn)RetinaFace的自然場(chǎng)景口罩佩戴檢測(cè)算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2020, 56(12): 1-7.
NIU Z D, QIN T, LI H D, et al. Improved algorithm of RetinaFace for natural scene mask wear detection[J]. Computer Engineering and Applications, 2020, 56(12): 1-7 (in Chinese).
[22] SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: a unified embedding for face recognition and clustering[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 815-823.
[23] YI D, LEI Z, LIAO S C, et al. Learning face representation from scratch[EB/OL]. (2014-06-08) [2022-06-19]. https://arxiv. org/abs/1411.7923.
[24] LIU Y L, SHI H L, SHEN H, et al. A new dataset and boundary-attention semantic segmentation for face parsing[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 11637-11644.
[25] CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder- decoder with atrous separable convolution for semantic image segmentation[EB/OL]. (2018-06-08) [2022-05-19]. https:// arxiv.org/abs/1802.02611.
[26] LIU R S, MA L, ZHANG J A, et al. Retinex-inspired unrolling with cooperative prior architecture search for low-light image enhancement[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 10556-10565.
Face recognition-driven low-light image enhancement
FAN Yi-hua1, WANG Yong-zhen1, YAN Xue-feng1, GONG Li-na1, GUO Yan-wen2, WEI Ming-qiang1
(1. Institute of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing Jiangsu 210016, China; 2. State Key Laboratory of New Computer Software Technology, Nanjing University, Nanjing Jiangsu 210023, China)
Images are susceptible to external lighting conditions or camera parameters, resulting in overall darkness and poor visualization, which can degrade the performance of downstream vision tasks and thus lead to security issues. In this paper, a contrastive learning-based unpaired low-light image enhancement method termed Low-FaceNet was proposed for face recognition tasks. The backbone of Low-FaceNet was in the form of an image enhancement network based on the U-Net structure, introducing three sub-networks, i.e., feature retention network, semantic segmentation network, and face recognition network, thereby assisting the training of the image enhancement network. The contrastive learning paradigm enabled a large number of real-world unpaired low-light and normal-light images to be used as negative/positive samples, improving the generalization ability of the proposed model in the wild scenarios. The incorporation of high-level semantic information could guide the low-level image enhancement network to enhance images with higher quality. In addition, the task-driven approach made it possible to enhance images and improve the accuracy of face recognition simultaneously. Validated on several publicly available datasets, both visualization and quantification results show that Low-FaceNet can effectively improve the accuracy of face recognition under low-light conditions by enhancing the brightness of images while maintaining various detailed features of the images.
low-light image enhancement; face recognition; contrastive learning; task-driven; semantic segmentation
TP 391
10.11996/JG.j.2095-302X.2022061170
A
2095-302X(2022)06-1170-12
2022-07-29;
:2022-10-10
國(guó)家自然科學(xué)基金項(xiàng)目(62172218,62032011)
范溢華(2000-),女,碩士研究生。主要研究方向?yàn)樽匀粓D像處理。E-mail:fanyihua@nuaa.edu.cn
魏明強(qiáng)(1985-),男,教授,博士。主要研究方向?yàn)橛?jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺(jué)等。E-mail:mingqiang.wei@gmail.com
29 July,2022;
10 October,2022
National Natural Science Foundation of China (62172218, 62032011)
FAN Yi-hua (2000-), master student. Her main research interest covers natural image processing. E-mail:fanyihua@nuaa.edu.cn
WEI Ming-qiang (1985-), professor, Ph.D. His main research interests cover computer graphics, computer vision. E-mail:mingqiang.wei@gmail.com