黃子蒙,陳躍鵬
(1.武漢科技大學(xué)信息科學(xué)與工程學(xué)院,湖北 武漢 430081;2.武漢理工大學(xué)自動(dòng)化學(xué)院,湖北 武漢 430070)
可見(jiàn)度高的圖像能夠呈現(xiàn)出目標(biāo)場(chǎng)景的清晰細(xì)節(jié),這對(duì)于基于視覺(jué)的自動(dòng)駕駛技術(shù)來(lái)說(shuō)是必不可少的,如車(chē)輛檢測(cè)[1],車(chē)道識(shí)別[2]等。然而,通常在低光條件下拍攝的圖像可見(jiàn)度很差,其實(shí)際應(yīng)用價(jià)值受到限制。目前,國(guó)內(nèi)外學(xué)者已經(jīng)提出了許多圖像增強(qiáng)技術(shù)來(lái)增強(qiáng)低光照?qǐng)D像,包括基于直方圖的方法[3-7],基于非線性單調(diào)函數(shù)的方法[8-9],灰度映射和基于濾波的方法[10-12],基于Retinex理論的方法[13-15]和基于去霧的方法[16-17]。雖然現(xiàn)有的方法能夠取得不錯(cuò)的效果,但由于忽略或錯(cuò)置非線性相機(jī)響應(yīng)函數(shù)(Camera Response Function,CRF),可能導(dǎo)致圖像增強(qiáng)過(guò)度或增強(qiáng)不足。
Ren等人介紹了新相機(jī)響應(yīng)特性的增強(qiáng)框架[18],通過(guò)估計(jì)圖像的亮度成分獲得最佳曝光率,然后根據(jù)相機(jī)響應(yīng)功能模型獲得中等曝光增強(qiáng)效果。但是,與使用估計(jì)精確的三通道響應(yīng)曲線相比,其方法中使用的固定攝像機(jī)響應(yīng)曲線仍會(huì)產(chǎn)生增強(qiáng)圖像的失真。近年來(lái),深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了巨大成功[19-21]。與傳統(tǒng)算法相比,深度學(xué)習(xí)方法具有較強(qiáng)的自適應(yīng)能力,可以通過(guò)優(yōu)化策略獲得更強(qiáng)大的模型。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像恢復(fù)和增強(qiáng)應(yīng)用中已經(jīng)證明了其有效性。例如,Li等人訓(xùn)練了深度卷積神經(jīng)網(wǎng)絡(luò)(LightenNet)來(lái)執(zhí)行低光圖像增強(qiáng)任務(wù)[19]。Guan等人試圖通過(guò)小波深度神經(jīng)網(wǎng)絡(luò)去除圖像中的條紋噪聲[20]。在這些應(yīng)用中,可以輕松生成與低質(zhì)量圖像相對(duì)應(yīng)的高質(zhì)量圖像。使用這些成對(duì)的訓(xùn)練數(shù)據(jù),CNN可以用來(lái)學(xué)習(xí)低質(zhì)量圖像與其相應(yīng)的高質(zhì)量參考圖像之間的映射函數(shù)。然而,對(duì)于移動(dòng)設(shè)備來(lái)說(shuō),卷積神經(jīng)網(wǎng)絡(luò)技術(shù)由于其計(jì)算復(fù)雜性和模型較大而難以部署。
針對(duì)以上問(wèn)題,本文提出了一種新的融合相機(jī)響應(yīng)模型與深度學(xué)習(xí)的低光照?qǐng)D像增強(qiáng)方法,通過(guò)采用相機(jī)響應(yīng)模型方法生成的數(shù)據(jù)集訓(xùn)練一個(gè)專(zhuān)門(mén)設(shè)計(jì)的深度學(xué)習(xí)網(wǎng)絡(luò)用于對(duì)低光照?qǐng)D像細(xì)節(jié)的進(jìn)一步增強(qiáng),并且通過(guò)實(shí)驗(yàn)驗(yàn)證該方法的有效性。
本文提出的融合非線性相機(jī)響應(yīng)函數(shù)模型的深度方法,基本思路是:a)基于相機(jī)響應(yīng)函數(shù)模型,根據(jù)輸入圖像估計(jì)最佳曝光率,對(duì)曝光不足的區(qū)域做增強(qiáng)曝光處理,生成增強(qiáng)曝光的中間圖像;b)設(shè)計(jì)一種輕量級(jí)反向殘差卷積神經(jīng)網(wǎng)絡(luò) (Lightweight Reverse Residual Convolutional Neural Network,LRNet)來(lái)預(yù)測(cè)中間圖像與參考圖像之間的殘差;c)在網(wǎng)絡(luò)的最后階段,將丟失細(xì)節(jié)信息的輸入圖像與預(yù)測(cè)的殘差圖像進(jìn)行融合得到最終的增強(qiáng)圖像。
整個(gè)方法的流程圖如圖1所示。首先,中間圖像采用基于相機(jī)響應(yīng)模型的方法來(lái)生成。隨后,提出了一種LRNet,它可以直接學(xué)習(xí)中間圖像與參考圖像之間的殘差映射,以恢復(fù)中間圖像的細(xì)節(jié)。
圖1 本文方法流程圖
圖像的成像過(guò)程可用相機(jī)響應(yīng)模型來(lái)解釋?zhuān)鄼C(jī)響應(yīng)函數(shù)(CRF)可用做描述相機(jī)響應(yīng)模型,該模型刻畫(huà)了相機(jī)的曝光量E和圖像亮度值P之間的非線性關(guān)系[22],其定義為:
P=f(E)
(1)
式中f為相機(jī)響應(yīng)函數(shù)。
設(shè)P和P¢分別是在同一場(chǎng)景下不同曝光量E和E¢拍攝的圖像,且E¢=kE,其中k為曝光比。P和P¢的關(guān)系可表示為:
P′=g(P,k)
式中g(shù)為亮度映射函數(shù)(Brightness Mapping Function,BMF),它刻畫(huà)同一場(chǎng)景下不同曝光的圖像之間的亮度非線性映射關(guān)系[23]。由式(1)可得,
P=f(E),P′=f(E′)=f(kE)
因此,CRF與BMF之間的轉(zhuǎn)換關(guān)系可以表示為:
g(f(E),k)=f(kE)
于是,相機(jī)響應(yīng)模型也可以用BMF來(lái)表達(dá)。當(dāng)BMF已知時(shí),通過(guò)對(duì)圖像P設(shè)置不同的曝光比k來(lái)生成不同曝光的圖像P′,從而起到改變圖像像素曝光值的效果。
為了實(shí)現(xiàn)更好的增強(qiáng)效果需要找到最佳曝光比,利用式(2)獲到僅包含曝光不足的像素灰度值集合:
Q={I(x)|T(x)<τ1}
(2)
式中T(x)為I(x)的光照分量圖,τ1為區(qū)分曝光不足像素的灰度閾值。于是,曝光不足的像素點(diǎn)信息熵為:
H(Q)=-∑ipilog2pi
式中pi代表Q中每個(gè)灰度等級(jí)i出現(xiàn)的概率。這樣,由圖像信息熵最大化原則就可以求解最佳曝光率:
從而得到更加優(yōu)化的增強(qiáng)曝光中間圖像:
P¢=g(P,k)=eb(1-ka)Pka
(3)
對(duì)于給定的相機(jī),其BMF是固定的,參數(shù)也是固定的。本文使用文獻(xiàn)[18]中的參數(shù)a=-0.329 3,b=1.125 8,給定一幅輸入圖像,可以得到更加優(yōu)化的增強(qiáng)曝光中間圖像。
通過(guò)輕量化網(wǎng)絡(luò)恢復(fù)中間圖像信息的方法如圖2所示。設(shè)P為待處理的低光照?qǐng)D像,P′為生成的中間圖像,它可以用式(3)來(lái)表示。
圖2 輕量化網(wǎng)絡(luò)恢復(fù)中間圖像細(xì)節(jié)
設(shè)y是圖像P的參考圖像,可以表示為
y=yl+yh
式中yl和yh分別是參考圖像中的低頻分量和高頻分量?;谏疃葘W(xué)習(xí)方法通常使用端到端的方法來(lái)表示y。在此過(guò)程中,神經(jīng)網(wǎng)絡(luò)必須保留所有輸入圖像的詳細(xì)信息,這對(duì)于許多權(quán)重層來(lái)說(shuō),需要長(zhǎng)期儲(chǔ)存的端到端關(guān)系,容易出現(xiàn)梯度消失/爆炸的問(wèn)題[24]。本文通過(guò)殘差學(xué)習(xí)來(lái)解決該問(wèn)題。設(shè)y的初始圖像表現(xiàn)形式為F(P),它可以被視為已知的信息。設(shè)(y-F(P))為y′,即y的未知信息。則:
本文采用的LRNet如圖3所示,具有三種不同顏色的類(lèi)型模塊,分別描述如下:
圖3 輕量級(jí)反向殘差卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
(1)卷積層模塊:(帶有標(biāo)準(zhǔn)化層和PReLU)采用了32個(gè)3×3的卷積核(stride 1,pad 1);
(2)線性瓶頸模塊:又由三個(gè)卷積層構(gòu)成,第一卷積層(帶有標(biāo)準(zhǔn)化層和PReLU)采用64個(gè)1×1的卷積核,第二卷積層(帶有標(biāo)準(zhǔn)化層和PReLU)采用32個(gè)3×3的卷積核(stride 1,pad 1),第三卷積層(帶有標(biāo)準(zhǔn)化層)采用32個(gè)1×1的卷積核;
(3)反向殘差模塊:在線性瓶頸模塊的基礎(chǔ)上增加了捷徑。插入捷徑方式的動(dòng)機(jī)與經(jīng)典殘差連接的動(dòng)機(jī)類(lèi)似:希望提高梯度在乘數(shù)層之間傳播的能力[25]。反向殘差模塊有兩個(gè)優(yōu)點(diǎn):(1)重用特征以緩解特征退化;(2)減少計(jì)算量和參數(shù)數(shù)量。這樣處理不僅可以加快網(wǎng)絡(luò)的收斂速度,還可以減少訓(xùn)練樣本的數(shù)量。由于池化在尺寸縮減過(guò)程中可能會(huì)丟失圖像信息,因此不會(huì)在網(wǎng)絡(luò)中使用。
在本節(jié)中,通過(guò)構(gòu)建道路圖像數(shù)據(jù)集,并使用Caffe來(lái)訓(xùn)練LRNet。為了評(píng)估本文方法優(yōu)勢(shì),先后通過(guò)對(duì)自制數(shù)據(jù)集和公共數(shù)據(jù)集SICE[26]進(jìn)行訓(xùn)練,并將訓(xùn)練結(jié)果與五種現(xiàn)有的低光照?qǐng)D像增強(qiáng)方法進(jìn)行了比較。
本文自制數(shù)據(jù)集的圖像包含500個(gè)在真實(shí)場(chǎng)景中捕獲的低曝光/中曝光圖像對(duì),其中部分如圖4所示:第一行為低光照?qǐng)D像,第二行為參考圖像。為了避免受到其他因素干擾,只更改曝光時(shí)間,同時(shí)固定相機(jī)的其他配置。在室外環(huán)境中,拍攝移動(dòng)物體(如行人、車(chē)輛和搖曳的樹(shù)木)很難獲得一個(gè)對(duì)齊良好的序列。因此需要通過(guò)使用三腳架防止相機(jī)抖動(dòng),并使用連續(xù)包圍模式自動(dòng)捕獲一系列曝光圖像,以確保只改變曝光。本文通過(guò)數(shù)據(jù)集中圖像的多樣化,包括街道、道路標(biāo)識(shí)、建筑等場(chǎng)景,來(lái)表明LRNet方法的魯棒性。最后,本文隨機(jī)將數(shù)據(jù)集中的圖像分為兩個(gè)子集:460個(gè)圖像用于訓(xùn)練,其余的圖像用于測(cè)試。
圖4 部分自制數(shù)據(jù)集
將本文的方法與五種現(xiàn)有的低光照增強(qiáng)方法,如:LIME[16]、NPE[27]、Dong[17]、LECARM[18]和 RetinexNet[28]進(jìn)行比較。如圖5所示,LIME方法處理后的圖像非常明亮,許多明亮的區(qū)域已經(jīng)飽和。NPE方法處理后的圖像在亮度較高區(qū)域產(chǎn)生了較為嚴(yán)重的失真。Dong方法處理后的圖像有很多夸張的邊緣,使圖像看起來(lái)像一幅藝術(shù)畫(huà)。LECARM處理后的圖像增強(qiáng)效果不明顯,圖像亮度整體偏暗。而RetinexNet處理后的圖像失真比較嚴(yán)重,出現(xiàn)了偏色和偽影的問(wèn)題。本文方法處理后的圖像整體亮度較為均衡,在恢復(fù)出道路標(biāo)線的同時(shí),也保證了道路兩旁的物體沒(méi)有過(guò)度增強(qiáng),看起來(lái)比較自然,有利于人眼的視覺(jué)觀察。
圖5 不同方法的增強(qiáng)結(jié)果對(duì)比
定量比較使用常用的四個(gè)指標(biāo):SSIM和PSNR進(jìn)行定量評(píng)估,NIQE用于評(píng)估自然保存,LOE用于評(píng)估亮度失真。SSIM和PSNR越高,增強(qiáng)的圖像與參考圖像越接近,NIQE和LOE值越低,圖像質(zhì)量越高。所有最佳結(jié)果都以粗體顯示,如表1所示。本文方法生成的測(cè)試圖像具有平均值更高的 SSIM、PSNR 和更低的NIQE。對(duì)于LOE平均值,它落后于LIME 和NPE。正如Guo等人[16]所說(shuō),使用輸入的低光照?qǐng)D像本身來(lái)計(jì)算LOE是有問(wèn)題的。因此,使用文獻(xiàn)[29]中使用參考圖像的方法來(lái)計(jì)算LOE,類(lèi)似于計(jì)算SSIM和PSNR,并表示為 LOEref。這樣,本文的方法更具有一定的優(yōu)勢(shì)。
表1 不同方法增強(qiáng)結(jié)果在自制數(shù)據(jù)集上的定量比較
為了進(jìn)一步證明本文方法的魯棒性,本文還對(duì)公共數(shù)據(jù)集SICE進(jìn)行了實(shí)驗(yàn)。表2顯示了本文方法和五種現(xiàn)有的低光照增強(qiáng)方法的定量比較。由于SICE數(shù)據(jù)集的對(duì)比度很高,某些圖像看起來(lái)不太自然,因此只選擇了一部分圖像作為參考??梢钥吹?,雖然在LOE和LOEref中,略落后于NPE排在第二位,但是在SSIM和PSNR上,本文的方法優(yōu)于其他所有方法。對(duì)于非參考指標(biāo)NIQE,本文方法也可以得到較低的值。實(shí)驗(yàn)結(jié)果說(shuō)明本文方法在恢復(fù)圖像細(xì)節(jié)質(zhì)量上具有一定的優(yōu)勢(shì)。
本文提出了一個(gè)新的融合非線性相機(jī)響應(yīng)函數(shù)模型的深度學(xué)習(xí)方法,以提高低光照?qǐng)D像質(zhì)量,為智能導(dǎo)航和自動(dòng)駕駛提供高可見(jiàn)度的圖像。本文的主要思想是使用LRNet來(lái)學(xué)習(xí)殘差圖像,而不是簡(jiǎn)單的端到端映射,從而利用殘差圖像的簡(jiǎn)單性讓網(wǎng)絡(luò)有效地學(xué)習(xí)細(xì)節(jié)。此外,本文還創(chuàng)建了一個(gè)包含500個(gè)曝光不足圖像對(duì)的新數(shù)據(jù)集,使網(wǎng)絡(luò)能夠恢復(fù)低光照?qǐng)D像清晰的細(xì)節(jié),更接近真實(shí)的參考圖像。本文在自制數(shù)據(jù)集和SICE數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),并比較了本文的方法與五種現(xiàn)有的方法,證明了本文的解決方案在可視化比較、SSIM、PSNR、NIQE和LOE指標(biāo)的定量比較方面的優(yōu)勢(shì)。