關(guān)鍵詞:井下塵霧圖像;圖像清晰化;基于網(wǎng)格網(wǎng)絡(luò);深度學(xué)習(xí);多尺度特征提取;Inception 架構(gòu);密集殘差連接
中圖分類號:TD67 文獻(xiàn)標(biāo)志碼:A
0引言
隨著井下礦山數(shù)字化轉(zhuǎn)型和智能化變革的持續(xù)推進(jìn),智能視頻監(jiān)控系統(tǒng)在煤礦生產(chǎn)作業(yè)過程中起著越來越重要的作用[1]。但煤礦井下環(huán)境復(fù)雜,照明條件不足,空氣中彌漫大量粉塵顆粒,常用的噴霧降塵方式會產(chǎn)生大量水霧。在粉塵、水霧和光線不足等環(huán)境因素影響下,視頻監(jiān)控系統(tǒng)獲取到的圖像存在照度低、細(xì)節(jié)紋理丟失等情況[2],不利于煤礦井下可視化和智能分析,因此,研究井下圖像清晰化技術(shù)具有一定現(xiàn)實(shí)意義。
目前圖像清晰化算法主要分為3 類,即基于圖像增強(qiáng)的清晰化算法、基于物理模型的清晰化算法和基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的清晰化算法[3]。① 基于圖像增強(qiáng)的清晰化算法主要包括基于直方圖分布的圖像增強(qiáng)算法、小波變換法和基于Retinex 理論的圖像增強(qiáng)算法[4-7],這類算法往往不考慮圖像質(zhì)量受損因素,存在圖像失真和細(xì)節(jié)損失現(xiàn)象。② 基于物理模型的清晰化算法通過分析塵霧圖像形成的物理機(jī)理,結(jié)合圖像退化的先驗(yàn)知識或假設(shè)來反推出無霧圖像[8-11]。其中HeKaiming 等[12]提出的基于暗通道先驗(yàn)(Dark ChannelPriori,DCP)原理的清晰化算法最經(jīng)典。但基于物理模型的圖像清晰化算法在處理井下塵霧圖像時普遍存在圖像較暗、色彩不自然等問題。③ 基于CNN 的清晰化算法通過深度學(xué)習(xí)自動捕獲塵霧圖像與對應(yīng)清晰圖像之間的復(fù)雜映射關(guān)系,并利用獲取到的知識實(shí)現(xiàn)端到端的圖像復(fù)原[13-16]。這類算法的非物理模型依賴特性使得其在適應(yīng)性、魯棒性和圖像生成質(zhì)量上具有顯著優(yōu)勢,但往往需要大量樣本數(shù)據(jù)用于學(xué)習(xí)圖像特征,而目前井下高質(zhì)量圖像獲取難度較高。
煤礦井下環(huán)境復(fù)雜且數(shù)據(jù)集較少,現(xiàn)有塵霧圖像清晰化算法在處理井下塵霧圖像時大多存在細(xì)節(jié)丟失和過度增強(qiáng)等問題[17]。本文提出一種基于增強(qiáng)網(wǎng)格網(wǎng)絡(luò)的井下塵霧圖像清晰化算法。網(wǎng)格結(jié)構(gòu)可以在節(jié)點(diǎn)之間建立多條路徑,使得特征信息在網(wǎng)絡(luò)中的傳遞更加高效,有利于塵霧圖像處理中的細(xì)節(jié)及整體特征提取和整合。在網(wǎng)格網(wǎng)絡(luò)的基礎(chǔ)上,采用注意力機(jī)制和2 種特征提取模塊進(jìn)行增強(qiáng),并對損失函數(shù)進(jìn)行改進(jìn),提升了網(wǎng)絡(luò)的精確性和圖像整體視覺質(zhì)量。
1算法原理
1.1增強(qiáng)網(wǎng)格網(wǎng)絡(luò)總體結(jié)構(gòu)
井下塵霧圖像清晰化算法由圖像前處理模塊、主干模塊和輸出模塊組成,如圖1 所示。在用于語義分割的GridNet 網(wǎng)絡(luò)[18]啟發(fā)下,設(shè)計了多尺度增強(qiáng)網(wǎng)格網(wǎng)絡(luò),通過提取圖像不同尺度下的特征并進(jìn)行有效融合,實(shí)現(xiàn)網(wǎng)絡(luò)對深層信息和淺層信息的兼顧。網(wǎng)格網(wǎng)絡(luò)的整體架構(gòu)呈現(xiàn)網(wǎng)格狀交錯布局,橫向由若干個特征提取模塊組成,縱向由下采樣和上采樣組成。
1) 前處理模塊由1 個3×3卷積層(Conv 3×3)和1個特征提取模塊IRDB 組成,用于從原始塵霧圖像中生成16 張?zhí)卣鲌D,作為主干網(wǎng)絡(luò)的輸入。IRDB由Inception 模塊和密集殘差連接模塊(ResidualDense Block,RDB)組成。
2) 主干模塊為3 行6 列的網(wǎng)格網(wǎng)絡(luò),每行對應(yīng)1 個不同的尺度,尺度間的變換通過上/下采樣來實(shí)現(xiàn)。采用5 個IRDB 進(jìn)行第1 個尺度的特征提取,為降低網(wǎng)絡(luò)復(fù)雜度,第2、3 尺度均使用5 個RDB 進(jìn)行特征提取,使網(wǎng)絡(luò)可更高效地提取圖像原始特征信息,也更關(guān)注細(xì)節(jié)特征信息。為更好地捕捉圖像中的細(xì)節(jié)信息,在網(wǎng)格網(wǎng)絡(luò)中引入通道注意力機(jī)制。
3) 主干模塊輸出的清晰化圖像易包含偽影,因此引入輸出模塊。輸出模塊與前處理模塊的結(jié)構(gòu)對稱,包含卷積層和特征提取模塊。
1.2通道注意力機(jī)制
在神經(jīng)網(wǎng)絡(luò)中,注意力機(jī)制是一種通過自主學(xué)習(xí)權(quán)重系數(shù)來強(qiáng)調(diào)重要區(qū)域的機(jī)制。對于輸入是二維圖像的神經(jīng)網(wǎng)絡(luò)來說,特征圖不同通道對關(guān)鍵信息的貢獻(xiàn)不同,因此對每個通道的信息賦予一個權(quán)重,權(quán)重越高,說明通道信息越重要。壓縮和激勵(Squeeze and Excitation,SE)模塊[19]可在不改變輸入特征圖大小的情況下對輸入特征圖進(jìn)行通道特征加強(qiáng),因此本文在網(wǎng)格網(wǎng)絡(luò)節(jié)點(diǎn)間加入SE 模塊來加強(qiáng)通道特征。
1.3特征提取模塊
RDB是深度學(xué)習(xí)中常用的模塊, 由密集連接層、局部特征融合策略和局部殘差學(xué)習(xí)機(jī)制共同構(gòu)建成一個連續(xù)存儲體系,有效保留了局部特征。為在網(wǎng)絡(luò)資源有限的情況下增加網(wǎng)絡(luò)的深度和寬度,有效提取圖像細(xì)節(jié)特征,本文提出了IRDB,其結(jié)構(gòu)如圖3所示。
將經(jīng)Inception 模塊卷積聚合的特征作為RDB的輸入,再由RDB 對這些特征進(jìn)行信息提取和傳遞。IRDB 將Inception 與RDB 的優(yōu)勢進(jìn)行互補(bǔ),可保持Inception 模塊的多尺度特征提取能力, 并在RDB 中使用提取的特征進(jìn)一步學(xué)習(xí)殘差信息和深層特征,以提供多尺度的特征表示,有助于恢復(fù)清晰的圖像細(xì)節(jié)。通過這種結(jié)合,可增強(qiáng)網(wǎng)絡(luò)的表征能力、泛化能力及其對不同尺度塵霧的處理能力。
Inception 架構(gòu)可在資源有限的前提下增加網(wǎng)絡(luò)的深度和寬度。Inception 模塊由1×1,3×3,5×5 卷積層及1 個3×3 最大池化層構(gòu)成,如圖4 所示。使用1×1 卷積進(jìn)行升降維,在相同尺寸的模塊中疊加更多卷積,能提取更豐富的特征,同時大大減少參數(shù)量;在多個尺寸上同時進(jìn)行卷積再聚合,能提取不同尺度的特征,且輸出的特征非均勻分布,而是相關(guān)性強(qiáng)的特征聚集,不相關(guān)的非關(guān)鍵特征弱化,從而使輸出的特征冗余信息較少,收斂速度更快。
1.4損失函數(shù)
采用平滑損失L1和內(nèi)容損失L2的結(jié)合作為損失函數(shù)。平滑損失L1是一種常用的損失函數(shù),其提供了清晰化處理后圖像和真實(shí)清晰圖像之間差異的定量測量,相較于均方差損失函數(shù),平滑損失對異常值不太敏感,從而可防止?jié)撛诘奶荻缺ǎ咕W(wǎng)絡(luò)模型更加健壯。內(nèi)容損失函數(shù)的構(gòu)建是基于經(jīng)過預(yù)訓(xùn)練的VGG?19網(wǎng)絡(luò),該網(wǎng)絡(luò)通過輸入塵霧圖像和清晰圖像來衡量二者之間的內(nèi)容損失,同時學(xué)習(xí)圖像在內(nèi)容和感知層面的相似性。
本文采用的損失函數(shù)為
L=L1 + L2 (2)
式中 為超參數(shù),取0.04。
2實(shí)驗(yàn)分析
2.1數(shù)據(jù)集構(gòu)建
基于深度學(xué)習(xí)的圖像清晰化方法往往需要依賴合成的成對數(shù)據(jù)進(jìn)行訓(xùn)練,而現(xiàn)階段煤礦井下塵霧圖像缺乏統(tǒng)一的標(biāo)準(zhǔn)化數(shù)據(jù)集,大多圖像清晰化任務(wù)使用大型合成數(shù)據(jù)集RESIDE,該數(shù)據(jù)集中的合成圖像雖然模糊程度不同,但大多較為均勻,而實(shí)際井下塵霧并不處于完全均勻分布狀態(tài)。為彌補(bǔ)合成數(shù)據(jù)的不足,本文部分實(shí)驗(yàn)數(shù)據(jù)從多個礦井多個時間段的監(jiān)控視頻中截取。截取塵霧彌漫不同階段的圖像,將塵霧發(fā)生前的圖像作為清晰圖像,與塵霧圖像構(gòu)成訓(xùn)練數(shù)據(jù)對,近似獲得自建井下圖像成對數(shù)據(jù)集。自建數(shù)據(jù)集包含720 對訓(xùn)練圖像及180 對驗(yàn)證和測試圖像,共900對,圖像分辨率為250×250。該數(shù)據(jù)集除含有不同濃度的塵霧圖像外,還包含塵霧分布均勻程度不同的圖像,以及有光源影響與無光源影響圖像等多種井下復(fù)雜情況實(shí)拍圖像,如圖5所示。
實(shí)驗(yàn)采用分步訓(xùn)練方式, 先使用合成數(shù)據(jù)集RESIDE 中的8 760 張圖像對網(wǎng)絡(luò)進(jìn)行初步訓(xùn)練,使得網(wǎng)絡(luò)模型能夠?qū)W習(xí)到圖像清晰化的一般性特征;再使用1 440 張井下圖像對網(wǎng)絡(luò)進(jìn)行針對性訓(xùn)練,進(jìn)一步細(xì)化網(wǎng)絡(luò)模型的學(xué)習(xí)。驗(yàn)證集和測試集均由1 020 張RESIDE 中圖像和180 張井下圖像組成。
實(shí)驗(yàn)運(yùn)行環(huán)境為Ubuntu20.04 系統(tǒng),Intel Xeon(R)Silver 4214R CPU @ 2.40 GHz x48 處理器, 顯卡為NVIDIA Corporation TU102GL [Quadro RTX 8000],內(nèi)存為128 GiB, CUDA 版本為11.4.2, Pytorch1.9.0,Python3.8.1。網(wǎng)絡(luò)模型訓(xùn)練采用Adam 優(yōu)化算法,可根據(jù)損失函數(shù)動態(tài)調(diào)整每個參數(shù)梯度的一階矩估計和二階矩估計, 實(shí)現(xiàn)參數(shù)更新。設(shè)置學(xué)習(xí)率α=0.001,每20 輪學(xué)習(xí)率降低一半,訓(xùn)練輪次為100,Batch size 為32。
2.2消融實(shí)驗(yàn)
在圖像處理方面, 自然圖像質(zhì)量評價指標(biāo)(Naturalness Image Quality Evaluator,NIQE)、結(jié)構(gòu)相似度指數(shù)(Structural Similarity Index,SSIM)和峰值信噪比(Peak Signal to Noise Ratio, PSNR)被廣泛用于評價圖像處理質(zhì)量。NIQE 是一種無參考圖像質(zhì)量評價指標(biāo),旨在評估圖像的自然度,其值越小,對應(yīng)圖像自然度越高。SSIM 是一種用于衡量圖像質(zhì)量的指標(biāo),其取值范圍為?1~1,值越大表示圖像質(zhì)量越好。PSNR 是一種有參考的圖像客觀評價指標(biāo),通常其數(shù)值越高表示處理后的圖像失真越小,圖像質(zhì)量越好。
為驗(yàn)證增強(qiáng)網(wǎng)格網(wǎng)絡(luò)各模塊的有效性,在井下測試數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),結(jié)果見表1,w/o 表示某個條件未被考慮,如w/o IRDB 表示未采用IRDB。由表1 可知,單獨(dú)保留IRDB 或SE 模塊,網(wǎng)絡(luò)性能都有一定提升,同時保留IRDB和SE模塊的情況下,網(wǎng)絡(luò)性能得到進(jìn)一步提升。完整網(wǎng)絡(luò)在井下測試集上的PSNR、SSIM均高于其他網(wǎng)絡(luò)模型, NIQE 最小,表明其清晰化效果最好。
為了分析IRDB 數(shù)量對圖像清晰化質(zhì)量的影響,改變網(wǎng)格網(wǎng)絡(luò)模型的行數(shù)r 和列數(shù)c,使IRDB 數(shù)量發(fā)生相應(yīng)變化。不同網(wǎng)絡(luò)配置下的實(shí)驗(yàn)結(jié)果見表2??煽闯鲈贗RDB數(shù)量為5時, 該模型的PSNR、SSIM 和NIQE指標(biāo)最好,其清晰化圖像細(xì)節(jié)信息更加豐富,效果也最好。
2.3圖像清晰化效果驗(yàn)證
為評價基于增強(qiáng)網(wǎng)格網(wǎng)絡(luò)的井下圖像清晰化算法的有效性與適用性,選取井下巷道、采掘工作面等易出現(xiàn)塵霧的5 組場景的實(shí)拍圖像進(jìn)行實(shí)驗(yàn)。場景1,3,4,5均受到不同程度的非均勻塵霧影響,且亮度整體偏暗;場景2 中存在均勻塵霧,圖像整體細(xì)節(jié)不清晰。使用6 種有代表性的圖像清晰化算法與本文算法進(jìn)行對比實(shí)驗(yàn),包括DCP 算法[10]、一體化清晰化算法AOD?Net[20]、基于CNN的清晰化算法DehazeNet[21]、可訓(xùn)練CNN 清晰化算法GridDehaze Net[22]、由編碼器和解碼器組成的可訓(xùn)練神經(jīng)網(wǎng)絡(luò)算法GFN[23]、基于多尺度CNN 的清晰化算法MSCNN[24]。其中DCP是一種基于先驗(yàn)的算法,其他算法基于深度學(xué)習(xí),均采用與本文相同的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練。
場景1 實(shí)驗(yàn)對比結(jié)果如圖6所示。場景1圖像經(jīng)過本文算法、DCP算法和Dehaze Net 算法處理后,基本能夠消除大面積塵霧的影響。經(jīng)Dehaze Net算法處理后,圖像整體亮度偏暗,墻壁等較暗區(qū)域細(xì)節(jié)丟失。與DCP算法相比,本文算法處理后圖像有部分水霧殘留, 其他4 種算法清晰化效果不明顯,AOD?Net 算法處理后水霧邊緣顏色出現(xiàn)失真現(xiàn)象。
場景2 實(shí)驗(yàn)對比結(jié)果如圖7所示。原始場景中圖像塵霧分布均勻, 經(jīng)過本文算法、DCP 算法與GFN 算法處理后, 清晰化效果都比較明顯, 但是DCP 算法在光源處出現(xiàn)顏色失真及整體顏色偏暗等問題。相較于GFN 算法,本文算法更好地保留了圖像的細(xì)節(jié)信息,光源處顏色失真較少,整體更清晰、自然。其他4種算法仍存在模糊和顏色失真等問題,清晰化效果不理想。
場景3 實(shí)驗(yàn)對比結(jié)果如圖8所示。在光照較暗的場景3 中,本文算法和DCP 算法能夠較好地實(shí)現(xiàn)塵霧圖像清晰化,細(xì)節(jié)信息更豐富,清晰化處理后圖像在視覺上更加接近真實(shí)圖像。Dehaze Net 算法能夠去除較大面積塵霧,但存在細(xì)節(jié)丟失和圖像較暗問題。其他4 種算法對較暗圖像的處理效果較差,存在塵霧去除不徹底和大量細(xì)節(jié)丟失問題。
場景4 實(shí)驗(yàn)對比結(jié)果如圖9所示。場景4圖像經(jīng)本文算法處理后墻壁細(xì)節(jié)得到更多保留,邊緣對比更強(qiáng)烈, 也更容易分辨, 觀感強(qiáng)于DCP算法。DCP算法易出現(xiàn)過度清晰化的現(xiàn)象,原因是井下獲取的圖像色彩和對比度相對較單一, 并不滿足DCP原理。Dehaze Net算法、GridDehaze Net 算法和GFN 算法去除了大部分水霧,但仍存在較暗區(qū)域細(xì)節(jié)丟失及顏色失真等問題。MSCNN算法對井下塵霧圖像的清晰化效果不明顯,只能去除少量水霧或塵霧。AOD?Net 算法未實(shí)現(xiàn)井下圖像塵霧的有效去除,且圖像整體顏色失真。
場景5 實(shí)驗(yàn)對比結(jié)果如圖10 所示。本文算法和DCP 算法有效解決了圖像的泛白問題,同時在一定程度上成功抑制了偽影和光暈,實(shí)現(xiàn)了圖像清晰度和對比度的提升。本文算法色彩更加真實(shí)自然,在視覺上更接近于無霧圖像。GFN 算法只能去除少量處于塵霧邊緣的較薄塵霧,塵霧中心區(qū)域未能有效去除。Dehaze Net 和GridDehaze Net 算法的清晰化效果都比較明顯,且圖像整體對比度有所提高,圖像細(xì)節(jié)得到保留。AOD?Net 算法和MSCNN 算法對該場景下塵霧圖像的清晰化效果較差。
2.4客觀指標(biāo)評價結(jié)果
為客觀評價塵霧圖像清晰化效果,對相關(guān)圖像清晰化算法進(jìn)行PSNR、SSIM 和NIQE 的計算和比較。在合成數(shù)據(jù)集上的定量評價指標(biāo)見表3。由表3可知,與其他算法相比,本文算法在PSNR 和SSIM指標(biāo)上均有明顯提升。PSNR 提升說明本文算法處理后的圖像失真程度降低、細(xì)節(jié)信息更多,SSIM 提升說明了本文算法處理后的圖像更加明亮、圖像結(jié)構(gòu)保持得更好。本文算法處理后圖像的NIQE 最小,表明圖像更加自然。
不同算法在井下數(shù)據(jù)集上的定量評價指標(biāo)見表4??煽闯霰疚乃惴ㄌ幚砗蟮膱D像在PSNR、SSIM 和NIQE 這3 個指標(biāo)上都有一定改善。DCP 算法處理效果僅次于本文算法,能有效減少圖像失真。GridDehazeNet、GFN 和AOD?Net 算法在塵霧圖像清晰化方面有一定效果,DehazeNet 和MSCNN 算法對井下塵霧圖像的清晰化效果不理想。
由表3和表4的數(shù)據(jù)指標(biāo)可看出,本文算法對井下數(shù)據(jù)集的適應(yīng)性更強(qiáng),清晰化效果比在合成數(shù)據(jù)集上更好,驗(yàn)證了自建數(shù)據(jù)集的有效性。
在訓(xùn)練集和測試集下7 種清晰化算法對單幅圖像的處理時間如圖11所示??煽闯霰疚乃惴ㄔ谟?xùn)練集和測試集上的圖像處理速度處于中等水平,盡管單幅圖像處理速度未能達(dá)到最快,但保持在合理范圍內(nèi)。
3結(jié)論
1) 通過特征提取模塊IRDB 提取輸入圖像不同尺度下的特征圖,將其融合輸入到網(wǎng)格網(wǎng)絡(luò)中進(jìn)行進(jìn)一步特征提取與融合。IRDB 將經(jīng)過Inception 模塊卷積聚合的特征作為RDB的輸入,再由RDB對這些特征進(jìn)行信息提取和傳遞,增強(qiáng)了網(wǎng)絡(luò)的表征能力、泛化能力及其對不同尺度塵霧的處理能力。
2) 在網(wǎng)格網(wǎng)絡(luò)設(shè)計中,通過上采樣和下采樣實(shí)現(xiàn)特征圖不同尺度變換,并引入通道注意力機(jī)制,使用SE 模塊對不同尺度下的不同通道動態(tài)調(diào)整特征權(quán)重,網(wǎng)絡(luò)更加靈活,對井下數(shù)據(jù)集的適應(yīng)性更強(qiáng)。
3) 實(shí)驗(yàn)結(jié)果表明:IRDB 數(shù)量為5 時,網(wǎng)絡(luò)模型的PSNR、SSIM和NIQE 指標(biāo)最好;從視覺效果上看,用本文算法清晰化處理后的圖像細(xì)節(jié)信息更加豐富,色彩更加自然,具有良好的清晰度和對比度;在井下數(shù)據(jù)集上用本文算法處理后的圖像PSNR、SSIM 和NIQE 分別為23.69,0.8401,8.95,整體優(yōu)于DCP,AOD?Net 等同類算法;本文算法在訓(xùn)練集和測試集上的圖像處理速度處于中等水平,綜合考慮,本文算法用于井下塵霧圖像清晰化處理性能最優(yōu)。