譚臺哲 柳博
摘要:為更好地將圖像去雨算法應用在戶外監(jiān)控、手機移動終端上,提出一種基于局部空間注意力機制的輕量級卷積神經(jīng)網(wǎng)絡。將圖像去雨看作殘差學習,既有利于從有雨圖中去掉雨滴,又便于模型的訓練與優(yōu)化。深度可分離卷積作為模型提取特征的卷積操作,在不降低模型的性能情況下,顯著降低模型的參數(shù)量與計算量。局部空問注意力模塊利用空洞卷積提供較大的感受野來提取豐富的語義信息,有利于雨滴的檢測與去除。在多個公開的數(shù)據(jù)集上進行對比與測試,證明模型去雨效果較好且速度較快。
關鍵詞:單幅圖像去雨;分組卷積;空洞卷積;空問注意力;殘差學習
中圖分類號:TP18 文獻標識碼:A
文章編號:1009-3044(2020)20-0028-04
Single Image De-Rain Method Based on Croup Convolution and Spatial Attention Mechanism
TAN Tai-zhe, BO Liu
(School of Computers, Guangdong University of Technology, Guangzhou 510000, China)
Abstract : In order to hetter apply the image de-raining algorithm to outdoor monitoring and mobile terminals , a lightweight convolu-tional neural network based on the local spatial attenticm mechanism is proposed. Taking the image to rain as residual learning isnot only beneficial for removing raindrops from the raining image, but also for training and optimization of the model. depthi~'iseconvolution. as a convolution operation for extracting features, significantly reduces the amount of parameters and calculations ofthe model without reducing the performance of the model. The local spatial attention module uses dilate convolution to provide alarger receptive fielcl to extract rich semantic information. which is conducive to the detection and removal of raindrops. Compari-son and testing on multiple public data sets prove that the model has better rain removal effect and faster speed.
Key words : single image derain;group convolution; dilate convolution; spatial attention: residual leaming
戶外視頻監(jiān)控、無人駕駛、白然場景下的文本識別等基于計算機視覺算法的應用容易受到天氣的影響,由于現(xiàn)有的算法設計以及訓練模型所使用的數(shù)據(jù)集都基于天氣情況較好這一假設,在如下雨、下雪、霧天等情況下算法的性能會有所降低。另一方面,隨著手機等終端設備的普及,雨天拍攝的照片由于雨痕、雨滴、雨霧的存在影響拍照的主體,影響圖像的美感,因此對基于視覺算法的應用而言去雨算法可以作為算法應用的預處理,提升算法在不良天下的性能,提升算法的魯棒性。對人眼視覺感知而言,圖像去雨可以將影響拍照主題的雨滴去除掉,恢復主體的信息。圖像去雨可以分為單幅圖像去雨和視頻圖像去雨,視頻圖像去雨因為有連續(xù)圖像信息可以使用,相較于單幅圖像難度較低,所以視頻的去雨的研究較為成熟。但視頻圖像相較于單幅圖像更難獲取,視頻圖像去雨的算法也無法應用在單幅圖像去雨的需求中、而單幅圖像去雨由于不需要連續(xù)多幀圖像的信息,使用場景更加豐富,既可以替代現(xiàn)有的視頻圖像去雨算法,又更符合只有單幅圖像去雨的現(xiàn)實需求。近年來深度學習在高級視覺任務如識別、檢測、分割中取得了顯著的效果,針對底層視覺任如超分辨率、去噪、去模糊、去雨的卷積神經(jīng)網(wǎng)絡也不斷被提出,基于深度學習的單幅圖像去雨算法在近幾年也得到了很好的發(fā)展,涌現(xiàn)了大量模型與數(shù)據(jù)集。圖像去雨算法主要應用在計算資源有限的戶外設備或手機等移動終端上,而現(xiàn)有的基于深度學習的去雨算法還未考慮模型的計算復雜度,導致已有的模型很難應用在實際場景中。
1相關工作
圖像去雨分為基于視頻的圖像去雨和基于單幅圖像的去雨,視頻圖像去雨可以利用前后幀的空間與運動信息來檢測去除雨滴,相較于單幅圖像去雨更加容易,因此很早便有人研究。最早是Garg和Nayar[1][2]通過給雨滴建模來檢測并消除雨滴,使用雨滴的光學模型和動力學模型來檢測有雨區(qū)域,對每個像素沿著時間軸方向進行K-means聚類,背景和雨滴各為一類,檢測出背景和雨滴。Hase[3]用多幀的空間信息對每個像素點沿著時間方向進行均值濾波,來消除雨滴對圖像的影響。J.Bossu[4]利用雨滴的大小、形狀、雨痕方向來去雨。J.Liu[5]使用循環(huán)神經(jīng)網(wǎng)絡檢測視頻圖像中的雨滴并且能很好地保留圖像的細節(jié)。單幅圖像去雨由于所獲得的圖像信息有限,雨滴的檢測與去除難度較大,相較于視頻圖像去雨研究時間較晚。Zheng X[6]使用引導濾波來去除雨痕;假設雨滴的形狀(橢圓)和雨痕的方向(垂直)來檢測雨滴,使用非均值濾波去除雨痕。深度學習的出現(xiàn)極大地促進了單幅圖像算法的研究,基于卷積神經(jīng)網(wǎng)絡的單幅圖像去雨取得了較好的結(jié)果。Zhang H[7]提出帶雨滴大小信息的數(shù)據(jù)集,融入雨滴大小信息來更好的修復不同大小雨情況下的雨滴圖。Li X[8]使用循環(huán)神經(jīng)網(wǎng)絡將去雨分為多個階段級聯(lián)去雨。Li G[9]使用非局部神經(jīng)網(wǎng)絡去雨,能夠很有效地保留原圖的細節(jié)。
2本文涉及方法
2.1分組卷積 傳統(tǒng)的卷積神經(jīng)網(wǎng)絡通過選擇一定大小的卷積核進行卷積操作,全連接層是一種特殊的卷積操作,卷積核的大小為輸入層的大小,由于圖像尺寸大小往往很大,導致全連接層的計算量和參數(shù)量都很大,很難應用在計算資源有限的環(huán)境中。人對圖像的視覺感知是由底層的局部特征到高層的語義特征,高層語義特征可以由底層的局部特征融合得到,卷積神經(jīng)網(wǎng)絡通常使用尺寸大小為3*3或5*5,通道數(shù)為輸入特征圖通道數(shù)的卷積核來提取局部空間特征,使用多層卷積層來融合底層特征提取高層特征,每個通道的特征圖共享相同的卷積核參數(shù),這種通過使用小卷積核與權(quán)值共享的方式既降低了模型的計算量與參數(shù)量,又能很好地符合人眼的視覺模型。雖然每次卷積提取特征只利用了輸入特征圖的空間局部信息,但由于卷積層的輸入輸出特征圖的通道數(shù)過大,導致卷積操作計算量仍然過大。類似的可以選擇輸入特征圖的部分通道作為卷積的輸入,將輸入特征圖的通道數(shù)進行分組操作,極限情況下,每個組單獨作為卷積核的輸入進行卷積操作,這種分組卷積由于輸入特征圖被劃分為多個組后分別單獨進行卷積操作,相較于傳統(tǒng)未分組的卷積操作,組間的信息未能得到有效的融合,導致模型的表達能力有限。為了融合組內(nèi)信息,使用1*1大小、通道數(shù)為特征圖大小的卷積進行通道融合,使用的是1*1大小的卷積可以利用較少的參數(shù)與計算達到組內(nèi)信息融合的目的。分組卷積和點卷積充分考慮了空間和通道對卷積計算量與參數(shù)量的影響,相對于傳統(tǒng)的卷積更加高效。
2.2局部空間注意力機制
在認知科學中,由于輸入信息過于豐富,人類會選擇性的關注所有信息中最重要的一部分。在人類視網(wǎng)膜不同位置具有不同程度的信息處理能力,在中央凹部位具有最強的敏銳度。為了合理利用有限的人眼視覺處理資源,人眼需要選擇視覺區(qū)域中和任務相關的部分重點處理。在圖像去雨任務中,根據(jù)像素所處的空間信息有助于判斷該像素是否為雨滴,并且能利用上下文信息來指導去除雨滴,還原圖像。使用注意力機制會增加模型的計算量與參數(shù)量,權(quán)衡了模型的效果和復雜度后,本文使用帶空洞的分組卷積來提取空間局部注意力信息,既能增大空間注意力的范圍便于檢測雨滴并修復圖像,也不會帶來太大的參數(shù)與計算量。
2.3殘差學習
帶雨滴的圖可以被看作是無雨滴的圖加上雨滴圖,那么圖像去雨的目的就是求得雨滴圖,再用帶雨滴的圖減去雨滴圖就可以達到雨滴檢測與去除的目的。雨滴圖是有雨圖和無雨圖的殘差,通過殘差學習即可求得雨滴圖,另外殘差學習早以成為卷積神經(jīng)網(wǎng)絡基礎結(jié)構(gòu),通過殘差學習求得雨滴圖既能解決檢測雨滴修復圖像的目的,又能促進模型的訓練與優(yōu)化,進一步提升模型的性能。
3模型與實驗
3.1本文所提出模型
結(jié)合上述所提到相關方法,本文設計的模型以深度可分離卷積作為模型的卷積操作,融合局部空間注意力機制提升模型的效果,最后利用殘差學習來檢測并去除雨滴。如圖l所示,模型的基礎block由深度可分離卷積與局部空間注意力模塊組成,輸入特征F經(jīng)過Depthwise conv得到F',F(xiàn)'經(jīng)過Pointwiseconv得到F",F(xiàn)"經(jīng)過LSAM的會得到與F"同樣維度的Spatialattention,然后將Spatial attention與F"中元素對應相乘,得到block的輸出M。如圖2所示,LSAM的輸入特征圖首先依此經(jīng)過批量歸一化、激活函數(shù)relu和帶空洞卷積的DepthWise conv再經(jīng)過批量歸一化得到特征圖d,d中的每個元素進行e-d*d運算,這樣得到值域為0到l的Spatial attention。LSAM所使用的空洞卷積核大小為3*3,空洞率為3,這樣得到的特征圖感受野較大而計算量比傳統(tǒng)3*3卷積核計算量更少,另外還能得到豐富的語義信息用于雨滴的檢測與去除。如圖3所示,最后多個block級聯(lián),輸出雨滴圖,再由原圖減去雨滴圖即可得到無雨圖。
3.2數(shù)據(jù)集
實驗中使用DIDMDN[7]、DDN[10]、100L[11]、來衡量模型效果。DDN數(shù)據(jù)集有1000張無雨的原圖,每張原圖對應生成了14張不同大小和方向的有雨圖DIDMDN數(shù)據(jù)集有4000張無雨原圖,每張原圖對應生成大雨、中雨、小雨三張有雨圖,圖片標簽提供了合成雨滴的大小信息,本實驗雨滴的大小信息不參與模型的訓練。在人工合成的數(shù)據(jù)上上使用sslm和psnr有參指標作為圖像去雨的客觀評價,另外由于人眼對圖像在YCbCr顏色空間中的Y通道最為敏感,因此在該顏色空間的Y通道下進行模型評價的計算。對于真實有雨圖的去雨效果,由于沒有與之對應參考的無雨圖,只能通過視覺主觀進行評價。
3.3模型訓練與優(yōu)化
使用L1loss作為模型學習的損失函數(shù),學習有雨圖與無雨圖之間像數(shù)值的差異。訓練時從圖片中隨機裁剪長寬都為224大小的圖片作為訓練,并對圖像使用隨機翻轉(zhuǎn)來增加數(shù)據(jù)量,批處理大小為64,使用adam優(yōu)化器,weight deCay 0.0001,初始學習率為0.0005,每個epoch訓練loss降低且學習率大于0.0001時,學習率減少百分之十,模型速度測試環(huán)境CPU為i7-9700F,GPU為GTX 1060。
4實驗結(jié)果
如表1所示,本文提卅的方法在公開數(shù)據(jù)集DDN-Data、RainIOOL相較于其他方法有明顯效果提升,在DIDMDN-Data數(shù)據(jù)集中與DID-MDN數(shù)據(jù)集只有較小的差距。
如表2所示,比較三種不同結(jié)構(gòu)的block對模型效果帶來的影響。不使用局部空間注意力模塊,局部空間注意力模塊中的卷積操作使用9*9的分組卷積,以及局部空間注意力模塊使用3*3空洞率為3的空洞卷積。使用局部注意力模塊能提高模型的效果,且使用帶空洞的卷積擴大感受野能達到和使用9*9大卷積核同樣的效果。如表3所示,本文所提出的模型在速度上較其他方法在CPU與GPU上均有明顯提高。由圖四中的結(jié)果圖可知,模型的去雨效果在人眼視覺上也能取得較好的結(jié)果。
5結(jié)束語
本文使用輕量化卷積結(jié)構(gòu)作為特征提取的基本操作可以降低模型的計算量,使用局部空間注意力能進一步地提高模型的性能,基于殘差學習的圖像去雨模型既符合雨滴圖和無雨圖之間的關系,又便于模型的優(yōu)化。本文提出的模型在有參評價指標PSNR和SSIM上均能取得較好的效果,且模型計算量低,圖像去雨后的圖像在人眼看來去雨效果明顯。
參考文獻:
[1] Garg K,Navar S K.Photorealistic rendering of rain streaks[J].ACM Transactions on Graphics, 2006,25(3):996-1002.
[2] Garg K,Nayar S K.Vision and rain[J].lntemational Journal ofComputer Vision. 2007.75(1):3-27.
[3] Hase H,Miyake K,Yoneda M.Real-time snowfall noise elimi-nation[C]/ICIP Proc 1999 Int Conf. IEEE2.1999:406-409.
[4] Bossu J,Hautiere N,Tarel J P.Rain or snow detection in imagesequences through use of a histogram of orientation of streaks[J]. International Journal of Computer Vision, 2011.93(3): 348-367.
[5]J.Liu, W. Yang,S.Yang, and Z.Guo. Erase or fill? deepjoint recurrent rain removal and reconstruction in videos[C]. inProc. lEEE Int'I Conf. Computer Vision and Pattem Recogni-tion. 2018:3233 3242.
[6] Zheng X H.Liao Y H.Cuo W,et aI.Single-image-based rainand snow removal using multi-guided filter[J].Neural Informa-tion Processing,2013.
[7]H.Zhang and V.M.Patel. DensiW-aware single image derain-ing using a multi-stream dense network[C]. in Proc. IEEEInt'I Conf. C.omputer Vision and Pattem Recognition, 2018.
[8] Li X,Wu J L,Lin Z C.et aI.Recurrent squeeze-and-excitationcontext aggregation net for singz;le image deraining[J].ComputerVision - ECCV 2018,2018: 262-277.
[9] G. Li, X. He. W. Zhang. H. Chang, L. Dong, and L. Lin. Non-locally enhanced encoder-decoder network for single imagede-raining[C]. in ACM Trans. Multimedia. ACM, 2018, pp.1056-1064.
[10] Xueyang Fu, Jiabin Huang, Delu Zeng, Yue Huang, XinghaoDing, and John Paisley. Removing Rain from Single Imagesvia a Deep Detail Nenvork[Cl. In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2017:1715 - 1723.
[11] Wenhan Yang, Robby T. Tan, Jiashi Feng, Jiaying Liu, Zong-ming Guo, and Shuicheng Yan.. Deep Joint Rain Detectionand Removal from a Single Image[C]. In Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition,2017.
[12] Yu Luo, Yong Xu, and Hui Ji. 2015. Removing Rain from aSingle Image via Discriminative Sparse Coding[C]. In IEEE In-temational Conference on Cc)mputer Vision. 3397-3405.
[13] Yu Li, Robhy T. Tan, Xiaojie Guo, Jiangbo Lu, and MichaelS. Brown. Rain Streak Removal Using Layer PriorsLCl. In Pro-ceedings of the IEEE conference on computer vision and pat-tern recognition,2016:2736-2744.
收稿日期:2020-03-25
作者簡介:譚臺哲(1970—),男,山東人,副教授,主要研究方向為計算機視覺、圖像處理。