廣東工業(yè)大學(xué)自動化學(xué)院 王德培 謝 云
針對語義分割無法較好的處理模糊圖像的問題,提出一種雙邊濾波算法與ENet框架結(jié)合的模糊圖像語義分割方法。雙邊濾波算法在去除圖像噪聲的同時能夠保持圖像的邊緣信息;增強邊緣信息的圖像借助ENet(efficient neural network)框架進行語義分割。實驗表明,提出的方法不僅在視覺效果上優(yōu)于單純的ENet,同時也能夠更準(zhǔn)確的分割圖像中的事物。
相機抖動、聚焦失敗或雨霧天氣影響導(dǎo)致拍攝畫面模糊,不僅影響用戶的正常使用也給圖像語義分割后續(xù)工作帶來巨大的挑戰(zhàn)。圖像語義分割是計算機視覺中的難點之一,在無人駕駛和增強現(xiàn)實領(lǐng)域具有廣泛的應(yīng)用。常見的圖像去噪方法包括小波變換,高斯濾波和中值濾波。雙邊濾波是一種改進的高斯濾波算法。雙邊濾波廣泛用于圖像去干燥,圖像強化和圖像去霧(蘆碧波,王樂蓉.全變分引導(dǎo)的雙邊濾波圖像去噪方法[J].光學(xué)技術(shù),2018,44(02):194-200)。圖像語義分割是像素級的密集分類問題,其目標(biāo)是對圖像中的每個像素執(zhí)行語義信息注釋。深度學(xué)習(xí)在圖像分類和識別方面取得顯著成果。深度學(xué)習(xí)在圖像語義分割方面的應(yīng)用有2015年Jonathan Long和Evan Shelhamer提出的FCN(Shelhamer E,Long J,Darrell T,Fully Convolutional Networks for Semantic Segmenta tion[J].2017,39:640-651),2015年韓國Hyeonwoo提出的DeconvNet(Noh H,Hong S,Han B,Learning Deconvolution Network for Semantic Segmentation[C].IEEE,2015:1520-1528),2016年He Kaiming等人推出的ResNet(He KM,Zhang XY,Ren SQ et al,Deep Residual Learning for Image Recognition[C].IEEE,2016:770-778),2016年Adam Paszke等人提出的ENet, 2017年ChaoPeng提出的global convolutional network(Peng C,Zhang XY,Yu G,et al,Large Kernel Matters-Improve Semantic Segmentation by Global Convolutional Network[C].IEEE,2017:1743-1751)等。本文采用ENet框架,ENet是一種深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),專門為需要低延遲操作的任務(wù)創(chuàng)建。
本文主要討論模糊圖像語義分割問題。提出一種結(jié)合雙邊濾波與ENet框架的模糊圖像語義分割方法。在通過雙邊濾波算法處理之后,圖像被去模糊,然后由ENet框架進行語義分割。
雙邊濾波算法是用于維持對象邊緣信息的圖像處理方法。1998年,Tomasi和Maduchi提出雙邊濾波的定義(JIN LH,XIONG CQ,LIUH.Improved bilateral filter for suppressing mixed noise in color images[J].Digital Signal Processing,2012,22(66):903-912),定義為用作邊緣保持的非線性濾波方法,以局部加權(quán)作為核心理念,同時能夠滿足像素點的幾何關(guān)系和灰度相似性。雙邊濾波結(jié)合像素點的相似度確定權(quán)值系數(shù),直接將像素作為處理單元能夠在不破壞圖像邊緣信息的同時提升時效性,是非局部均勻濾波的簡化(徐蕾,彭月平,賀科寧.基于改進雙邊濾波與隨機共振的 圖像去噪算法研究[J].激光雜志,2018,39(08):142-148)。
假設(shè)噪聲因子為Dh,表達式如下:
式中:
(姚海波,蔣建國,齊美彬,王超.拉普拉斯與雙邊濾波的圖像去運動模糊算法[J].傳感器與微系統(tǒng),2017,36(01):139-142)。
雙邊濾波去噪時,對于亮度變換平緩的像素區(qū)域,鄰近像素之間的亮度幾乎沒有變化,可看作一個低通濾波器;對于亮度發(fā)生顯著變化的區(qū)域,將邊緣亮度值相近的像素作為亮度平均值來代替原來亮度(唐智飛,禹晶,肖創(chuàng)柏.基于雙邊濾波的POCS超分辨率圖像序列重建算法[J].中國體視學(xué)與圖像分析,2011,16(1):84-88)。因此,雙邊濾波算法可以在去噪聲的同時保留圖像的邊緣特征。
ENet框架是Adam Paszke等人2016年提出的,旨在解決大量浮點運算導(dǎo)致深度神經(jīng)網(wǎng)絡(luò)運行時間長,時效性低問題。ENet優(yōu)化了模型參數(shù),保持模型的高精度和快速的前向推理時間。表一給出了ENet框架(Adam P,Abhishek C,Sangpil K et al,ENet:A Deep Neural Network Architecture for Real-Time Semantic Segmentation[J].2016),輸出規(guī)格是在給定輸入圖像為512×512時的值。該模型分為六個階段:初始化階段的卷積和Maxpolling結(jié)果concat到一起,做通道融合;第二階段encoder,第一個bottleneck做下采樣,后接4個重復(fù)的bottleneck;第三階段encoder,其中bottleneck2.0做下采樣,后接不同的卷積;第四階段encoder,重復(fù)第三階段但不包括下采樣功能;第五六階段decoder,包含一個上采樣和兩個普通的bottleneck。
表1 ENet框架
其中bottleneck block的設(shè)計借鑒了Resnet的方式,每個block分為兩條路線學(xué)習(xí)殘差。下采樣的bottleneck主線包括三個卷積層:先22投影做降采樣,然后卷積,再接一個11的做升維;輔線包括最大池化和padding層,最大池化負責(zé)提取上下文信息,padding負責(zé)填充通道至殘差融合,融合后再接PReLU。非下采樣的bottleneck主線包括三層卷積:先是11投影,然后卷積,再接一個11升維;輔線直接恒等映射,融合后再接PReLU。
實驗采用800600大小的圖片進行去模糊與語義分割。圖1展示的是雙邊濾波前后對比照,左圖是模糊圖像和右圖是去模糊后圖像。圖2顯示了語義分割對比照,左圖像是模糊圖像語義分割,右圖像是去模糊圖像語義分割。圖2左圖識別到樹并沒有識別到道路和車輛,右圖識別到樹、車和道路。
圖1 雙邊濾波前后對比照
圖2 語義分割對比照
本文利用雙邊濾波和ENet框架相結(jié)合的方法實現(xiàn)模糊圖像語義分割。該方法提高了模糊圖像語義分割的正確率。在處理模糊圖像時,雙邊濾波算法增強了圖像中物體的邊緣,提高了圖像質(zhì)量。圖像去摸糊后,ENet語義分割框架能夠較為準(zhǔn)確的分割畫面中物體,實驗結(jié)果對比明顯。今后將嘗試不同的方法,繼續(xù)探索圖像去模糊和語義分割內(nèi)容。