陳 琦,潘偉民
(新疆師范大學 計算機科學技術學院,新疆 烏魯木齊 830054)
隨著數(shù)字信息時代的到來,尤其是計算機技術的迅速發(fā)展以及圖像數(shù)字化設備普及程度的提高,人們接收到越來越多的多媒體信息[1]。據(jù)統(tǒng)計,其中70%是來自圖像的視覺信息[2]。但圖像在數(shù)字化過程中,會不可避免地遭受噪聲污染,這將使得圖像質(zhì)量惡化。這些噪聲不僅降低了人們閱讀圖像的主觀體驗,而且會對計算機圖像識別帶來負面影響[3]。因此,在圖像處理領域,圖像去噪研究成了一個非常熱門且十分重要的研究方向[4]。
傳統(tǒng)去噪方法通常是使用濾波器對圖像噪聲進行濾除,例如中值濾波算法可有效地濾除椒鹽噪聲,均值濾波算法則適用于濾除高斯噪聲,但這些濾波算法通常只對特定的噪聲模型有效[5]。實際情況中圖像很可能被不同類型的噪聲污染[6]。所以傳統(tǒng)的去噪方法不具有通用性。文章基于深度神經(jīng)網(wǎng)絡的圖像去噪模型主要針對自然場景中圖像最常見的兩種噪聲,椒鹽噪聲與高斯噪聲開展研究。為了提高圖像去噪速度,借鑒了自編碼器的網(wǎng)絡結構,并將其改進以符合圖像去噪的要求。文章提出的方法不僅訓練參數(shù)更少,而且經(jīng)過實際檢驗發(fā)現(xiàn),此網(wǎng)絡模型能夠獲得比傳統(tǒng)去噪方法更好地去噪效果,原圖細節(jié)能得到較好的保留,而且對混合噪聲也有不錯的去噪效果。
近年來,深度神經(jīng)網(wǎng)絡的快速發(fā)展倍受矚目,這種深層神經(jīng)網(wǎng)絡結構能夠擬合復雜的樣本特征?;谶@種特性,在圖像去噪領域出現(xiàn)了使用FSRCNN神經(jīng)網(wǎng)絡模型進行去噪的方法[7],基本實現(xiàn)了對圖像中的混合噪聲進行濾除的目標。但FSRCNN網(wǎng)絡最初是被設計用于圖像超分辨率處理任務,并不能很好地適用于圖像去噪任務,所以文章對網(wǎng)絡的最后一部分反卷積網(wǎng)絡進行了改造。整個處理過程分成了:1)特征提??;2)維度收縮;3)非線性映射;4)維度放大;5)圖像重構等過程,環(huán)節(jié)較多結構復雜。最初的FSRCNN網(wǎng)是為完成超分辨率任務而被專門設計的,整個網(wǎng)絡采用了平行結構,即每層網(wǎng)絡只對特征圖的數(shù)量進行了放縮處理,而所有卷尺層的長寬尺寸不發(fā)生變化。為完成去噪任務而改進的FSRCNN網(wǎng)絡繼承了這一結構,這導致了整個網(wǎng)絡的參數(shù)較多,增加了運算量。Wang cun等人發(fā)現(xiàn)這種網(wǎng)絡結構在應用于真實場景圖像去噪任務時,F(xiàn)SRCNN網(wǎng)絡不能很好地區(qū)分噪聲和自然紋理,可能造成圖像細節(jié)丟失[8]。
針對以上情況,文章的目標是在不降低圖像去噪效果的前提下,設計一個更快速的網(wǎng)絡模型實現(xiàn)圖像去噪。Goodfellow[9]等人提出深度自編碼器能夠指數(shù)級減少訓練數(shù)據(jù)和計算需求。文章采用了基于自編碼器的神經(jīng)網(wǎng)絡去噪模型,以加快網(wǎng)絡的運算速度。這個網(wǎng)絡模型不僅在每層的特征圖數(shù)量有放縮處理,在卷積層尺寸上也有變化,最明顯的是采用了啞鈴形狀的自編碼網(wǎng)絡結構。卷積層的長寬尺寸與特征圖數(shù)量成反比,這大大減少了網(wǎng)絡的參數(shù)數(shù)量。通過計算可以得到FSRCNN去噪網(wǎng)絡一次前向計算過程共需要移動64*8=544次卷積核,而文章基于自編碼器的去噪網(wǎng)絡,同樣的一次過程卷積核只需要移動2*(32+16+8+4)=120次。
模型的整體算法流程如圖1所示,其過程表述為:
(1)構建圖像數(shù)據(jù)集:選取自然場景中的人物、風景、建筑等圖像,這些圖像是無噪聲的清晰圖像數(shù)據(jù),分成訓練集和測試集,比例為9:1。
(2)將圖像訓練集加入噪聲后送入神經(jīng)網(wǎng)絡的輸入層。通過前饋運算得到一個輸出結果,將這個輸出結果與清晰的圖像數(shù)據(jù)對比,計算出損失函數(shù)從而對網(wǎng)絡進行反向優(yōu)化,更新各隱層的參數(shù)。經(jīng)過這樣多次迭代后得到自編碼器網(wǎng)絡模型。
(3)利用測試數(shù)據(jù)集對得到的網(wǎng)絡模型進行仿真測試,模型輸出即為去噪網(wǎng)絡模型。
圖1 自編碼器去噪網(wǎng)絡的訓練流程
由于不同的去噪網(wǎng)絡模型直接決定著圖像去噪的整體性能,是整個圖像去噪研究的核心環(huán)節(jié),因此設計自編碼去噪網(wǎng)絡模型是文章研究的重點。自編碼器(Autoencoder)的概念在1986年由Rumelhart提出,并將其用于復雜數(shù)據(jù)的降維處理,促進了深度神經(jīng)網(wǎng)絡的發(fā)展。自編碼神經(jīng)網(wǎng)絡是翻譯型網(wǎng)絡模型,它使用了反向傳播算法,并讓目標值與輸入值建立某種對應關系。而圖像去噪本質(zhì)上也是一種翻譯或轉(zhuǎn)化過程,需要將含有噪聲的圖像按照某種對應關系轉(zhuǎn)化為清晰圖像。文章將自編碼器設計成了帶有多個卷積層與反卷積層的深度學習網(wǎng)絡。一共有7個卷積層,可將自編碼器分成兩個部分,分別是編碼器和解碼器,其網(wǎng)絡結構如圖2所示。
為了使去噪網(wǎng)絡模型能夠處理自然圖像,文章將每幅圖像的數(shù)據(jù)轉(zhuǎn)化為一個3維矩陣。實際訓練過程中,為了加快網(wǎng)絡的訓練速度,每次送入網(wǎng)絡64個圖像數(shù)據(jù),所以傳入到輸入層的數(shù)據(jù)為一個4維矩陣。自編碼器在每一層的最后都加入了激活函數(shù)f(x),目的是使模型能夠?qū)W習到非線性的數(shù)據(jù)模型,具有更強的學習能力。在encoder部分的輸入至第3層采用了leaky relu(x)激活函數(shù),在第4層卷積層上使用了sigmoid(x)激活函數(shù)。在decoder部分的第5至第7卷積層使用了relu(x)函數(shù),最后一層使用了tanh(x)激活函數(shù)。這四種激活函數(shù)的公式和圖形如圖3所示。
圖2 自編碼器網(wǎng)絡結構圖
圖3 文章用到的四種激活函數(shù)
文章采用卷積核為(5*5)的卷積層來組建整個自編碼器模型。卷積神經(jīng)網(wǎng)絡通過共享權值的方法大大減少了參數(shù)的數(shù)量。卷積神經(jīng)網(wǎng)絡的前向傳播如公式(1)。使用來表示網(wǎng)絡中正向傳播節(jié)點矩陣中的第i個節(jié)點,卷積核輸入節(jié)點(x,y,z)的權重,這是一個3維矩陣,使用bi表示第i個節(jié)點矩陣對應的偏置值,則單位矩陣中的第i個節(jié)點的計算值為g(i):
其中ax,y,z為卷積核中節(jié)點(x,y,z)的取值,f(x)為所選擇的激活函數(shù)。
對網(wǎng)絡進行訓練時,將圖像矩陣送入輸入層后通過公式(1)與激活函數(shù)可以得到最終的輸出矩陣。輸出的矩陣同輸入的矩陣結構相同。將這兩個矩陣通過公式(2)計算得出均方誤差,將均方誤差作為損失函數(shù),對損失函數(shù)做梯度下降算法,更新自編碼網(wǎng)絡中每一層的參數(shù)。整個網(wǎng)絡就完成了一次迭代學習。
深度神經(jīng)網(wǎng)絡有時會發(fā)生過擬合(overfitting)的問題,導致這一問題的重要原因是訓練集數(shù)量不足。但現(xiàn)實中收集足夠的符合要求的數(shù)據(jù)集,并對其制作標簽費時費力。為了解決以上問題文章使用了數(shù)據(jù)增加的方法來擴充噪聲圖像數(shù)據(jù)集以提高網(wǎng)絡的健壯性。具體方法是在圖像數(shù)據(jù)集中通過模擬這兩種噪聲的概率分布模型來添加噪聲。文章采用的數(shù)據(jù)集均為彩色RGB圖像,像素值取值范圍為[0,255],有3個色彩通道。因此在加入噪聲時需要限定取值范圍并分別對3個色彩通道進行處理。
2.2.1 生成高斯噪聲圖像
高斯噪聲是一種符合正態(tài)分布的隨機噪聲,也是最常見的噪聲分布。如公式(3):
其中,Z是噪聲數(shù)據(jù),符合期望為μ,方差為σ的正態(tài)分布,k是噪聲強度,X(h,w,c)圖像的像素,最后公式(3)對加噪聲后的圖像像素取值進行限制,避免數(shù)據(jù)溢出。
2.2.2 生成椒鹽噪聲圖像
椒鹽噪聲是一種脈沖噪聲,在圖像中的某些位置隨機產(chǎn)生,并將這些位置的像素點賦值為0或255,即暗點或亮點。如公式(4):
其中,X(h,w)是圖像中某一位置像素3個通道的整體取值,Y服從參數(shù)[0,1]的平均分布,Z滿足P(1)=0.5的0-1分布,SNR為設定的信噪比,范圍在[0,1]。當Y的取值處于[0,1-SNR]時,像素點有0.5概率取值(255,255,255)為白色鹽點,0.5概率取值(0,0,0)為黑色椒點。
2.2.3 生成混合不同噪聲的圖像
生成混合圖像為兩種圖像的疊加。為了充分訓練去噪網(wǎng)絡,文章使用了兩種疊加噪聲的順序。一種是先疊加高斯噪聲再疊加椒鹽噪聲,第二種是采取了相反的過程。實際上這兩種效果區(qū)別不大,如圖4所示。
圖4 加入了噪聲的圖像
圖4 通過以上方法,每幅原圖可以生成若干幅噪聲圖像樣本,使得訓練集的數(shù)量成倍提高,為去噪網(wǎng)絡提供足夠的訓練樣本。而且這種方法也可以避免人工對原圖與噪聲圖像進行匹配標定時所出現(xiàn)的錯誤。
基于自編碼器圖像去噪算法的實驗環(huán)境包括硬件設備和軟件配置兩部分,測試所用硬件配置為Intel Core i5 CPU,GPU為NVIDIA GeForce9600 GT,內(nèi)存為16GB。文章的軟件環(huán)境為Window10 64bit,CUDA Toolkit,OpenCV 3.0,Python 3.5與Tensorflow 1.1.0。
本次實驗使用的數(shù)據(jù)集為ImageNet圖像庫,共有10.4萬張圖像,選取其中1萬張圖像為測試數(shù)據(jù)集,剩余的9萬余張圖像作為訓練數(shù)據(jù)集。
對圖像質(zhì)量的評估主要使用主觀觀察與客觀分析相結合的方法。文章首先做圖像去噪的展示,之后引入一種在圖像評價體系中廣泛使用的SSIM(Structural Similarity)結構相似性算法,對幾種去噪方法得到的圖像進行比較。
3.1.1 自編碼去噪網(wǎng)絡與傳統(tǒng)去噪方法的比較
傳統(tǒng)的中值濾波、均值濾波與基于深度學習的自編碼器去噪網(wǎng)絡,對不同圖像噪聲進行濾除時的效果展示如圖5所示。
圖5 不同去噪方法的圖像展示
其中圖(a-c)分別為在原圖上增加了椒鹽噪聲、高斯噪聲以及混合噪聲后的圖像;圖(d-f)為對不同的噪聲圖像使用中值濾波后得到的圖像;圖(g-i)為對不同噪聲圖像使用均值濾波后得到的圖像;圖(j-l)為文章中的自編碼器圖像去噪網(wǎng)絡對噪聲圖像的去噪效果圖。
從圖5可以看出,中值濾波可以很好地處理椒鹽噪聲,但是對高斯噪聲的去噪效果欠佳,而均值濾波與之相反,經(jīng)過均值濾波處理過的椒鹽噪聲圖像中椒鹽噪聲依舊存在,并且兩種傳統(tǒng)的去噪方法都使得圖像部分細節(jié)丟失。當面對兩種噪聲疊加的圖像時,傳統(tǒng)的去噪方法無法有效地去除噪聲,使得圖像失真嚴重。從圖5中可得,文章介紹的基于卷積神經(jīng)網(wǎng)絡的自編碼器的降噪效果明顯好于前兩種傳統(tǒng)方法,圖像去噪效果明顯。在噪聲疊加且噪聲強度十分大的情況下,圖像的噪聲被基本濾除,沒有明顯的噪聲殘留,并且圖像細節(jié)基本得到了保留。
3.1.2 自編碼去噪網(wǎng)絡與FSRCNN網(wǎng)絡的去噪效果對比
對比FSRCNN去噪網(wǎng)絡的去噪效果圖6,可以看出原文中圖像的噪聲強度比文章中采用的噪聲強度小,圖像經(jīng)過去噪處理后基本濾除了混合噪聲,但是有明顯的椒鹽噪聲殘留。
圖6 FSRCNN網(wǎng)絡中的去噪圖像展示[1]
SSIM(structural similarity index)為結構相似性算法[10],是一種衡量兩幅圖像相似度的評判標準。文章將SSIM的取值規(guī)范在(0,100)范圍,得分越高說明圖像的去噪效果越好,其統(tǒng)計結果如表1所示。
表1 SSIM值統(tǒng)計表
SSIM的統(tǒng)計值也表明了文章的自編碼器對噪聲圖像的去噪效果得分高于傳統(tǒng)的去噪方法,而且對于混合噪聲也有很好地去噪效果。
文章對圖像的去噪算法進行了簡單闡述,針對各種算法的不足設計了用于去除噪聲的基于卷積神經(jīng)網(wǎng)絡的自編碼器,并設置了適當?shù)乃惴▍?shù),得出了令人比較滿意的去噪結果,與傳統(tǒng)的去噪方法相比圖像的去噪效果更好,健壯性更強。與當前其他基于神經(jīng)網(wǎng)絡的去噪模型相比,同樣能夠有效處理圖像中的混合噪聲,并且網(wǎng)絡結構更簡潔、計算量更少、網(wǎng)絡收斂速度更快。必須指出,文章中的方法對圖像的大小尺寸有嚴格的要求,更大尺寸的圖像會使得整個神經(jīng)網(wǎng)絡收斂、速度變慢。未來要不斷改進網(wǎng)絡結構與算法參數(shù)才能滿足實際應用的需要。