梁 紅 金磊磊 楊長生
(西北工業(yè)大學(xué)航海學(xué)院 西安 710072)
受海洋環(huán)境復(fù)雜性的影響,水下攝像機等設(shè)備采集到的水下圖像往往邊緣和細(xì)節(jié)模糊,目標(biāo)與背景對比度低,同時圖像易受噪聲污染[1-2],這使得水下圖像識別成為一項非常具有挑戰(zhàn)性的工作.傳統(tǒng)識別方法通常使用人工提取的數(shù)據(jù)特征,配合不同的分類器實現(xiàn)目標(biāo)識別[3-4].這些人為的特征提取手段對某些特定的識別任務(wù)有較好的性能,但是提取有效特征需要專業(yè)的領(lǐng)域知識,并且這些方法大多泛化能力有限.
深度學(xué)習(xí)是模式識別領(lǐng)域一個新的研究熱點.借助深度學(xué)習(xí),多處理層組成的神經(jīng)網(wǎng)絡(luò)模型通過多層抽象來自動學(xué)習(xí)數(shù)據(jù)表征,避免了人工提取特征的困難[5].自2006年以來,借助于大數(shù)據(jù),卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, ConvNets)在空氣中的光學(xué)圖像識別方面迅速發(fā)展,已經(jīng)取得了巨大成功[6-7].但是,基于深度學(xué)習(xí)的水下圖像識別研究還遠(yuǎn)遠(yuǎn)不夠[8].其中一個重要原因,是因為當(dāng)數(shù)據(jù)集訓(xùn)練樣本較少時,深層神經(jīng)網(wǎng)絡(luò)很容易發(fā)生過擬合[9],網(wǎng)絡(luò)性能嚴(yán)重下降.而水下圖像采集通常需要耗費大量人力物力,使得很難獲得足夠的水下圖像數(shù)據(jù)用于深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練.
針對水下圖像識別中,圖像受噪聲污染及圖像數(shù)據(jù)量不足等問題,提出改進中值濾波圖像降噪算法以及小樣本情況下基于深層卷積神經(jīng)網(wǎng)絡(luò)的水下圖像識別方法.更具體地,利用水下攝像機在開放水域捕捉到的魚類圖像數(shù)據(jù)集,通過一套有效的算法來解決水下魚類識別問題.
實驗表明,相機拍攝的圖像通常受到脈沖噪聲和高斯噪聲的影響.噪聲的存在給圖像后續(xù)處理帶來困難,對圖像分割、特征提取、圖像識別等都有直接影響.
中值濾波是基于排序統(tǒng)計理論的一種能夠有效抑制脈沖噪聲的非線性信號處理技術(shù)[10].標(biāo)準(zhǔn)中值濾波器一般使用滑動窗口,從圖像左上角開始依次獲取圖像的局部像素值,然后用局部像素中值替代滑窗中心位置處的像素值,直到遍歷整張圖像.該算法相對簡單,易于實現(xiàn).
以上給出了中值濾波器針對單通道灰度圖像的處理算法,彩色RGB(三通道)圖像的處理算法與之類似,即對每一通道分別作中值濾波處理.
ConvNets是一種有效的分類識別模型,近年來廣泛應(yīng)用于圖像識別任務(wù)中.典型的ConvNets結(jié)構(gòu)是多個基本模塊的多層堆疊,包括卷積層、池化層和全連接層等.輸入原始數(shù)據(jù),每個模塊依次將上一個層次的數(shù)據(jù)表征轉(zhuǎn)換為更高層次和更抽象層次的描述,實現(xiàn)了原始數(shù)據(jù)特征的自動提取.對于識別任務(wù),高級別的表征更能反映目標(biāo)類別的本質(zhì)特征.
受到生物視覺機制啟發(fā),結(jié)合自然圖像特點,ConvNets模型的設(shè)計采用以下核心理念:局部連接,權(quán)重共享,池化和多網(wǎng)絡(luò)層的使用.因此,與相同層數(shù)的全連接神經(jīng)網(wǎng)絡(luò)相比,ConvNets內(nèi)部具有更少的連接和參數(shù),相對更易于訓(xùn)練[11].此外,可以通過改變ConvNets的深度和寬度來調(diào)整模型的性能.
一個典型的ConvNets模型是AlexNet,見圖1.該網(wǎng)絡(luò)共有八層,其中前五層執(zhí)行卷積運算,后三層是全連接層.最后一層的輸出將被送到Softmax分類器中,得到輸入數(shù)據(jù)在1000個類別上的概率分布情況.在2012屆ImageNet大型視覺識別挑戰(zhàn)賽(ILSVRC)中,Alex團隊利用該模型取得圖像識別錯誤率15.3%的成績,而排名第二的傳統(tǒng)模型識別錯誤率達(dá)26.2%.結(jié)果表明,深層卷積神經(jīng)網(wǎng)絡(luò)能夠通過監(jiān)督學(xué)習(xí)方式,在大數(shù)據(jù)集上實現(xiàn)較高準(zhǔn)確率的物體識別.
圖1 AlexNet整體結(jié)構(gòu)
標(biāo)準(zhǔn)中值濾波器會對原始圖像中的每個像素點,都進行中值濾波處理.這樣一來,圖像處理結(jié)果很大程度上將會受到設(shè)定的濾波器窗口大小的影響.具體來說,一個小的濾波窗口可以更好地保護原始圖像的細(xì)節(jié)信息,但是噪聲抑制能力將受到限制;一個大的濾波窗口可以增強噪聲抑制能力,但是原始圖像的細(xì)節(jié)將變模糊.為了盡量減小濾波窗口大小設(shè)定對圖像處理結(jié)果的影響,提出改進中值濾波器.不同于標(biāo)準(zhǔn)中值濾波器處理圖像中的所有像素,改進中值濾波器通過設(shè)定閾值,只處理被認(rèn)為受脈沖噪聲污染的像素.減少濾波窗口處理的像素數(shù)量,也就減少了濾波窗口大小設(shè)定對圖像處理結(jié)果的影響.以灰度圖像為例,改進中值濾波算法分為兩個主要步驟.
步驟1根據(jù)受污染像素與其周圍未受噪聲污染像素的值相差較大這一先驗信息來檢測被脈沖噪聲污染的圖像像素.
1) 脈沖噪聲主要將像素真值改變?yōu)?或255,所以我們只關(guān)心那些值為0或255的像素,其他像素被認(rèn)為未受脈沖噪聲污染.
2) 使用5×5標(biāo)準(zhǔn)中值濾波器對整個原始圖像進行處理,得到粗略降噪圖像.求原始圖像與粗略降噪圖像對應(yīng)像素值的差值,將全部差值的均值作為閾值來決定我們感興趣的像素是否為噪聲污染像素.具體而言,如果原始圖像與粗略降噪圖像對應(yīng)像素點的差值大于閾值,則該像素被認(rèn)為受到噪聲污染,否則認(rèn)為該像素未受到噪聲污染.
步驟2分別處理受脈沖噪聲污染的像素點.即對原始圖像,使用5×5中值濾波窗口依次處理受污染的像素,保留未受污染像素,得到精細(xì)降噪圖像.
以上給出了改進中值濾波器針對單通道灰度圖像的處理算法,該改進算法同樣可以應(yīng)用于彩色RGB圖像的降噪中,只需要對彩色圖像的三個通道分別作改進中值濾波處理即可.
為定量評價降噪效果,使用式(1)計算RGB圖像的峰值信噪比(peak signal to noise ratio, PSNR):
PSNR=
(1)
深層神經(jīng)網(wǎng)絡(luò)通常有數(shù)百萬的連接和權(quán)值.雖然ConvNets采用了局部連接和權(quán)值共享理念,仍然有大量的權(quán)值需要通過訓(xùn)練進行調(diào)整.當(dāng)ConvNets應(yīng)用于大型數(shù)據(jù)集時,能夠取得很好的結(jié)果.然而,訓(xùn)練集樣本數(shù)量較少時,網(wǎng)絡(luò)易發(fā)生過擬合.所謂過擬合,即卷積網(wǎng)絡(luò)對訓(xùn)練集數(shù)據(jù)能取得較高的識別準(zhǔn)確率,但是對測試集數(shù)據(jù)的識別準(zhǔn)確率很低.對于水下圖像識別任務(wù),一個實際問題是無法獲得足夠的樣本圖像來訓(xùn)練神經(jīng)網(wǎng)絡(luò).借鑒深度信念網(wǎng)絡(luò)(deep belief networks, DBNs)的訓(xùn)練過程[12],將卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練同樣分為預(yù)訓(xùn)練和微調(diào)兩步,以解決小樣本情況網(wǎng)絡(luò)過擬合的問題,從而提出一種小樣本情況下基于卷積神經(jīng)網(wǎng)絡(luò)的水下圖像識別方法.方法分為三個主要階段.
步驟1使用大數(shù)據(jù)集預(yù)先訓(xùn)練ConvNets.ConvNets不僅是分類器,也是特征提取器,其隱含層以利于預(yù)測目標(biāo)類別的方式來學(xué)習(xí)并表示網(wǎng)絡(luò)的輸入,經(jīng)過預(yù)訓(xùn)練的ConvNets將對圖像的顏色、紋理和邊緣等信息敏感.自然圖像具有一定的共性,使用與我們期望識別的類別不一樣的圖像來預(yù)訓(xùn)練網(wǎng)絡(luò)是合理的.ImageNet圖像數(shù)據(jù)集為我們提供了一個這樣的大數(shù)據(jù)集,它有超過1 500萬個帶標(biāo)簽的高分辨率圖像,屬于大約22 000個類別[13].
步驟2使用獲取的小樣本圖像數(shù)據(jù)集對第一階段訓(xùn)練完的ConvNets微調(diào).多層架構(gòu)的卷積網(wǎng)絡(luò)可以通過隨機梯度下降優(yōu)化算法來進一步訓(xùn)練,實現(xiàn)參數(shù)的微調(diào)整.此時,分類器的輸出個數(shù)需要修改為小樣本圖像數(shù)據(jù)集的目標(biāo)類別數(shù)目.
步驟3最后一個階段是對微調(diào)后的ConvNets識別準(zhǔn)確率進行測試.如果準(zhǔn)確率達(dá)到應(yīng)用要求,則可將訓(xùn)練好的ConvNets用于該圖像識別任務(wù)中.
采用Fish4Knowledge項目[14]在開放海域采集的魚類圖像數(shù)據(jù)進行小樣本情況水下圖像識別方法實驗驗證,海洋魚類圖像見圖2,在10類代表性魚類圖片的下面分別標(biāo)有類別名稱和相應(yīng)的樣本數(shù)量.圖2 的圖像是較為理想的,許多圖像受噪聲污染質(zhì)量較差.該數(shù)據(jù)集是非常不均衡的,10類數(shù)據(jù)中,樣本數(shù)最多的有450張圖像,而樣本數(shù)最少的只有90張圖像.從樣本總數(shù)來看,很難直接利用深度學(xué)習(xí)方法獲得高的圖像識別率.
圖2 10類海洋魚類圖像
圖像降噪可以為后續(xù)的魚類識別任務(wù)減少干擾.為了克服標(biāo)準(zhǔn)中值濾波器的缺點,采用本文提出的改進中值濾波器對圖像進行噪聲抑制.圖3分別是采用標(biāo)準(zhǔn)中值濾波器和改進中值濾波器對含噪魚類圖像的處理結(jié)果.
圖3 標(biāo)準(zhǔn)中值濾波與改進中值濾波圖像降噪結(jié)果
由圖3可知,標(biāo)準(zhǔn)中值濾波器的圖像處理結(jié)果直接受濾波器窗口大小的影響.相比于標(biāo)準(zhǔn)中值濾波算法,改進中值濾波算法不僅可以有效地抑制脈沖噪聲,同時很好地保留原始圖像細(xì)節(jié).
為了進行定量比較,我們根據(jù)式(1)計算了三種不同方法處理后的圖像的PSNR,見表1.通過比較最后一列數(shù)值與前兩列數(shù)值,可以看到改進算法對圖像峰值信噪比的提高是實質(zhì)性的,相比于標(biāo)準(zhǔn)中值濾波器高出2 dB左右.
表1 標(biāo)準(zhǔn)及改進中值濾波降噪圖像峰值信噪比
ConvNets的架構(gòu)包含四個關(guān)鍵思想:局部連接、共享權(quán)值、池化以及使用多個層.本文實驗使用的ConvNets模型的總體結(jié)構(gòu)見圖4,近似于AlexNet模型.圖4中標(biāo)注了不同層的定義,前五層是卷積層,其余三層是全連接層,輸出層的輸出類別數(shù)目在不同的訓(xùn)練階段不相同.采取零均值,標(biāo)準(zhǔn)差為0.01的高斯分布來初始化每個卷積層中最初的權(quán)重.
圖4 本文使用的ConvNets模型
文中卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練分為兩個階段,利用Caffe深度學(xué)習(xí)框架[15]完成網(wǎng)絡(luò)訓(xùn)練和測試.在第一階段,使用從ImageNet數(shù)據(jù)集獲取的圖像對網(wǎng)絡(luò)進行預(yù)訓(xùn)練,預(yù)訓(xùn)練數(shù)據(jù)集包含1 000類物體,每個類別有1 000張圖像.經(jīng)過預(yù)訓(xùn)練,ConvNets的網(wǎng)絡(luò)權(quán)重等參數(shù)實現(xiàn)了恰當(dāng)?shù)某跏蓟W(wǎng)絡(luò)初步具備了對圖像信息的表達(dá)能力.
在第二階段,將降噪預(yù)處理后的魚類圖像尺寸調(diào)整為227×227,并將整個魚類數(shù)據(jù)集分為三個子集:訓(xùn)練集500張圖像(10個類別各50張圖像),驗證集200張圖像(10個類別各20張圖像),其余的1 420張圖像作測試.
最后一層輸出神經(jīng)元數(shù)目從階段一的1 000改為10,并將輸出結(jié)果饋送到10路輸出的Softmax分類器中,得到輸入圖像在10個類別上的概率分布情況.采用小批量梯度(mini-batch gradient descent, MBGD)下降算法(批大小設(shè)置為40),通過對分類誤差的反向傳播來微調(diào)經(jīng)過預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)參數(shù).基礎(chǔ)學(xué)習(xí)率設(shè)為0.001,同時設(shè)置0.005的權(quán)重衰減和0.9的動量系數(shù).網(wǎng)絡(luò)前七層的學(xué)習(xí)速率相等,最后一層的學(xué)習(xí)率設(shè)置為它們的10倍.每訓(xùn)練迭代1 000次,整體學(xué)習(xí)率下降為之前的一半.
經(jīng)過5 000次迭代,完成ConvNets的微調(diào).最終,在驗證集上取得85.50%的平均識別準(zhǔn)確率,在測試集上達(dá)到85.08%的平均識別準(zhǔn)確率.圖5為微調(diào)階段訓(xùn)練損失隨訓(xùn)練迭代次數(shù)的變化曲線,圖6為驗證準(zhǔn)確率隨訓(xùn)練迭代次數(shù)的變化曲線,證明了所提卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練策略對于小樣本情況下的圖像識別是有效的.
圖5 微調(diào)階段訓(xùn)練誤差-迭代次數(shù)曲線
圖6 微調(diào)階段驗證準(zhǔn)確率-迭代次數(shù)曲線
提出了一種改進的中值濾波器以及一種有效的小樣本情況下基于卷積神經(jīng)網(wǎng)絡(luò)的水下目標(biāo)識別方法,并通過魚類圖像數(shù)據(jù)集進行了實驗驗證.不同于傳統(tǒng)水下目標(biāo)識別方法,目標(biāo)特征是從訓(xùn)練數(shù)據(jù)中通過監(jiān)督學(xué)習(xí)自動得到的,因此不需要專業(yè)的關(guān)于魚類或圖像特征提取的有關(guān)知識.本文方法對解決其他水下目標(biāo)識別問題提供了重要參考,對深度學(xué)習(xí)理論應(yīng)用于水下目標(biāo)識別具有促進作用,并且在海洋生物調(diào)查和水產(chǎn)養(yǎng)殖等方面具有廣闊的應(yīng)用前景.