林漢斌
摘 要:基于深度學(xué)習(xí)的計算機(jī)視覺研究都是基于大量圖片數(shù)據(jù)樣本,由于有時在工業(yè)上收集目標(biāo)樣本的成本很高,因此這大大限制了深度學(xué)習(xí)在計算機(jī)視覺中的應(yīng)用。針對少量樣本下的圖片分類任務(wù),本文提出一種新型的網(wǎng)絡(luò)模型。并跟目前主流的深度學(xué)習(xí)網(wǎng)絡(luò)比較。證明了我們的模型在少量樣本下仍然具有很好分類精度。
中圖分類號:TP391文獻(xiàn)標(biāo)識碼:A文章編號:1003-9082(2020)02-000-01
一、卷積神經(jīng)網(wǎng)絡(luò)模型
卷積神經(jīng)網(wǎng)絡(luò)是一類特殊的人工神經(jīng)網(wǎng)絡(luò),其主要特點(diǎn)是卷積運(yùn)
算操作。理論上卷積神經(jīng)網(wǎng)絡(luò)的深度越深,模型的擬合能力越強(qiáng)。但研究發(fā)現(xiàn),當(dāng)隨著卷積神經(jīng)網(wǎng)絡(luò)深度的加深,模型的擬合性能不升反降,這主要是因?yàn)槿绻W(wǎng)絡(luò)的深度過深,卷積神經(jīng)網(wǎng)絡(luò)在反向傳播時容易出現(xiàn)梯度消失或梯度爆炸。因此一些研究人員設(shè)計出了一種殘差網(wǎng)絡(luò)可以有效防止網(wǎng)絡(luò)在反向傳播時出現(xiàn)梯度消失或梯度爆炸。殘差網(wǎng)絡(luò)的核心創(chuàng)新點(diǎn)是將前面的輸入也與后面的網(wǎng)絡(luò)層連接。
二、少量樣本下卷積神經(jīng)網(wǎng)絡(luò)模型的設(shè)計
由于少量樣本下,樣本的數(shù)據(jù)有限,因此應(yīng)當(dāng)設(shè)計一個網(wǎng)絡(luò)使得網(wǎng)
絡(luò)能有效的提取圖片的深層次特征。為此,鑒于對殘差網(wǎng)絡(luò),我們設(shè)計了一個基于殘差塊的注意力卷積神經(jīng)網(wǎng)絡(luò)(Res-attention)模型。結(jié)構(gòu)如圖1所示。
與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)對殘差塊進(jìn)行簡單堆疊所不同的是,我們還加入了如虛線所示的結(jié)構(gòu)。該結(jié)構(gòu)先對前置網(wǎng)絡(luò)輸出的特征圖先進(jìn)行下采樣,以獲得更深層次的特征,接著進(jìn)行上采樣,將特征圖縮放至原特征圖一樣大小。接著經(jīng)過sigmoid函數(shù)將,特征圖中的值縮放至0-1之,值越大代表著特征圖區(qū)域所對應(yīng)的圖像為我們的目標(biāo)區(qū)域,使我們的網(wǎng)絡(luò)更能關(guān)注到目標(biāo)區(qū)域的圖像值。
三、模型驗(yàn)證
1.數(shù)據(jù)集獲取
為了驗(yàn)證我們的模型在小樣本下具有很好的分類效果,我們使用爬蟲技術(shù)從網(wǎng)上下載213種觀賞魚的圖片,每種魚的圖片數(shù)量大約在5-40個,圖2是一些示例圖片。
2.數(shù)據(jù)增強(qiáng)
這里我們通過水平翻轉(zhuǎn)和改變亮度對比度增強(qiáng)數(shù)據(jù),圖3是一些示例圖片。
3. 實(shí)驗(yàn)對比
我們將上面通過數(shù)據(jù)增強(qiáng)的圖像數(shù)據(jù)集應(yīng)用在幾個經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型上,比較它們的分類準(zhǔn)確率。得到的結(jié)果見表1所示:
從表中可以看出,在少量樣本我們的Res-attention網(wǎng)絡(luò)較其他的網(wǎng)絡(luò)結(jié)構(gòu)擁有更高的準(zhǔn)確率。
四、結(jié)束語
本文基于在少量數(shù)據(jù)樣本的條件下,提出了Res-atttention網(wǎng)絡(luò)模型。該模型基于殘差網(wǎng)絡(luò),多加一個注意力模塊,使得模型更能關(guān)注到目標(biāo)區(qū)域,而忽視圖片的背景區(qū)域。實(shí)驗(yàn)結(jié)果顯示本文模型在小樣本下仍然具有很好的分類效果。
參考文獻(xiàn)
[1] Krizhevsky A, Sutskever I, Hinton G E. Imagenet Classification with Deep Convolutional Neural Networks[C]//International Conference on Neural Information Processing Systems, Curran Associations Inc. 2012: 1097-1105.
[2]李亞飛,董紅斌.基于卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像分類研究[J].智能系統(tǒng)學(xué)報,2018(4):550-556.
[3] Christian Szegedy, Wei Liu, Yang qing. Going Deeper with Convolution[C]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2015:1-9.