摘要:為解決卷積神經(jīng)網(wǎng)絡(luò)在研究圖像分類問題時(shí),由于訓(xùn)練樣本過少而導(dǎo)致模型過擬合、測(cè)試準(zhǔn)確率低的問題,本文整合了一套輕量級(jí)的數(shù)據(jù)增強(qiáng)方案,可以快速擴(kuò)充圖像樣本。本文以Fashion-MNIST和CIFAR-10數(shù)據(jù)集為例,在只選取少量初始樣本的前提下進(jìn)行數(shù)據(jù)擴(kuò)充,采用TensorFlow深度學(xué)習(xí)框架和Keras搭建VGGNet-13和ResNet-18模型進(jìn)行訓(xùn)練和測(cè)試。結(jié)果表明,模型在測(cè)試集上表現(xiàn)出較好的準(zhǔn)確率,有效應(yīng)對(duì)小樣本學(xué)習(xí)帶來的過擬合問題,驗(yàn)證了該數(shù)據(jù)增強(qiáng)方案的有效性。
關(guān)鍵詞: 數(shù)據(jù)增強(qiáng); 卷積神經(jīng)網(wǎng)絡(luò); 小樣本學(xué)習(xí); 圖像分類; 隨機(jī)填充
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)23-0021-04
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)
0 引言
Yann LeCun等人[1]在1998年提出了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN) ,該技術(shù)在識(shí)別手寫數(shù)字方面取得了顯著的成績(jī)。經(jīng)過二十多年的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在許多領(lǐng)域都起著至關(guān)重要的作用,例如圖像分類[2]、語音識(shí)別[3]、目標(biāo)檢測(cè)[4]、人臉識(shí)別[5]等。圖像分類是利用算法對(duì)已有的圖像進(jìn)行特征學(xué)習(xí),找出其所屬的類別。雖然卷積神經(jīng)網(wǎng)絡(luò)在圖像分類問題上有著顯著的效果,但前提是需要收集大量的圖像樣本用于訓(xùn)練,否則神經(jīng)網(wǎng)絡(luò)將很難學(xué)到足夠的特征信息。然而,獲取充足且具有較好區(qū)分度、特征清晰的樣本通常比較困難。在只有少量樣本的情況下,如果直接使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)小樣本進(jìn)行訓(xùn)練,很容易出現(xiàn)過擬合現(xiàn)象,且模型不具備泛化能力。
小樣本學(xué)習(xí)[6]是在只有少量初始樣本的前提下,訓(xùn)練出一個(gè)能解決實(shí)際問題的模型。針對(duì)小樣本困境,數(shù)據(jù)增強(qiáng)[7]是一種實(shí)用且非常有效的方法,它可以大量增加樣本的數(shù)量和特征。數(shù)據(jù)增強(qiáng)的具體實(shí)現(xiàn)策略較多,包括圖像的幾何變換、色彩變換、圖像拼接和模型生成等。而且,不同的策略有著不同的實(shí)現(xiàn)要求,任意的數(shù)據(jù)增強(qiáng)方法也不一定兼容。因此,本文以輕量化、低成本和兼容性為出發(fā)點(diǎn),選擇不基于模型、只對(duì)單圖像進(jìn)行變換的數(shù)據(jù)增強(qiáng)方法,即隨機(jī)裁剪[8]、隨機(jī)翻轉(zhuǎn)、隨機(jī)擦除[9]和隨機(jī)填充[10]4種方法對(duì)小樣本數(shù)據(jù)進(jìn)行擴(kuò)充。
本文分別從Fashion-MNIST和CIFAR-10數(shù)據(jù)集的訓(xùn)練集中隨機(jī)抽取少量樣本,以構(gòu)造小樣本困境,兩個(gè)數(shù)據(jù)集中的測(cè)試集用于驗(yàn)證模型測(cè)試的準(zhǔn)確率。接著將4種數(shù)據(jù)增強(qiáng)方法進(jìn)行整合,按比例對(duì)小樣本進(jìn)行數(shù)據(jù)擴(kuò)充。最后選擇VGGNet-13[11]和ResNet-18[12]模型做圖像分類的訓(xùn)練和測(cè)試,通過研究小樣本在有數(shù)據(jù)增強(qiáng)和無數(shù)據(jù)增強(qiáng)的兩種不同情況下,計(jì)算出卷積神經(jīng)網(wǎng)絡(luò)在測(cè)試集上的準(zhǔn)確率,驗(yàn)證該方案的有效性。
1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集
1.1 實(shí)驗(yàn)環(huán)境
本文在Windows 11系統(tǒng)下進(jìn)行訓(xùn)練和測(cè)試。實(shí)驗(yàn)基于Anaconda 2022平臺(tái),采用深度學(xué)習(xí)框架TensorFlow 2.10和Keras 2.10搭建神經(jīng)網(wǎng)絡(luò)模型,運(yùn)用Numpy庫(kù)和Matplotlib庫(kù)對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理和數(shù)據(jù)可視化。
1.2 數(shù)據(jù)集
本文采用的數(shù)據(jù)集為Fashion-MNIST和CIFAR-10,這兩個(gè)數(shù)據(jù)集均可從Keras中下載。
1) Fashion-MNIST數(shù)據(jù)集。Fashion-MNIST數(shù)據(jù)集包含有10個(gè)類別、70 000張像素為28×28的灰度圖像。其中訓(xùn)練數(shù)據(jù)集中每個(gè)類別含有6 000個(gè)樣本,測(cè)試數(shù)據(jù)集中每個(gè)類別含有1 000個(gè)樣本。數(shù)據(jù)集的類別分別是:T-shirt(T恤)、Trouser(牛仔褲)、Pullover(套衫)、Dress(裙子)、Coat(外套)、Sandal(涼鞋)、Shirt(襯衫)、Sneaker(運(yùn)動(dòng)鞋)、Bag(包)以及Ankle Boot(短靴)。訓(xùn)練樣本實(shí)例如圖1所示。
2) CIFAR-10數(shù)據(jù)集。CIFAR-10數(shù)據(jù)集由60 000張分辨率為32×32的彩色圖像組成,包含50 000個(gè)訓(xùn)練圖像和10 000個(gè)測(cè)試圖像。該數(shù)據(jù)集共有10個(gè)類別,分別為:Airplane(飛機(jī))、Automobile(汽車)、Bird(鳥)、Cat(貓)、Deer(鹿)、Dog(狗)、Frog(青蛙)、Horse(馬)、Ship(船)以及Truck(卡車),每個(gè)類別包含6 000張圖像。訓(xùn)練樣本實(shí)例如圖1所示。
1.3 小樣本數(shù)據(jù)
由于小樣本所指代的具體樣本數(shù)量沒有明確的定義,因此,本文分別對(duì)Fashion-MNIST和CIFAR-10數(shù)據(jù)集構(gòu)造出3種不同的小樣本初始狀態(tài)。具體地,初始樣本數(shù)量分別設(shè)置為1 500、3 000和4 500個(gè),其中,每一類樣本分別占150、300和450個(gè)樣本。這些樣本均是隨機(jī)從訓(xùn)練集中抽取。這樣做的好處是在于,可以研究不同樣本數(shù)量的初始狀態(tài)與數(shù)據(jù)增強(qiáng)方案之間的聯(lián)系。
2 數(shù)據(jù)增強(qiáng)方法
2.1 隨機(jī)填充
隨機(jī)填充(Random Padding,RP) 的概念由Nan Yang等提出。他們認(rèn)為,CNN通過學(xué)習(xí)圖像中不同位置的同一物體,可以提高模型的識(shí)別精度。這是因?yàn)樘卣骺臻g信息會(huì)阻礙模型對(duì)特征關(guān)系的學(xué)習(xí),而隨機(jī)填充的數(shù)據(jù)增強(qiáng)方法可以減弱模型對(duì)特征位置信息的學(xué)習(xí)。
RP是一種用于訓(xùn)練CNN的新填充方法,它通過在圖像的一半邊界上隨機(jī)添加零填充來實(shí)現(xiàn)。這種操作隨機(jī)地改變特征位置的信息,可以有效削弱模型對(duì)位置信息的學(xué)習(xí)能力。該方法結(jié)構(gòu)簡(jiǎn)單,不需要參數(shù)學(xué)習(xí),并且與其他CNN識(shí)別圖像的模型兼容。RP的實(shí)現(xiàn)過程非常簡(jiǎn)單,它通過隨機(jī)地對(duì)特征圖相鄰的兩個(gè)邊界(左上、右上、左下和右下)進(jìn)行零填充,填充一次則圖像的尺寸增加1。常見的填充厚度為n = 1、2、3,選擇填充厚度后RP會(huì)執(zhí)行2n次填充操作。
令輸入圖像為I,其中T、B、L、R分別為圖像的上、下、左、右四個(gè)邊界,S表示圖像的四種相鄰邊界的組合,從中選擇一種記為Sn,輸出為隨機(jī)填充的圖像I′。RP的實(shí)現(xiàn)步驟如下:
INPUT: I
PROCESS:
T = B = L = R = 0
S = [[1,0,1,0],[1,0,0,1],[0,1,1,0],[0,1,0,1]]
FOR i = 1,2,..,2n DO
Sn = RANDOM_CHOICE(S,1)
T += Sn [0]
B += Sn [1]
L += Sn [2]
R += Sn [3]
END FOR
I′ = I([T , B , L , R])
OUTPUT: I′
2.1.1 圖像的RP
采用RP數(shù)據(jù)增強(qiáng)方法,對(duì)Fashion-MNIST和CIFAR-10數(shù)據(jù)集的初始樣本進(jìn)行數(shù)據(jù)增廣,每個(gè)樣本進(jìn)行4次RP操作,即每張?jiān)瓐D被擴(kuò)充為4張。因此,初始樣本數(shù)變?yōu)镹1 = 6 000、12 000、18 000。本文的隨機(jī)填充厚度統(tǒng)一設(shè)置為n = 3,而隨機(jī)填充操作會(huì)改變圖像的原有尺寸。因此,原圖像經(jīng)過RP操作后,兩個(gè)數(shù)據(jù)集的樣本尺寸分別從28×28和32×32增加到34×34和38×38。原始樣本經(jīng)過RP操作的實(shí)例如圖2所示。
2.2 隨機(jī)裁剪
隨機(jī)裁剪(Random Cropping,RC) 是一種簡(jiǎn)易的單圖像數(shù)據(jù)增強(qiáng)方法。RC需要預(yù)先定義圖像的裁剪面積大小和裁剪次數(shù),以及目標(biāo)區(qū)域的裁剪概率。RC通過對(duì)原圖像進(jìn)行多次操作得到許多不同的圖像,從而達(dá)到數(shù)據(jù)擴(kuò)充的目的。經(jīng)過裁剪后的圖像,其尺寸有可能不相同,這種情況可以根據(jù)任務(wù)需求,將圖像重新調(diào)整為與裁剪之前相同的尺寸。RC可以快速增加圖像的數(shù)量和多樣性,進(jìn)而降低模型過擬合的風(fēng)險(xiǎn)。
2.2.1 圖像的RC+RP
本文運(yùn)用RC對(duì)每張初始圖像進(jìn)行2次裁剪,設(shè)定裁剪面積為原圖像的80%,并且將裁剪圖像重新調(diào)整為原圖的尺寸。最后,采用RP對(duì)2張裁剪圖像分別進(jìn)行2次零填充。因此,經(jīng)過RC+RP操作后,1張初始圖像擴(kuò)充為4張,而初始樣本被增廣為N2 = 6 000、12 000、18 000。原圖經(jīng)過RC+RP操作后的實(shí)例如圖3所示。
2.3 隨機(jī)翻轉(zhuǎn)
圖像翻轉(zhuǎn)包括:鏡像翻轉(zhuǎn)(左右翻轉(zhuǎn))、垂直翻轉(zhuǎn)(上下翻轉(zhuǎn))、鏡像加垂直翻轉(zhuǎn)(左右和上下同時(shí)翻轉(zhuǎn)),共3種翻轉(zhuǎn)方式。而隨機(jī)翻轉(zhuǎn)(Random Flipping,RF) 是從3種翻轉(zhuǎn)方法中隨機(jī)選擇,以增加圖像樣本數(shù)量,并提高圖像特征的多樣性。
2.3.1 圖像的RF+RP
本文從3種RF方式中隨機(jī)選擇2種對(duì)初始圖像進(jìn)行操作,得到2張翻轉(zhuǎn)圖像,然后對(duì)每張翻轉(zhuǎn)圖像進(jìn)行2次RP操作。因此,1張?jiān)瓐D增廣為4張。最終,初始樣本被增廣為N3 = 6 000、12 000、18 000。原圖經(jīng)過RF+RP操作后的實(shí)例如圖4所示。
2.4 隨機(jī)擦除
隨機(jī)擦除(Random Erasing,RE) 是在圖像中隨機(jī)選擇一個(gè)矩形區(qū)域進(jìn)行擦除,用0像素值代替擦除區(qū)域的像素值。這種技術(shù)可以對(duì)同一張圖像進(jìn)行多次擦除操作,產(chǎn)生許多具有不同遮擋程度的圖像,從而達(dá)到數(shù)據(jù)擴(kuò)充的目的。RE的優(yōu)點(diǎn)在于其實(shí)現(xiàn)難度低,屬于輕量級(jí)的技術(shù),并且不需要模型參數(shù)學(xué)習(xí)。此外,增加RE處理的圖像可以降低模型過擬合的風(fēng)險(xiǎn),提高模型對(duì)遮擋圖像的魯棒性。
RE的實(shí)現(xiàn)過程并不復(fù)雜。首先,根據(jù)輸入圖像的寬度W和高度H,計(jì)算出圖像的面積A = W×H;然后,需要定義最小擦除面積比例sl和最大擦除面積比例sh,以避免出現(xiàn)無效擦除和過度擦除的情況。隨機(jī)從[sl,sh]之間取值,可得到初始化擦除面積Se。最后,定義擦除面積的最小長(zhǎng)寬比re,則擦除面積的高為He = (Se×re)1/2,寬為We = (Se / re)1/2。根據(jù)這些參數(shù)設(shè)置,可以實(shí)現(xiàn)隨機(jī)選擇圖像的擦除面積和擦除位置。
2.4.1 圖像的RE+RP
本文對(duì)初始樣本進(jìn)行2次RE操作,然后使用RP對(duì)每張被擦除的圖像進(jìn)行2次RP操作,使1張?jiān)瓐D擴(kuò)充為4張。因此,初始樣本被增廣為N4 = 6 000、12 000、18 000。原始圖像經(jīng)過RE+RP操作后的實(shí)例如圖5所示。
2.5 訓(xùn)練集與測(cè)試集
Fashion-MNIST和CIFAR-10數(shù)據(jù)集的小樣本經(jīng)過RP、RC+RP、RF+RP、RE+RP的操作之后,初始樣本數(shù)量從開始的1 500、3 000、4 500個(gè),分別擴(kuò)充為N1 + N2 + N3 + N4 = 24 000、48 000、72 000,即每張?jiān)紙D像按照1:16的比例進(jìn)行了數(shù)據(jù)擴(kuò)充。由于隨機(jī)填充改變了圖像的原始尺寸,兩個(gè)數(shù)據(jù)集的擴(kuò)充樣本尺寸分別為34×34和38×38。這些經(jīng)過一整套低成本數(shù)據(jù)增強(qiáng)方案得到的增強(qiáng)樣本,會(huì)根據(jù)不同的初始樣本情況,分別用于模型的訓(xùn)練。
另外,為了證明數(shù)據(jù)增強(qiáng)方案的有效性,本文還研究了在沒有采用數(shù)據(jù)增強(qiáng)方案的情況下,直接將1 500、3 000、4 500個(gè)初始樣本用于模型訓(xùn)練的情況。然而,F(xiàn)ashion-MNIST數(shù)據(jù)集的初始樣本尺寸只有28×28,這個(gè)圖像尺寸會(huì)導(dǎo)致VGGNet-13網(wǎng)絡(luò)無法完成卷積和池化過程。因此,在研究這一問題時(shí),本文對(duì)Fashion-MNIST的1 500、3 000、4 500個(gè)初始樣本采用傳統(tǒng)的0填充方式,將圖像尺寸從28×28增大至34×34。
為了更好地驗(yàn)證模型的泛化性能,本文將Fashion-MNIST和CIFAR-10數(shù)據(jù)集中的10 000個(gè)測(cè)試樣本用于模型測(cè)試,計(jì)算模型的準(zhǔn)確率。由于兩個(gè)測(cè)試集的樣本尺寸分別為28×28和32×32,無法直接用于測(cè)試,這是因?yàn)橛?xùn)練樣本的尺寸已經(jīng)被改變。因此,本文將Fashion-MNIST和CIFAR-10數(shù)據(jù)集中的測(cè)試樣本全部進(jìn)行傳統(tǒng)0填充,將圖像尺寸分別增大至34×34和38×38。
3 模型結(jié)構(gòu)與實(shí)驗(yàn)
3.1 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)包括輸入層、卷積層、池化層、全連接層和輸出層,如圖6所示。輸入是單通道的灰度圖像或三通道的彩色圖像。卷積是一種特殊的線性運(yùn)算,根據(jù)設(shè)置的卷積核數(shù)量和大小對(duì)輸入圖像進(jìn)行卷積操作,得到特征圖,再經(jīng)過非線性激活函數(shù)運(yùn)算,即為卷積層的輸出。卷積操作之后一般進(jìn)行池化操作。池化層通過指定池化大小對(duì)卷積結(jié)果做進(jìn)一步處理,這個(gè)步驟可以降低特征圖的維度,減少網(wǎng)絡(luò)參數(shù)。卷積和池化操作結(jié)束之后,需要將特征圖拉平成一維,成為全連接層的輸入。全連接層對(duì)特征向量進(jìn)行計(jì)算,最終實(shí)現(xiàn)分類的目的。
VGG和ResNet模型是較為流行的卷積神經(jīng)網(wǎng)絡(luò),由于其結(jié)構(gòu)的創(chuàng)新設(shè)計(jì),在圖像分類方面取得了較好的成績(jī)。本文選擇了VGGNet-13和ResNet-18這兩個(gè)在各自系列中相對(duì)不太復(fù)雜的模型,它們的參數(shù)量相對(duì)較少。而且,通過對(duì)比兩種不同網(wǎng)絡(luò)結(jié)構(gòu)的模型,可以檢驗(yàn)本文整合的數(shù)據(jù)增強(qiáng)方案對(duì)不同模型的適應(yīng)性。
3.2 模型超參數(shù)設(shè)置
本文對(duì)VGGNet-13和ResNet-18模型的原始超參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了調(diào)整。VGGNet-13模型的兩個(gè)全連接層部分,神經(jīng)元數(shù)量由原始的4 096分別調(diào)整為512和128。ResNet-18模型的第一個(gè)卷積層,其卷積核大小由原來的7×7調(diào)整為3×3,步長(zhǎng)(stride) 由原來的2調(diào)整為1,并刪除了3×3的最大池化(maxpool) 。
為了提高模型的泛化能力和收斂速度,VGGNet-13和ResNet-18模型都加入了Batch Normalization操作。批次大小設(shè)定為128,訓(xùn)練輪數(shù)(epochs) 設(shè)定為15,并且加入了dropout以降低過擬合風(fēng)險(xiǎn)。模型的損失函數(shù)選擇SparseCategoricalCrossentropy,度量方式采用準(zhǔn)確率。優(yōu)化算法方面,VGGNet-13采用的是Adam,學(xué)習(xí)率為0.01;ResNet-18采用的是SGD,學(xué)習(xí)率為0.1。
3.3 實(shí)驗(yàn)結(jié)果和分析
本文首先研究了Fashion-MNIST數(shù)據(jù)集。針對(duì)1 500、3 000、4 500個(gè)樣本的初始狀態(tài),均采用同一套數(shù)據(jù)增強(qiáng)方案對(duì)小樣本進(jìn)行數(shù)據(jù)擴(kuò)充。將無數(shù)據(jù)增強(qiáng)的初始樣本和數(shù)據(jù)增強(qiáng)樣本分別用于VGGNet-13和ResNet-18模型的訓(xùn)練。經(jīng)過15次迭代后,在10 000個(gè)樣本的測(cè)試集上驗(yàn)證模型的泛化性能。實(shí)驗(yàn)結(jié)果如表1所示。
結(jié)果表明,直接使用1 500個(gè)初始樣本進(jìn)行訓(xùn)練,模型測(cè)試的準(zhǔn)確率只有0.10。然而,采用經(jīng)過數(shù)據(jù)增強(qiáng)方案得到的24 000個(gè)樣本進(jìn)行訓(xùn)練,模型測(cè)試的準(zhǔn)確率最高可以達(dá)到0.87,兩者相差了0.77,遠(yuǎn)高于沒有采用數(shù)據(jù)增強(qiáng)方案的模型。此外,使用3 000和4 500個(gè)初始樣本進(jìn)行訓(xùn)練,模型的測(cè)試準(zhǔn)確率依舊偏低。使用48 000和72 000個(gè)數(shù)據(jù)增強(qiáng)樣本進(jìn)行模型訓(xùn)練,發(fā)現(xiàn)在測(cè)試集上的準(zhǔn)確率最高可達(dá)0.90。
表1的結(jié)果證明,在Fashion-MNIST數(shù)據(jù)集的小樣本困境下,本文整合的數(shù)據(jù)增強(qiáng)方案不僅可以快速地增加樣本數(shù)量,而且還增加了樣本特征的多樣性。這些樣本可以有效地提高模型的泛化性能,降低過擬合風(fēng)險(xiǎn),提高模型的魯棒性。表1還展示了VGGNet-13和ResNet-18兩個(gè)不同模型的研究結(jié)果,發(fā)現(xiàn)2個(gè)模型都具有較高的準(zhǔn)確率。
為了進(jìn)一步驗(yàn)證本文的數(shù)據(jù)增強(qiáng)方案在其他數(shù)據(jù)集的小樣本問題上是否依然具有提升模型準(zhǔn)確率的能力,本文還研究了CIFAR-10數(shù)據(jù)集。VGGNet-13和ResNet-18模型經(jīng)過15次迭代,在測(cè)試集上的準(zhǔn)確率如表2所示。
結(jié)果發(fā)現(xiàn),直接使用1 500個(gè)初始樣本進(jìn)行訓(xùn)練,模型測(cè)試的準(zhǔn)確率最高只有0.18。而采用經(jīng)過數(shù)據(jù)增強(qiáng)方案得到的24 000個(gè)樣本進(jìn)行訓(xùn)練,模型測(cè)試的準(zhǔn)確率最高可以達(dá)到0.52,兩者相差了0.34,同樣高于沒有采用數(shù)據(jù)增強(qiáng)方案的模型。使用72 000個(gè)數(shù)據(jù)增強(qiáng)樣本進(jìn)行訓(xùn)練,學(xué)得模型在測(cè)試集上的準(zhǔn)確率最高為0.69。雖然0.69的準(zhǔn)確率并不算高,但本文旨在研究數(shù)據(jù)增強(qiáng)方案的有效性。
表2的結(jié)果說明了CIFAR-10數(shù)據(jù)集的小樣本,經(jīng)過本文整合的數(shù)據(jù)增強(qiáng)方案,依舊可以提升模型在測(cè)試集上的準(zhǔn)確率。而隨著初始樣本數(shù)量的增加,模型的準(zhǔn)確率顯著上升。要想進(jìn)一步提升模型在測(cè)試集上的準(zhǔn)確率,需要增加初始樣本數(shù)量,以及增加兼容的數(shù)據(jù)增強(qiáng)方法。
4 結(jié)論
本文將隨機(jī)填充、隨機(jī)裁剪、隨機(jī)翻轉(zhuǎn)、隨機(jī)擦除這4種數(shù)據(jù)增強(qiáng)方法融合為一套數(shù)據(jù)增強(qiáng)方案,并對(duì)其有效性進(jìn)行了系列驗(yàn)證。通過分析表1和表2的計(jì)算結(jié)果,發(fā)現(xiàn)該方案可以提高模型測(cè)試的準(zhǔn)確率,即使變換數(shù)據(jù)集和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),模型的測(cè)試精度依然有較好的提升,證明了該方案的有效性。本文的研究可以為其他圖像分類的小樣本問題提供參考方案。
該方案尚有不足之處,如模型測(cè)試的準(zhǔn)確率還有提升空間、可以增加其他兼容且互補(bǔ)的數(shù)據(jù)增強(qiáng)方法等。在未來的工作中,將對(duì)這些不足之處進(jìn)行進(jìn)一步研究。
參考文獻(xiàn):
[1] LECUN Y,BOTTOU L,BENGIO Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[2] 張珂,馮曉晗,郭玉榮,等.圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)模型綜述[J].中國(guó)圖象圖形學(xué)報(bào),2021,26(10):2305-2325.
[3] ABDEL-HAMID O,MOHAMED A R,JIANG H,et al.Convolutional neural networks for speech recognition[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2014,22(10):1533-1545.
[4] 盧宏濤,張秦川.深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺中的應(yīng)用研究綜述[J].數(shù)據(jù)采集與處理,2016,31(1):1-17.
[5] 梁路宏,艾海舟,徐光祐,等.人臉檢測(cè)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2002,25(5):449-458.
[6] 趙凱琳,靳小龍,王元卓.小樣本學(xué)習(xí)研究綜述[J].軟件學(xué)報(bào),2021,32(2):349-369.
[7] 孫書魁,范菁,孫中強(qiáng),等.基于深度學(xué)習(xí)的圖像數(shù)據(jù)增強(qiáng)研究綜述[J].計(jì)算機(jī)科學(xué),2024,51(1):150-167.
[8] TAKAHASHI R,MATSUBARA T,UEHARA K.Data augmentation using random image cropping and patching for deep CNNs[J].IEEE Transactions on Circuits and Systems for Video Technology,2020,30(9):2917-2931.
[9] ZHONG Z,ZHENG L,KANG G L,et al.Random erasing data augmentation[J].Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(7):13001-13008.
[10] YANG N,ZHONG L C,HUANG F,et al.Random padding data augmentation[M]//Communications in Computer and Information Science.Singapore:Springer Nature Singapore,2023:3-18.
[11] SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[EB/OL].2014:1409. 1556.https://arxiv.org/abs/1409.1556v6
[12] HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:770-778.
【通聯(lián)編輯:唐一東】