基于數(shù)據(jù)增強(qiáng)和CNN的小樣本圖像分類研究

2024-09-14 00:00:00黃志偉

電腦知識(shí)與技術(shù) 2024年23期

摘要：為解決卷積神經(jīng)網(wǎng)絡(luò)在研究圖像分類問題時(shí)，由于訓(xùn)練樣本過少而導(dǎo)致模型過擬合、測(cè)試準(zhǔn)確率低的問題，本文整合了一套輕量級(jí)的數(shù)據(jù)增強(qiáng)方案，可以快速擴(kuò)充圖像樣本。本文以Fashion-MNIST和CIFAR-10數(shù)據(jù)集為例，在只選取少量初始樣本的前提下進(jìn)行數(shù)據(jù)擴(kuò)充，采用TensorFlow深度學(xué)習(xí)框架和Keras搭建VGGNet-13和ResNet-18模型進(jìn)行訓(xùn)練和測(cè)試。結(jié)果表明，模型在測(cè)試集上表現(xiàn)出較好的準(zhǔn)確率，有效應(yīng)對(duì)小樣本學(xué)習(xí)帶來的過擬合問題，驗(yàn)證了該數(shù)據(jù)增強(qiáng)方案的有效性。

關(guān)鍵詞：數(shù)據(jù)增強(qiáng); 卷積神經(jīng)網(wǎng)絡(luò); 小樣本學(xué)習(xí); 圖像分類; 隨機(jī)填充

中圖分類號(hào)：TP18 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2024）23-0021-04

開放科學(xué)（資源服務(wù)）標(biāo)識(shí)碼（OSID）

0 引言

Yann LeCun等人[1]在1998年提出了卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，CNN），該技術(shù)在識(shí)別手寫數(shù)字方面取得了顯著的成績(jī)。經(jīng)過二十多年的發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)在許多領(lǐng)域都起著至關(guān)重要的作用，例如圖像分類[2]、語音識(shí)別[3]、目標(biāo)檢測(cè)[4]、人臉識(shí)別[5]等。圖像分類是利用算法對(duì)已有的圖像進(jìn)行特征學(xué)習(xí)，找出其所屬的類別。雖然卷積神經(jīng)網(wǎng)絡(luò)在圖像分類問題上有著顯著的效果，但前提是需要收集大量的圖像樣本用于訓(xùn)練，否則神經(jīng)網(wǎng)絡(luò)將很難學(xué)到足夠的特征信息。然而，獲取充足且具有較好區(qū)分度、特征清晰的樣本通常比較困難。在只有少量樣本的情況下，如果直接使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)小樣本進(jìn)行訓(xùn)練，很容易出現(xiàn)過擬合現(xiàn)象，且模型不具備泛化能力。

小樣本學(xué)習(xí)[6]是在只有少量初始樣本的前提下，訓(xùn)練出一個(gè)能解決實(shí)際問題的模型。針對(duì)小樣本困境，數(shù)據(jù)增強(qiáng)[7]是一種實(shí)用且非常有效的方法，它可以大量增加樣本的數(shù)量和特征。數(shù)據(jù)增強(qiáng)的具體實(shí)現(xiàn)策略較多，包括圖像的幾何變換、色彩變換、圖像拼接和模型生成等。而且，不同的策略有著不同的實(shí)現(xiàn)要求，任意的數(shù)據(jù)增強(qiáng)方法也不一定兼容。因此，本文以輕量化、低成本和兼容性為出發(fā)點(diǎn)，選擇不基于模型、只對(duì)單圖像進(jìn)行變換的數(shù)據(jù)增強(qiáng)方法，即隨機(jī)裁剪[8]、隨機(jī)翻轉(zhuǎn)、隨機(jī)擦除[9]和隨機(jī)填充[10]4種方法對(duì)小樣本數(shù)據(jù)進(jìn)行擴(kuò)充。

本文分別從Fashion-MNIST和CIFAR-10數(shù)據(jù)集的訓(xùn)練集中隨機(jī)抽取少量樣本，以構(gòu)造小樣本困境，兩個(gè)數(shù)據(jù)集中的測(cè)試集用于驗(yàn)證模型測(cè)試的準(zhǔn)確率。接著將4種數(shù)據(jù)增強(qiáng)方法進(jìn)行整合，按比例對(duì)小樣本進(jìn)行數(shù)據(jù)擴(kuò)充。最后選擇VGGNet-13[11]和ResNet-18[12]模型做圖像分類的訓(xùn)練和測(cè)試，通過研究小樣本在有數(shù)據(jù)增強(qiáng)和無數(shù)據(jù)增強(qiáng)的兩種不同情況下，計(jì)算出卷積神經(jīng)網(wǎng)絡(luò)在測(cè)試集上的準(zhǔn)確率，驗(yàn)證該方案的有效性。

1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集

1.1 實(shí)驗(yàn)環(huán)境

本文在Windows 11系統(tǒng)下進(jìn)行訓(xùn)練和測(cè)試。實(shí)驗(yàn)基于Anaconda 2022平臺(tái)，采用深度學(xué)習(xí)框架TensorFlow 2.10和Keras 2.10搭建神經(jīng)網(wǎng)絡(luò)模型，運(yùn)用Numpy庫(kù)和Matplotlib庫(kù)對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理和數(shù)據(jù)可視化。

1.2 數(shù)據(jù)集

本文采用的數(shù)據(jù)集為Fashion-MNIST和CIFAR-10，這兩個(gè)數(shù)據(jù)集均可從Keras中下載。

1） Fashion-MNIST數(shù)據(jù)集。Fashion-MNIST數(shù)據(jù)集包含有10個(gè)類別、70 000張像素為28×28的灰度圖像。其中訓(xùn)練數(shù)據(jù)集中每個(gè)類別含有6 000個(gè)樣本，測(cè)試數(shù)據(jù)集中每個(gè)類別含有1 000個(gè)樣本。數(shù)據(jù)集的類別分別是：T-shirt（T恤）、Trouser（牛仔褲）、Pullover（套衫）、Dress（裙子）、Coat（外套）、Sandal（涼鞋）、Shirt（襯衫）、Sneaker（運(yùn)動(dòng)鞋）、Bag（包）以及Ankle Boot（短靴）。訓(xùn)練樣本實(shí)例如圖1所示。

2） CIFAR-10數(shù)據(jù)集。CIFAR-10數(shù)據(jù)集由60 000張分辨率為32×32的彩色圖像組成，包含50 000個(gè)訓(xùn)練圖像和10 000個(gè)測(cè)試圖像。該數(shù)據(jù)集共有10個(gè)類別，分別為：Airplane（飛機(jī)）、Automobile（汽車）、Bird（鳥）、Cat（貓）、Deer（鹿）、Dog（狗）、Frog（青蛙）、Horse（馬）、Ship（船）以及Truck（卡車），每個(gè)類別包含6 000張圖像。訓(xùn)練樣本實(shí)例如圖1所示。

1.3 小樣本數(shù)據(jù)

由于小樣本所指代的具體樣本數(shù)量沒有明確的定義，因此，本文分別對(duì)Fashion-MNIST和CIFAR-10數(shù)據(jù)集構(gòu)造出3種不同的小樣本初始狀態(tài)。具體地，初始樣本數(shù)量分別設(shè)置為1 500、3 000和4 500個(gè)，其中，每一類樣本分別占150、300和450個(gè)樣本。這些樣本均是隨機(jī)從訓(xùn)練集中抽取。這樣做的好處是在于，可以研究不同樣本數(shù)量的初始狀態(tài)與數(shù)據(jù)增強(qiáng)方案之間的聯(lián)系。

2 數(shù)據(jù)增強(qiáng)方法

2.1 隨機(jī)填充

隨機(jī)填充（Random Padding，RP）的概念由Nan Yang等提出。他們認(rèn)為，CNN通過學(xué)習(xí)圖像中不同位置的同一物體，可以提高模型的識(shí)別精度。這是因?yàn)樘卣骺臻g信息會(huì)阻礙模型對(duì)特征關(guān)系的學(xué)習(xí)，而隨機(jī)填充的數(shù)據(jù)增強(qiáng)方法可以減弱模型對(duì)特征位置信息的學(xué)習(xí)。

RP是一種用于訓(xùn)練CNN的新填充方法，它通過在圖像的一半邊界上隨機(jī)添加零填充來實(shí)現(xiàn)。這種操作隨機(jī)地改變特征位置的信息，可以有效削弱模型對(duì)位置信息的學(xué)習(xí)能力。該方法結(jié)構(gòu)簡(jiǎn)單，不需要參數(shù)學(xué)習(xí)，并且與其他CNN識(shí)別圖像的模型兼容。RP的實(shí)現(xiàn)過程非常簡(jiǎn)單，它通過隨機(jī)地對(duì)特征圖相鄰的兩個(gè)邊界（左上、右上、左下和右下）進(jìn)行零填充，填充一次則圖像的尺寸增加1。常見的填充厚度為n = 1、2、3，選擇填充厚度后RP會(huì)執(zhí)行2n次填充操作。

令輸入圖像為I，其中T、B、L、R分別為圖像的上、下、左、右四個(gè)邊界，S表示圖像的四種相鄰邊界的組合，從中選擇一種記為Sn，輸出為隨機(jī)填充的圖像I′。RP的實(shí)現(xiàn)步驟如下：

INPUT： I

PROCESS：

T = B = L = R = 0

S = [[1，0，1，0]，[1，0，0，1]，[0，1，1，0]，[0，1，0，1]]

FOR i = 1，2，..，2n DO

Sn = RANDOM_CHOICE（S，1）

T += Sn [0]

B += Sn [1]

L += Sn [2]

R += Sn [3]

END FOR

I′ = I（[T ， B ， L ， R]）

OUTPUT： I′

2.1.1 圖像的RP

采用RP數(shù)據(jù)增強(qiáng)方法，對(duì)Fashion-MNIST和CIFAR-10數(shù)據(jù)集的初始樣本進(jìn)行數(shù)據(jù)增廣，每個(gè)樣本進(jìn)行4次RP操作，即每張?jiān)瓐D被擴(kuò)充為4張。因此，初始樣本數(shù)變?yōu)镹1 = 6 000、12 000、18 000。本文的隨機(jī)填充厚度統(tǒng)一設(shè)置為n = 3，而隨機(jī)填充操作會(huì)改變圖像的原有尺寸。因此，原圖像經(jīng)過RP操作后，兩個(gè)數(shù)據(jù)集的樣本尺寸分別從28×28和32×32增加到34×34和38×38。原始樣本經(jīng)過RP操作的實(shí)例如圖2所示。

2.2 隨機(jī)裁剪

隨機(jī)裁剪（Random Cropping，RC）是一種簡(jiǎn)易的單圖像數(shù)據(jù)增強(qiáng)方法。RC需要預(yù)先定義圖像的裁剪面積大小和裁剪次數(shù)，以及目標(biāo)區(qū)域的裁剪概率。RC通過對(duì)原圖像進(jìn)行多次操作得到許多不同的圖像，從而達(dá)到數(shù)據(jù)擴(kuò)充的目的。經(jīng)過裁剪后的圖像，其尺寸有可能不相同，這種情況可以根據(jù)任務(wù)需求，將圖像重新調(diào)整為與裁剪之前相同的尺寸。RC可以快速增加圖像的數(shù)量和多樣性，進(jìn)而降低模型過擬合的風(fēng)險(xiǎn)。

2.2.1 圖像的RC+RP

本文運(yùn)用RC對(duì)每張初始圖像進(jìn)行2次裁剪，設(shè)定裁剪面積為原圖像的80%，并且將裁剪圖像重新調(diào)整為原圖的尺寸。最后，采用RP對(duì)2張裁剪圖像分別進(jìn)行2次零填充。因此，經(jīng)過RC+RP操作后，1張初始圖像擴(kuò)充為4張，而初始樣本被增廣為N2 = 6 000、12 000、18 000。原圖經(jīng)過RC+RP操作后的實(shí)例如圖3所示。

2.3 隨機(jī)翻轉(zhuǎn)

圖像翻轉(zhuǎn)包括：鏡像翻轉(zhuǎn)（左右翻轉(zhuǎn)）、垂直翻轉(zhuǎn)（上下翻轉(zhuǎn)）、鏡像加垂直翻轉(zhuǎn)（左右和上下同時(shí)翻轉(zhuǎn)），共3種翻轉(zhuǎn)方式。而隨機(jī)翻轉(zhuǎn)（Random Flipping，RF）是從3種翻轉(zhuǎn)方法中隨機(jī)選擇，以增加圖像樣本數(shù)量，并提高圖像特征的多樣性。

2.3.1 圖像的RF+RP

本文從3種RF方式中隨機(jī)選擇2種對(duì)初始圖像進(jìn)行操作，得到2張翻轉(zhuǎn)圖像，然后對(duì)每張翻轉(zhuǎn)圖像進(jìn)行2次RP操作。因此，1張?jiān)瓐D增廣為4張。最終，初始樣本被增廣為N3 = 6 000、12 000、18 000。原圖經(jīng)過RF+RP操作后的實(shí)例如圖4所示。

2.4 隨機(jī)擦除

隨機(jī)擦除（Random Erasing，RE）是在圖像中隨機(jī)選擇一個(gè)矩形區(qū)域進(jìn)行擦除，用0像素值代替擦除區(qū)域的像素值。這種技術(shù)可以對(duì)同一張圖像進(jìn)行多次擦除操作，產(chǎn)生許多具有不同遮擋程度的圖像，從而達(dá)到數(shù)據(jù)擴(kuò)充的目的。RE的優(yōu)點(diǎn)在于其實(shí)現(xiàn)難度低，屬于輕量級(jí)的技術(shù)，并且不需要模型參數(shù)學(xué)習(xí)。此外，增加RE處理的圖像可以降低模型過擬合的風(fēng)險(xiǎn)，提高模型對(duì)遮擋圖像的魯棒性。

RE的實(shí)現(xiàn)過程并不復(fù)雜。首先，根據(jù)輸入圖像的寬度W和高度H，計(jì)算出圖像的面積A = W×H；然后，需要定義最小擦除面積比例sl和最大擦除面積比例sh，以避免出現(xiàn)無效擦除和過度擦除的情況。隨機(jī)從[sl，sh]之間取值，可得到初始化擦除面積Se。最后，定義擦除面積的最小長(zhǎng)寬比re，則擦除面積的高為He = （Se×re）1/2，寬為We = （Se / re）1/2。根據(jù)這些參數(shù)設(shè)置，可以實(shí)現(xiàn)隨機(jī)選擇圖像的擦除面積和擦除位置。

2.4.1 圖像的RE+RP

本文對(duì)初始樣本進(jìn)行2次RE操作，然后使用RP對(duì)每張被擦除的圖像進(jìn)行2次RP操作，使1張?jiān)瓐D擴(kuò)充為4張。因此，初始樣本被增廣為N4 = 6 000、12 000、18 000。原始圖像經(jīng)過RE+RP操作后的實(shí)例如圖5所示。

2.5 訓(xùn)練集與測(cè)試集

Fashion-MNIST和CIFAR-10數(shù)據(jù)集的小樣本經(jīng)過RP、RC+RP、RF+RP、RE+RP的操作之后，初始樣本數(shù)量從開始的1 500、3 000、4 500個(gè)，分別擴(kuò)充為N1 + N2 + N3 + N4 = 24 000、48 000、72 000，即每張?jiān)紙D像按照1：16的比例進(jìn)行了數(shù)據(jù)擴(kuò)充。由于隨機(jī)填充改變了圖像的原始尺寸，兩個(gè)數(shù)據(jù)集的擴(kuò)充樣本尺寸分別為34×34和38×38。這些經(jīng)過一整套低成本數(shù)據(jù)增強(qiáng)方案得到的增強(qiáng)樣本，會(huì)根據(jù)不同的初始樣本情況，分別用于模型的訓(xùn)練。

另外，為了證明數(shù)據(jù)增強(qiáng)方案的有效性，本文還研究了在沒有采用數(shù)據(jù)增強(qiáng)方案的情況下，直接將1 500、3 000、4 500個(gè)初始樣本用于模型訓(xùn)練的情況。然而，F(xiàn)ashion-MNIST數(shù)據(jù)集的初始樣本尺寸只有28×28，這個(gè)圖像尺寸會(huì)導(dǎo)致VGGNet-13網(wǎng)絡(luò)無法完成卷積和池化過程。因此，在研究這一問題時(shí)，本文對(duì)Fashion-MNIST的1 500、3 000、4 500個(gè)初始樣本采用傳統(tǒng)的0填充方式，將圖像尺寸從28×28增大至34×34。

為了更好地驗(yàn)證模型的泛化性能，本文將Fashion-MNIST和CIFAR-10數(shù)據(jù)集中的10 000個(gè)測(cè)試樣本用于模型測(cè)試，計(jì)算模型的準(zhǔn)確率。由于兩個(gè)測(cè)試集的樣本尺寸分別為28×28和32×32，無法直接用于測(cè)試，這是因?yàn)橛?xùn)練樣本的尺寸已經(jīng)被改變。因此，本文將Fashion-MNIST和CIFAR-10數(shù)據(jù)集中的測(cè)試樣本全部進(jìn)行傳統(tǒng)0填充，將圖像尺寸分別增大至34×34和38×38。

3 模型結(jié)構(gòu)與實(shí)驗(yàn)

3.1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)包括輸入層、卷積層、池化層、全連接層和輸出層，如圖6所示。輸入是單通道的灰度圖像或三通道的彩色圖像。卷積是一種特殊的線性運(yùn)算，根據(jù)設(shè)置的卷積核數(shù)量和大小對(duì)輸入圖像進(jìn)行卷積操作，得到特征圖，再經(jīng)過非線性激活函數(shù)運(yùn)算，即為卷積層的輸出。卷積操作之后一般進(jìn)行池化操作。池化層通過指定池化大小對(duì)卷積結(jié)果做進(jìn)一步處理，這個(gè)步驟可以降低特征圖的維度，減少網(wǎng)絡(luò)參數(shù)。卷積和池化操作結(jié)束之后，需要將特征圖拉平成一維，成為全連接層的輸入。全連接層對(duì)特征向量進(jìn)行計(jì)算，最終實(shí)現(xiàn)分類的目的。

VGG和ResNet模型是較為流行的卷積神經(jīng)網(wǎng)絡(luò)，由于其結(jié)構(gòu)的創(chuàng)新設(shè)計(jì)，在圖像分類方面取得了較好的成績(jī)。本文選擇了VGGNet-13和ResNet-18這兩個(gè)在各自系列中相對(duì)不太復(fù)雜的模型，它們的參數(shù)量相對(duì)較少。而且，通過對(duì)比兩種不同網(wǎng)絡(luò)結(jié)構(gòu)的模型，可以檢驗(yàn)本文整合的數(shù)據(jù)增強(qiáng)方案對(duì)不同模型的適應(yīng)性。

3.2 模型超參數(shù)設(shè)置

本文對(duì)VGGNet-13和ResNet-18模型的原始超參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了調(diào)整。VGGNet-13模型的兩個(gè)全連接層部分，神經(jīng)元數(shù)量由原始的4 096分別調(diào)整為512和128。ResNet-18模型的第一個(gè)卷積層，其卷積核大小由原來的7×7調(diào)整為3×3，步長(zhǎng)（stride）由原來的2調(diào)整為1，并刪除了3×3的最大池化（maxpool）。

為了提高模型的泛化能力和收斂速度，VGGNet-13和ResNet-18模型都加入了Batch Normalization操作。批次大小設(shè)定為128，訓(xùn)練輪數(shù)（epochs）設(shè)定為15，并且加入了dropout以降低過擬合風(fēng)險(xiǎn)。模型的損失函數(shù)選擇SparseCategoricalCrossentropy，度量方式采用準(zhǔn)確率。優(yōu)化算法方面，VGGNet-13采用的是Adam，學(xué)習(xí)率為0.01；ResNet-18采用的是SGD，學(xué)習(xí)率為0.1。

3.3 實(shí)驗(yàn)結(jié)果和分析

本文首先研究了Fashion-MNIST數(shù)據(jù)集。針對(duì)1 500、3 000、4 500個(gè)樣本的初始狀態(tài)，均采用同一套數(shù)據(jù)增強(qiáng)方案對(duì)小樣本進(jìn)行數(shù)據(jù)擴(kuò)充。將無數(shù)據(jù)增強(qiáng)的初始樣本和數(shù)據(jù)增強(qiáng)樣本分別用于VGGNet-13和ResNet-18模型的訓(xùn)練。經(jīng)過15次迭代后，在10 000個(gè)樣本的測(cè)試集上驗(yàn)證模型的泛化性能。實(shí)驗(yàn)結(jié)果如表1所示。

結(jié)果表明，直接使用1 500個(gè)初始樣本進(jìn)行訓(xùn)練，模型測(cè)試的準(zhǔn)確率只有0.10。然而，采用經(jīng)過數(shù)據(jù)增強(qiáng)方案得到的24 000個(gè)樣本進(jìn)行訓(xùn)練，模型測(cè)試的準(zhǔn)確率最高可以達(dá)到0.87，兩者相差了0.77，遠(yuǎn)高于沒有采用數(shù)據(jù)增強(qiáng)方案的模型。此外，使用3 000和4 500個(gè)初始樣本進(jìn)行訓(xùn)練，模型的測(cè)試準(zhǔn)確率依舊偏低。使用48 000和72 000個(gè)數(shù)據(jù)增強(qiáng)樣本進(jìn)行模型訓(xùn)練，發(fā)現(xiàn)在測(cè)試集上的準(zhǔn)確率最高可達(dá)0.90。

表1的結(jié)果證明，在Fashion-MNIST數(shù)據(jù)集的小樣本困境下，本文整合的數(shù)據(jù)增強(qiáng)方案不僅可以快速地增加樣本數(shù)量，而且還增加了樣本特征的多樣性。這些樣本可以有效地提高模型的泛化性能，降低過擬合風(fēng)險(xiǎn)，提高模型的魯棒性。表1還展示了VGGNet-13和ResNet-18兩個(gè)不同模型的研究結(jié)果，發(fā)現(xiàn)2個(gè)模型都具有較高的準(zhǔn)確率。

為了進(jìn)一步驗(yàn)證本文的數(shù)據(jù)增強(qiáng)方案在其他數(shù)據(jù)集的小樣本問題上是否依然具有提升模型準(zhǔn)確率的能力，本文還研究了CIFAR-10數(shù)據(jù)集。VGGNet-13和ResNet-18模型經(jīng)過15次迭代，在測(cè)試集上的準(zhǔn)確率如表2所示。

結(jié)果發(fā)現(xiàn)，直接使用1 500個(gè)初始樣本進(jìn)行訓(xùn)練，模型測(cè)試的準(zhǔn)確率最高只有0.18。而采用經(jīng)過數(shù)據(jù)增強(qiáng)方案得到的24 000個(gè)樣本進(jìn)行訓(xùn)練，模型測(cè)試的準(zhǔn)確率最高可以達(dá)到0.52，兩者相差了0.34，同樣高于沒有采用數(shù)據(jù)增強(qiáng)方案的模型。使用72 000個(gè)數(shù)據(jù)增強(qiáng)樣本進(jìn)行訓(xùn)練，學(xué)得模型在測(cè)試集上的準(zhǔn)確率最高為0.69。雖然0.69的準(zhǔn)確率并不算高，但本文旨在研究數(shù)據(jù)增強(qiáng)方案的有效性。

表2的結(jié)果說明了CIFAR-10數(shù)據(jù)集的小樣本，經(jīng)過本文整合的數(shù)據(jù)增強(qiáng)方案，依舊可以提升模型在測(cè)試集上的準(zhǔn)確率。而隨著初始樣本數(shù)量的增加，模型的準(zhǔn)確率顯著上升。要想進(jìn)一步提升模型在測(cè)試集上的準(zhǔn)確率，需要增加初始樣本數(shù)量，以及增加兼容的數(shù)據(jù)增強(qiáng)方法。

4 結(jié)論

本文將隨機(jī)填充、隨機(jī)裁剪、隨機(jī)翻轉(zhuǎn)、隨機(jī)擦除這4種數(shù)據(jù)增強(qiáng)方法融合為一套數(shù)據(jù)增強(qiáng)方案，并對(duì)其有效性進(jìn)行了系列驗(yàn)證。通過分析表1和表2的計(jì)算結(jié)果，發(fā)現(xiàn)該方案可以提高模型測(cè)試的準(zhǔn)確率，即使變換數(shù)據(jù)集和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，模型的測(cè)試精度依然有較好的提升，證明了該方案的有效性。本文的研究可以為其他圖像分類的小樣本問題提供參考方案。

該方案尚有不足之處，如模型測(cè)試的準(zhǔn)確率還有提升空間、可以增加其他兼容且互補(bǔ)的數(shù)據(jù)增強(qiáng)方法等。在未來的工作中，將對(duì)這些不足之處進(jìn)行進(jìn)一步研究。

參考文獻(xiàn)：

[1] LECUN Y，BOTTOU L，BENGIO Y，et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE，1998，86（11）：2278-2324.

[2] 張珂，馮曉晗，郭玉榮，等.圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)模型綜述[J].中國(guó)圖象圖形學(xué)報(bào)，2021，26（10）：2305-2325.

[3] ABDEL-HAMID O，MOHAMED A R，JIANG H，et al.Convolutional neural networks for speech recognition[J].IEEE/ACM Transactions on Audio，Speech，and Language Processing，2014，22（10）：1533-1545.

[4] 盧宏濤，張秦川.深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺中的應(yīng)用研究綜述[J].數(shù)據(jù)采集與處理，2016，31（1）：1-17.

[5] 梁路宏，艾海舟，徐光祐，等.人臉檢測(cè)研究綜述[J].計(jì)算機(jī)學(xué)報(bào)，2002，25（5）：449-458.

[6] 趙凱琳，靳小龍，王元卓.小樣本學(xué)習(xí)研究綜述[J].軟件學(xué)報(bào)，2021，32（2）：349-369.

[7] 孫書魁，范菁，孫中強(qiáng)，等.基于深度學(xué)習(xí)的圖像數(shù)據(jù)增強(qiáng)研究綜述[J].計(jì)算機(jī)科學(xué)，2024，51（1）：150-167.

[8] TAKAHASHI R，MATSUBARA T，UEHARA K.Data augmentation using random image cropping and patching for deep CNNs[J].IEEE Transactions on Circuits and Systems for Video Technology，2020，30（9）：2917-2931.

[9] ZHONG Z，ZHENG L，KANG G L，et al.Random erasing data augmentation[J].Proceedings of the AAAI Conference on Artificial Intelligence，2020，34（7）：13001-13008.

[10] YANG N，ZHONG L C，HUANG F，et al.Random padding data augmentation[M]//Communications in Computer and Information Science.Singapore：Springer Nature Singapore，2023：3-18.

[11] SIMONYAN K，ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[EB/OL].2014：1409. 1556.https：//arxiv.org/abs/1409.1556v6

[12] HE K M，ZHANG X Y，REN S Q，et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.June 27-30，2016，Las Vegas，NV，USA.IEEE，2016：770-778.

【通聯(lián)編輯：唐一東】

電腦知識(shí)與技術(shù)2024年23期

電腦知識(shí)與技術(shù)的其它文章: 人工智能課程中融入思政元素的規(guī)范應(yīng)用研究; 基于產(chǎn)教融合的應(yīng)用型本科高校計(jì)算機(jī)文化基礎(chǔ)教學(xué)研究與實(shí)踐; 操作系統(tǒng)課程融入思政元素的探索與研究; 基于OBE理念的計(jì)算機(jī)組成原理翻轉(zhuǎn)課堂教學(xué)模式創(chuàng)新研究; 新工科背景下計(jì)算機(jī)組成原理課程混合式教學(xué)的改革探索; 新工科背景下應(yīng)用型本科計(jì)算機(jī)類專業(yè)課程體系建設(shè)探索

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于數(shù)據(jù)增強(qiáng)和CNN的小樣本圖像分類研究