崔艷榮, 卞珍怡, 高英寧
(長江大學(xué)計算機(jī)科學(xué)學(xué)院,湖北荊州 434023)
由于花卉種類繁多、結(jié)構(gòu)復(fù)雜,花卉識別在計算機(jī)視覺和圖像處理領(lǐng)域仍然是一個挑戰(zhàn)。傳統(tǒng)的花卉特征提取方法有GrabCut切割算法[1]、快速魯棒特征(SURF)、局部二進(jìn)制模式(LBP)[2]和灰度共生矩陣(GLCM)[3]等方法,存在費(fèi)時費(fèi)力、主觀性強(qiáng)、模型泛化能力差且無法處理海量數(shù)據(jù)等問題。
近幾年,深度學(xué)習(xí)在計算機(jī)視覺、自然語言處理等方面獲得了重大突破,已廣泛應(yīng)用于圖像識別領(lǐng)域[4]。林君宇等將多輸入卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)應(yīng)用到花卉識別領(lǐng)域,取得了95.3%的識別率[5]。吳麗娜等在LeNet-5網(wǎng)絡(luò)模型基礎(chǔ)上調(diào)整連接方式和池化操作,并使用隨機(jī)梯度下降算法進(jìn)行花卉識別,取得了96.5%的花卉識別率[6]。劉嘉政對Inception_v3模型進(jìn)行深度遷移學(xué)習(xí),對其結(jié)構(gòu)進(jìn)行微調(diào),在自定義數(shù)據(jù)集上取得了93.73%的準(zhǔn)確率[7]。關(guān)胤采用152層殘差網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行花卉識別,并結(jié)合遷移學(xué)習(xí)訓(xùn)練,取得了較好的識別效果[8]。Cao等采用基于殘差網(wǎng)絡(luò)和注意力網(wǎng)絡(luò)的加權(quán)視覺注意力學(xué)習(xí)塊進(jìn)行花卉識別,在flowers17上取得了85.7%的識別率[9]。裴曉芳等將resnet18網(wǎng)絡(luò)模型的全連接層替換為卷積層,融入了混合域注意力機(jī)制,采用Softmax進(jìn)行花卉識別[10]。
現(xiàn)有深度學(xué)習(xí)模型都需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,計算機(jī)視覺領(lǐng)域中用于數(shù)據(jù)增強(qiáng)并減少過擬合的傳統(tǒng)采樣方法包括旋轉(zhuǎn)、裁剪、翻轉(zhuǎn)、顏色轉(zhuǎn)換等[11]。在很多情況下,這些方法生成的圖像僅為原始數(shù)據(jù)的簡單冗余副本。生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)很好地解決了該問題,其模型中的生成器(G)和判別器(D)交替訓(xùn)練完成后,G可以生成大量高質(zhì)量的模擬樣本以進(jìn)行數(shù)據(jù)增強(qiáng),GAN廣泛適用于圖像超分辨率重建、人臉圖像生成與復(fù)原、圖像轉(zhuǎn)換、視頻預(yù)測等領(lǐng)域[12]。
目前,很少有人將GAN應(yīng)用到花卉識別領(lǐng)域。本研究提出一種基于改進(jìn)Wasserstein生成對抗網(wǎng)絡(luò)[13](attention residual WGAN-GP,ARWGAN-GP)的花卉識別方法。使用殘差網(wǎng)絡(luò)構(gòu)建G和D,解決了網(wǎng)絡(luò)過深時出現(xiàn)的梯度消失問題,減小了模型計算量,G和D分別融入了注意力機(jī)制[14],快速有效地提取了花卉顯著區(qū)域特性,且通過融合損失函數(shù)進(jìn)一步優(yōu)化GAN模型,生成高質(zhì)量花卉樣本,將判別器應(yīng)用到花卉識別網(wǎng)絡(luò),使得花卉識別準(zhǔn)確度顯著提高。
GAN是一種生成模型,包括G和D,GAN旨在訓(xùn)練G合成模擬樣本G(z)以混淆D,D試圖區(qū)分生成樣本和真實樣本。G和D之間的最小-最大博弈目標(biāo)函數(shù)如式(1):
(1)
其中:x采樣于真實數(shù)據(jù)分布Pr(x);z采樣于隨機(jī)噪聲分布Pg(z);D(G(z))為D判別輸入為G生成數(shù)據(jù)的概率;D(x)為D判別輸入為原始數(shù)據(jù)的概率。
使用交叉熵散度來度量不同樣本間的距離,會導(dǎo)致GAN產(chǎn)生梯度消失問題。王怡斐等提出使用Wasserstein距離比較樣本之間的差異性,改善了GAN梯度消失的缺陷,使得網(wǎng)絡(luò)訓(xùn)練更加穩(wěn)定[15]。式(2)為WGAN的優(yōu)化目標(biāo)函數(shù)。
L=-Ex~Pdata(x)[D(x)]+Ez~Pz(z)[D(G(z))]。
(2)
但WGAN對權(quán)重參數(shù)裁剪過于簡單,又會導(dǎo)致梯度爆炸,生成的樣本質(zhì)量仍然不理想。Liu等提出了新的改進(jìn)方法,采用梯度懲罰的方法進(jìn)行權(quán)重優(yōu)化,以達(dá)到加快網(wǎng)絡(luò)訓(xùn)練且生成高質(zhì)量樣本的目的[16]。模型損失函數(shù)如式(3)所示:
(3)
LG=-Ez~Pz(z)[D(G(z))];
(4)
(5)
式(3)前2項為WGAN的優(yōu)化目標(biāo)函數(shù);x為原始數(shù)據(jù)分布Pdata(x)的輸入樣本;z是采樣于Pz(z)中的隨機(jī)噪聲;最后一項為梯度懲罰項;λ為梯度懲罰項參數(shù);ε采樣于標(biāo)準(zhǔn)均勻分布。
由于卷積神經(jīng)網(wǎng)絡(luò)只關(guān)注圖像數(shù)據(jù)中的局部依賴性,在計算長距離特征時效率極低,傳統(tǒng)的生成對抗網(wǎng)絡(luò)可以捕獲到圖像中的紋理特性,但很難學(xué)習(xí)到圖像中特定的結(jié)構(gòu)和幾何特征。在生成對抗網(wǎng)絡(luò)中添加注意力機(jī)制,可以計算圖像像素之間的相關(guān)性,并建立長距離依賴性,進(jìn)一步提取到花卉樣本的全局特征,生成的圖像可以顯示更多的細(xì)節(jié)。注意力機(jī)制原理如圖1所示。
圖1中X表示卷積后的特征圖,將x輸入到3個1×1卷積層來獲得特征空間f(x)、g(x)、h(x),將f(x)和g(x)執(zhí)行相應(yīng)計算得到βji,如式(6)~(9):
Sij=f(xi)T?g(xj);
(6)
f(xi)=Wfxi;
(7)
g(xj)=Wgxj;
(8)
(9)
式中:f(x)為像素提?。籛f為f(x)的權(quán)重;g(x)為全局特征提取;Wg為g(x)的權(quán)重;?表示矩陣乘法;N為特征圖數(shù);βji表示注意力圖;注意力機(jī)制輸出層見式(10)(11):
(10)
h(xi)=Whxi。
(11)
式中:Wh是h(x)的權(quán)重。為使網(wǎng)絡(luò)學(xué)習(xí)提取到特征圖的局部和全局特征,將自注意力層Oi輸出乘以系數(shù)λ并將其添加到特征圖,獲得注意力機(jī)制的最終輸出yi。其中λ是一個可學(xué)習(xí)參數(shù),初始值設(shè)為0。
yi=λOi+xi。
(12)
1.3.1 生成器 原始生成器結(jié)構(gòu)為簡單卷積神經(jīng)網(wǎng)絡(luò),模型訓(xùn)練速度較快,但模型生成樣本質(zhì)量不好,會出現(xiàn)棋盤效應(yīng);且隨著網(wǎng)絡(luò)深度的增加,會出現(xiàn)梯度消失,使得網(wǎng)絡(luò)無法訓(xùn)練。本研究使用殘差網(wǎng)絡(luò)來構(gòu)建生成器,采用最近鄰插值代替反卷積進(jìn)行上采樣操作,將上采樣和殘差網(wǎng)絡(luò)融合在一起來解決該問題。上采樣殘差塊如圖2所示,輸入樣本經(jīng)過批量歸一化以加快模型訓(xùn)練速度,采用最近鄰插值進(jìn)行上采樣,通過2層卷積提取特征;且在輸入樣本的同時經(jīng)過最近鄰插值法進(jìn)行上采樣,通過1層卷積提取特征,將2個特征圖輸出進(jìn)行融合,得到上采樣殘差塊的最終輸出。
花卉圖像背景復(fù)雜,存在大量噪聲干擾,使得生成器生成的花卉樣本效果較差。在生成器淺層網(wǎng)絡(luò)中加入注意力機(jī)制,可以關(guān)注生成花卉樣本的邊緣區(qū)域特征,在深層網(wǎng)絡(luò)中添加注意力機(jī)制,進(jìn)一步合成花卉樣本的紋理細(xì)節(jié)特征。本研究在生成器中加入注意力機(jī)制來提取有效花卉樣本區(qū)域特征,進(jìn)一步合成高質(zhì)量的花卉樣本。注意力機(jī)制結(jié)構(gòu)如圖3所示。
生成器輸入采樣于隨機(jī)分布的128維噪聲,通過全連接層轉(zhuǎn)換為16 384維向量,經(jīng)過維度轉(zhuǎn)換大小變?yōu)?4,4,1 024)。通過5個上采樣殘差塊進(jìn)行上采樣,將特征圖大小依次擴(kuò)大2倍,除第1層上采樣殘差塊通道數(shù)不變,其他依次縮小為1/2,特征圖大小變?yōu)?128,128,64)。在每個上采樣殘差塊后依次添加1個注意力模塊進(jìn)一步提取樣本特征,提升模擬樣本的清晰度,注意力機(jī)制不更改樣本大小。最后通過1層卷積層,得到一個維度為(128,128,3)的模擬樣本。卷積層激活函數(shù)為ReLU,輸出層激活函數(shù)為Tanh。圖4為G結(jié)構(gòu)圖。
1.3.2 判別器 判別器模型結(jié)構(gòu)和生成器模型結(jié)構(gòu)對應(yīng),采用下采樣殘差塊進(jìn)行特征提取,融入注意力機(jī)制進(jìn)一步提取花卉區(qū)域樣本特征,將維度為(128,128,3)的真實樣本和模擬樣本傳入判別器,通過5層下采樣殘差塊進(jìn)行特征提取,使得特征圖數(shù)不斷增加,圖片大小不斷減小。在每層下采樣殘差塊后依次添加1層注意力模塊進(jìn)行特征提取,約束模擬樣本的細(xì)節(jié)特征,提高模擬樣本的真實性,且注意力機(jī)制不改變特征圖大小。最后通過卷積層得到(4,4,1 024)的特征圖,通過全連接層進(jìn)行判斷。D中卷積層均為Leaky ReLU激活函數(shù)。圖5為D結(jié)構(gòu)圖,圖6為下采樣殘差塊結(jié)構(gòu)圖。
1.3.3 損失函數(shù)及模型訓(xùn)練 為使得G可以生成清晰度更高的,且具有多樣性的高質(zhì)量花卉樣本,生成器采用融合損失函數(shù),將對抗損失、注意力損失和重構(gòu)損失進(jìn)行加權(quán)融合。判別器損失函數(shù)采用式(3)計算。
1.3.3.1 對抗損失 對抗損失為wgan-gp的生成器損失函數(shù)。如式(4)所示,改善了GAN和WGAN訓(xùn)練時出現(xiàn)的梯度消失,訓(xùn)練解決不穩(wěn)定和生成花卉樣本效果不佳的缺陷。
1.3.3.2 注意力損失 為更好地提取花卉樣本的局部和全局性特征,生成紋理清晰、視覺上和真實樣本高度相似且具有多樣性的模擬樣本,引入注意力損失,如式(13)所示。
(13)
式中:yi表示注意力機(jī)制輸出,同式(12);θi表示注意力機(jī)制輸出層的權(quán)重,淺層的注意力層輸出可用信息較少,權(quán)重較小,深層輸出權(quán)重較大,經(jīng)對比試驗驗證,權(quán)重參數(shù)依次選為1,1,1,2,2,G(z)為生成模擬樣本。
1.3.3.3 重構(gòu)損失 重構(gòu)損失為生成樣本與真實花卉樣本之間的L1距離,可以較好地反映生成花卉樣本的真實性,如式(14)所示。
Lrec=Ex~Pdata(x),z~Pz(z)[‖G(z)-x‖1]。
(14)
式中:x為原始數(shù)據(jù)分布Pdata(x)的輸入樣本;z是采樣于Pz(z)中的隨機(jī)噪聲。
融合目標(biāo)損失函數(shù)為式(15)所示。
Llos=δ1LG+δ2Latt+δ3Lrec。
(15)
式中:δ1,δ2,δ3為損失函數(shù)的權(quán)重。經(jīng)對比試驗分析得到,δ1為1,δ2為0.05,δ3為10時效果最好。
G的訓(xùn)練需要固定D參數(shù),隨機(jī)噪聲經(jīng)過生成器進(jìn)行一系列的上采樣后生成模擬樣本,將其送入到D進(jìn)行判別,盡最大可能使D判別生成的樣本為真實樣本。D需要送入生成樣本和真實樣本進(jìn)行參數(shù)優(yōu)化,根據(jù)式(15)和式(3)計算生成器融合損失值和D的損失值,采用Adam算法進(jìn)行參數(shù)調(diào)整,融合損失函數(shù)值主要為引導(dǎo)生成器生成更高質(zhì)量的樣本,D損失函數(shù)值可以表現(xiàn)網(wǎng)絡(luò)模型的訓(xùn)練情況,當(dāng)該值趨于穩(wěn)定收斂時,表明網(wǎng)絡(luò)模型訓(xùn)練近似達(dá)到最優(yōu),此時生成器加權(quán)損失函數(shù)也趨于穩(wěn)定,生成的模擬樣本質(zhì)量更高。交替對抗訓(xùn)練G和D,為防止過擬合,加快模型收斂,G和D訓(xùn)練次數(shù)設(shè)為1 ∶k。
ARWGAN-GP訓(xùn)練完成后,G可以生成紋理清晰,視覺上和真實樣本高度相似且具有多樣性的模擬樣本,判別器可以快速提取花卉樣本特征。將訓(xùn)練好的生成對抗網(wǎng)絡(luò)模型進(jìn)行調(diào)整,以解決花卉識別準(zhǔn)確度低的問題。圖7為花卉識別網(wǎng)絡(luò)模型。本研究遷移判別器網(wǎng)絡(luò)參數(shù)到花卉識別網(wǎng)絡(luò),大幅度減小了花卉識別網(wǎng)絡(luò)訓(xùn)練時間,且進(jìn)一步提高了花卉識別率,替換全連接層為新設(shè)計的全連接分類層,使用softmax激活函數(shù)進(jìn)行花卉識別。對花卉識別模型進(jìn)行適當(dāng)?shù)膮?shù)調(diào)整以適應(yīng)新任務(wù)的要求,使用交叉熵?fù)p失函數(shù)和Adam算法調(diào)整網(wǎng)絡(luò)參數(shù),采用生成器生成的模擬樣本作為訓(xùn)練集訓(xùn)練花卉識別網(wǎng)絡(luò)。
本研究試驗平臺為Windows10,GPU為NVIDIA GEFORCE GTX 1080,深度學(xué)習(xí)架構(gòu)為keras和Tensorflow。選擇Oxford 102花卉數(shù)據(jù)集作為數(shù)據(jù)樣本,包含102種花卉,共8 189張圖片,將花卉樣本等比例縮放為128×128像素,示例如圖8所示。訓(xùn)練集和測試集的比例設(shè)置為9 ∶1。
2.2.1 ARWGAN-GP模型訓(xùn)練及驗證 本研究使用oxford102花卉數(shù)據(jù)集訓(xùn)練ARWGAN-GP,迭代次數(shù)為20 000,批處理樣本數(shù)為32,G和D學(xué)習(xí)率分別為0.000 1和0.000 4,G和D優(yōu)化更新次數(shù)為1 ∶3。使用G為每張花卉數(shù)據(jù)對應(yīng)生成大量模擬樣本作為訓(xùn)練集,訓(xùn)練本研究的花卉識別網(wǎng)絡(luò)。
圖9為ARWGAN-GP在不同迭代次數(shù)時判別器損失函數(shù)值。在模型開始訓(xùn)練階段,D損失函數(shù)值震蕩幅度較大。此時,G生成樣本能力較弱,融合損失函數(shù)值和D損失函數(shù)值不斷引導(dǎo)G生成更高質(zhì)量的樣本,經(jīng)過多次迭代后,D損失函數(shù)值震蕩范圍縮小,下降到較小值且趨于收斂,表明此階段為模型學(xué)習(xí)階段。隨著試驗的進(jìn)行,模型不斷學(xué)習(xí)優(yōu)化,當(dāng)訓(xùn)練次數(shù)達(dá)到10 000次時,D損失函數(shù)值趨于穩(wěn)定收斂,表明ARWGAN-GP得到了充分的訓(xùn)練,模型已經(jīng)達(dá)到最優(yōu)。此時,G可以生成高質(zhì)量的模擬樣本。訓(xùn)練完成后,使用G生成大量模擬花卉樣本。
為驗證本研究生成的對抗網(wǎng)絡(luò)結(jié)構(gòu)和融合損失函數(shù)的有效性,設(shè)置以下對比試驗進(jìn)行驗證。試驗1、2、3均采用WGAN-GP模型,試驗1網(wǎng)絡(luò)結(jié)構(gòu)以本研究生成器結(jié)構(gòu)為基礎(chǔ),去掉注意力機(jī)制,并采用反卷積神經(jīng)網(wǎng)絡(luò)代替上采樣殘差塊結(jié)構(gòu)。試驗2網(wǎng)絡(luò)結(jié)構(gòu)以本研究生成器結(jié)構(gòu)為基礎(chǔ),并去掉注意力機(jī)制,試驗4為本研究生成對抗網(wǎng)絡(luò)模型,試驗3和試驗4均使用本研究生成器結(jié)構(gòu)。判別器結(jié)構(gòu)均與生成器相對應(yīng)。生成花卉樣本如圖10所示。
圖10表明模型訓(xùn)練完成后,生成器可以生成紋理清晰、視覺上和真實樣本高度相似且具有多樣性的模擬樣本。
本研究采用PSNR(峰值信噪比)、SSIM(結(jié)構(gòu)相似性)和損失函數(shù)來對生成樣本質(zhì)量進(jìn)行評價,PSNR值越大表明生成樣本的質(zhì)量越好,SSIM值越大表明生成樣本的視覺效果越好。表1為PSNR和SSIM評估值。
表1 生成樣本質(zhì)量評估
圖11為4組試驗的損失函數(shù)圖。
由圖10、圖11和表1可看出,試驗1在迭代到 12 500 次時,模型損失函數(shù)趨于穩(wěn)定收斂,生成的花卉樣本存在部分模糊情況,這是由于生成對抗網(wǎng)絡(luò)訓(xùn)練并沒有充分學(xué)習(xí)到花卉樣本特征,PSNR值為24.48 dB,SSIM為0.788 2。試驗2相較于試驗1模型收斂速度加快,表明使用上采樣殘差塊加快了模型訓(xùn)練速度,且提高了模型特征提取能力,使得生成對抗網(wǎng)絡(luò)生成樣本能力得到進(jìn)一步提升,PSNR值為25.74 dB,SSIM值為0.816 4,生成的花卉樣本目標(biāo)邊緣更加清晰,視覺效果較好,質(zhì)量更高。試驗3在試驗2基礎(chǔ)上又加入了注意力機(jī)制,進(jìn)一步關(guān)注有效花卉區(qū)域樣本特征,使得生成的花卉樣本紋理理細(xì)節(jié)更加清晰,PSNR為26.89 dB,SSIM為0.834 7。試驗4使用改進(jìn)的融合損失函數(shù),使得網(wǎng)絡(luò)進(jìn)一步關(guān)注有效花卉區(qū)域,網(wǎng)絡(luò)模型訓(xùn)練更加穩(wěn)定,得到更高的PSNR和SSIM,生成花卉樣本紋理更清晰,視覺效果更好,質(zhì)量更高,進(jìn)一步說明本研究生成對抗網(wǎng)絡(luò)結(jié)構(gòu)和融合損失函數(shù)的有效性。
2.2.2 花卉識別網(wǎng)絡(luò)訓(xùn)練及生成樣本評估 花卉識別網(wǎng)絡(luò)使用Adam優(yōu)化器調(diào)整模型參數(shù),迭代次數(shù)為5 000,學(xué)習(xí)率為0.001,批處理樣本數(shù)為64,使用原始訓(xùn)練集訓(xùn)練花卉識別網(wǎng)絡(luò)?;ɑ茏R別網(wǎng)絡(luò)識別準(zhǔn)確度如圖12所示。當(dāng)網(wǎng)絡(luò)迭代到3 000次時,花卉識別率趨于穩(wěn)定,達(dá)到92.49%,網(wǎng)絡(luò)達(dá)到最優(yōu)狀態(tài)。
為測試生成器生成樣本的數(shù)量對花卉識別率的影響,設(shè)計了6組對比試驗,使用訓(xùn)練完成的生成器為每張花卉數(shù)據(jù)對應(yīng)生成50、60、70、80、90、100張模擬樣本作為訓(xùn)練集訓(xùn)練本研究的花卉識別網(wǎng)絡(luò)。試驗結(jié)果如圖13所示。
由圖13可以看出,使用生成樣本作為訓(xùn)練集使得準(zhǔn)確率得到了很大提升,表明ARWGAN-GP模型生成的樣本紋理清晰、視覺上和真實樣本高度相似且具有多樣性模擬樣本的有效性。隨著生成模擬樣本數(shù)量的增多,對花卉數(shù)據(jù)集的增強(qiáng)效果逐漸趨于穩(wěn)定,當(dāng)花卉樣本數(shù)達(dá)到80張時,花卉識別率逐漸趨于穩(wěn)定,達(dá)到98.36%,此時模型已經(jīng)處于收斂狀態(tài)。
為驗證本研究生成花卉樣本進(jìn)行數(shù)據(jù)增強(qiáng)和花卉識別網(wǎng)絡(luò)的有效性,分別設(shè)置3組花卉識別網(wǎng)絡(luò)和6組數(shù)據(jù)集進(jìn)行試驗驗證。采用傳統(tǒng)方法對原始數(shù)據(jù)集進(jìn)行隨機(jī)裁剪、旋轉(zhuǎn)、縮放、偏移,等比例放大80倍,數(shù)據(jù)集設(shè)為D1,使用 “2.2.1”節(jié)4組試驗訓(xùn)練完成后生成的樣本數(shù)據(jù),分別對應(yīng)生成80張花卉樣本,分別設(shè)為數(shù)據(jù)集D2、D3、D4、D5,花卉識別網(wǎng)絡(luò)分別采用“2.2.1”節(jié)的試驗1、試驗2、試驗4的判別器結(jié)構(gòu),并對最后的全連接層進(jìn)行修改,花卉識別網(wǎng)絡(luò)分別設(shè)為Conv、DownRes、VaDownRes。試驗結(jié)果如表2所示。
表2 不同條件下花卉識別率
由表2可知,在不采用數(shù)據(jù)增強(qiáng)時,在3個分類網(wǎng)絡(luò)上花卉識別平均準(zhǔn)確率為91.21%,在D1數(shù)據(jù)集進(jìn)行訓(xùn)練得到了92.75%的平均花卉識別率,而在D2數(shù)據(jù)集上進(jìn)行訓(xùn)練則取得了95.14%的平均花卉識別率,相較于前2組數(shù)據(jù)集有較大提高。這是由于CNN對于旋轉(zhuǎn)、縮放、偏移、裁剪等存在相應(yīng)的不變性,在采用裁剪、旋轉(zhuǎn)、縮放、偏移進(jìn)行數(shù)據(jù)增強(qiáng)時,部分生成的樣本數(shù)據(jù)和真實樣本特性相同,僅僅是對真實數(shù)據(jù)的簡單復(fù)制,生成的模擬樣本數(shù)據(jù)多樣性不足,使得網(wǎng)絡(luò)識別效果不理想。而生成對抗網(wǎng)絡(luò)進(jìn)行訓(xùn)練時,生成器和判別器通過交替訓(xùn)練不斷學(xué)習(xí)花卉樣本特性,不斷擬合花卉數(shù)據(jù),當(dāng)模型訓(xùn)練完成后,生成器可以生成紋理清晰、視覺上和真實樣本高度相似且具有多樣性的模擬樣本,大幅度提高了花卉識別準(zhǔn)確度。對比試驗分析得到,在D5數(shù)據(jù)集上訓(xùn)練得到的花卉識別率要高于在D2、D3、D4數(shù)據(jù)集上訓(xùn)練得到的結(jié)果,表明本研究生成的對抗網(wǎng)絡(luò)結(jié)構(gòu)和融合損失函數(shù)具有有效性,進(jìn)一步說明采用生成對抗網(wǎng)絡(luò)生成模擬花卉樣本可有效進(jìn)行數(shù)據(jù)增強(qiáng)。
由表2可以看出,在6個花卉數(shù)據(jù)集上,DownRes模型的平均花卉識別率為94.70%,高于在Conv模型上的平均花卉識別率93.15%,表明使用下采樣殘差塊構(gòu)建花卉識別網(wǎng)絡(luò)相較卷積神經(jīng)網(wǎng)絡(luò)大幅度提高了花卉特征提取能力,進(jìn)一步說明花卉識別網(wǎng)絡(luò)采用下采樣殘差塊提取花卉樣本特征更高效。在花卉識別網(wǎng)絡(luò)融入注意力機(jī)制后,VaDownRes模型的平均花卉識別率得到了較大提高,進(jìn)一步說明融入注意力機(jī)制后,使得花卉顯著區(qū)域特征提取能力得到提高,大幅度提高了花卉的識別準(zhǔn)確率。
2.2.3 花卉識別方法對比試驗 設(shè)置以下試驗驗證本研究方法的有效性。
試驗1:文獻(xiàn)[17]提出使用CNN來進(jìn)行花卉識別,與傳統(tǒng)的花卉識別方法不同,該方法使用CNN自動學(xué)習(xí)花卉樣本特性。
試驗2:文獻(xiàn)[18]提出在CNN添加注意力機(jī)制進(jìn)行花卉識別,使用CNN自動提取樣本特征,通過注意力機(jī)制進(jìn)一步提取深度特征。
試驗3:采用文獻(xiàn)[19]提出的方法,利用預(yù)訓(xùn)練模型resnet50在花卉圖像上進(jìn)行遷移微調(diào),重新構(gòu)建新的分類層,在本研究原始數(shù)據(jù)集上進(jìn)行重新訓(xùn)練。
試驗4:采用文獻(xiàn)[9]提出的方法,以resnet50為基礎(chǔ)框架構(gòu)建基于注意力機(jī)制驅(qū)動的殘差網(wǎng)絡(luò),并通過全局平均池化和全連接層實現(xiàn)花卉分類,在本研究原始數(shù)據(jù)集上重訓(xùn)練。
試驗5:使用花卉數(shù)據(jù)集訓(xùn)練ARWGAN-GP,訓(xùn)練結(jié)束后使用生成器網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)增強(qiáng),且遷移D參數(shù)到花卉識別網(wǎng)絡(luò),對其參數(shù)微調(diào),使用增強(qiáng)數(shù)據(jù)重新訓(xùn)練花卉識別網(wǎng)絡(luò)模型。
不同試驗下花卉識別準(zhǔn)確度如表3所示。
表3 不同試驗下花卉識別準(zhǔn)確度
由表3可知,試驗1基于CNN進(jìn)行自動提取花卉特征可以達(dá)到83.00%的準(zhǔn)確度。試驗2在CNN的基礎(chǔ)上添加注意力機(jī)制,相比單獨使用CNN進(jìn)行花卉識別,該方法利用注意力機(jī)制融合花卉樣本的局部和全局特征,進(jìn)一步學(xué)習(xí)捕獲到深度花卉特征,在一定程度上提高了準(zhǔn)確率。試驗3使用深度殘差網(wǎng)絡(luò)進(jìn)行花卉識別,相比使用CNN提高了花卉識別準(zhǔn)確度,這是由于為了提高網(wǎng)絡(luò)的識別率,需要增強(qiáng)網(wǎng)絡(luò)深度,但這會導(dǎo)致梯度消失,而殘差網(wǎng)絡(luò)改善了該缺陷,殘差網(wǎng)絡(luò)更容易優(yōu)化,收斂更快且準(zhǔn)確度更高。試驗4在深度殘差神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上加入了注意力機(jī)制,相比試驗3提高了花卉識別率,加入注意力機(jī)制后,可以有效提取花卉顯著區(qū)域特征,減小噪聲干擾,增強(qiáng)了網(wǎng)絡(luò)的學(xué)習(xí)能力,使得準(zhǔn)確度更高。試驗5采用本研究提出的花卉識別網(wǎng)絡(luò)模型,相比前4組試驗,該方法更進(jìn)一步提高了花卉識別準(zhǔn)確度,這是由于前4組試驗的數(shù)據(jù)量偏小,很難達(dá)到較好的收斂效果。而本研究采用殘差網(wǎng)絡(luò)和注意力機(jī)制構(gòu)建生成對抗網(wǎng)絡(luò),并使用融合損失函數(shù),使得生成對抗網(wǎng)絡(luò)充分提取到了花卉樣本特征,使用訓(xùn)練結(jié)束的ARWGAN-GP模型進(jìn)行數(shù)據(jù)增強(qiáng),使得樣本得到了有效擴(kuò)充,且遷移D參數(shù)到花卉識別網(wǎng)絡(luò),加快了花卉識別網(wǎng)絡(luò)模型的收斂速度,使用生成數(shù)據(jù)進(jìn)行訓(xùn)練花卉識別網(wǎng)絡(luò),進(jìn)一步提高了模型的識別率。
本研究提出了一種基于改進(jìn)生成對抗網(wǎng)絡(luò)的花卉識別方法。使用殘差網(wǎng)絡(luò)構(gòu)建生成器和判別器,解決了網(wǎng)絡(luò)深度加深時出現(xiàn)的梯度消失和訓(xùn)練不穩(wěn)定問題,使得網(wǎng)絡(luò)收斂更快;融入了注意力機(jī)制,可以快速有效地提取花卉顯著區(qū)域特征,減小了噪聲干擾,且改進(jìn)了損失函數(shù),進(jìn)一步提高生成對抗網(wǎng)絡(luò)的能力;ARWGAN-GP訓(xùn)練結(jié)束后,采用生成器進(jìn)行數(shù)據(jù)增強(qiáng),遷移判別器參數(shù)到花卉識別模型,并進(jìn)行參數(shù)微調(diào),加快了模型的收斂速度,進(jìn)一步提高了模型的識別準(zhǔn)確度。