宋宇鵬, 邊繼龍, 安 翔, 張錫英
(東北林業(yè)大學(xué)信息與計(jì)算機(jī)工程學(xué)院,哈爾濱150040)
圖像識(shí)別分類是計(jì)算機(jī)視覺領(lǐng)域內(nèi)的一項(xiàng)關(guān)鍵技術(shù)。近幾年硬件設(shè)備和理論水平不斷發(fā)展,圖像識(shí)別分類技術(shù)被人們廣泛地應(yīng)用在醫(yī)療疾病檢測(cè)、工程災(zāi)害預(yù)警和林業(yè)監(jiān)測(cè)評(píng)估等各個(gè)領(lǐng)域[1-6]。圖像識(shí)別分類技術(shù)能夠有效地提取圖像中的特征,并根據(jù)所提取的特征判斷圖像所屬類別。隨著圖像識(shí)別分類數(shù)據(jù)規(guī)模和特征維度的增加,傳統(tǒng)機(jī)器學(xué)習(xí)方法已經(jīng)不能完全滿足需要,因此以神經(jīng)網(wǎng)絡(luò)為主流的深度學(xué)習(xí)方法成為發(fā)展的方向。自2012年Hinton團(tuán)隊(duì)提出AlexNet[7]模型后,使用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像識(shí)別分類成為熱點(diǎn),不同的網(wǎng)絡(luò)模型陸續(xù)被提出,如VGG[8]、NIN[9]、Inception[10]、ResNet[11]、DenseNet[12]和NASNet[13]等,在各個(gè)網(wǎng)絡(luò)模型識(shí)別分類精度不斷提高的同時(shí),模型訓(xùn)練的各個(gè)階段也進(jìn)行相應(yīng)地改進(jìn),其中包括數(shù)據(jù)預(yù)處理、損失函數(shù)設(shè)計(jì)、網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整和模型優(yōu)化等方面。網(wǎng)絡(luò)模型深度的增加使網(wǎng)絡(luò)參數(shù)量變大,更容易導(dǎo)致網(wǎng)絡(luò)模型出現(xiàn)“網(wǎng)絡(luò)退化”,難以訓(xùn)練。
由于不同領(lǐng)域背景的數(shù)據(jù)集各有差異,某些特定領(lǐng)域的分類任務(wù)中,例如,林業(yè)工程中復(fù)雜樹種分類問題。僅使用上述的神經(jīng)網(wǎng)絡(luò)并不能很好地完成識(shí)別分類任務(wù),而簡(jiǎn)單地增加網(wǎng)絡(luò)的層數(shù)會(huì)導(dǎo)致網(wǎng)絡(luò)參數(shù)冗余,甚至出現(xiàn)網(wǎng)絡(luò)退化現(xiàn)象。
就此,提出在神經(jīng)網(wǎng)絡(luò)模型DenseNet中引入注意力機(jī)制,更有效地提高網(wǎng)絡(luò)的整體性能。通過注意力機(jī)制去更好地獲取數(shù)據(jù)特征,同時(shí)模型不會(huì)因?yàn)檫^深而出現(xiàn)網(wǎng)絡(luò)退化的問題。提出的模型既解決了特定領(lǐng)域內(nèi)復(fù)雜數(shù)據(jù)集識(shí)別分類效果不理想的問題,還提高了網(wǎng)絡(luò)訓(xùn)練效率。針對(duì)林業(yè)工程中多類別復(fù)雜樹種分類任務(wù),以此背景開展實(shí)驗(yàn),使用基于注意力機(jī)制的DenseNet模型,取得了較好的結(jié)果。為證明模型的通用能力,使用公共數(shù)據(jù)集SVHN驗(yàn)證模型的魯棒性。
注意力機(jī)制同神經(jīng)網(wǎng)絡(luò)一樣都是受到仿生學(xué)啟發(fā)。人類在進(jìn)化發(fā)展過程中逐漸形成的視覺注意力機(jī)制能夠快速掃描圖像,判斷出感興趣區(qū)域并投入更多的注意,能夠較好地獲取感興趣區(qū)域的詳細(xì)信息,對(duì)于非感興趣區(qū)域則較少關(guān)注,從而更準(zhǔn)確地幫助人們捕捉信息,提高自身事務(wù)處理能力。注意力機(jī)制在深度學(xué)習(xí)中的應(yīng)用同人類注意力機(jī)制相似,其目的是通過使用注意力機(jī)制更快速、準(zhǔn)確地獲取重要信息,忽略無關(guān)信息,以提高工作效率。注意力機(jī)制最早由計(jì)算機(jī)圖像領(lǐng)域中提出,經(jīng)發(fā)展現(xiàn)已被應(yīng)用在許多計(jì)算機(jī)領(lǐng)域的研究方向,如:機(jī)器翻譯,文本分類,圖像分割和圖像分類等[14-17]。
注意力機(jī)制訓(xùn)練過程將注意力機(jī)制分為硬性注意力(Hard Attention)機(jī)制和柔性注意力(Soft Attention)機(jī)制。硬性注意力是一種非確定性的隨機(jī)動(dòng)態(tài)過程,在訓(xùn)練過程中不可微分,大多通過增強(qiáng)學(xué)習(xí)完成。柔性注意力是一種確定性的注意力機(jī)制,其最大的特點(diǎn)在于該注意力機(jī)制在訓(xùn)練過程中是可微分的,能夠通過網(wǎng)絡(luò)梯度及反饋,實(shí)現(xiàn)端到端的自動(dòng)訓(xùn)練。由于柔性注意力能夠?qū)崿F(xiàn)自動(dòng)訓(xùn)練,現(xiàn)階段圖像分類任務(wù)中較多使用柔性注意力機(jī)制。根據(jù)注意力域的不同,將柔性注意力機(jī)制分為空間域(Spatial Domain)、通道域(Channel Domain)和混合域(Mixed Domain)。基于空間域注意力機(jī)制的典型網(wǎng)絡(luò)就是空間映射網(wǎng)絡(luò)(Spatial Transform Network,STN),該網(wǎng)絡(luò)模型2015年由Jaderberg等[18]提出,通過注意力機(jī)制提取重要的原始圖像空間信息,并將其保存在新的空間信息中?;谕ǖ烙蜃⒁饬C(jī)制的典型網(wǎng)絡(luò),即2017年提出的SENet[19],該網(wǎng)絡(luò)通過得到每個(gè)通道與重要信息之間的關(guān)聯(lián)度,產(chǎn)生基于通道域的注意力機(jī)制。混合域注意力機(jī)制的典型網(wǎng)絡(luò)—?dú)埐钭⒁饬W(wǎng)絡(luò)(Residual Attention Network,RAN)[20],該網(wǎng)絡(luò)模型通過使用“殘差方式”去學(xué)習(xí)其內(nèi)部每一個(gè)特征元素的權(quán)重,并形成基于空間和通道雙向的注意力機(jī)制,能夠較好地獲取原始圖像信息,在一定程度上降低了網(wǎng)絡(luò)參數(shù)冗余度。
密集神經(jīng)網(wǎng)絡(luò)(DenseNet)是2017年由康奈爾大學(xué)、清華大學(xué)、Facebook FAIR實(shí)驗(yàn)室聯(lián)合提出的一種深層卷積神經(jīng)網(wǎng)絡(luò)。DenseNet受到ResNet模型結(jié)構(gòu)中“跳躍連接”的特征傳遞方式所啟發(fā),提出了一種“前層傳遞”的方式,即網(wǎng)絡(luò)模塊中每層的輸入都來自于模塊中該層前面所有層的傳遞。DenseNet神經(jīng)網(wǎng)絡(luò)的“前層傳遞”方式能夠有效地將原始特征傳遞給后續(xù)網(wǎng)絡(luò),同時(shí)還能避免因?yàn)榫W(wǎng)絡(luò)過深導(dǎo)致的“梯度彌散”問題。
ResNet神經(jīng)網(wǎng)絡(luò)通過恒等映射的方式進(jìn)行特征傳遞,防止梯度彌散。ResNet特征傳遞方式:
DenseNet的特征則是使用前層之間的傳遞方式,DenseNet特征傳遞方式:
式中:Xl為第l層的輸出;Hl(·)為每層的非線性函數(shù);[·]為各層的密集連接。相比于ResNet恒等映射后相加的特征傳遞方式,DenseNet的網(wǎng)絡(luò)參數(shù)量較少,且更有利于網(wǎng)絡(luò)中信息的傳遞,使得DenseNet網(wǎng)絡(luò)有更好的魯棒性。
圖1 DenseNet模型結(jié)構(gòu)
DenseNet網(wǎng)絡(luò)主要通過內(nèi)部密集模塊(Dense Block)實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的密集連接,如圖1所示。其中每個(gè)Dense Block內(nèi)部都包含一定數(shù)量的神經(jīng)元,神經(jīng)元個(gè)數(shù)根據(jù)網(wǎng)絡(luò)任務(wù)不同而有所區(qū)別。其中每個(gè)神經(jīng)元主要由批歸一化(Batch Normalization,BN)、激活函數(shù)(RectifiedLinearUnits,ReLU) 和卷積層(Convolution,Conv)組成,每個(gè)神經(jīng)元都與其之前的神經(jīng)元連接,對(duì)于含有L個(gè)神經(jīng)元的Dense Block,則有L×(L+1)/2個(gè)連接。其中Dense Block的增長(zhǎng)率表示每層輸出的特征圖個(gè)數(shù)。為了實(shí)現(xiàn)更好的效果,提高網(wǎng)絡(luò)計(jì)算效率,每個(gè)神經(jīng)元中都會(huì)添加一個(gè)卷積層作為Dense Block的瓶頸層(Bottleneck Layer)減少特征圖數(shù)量,形成最終的神經(jīng)元BN+Relu+Conv(1×1)+ BN +Relu+Conv(3×3)。DenseNet模型在相鄰的Dense Block之間添加Translation Layer降低網(wǎng)絡(luò)整體參數(shù)量,Translation Layer由一層卷積層和一層池化層(Pooling Layer)構(gòu)成。經(jīng)過實(shí)驗(yàn)驗(yàn)證表明,DenseNet不僅能夠提升目標(biāo)分類準(zhǔn)確率,還能有效防止梯度彌散。
注意力機(jī)制能提高網(wǎng)絡(luò)模型對(duì)圖像特征的提取能力,幫助網(wǎng)絡(luò)獲取興趣區(qū)域,減少對(duì)非重要信息的關(guān)注度,提高網(wǎng)絡(luò)的分類識(shí)別效率。與此同時(shí),DenseNet是經(jīng)典的圖像分類模型,其“前層傳遞”的特征傳遞方式能將原始特征傳遞給后層網(wǎng)絡(luò),有效減緩“梯度彌散”現(xiàn)象,能較好地完成大多數(shù)圖像分類識(shí)別任務(wù)。受到兩者特性所啟發(fā),提出了基于注意力機(jī)制的DenseNet模型,該模型將注意力機(jī)制引入DenseNet結(jié)構(gòu)中,將原有的DenseNet進(jìn)行改進(jìn),形成最終的新型網(wǎng)絡(luò)結(jié)構(gòu),如圖2所示。
基于注意力機(jī)制的DenseNet模型(見圖2)的核心是提出了模型內(nèi)部的注意力密集模塊(Attention-Dense Block,ADB)。具有ADB的網(wǎng)絡(luò)有更強(qiáng)的特征提取能力,同時(shí)保留了DenseNet對(duì)原始特征的“不破壞性”傳遞的特點(diǎn),在特定領(lǐng)域背景分類任務(wù)的數(shù)據(jù)集中表現(xiàn)出色。
圖2 基于注意力機(jī)制的DenseNet模型結(jié)構(gòu)圖
ADB分為主干分支和標(biāo)記分支。主干分支以Dense Block為基礎(chǔ)進(jìn)行設(shè)計(jì),采用DenseNet神經(jīng)元前層傳遞的方式進(jìn)行特征傳遞,盡可能地保證了網(wǎng)絡(luò)有較好的特征信息處理能力。其中每個(gè)主干分支設(shè)計(jì)包含6個(gè)神經(jīng)元,每個(gè)神經(jīng)元都添加了Bottleneck Layer,最終形成單個(gè)神經(jīng)元結(jié)構(gòu)為BN+Relu+Conv(1×1)+BN+Relu+ Conv(3×3)。這種結(jié)構(gòu)使得偏后的網(wǎng)絡(luò)層也能獲得較多的特征信息,能夠避免梯度彌散的發(fā)生,具有較好的分類性能。同時(shí)ADB還設(shè)計(jì)了標(biāo)記分支部分。該部分受到殘差注意力網(wǎng)絡(luò)所啟發(fā)[20]。基于混合域的殘差注意力機(jī)制,采用空間域和通道域兩個(gè)方向同時(shí)學(xué)習(xí),通過輸出與主干分支數(shù)量一致的標(biāo)記分支特征圖,最后同網(wǎng)絡(luò)中主干分支相結(jié)合,實(shí)現(xiàn)網(wǎng)絡(luò)的注意力機(jī)制。ADB中的每一個(gè)標(biāo)記分支不僅僅在前向傳播時(shí)作為特征選擇器對(duì)圖像特征進(jìn)行篩選,在網(wǎng)絡(luò)訓(xùn)練反向傳播階段時(shí),該部分還可以作為梯度更新的過濾器。標(biāo)記分支通過下采樣(down sample)和上采樣(up sample)運(yùn)算實(shí)現(xiàn),ADB的標(biāo)記分支部分通過3組Conv(3×3)和Max Pooling(3×3)完成標(biāo)記分支部分下采樣運(yùn)算。其中下采樣運(yùn)算能夠幫助網(wǎng)絡(luò)快速搜索全局特征,獲取興趣區(qū)域信息。上采樣使用雙線性插值完成,該運(yùn)算能獲取特征圖中的興趣區(qū)域信息同原始信息相結(jié)合,并使用兩個(gè)連續(xù)的Conv(1×1)運(yùn)算使得標(biāo)記分支部分的特征圖尺寸和主干分支特征圖尺寸相同,其后通過激活函數(shù)將特征圖數(shù)據(jù)進(jìn)行歸一化,以點(diǎn)乘的方式與主干分支的特征信息相結(jié)合,實(shí)現(xiàn)了端到端的聯(lián)合訓(xùn)練。
根據(jù)林業(yè)工程的復(fù)雜樹種分類任務(wù),經(jīng)實(shí)驗(yàn)對(duì)比最終確定整體網(wǎng)絡(luò)包含4個(gè)ADB、3個(gè)Translation Layer和1個(gè)Classification Layer。其中每個(gè)Translation Layer由Conv(3×3)和Pooling(2×2)組成。ClassificationLayer包括全局平均池化(Global Average Pooling)和全連接層(Fully Connected Layer)。整個(gè)網(wǎng)絡(luò)使用Softmax作為輸出層激活函數(shù),將得到的分類結(jié)果歸一化,并對(duì)結(jié)果進(jìn)行概率判定,最終得到類別判斷結(jié)果。
面對(duì)背景雜亂、場(chǎng)景復(fù)雜、外觀變化較大的分類任務(wù)時(shí),僅使用一個(gè)ADB難以獲取圖像中的重要信息,且只能對(duì)圖像重點(diǎn)信息關(guān)注一次,標(biāo)記分支部分一旦出現(xiàn)錯(cuò)誤信息,難以修正?;谧⒁饬C(jī)制的DenseNet模型使用了多個(gè)ADB。簡(jiǎn)單地添加多個(gè)ADB作為網(wǎng)絡(luò)標(biāo)記分支的方式并不能起到有效的注意力機(jī)制,反而會(huì)導(dǎo)致網(wǎng)絡(luò)模型的性能下降,其主要原因是ADB中經(jīng)過下采樣、上采樣和卷積等一系列運(yùn)算后會(huì)通過激活函數(shù)進(jìn)行歸一化處理,標(biāo)記分支部分的特征數(shù)據(jù)都將變?yōu)椋?,1]范圍之間的數(shù)值,之后標(biāo)記分支的特征數(shù)據(jù)同主干分支中的特征數(shù)據(jù)進(jìn)行點(diǎn)乘運(yùn)算,在這一過程中會(huì)逐漸降低主干分支部分特征數(shù)據(jù)值,特征數(shù)據(jù)在傳遞過程中逐漸衰減,造成訓(xùn)練困難。與此同時(shí),標(biāo)記分支判斷圖像原始特征的全局信息獲取興趣區(qū)域時(shí),經(jīng)過歸一化后非重要區(qū)域數(shù)據(jù)得到較低的權(quán)重,與主干分支數(shù)據(jù)結(jié)合傳遞時(shí)造成對(duì)原始特征數(shù)據(jù)的破壞。針對(duì)以上問題,在ADB中使用殘差學(xué)習(xí)方式去降低其對(duì)數(shù)據(jù)的干擾。
注意力機(jī)制的殘差學(xué)習(xí)方式是受到ResNet中恒等映射的思想所啟發(fā),如圖3所示。大多數(shù)注意力機(jī)制學(xué)習(xí)得到權(quán)重后直接作用在原始圖像中,以此提高網(wǎng)絡(luò)對(duì)于重點(diǎn)信息的關(guān)注:
式中:Hi,c(x)為第i層c通道經(jīng)過注意力機(jī)制后的輸出;x為主干分支和標(biāo)記分支的輸入;T(x)為主干分支的輸出;M(x)為標(biāo)記分支輸出。這樣的學(xué)習(xí)方式會(huì)逐漸導(dǎo)致特征圖信息越來越小,使得網(wǎng)絡(luò)模型的性能下降。
圖3 殘差學(xué)習(xí)方式圖
注意力機(jī)制的殘差學(xué)習(xí)方式提出使用類似于ResNet恒等映射的方法進(jìn)行改進(jìn):
將標(biāo)記分支的輸出構(gòu)造為相同的映射,能夠有效的防止網(wǎng)絡(luò)模型在訓(xùn)練過程中出現(xiàn)退化現(xiàn)象。即使標(biāo)記分支輸出M(x)為0時(shí),該部分并不影響主干分支的特征數(shù)據(jù),對(duì)于標(biāo)記分支判定為重要信息的特征,經(jīng)過注意力機(jī)制后重要特征會(huì)變得更加顯著。注意力機(jī)制的殘差學(xué)習(xí)方式保證了網(wǎng)絡(luò)整體性能,還解決了注意力機(jī)制對(duì)于數(shù)據(jù)的干擾問題。
本次實(shí)驗(yàn)以林業(yè)工程復(fù)雜樹種識(shí)別分類為背景,使用Leafsnap網(wǎng)站所提供的樹木葉片數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。該數(shù)據(jù)集共包含7 719張通過移動(dòng)設(shè)備所拍攝的戶外環(huán)境中的樹木葉片圖像,其中共有184種類別的樹木葉片圖像,圖像的原始尺寸為800×600(像素)。為了提高網(wǎng)絡(luò)模型的泛化能力,使用更多的數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),對(duì)該數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)操作。數(shù)據(jù)增強(qiáng)方式主要通過:伽馬變換、空間幾何變換、低通濾波圖像平滑和噪聲擾動(dòng)。經(jīng)過數(shù)據(jù)增強(qiáng)操作,共計(jì)獲得27 863張224×224(像素)的實(shí)驗(yàn)數(shù)據(jù)集,其中26 253張做訓(xùn)練集,1 610張做測(cè)試集。經(jīng)過數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)集,在原始數(shù)據(jù)集基礎(chǔ)上經(jīng)過縮放、旋轉(zhuǎn)、裁剪、平移、加噪和調(diào)整亮度等操作,盡可能符合真實(shí)環(huán)境,提高實(shí)驗(yàn)數(shù)據(jù)的可靠性和真實(shí)性。
實(shí)驗(yàn)環(huán)境為L(zhǎng)inux系統(tǒng),使用Keras框架設(shè)計(jì)實(shí)現(xiàn)。硬件配置如下:內(nèi)存256 GB,CPU:Intel(R)Xeon(R)CPU E5-2630 V 4。GPU:Tesla V100 (16 GB)×4。實(shí)驗(yàn)以林業(yè)工程復(fù)雜樹種識(shí)別分類任務(wù)為研究背景,對(duì)27 863張實(shí)驗(yàn)圖片,184個(gè)類別的樹木葉片進(jìn)行分類識(shí)別。使用基于注意力機(jī)制的DenseNet模型進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)過程設(shè)置100個(gè)迭代周期,模型增長(zhǎng)率設(shè)置為12,初始學(xué)習(xí)率設(shè)置為0.001,采用階梯式衰減,當(dāng)?shù)芷谶_(dá)到50和75時(shí),當(dāng)前學(xué)習(xí)率分別降低到目前的1/10。為加快模型收斂,反向傳遞階段采用批次隨機(jī)梯度下降法,其中動(dòng)量參數(shù)為0.9,批量大小(batch size)設(shè)置為64。實(shí)驗(yàn)首先對(duì)ADB中標(biāo)記分支不同的采樣方式和采樣次數(shù)進(jìn)行實(shí)驗(yàn)對(duì)比。針對(duì)不同的注意力域進(jìn)行分析對(duì)比,得到最優(yōu)的ADB結(jié)構(gòu),確定基于注意力機(jī)制的DenseNet模型的具體結(jié)構(gòu)。使用基于注意力機(jī)制的DenseNet模型同其他網(wǎng)絡(luò)模型做比較,并根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行分析。同時(shí)使用公共數(shù)據(jù)集SVHN對(duì)網(wǎng)絡(luò)模型進(jìn)行分析驗(yàn)證。
(1)采樣方式和采樣次數(shù)實(shí)驗(yàn)對(duì)比分析。標(biāo)記分支部分主要包括下采樣和上采樣運(yùn)算,下采樣方式和下采樣次數(shù)都會(huì)影響ADB的性能,實(shí)驗(yàn)以雙線性插值為上采樣方式,比較不同下采樣次數(shù)和不同下采樣方式下網(wǎng)絡(luò)的分類性能,選取最優(yōu)下采樣方式和下采樣次數(shù)。
由表1可知,實(shí)驗(yàn)選取最大池化(Max pooling)、平均池化(Average pooling)和重疊池化(Overlapping pooling)3種池化方式,分別下采樣1、2和3次實(shí)驗(yàn)對(duì)比,發(fā)現(xiàn)在標(biāo)記分支中使用Max pooling池化3次時(shí)網(wǎng)絡(luò)模型性能最優(yōu),確定網(wǎng)絡(luò)ADB的標(biāo)記分支部分使用3組Max Pooling。
表1 不同采樣方式和采樣次數(shù)模型分類錯(cuò)誤率 %
(2)不同注意力域的實(shí)驗(yàn)對(duì)比分析。標(biāo)記分支隨著主干分支的不同而有所差別。標(biāo)記分支中的注意力機(jī)制能夠根據(jù)主干分支而進(jìn)行自適應(yīng)改變。標(biāo)記分支的輸出依靠其激活函數(shù)將數(shù)據(jù)進(jìn)行歸一化,不同注意力域的注意力機(jī)制在網(wǎng)絡(luò)中表現(xiàn)也有所不同。設(shè)計(jì)實(shí)驗(yàn)對(duì)比不同注意力域激活函數(shù)的網(wǎng)絡(luò)模型性能,選擇最優(yōu)注意力域的注意力機(jī)制?;谕ǖ烙蚝涂臻g域的Sigmoid的混合域函數(shù)為
基于通道域的L2歸一化去限制空間信息激活的通道域函數(shù)為
f3對(duì)特征信息做標(biāo)準(zhǔn)化處理,只保留關(guān)于空間信息的空間域函數(shù)為
式中:i為在空間位置上的取值;c為在通道位置的取值meanc;stdc為第c通道的特征圖所對(duì)應(yīng)的特征值和方差。經(jīng)過實(shí)驗(yàn)比較混合域、通道域和空間域的Top-1錯(cuò)誤率見表2,分別為8.75%、9.67%和9.25%。基于混合域的激活函數(shù)網(wǎng)絡(luò)模型性能最優(yōu)。
表2 不同注意力域模型分類錯(cuò)誤率
(3)同其他網(wǎng)絡(luò)模型對(duì)比分析。經(jīng)過實(shí)驗(yàn)(1)和實(shí)驗(yàn)(2)確定基于注意力機(jī)制的DenseNet神經(jīng)網(wǎng)絡(luò)模型的具體結(jié)構(gòu)。為了驗(yàn)證模型的性能,使用卷積神經(jīng)網(wǎng)絡(luò)ResNet26[5]和DenseNet-40[12]網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn),分析3種網(wǎng)絡(luò)使用相同的數(shù)據(jù)集在相同迭代次數(shù)下模型的精確率(Precision)、召回率(Recall)和綜合評(píng)價(jià)指標(biāo)F1(F-Measure)。判定網(wǎng)絡(luò)模型的性能,各模型測(cè)試集精確率如圖4所示。
圖4 各模型Top-1測(cè)試集精確率圖
如表3所示,經(jīng)過實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),ResNet26、DenseNet-40和基于注意力機(jī)制的DenseNet 3種不同的神經(jīng)網(wǎng)絡(luò)模型,在相同數(shù)據(jù)集相同迭代次數(shù)下基于注意力機(jī)制的DenseNet模型測(cè)試集的模型綜合評(píng)價(jià)最優(yōu)。
表3 各網(wǎng)絡(luò)模型的測(cè)試集結(jié)果 %
為證明基于注意力機(jī)制的DenseNet模型的可行性,設(shè)計(jì)實(shí)驗(yàn)在公共數(shù)據(jù)集SVHN上驗(yàn)證網(wǎng)絡(luò)模型。SVHN數(shù)據(jù)集是一個(gè)類似于MNIST的數(shù)字識(shí)別數(shù)據(jù)集,包括訓(xùn)練集圖片73 257張,測(cè)試集圖片26 032張,此外還有531 131張圖片用于額外訓(xùn)練。SVHN數(shù)據(jù)集共包括10個(gè)類別,其中每個(gè)樣本對(duì)應(yīng)該類別所屬類別標(biāo)簽。SVHN數(shù)據(jù)集是從Google街景圖像中得到的自然場(chǎng)景下門牌號(hào)碼圖像,圖像中具有簡(jiǎn)單的自然場(chǎng)景和數(shù)字,與此次實(shí)驗(yàn)研究任務(wù)相近,因而選擇SVHN數(shù)據(jù)集做模型驗(yàn)證數(shù)據(jù)集。由于SVHN數(shù)據(jù)集中圖片尺寸都為32×32(像素)大小,根據(jù)數(shù)據(jù)集情況,模型使用3組ADB進(jìn)行實(shí)驗(yàn)分析。實(shí)驗(yàn)基于注意力機(jī)制的DenseNet模型,使用文章3.2中相同的實(shí)驗(yàn)設(shè)備和實(shí)驗(yàn)參數(shù),迭代100個(gè)周期,得到該模型在SVHN數(shù)據(jù)集上的不同迭代周期的測(cè)試集精確度,如圖5所示?;谧⒁饬C(jī)制的DenseNet模型在SVHN數(shù)據(jù)集測(cè)試集中精確度為98.27%,證明該網(wǎng)絡(luò)的可行性。
圖5 SVHN測(cè)試集精確率圖
經(jīng)過實(shí)驗(yàn)分析發(fā)現(xiàn),基于注意力機(jī)制的DenseNet模型中ADB標(biāo)記分支部分采用3組Max Pooling時(shí),基于混合注意力域時(shí)網(wǎng)絡(luò)模型性能最優(yōu)。通過在相同實(shí)驗(yàn)環(huán)境下對(duì)比ResNet26[5]、DenseNet-40[12]和本文的基于注意力機(jī)制的DenseNet模型,發(fā)現(xiàn)基于注意力機(jī)制的DenseNet模型識(shí)別分類精確率最高。與此同時(shí),為了驗(yàn)證所提出的神經(jīng)網(wǎng)絡(luò)模型,使用SVHN數(shù)據(jù)集進(jìn)行測(cè)試,證明了基于注意力機(jī)制的DenseNet模型的可行性?;谧⒁饬C(jī)制的DenseNet模型能夠較好地解決網(wǎng)絡(luò)模型過于復(fù)雜造成的參數(shù)冗余、訓(xùn)練困難和網(wǎng)絡(luò)退化問題。在林業(yè)工程領(lǐng)域復(fù)雜樹種識(shí)別分類任務(wù)上取得了較好的分類效果。
受到注意力機(jī)制和DenseNet卷積神經(jīng)網(wǎng)絡(luò)的啟發(fā),提出了基于注意力機(jī)制的DenseNet模型,解決了模型因數(shù)據(jù)特殊而出現(xiàn)識(shí)別效果不佳的問題。實(shí)驗(yàn)以林業(yè)工程領(lǐng)域復(fù)雜樹種識(shí)別分類為研究背景。基于注意力機(jī)制的DenseNet模型結(jié)合注意力機(jī)制和DenseNet的良好特性,使得網(wǎng)絡(luò)有較強(qiáng)的特征提取能力,對(duì)184種樹木葉片分類過程中取得了較好的實(shí)驗(yàn)效果,證明了基于注意力機(jī)制的DenseNet模型的可行性。與此同時(shí),實(shí)驗(yàn)在GPU設(shè)備上訓(xùn)練,訓(xùn)練時(shí)間較長(zhǎng),今后還需對(duì)網(wǎng)絡(luò)模型及訓(xùn)練方法進(jìn)行調(diào)整,提高網(wǎng)絡(luò)模型的訓(xùn)練效率。形成實(shí)體產(chǎn)品應(yīng)用在林區(qū)工作和林業(yè)院校教學(xué)中,提高林業(yè)工程效率。
·名人名言·
科學(xué)的未來只能屬于勤奮而謙虛的年輕一代。
——巴甫洛夫