基于注意力機(jī)制的DenseNet 模型的樹種識(shí)別應(yīng)用

2020-09-14 08:29宋宇鵬邊繼龍張錫英

實(shí)驗(yàn)室研究與探索 2020年7期

宋宇鵬，邊繼龍，安翔，張錫英

（東北林業(yè)大學(xué)信息與計(jì)算機(jī)工程學(xué)院，哈爾濱150040）

0 引言

圖像識(shí)別分類是計(jì)算機(jī)視覺領(lǐng)域內(nèi)的一項(xiàng)關(guān)鍵技術(shù)。近幾年硬件設(shè)備和理論水平不斷發(fā)展，圖像識(shí)別分類技術(shù)被人們廣泛地應(yīng)用在醫(yī)療疾病檢測(cè)、工程災(zāi)害預(yù)警和林業(yè)監(jiān)測(cè)評(píng)估等各個(gè)領(lǐng)域［1-6］。圖像識(shí)別分類技術(shù)能夠有效地提取圖像中的特征，并根據(jù)所提取的特征判斷圖像所屬類別。隨著圖像識(shí)別分類數(shù)據(jù)規(guī)模和特征維度的增加，傳統(tǒng)機(jī)器學(xué)習(xí)方法已經(jīng)不能完全滿足需要，因此以神經(jīng)網(wǎng)絡(luò)為主流的深度學(xué)習(xí)方法成為發(fā)展的方向。自2012年Hinton團(tuán)隊(duì)提出AlexNet［7］模型后，使用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像識(shí)別分類成為熱點(diǎn)，不同的網(wǎng)絡(luò)模型陸續(xù)被提出，如VGG［8］、NIN［9］、Inception［10］、ResNet［11］、DenseNet［12］和NASNet［13］等，在各個(gè)網(wǎng)絡(luò)模型識(shí)別分類精度不斷提高的同時(shí)，模型訓(xùn)練的各個(gè)階段也進(jìn)行相應(yīng)地改進(jìn)，其中包括數(shù)據(jù)預(yù)處理、損失函數(shù)設(shè)計(jì)、網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整和模型優(yōu)化等方面。網(wǎng)絡(luò)模型深度的增加使網(wǎng)絡(luò)參數(shù)量變大，更容易導(dǎo)致網(wǎng)絡(luò)模型出現(xiàn)“網(wǎng)絡(luò)退化”，難以訓(xùn)練。

由于不同領(lǐng)域背景的數(shù)據(jù)集各有差異，某些特定領(lǐng)域的分類任務(wù)中，例如，林業(yè)工程中復(fù)雜樹種分類問題。僅使用上述的神經(jīng)網(wǎng)絡(luò)并不能很好地完成識(shí)別分類任務(wù)，而簡(jiǎn)單地增加網(wǎng)絡(luò)的層數(shù)會(huì)導(dǎo)致網(wǎng)絡(luò)參數(shù)冗余，甚至出現(xiàn)網(wǎng)絡(luò)退化現(xiàn)象。

就此，提出在神經(jīng)網(wǎng)絡(luò)模型DenseNet中引入注意力機(jī)制，更有效地提高網(wǎng)絡(luò)的整體性能。通過注意力機(jī)制去更好地獲取數(shù)據(jù)特征，同時(shí)模型不會(huì)因?yàn)檫^深而出現(xiàn)網(wǎng)絡(luò)退化的問題。提出的模型既解決了特定領(lǐng)域內(nèi)復(fù)雜數(shù)據(jù)集識(shí)別分類效果不理想的問題，還提高了網(wǎng)絡(luò)訓(xùn)練效率。針對(duì)林業(yè)工程中多類別復(fù)雜樹種分類任務(wù)，以此背景開展實(shí)驗(yàn)，使用基于注意力機(jī)制的DenseNet模型，取得了較好的結(jié)果。為證明模型的通用能力，使用公共數(shù)據(jù)集SVHN驗(yàn)證模型的魯棒性。

1 相關(guān)知識(shí)

1.1 注意力機(jī)制

注意力機(jī)制同神經(jīng)網(wǎng)絡(luò)一樣都是受到仿生學(xué)啟發(fā)。人類在進(jìn)化發(fā)展過程中逐漸形成的視覺注意力機(jī)制能夠快速掃描圖像，判斷出感興趣區(qū)域并投入更多的注意，能夠較好地獲取感興趣區(qū)域的詳細(xì)信息，對(duì)于非感興趣區(qū)域則較少關(guān)注，從而更準(zhǔn)確地幫助人們捕捉信息，提高自身事務(wù)處理能力。注意力機(jī)制在深度學(xué)習(xí)中的應(yīng)用同人類注意力機(jī)制相似，其目的是通過使用注意力機(jī)制更快速、準(zhǔn)確地獲取重要信息，忽略無關(guān)信息，以提高工作效率。注意力機(jī)制最早由計(jì)算機(jī)圖像領(lǐng)域中提出，經(jīng)發(fā)展現(xiàn)已被應(yīng)用在許多計(jì)算機(jī)領(lǐng)域的研究方向，如：機(jī)器翻譯，文本分類，圖像分割和圖像分類等［14-17］。

注意力機(jī)制訓(xùn)練過程將注意力機(jī)制分為硬性注意力（Hard Attention）機(jī)制和柔性注意力（Soft Attention）機(jī)制。硬性注意力是一種非確定性的隨機(jī)動(dòng)態(tài)過程，在訓(xùn)練過程中不可微分，大多通過增強(qiáng)學(xué)習(xí)完成。柔性注意力是一種確定性的注意力機(jī)制，其最大的特點(diǎn)在于該注意力機(jī)制在訓(xùn)練過程中是可微分的，能夠通過網(wǎng)絡(luò)梯度及反饋，實(shí)現(xiàn)端到端的自動(dòng)訓(xùn)練。由于柔性注意力能夠?qū)崿F(xiàn)自動(dòng)訓(xùn)練，現(xiàn)階段圖像分類任務(wù)中較多使用柔性注意力機(jī)制。根據(jù)注意力域的不同，將柔性注意力機(jī)制分為空間域（Spatial Domain）、通道域（Channel Domain）和混合域（Mixed Domain）。基于空間域注意力機(jī)制的典型網(wǎng)絡(luò)就是空間映射網(wǎng)絡(luò)（Spatial Transform Network，STN），該網(wǎng)絡(luò)模型2015年由Jaderberg等［18］提出，通過注意力機(jī)制提取重要的原始圖像空間信息，并將其保存在新的空間信息中?；谕ǖ烙蜃⒁饬C(jī)制的典型網(wǎng)絡(luò)，即2017年提出的SENet［19］，該網(wǎng)絡(luò)通過得到每個(gè)通道與重要信息之間的關(guān)聯(lián)度，產(chǎn)生基于通道域的注意力機(jī)制。混合域注意力機(jī)制的典型網(wǎng)絡(luò)—?dú)埐钭⒁饬W(wǎng)絡(luò)（Residual Attention Network，RAN）［20］，該網(wǎng)絡(luò)模型通過使用“殘差方式”去學(xué)習(xí)其內(nèi)部每一個(gè)特征元素的權(quán)重，并形成基于空間和通道雙向的注意力機(jī)制，能夠較好地獲取原始圖像信息，在一定程度上降低了網(wǎng)絡(luò)參數(shù)冗余度。

1.2 Densenet神經(jīng)網(wǎng)絡(luò)

密集神經(jīng)網(wǎng)絡(luò)（DenseNet）是2017年由康奈爾大學(xué)、清華大學(xué)、Facebook FAIR實(shí)驗(yàn)室聯(lián)合提出的一種深層卷積神經(jīng)網(wǎng)絡(luò)。DenseNet受到ResNet模型結(jié)構(gòu)中“跳躍連接”的特征傳遞方式所啟發(fā)，提出了一種“前層傳遞”的方式，即網(wǎng)絡(luò)模塊中每層的輸入都來自于模塊中該層前面所有層的傳遞。DenseNet神經(jīng)網(wǎng)絡(luò)的“前層傳遞”方式能夠有效地將原始特征傳遞給后續(xù)網(wǎng)絡(luò)，同時(shí)還能避免因?yàn)榫W(wǎng)絡(luò)過深導(dǎo)致的“梯度彌散”問題。

ResNet神經(jīng)網(wǎng)絡(luò)通過恒等映射的方式進(jìn)行特征傳遞，防止梯度彌散。ResNet特征傳遞方式：

DenseNet的特征則是使用前層之間的傳遞方式，DenseNet特征傳遞方式：

式中：Xl為第l層的輸出；Hl（·）為每層的非線性函數(shù)；［·］為各層的密集連接。相比于ResNet恒等映射后相加的特征傳遞方式，DenseNet的網(wǎng)絡(luò)參數(shù)量較少，且更有利于網(wǎng)絡(luò)中信息的傳遞，使得DenseNet網(wǎng)絡(luò)有更好的魯棒性。

圖1 DenseNet模型結(jié)構(gòu)

DenseNet網(wǎng)絡(luò)主要通過內(nèi)部密集模塊（Dense Block）實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的密集連接，如圖1所示。其中每個(gè)Dense Block內(nèi)部都包含一定數(shù)量的神經(jīng)元，神經(jīng)元個(gè)數(shù)根據(jù)網(wǎng)絡(luò)任務(wù)不同而有所區(qū)別。其中每個(gè)神經(jīng)元主要由批歸一化（Batch Normalization，BN）、激活函數(shù)（RectifiedLinearUnits，ReLU）和卷積層（Convolution，Conv）組成，每個(gè)神經(jīng)元都與其之前的神經(jīng)元連接，對(duì)于含有L個(gè)神經(jīng)元的Dense Block，則有L×（L＋1）／2個(gè)連接。其中Dense Block的增長(zhǎng)率表示每層輸出的特征圖個(gè)數(shù)。為了實(shí)現(xiàn)更好的效果，提高網(wǎng)絡(luò)計(jì)算效率，每個(gè)神經(jīng)元中都會(huì)添加一個(gè)卷積層作為Dense Block的瓶頸層（Bottleneck Layer）減少特征圖數(shù)量，形成最終的神經(jīng)元BN＋Relu＋Conv（1×1）＋ BN ＋Relu＋Conv（3×3）。DenseNet模型在相鄰的Dense Block之間添加Translation Layer降低網(wǎng)絡(luò)整體參數(shù)量，Translation Layer由一層卷積層和一層池化層（Pooling Layer）構(gòu)成。經(jīng)過實(shí)驗(yàn)驗(yàn)證表明，DenseNet不僅能夠提升目標(biāo)分類準(zhǔn)確率，還能有效防止梯度彌散。

2 基于注意力機(jī)制的DenseNet模型

2.1 基于注意力機(jī)制的DenseNet模型

注意力機(jī)制能提高網(wǎng)絡(luò)模型對(duì)圖像特征的提取能力，幫助網(wǎng)絡(luò)獲取興趣區(qū)域，減少對(duì)非重要信息的關(guān)注度，提高網(wǎng)絡(luò)的分類識(shí)別效率。與此同時(shí)，DenseNet是經(jīng)典的圖像分類模型，其“前層傳遞”的特征傳遞方式能將原始特征傳遞給后層網(wǎng)絡(luò)，有效減緩“梯度彌散”現(xiàn)象，能較好地完成大多數(shù)圖像分類識(shí)別任務(wù)。受到兩者特性所啟發(fā)，提出了基于注意力機(jī)制的DenseNet模型，該模型將注意力機(jī)制引入DenseNet結(jié)構(gòu)中，將原有的DenseNet進(jìn)行改進(jìn)，形成最終的新型網(wǎng)絡(luò)結(jié)構(gòu)，如圖2所示。

基于注意力機(jī)制的DenseNet模型（見圖2）的核心是提出了模型內(nèi)部的注意力密集模塊（Attention-Dense Block，ADB）。具有ADB的網(wǎng)絡(luò)有更強(qiáng)的特征提取能力，同時(shí)保留了DenseNet對(duì)原始特征的“不破壞性”傳遞的特點(diǎn)，在特定領(lǐng)域背景分類任務(wù)的數(shù)據(jù)集中表現(xiàn)出色。

圖2 基于注意力機(jī)制的DenseNet模型結(jié)構(gòu)圖

ADB分為主干分支和標(biāo)記分支。主干分支以Dense Block為基礎(chǔ)進(jìn)行設(shè)計(jì)，采用DenseNet神經(jīng)元前層傳遞的方式進(jìn)行特征傳遞，盡可能地保證了網(wǎng)絡(luò)有較好的特征信息處理能力。其中每個(gè)主干分支設(shè)計(jì)包含6個(gè)神經(jīng)元，每個(gè)神經(jīng)元都添加了Bottleneck Layer，最終形成單個(gè)神經(jīng)元結(jié)構(gòu)為BN＋Relu＋Conv（1×1）＋BN＋Relu＋ Conv（3×3）。這種結(jié)構(gòu)使得偏后的網(wǎng)絡(luò)層也能獲得較多的特征信息，能夠避免梯度彌散的發(fā)生，具有較好的分類性能。同時(shí)ADB還設(shè)計(jì)了標(biāo)記分支部分。該部分受到殘差注意力網(wǎng)絡(luò)所啟發(fā)［20］。基于混合域的殘差注意力機(jī)制，采用空間域和通道域兩個(gè)方向同時(shí)學(xué)習(xí)，通過輸出與主干分支數(shù)量一致的標(biāo)記分支特征圖，最后同網(wǎng)絡(luò)中主干分支相結(jié)合，實(shí)現(xiàn)網(wǎng)絡(luò)的注意力機(jī)制。ADB中的每一個(gè)標(biāo)記分支不僅僅在前向傳播時(shí)作為特征選擇器對(duì)圖像特征進(jìn)行篩選，在網(wǎng)絡(luò)訓(xùn)練反向傳播階段時(shí)，該部分還可以作為梯度更新的過濾器。標(biāo)記分支通過下采樣（down sample）和上采樣（up sample）運(yùn)算實(shí)現(xiàn)，ADB的標(biāo)記分支部分通過3組Conv（3×3）和Max Pooling（3×3）完成標(biāo)記分支部分下采樣運(yùn)算。其中下采樣運(yùn)算能夠幫助網(wǎng)絡(luò)快速搜索全局特征，獲取興趣區(qū)域信息。上采樣使用雙線性插值完成，該運(yùn)算能獲取特征圖中的興趣區(qū)域信息同原始信息相結(jié)合，并使用兩個(gè)連續(xù)的Conv（1×1）運(yùn)算使得標(biāo)記分支部分的特征圖尺寸和主干分支特征圖尺寸相同，其后通過激活函數(shù)將特征圖數(shù)據(jù)進(jìn)行歸一化，以點(diǎn)乘的方式與主干分支的特征信息相結(jié)合，實(shí)現(xiàn)了端到端的聯(lián)合訓(xùn)練。

根據(jù)林業(yè)工程的復(fù)雜樹種分類任務(wù)，經(jīng)實(shí)驗(yàn)對(duì)比最終確定整體網(wǎng)絡(luò)包含4個(gè)ADB、3個(gè)Translation Layer和1個(gè)Classification Layer。其中每個(gè)Translation Layer由Conv（3×3）和Pooling（2×2）組成。ClassificationLayer包括全局平均池化（Global Average Pooling）和全連接層（Fully Connected Layer）。整個(gè)網(wǎng)絡(luò)使用Softmax作為輸出層激活函數(shù)，將得到的分類結(jié)果歸一化，并對(duì)結(jié)果進(jìn)行概率判定，最終得到類別判斷結(jié)果。

2.2 注意力機(jī)制的殘差學(xué)習(xí)方式

面對(duì)背景雜亂、場(chǎng)景復(fù)雜、外觀變化較大的分類任務(wù)時(shí)，僅使用一個(gè)ADB難以獲取圖像中的重要信息，且只能對(duì)圖像重點(diǎn)信息關(guān)注一次，標(biāo)記分支部分一旦出現(xiàn)錯(cuò)誤信息，難以修正?；谧⒁饬C(jī)制的DenseNet模型使用了多個(gè)ADB。簡(jiǎn)單地添加多個(gè)ADB作為網(wǎng)絡(luò)標(biāo)記分支的方式并不能起到有效的注意力機(jī)制，反而會(huì)導(dǎo)致網(wǎng)絡(luò)模型的性能下降，其主要原因是ADB中經(jīng)過下采樣、上采樣和卷積等一系列運(yùn)算后會(huì)通過激活函數(shù)進(jìn)行歸一化處理，標(biāo)記分支部分的特征數(shù)據(jù)都將變?yōu)椋?，1］范圍之間的數(shù)值，之后標(biāo)記分支的特征數(shù)據(jù)同主干分支中的特征數(shù)據(jù)進(jìn)行點(diǎn)乘運(yùn)算，在這一過程中會(huì)逐漸降低主干分支部分特征數(shù)據(jù)值，特征數(shù)據(jù)在傳遞過程中逐漸衰減，造成訓(xùn)練困難。與此同時(shí)，標(biāo)記分支判斷圖像原始特征的全局信息獲取興趣區(qū)域時(shí)，經(jīng)過歸一化后非重要區(qū)域數(shù)據(jù)得到較低的權(quán)重，與主干分支數(shù)據(jù)結(jié)合傳遞時(shí)造成對(duì)原始特征數(shù)據(jù)的破壞。針對(duì)以上問題，在ADB中使用殘差學(xué)習(xí)方式去降低其對(duì)數(shù)據(jù)的干擾。

注意力機(jī)制的殘差學(xué)習(xí)方式是受到ResNet中恒等映射的思想所啟發(fā)，如圖3所示。大多數(shù)注意力機(jī)制學(xué)習(xí)得到權(quán)重后直接作用在原始圖像中，以此提高網(wǎng)絡(luò)對(duì)于重點(diǎn)信息的關(guān)注：

式中：Hi，c（x）為第i層c通道經(jīng)過注意力機(jī)制后的輸出；x為主干分支和標(biāo)記分支的輸入；T（x）為主干分支的輸出；M（x）為標(biāo)記分支輸出。這樣的學(xué)習(xí)方式會(huì)逐漸導(dǎo)致特征圖信息越來越小，使得網(wǎng)絡(luò)模型的性能下降。

圖3 殘差學(xué)習(xí)方式圖

注意力機(jī)制的殘差學(xué)習(xí)方式提出使用類似于ResNet恒等映射的方法進(jìn)行改進(jìn)：

將標(biāo)記分支的輸出構(gòu)造為相同的映射，能夠有效的防止網(wǎng)絡(luò)模型在訓(xùn)練過程中出現(xiàn)退化現(xiàn)象。即使標(biāo)記分支輸出M（x）為0時(shí)，該部分并不影響主干分支的特征數(shù)據(jù)，對(duì)于標(biāo)記分支判定為重要信息的特征，經(jīng)過注意力機(jī)制后重要特征會(huì)變得更加顯著。注意力機(jī)制的殘差學(xué)習(xí)方式保證了網(wǎng)絡(luò)整體性能，還解決了注意力機(jī)制對(duì)于數(shù)據(jù)的干擾問題。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本次實(shí)驗(yàn)以林業(yè)工程復(fù)雜樹種識(shí)別分類為背景，使用Leafsnap網(wǎng)站所提供的樹木葉片數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。該數(shù)據(jù)集共包含7 719張通過移動(dòng)設(shè)備所拍攝的戶外環(huán)境中的樹木葉片圖像，其中共有184種類別的樹木葉片圖像，圖像的原始尺寸為800×600（像素）。為了提高網(wǎng)絡(luò)模型的泛化能力，使用更多的數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)，對(duì)該數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)操作。數(shù)據(jù)增強(qiáng)方式主要通過：伽馬變換、空間幾何變換、低通濾波圖像平滑和噪聲擾動(dòng)。經(jīng)過數(shù)據(jù)增強(qiáng)操作，共計(jì)獲得27 863張224×224（像素）的實(shí)驗(yàn)數(shù)據(jù)集，其中26 253張做訓(xùn)練集，1 610張做測(cè)試集。經(jīng)過數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)集，在原始數(shù)據(jù)集基礎(chǔ)上經(jīng)過縮放、旋轉(zhuǎn)、裁剪、平移、加噪和調(diào)整亮度等操作，盡可能符合真實(shí)環(huán)境，提高實(shí)驗(yàn)數(shù)據(jù)的可靠性和真實(shí)性。

3.2 實(shí)驗(yàn)對(duì)比及分析

實(shí)驗(yàn)環(huán)境為L(zhǎng)inux系統(tǒng)，使用Keras框架設(shè)計(jì)實(shí)現(xiàn)。硬件配置如下：內(nèi)存256 GB，CPU：Intel（R）Xeon（R）CPU E5-2630 V 4。GPU：Tesla V100 （16 GB）×4。實(shí)驗(yàn)以林業(yè)工程復(fù)雜樹種識(shí)別分類任務(wù)為研究背景，對(duì)27 863張實(shí)驗(yàn)圖片，184個(gè)類別的樹木葉片進(jìn)行分類識(shí)別。使用基于注意力機(jī)制的DenseNet模型進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)過程設(shè)置100個(gè)迭代周期，模型增長(zhǎng)率設(shè)置為12，初始學(xué)習(xí)率設(shè)置為0．001，采用階梯式衰減，當(dāng)?shù)芷谶_(dá)到50和75時(shí)，當(dāng)前學(xué)習(xí)率分別降低到目前的1／10。為加快模型收斂，反向傳遞階段采用批次隨機(jī)梯度下降法，其中動(dòng)量參數(shù)為0．9，批量大小（batch size）設(shè)置為64。實(shí)驗(yàn)首先對(duì)ADB中標(biāo)記分支不同的采樣方式和采樣次數(shù)進(jìn)行實(shí)驗(yàn)對(duì)比。針對(duì)不同的注意力域進(jìn)行分析對(duì)比，得到最優(yōu)的ADB結(jié)構(gòu)，確定基于注意力機(jī)制的DenseNet模型的具體結(jié)構(gòu)。使用基于注意力機(jī)制的DenseNet模型同其他網(wǎng)絡(luò)模型做比較，并根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行分析。同時(shí)使用公共數(shù)據(jù)集SVHN對(duì)網(wǎng)絡(luò)模型進(jìn)行分析驗(yàn)證。

（1）采樣方式和采樣次數(shù)實(shí)驗(yàn)對(duì)比分析。標(biāo)記分支部分主要包括下采樣和上采樣運(yùn)算，下采樣方式和下采樣次數(shù)都會(huì)影響ADB的性能，實(shí)驗(yàn)以雙線性插值為上采樣方式，比較不同下采樣次數(shù)和不同下采樣方式下網(wǎng)絡(luò)的分類性能，選取最優(yōu)下采樣方式和下采樣次數(shù)。

由表1可知，實(shí)驗(yàn)選取最大池化（Max pooling）、平均池化（Average pooling）和重疊池化（Overlapping pooling）3種池化方式，分別下采樣1、2和3次實(shí)驗(yàn)對(duì)比，發(fā)現(xiàn)在標(biāo)記分支中使用Max pooling池化3次時(shí)網(wǎng)絡(luò)模型性能最優(yōu)，確定網(wǎng)絡(luò)ADB的標(biāo)記分支部分使用3組Max Pooling。

表1 不同采樣方式和采樣次數(shù)模型分類錯(cuò)誤率 %

（2）不同注意力域的實(shí)驗(yàn)對(duì)比分析。標(biāo)記分支隨著主干分支的不同而有所差別。標(biāo)記分支中的注意力機(jī)制能夠根據(jù)主干分支而進(jìn)行自適應(yīng)改變。標(biāo)記分支的輸出依靠其激活函數(shù)將數(shù)據(jù)進(jìn)行歸一化，不同注意力域的注意力機(jī)制在網(wǎng)絡(luò)中表現(xiàn)也有所不同。設(shè)計(jì)實(shí)驗(yàn)對(duì)比不同注意力域激活函數(shù)的網(wǎng)絡(luò)模型性能，選擇最優(yōu)注意力域的注意力機(jī)制?；谕ǖ烙蚝涂臻g域的Sigmoid的混合域函數(shù)為

基于通道域的L2歸一化去限制空間信息激活的通道域函數(shù)為

f3對(duì)特征信息做標(biāo)準(zhǔn)化處理，只保留關(guān)于空間信息的空間域函數(shù)為

式中：i為在空間位置上的取值；c為在通道位置的取值meanc；stdc為第c通道的特征圖所對(duì)應(yīng)的特征值和方差。經(jīng)過實(shí)驗(yàn)比較混合域、通道域和空間域的Top-1錯(cuò)誤率見表2，分別為8．75%、9．67%和9．25%。基于混合域的激活函數(shù)網(wǎng)絡(luò)模型性能最優(yōu)。

表2 不同注意力域模型分類錯(cuò)誤率

（3）同其他網(wǎng)絡(luò)模型對(duì)比分析。經(jīng)過實(shí)驗(yàn)（1）和實(shí)驗(yàn)（2）確定基于注意力機(jī)制的DenseNet神經(jīng)網(wǎng)絡(luò)模型的具體結(jié)構(gòu)。為了驗(yàn)證模型的性能，使用卷積神經(jīng)網(wǎng)絡(luò)ResNet26［5］和DenseNet-40［12］網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn)，分析3種網(wǎng)絡(luò)使用相同的數(shù)據(jù)集在相同迭代次數(shù)下模型的精確率（Precision）、召回率（Recall）和綜合評(píng)價(jià)指標(biāo)F1（F-Measure）。判定網(wǎng)絡(luò)模型的性能，各模型測(cè)試集精確率如圖4所示。

圖4 各模型Top-1測(cè)試集精確率圖

如表3所示，經(jīng)過實(shí)驗(yàn)對(duì)比發(fā)現(xiàn)，ResNet26、DenseNet-40和基于注意力機(jī)制的DenseNet 3種不同的神經(jīng)網(wǎng)絡(luò)模型，在相同數(shù)據(jù)集相同迭代次數(shù)下基于注意力機(jī)制的DenseNet模型測(cè)試集的模型綜合評(píng)價(jià)最優(yōu)。

表3 各網(wǎng)絡(luò)模型的測(cè)試集結(jié)果 %

3.3 網(wǎng)絡(luò)模型驗(yàn)證

為證明基于注意力機(jī)制的DenseNet模型的可行性，設(shè)計(jì)實(shí)驗(yàn)在公共數(shù)據(jù)集SVHN上驗(yàn)證網(wǎng)絡(luò)模型。SVHN數(shù)據(jù)集是一個(gè)類似于MNIST的數(shù)字識(shí)別數(shù)據(jù)集，包括訓(xùn)練集圖片73 257張，測(cè)試集圖片26 032張，此外還有531 131張圖片用于額外訓(xùn)練。SVHN數(shù)據(jù)集共包括10個(gè)類別，其中每個(gè)樣本對(duì)應(yīng)該類別所屬類別標(biāo)簽。SVHN數(shù)據(jù)集是從Google街景圖像中得到的自然場(chǎng)景下門牌號(hào)碼圖像，圖像中具有簡(jiǎn)單的自然場(chǎng)景和數(shù)字，與此次實(shí)驗(yàn)研究任務(wù)相近，因而選擇SVHN數(shù)據(jù)集做模型驗(yàn)證數(shù)據(jù)集。由于SVHN數(shù)據(jù)集中圖片尺寸都為32×32（像素）大小，根據(jù)數(shù)據(jù)集情況，模型使用3組ADB進(jìn)行實(shí)驗(yàn)分析。實(shí)驗(yàn)基于注意力機(jī)制的DenseNet模型，使用文章3．2中相同的實(shí)驗(yàn)設(shè)備和實(shí)驗(yàn)參數(shù)，迭代100個(gè)周期，得到該模型在SVHN數(shù)據(jù)集上的不同迭代周期的測(cè)試集精確度，如圖5所示?；谧⒁饬C(jī)制的DenseNet模型在SVHN數(shù)據(jù)集測(cè)試集中精確度為98．27%，證明該網(wǎng)絡(luò)的可行性。

圖5 SVHN測(cè)試集精確率圖

經(jīng)過實(shí)驗(yàn)分析發(fā)現(xiàn)，基于注意力機(jī)制的DenseNet模型中ADB標(biāo)記分支部分采用3組Max Pooling時(shí)，基于混合注意力域時(shí)網(wǎng)絡(luò)模型性能最優(yōu)。通過在相同實(shí)驗(yàn)環(huán)境下對(duì)比ResNet26［5］、DenseNet-40［12］和本文的基于注意力機(jī)制的DenseNet模型，發(fā)現(xiàn)基于注意力機(jī)制的DenseNet模型識(shí)別分類精確率最高。與此同時(shí)，為了驗(yàn)證所提出的神經(jīng)網(wǎng)絡(luò)模型，使用SVHN數(shù)據(jù)集進(jìn)行測(cè)試，證明了基于注意力機(jī)制的DenseNet模型的可行性?；谧⒁饬C(jī)制的DenseNet模型能夠較好地解決網(wǎng)絡(luò)模型過于復(fù)雜造成的參數(shù)冗余、訓(xùn)練困難和網(wǎng)絡(luò)退化問題。在林業(yè)工程領(lǐng)域復(fù)雜樹種識(shí)別分類任務(wù)上取得了較好的分類效果。

4 結(jié) 語

受到注意力機(jī)制和DenseNet卷積神經(jīng)網(wǎng)絡(luò)的啟發(fā)，提出了基于注意力機(jī)制的DenseNet模型，解決了模型因數(shù)據(jù)特殊而出現(xiàn)識(shí)別效果不佳的問題。實(shí)驗(yàn)以林業(yè)工程領(lǐng)域復(fù)雜樹種識(shí)別分類為研究背景。基于注意力機(jī)制的DenseNet模型結(jié)合注意力機(jī)制和DenseNet的良好特性，使得網(wǎng)絡(luò)有較強(qiáng)的特征提取能力，對(duì)184種樹木葉片分類過程中取得了較好的實(shí)驗(yàn)效果，證明了基于注意力機(jī)制的DenseNet模型的可行性。與此同時(shí)，實(shí)驗(yàn)在GPU設(shè)備上訓(xùn)練，訓(xùn)練時(shí)間較長(zhǎng)，今后還需對(duì)網(wǎng)絡(luò)模型及訓(xùn)練方法進(jìn)行調(diào)整，提高網(wǎng)絡(luò)模型的訓(xùn)練效率。形成實(shí)體產(chǎn)品應(yīng)用在林區(qū)工作和林業(yè)院校教學(xué)中，提高林業(yè)工程效率。

·名人名言·

科學(xué)的未來只能屬于勤奮而謙虛的年輕一代。

——巴甫洛夫

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡