陳彥彤,陳偉楠,張獻(xiàn)中,李雨陽(yáng),王俊生
(大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連 116026)
隨著世界各國(guó)之間的貿(mào)易交流日益頻繁,旅客攜帶的外來(lái)昆蟲傳入我國(guó)境內(nèi)幾率增大,甚至?xí)l(fā)生態(tài)環(huán)境被破壞等問題。例如2016年1月,一名入境的澳門旅客攜帶的水果中存在地中海實(shí)蠅,該昆蟲繁殖能力非常強(qiáng),一只地中海實(shí)蠅雌蟲經(jīng)三代繁殖即可達(dá)215億只,將會(huì)對(duì)農(nóng)業(yè)生產(chǎn)造成極大經(jīng)濟(jì)損失;2018年10月,越南芽莊入境航班旅客攜帶的芒果果肉中含有的番石榴果實(shí)蠅幼蟲,導(dǎo)致我國(guó)當(dāng)?shù)毓麍@大面積失收。因此,若無(wú)法對(duì)外來(lái)蠅類昆蟲作出及時(shí)監(jiān)測(cè)和識(shí)別,一旦發(fā)生某種昆蟲過度繁衍,將造成不可估量的損失。由此可見,對(duì)蠅類昆蟲物種的高效識(shí)別研究刻不容緩。
基于蠅類昆蟲識(shí)別的傳統(tǒng)方法有:基于顏色特征[1]的蠅類昆蟲識(shí)別,采集圖像顏色直方圖信息并將所有顏色直方圖合并成特征向量作為蠅類昆蟲的顏色特征。顏色特征不受圖像旋轉(zhuǎn)和平移變化的影響,但沒有表達(dá)出顏色空間分布的信息,影響識(shí)別的準(zhǔn)確性。基于紋理特征[2]的蠅類昆蟲識(shí)別,將整個(gè)圖像形成一個(gè)紋理特征值矩陣,然后將這個(gè)矩陣轉(zhuǎn)換成影像。基于空間特征[3]的蠅類昆蟲識(shí)別,將蠅類昆蟲圖像投影到特征子空間,利用測(cè)度計(jì)算未識(shí)別圖像系數(shù)與訓(xùn)練樣本系數(shù)之間的相似度,應(yīng)用K最近鄰(K-Nearest Neighbor, KNN)算法進(jìn)行蠅類昆蟲識(shí)別。雖然傳統(tǒng)方法能夠?qū)崿F(xiàn)蠅類昆蟲識(shí)別,但是傳統(tǒng)方法提取的各類特征有局限性,識(shí)別精度較低。
隨著人工智能的高速發(fā)展,深度學(xué)習(xí)在計(jì)算機(jī)視覺方向成為最流行的技術(shù)方法,尤其是在人臉識(shí)別方面取得了顯著成果。人臉識(shí)別是將靜態(tài)圖像中檢測(cè)出的人臉圖像與數(shù)據(jù)庫(kù)中的人臉圖像進(jìn)行對(duì)比,從中找出與之匹配人臉的過程,以達(dá)到身份識(shí)別與鑒定的目的。蠅類昆蟲相似度較高,傳統(tǒng)方法提取的特征不易區(qū)分導(dǎo)致識(shí)別困難。但是通過分析發(fā)現(xiàn),從不同蠅類昆蟲面部提取的特征向量區(qū)別較大,因此可以借鑒深度學(xué)習(xí)中人臉識(shí)別算法對(duì)蠅類面部進(jìn)行識(shí)別。
在基于深度學(xué)習(xí)的人臉識(shí)別方法中,Szegedy等提出的GoogLeNet[4]采用多種尺寸的卷積核構(gòu)成Inception結(jié)構(gòu),在保持網(wǎng)絡(luò)稀疏性的前提下提高計(jì)算效率,卻存在著網(wǎng)絡(luò)層數(shù)較淺的問題,無(wú)法提取精確的特征向量。Bong-Nam Kang等于2017年提出了深度卷積神經(jīng)網(wǎng)絡(luò)[5](Deep Convolutional Neural Networks, DCNNs),由堆疊的多尺度卷積層塊(Multi-scale Convolution Layer Blocks, MCLBs)構(gòu)成,而MCLBs對(duì)Inception結(jié)構(gòu)進(jìn)行改進(jìn),加深卷積層數(shù)以呈現(xiàn)多尺度抽象,但是當(dāng)Inception網(wǎng)絡(luò)趨向于非常深時(shí),會(huì)容易出現(xiàn)梯度消失的問題。He等提出的殘差網(wǎng)絡(luò)(Residual Network, ResNet)采用快捷連接的方式實(shí)現(xiàn)特征跨層傳遞[6],解決深度網(wǎng)絡(luò)梯度消失這一問題,但在較深的網(wǎng)絡(luò)層下計(jì)算效率仍然較低,同時(shí)還存在著特征提取不夠精細(xì)的問題。
基于上述問題,本文在DCNNs網(wǎng)絡(luò)的基礎(chǔ)上,結(jié)合Inception-ResNet網(wǎng)絡(luò)、Reduction網(wǎng)絡(luò)、輪廓和具體部位特征細(xì)提取相融合這三個(gè)部分,從而提出基于深度卷積神經(jīng)網(wǎng)絡(luò)的蠅類面部識(shí)別研究方法,并命名為蠅類面部卷積神經(jīng)網(wǎng)絡(luò)(Fly Facial Convolutional Neural Network,F(xiàn)FCNN)。通過改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提高蠅類面部識(shí)別的準(zhǔn)確率,提高計(jì)算效率。
DCNNs網(wǎng)絡(luò)是由堆疊的多尺度卷積層塊構(gòu)成,以呈現(xiàn)多尺度抽象。為了訓(xùn)練DCNNs網(wǎng)絡(luò),使用由標(biāo)準(zhǔn)臉圖像、具有相同身份的人臉圖像和不同身份的人臉圖像組成的訓(xùn)練集,并應(yīng)用由三重、成對(duì)、softmax求和構(gòu)成的損失函數(shù)。
MCLBs是DCNNs網(wǎng)絡(luò)主要的組成部分,分別由1×1,3×3,5×5卷積和3×3最大池化層組成。由于計(jì)算時(shí)間在視覺任務(wù)中很重要,因此使用1×1卷積作為降維,這使得DCNNs網(wǎng)絡(luò)能夠足夠快地訓(xùn)練。將一系列卷積輸出串接為一個(gè)輸出向量,與簡(jiǎn)單卷積層序列的輸出相比,該輸出向量中的抽象級(jí)別隨著層級(jí)別的增加而增加。MCLBs中的所有卷積層使用批處理規(guī)范化(Batch Normalization, BN)和非線性激活函數(shù)(Rectified Linear Units, ReLU)。
在新型訓(xùn)練集上即三重人臉方面,采用T=(IR,IP,IN)即(標(biāo)準(zhǔn)臉,相同身份人臉圖像,不同身份人臉圖像)作為訓(xùn)練數(shù)據(jù)集,通過損失函數(shù)使具有相同身份的面部之間距離最小化,并使具有不同身份的面部之間距離最大化:
Ltotal=Ltirplet+Lpairs+Lsoftmax,
(1)
其中總的損失函數(shù)如式(1)所示,即總的損失函數(shù)Ltotal由三重?fù)p失函數(shù)Ltirplet和成對(duì)損失函數(shù)Lpairs和softmax損失函數(shù)[7]Lsoftmax相加求得:
(2)
三重?fù)p失函數(shù)如式(2)所示,即F(IR)是IR經(jīng)過DCNNs映射之后的輸出,同理F(IP)是IP經(jīng)過DCNNs映射之后的輸出,F(xiàn)(IN)是IN經(jīng)過DCNNs映射之后的輸出?!現(xiàn)(IR)-F(IN)‖2是標(biāo)準(zhǔn)臉與不同身份的人臉圖像的距離,‖F(xiàn)(IR)-F(IP)‖2是標(biāo)準(zhǔn)臉與相同身份的人臉圖像的距離。m是一個(gè)邊緣限制比例值,是一個(gè)常數(shù):
(3)
成對(duì)損失函數(shù)由式(3)所示,IR和IP均表示三重人臉數(shù)據(jù)集T中的標(biāo)準(zhǔn)臉和相同身份的人臉圖像,成對(duì)損失函數(shù)Lpairs即為標(biāo)準(zhǔn)臉與相同身份的人臉圖像距離之和,使得標(biāo)準(zhǔn)臉圖像與相同身份的人臉圖像之間距離最小。
而將DCNNs網(wǎng)絡(luò)應(yīng)用到蠅類面部發(fā)現(xiàn),經(jīng)過MCLBs等卷積層圖像信息流失較大,提取不到較為精確的特征向量,無(wú)法達(dá)到較高的識(shí)別精度,并且耗時(shí)較長(zhǎng)。為了提升面部識(shí)別的準(zhǔn)確率以及降低計(jì)算復(fù)雜度,可通過改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)[7]的方式來(lái)提升網(wǎng)絡(luò)的性能。
部識(shí)別
由于深度學(xué)習(xí)方法是將對(duì)齊后的面部圖像通過深層網(wǎng)絡(luò)提取面部特征,而現(xiàn)實(shí)問題是并不能全部捕捉到對(duì)齊的面部照片,因此識(shí)別精度不夠高。針對(duì)這個(gè)問題采用多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(Multi-task Convolutional Neural Network, MTCNN)網(wǎng)絡(luò),而MTCNN網(wǎng)絡(luò)主要由P-Net、R-Net和O-Net三個(gè)部分組成[9],使用全卷積的P-Net在多尺度的待檢圖像上生成候選框,接著通過R-Net和O-Net來(lái)過濾,其總的損失函數(shù)如式(4)所示:
(4)
圖1 標(biāo)準(zhǔn)卷積Fig.1 Standard convolution
標(biāo)準(zhǔn)卷積如圖1所示,輸入通道數(shù)為M,輸出通道數(shù)為N,其中(A)表示輸入特征映射F尺寸為(DF,DF,M),(B)表示標(biāo)準(zhǔn)卷積K尺寸為(DK,DK,M,N),(C)表示輸出特征映射G尺寸為(DG,DG,N),則標(biāo)準(zhǔn)卷積的計(jì)算量為DK×DK×M×N×DF×DF。
圖2 深度卷積與逐點(diǎn)卷積Fig.2 Depthwise convolution and pointwise convolution
深度可分離卷積由深度卷積和逐點(diǎn)卷積構(gòu)成,如圖2所示,由標(biāo)準(zhǔn)卷積拆分后可得。深度卷積對(duì)輸入圖像的每個(gè)通道進(jìn)行卷積,從而達(dá)到濾波的功能。(D)表示深度卷積尺寸(DK,DK,1,M),其輸出特征用(E)表示為(DG,DG,M),深度卷積計(jì)算量為DK×DK×M×DF×DF。逐點(diǎn)卷積主要通過轉(zhuǎn)換通道,使用1×1卷積將這些特征合并起來(lái),(F)表示逐點(diǎn)卷積尺寸為(1,1,M,N),得到最終輸出特征仍用(C)表示為(DG,DG,N)。逐點(diǎn)卷積計(jì)算量為M×N×DF×DF。
深度可分離卷積計(jì)算量為深度卷積和逐點(diǎn)卷積之和,深度可分離卷積與標(biāo)準(zhǔn)卷積的計(jì)算量之比如式(5)所示:
(5)
其中N和DK的數(shù)值均大于1,由此可得,深度可分離卷積的計(jì)算量比標(biāo)準(zhǔn)卷積的計(jì)算量要小。并且在I/O效率和性能不變的情況下,計(jì)算量有著明顯下降。
在MTCNN網(wǎng)絡(luò)中,通過框選定位以及識(shí)別出5個(gè)特征點(diǎn)位置后,再經(jīng)過仿射變換,即二維坐標(biāo)到二維坐標(biāo)之間的線性變換,保持二維圖形的“平直性”和“平行性”,如公式(6)所示:
(6)
其中:(tx,ty)表示平移量,而參數(shù)ai則反映了圖像旋轉(zhuǎn),縮放等變化。將參數(shù)tx,ty,ai(i=1~4)計(jì)算出,即可得到兩幅圖像的坐標(biāo)變換關(guān)系,并實(shí)現(xiàn)了面部對(duì)齊。裁剪縮放到分辨率為95×95的標(biāo)準(zhǔn)面部圖像,如圖3所示。
圖3 蠅類面部對(duì)齊Fig.3 Fly species facial alignment
本文在DCNNs網(wǎng)絡(luò)的基礎(chǔ)上提出一種新的網(wǎng)絡(luò)結(jié)構(gòu)FFCCN網(wǎng)絡(luò),即通過Inception-Resnet網(wǎng)絡(luò)、Reduction網(wǎng)絡(luò),輪廓與具體部位粗細(xì)提取等組合來(lái)構(gòu)建如圖4所示。所有卷積層和完全連接層使用ReLU非線性激活函數(shù)和BN批處理規(guī)范化。平均池化取每個(gè)特征圖的平均矢量,求出空間信息。由于空間信息由求平均值得出,所以平均池化具有平移不變性。 FFCCN網(wǎng)絡(luò)的輸入是蠅類昆蟲3種面部之一,即IR(標(biāo)準(zhǔn)面部),IP(相同昆蟲的其他面部圖像)或IN(不同昆蟲的面部圖像)。將提取到的具體部位特征放入損失函數(shù)中,使得同種類別昆蟲距離更加接近,不同種類別昆蟲距離更加疏遠(yuǎn)。并將輪廓特征與具體部位特征向量相融合為一個(gè)特征向量,通過驗(yàn)證其準(zhǔn)確率判斷識(shí)別效果。
首先輸入預(yù)處理后蠅類面部圖像,其次進(jìn)入輪廓特征粗提取部分如框圖Ⅰ所示。該部分通過大量卷積池化能夠粗提取出圖像的輪廓特征值,并放置于全連接層中,使用輔助分類器判斷類別,從而達(dá)到減少圖像信息損失,使得識(shí)別更加全面的目的。同時(shí),網(wǎng)絡(luò)提取到蠅類面部的具體部位特征如框圖Ⅱ所示。此部分主要經(jīng)過Inception-ResNet網(wǎng)絡(luò),在減少圖像梯度散失的同時(shí)減少計(jì)算參數(shù);以及Reduction網(wǎng)絡(luò)在減少圖像信息損失的同時(shí)減小圖像尺寸,使得提取特征值變得更加精確化。并且在具體部位特征細(xì)提取后,通過Bong-Nam Kang等提出的損失函數(shù)算法,可以讓同種類別的昆蟲距離更加接近,不同種類別昆蟲距離更加疏遠(yuǎn)。
圖4 網(wǎng)絡(luò)主框圖Fig.4 Main network diagram
圖5 Inception-Resnet框圖Fig.5 Inception-Resnet diagram
為防止訓(xùn)練過程中的梯度消失問題和提高計(jì)算效率,加入Inception-ResNet網(wǎng)絡(luò)如圖5所示。將ResNet殘差網(wǎng)絡(luò)和Inception網(wǎng)絡(luò)相結(jié)合,其中框圖Ⅲ表示Inception網(wǎng)絡(luò),并用殘差連接替代濾波器的連結(jié),將圖Ⅲ作為一個(gè)整體和剩余部分連接構(gòu)成ResNet殘差網(wǎng)絡(luò)[11]。首先用1×1卷積升高維度,然后用3×3卷積以最小卷積核最大程度的提取圖像信息,最后再用1×1卷積進(jìn)行降維??梢院?jiǎn)化學(xué)習(xí)目標(biāo)和難度,在防止梯度散失的同時(shí),更加快速提取特征向量。
圖6 Reduction框圖Fig.6 Reduction diagram
圖6的Reduction網(wǎng)絡(luò)可以減小圖像塊尺寸,即每經(jīng)過一個(gè)Reduction網(wǎng)絡(luò),特征圖的尺寸就會(huì)顯著減少。由于池化層在下采樣的過程會(huì)損失過多信息,所以文中采用Reduction網(wǎng)絡(luò)替代部分池化層來(lái)減小特征圖的尺寸。其中filter concat 層是一種累積和的疊加,把多個(gè)特征直接加在一起;1×1卷積用來(lái)減少特征維度;并且此網(wǎng)絡(luò)加入了3×3深度可分離卷積可以在損失精度不多的情況下大幅度降低參數(shù)量。
在圖4的網(wǎng)絡(luò)主框圖中,將給定面部圖像的特征分別用f1,f2表示,框圖Ⅰ中的全連接層提取特征向量為f1;框圖Ⅱ中倒數(shù)第2個(gè)全連接層提取特征向量為f2。將這些特征向量串接成一個(gè)特征向量,并利用PCA[12]給它降維至1 024維,通過對(duì)數(shù)似然比的數(shù)值比較來(lái)實(shí)現(xiàn)面部驗(yàn)證。如公式(7)所示,其中,HI表示類內(nèi)變化的熵和HE表示類間變化的熵:
(7)
通過聯(lián)合貝葉斯算法得到數(shù)據(jù)[13],從而驗(yàn)證輸入的兩張面部是否為同一個(gè)昆蟲。因此將面部的輪廓和具體部位特征提取相結(jié)合可以更精確地進(jìn)行面部驗(yàn)證,從而可以了解特征提取程度,進(jìn)而判斷識(shí)別的效果。
本實(shí)驗(yàn)電腦配置為Intel i7處理器,顯卡為NVDIA RTX2080Ti,16 G內(nèi)存,并基于Caffe深度學(xué)習(xí)框架的GPU版本實(shí)現(xiàn)了所提方法[14]。利用前向網(wǎng)絡(luò)上的標(biāo)準(zhǔn)反向傳播,在動(dòng)量為0.9、學(xué)習(xí)率為0.23,批量大小設(shè)置為16的情況下,通過隨機(jī)梯度下降優(yōu)化來(lái)訓(xùn)練所提出的FFCNN網(wǎng)絡(luò)。從標(biāo)準(zhǔn)差為0.01的零均值高斯分布中提取權(quán)重來(lái)隨機(jī)初始化所有的網(wǎng)絡(luò)層。在數(shù)據(jù)集上對(duì)所提出的FFCNN進(jìn)行了大約24 000次的迭代訓(xùn)練,訓(xùn)練的epoch為100。本實(shí)驗(yàn)共包括數(shù)據(jù)集、識(shí)別過程、準(zhǔn)確率及識(shí)別時(shí)間、ROC(Receiver Operating Characteristic)曲線及LOSS曲線共4個(gè)部分。
本實(shí)驗(yàn)選用由大連海關(guān)實(shí)驗(yàn)室提供的蠅類昆蟲標(biāo)本作為數(shù)據(jù)集樣本,共選取11種蠅類標(biāo)本包括叉葉綠蠅、大頭金蠅、大洋翠蠅、橫帶花蠅、沈陽(yáng)綠蠅、家蠅、廄腐蠅、巨尾阿麗蠅、亮綠蠅、絲光綠蠅、棕尾別麻蠅。選取蠅類標(biāo)本其顏色形態(tài)不易變化且易于拍攝。圖像采集設(shè)備為尼康(Nikon)COOLPIX A1000數(shù)碼相機(jī),圖像的分辨率為4 608×3 456 pixel,格式為JPG。為區(qū)分蠅類相似部分形態(tài),將蠅類的11種樣本分別以蠅類面部為中心隨機(jī)角度拍攝圖像,每種蠅類拍攝60張,共拍攝660幅圖像。實(shí)驗(yàn)室拍攝的部分蠅類原始圖像如圖7所示。
(a)大洋翠蠅(a)Orthellia pacifica zimin
(b)橫帶花蠅(b)Anthomyia illocata
(c)巨尾阿麗蠅(c)Aldrichina grahami
(d)絲光綠蠅(d)Lucilia sericata圖7 部分蠅類原始圖像Fig.7 Original image of some fly species
在數(shù)據(jù)集制作過程中,為了增加訓(xùn)練的數(shù)據(jù)量,提高模型的泛化能力,避免數(shù)據(jù)量過少出現(xiàn)過擬合現(xiàn)象,需要進(jìn)行數(shù)據(jù)增強(qiáng)處理,保證每種蠅類的數(shù)目相同。通過圖像翻轉(zhuǎn)和平移、縮放原始圖像的20%、局部模糊等處理,增強(qiáng)圖像后的數(shù)據(jù)集共得到6 420幅樣本圖像。并隨機(jī)選取60%的圖像,即3 852幅圖像用作訓(xùn)練,選擇20%的圖像,即1 284幅圖像作為驗(yàn)證集,剩下20%即1 248幅圖像用來(lái)測(cè)試。
由于MTCNN檢測(cè)方法對(duì)自然環(huán)境中光線、圖像角度變化更具有魯棒性,因此本實(shí)驗(yàn)使用MTCNN網(wǎng)絡(luò)對(duì)原始圖像進(jìn)行面部定位和特征點(diǎn)檢測(cè)。通過仿射變換和剪裁縮放得到對(duì)齊后統(tǒng)一尺寸為95×95的蠅類面部圖像,同時(shí)記錄對(duì)應(yīng)蠅類的名字作為蠅類面部識(shí)別的標(biāo)簽。并展示部分?jǐn)?shù)據(jù)集圖像如圖8所示。
(a)沈陽(yáng)綠蠅(a)Lucilia Shen Yangensis
(b)棕尾別麻蠅(b)Boettcherisca peregrina
(c)叉葉綠蠅(c)Lucilia caesar
(d)大洋翠蠅(d)Orthellia pacifica zimin
(e)大頭金蠅(e)Chrysomyia megacephala
(f)亮綠蠅蠅(f)Lucilia illustris
(g)巨尾阿麗蠅(g)Aldrichina grahami
(h)絲光綠蠅(h)Lucilia
(i)橫帶花蠅(i)Anthomyia illocata圖8 部分?jǐn)?shù)據(jù)集圖像Fig.8 Partial dataset images
此實(shí)驗(yàn)分別驗(yàn)證標(biāo)準(zhǔn)卷積和深度可分離卷積在MTCNN網(wǎng)絡(luò)中的運(yùn)行時(shí)間是不同的。并記錄圖7中列舉部分蠅類在此網(wǎng)絡(luò)中平均運(yùn)行時(shí)間,如表1所示。從表1可以看出,應(yīng)用深度可分離卷積確實(shí)可以減少參數(shù)量。通過不同卷積運(yùn)行時(shí)間的比例可以看出,在I/O效率和性能不變的情況下,深度可分離卷積比標(biāo)準(zhǔn)卷積計(jì)算量降低近8倍。
表1 不同卷積運(yùn)行時(shí)間對(duì)比Tab.1 Comparison of different convolution time (ms)
本文使用FFCNN網(wǎng)絡(luò)進(jìn)行蠅類面部識(shí)別,應(yīng)用OpenCV調(diào)用Caffe模型進(jìn)行分類,具體過程如圖9所示。為測(cè)試此網(wǎng)絡(luò)模型訓(xùn)練效果的優(yōu)劣,輸入測(cè)試集非正面的蠅類圖像。使用卷積池化粗提取出標(biāo)準(zhǔn)蠅類面部圖像的輪廓特征值;同時(shí),使用Inception-ResNet,Reduction網(wǎng)絡(luò)細(xì)提取出具體部位特征值,并將兩者的特征值串接為一組特征向量。最終識(shí)別結(jié)果為叉葉綠蠅的可能性達(dá)98.995%,即識(shí)別正確并把正確的標(biāo)簽標(biāo)注在輸出圖像中。因此,采用輪廓特征粗提取和具體部位特征細(xì)提取相結(jié)合的方式提取更加豐富的特征信息。與此同時(shí),也驗(yàn)證了FFCNN網(wǎng)絡(luò)模型的訓(xùn)練效果較好。
圖9 蠅類面部圖像識(shí)別過程Fig.9 Face image recognition of fly
通過多次隨機(jī)輸入兩張蠅類面部圖像,進(jìn)行驗(yàn)證,從而得到各個(gè)網(wǎng)絡(luò)下的準(zhǔn)確率如表2所示。因?yàn)榧尤肓溯喞c具體部位相結(jié)合特征提取和Inception-ResNet結(jié)構(gòu),不僅更加全面地進(jìn)行了昆蟲特征提取,還減少梯度散失更大程度地保留了特征信息。同時(shí),為了圖像尺寸縮減而引入的Reduction網(wǎng)絡(luò)也在減少特征信息的流失。FFCCN網(wǎng)絡(luò)的準(zhǔn)確率高達(dá)到94.03%,準(zhǔn)確率最高。而其他幾種方法沒有應(yīng)用此輪廓與具體部位相結(jié)合特征提取和Inception-ResNet網(wǎng)絡(luò)以及Reduction網(wǎng)絡(luò),所以并沒有取得較高的準(zhǔn)確率。而驗(yàn)證準(zhǔn)確率越高則說明其特征提取的信息越精準(zhǔn),從而證實(shí)了此網(wǎng)絡(luò)的昆蟲種類識(shí)別效果十分顯著。
表2 不同網(wǎng)絡(luò)的準(zhǔn)確率對(duì)比
通過對(duì)數(shù)據(jù)集中面部圖像測(cè)試,并將各種方法進(jìn)行對(duì)比,并將其他用于人臉識(shí)別的方法如:將DeepID,DCNNs,ArcFace網(wǎng)絡(luò)應(yīng)用在蠅類面部。記錄從不同網(wǎng)絡(luò)輸入時(shí),平均每個(gè)蠅類面部圖像識(shí)別所需時(shí)間,如圖10所示。而且應(yīng)用Inception-ResNet網(wǎng)絡(luò)不僅減小梯度散失還同時(shí)在Inception的作用下提高計(jì)算效率,Reduction網(wǎng)絡(luò)在減小圖像塊尺寸時(shí)應(yīng)用深度可分離卷積,減少大量計(jì)算參數(shù),從對(duì)比可以看出FFCNN網(wǎng)絡(luò)平均識(shí)別一張蠅類面部圖像所用時(shí)間為27 ms,雖然比近期發(fā)表的網(wǎng)絡(luò)ArcFace網(wǎng)絡(luò)識(shí)別時(shí)間要長(zhǎng),但是相對(duì)DeepID,DCNNs網(wǎng)絡(luò)而言,耗時(shí)較少,計(jì)算效率較高。
圖10 不同網(wǎng)絡(luò)的識(shí)別時(shí)間對(duì)比Fig.10 Identification time comparison of different networks
若要測(cè)試此網(wǎng)絡(luò)結(jié)構(gòu)的性能,需繪制ROC曲線[17]即感受性曲線。該方法簡(jiǎn)單直觀,通過圖示可觀察分析方法準(zhǔn)確性,并可用肉眼作出判斷。其中橫坐標(biāo)為假正類率(False Positive Rate,F(xiàn)PR),縱坐標(biāo)為真正類率(True Positive Rate,TPR)。其計(jì)算公式如式(8)和式(9)所示:
(8)
(9)
其中:FN被判定為負(fù)樣本,但實(shí)際為正樣本;FP被判定為正樣本,但實(shí)際為負(fù)樣本;TN被判定為負(fù)樣本,實(shí)際也是負(fù)樣本;TP被判定為正樣本,實(shí)際也是正樣本。ROC曲線將FPR和TPR以圖示方法結(jié)合在一起,可準(zhǔn)確反映學(xué)習(xí)器性能,是檢測(cè)準(zhǔn)確性的綜合代表。并且靠近左上角的ROC曲線所代表的學(xué)習(xí)器準(zhǔn)確性最高。實(shí)驗(yàn)結(jié)果如圖11所示。經(jīng)過對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn)例如:輪廓與具體部位特征結(jié)合提取,加入Inception-ResNet網(wǎng)絡(luò)以及Reduction網(wǎng)絡(luò),可以看出FFCCN網(wǎng)絡(luò)曲線最靠近左上角,說明FFCNN網(wǎng)絡(luò)的性能較好,準(zhǔn)確率要高于其他網(wǎng)絡(luò)。
圖11 不同網(wǎng)絡(luò)的ROC曲線Fig.11 ROC curves of different networks
通過對(duì)DCNNs網(wǎng)絡(luò)損失函數(shù)的學(xué)習(xí)并應(yīng)用在數(shù)據(jù)集上,可以得出FFCNN網(wǎng)絡(luò)相應(yīng)的損失函數(shù)的訓(xùn)練曲線如圖12所示??梢钥闯鲈趀poch為0~40時(shí),曲線下降速度比較快,收斂較快;而隨著橫坐標(biāo)的增大,epoch為40~100時(shí),曲線越發(fā)平緩,收斂較慢,損失函數(shù)的值也越發(fā)趨近為0。迭代訓(xùn)練次數(shù)越多,損失函數(shù)值越小,最終趨近于0。
圖12 損失函數(shù)的訓(xùn)練曲線Fig.12 Training curve of loss function
本文借鑒深度學(xué)習(xí)在人臉識(shí)別中的方法,重點(diǎn)研究基于深度卷積神經(jīng)網(wǎng)絡(luò)在蠅類面部識(shí)別的應(yīng)用。同時(shí)為解決蠅類面部識(shí)別精度較低,計(jì)算效率較慢等問題,對(duì)面部進(jìn)行輪廓與具體部位特征細(xì)提取相結(jié)合,全面的提取特征向量,提升了準(zhǔn)確率;將Inception和ResNet網(wǎng)絡(luò)合理的融合,在防止梯度散失的同時(shí)提高了計(jì)算效率;應(yīng)用Reduction網(wǎng)絡(luò)通過深度可分離卷積使得計(jì)算量減小同時(shí)大幅度降低參數(shù)量。最終使FFCNN網(wǎng)絡(luò)的準(zhǔn)確率達(dá)到94.03%,平均識(shí)別一張蠅類面部圖像所用時(shí)間為27 ms。同時(shí),希望對(duì)未來(lái)的蠅類面部識(shí)別研究可以在非監(jiān)督學(xué)習(xí)上取得顯著進(jìn)展,使蠅類昆蟲識(shí)別問題在理論和實(shí)踐上都得到更好地解決。