邱津怡 羅俊 李秀 賈偉 倪福川 馮慧
摘 要:葡萄品種質(zhì)量檢測(cè)需要識(shí)別多類別的葡萄,而葡萄圖片中存在多種景深變化、多串等多種場(chǎng)景,單一預(yù)處理方法存在局限導(dǎo)致葡萄識(shí)別的效果不佳。實(shí)驗(yàn)的研究對(duì)象是大棚中采集的15個(gè)類別的自然場(chǎng)景葡萄圖像,并建立相應(yīng)圖像數(shù)據(jù)集Vitis-15。針對(duì)葡萄圖像中同一類別的差異較大而不同類別的差異較小的問(wèn)題,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的多尺度葡萄圖像識(shí)別方法。首先,對(duì)Vitis-15數(shù)據(jù)集中的數(shù)據(jù)通過(guò)三種方法進(jìn)行預(yù)處理:旋轉(zhuǎn)圖像的數(shù)據(jù)擴(kuò)增方法、中心裁剪的多尺度圖像方法以及前兩種方法的數(shù)據(jù)融合方法;然后,采用遷移學(xué)習(xí)方法和卷積神經(jīng)網(wǎng)絡(luò)方法來(lái)進(jìn)行分類識(shí)別,遷移學(xué)習(xí)選取ImageNet上預(yù)訓(xùn)練的Inception V3網(wǎng)絡(luò)模型,卷積神經(jīng)網(wǎng)絡(luò)采用AlexNet、ResNet、Inception V3這三類模型;最后,提出適合Vitis-15的多尺度圖像數(shù)據(jù)融合的分類模型MS-EAlexNet。實(shí)驗(yàn)結(jié)果表明,在同樣的學(xué)習(xí)率和同樣的測(cè)試集上,數(shù)據(jù)融合方法在MS-EAlexNet上的測(cè)試準(zhǔn)確率達(dá)到了99.92%,相較擴(kuò)增和多尺度圖像方法提升了近1個(gè)百分點(diǎn),
并且所提方法在分類小樣本數(shù)據(jù)集上具有較高的效率。
關(guān)鍵詞:圖像識(shí)別;自然場(chǎng)景;遷移學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);多尺度圖像;數(shù)據(jù)融合
中圖分類號(hào):TP183
文獻(xiàn)標(biāo)志碼:A
Abstract: Grape quality inspection needs the identification of multiple categories of grapes, and there are many scenes such as depth of field changes and multiple strings in the grape images.? Grape recognition is ineffective due to the limitations of single pretreatment method. The research objects were 15 kinds of natural scene grape images collected in the greenhouse, and the corresponding image dataset Vitis-15 was established. Aiming at the large intra-class differences and small inter-class of differences grape images, a multi-scale grape image recognition method based on Convolutional Neural Network (CNN) was proposed. Firstly, the data in Vitis-15 dataset were pre-processed by three methods, including the image rotating based data augmentation method, central cropping based multi-scale image method and data fusion method of the above two. Then, transfer learning method and convolution neural network method were adopted to realiize the classification and recognition. The Inception V3 network model pre-trained on ImageNet was selected for transfer learning, and three types of models — AlexNet, ResNet and Inception V3 were selected for convolution neural network. The multi-scale image data fusion classification model MS-EAlexNet was proposed, which was suitable for Vitis-15. Experimental? results show that with the same learning rate on the same test dataset, compared with the augmentation and multi-scale image method, the data fusion method improves nearly 1% testing accuracy on MS-EAlexNet model with 99.92% accuracy, meanwhile the proposed method has higher efficiency in classifying small sample datasets.
Key words: image recognition; natural scene; transfer learning; Convolutional Neural Network (CNN); multi-scale image; data fusion
0 引言
近年來(lái),我國(guó)葡萄產(chǎn)量逐年增加,截止到2014年,我國(guó)葡萄種植面積已達(dá)767.2千公頃(7672km2),
產(chǎn)量已躍居世界第一[1]。目前果園中葡萄分類識(shí)別需要大量的人力來(lái)完成,然而,由于人力分辨能力和速度的限制,果園中葡萄的分類識(shí)別效果不佳;并且由于果園環(huán)境的復(fù)雜性和不確定性,加之葡萄是簇生水果且其輪廓不規(guī)則,導(dǎo)致同一類間差別較大而不同類別間差異較小[2],使得葡萄串的識(shí)別和定位成為難題[3]。
多年來(lái),圖像識(shí)別對(duì)于智能果園管理、智能農(nóng)業(yè)目標(biāo)檢測(cè)、定位與識(shí)別等問(wèn)題至關(guān)重要,然而圖像識(shí)別的關(guān)鍵在于圖像特征的提取,使用顯著對(duì)象作為圖像內(nèi)容表示和特征提取的主要圖像組件[4]。按照特征提取方法的不同分為傳統(tǒng)圖像特征提取方法與深度卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)提取特征兩種。通過(guò)文獻(xiàn)[5]總結(jié)出:傳統(tǒng)圖像特征提取方法主要考慮圖像的顏色特征、紋理特征、形狀特征和空間關(guān)系特征。基于顏色直方圖特征匹配方法主要有直方圖相交法、距離法、中心距法、參考顏色表法、累加顏色直方圖法等,由于顏色無(wú)法衡量圖像的方向和大小,所以不能很好提取圖像的局部特征。基于紋理特征提取常用的統(tǒng)計(jì)方法是灰度共生矩陣(Gray-Level Co-occurrence Matrix, GLCM)法和半方差圖,常用的模型有隨機(jī)場(chǎng)模型和分形模型,而紋理是居于區(qū)域的概念,所以會(huì)導(dǎo)致過(guò)度區(qū)域化而忽略了全局特征。基于形狀特征提取的方法主要有邊界特征法、傅里葉形狀描述符法、幾何參數(shù)法和形狀不變矩法等,而對(duì)于形變目標(biāo)識(shí)別效果不佳?;诳臻g關(guān)系特征提取常用兩種方法:一種是對(duì)圖像進(jìn)行自動(dòng)分割,劃分圖像中包含的對(duì)象區(qū)域,根據(jù)這些區(qū)域提取圖像特征并建立索引關(guān)系;另一種是將圖像劃分為若干子塊,對(duì)子塊進(jìn)行特征提取并建立索引關(guān)系,而對(duì)于圖像的旋轉(zhuǎn)、尺度變化不敏感。由于傳統(tǒng)特征提取方法具有較強(qiáng)的局限性,針對(duì)圖像分類問(wèn)題,本文主要采用卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取圖像特征。
在圖像識(shí)別技術(shù)發(fā)展過(guò)程中,許多深度學(xué)習(xí)模型被提出,如:深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)[6]、判別特征網(wǎng)絡(luò)(Discriminative Feature Network, DFN)[7]、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)[8]等。相較于淺層學(xué)習(xí)模型的特征提取依靠手工來(lái)進(jìn)行選擇,深度學(xué)習(xí)的深層網(wǎng)絡(luò)結(jié)構(gòu)可以逐層對(duì)數(shù)據(jù)進(jìn)行特征提取,使得特征更明顯且更容易被用于圖像分類和識(shí)別。深度學(xué)習(xí)根據(jù)監(jiān)督方式的不同,主要分為監(jiān)督、半監(jiān)督和無(wú)監(jiān)督方式將圖像語(yǔ)義標(biāo)注信息表示為監(jiān)督學(xué)習(xí)的問(wèn)題[9]。
早在20世紀(jì)80年代,LeCun等[10]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的手寫(xiě)數(shù)字識(shí)別網(wǎng)絡(luò)LeNet-5。2012年Krizhevsky等[11]提出AlexNet模型,并在ImageNet競(jìng)賽中取得了冠軍,該模型采用兩塊GPU,大幅提升了網(wǎng)絡(luò)的運(yùn)算效率。2014年Simonyan等[12]提出層數(shù)更深、分類效果更好的模型VGG(Visual Geometry Group)。
同年GoogLeNet[13]被提出,它采用一種網(wǎng)中網(wǎng)的結(jié)構(gòu),加大了整個(gè)模型的寬度和深度;但隨著模型深度加深的同時(shí),會(huì)出現(xiàn)模型難以訓(xùn)練的情況。He等[14]在2015年提出殘差網(wǎng)絡(luò)ResNet解決了這個(gè)問(wèn)題;2016年Inception-v4[15]被提出,它是基于Inception-v3的改進(jìn),模型更簡(jiǎn)潔,計(jì)算量也更小。
在分類識(shí)別算法上,通過(guò)組合不同的描述符可以獲得更好的分類結(jié)果[16],使用監(jiān)督學(xué)習(xí)或者無(wú)監(jiān)督學(xué)習(xí)要比使用隨機(jī)濾波器和人工特征識(shí)別效果更好[17]。
在本文的實(shí)驗(yàn)中,采用了支持向量機(jī)(Support Vector Machine, SVM)方法[18]、遷移學(xué)習(xí)[19]和深度卷積神經(jīng)網(wǎng)絡(luò)來(lái)分類葡萄圖像,并且提出適合Vitis-15數(shù)據(jù)集的分類識(shí)別模型MS-EAlexNet,最后通過(guò)調(diào)節(jié)參數(shù)及激活函數(shù)來(lái)優(yōu)化網(wǎng)絡(luò),使得在測(cè)試集上的效果得以提升。
1 材料與方法
1.1 數(shù)據(jù)集概況
1.1.1 葡萄數(shù)據(jù)集Vitis-15
本實(shí)驗(yàn)數(shù)據(jù)于2017年和2018年通過(guò)采集大棚中15個(gè)類別的自然場(chǎng)景葡萄圖像并建立相應(yīng)小樣本數(shù)據(jù)集,數(shù)據(jù)集命名為Vitis-15。在拍攝過(guò)程中,拍攝條件沒(méi)有任何限制,在自然光的照射下用安卓和蘋(píng)果手機(jī)對(duì)懸掛的葡萄進(jìn)行拍攝,葡萄品種分別為:比昂扣、夏黑、金手指、美人指、水晶葡萄、摩爾多瓦、甬優(yōu)一號(hào)、克倫生、陽(yáng)光玫瑰、巨玫瑰、香玉、紅提、紅地球、黑珍珠、赤霞珠,如表1所示。
本數(shù)據(jù)集的復(fù)雜度在于:1)同一品種的葡萄由于年份及生長(zhǎng)環(huán)境不同,成熟度、色澤、葡萄串的形狀會(huì)有差別,導(dǎo)致同一類別間差異較大。如圖1(a)所示,同一品種的甬優(yōu)一號(hào)有黃綠色、紫紅色、黃綠色與淺紫色相間。同一品種的夏黑,由于栽培方式和種植環(huán)境的不同,串形和大小有明顯差異。2)不同品種之間形狀大小及顏色也較為相近,導(dǎo)致不同類別間差異較小。如圖1(b)所示,陽(yáng)光玫瑰、比昂扣和水晶葡萄三個(gè)類別,黑珍珠、甬優(yōu)一號(hào)和夏黑三個(gè)類別,摩爾多瓦和赤霞珠兩個(gè)類別,在外觀上肉眼難以區(qū)分。3)拍攝的圖片中既有單串的又有多串的;自然背景較為復(fù)雜,有逆光和背光拍攝;有的葡萄支架會(huì)與葡萄本身顏色接近形成干擾,葡萄葉片與果粒本身顏色也很接近形成較強(qiáng)的干擾。
1.1.2 Vitis-15數(shù)據(jù)集預(yù)處理
本實(shí)驗(yàn)中采取的數(shù)據(jù)預(yù)處理為數(shù)據(jù)縮放,預(yù)先將圖片縮放至卷積神經(jīng)網(wǎng)絡(luò)要求大?。?24×224和299×299)。由于原始拍攝圖片寬高比并不是1∶1, 直接縮放到1∶1會(huì)使葡萄發(fā)生形變,丟失物體本身的特征信息,對(duì)葡萄圖像分類識(shí)別的準(zhǔn)確率會(huì)有所影響,所以在縮放時(shí)保留原始圖像的寬高比,空白信息填充像素“0”(即為黑色)。
1.2 實(shí)驗(yàn)方法
1.2.1 支持向量機(jī)
訓(xùn)練機(jī)器學(xué)習(xí)分類算法,需要先進(jìn)行數(shù)據(jù)預(yù)處理;再進(jìn)行特征選擇,最后選擇分類器。在數(shù)據(jù)預(yù)處理過(guò)程中,先將特征值縮放到相同的區(qū)間,稱為特征縮放。特征縮放有兩個(gè)常用的方法:歸一化和標(biāo)準(zhǔn)化。本文實(shí)驗(yàn)采用標(biāo)準(zhǔn)化。通過(guò)標(biāo)準(zhǔn)化,可以將特征列的均值設(shè)為0,方差設(shè)為1,使得特征列的值呈現(xiàn)標(biāo)準(zhǔn)正態(tài)分布,這更易于權(quán)重的更新。相較于歸一化方法,標(biāo)準(zhǔn)化方法保持了異常值所蘊(yùn)含的有用信息,并且使得算法受到這些值的影響較小。標(biāo)準(zhǔn)化的過(guò)程可用式(1)表示:
例如,在刑事案件追蹤的研究中,對(duì)于準(zhǔn)確率的要求較低,而更要求時(shí)效性時(shí),可以采用遷移學(xué)習(xí)加SVM方法;在醫(yī)學(xué)影像這種需要高精度的研究中,可以采用遷移學(xué)習(xí)加全連接層這種方法。
2.2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)果分析
模型訓(xùn)練與測(cè)試均是在TensorFlow框架下完成的。硬件環(huán)境:Intel Xeon E5-2620v4 @2.10GHz CPU,128GB內(nèi)存;NVIDIA GTX 1080 Ti GPU,11GB顯存。軟件環(huán)境:CUDA Toolkit 9.0,CUDNN V7.0;Python 3.5.2;TensorFlow-GPU 1.7.0;Ubuntu16.04操作系統(tǒng)。模型訓(xùn)練和測(cè)試均是通過(guò)GPU加速。
在劃分訓(xùn)練集和測(cè)試集時(shí),采用8∶2的比例來(lái)劃分,不是整個(gè)所有擴(kuò)增后的數(shù)據(jù)直接隨機(jī)抽取20%作為測(cè)試集,而是采用分層抽樣的思想,即每個(gè)種類都隨機(jī)采樣20%作為測(cè)試集,包括1277張圖片,且所有模型的測(cè)試準(zhǔn)確率均是在同一測(cè)試集上所得。
2.2.1 深度卷積網(wǎng)絡(luò)模型的結(jié)果分析
本文實(shí)驗(yàn)分別采用AlexNet、ResNet50、ResNet101、ResNet152、ResNet200、Inception V3和MS-EAlexNet七種卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在測(cè)試集上的準(zhǔn)確率如表2所示。通過(guò)表2和圖4可以看出,在MS方法下,四種殘差網(wǎng)絡(luò)(ResNet50、ResNet101、ResNet152和ResNet200)的準(zhǔn)確率在采用同樣參數(shù)訓(xùn)練時(shí),隨著網(wǎng)絡(luò)層數(shù)的加深而單調(diào)遞減。
在實(shí)驗(yàn)過(guò)程中當(dāng)采用與ResNet50和ResNet101這兩個(gè)網(wǎng)絡(luò)同樣的參數(shù)時(shí),ResNet152和ResNet200這兩個(gè)網(wǎng)絡(luò)會(huì)出現(xiàn)無(wú)法收斂現(xiàn)象,將學(xué)習(xí)率(learning rate, lr)由0.001降低到0.0001和0.00006后,網(wǎng)絡(luò)能夠收斂,也驗(yàn)證隨著網(wǎng)絡(luò)模型的加深,Vitis-15分類識(shí)別精度降低,所以在后續(xù)實(shí)驗(yàn)中不考慮ResNet152和ResNet200這兩種深層網(wǎng)絡(luò)。AlexNet網(wǎng)絡(luò)相較殘差和Inception V3網(wǎng)絡(luò),網(wǎng)絡(luò)層數(shù)較少,迭代步數(shù)較少,訓(xùn)練時(shí)間最短且性能較好。對(duì)于Vitis-15數(shù)據(jù)集而言,可以采用AlexNet這類輕量型的卷積網(wǎng)絡(luò)進(jìn)行訓(xùn)練。因此可以得出對(duì)于小樣本數(shù)據(jù)集分類問(wèn)題,網(wǎng)絡(luò)層數(shù)越深,模型反而更加難以訓(xùn)練,分類識(shí)別效果不佳,所以淺層的網(wǎng)絡(luò)相較于深層的網(wǎng)絡(luò)表現(xiàn)更好一些,并且小型網(wǎng)絡(luò)能夠極大地縮短訓(xùn)練時(shí)間且性能最好。本文提出的MS-EAlexNet網(wǎng)絡(luò),在同種方法對(duì)比時(shí)比AlexNet表現(xiàn)更好,在測(cè)試集上的準(zhǔn)確率能夠提升約0.1個(gè)百分點(diǎn)。
2.2.2 數(shù)據(jù)預(yù)處理三種方法對(duì)模型性能的影響
表2中展現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)三種數(shù)據(jù)預(yù)處理方法(MS、Augment、Mix)在七種網(wǎng)絡(luò)模型上的測(cè)試準(zhǔn)確率。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),1、1/2、1/4這三個(gè)多尺度最終會(huì)使圖片中全部為葡萄圖像,不利于整串葡萄圖像的識(shí)別,而連續(xù)多尺度的優(yōu)點(diǎn)在于:1)基本保持了原始圖像中葡萄串形的大小;2)還保留了原始葡萄圖像中局部特征的完整性,所以選擇了連續(xù)多尺度圖像。從圖5中可以得出,Augment與MS兩種方法在AlexNet和MS-EAlexNet網(wǎng)絡(luò)上測(cè)試準(zhǔn)確率較為接近,而Mix方法在測(cè)試集上的準(zhǔn)確率明顯高于前兩種方法,提升近1個(gè)百分點(diǎn)。最終本實(shí)驗(yàn)采用Mix方法。
2.2.3 BN和ReLU對(duì)模型性能的影響
本文采用批歸一化處理和ReLU激活函數(shù),對(duì)比分析兩者對(duì)模型性能的影響。在網(wǎng)絡(luò)的最后一個(gè)全連接層中修改激活函數(shù)(ReLU)和批歸一化函數(shù)(Batch Normalization, BN),實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),修改ReLU激活函數(shù),網(wǎng)絡(luò)的性能沒(méi)有明顯變化,但是采用BN后網(wǎng)絡(luò)提升了近1個(gè)百分點(diǎn),達(dá)到99.92%的準(zhǔn)確率。采用BN可以使得梯度更加可靠和可預(yù)測(cè),改善梯度性質(zhì)使得在計(jì)算梯度的方向采用更大的步長(zhǎng)而能夠保持對(duì)實(shí)際梯度方向的精確估計(jì)。不采用BN時(shí),損失函數(shù)不僅非凸而且趨向平坦區(qū)域和尖銳極小值。這使得梯度下降算法更加不穩(wěn)定。并且通過(guò)圖6可以得出,在采用BN時(shí),網(wǎng)絡(luò)的訓(xùn)練準(zhǔn)確率(圖6(a))和訓(xùn)練損失值(圖6(b))的波動(dòng)程度降低,趨于平緩的上升和下降,雖然訓(xùn)練的損失函數(shù)最后收斂值高于沒(méi)有采用BN的,但是在測(cè)試集上,采用BN的網(wǎng)絡(luò)表現(xiàn)更好;而沒(méi)有采用BN時(shí),網(wǎng)絡(luò)訓(xùn)練的準(zhǔn)確率和損失值波動(dòng)明顯。
3 結(jié)語(yǔ)
本文基于卷積網(wǎng)絡(luò)的多尺度葡萄圖像品種識(shí)別研究,以融合多尺度數(shù)據(jù)和數(shù)據(jù)擴(kuò)增兩種方法訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),對(duì)葡萄圖像進(jìn)行分類,并對(duì)網(wǎng)絡(luò)模型、學(xué)習(xí)方法、批歸一化參數(shù)等因素對(duì)模型性能的影響進(jìn)行了對(duì)比分析,得到如下結(jié)論:
1)深度學(xué)習(xí)相較于遷移學(xué)習(xí)和支持向量機(jī)的方法,可以較好地自動(dòng)提取葡萄特征,具有較高的分類性能。在深度學(xué)習(xí)網(wǎng)絡(luò)模型中,較淺層的網(wǎng)絡(luò)在Vitis-15數(shù)據(jù)集上分類效果要優(yōu)于較深層的網(wǎng)絡(luò),網(wǎng)絡(luò)層數(shù)越深,模型反而更加難以訓(xùn)練,本文提出的MS-EAlexNet網(wǎng)絡(luò)模型在AlexNet網(wǎng)絡(luò)基礎(chǔ)上修改了網(wǎng)絡(luò)參數(shù)并且增加了一層全連接層,在測(cè)試集上的準(zhǔn)確率要高于AlexNet網(wǎng)絡(luò)模型,也表明全連接層更適合分類識(shí)別問(wèn)題。
2)相較于數(shù)據(jù)擴(kuò)增和多尺度圖像方法,兩者在Vitis-15數(shù)據(jù)集分類結(jié)果都取得了較高的準(zhǔn)確率,當(dāng)將兩種方法融合到一起時(shí),測(cè)試集的準(zhǔn)確率提升了近1個(gè)百分點(diǎn),這也說(shuō)明了多尺度圖像數(shù)據(jù)融合在小樣本數(shù)據(jù)集分類識(shí)別問(wèn)題中豐富了數(shù)據(jù)的多樣性,減輕了模型的過(guò)擬合現(xiàn)象,并且提升了網(wǎng)絡(luò)的性能。
3)BN的使用使得網(wǎng)絡(luò)在訓(xùn)練時(shí)更加穩(wěn)定、波動(dòng)性小、訓(xùn)練的準(zhǔn)確率和訓(xùn)練的損失值更加平滑,并且網(wǎng)絡(luò)的測(cè)試準(zhǔn)確率也有明顯提升。
通過(guò)本文的實(shí)驗(yàn)與分析,卷積神經(jīng)網(wǎng)絡(luò)對(duì)于特征提取要優(yōu)于傳統(tǒng)的特征提取算法,可以看出數(shù)據(jù)在預(yù)處理過(guò)程中數(shù)據(jù)融合方法是可行的,該方法可以有效提高分類管理和生產(chǎn)效率,可以應(yīng)用于葡萄分類采摘機(jī)器人,降低葡萄人工分類的工作量和勞動(dòng)力,可為果園智能化的識(shí)別提供幫助。
參考文獻(xiàn)(References)
[1] 晁無(wú)疾. 調(diào)整提高轉(zhuǎn)型升級(jí)促進(jìn)我國(guó)葡萄產(chǎn)業(yè)穩(wěn)步發(fā)展[J]. 中國(guó)果菜, 2015(9): 12-14. (CHAO W J. Adjustment, improvement, transformation and upgrading to promote the steady development of Chinas grape industry[J]. China Fruit Vegetable, 2015(9): 12-14.)
[2] ZHAO B, FENG J, WU X, et al. A Survey on deep learning-based fine-grained object classification and semantic segmentation[J]. International Journal of Automation and Computing, 2017, 14(2): 119-135.
[3] LUO L, TANG Y, ZOU X, et al. Vision-based extraction of spatial information in grape clusters for harvesting robots[J]. Biosystems Engineering, 2016, 151: 90-104.
[4] FAN J, GAO Y, LUO H. Multi-level annotation of natural scenes using dominant image components and semantic concepts[C]// Proceedings of the 12th Annual ACM International Conference on Multimedia. New York: ACM, 2004: 540-547.
[5] NIXON M S, AGUADO A S. 特征提取與圖像處理[M]. 李實(shí)英, 楊高波, 譯.北京: 電子工業(yè)出版社, 2010: 147-289. (NIXON M S, AGUADO A S. Feature Extraction and Image Processing[M]. LI S Y, YANG G B, translated. Beijing: Publishing House of Electronics Industry, 2010: 147-289.)
[6] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554.
[7] YU C, WANG J, PENG C, et al. Learning a discriminative feature network for semantic segmentation[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 1857-1866.
[8] SCHUSTER M, PALIWAL K K. Bidirectional recurrent neural networks[J]. IEEE Transactions on Signal Processing, 1997, 45(11): 2673-2681.
[9] CARNEIRO G, VASCONCELOS N. Formulating semantic image annotation as a supervised learning problem[C]// Proceedings of the 2005 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2005: 163-168.
[10] LeCUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[11] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. La Jolla, CA: Neural Information Processing Systems Foundation, 2012: 1097-1105.
[12] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2019-02-10]. https://arxiv.org/pdf/1409.1556.pdf.
[13] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Patten Recognition. Piscataway: IEEE, 2015: 1-9.
[14] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[15] SZEGEDY C, IOFFE S, van HOUCKE V, et al. Inception-V4, inception-ResNet and the impact of residual connections on learning[C]// Proceedings of the 2016 31st AAAI Conference on Artificial Intelligence. Pola Alto, CA: AAAI, 2016: 4278-4284.
[16] GEHLER P, NOWOZIN S. On feature combination for multiclass object classification[C]// Proceedings of the 12th IEEE International Conference on Computer Vision. Piscataway: IEEE, 2009: 221-228.
[17] JARRETT K, KAVUKCUOGLU K, RANZATO M, et al. What is the best multi-stage architecture for object recognition?[C]// Proceedings of the 12th IEEE International Conference on Computer Vision. Piscataway: IEEE, 2009: 2146-2153.
[18] CHEN P H, LIN C J, SCHOLKOPF, BERNHARD. A tutorial on ν-support vector machines[J]. Applied Stochastic Models in Business and Industry, 2005, 21(2): 111-136.
[19] WEISS K, KHOSHGOFTAAR T M, WANG D D. A survey of transfer learning[J]. Journal of Big Data, 2016, 3: 9.
[20] WOLD S. Principal component analysis[J]. Chemometrics & Intelligent Laboratory Systems, 1987, 2(1):37-52.
[21] SZEGEDY C, van HOUCKE V, IOFFE S, et al. Rethinking the Inception architecture for computer vision[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 2818-2826.
[22] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.