蘇婷婷,牟少敏*,董萌萍,時愛菊
深度遷移學習在花生葉部病害圖像識別中的應用
蘇婷婷1,牟少敏1*,董萌萍1,時愛菊2
1. 山東農(nóng)業(yè)大學信息科學與工程學院, 山東 泰安 271018 2. 山東農(nóng)業(yè)大學化學與材料科學學院, 山東 泰安 271018
運用深度學習方法對花生葉部病害圖像進行分類時,需要大量訓練樣本。而花生葉部病害發(fā)生時間較短,多呈地域性分布,為葉部病害圖像的采集增加難度。為降低圖像采集難度,減少圖像標注成本,提出了一種基于微調(diào)策略的Inception-v3花生葉部病害圖像識別方法。首先遷移Inception-v3模型在茶葉葉部病害圖像數(shù)據(jù)集上進行微調(diào),然后將微調(diào)所得模型遷移至花生葉部病害圖像數(shù)據(jù)集上繼續(xù)訓練。實驗結果表明,Inception-v3、VGG19、ResNet50、卷積神經(jīng)網(wǎng)絡和微調(diào)卷積神經(jīng)網(wǎng)絡在測試集上的準確率分別為94.1%、92.9%、93.2%、80.3%和87.0%,本文提出的方法準確率為95.3%。在花生葉部病害圖像數(shù)量有限時,本文提出的方法識別準確率顯著提高。
遷移學習; 預訓練模型; 花生葉部病害; 圖像分類
花生是我國重要的油料和經(jīng)濟作物之一,種植范圍廣泛,其產(chǎn)量和質(zhì)量對國民經(jīng)濟的發(fā)展有重要意義,而病害的發(fā)生對其產(chǎn)量和質(zhì)量造成嚴重影響,因此花生病害的及時診斷與防治在其生長過程中具有重要意義。目前,常用的花生葉部病害識別的方法主要依靠相關專家、研究人員及務農(nóng)人員的專業(yè)知識和經(jīng)驗進行判斷,效率較低且費時費力,在一定程度上影響了花生病害的防治工作。
近年來,深度學習[1]迅猛發(fā)展并應用于農(nóng)作物葉部病害圖像識別領域。運用深度學習方法可以取得理想的效果,但前提是需要海量的標簽數(shù)據(jù)。當數(shù)據(jù)集中含有少量標簽數(shù)據(jù)時,訓練集與測試集效果相差較大。而現(xiàn)實中標簽數(shù)據(jù)匱乏,且標注大量數(shù)據(jù)需要耗費大量人力物力。在農(nóng)業(yè)領域,由于受到季節(jié)、地域分布等影響,病害發(fā)生時間相對較短,并且部分病害在不同區(qū)域存在差異,在較短時間內(nèi)完成大量病害圖像的采集工作比較困難。
遷移學習是一種能夠借助已有領域的知識對不同但相關領域問題求解的機器學習方法,用于解決目標任務中標簽數(shù)據(jù)匱乏的問題[2,3]。目前,遷移學習已用于農(nóng)作物病害圖像識別領域。Brahimi等[4]基于番茄葉部病害圖像數(shù)據(jù)集對AlexNet模型進行調(diào)整,不僅具有較高的識別準確率,而且在一定程度上減少了由病斑分割對識別效果造成的影響。Sladojevic等[5]運用微調(diào)的CaffeNet模型對包含13種病害、1種背景圖像和1種正常葉片的15類植物葉片識別,每類正確識別率均在91%以上。
針對當前花生葉部病害圖像數(shù)量相對較少的問題,引入深度遷移學習思想,提出了一種基于微調(diào)策略的Inception-v3(Finetuning-Inception-v3)花生葉部病害圖像識別方法。實驗結果表明,本文提出的方法在測試集上取得了較好的效果。
茶葉葉部病害和花生葉部病害在病害類型與表現(xiàn)特征上存在一定的相似性,因此本文將已構建好的茶葉葉部病害圖像數(shù)據(jù)集作為輔助源域。該數(shù)據(jù)集中包含炭疽病、機械損傷等多種茶葉葉部病害圖像,本文選擇正常葉片、葉枯病、炭疽病和茶輪斑病四類,每類選取5000~6000張不等,劃分訓練集、驗證集和測試集。
本文將花生葉部病害圖像作為目標域。在山東省泰安市周邊花生種植地區(qū),人工對花生發(fā)病葉片進行采集。以A4紙為拍攝背景,手機為拍攝工具進行拍攝,并按病害種類進行分類。目前已構建完成包含正常葉片及褐斑病等病害圖像數(shù)據(jù)集。本實驗選擇正常葉片、黑斑病、褐斑病和炭疽病四類。將花生葉部病害圖像輸入到模型前,需對圖像進行預處理。首先按照網(wǎng)絡輸入圖片尺寸要求對所有圖片進行裁切,包括224*224和299*299兩種。其次由于受到發(fā)病率和發(fā)病地區(qū)等影響,每類病害圖像數(shù)量400~2000張不等,為減少因數(shù)據(jù)集中圖像數(shù)量不均造成的模型泛化能力的影響,對圖像數(shù)量較少的類別進行圖像增強。利用Python對圖像進行翻轉(zhuǎn)、旋轉(zhuǎn)等操作以增加樣本的多樣性。最終獲得6700余張圖像,并劃分訓練集、驗證集和測試集。
深度學習本質(zhì)是通過構建多層神經(jīng)網(wǎng)絡模型,利用海量標簽數(shù)據(jù),獲取數(shù)據(jù)的特征表示,從而提升分類或預測的準確性[6],已成為當今機器學習領域中最受關注的研究方向。卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)是一種經(jīng)典的深度學習模型,因具有較好的性能和魯棒性而廣泛應用于圖像分類、自然語言分類等領域。傳統(tǒng)的CNN通過構建多個隱藏層,根據(jù)特定任務,完成對圖像從底層細節(jié)到高層表征的學習過程[7],特點是局部連接、權值共享和下采樣。CNN主要包括卷積層、池化層和全連接層,模型結構如圖1所示。
圖1 卷積神經(jīng)網(wǎng)絡結構
2.1.1 卷積層卷積層通過卷積運算完成圖像特征提取的工作。卷積核以滑動窗口的形式在輸入圖像上進行逐行掃描,計算圖像與網(wǎng)絡參數(shù)的卷積操作[8],得到圖像的特征圖表達矩陣,同時再通過激活函數(shù)生成下一層的特征圖矩陣。其中,底層卷積層用于提取如形狀、邊緣等低級特征,高層卷積層用于提取如組合性特征等抽象復雜特征。
2.1.2 池化層 池化層又稱為下采樣層,通常存在卷積層后,通過一系列局部非線性操作對輸入特征進行特征選擇和降維,以減少模型參數(shù),并提高網(wǎng)絡對輸入圖像平移旋轉(zhuǎn)等抗畸變的能力。池化操作主要有兩種:最大池化和平均池化。
2.1.3 全連接層 全連接層出現(xiàn)在多個卷積層與池化層交替堆疊之后,在對提取的特征進行進一步降維,將特征輸入到SoftMax層中。
對于輸入的樣本(,),其中為樣本所屬標簽類別,根據(jù)公式(2)得其所屬類別。
CNN模型參數(shù)龐大,若針對某一任務訓練獲得較為理想的模型,需要十萬甚至百萬標簽數(shù)據(jù)。近年來隨著研究的不斷深入,出現(xiàn)了預訓練模型。預訓練模型是針對某一特定任務,基于大型數(shù)據(jù)集(如ImageNet)上訓練而得的模型。當解決類似任務時,不需要構建海量數(shù)據(jù)集,也不需要重新構建模型,只需將預訓練模型遷移到新的任務中,根據(jù)任務對模型進行微調(diào)即可。
ImageNet數(shù)據(jù)集模擬人類識別系統(tǒng)建立,是目前世界上最大的圖像識別數(shù)據(jù)庫,包含超過1400萬張標記圖片。Large Scale Visual Recognition Challenge(ILSVRC)使用的公開數(shù)據(jù)集為Imagenet的子集。ILSVRC中產(chǎn)生如VGG等經(jīng)典模型。
Inception-v3[9]由Google團隊于2015年提出,該模型對GoogleNet模型改進,網(wǎng)絡前幾層由普通卷積層和最大池化層組成,隨后由不同結構的Inception模塊堆疊而成,其中Inception模塊有35*35,17*17和8*8三種非對稱的卷積結構,在節(jié)約大量參數(shù)、減輕過擬合的同時,增加特征的多樣性。
遷移學習可以對已有的知識進行利用,解決目標領域中標簽數(shù)據(jù)匱乏的問題。由于茶葉葉部病害與花生葉部病害在病害類型與表現(xiàn)特征上存在一定的相似性,因此本文選擇將茶葉葉部病害圖像數(shù)據(jù)集作為輔助源域,一方面可以降低目標任務對標簽樣本數(shù)量的需要,進而達到降低數(shù)據(jù)采集難度、節(jié)省人工標注的目的;另一方面,對已構建完成的茶葉葉部病害圖像數(shù)據(jù)集進行充分利用,在一定程度上提高資源利用率。
根據(jù)不同的分類標準,遷移學習有多種分類方式。根據(jù)遷移內(nèi)容的不同,遷移學習可分為基于實例的遷移、基于特征的遷移、基于參數(shù)的遷移和基于知識的遷移。本文采用基于參數(shù)的遷移,將ImageNet數(shù)據(jù)集作為源域,茶葉葉部病害圖像數(shù)據(jù)集作為輔助源域,花生葉部病害圖像作為目標域。對花生葉部病害圖像分類時,模型初始參數(shù)來源于基于茶葉葉部病害圖像微調(diào)所得的模型參數(shù)。
為對模型效果進行評價,采用平均準確率作為評價指標:
其中,n為每批次預測正確的樣本數(shù);n為每次迭代的批次數(shù),n為每批次輸入的樣本總數(shù)。
本次實驗運行環(huán)境為Ubuntu16.04,Tensorflow+Keras框架,訓練過程中使用GPU加速。
實驗流程如圖2所示,首先遷移預訓練模型Inception-v3在茶葉葉部病害圖像數(shù)據(jù)集上進行微調(diào),然后將所得模型參數(shù)遷移至花生葉部病害圖像數(shù)據(jù)集上進行訓練。
采用有監(jiān)督的方式對模型進行訓練,分為前向傳播階段和反向傳播階段。訓練前對網(wǎng)絡參數(shù)進行初始化,通常采用隨機初始化和置零法兩種,而本文采用基于茶葉葉部病害圖像數(shù)據(jù)集微調(diào)后所得模型參數(shù)作為網(wǎng)絡的初始參數(shù)。前向傳播階段,將花生葉部病害圖像輸入到網(wǎng)絡中,由若干卷積層與池化層進行特征提取,并將所得特征輸入至Softmax分類器,輸入其所對應標簽,計算損失函數(shù)。反向傳播階段,通過逐層計算損失函數(shù)與網(wǎng)絡參數(shù)的偏導完成權值與偏置的更新。訓練過程中不斷最小化損失函數(shù)以提高分類準確率,直至損失函數(shù)收斂。
圖2 實驗流程
為驗證本文提出方法的有效性,選擇Inception-v3、VGG19[10]、ResNet50[11]、CNN和Finetuning-CNN進行對比。Inception-v3、VGG19、ResNet50為Keras庫中的預訓練模型。CNN模型含有4個卷積層、2個池化層和3個全連接層,分類器為Softmax,其模型結構如圖1所示,模型參數(shù)初始化方式為隨機初始化。Finetuning-CNN模型結構與CNN相同,首先將CNN模型參數(shù)隨機初始化,然后在茶葉葉部病害圖像數(shù)據(jù)集上進行訓練,最后將訓練模型參數(shù)遷移至花生葉部病害圖像數(shù)據(jù)集上繼續(xù)訓練。
Finetuning-Inception-v3等模型訓練時參數(shù)設置如表1所示。訓練時,Epoch設置為200,batch_size設置為32,運用SGD方法對損失函數(shù)進行優(yōu)化,而SGD方法容易引起更新參數(shù)不穩(wěn)定的問題,因此引入Momentum作為其歷史梯度權重系數(shù),將其值設置為0.9。
表1 Finetuning-Inception-v3等模型參數(shù)設置
圖3為訓練集和測試集每類為750張,測試集為150張時,F(xiàn)inetuning-Inception-v3等模型準確率曲線。Epoch=0時,F(xiàn)inetuning-Inception-v3在訓練集和測試集準確率分別為97.8%和79%,均高于Inception-v3等其他模型,經(jīng)過少量Epoch迭代后,模型即可穩(wěn)定。Inception-v3等預訓練模型和Finetuning-CNN在測試集上的效果均高于CNN,由此可以說明,對模型進行訓練時,參數(shù)遷移的方法比隨機初始化效果好,且源域標簽數(shù)據(jù)量越大,種類越多,泛化能力越強。
(a)訓練集準確率變化曲線 Changing curves of precision in training set(b)測試集準確率變化曲線 Changing curves of precision in test set
表2為訓練集和測試集最終準確率。由表2可知,CNN訓練集準確率為99.8%,而測試集的準確率為80.3%,訓練集與測試集相差略大,此時可認為訓練集圖像數(shù)量較少,模型學習能力較弱,產(chǎn)生過擬合。Finetuning-CNN模型參數(shù)源域以茶葉葉部病害圖像作為源域的模型,但訓練集與測試集效果相差12.9%,效果不理想。直接遷移的Inception-v3等三類預訓練模型在測試集上的效果均優(yōu)于CNN和Finetuning-CNN,三類模型基于ILSVRC使用的數(shù)據(jù)集訓練而得,此數(shù)據(jù)集中含多達千類,數(shù)量超過百萬圖像,基于此數(shù)據(jù)集訓練所得模型具有較好的泛化能力。而本文提出的Finetuning-Inception-v3效果較好。將Inception-v3模型參數(shù)基于茶葉葉部病害圖像數(shù)據(jù)集微調(diào)時,盡管茶葉葉部病害圖像與花生葉部病害圖像在外觀上存在一定差距,但兩者輪廓、紋理和色彩等某些局部特征具有極大的相似性,因此微調(diào)后的模型更加適應于花生葉部病害圖像分類。
表2 Finetuning-Inception-v3等模型訓練結果
表3為測試集圖像數(shù)量為150時分類所得的混淆矩陣。
表3 分類混淆矩陣
本文提出了一種基于Finetuning-Inception-v3的花生葉部病害圖像識別方法,用于解決由于數(shù)據(jù)采集難度大、標注成本高等原因造成花生葉部病害圖像數(shù)量較少的問題。首先遷移Inception-v3模型到茶葉葉部病害圖像數(shù)據(jù)集上進行微調(diào),并將微調(diào)所得模型參數(shù)遷移至花生葉部病害圖像數(shù)據(jù)集繼續(xù)訓練。結果表明,與Inception-v3、VGG19、ResNet50、CNN和Finetuning-CNN相比,本文提出的方法在測試集上效果較好。將茶葉葉部病害圖像數(shù)據(jù)集作為輔助源域時,源域中標簽圖像種類多且數(shù)量龐大,訓練所得模型參數(shù)具有較好的泛化能力,而在茶葉葉部病害圖像數(shù)據(jù)集中進行微調(diào)后,經(jīng)過小幅度訓練即可用于花生葉部病害圖像分類。本文提出的方法可較好解決目標任務中病害圖像數(shù)據(jù)量不足的問題,可以減少圖像采集和人工標注的工作量。
[1] Hinton GE, Salakhutdinov RR. Reducing the dimensionality of data with neural networks[J]. Science, 2006,313(5786):504-507
[2] Pan SJ, Yang Q. A Survey on Transfer Learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2010,22(10):1345-1359
[3] 莊福振,羅平,何清,等.遷移學習研究進展[J].軟件學報,2015,26(1):26-39
[4] Brahimi M, Kamel B, Moussaoui A. Deep Learning for Tomato Diseases: Classification and Symptoms Visualization[J]. Applied Artificial Intelligence, 2017,31(4):299-315
[5] Sladojevic S, Arsenovic M, Anderla A,. Deep Neural Networks Based Recognition of Plant Diseases by Leaf Image Classification[J]. Computational Intelligence and Neuroscience, 2016(6):1-11
[6] Mohanty SP, Hughes DP, Salathé M. Using Deep Learning for Image-Based Plant Disease Detection[J/OL]. Frontiers in Plant Science, 2016(7):1419. doi:10.3389/fpls.2016.01419
[7] 李彥冬,郝宗波,雷航.卷積神經(jīng)網(wǎng)絡研究綜述[J].計算機應用,2016,36(9):2508-2515,2565
[8] 張軍陽,王慧麗,郭陽,等.深度學習相關研究綜述[J].計算機應用研究,2018(7):1-12
[9] Szegedy C, Vanhoucke V, Ioffe S,. Rethinking the Inception Architecture for Computer Vision[J]. 2015:2818-2826
[10] Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[C]. Conference paper in ICLR, 2015:1-14
[11] He KM, Zhang XY, Ren SQ,. Deep Residual Learning for Image Recognition[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016:770-778
Application of Deep Transfer Learning in Image Recognition of Peanut Leaf Diseases
SU Ting-ting1, MU Shao-min1*, DONG Meng-ping1, SHI Ai-ju2
1.271018,2.271018,
Massive training samples are needed when classifying peanut leaf disease images using deep learning. Due to the short occurrence time and the regional differences of peanut leaf diseases, it is more difficult to collect abundant leaf disease images. In order to reduce the difficulty of image acquisition and the cost of image labeling, an Finetuning-Inception-v3 image recognition method for peanut leaf diseases is proposed. Firstly, the Inception-v3 model is transferred for fine-tuning on the tea leaf disease image data set. Then, the fine-tuning model is transferred to the peanut leaf disease image data set for further training. The experimental results show that , the accuracy on the test dataset using the proposed method is 95.3%, while the accuracy of Inception-v3, VGG19, ResNet50, Convolutional Neural Networks(CNN) and Finetune-CNN is 94.1%, 92.9%, 93.2%, 80.3% and 87.0%, respectively. Therefore, the recognition rate is significantly improved using the proposed Finetuning-Inception-v3 when the number of peanut disease images is small.
Transfer Learning; pre-trained model; leaf disease of peanut; image classification
S126
A
1000-2324(2019)05-0865-05
10.3969/j.issn.1000-2324.2019.05.028
2018-10-28
2019-01-14
蘇婷婷(1991-),女,碩士研究生,主要從事機器學習與人工智能研究及其在農(nóng)業(yè)中的應用. E-mail:m15065806906@163.com
Author for correspondence. E-mail:msm@sdau.edu.cn