王琢 汪雅婷 宋文龍 莫沖
摘? 要:為了保證植物葉片圖像采集質(zhì)量,提高植物表型葉片圖像分割精度,建立一種基于深度學(xué)習(xí)的葉片圖像分割方法。以Caffe深度學(xué)習(xí)框架為基礎(chǔ),構(gòu)建全卷積神經(jīng)網(wǎng)絡(luò)(FCN),采用有監(jiān)督的學(xué)習(xí)方法,通過對(duì)數(shù)據(jù)集標(biāo)注、數(shù)據(jù)集標(biāo)簽制作,實(shí)現(xiàn)葉片圖像的分割。該方法充分發(fā)揮了FCN不限制輸入圖像的大小,實(shí)現(xiàn)端到端的圖像分割的特點(diǎn)。同時(shí)采用數(shù)據(jù)增強(qiáng)方法,解決了在葉片數(shù)據(jù)集稀缺條件下,訓(xùn)練時(shí)間長,不容易收斂的問題。實(shí)驗(yàn)結(jié)果表明,深度學(xué)習(xí)在植物葉片分割中效果顯著,像素準(zhǔn)確率達(dá)到了91%,Mean IU達(dá)到了78.52%,技術(shù)指標(biāo)優(yōu)于大部分傳統(tǒng)圖像分割算法。
關(guān)鍵詞:全卷積神經(jīng)網(wǎng)絡(luò);圖像分割;數(shù)據(jù)增強(qiáng);植物葉片
中圖分類號(hào):S781.1; Q6-3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-8023(2019)01-0042-05
Abstract: In order to ensure the image acquisition quality of plant leaves and improve the image segmentation accuracy of plant phenotypes, a segmentation method based on deep learning was established. Based on the Caffe deep learning framework, a full convolutional neural network (FCN) was constructed. The supervised learning method was adopted to realize the segmentation of the leaf image by labeling datasets and creating dataset labels. This method fully utilized the feature that the FCN did not limit the size of the input image and achieved end-to-end image segmentation. At the same time, the data augmentation method was used to solve the problem that the training time was long and the convergence was not easy under the condition that the blade data set was scarce. The experimental results showed that the deep learning effect was remarkable in the division of plant leaves, pixel accuracy reached 91%, Mean IU reached 78.52%, technical indicators was better than most of the traditional image segmentation algorithm.
Keywords:Fully convolutional neural networks; image segmentation; data enhancement; plant leaves
0 引言
植物是地球上物種數(shù)量最多、分布最廣泛的生命形式。它是生態(tài)資源中最重要的部分,植物在人類生活中扮演著十分重要的角色。葉片是植物制造營養(yǎng)物質(zhì)的器官,是其生長和結(jié)果的基礎(chǔ)。利用植物葉片進(jìn)行植物分類和識(shí)別是最有效、最經(jīng)濟(jì)的方法。而有效識(shí)別植物葉片的前提是把植物葉片從背景中分離出來,這是植物葉片圖像處理中的關(guān)鍵環(huán)節(jié)。只有通過植物葉片圖像的合理分割,對(duì)植物的分析才成為可能。葉片圖像分割的本質(zhì)是將像素進(jìn)行分類,利用機(jī)器視覺和圖像處理技術(shù)將植物葉片從背景中分割出來。很多傳統(tǒng)的圖像分割技術(shù),例如直方圖閾值法、邊緣檢測法、基于區(qū)域的方法以及基于隨機(jī)場的方法等,都是利用植物葉片圖像的邊緣像素灰度值大幅度劇烈變化,其本質(zhì)仍然僅僅利用到了圖像灰度特征信息[1-6]。此類方法在單葉片及簡單場景下能夠獲得較好的分割效果,但對(duì)于解決復(fù)雜背景尤其是葉片在線無損檢測中分割效果不理想,受背景噪聲、環(huán)境場景影響較大,系統(tǒng)魯棒性較差,不能夠給出有效的語義信息。
隨著現(xiàn)代高性能計(jì)算的發(fā)展,在人工智能領(lǐng)域中深度學(xué)習(xí)技術(shù)越來越多的應(yīng)用到了科學(xué)研究與工業(yè)生產(chǎn)之中,其中卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)是深度學(xué)習(xí)網(wǎng)絡(luò)應(yīng)用最為普遍的的一種[7-10]。針對(duì)復(fù)雜背景下葉片分割效果不理想,受背景噪聲、環(huán)境場景影響較大,系統(tǒng)魯棒性較差等問題,提出一種利用全卷積神經(jīng)網(wǎng)絡(luò)(FCN)[11-14]的深度學(xué)習(xí)葉片圖像分割方法,使用有監(jiān)督學(xué)習(xí)的方法訓(xùn)練FCN用于植物葉片檢測。
1 研究方法
1.1葉片分割網(wǎng)絡(luò)模型結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)所構(gòu)建的是多層具有自主學(xué)習(xí)的網(wǎng)絡(luò)架構(gòu),在圖像分類中應(yīng)用最為廣泛,但CNN網(wǎng)絡(luò)在特征抽象過程中往往容易丟失圖像的細(xì)節(jié)信息,對(duì)對(duì)象輪廓描述不清,因此在圖像分割領(lǐng)域CNN網(wǎng)絡(luò)存在局限性,應(yīng)用較少。
針對(duì)CNN在圖像細(xì)節(jié)處理中存在的問題,加州大學(xué)伯克利分校的Jonathan Long等人提出了改進(jìn)型網(wǎng)絡(luò)架構(gòu),端到端的Fully Convolutional Networks(FCN)[15-22]。
FCN和CNN的最大區(qū)別在于它將CNN中的全連接層都轉(zhuǎn)換成了卷積層。圖像作為輸入數(shù)據(jù)進(jìn)入FCN網(wǎng)絡(luò),前面的5個(gè)卷積層與CNN網(wǎng)絡(luò)是相同的,但后三層的全連接層替換為卷積層。與CNN全連接層之后的一維輸出不同,F(xiàn)CN卷積層后的輸出仍然是二維矩陣。
通過對(duì)植物葉片特征的分析,研究中所使用的全卷積神經(jīng)網(wǎng)絡(luò),是在VGG-16網(wǎng)絡(luò)模型的基礎(chǔ)上,去掉了softmax層。VGG-16是牛津大學(xué)計(jì)算機(jī)視覺組(Visual Geometry Group)和Google DeepMind公司的研究員共同開發(fā)的深度卷積神經(jīng)網(wǎng)絡(luò)[23-24],網(wǎng)絡(luò)模型如圖1所示。
表1展示了全卷積網(wǎng)絡(luò)模型中部分卷積層和池化層的參數(shù)設(shè)置,其中:Conv*-*表示卷積層,Pool*表示池化層。由表1可以看出,隨著圖像每次卷積的操作,圖像的維度就會(huì)增加。因此需要池化操作對(duì)圖像進(jìn)行降維。然后再進(jìn)行下一次的卷積過程。另外,由于模型訓(xùn)練的數(shù)據(jù)集數(shù)量有限,模型容易出現(xiàn)過擬合現(xiàn)象。為了防止過擬合,在訓(xùn)練模型中加入Dropout層。Dropout是目前深度學(xué)習(xí)中最常用的方法。其本質(zhì)就是丟棄掉部分模型參數(shù),提高模型的魯棒性。在全連接層前的卷積層加入Dropout層,可以有效地減少過擬合。
1.2 數(shù)據(jù)采集
獲取圖像數(shù)據(jù)是數(shù)據(jù)集制作的前提。研究葉片圖像分割的算法,數(shù)據(jù)集需要有原圖像以及圖像的標(biāo)簽(label)兩部分。為了獲得足夠的標(biāo)注的葉片圖像數(shù)據(jù)集,采用從Internet檢索公共數(shù)據(jù)集的方法,檢索到CVPPP數(shù)據(jù)集。
CVPPP全稱是COMPUTER VISION PROBLEMS IN PLANT PHENOTYPING,即“計(jì)算機(jī)視覺在植物表型方面的挑戰(zhàn)”是歐洲IMT高級(jí)研究院為推動(dòng)植物葉片研究而舉辦的研討會(huì)。為了推動(dòng)葉片分割領(lǐng)域的發(fā)展,展示在植物圖像中分割所有葉片圖片的困難性,IMT研究院組織了葉片分割挑戰(zhàn)賽(Leaf Segmentation Challenge,LSC),LSC挑戰(zhàn)賽提供了植物表型數(shù)據(jù)集。該數(shù)據(jù)集提供帶注釋的成像數(shù)據(jù),并為植物葉片分割、檢測、跟蹤以及分類和回歸問題提出合適的評(píng)估標(biāo)準(zhǔn)。
由于CVPPP數(shù)據(jù)集提供的圖像標(biāo)簽無法直接作為本研究實(shí)驗(yàn)圖片標(biāo)簽使用,因此對(duì)葉片圖像進(jìn)行了重新標(biāo)注。
全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行有監(jiān)督的訓(xùn)練過程中需要對(duì)應(yīng)人工標(biāo)注過的分割圖片,在實(shí)驗(yàn)中使用是麻省理工學(xué)院(MIT)的開源標(biāo)注工具Labelme,Labelme是一個(gè)圖形圖像注釋工具,使用Qt作為圖形界面,并支持語義和實(shí)例分段的注釋。所以實(shí)驗(yàn)中對(duì)數(shù)據(jù)集進(jìn)行人工標(biāo)注。
研究中選取煙草和擬南芥兩種植物在不同時(shí)間段的葉片圖片圖像,圖像大小:500×500像素;水平分辨率:96 DPI;垂直分辨率:96 DPI;位深度:24。
1.3 數(shù)據(jù)增強(qiáng)
數(shù)據(jù)增強(qiáng)是深度學(xué)習(xí)中非常常用的一種擴(kuò)增數(shù)據(jù)集的方法。因?yàn)閳D像是高維的并包括各種巨大的變化因素。即使模型已經(jīng)使用了卷積和池化技術(shù)對(duì)部分評(píng)議保持不變,沿訓(xùn)練圖像每個(gè)方向平移幾個(gè)像素的操作通常也可以大大改善泛化。卷積神經(jīng)網(wǎng)絡(luò)需要優(yōu)化提高深度學(xué)習(xí)模型最好的辦法是使用更多的數(shù)據(jù)進(jìn)行訓(xùn)練。CVPPP數(shù)據(jù)集經(jīng)過整理后得到的數(shù)據(jù)圖片及標(biāo)簽圖片共760張,這個(gè)數(shù)據(jù)量是十分有限的。為了提高訓(xùn)練數(shù)據(jù)數(shù)量與數(shù)據(jù)質(zhì)量,以及減少訓(xùn)練模型時(shí)的過擬合現(xiàn)象,研究中采取了一些常用的數(shù)據(jù)增強(qiáng)方法,如平移變換、旋轉(zhuǎn)變換。數(shù)據(jù)增強(qiáng)后的部分葉片圖像。
1.4模型訓(xùn)練
實(shí)驗(yàn)中將數(shù)據(jù)集劃分為兩部分,總數(shù)的80%為訓(xùn)練集用來進(jìn)行模型訓(xùn)練,20%為測試集對(duì)模型進(jìn)行測試驗(yàn)證。因?yàn)樵谌矸e神經(jīng)網(wǎng)絡(luò)中無需限制輸入圖像的大小,因此這里采用的數(shù)據(jù)集圖片尺寸不相同。最終將葉片圖像數(shù)據(jù)集劃分為6 240張訓(xùn)練圖片和1 360張測試圖片。
2 實(shí)驗(yàn)結(jié)果與分析
按照1.2中描述的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練后完成了網(wǎng)絡(luò)模型參數(shù)的設(shè)定,設(shè)計(jì)了按照3種不同跳躍層結(jié)構(gòu)下和不同迭代次數(shù)下的實(shí)驗(yàn)方案。
3種不同的方案上采樣方式分別命名為FCN-8s、FCN-16s、FCN-32s。實(shí)驗(yàn)中,通過對(duì)1 360張測試圖片的實(shí)驗(yàn),對(duì)這3種方式分別進(jìn)行了測試。研究中采用經(jīng)典的圖像分割評(píng)判指標(biāo)Mean IU(平均IU)。Mean IU是圖像分割的度量指標(biāo),為通過預(yù)測像素值與作為最終指標(biāo)原始像素的總和的正確交集,在每個(gè)類上計(jì)算IU,之后平均獲得Mean IU。
表2為FCN-32s、FCN-16s和FCN-8s 3種上采樣結(jié)構(gòu)準(zhǔn)確率的對(duì)比,從表中可以獲得3種上采樣的像素準(zhǔn)確率、平均準(zhǔn)確率和Mean IU。
從表2中可以看出:無論是像素準(zhǔn)確率、平均準(zhǔn)確率和Mean IU ,F(xiàn)CN-8s都是最高的,像素準(zhǔn)確率達(dá)到了91.87%。平均準(zhǔn)確率達(dá)到了87.83%,Mean IU為78.52%,模型對(duì)葉片圖像具有良好的適應(yīng)性和較高的準(zhǔn)確率。其平均準(zhǔn)確率低于像素準(zhǔn)確率,是因?yàn)槠骄鶞?zhǔn)確率的計(jì)算綜合了圖像中全部類別的信息,測試集數(shù)據(jù)量大也是導(dǎo)致平均準(zhǔn)確率和Mean IU低的原因。
在3種不同上采樣方式的分割結(jié)果。FCN-32s情況下的分割圖片十分粗糙,基本無法看出葉片圖像的形狀。FCN-16s情況下分割輪廓有明顯改善,而FCN-8s的分割結(jié)果與標(biāo)簽圖片十分接近,葉片輪廓清晰,形狀與原圖一致。因此可得出結(jié)論,F(xiàn)CN-8s下的分割結(jié)果最為理想,實(shí)驗(yàn)中選擇FCN-8s網(wǎng)絡(luò)結(jié)構(gòu)。
實(shí)驗(yàn)搭建的卷積神經(jīng)網(wǎng)絡(luò)求解目標(biāo)是最小化損失函數(shù)。訓(xùn)練狀態(tài)曲線,縱坐標(biāo)為loss值和準(zhǔn)確率,橫坐標(biāo)為模型的迭代次數(shù)。
為了可視化模型的數(shù)據(jù),將保存后的不同迭代次數(shù)下的模型進(jìn)行測試,通過比較可以證實(shí),實(shí)驗(yàn)迭代5萬次時(shí)的分割效果最好。
綜上所述,模型在迭代5萬次的情況下,F(xiàn)CN-8s的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)葉片圖像的分割效果最好。而FCN-8s的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)于葉片的輪廓刻畫的最好,且對(duì)葉片細(xì)節(jié)信息的展示比較好。準(zhǔn)確率高,Mean IU 達(dá)到了78.52%。
3 結(jié)論
研究中提出將深度學(xué)習(xí)用于對(duì)植物葉片進(jìn)行圖像分割,并綜合應(yīng)用FCN,數(shù)字圖像處理技術(shù)對(duì)葉片圖像進(jìn)行了分析。由于選取的葉片數(shù)據(jù)集數(shù)量不足,使用了平移變換和旋轉(zhuǎn)變換兩種數(shù)據(jù)增強(qiáng)的方法,抑制了模型的過擬合。針對(duì)葉片圖像分割細(xì)節(jié)缺失的問題,對(duì)FCN模型3種不同方式上采樣網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了研究和分析,通過實(shí)驗(yàn)對(duì)比,得出FCN-8s情況下的葉片圖像分割效果最好。像素準(zhǔn)確率達(dá)到了91%,Mean IU達(dá)到了78.52%。通過實(shí)驗(yàn)對(duì)比模型在不同迭代次數(shù)下的表現(xiàn),驗(yàn)證了模型的適應(yīng)性和穩(wěn)定性。
【參 考 文 獻(xiàn)】
[1]羅希平,田捷,諸葛嬰,等.圖像分割方法綜述[J].模式識(shí)別與人工智能,1999(3):300-312.
LUO X P, TIAN J, ZHU G Y, et al. A survey on image segmentation methods[J]. Pattern Recognition and Artificial Intelligence, 1999(3):300-312.
[2]張善文,張?jiān)讫?,尚怡?1種基于Otsu算法的植物病害葉片圖像分割方法[J].江蘇農(nóng)業(yè)科學(xué),2014,42(4):337-339.
ZHANG S W, ZHANG Y L, SHANG Y J. 1 Image segmentation method of plant disease leaf based on otsu algorithm[J]. Jiangsu Agricultural Science, 2014, 42(4):337-339.
[3]軒永倉.基于全卷積神經(jīng)網(wǎng)絡(luò)的大田復(fù)雜場景圖像的語義分割研究[D].西安:西北農(nóng)林科技大學(xué),2017.
XUAN Y C. Research on the semantic segmentation of complex scene image of field based on fully convolutional networks[D]. Xi an: Northwest Agriculture and Forestry University, 2017.
[4]INGROUILLE M J, LAIRD S M. A quantitative approach to oak variability in some north London woodlands[J]. London Naturalist, 1986, 65: 35-46.
[5]FRANZ E, GEBHARDT M R, UNKLESBAY K B.? Shape description of completely visible and partially occluded leaves for identifying plants in digital images[J]. Transaction of the ASEA, 1991, 34(2): 673-681.
[6]YONEKAWA S, SAKAI N, KITANI O. Identification of idealized leaf types using simple dimensionless shape factors by image analysis[J]. Transactions of the ASABE, 1996, 39(4):1525-1533.
[7]SODERKVIST O J O. Computer vision classification of leaves from Swedish trees[D]. Linkoping: Linkoping University, 2001.
[8]VILLENA-ROMAN J, LANA-SERRANO S, CRISTOBAL J C G. DAEDALUS at ImageCLEF 2011 plant identification task: using SIFT keypoints for object detection[C]. Amsterdam: CLEF 2011 Labs and Workshop, 2011:19-22.
[9]ROSSATTO D R, CASANOVA D, KOLB R M, et al. Fractal analysis of leaf-texture properties as a tool for taxonomic and identification purposes: a case study with species from Neotropical Melastomataceae (Miconieae tribe)[J]. Plant Systematics and Evolution, 2011, 291(1-2):103-116.
[10]MALLAH C, COPE J, ORWELL J. Plant leaf classification using probabilistic integration of shape, texture and margin features[J]. Acta Press, 2013, 3842(4):107-111.
[11]周昌雄.基于活動(dòng)輪廓模型的圖像分割方法研究[D].南京:南京航空航天大學(xué), 2005.
ZHOU C X. Research on method of image segmentation based on active contour model[D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2005.
[12]馮林,管慧娟,荊燾,等.基于分水嶺變換和核聚類算法的圖像分割 大連理工大學(xué)學(xué)報(bào), 2006, 46(6):851-856.
FENG L, GUAN H J, JING T, et al. A method of image segmentation based on watershed translation and kernel clustering[J]. Journal of Dalian University of Technology, 2006, 46(6):851-856.
[13]秦緒佳,杜軼誠,張素瓊,等.基于邊緣信息C_V模型的醫(yī)學(xué)圖像分割方法[J].小型微型計(jì)算機(jī)系統(tǒng),2011,32(5):972-977.
QIN X J, DU Y C, ZHANG S Q, et al. Boundary information based C_V model method for medical image segmentation[J]. Journal of Chinese Computer Systems, 2011, 32(5):972-977.
[14]程玉柱,蔡云飛.基于分?jǐn)?shù)階CV模型的木材缺陷圖像分割算法[J].林業(yè)機(jī)械與木工設(shè)備,2018,46(4):44-47.
CHENG Y Z, CAI Y F. Wood defect image segmentation algorithm based on fractional order CV model[J]. Forestry Machinery & Woodworking Equipment, 2018, 46(4):44-47.
[15]何寧, 張朋. 基于邊緣和區(qū)域信息相結(jié)合的變分水平集圖像分割方法[J].電子學(xué)報(bào), 2009, 37(10):2215-2219.
HE N, ZHANG P. Varitional level set image segmentation method based on boundary and region information[J]. Acta Electronica Sinica, 2009, 37(10):2215-2219.
[16]沙莎, 彭麗, 羅三定. 邊緣信息引導(dǎo)的閾值圖像分割算法[J]. 中國圖象圖形學(xué)報(bào), 2010, 15(3):490-494.
SHA S, PENG L, LUO S D. A threshold image segmentation algorithm directed by edge information[J]. Journal of Image and Graphics, 2010, 15(3):490-494.
[17]董金勇, 王建侖, 李道亮,等. 田間棗樹葉片復(fù)雜目標(biāo)圖像綜合分割方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2011, 42(1):165-170.
DONG J Y, WANG J L, LI D L, et al. Complex target image of field Jujube leaf segmentation based on integrated technology[J]. Transactions of the Chinese Society for Agricultural Machinery, 2011, 42(1):165-170.
[18]王建侖. 田間葉片圖像分割與單幅三維重建的機(jī)器視覺算法研究[D]. 北京:中國農(nóng)業(yè)大學(xué), 2013.
WANG J L. Study on field leaf image segmentation and 3D reconstruction from a single image machine vision algorithms[D]. Beijing: China Agricultural University, 2013.
[19]LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4): 541-551.
[20]LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[21]HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.
[22]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]. Advances in Neural Information Processing Systems, 2012: 1097-1105.
[23]LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]. Computer Vision and Pattern Recognition, IEEE, 2015:3431-3440.
[24]林開顏, 吳軍輝, 徐立鴻. 彩色圖像分割方法綜述[J]. 中國圖象圖形學(xué)報(bào), 2005, 10(1):1-10.
LIN K Y, WU J H, XU L H. A Survey on color image segmentation techniques[J]. Journal of Image and Graphics, 2005, 10(1):1-10.