周必鐃 卞麗麗 徐薪璐 姚文靜
(南京林業(yè)大學(xué),南京,210037)
竹類植物為多年生非木質(zhì)常綠植物,屬于禾本科(Poaceae)竹亞科(Bambusoideae)。竹類植物生長快、可再生性強、用途廣泛,在發(fā)展綠色經(jīng)濟、保護生態(tài)環(huán)境、應(yīng)對氣候變化、促進生態(tài)文明建設(shè)等方面都發(fā)揮著獨特作用[1-5]。國內(nèi)竹亞科傳統(tǒng)分類方法主要建立在耿氏系統(tǒng)上,以花序和地下莖性狀為主要分類特征,再結(jié)合營養(yǎng)體特點劃分屬及以下類群。由于竹子開花結(jié)果不常見,以花果為分類依據(jù)應(yīng)用困難,實際種類識別多是根據(jù)營養(yǎng)體展開[6-7]。竹類營養(yǎng)體多變,在同一種群中往往存在多種表型且季節(jié)性變化明顯,傳統(tǒng)分類由此引入模式種概念[8-10]。但模式種往往僅代表種群中某一個體在某一時期的性狀,當(dāng)遇到同一性狀有多種表現(xiàn)型時,根據(jù)模式種進行分類容易導(dǎo)致分類混亂[11]。
竹類植物葉片四季常綠,同一種竹子葉片性狀特征相對較穩(wěn)定。曾有學(xué)者對竹類植物葉片進行解剖研究,并將解剖結(jié)構(gòu)作為竹種分類的參考[12-13]。竹類植物的葉片結(jié)構(gòu)為二維平面,顏色、形狀和紋理信息都包含在內(nèi),更便于采用計算機進行圖像收集及數(shù)據(jù)化處理?;谌~片特征的竹種分類法與傳統(tǒng)的模式種法相比,通過計算機系統(tǒng)建立不同竹種相應(yīng)的數(shù)據(jù)庫,每類竹種的特征數(shù)據(jù)均從種群水平獲得,減少了種群中特殊個體的影響。通過計算機視覺技術(shù)獲取的數(shù)據(jù)由該竹種本身特性決定,會在一定范圍內(nèi)波動,更能代表該竹種的實際情況。
支持向量機算法(SVM)最早于1963年由Vladimir N. Vapnik和Alexey Ya. Chervonenkis提出。此后Corinna Cortes與Vladimir Vapnik對原算法進行了改進,將原來的“硬分隔面”變?yōu)椤败浄指裘妗保纬闪爽F(xiàn)在所用的支持向量機算法的雛形[14]。支持向量機算法不涉及統(tǒng)計學(xué)的相關(guān)概念,其原理是將樣本放在一個空間中,在同一空間中尋找能最好劃分類別的超平面。當(dāng)前維度沒有合適的平面時,就將樣本映射到更高維度的空間,直至找到最合適的超平面[15]。歷經(jīng)多年的發(fā)展,支持向量機算法的理論逐漸完善,演變?yōu)橐活惓S玫男颖痉诸愃惴╗16]。實際應(yīng)用中,通過選取合適的核函數(shù),并對參數(shù)進行調(diào)整,使得機器學(xué)習(xí)中損失函數(shù)的值達到較低,保證通過有限的訓(xùn)練樣本得到較小誤差[17]。
支持向量機分類器在觀賞植物和農(nóng)業(yè)上已經(jīng)有了廣泛的應(yīng)用。魏蕾等[18]以木瓜、三角楓、女貞和五角楓的葉片為材料,對葉片圖像進行預(yù)處理后,提取并優(yōu)化出10個葉片形狀參數(shù)作為分類特征,輸入支持向量機模型后取得了較好的識別準確率;陳淑君等[19]選取了9種室內(nèi)常見盆栽各28個樣本,對植物對象結(jié)合色彩信息進行分割,提取信息并使用支持向量機分類器進行分類,識別率達90%左右;秦豐等[20]以采集的苜蓿葉片為材料,進行人工裁剪并結(jié)合圖像分割,建立病害識別支持向量機模型,在測試集上識別準確度達到80%以上;李嬋等[21]提取了農(nóng)業(yè)區(qū)域8種植物葉片的光譜數(shù)據(jù),利用一階微分光譜結(jié)合支持向量機的方法能夠較好地對不同植被區(qū)域進行識別。
目前,支持向量機算法模型在竹子分類中的應(yīng)用還較少。本研究通過計算機編程提取了70個竹種葉片的相關(guān)性狀特征,初步實現(xiàn)了數(shù)據(jù)化,建立了竹類植物的葉片數(shù)據(jù)庫。此外,通過調(diào)節(jié)支持向量機模型參數(shù)提高模型的分類準確度,為基于計算機輔助竹類植物的分類識別提供智能方法。
試驗共采集了70個竹種(包含變種、變型和品種)的7 000片竹葉,其中58種采自江蘇省南京市南京林業(yè)大學(xué)校園(118°48′51″E,32°4′59″N)和南京林業(yè)大學(xué)白馬基地竹種園(119°7′42″E,31°37′55″N);4種采自云南省昆明市西南林業(yè)大學(xué)校園(102°45′26″E,25°3′44″N);3種采自貴州省遵義市楚米鎮(zhèn)高山村(106°42′49″E,28°16′35″N);2種采自貴州省遵義市馬鬃鄉(xiāng)(106°58′39″E,28°13′51″N);3種采自貴州省遵義市羊蹬鎮(zhèn)(106°57′52″E,28°43′20″N)。
試驗采集的70個竹種(包含變種、變型和品種)的學(xué)名和屬名根據(jù)《中國植物志》[22]和《The bamboos of the world》[23]列表(見表1)。每個竹種選擇3株以上進行隨機采樣,采樣時選擇竹子中部功能成熟葉片。每個竹種采集100片竹葉,將采集的葉片放入裝有濕報紙的密封聚乙烯袋中以保持水分。對于較遠地區(qū),為防葉片腐爛,使用冰盒將采集的葉片帶回實驗室進行圖像掃描。
表1 竹種學(xué)名及收集信息
續(xù)(表1)
使用HP Scanjet 4850掃描儀(Hewlett-Packard Company,Palo Alto,CA)獲取葉片圖像,以300 dpi分辨率保存為位圖圖像。掃描后使用python語言(版本python 3.7)結(jié)合第三方庫OpenCV(版本opencv-python 4.4.0.44)識別圖像并測算葉片的長度、寬度、面積、周長和最小外接圓面積,同時計算出葉片外接矩形面積、葉片周長與面積的比值、葉片面積與外接矩形面積的比值和與葉片面積相等圓的直徑,共9個指標作為分類特征。利用scikit-learn(版本0.21.3)建立支持向量機算法分類模型,輸入分類特征對70個竹種進行分類。
葉片長(L)、寬(W)、周長(PM)、面積(S)和最小外接圓面積(MCA)由python語言結(jié)合第三方庫自動識別圖像獲得,其中葉長為葉片長軸方向最大距離;葉寬為葉片短軸方向最大距離;葉周長為葉片外輪廓的長度;葉面積為葉片外輪廓的面積;最小外接圓面積由程序根據(jù)葉片形狀自動計算。
使用準確率(A)指標評價模型的總體分類能力,使用精確率(P)指標評價模型對單一竹種的分類能力,計算方式如下:A=(TN+TP)/(TN+FN+TP+FP);P=TP/(TP+FP)。式中,TN為預(yù)測負樣本(預(yù)測正確);FP為預(yù)測正樣本(預(yù)測錯誤);FN為預(yù)測負樣本(預(yù)測錯誤);TP為預(yù)測正樣本(預(yù)測正確)。
模型建立最主要的任務(wù)是核函數(shù)的選擇與參數(shù)的確定。SVM的核函數(shù)主要有Sigmoid核函數(shù)、多項式核函數(shù)(Polynomial)、線性核函數(shù)(Linear kernel)與RBF核函數(shù)(Radial Basis Function)。其中,RBF是分類研究中普遍使用的一類核函數(shù)。
使用支持向量機算法建立分類模型,首先將原始數(shù)據(jù)集劃分為訓(xùn)練集和測試集,使用訓(xùn)練集的數(shù)據(jù)進行模型訓(xùn)練;然后在模型訓(xùn)練的過程中,選擇RBF核函數(shù),優(yōu)化模型參數(shù);最后利用測試集進行模型測試,驗證其分類準確率,以評估模型的可行性和有效性(見圖1)。
圖1 模型建立流程
本研究引入RBF函數(shù)作為核函數(shù),其公式如下:κ(x1,x2)=exp(((-‖x1-x2‖2)/σ2)),γ=1/2σ2。式中,κ(x1,x2)為核函數(shù),x1、x2分別為不同的樣本,γ為參數(shù),σ為參數(shù)。
支持向量機算法的懲罰系數(shù)(C)和核函數(shù)的參數(shù)(γ)是可調(diào)節(jié)參數(shù),用于調(diào)節(jié)分類錯誤的容忍度。對于懲罰系數(shù)(C)和參數(shù)(γ)確定,大多采用網(wǎng)格法在一定范圍內(nèi)進行窮舉或直接采用算法設(shè)定的默認參數(shù)值。本研究在一定范圍內(nèi)通過程序進行參數(shù)優(yōu)化:確定C值時,以γ=0.1為定值,C∈[1,1200];確定γ值時,以C=1 000為定值,γ∈(0,1.6]。
由圖2可知,經(jīng)支持向量機分類器訓(xùn)練得到的模型更適于訓(xùn)練集的分類。測試集的準確率較訓(xùn)練樣本低,并隨著參數(shù)的增加,識別準確率呈現(xiàn)先上升后保持平穩(wěn)的趨勢。隨著C與γ的增大,訓(xùn)練集和測試集的準確率都有一定程度的增加,但到達一定值后準確率不再明顯提升。當(dāng)C=1 000、γ=0.1時,測試集準確率的提高能力趨于平穩(wěn),隨著C值的增大,支持向量機模型對分類錯誤的容忍度下降。當(dāng)C趨向于無窮大時,支持向量機模型不允許出現(xiàn)分類誤差,此時可能發(fā)生擬合;當(dāng)C趨向于無窮小時,支持向量機模型不再關(guān)注分類的正確性,無法得到有意義的解,模型在訓(xùn)練集和測試集中的分類準確度都極低,即發(fā)生了欠擬合。因此,綜合考慮確定支持向量機模型參數(shù)為C=1000、γ=0.1。
A.懲罰系數(shù)(C)固定,參數(shù)γ變化;B.參數(shù)γ固定,懲罰系數(shù)(C)變化。
分類性狀特征的選擇對于分類器的訓(xùn)練很重要,直接影響最終的分類效果。過多的性狀特征進行組合會降低各特征的貢獻率,出現(xiàn)冗余現(xiàn)象,同時還會導(dǎo)致分類器訓(xùn)練的時間成本增加。
由表2可知,本試驗最初選取了9個葉片性狀作為分類特征。為了測試不同性狀特征的區(qū)分能力,先是利用單個性狀特征進行分類,竹種識別準確率為10%~20%。根據(jù)葉面積與最小外接矩形面積的比為特征識別準確率最低,準確率僅為9.7%,根據(jù)葉寬特征識別準確率最高,準確率為17.7%。由此可知,根據(jù)單個葉片特征分類的準確率較低,若想獲得高準確率的分類模型,必須考慮使用多個分類特征進行組合。
為了比較不同特征組合的效果并簡化輸出,將不同分類特征進行排序,依次累加進行分類器的訓(xùn)練。不論是從上往下還是從下往上,當(dāng)增加第2個分類特征時,分類器的準確率可以得到大幅提升,累加5個葉片特征后,增加分類特征數(shù)量對提高分類器準確率的效果不明顯,而且每次累加后模型準確率提高的幅度不盡相同,甚至出現(xiàn)識別準確率下降。
由于葉片“外接矩形面積”為葉長和葉寬計算所得,且對分類準確率有負貢獻,“最小外接圓面積”由葉面積計算所得,所以將其舍去。通過特征累加可知,使用5個分類特征可以得到較好的分類準確度。對“葉面積與外接矩形面積的比”和“葉周長與葉面積的比”分別與葉長、葉寬、葉面積和葉周長4個特征組合建立模型后,發(fā)現(xiàn)由“葉周長與葉面積的比”所建立模型的準確率較高。因此,確定使用的5個分類特征為葉長、葉寬、葉面積、葉周長、葉周長與葉面積的比。
表2 葉片單特征及特征累加識別準確率
由表3可知,使用訓(xùn)練得到的SVM模型(C=1 000,γ=0.1)對70個竹種進行識別分類,總體平均準確率為81%;62個竹種準確率達70%以上,其中23個竹種的準確率達到90%以上,鵝毛竹和兩年生毛竹實生苗的識別準確率達到100%。
表3 不同竹種的預(yù)測精確度
續(xù)(表3)
由圖3可知,輸入樣本與預(yù)測結(jié)果對應(yīng)關(guān)系的對角線顏色總體為黑色,說明竹種總體識別精確率較高;輸出樣本集中最大的4個屬竹種的范圍標識后,剛竹屬(5-30)、寒竹屬(31-39)、苦竹屬(43-51)和簕竹屬(52-57)的部分竹種錯分到同一個屬中,并且預(yù)測錯誤的竹種所對應(yīng)的點顏色均較淺,說明模型錯誤率低,且具有隨機性。
圖3 輸入—輸出預(yù)測精確率熱力圖
由表4可知,16個屬中有14個屬的識別準確率達到80%以上,其中5個屬達到90%以上,倭竹屬的準確率達到100%。其中,巴山木竹屬、東笆竹屬、牡竹屬、倭竹屬、業(yè)平竹屬、玉山竹屬和少穗竹屬7個屬為單竹屬。業(yè)平竹屬和玉山竹屬識別準確率為70%~80%,由于屬內(nèi)竹種數(shù)少,屬內(nèi)沒有可比對的竹種,影響了屬水平上的識別準確率。
表4 竹種屬別識別準確率
本研究數(shù)據(jù)集包含16個屬、70個種,最終選取了5個葉片性狀作為分類特征,證實了SVM分類器基于葉片性狀組合對多個竹種進行分類的可行性,且在屬種水平上均達到了較好的分類效果,為竹子分類研究提供了一種多維度定量分析方法。段慧茹[24]根據(jù)自然環(huán)境下采集的竹種圖像數(shù)據(jù),選用VGG16、Inception V3、Res Net50和Dense Net121等4種不同的卷積神經(jīng)網(wǎng)絡(luò)模型,對12種竹子進行分類測試,最終選用了識別率最高的Dense Net121模型建立竹子分類系統(tǒng),但在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練中使用的竹種數(shù)有限,導(dǎo)致算法的性能受到一定的影響;李欣等[25]曾利用SVM對46種竹子進行分類,進行參數(shù)選擇和優(yōu)化后,最終選定地下莖、竹桿、竹籜、竹葉、花等56個性狀特征作為分類依據(jù),取得了較好的分類效果,但研究用于分類的樣本僅246個,且實例數(shù)據(jù)來源于竹子種質(zhì)資源庫,庫中數(shù)據(jù)為某種竹子的特征值,缺乏數(shù)據(jù)的動態(tài)性,在實際應(yīng)用中,識別率可能與理論值差異較大。本研究根據(jù)9個竹葉性狀特征,利用計算機技術(shù)建立SVM模型對竹子進行輔助識別分類。與建立在耿氏系統(tǒng)上的經(jīng)典竹亞科分類法相比,本研究中使用的試驗材料可以大量獲得的葉片;與種質(zhì)數(shù)據(jù)庫中的數(shù)據(jù)相比,本研究對實地采集后的竹子葉片進行特征提取,測試數(shù)據(jù)更接近野外的真實情況。并且9個葉片性狀特征經(jīng)過數(shù)據(jù)化處理后,能夠建立竹子葉片數(shù)據(jù)庫,后期獲得同類竹子數(shù)據(jù)也可及時更新數(shù)據(jù)庫,提高識別準確率。在實際應(yīng)用中,可實地拍攝竹葉圖片,從而實現(xiàn)無損的竹種鑒定,突破試驗材料和時間空間上的限制。此外,利用SVM分類器基于竹子葉片性狀特征進行識別分類,先以分類器進行樣本初篩,再進行分類細化,還可節(jié)省大量人力和物力。但受竹子地理分布廣和變種多的客觀原因,本研究模型測試還存在一定的不足,在后續(xù)研究中將會增加更多竹種和每一個竹種的樣品數(shù)量,不斷擴充竹子葉片數(shù)據(jù)庫,以期識別更多竹種,探究更優(yōu)化的分類識別模型,降低識別復(fù)雜度,加快識別效率。