賀勝暉, 李靈巧,2, 劉 彤, 劉振丙, 楊輝華,2
(1.桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541004;2.北京郵電大學(xué) 自動(dòng)化學(xué)院,北京 100876;3.廣州訊動(dòng)網(wǎng)絡(luò)科技有限公司,廣州 510000)
柑橘黃龍病由革蘭氏陰性細(xì)菌引起,通過(guò)木虱傳播,能感染所有的柑橘品種,患病后只能砍伐焚燒控制其蔓延,預(yù)防并及時(shí)發(fā)現(xiàn)是降低損失的唯一有效手段。近年來(lái),基于光譜方法的黃龍病的檢測(cè)研究得到廣泛關(guān)注。Sankara等[1-2]建立簇類獨(dú)立軟模式分類模型,黃龍病檢測(cè)率為88.9%。李修華等[3]采集健康和染病果樹冠層葉片的光譜,分析健康樣本和患病樣本的差異。馬淏等[4]研究了柑橘葉片的近紅外光譜特征值的提取,利用Fisher線性判別分析模型構(gòu)建二分類,正確率為90%。Roberto等[5]研究了引起光譜變化的生物原因,利用主成分線性判別分析對(duì)是否患病進(jìn)行檢測(cè),正確率為89.2%。劉燕德等[6-7]利用拉曼光譜和近紅外光譜拼接可見光譜對(duì)黃龍病快速檢測(cè)進(jìn)行研究,探討了不同的光譜處理方法對(duì)檢測(cè)結(jié)果的影響,其正確率分別為92%和92.8%。
Gabor濾波在圖像分析領(lǐng)域已有廣泛應(yīng)用,涉及多特征尺度提取[8]和邊緣檢測(cè)[9]等多方面。核極限學(xué)習(xí)機(jī)(extreme learning machine with kernel,簡(jiǎn)稱KELM)[10]解決了極限學(xué)習(xí)機(jī)(extreme learning machine,簡(jiǎn)稱ELM)[11]在高維特征空間的過(guò)擬合問(wèn)題,在利用紅外光譜對(duì)食品分類[12]和土壤質(zhì)量檢測(cè)[13]等方面取得廣泛應(yīng)用。
將Gabor濾波與核極限學(xué)習(xí)機(jī)結(jié)合,構(gòu)建一種柑橘黃龍病近紅外光譜簡(jiǎn)易無(wú)損檢測(cè)模型。基于傅里葉變換光譜儀采集的2個(gè)柑橘品種的近紅外光譜,研究了對(duì)單一葉片采集的多個(gè)光譜點(diǎn)的處理方法,探索不同特征維度和不同品種的內(nèi)部差異對(duì)檢測(cè)模型的影響,為將近紅外光譜技術(shù)實(shí)際應(yīng)用于黃龍病檢測(cè)領(lǐng)域提供參考。
傅里葉函數(shù)是經(jīng)典的將時(shí)域信號(hào)轉(zhuǎn)換為頻域的方法,但其只能反應(yīng)出整個(gè)時(shí)域的信息,不能給出不同局部范圍內(nèi)的頻譜的特性信息。Gabor函數(shù)在傅里葉函數(shù)中加入局部化的窗口函數(shù),將特征向量劃分為小間隔,利用傅里葉函數(shù)分析每一個(gè)間隔,獲取局部頻率信息。
對(duì)非零系數(shù)向量進(jìn)行Gabor濾波處理可以使數(shù)據(jù)兼具加強(qiáng)關(guān)鍵特征和提高分類模型魯棒性的特點(diǎn),濾波器如式(1)所示,
(1)
其中:ρ為L(zhǎng)2范數(shù)的稀疏解;ku,v為波形向量;ε=2π;u為濾波器的方向;v為濾波器的尺度。對(duì)尺度v對(duì)應(yīng)的通道表達(dá)式為
(2)
(3)
KELM是一種單層前饋神經(jīng)網(wǎng)絡(luò),其訓(xùn)練過(guò)程一次完成,具有訓(xùn)練速度快泛化能力強(qiáng)的特點(diǎn)。其目標(biāo)是盡可能的逼近樣本,
(4)
其中:α為隱藏層的權(quán)重向量;H為隱藏層輸出矩陣;T為實(shí)際輸出矩陣。將上述優(yōu)化轉(zhuǎn)化為約束優(yōu)化問(wèn)題,
(5)
其中:φi為樣本xi的訓(xùn)練誤差向量;C為正則化參數(shù)。基于KKT理論將約束優(yōu)化問(wèn)題轉(zhuǎn)化為對(duì)偶問(wèn)題,
(6)
其中:β=[β1,β2,…,βm],βi表示隱含層節(jié)點(diǎn)到第i個(gè)輸出節(jié)點(diǎn)的權(quán)重;γij為對(duì)應(yīng)第i個(gè)樣本的第j個(gè)輸出節(jié)點(diǎn)。
根據(jù)KKT優(yōu)化條件,可得KELM目標(biāo)函數(shù)為
(7)
根據(jù)Mercer條件得核函數(shù)矩陣:
Φij=h(xi)h(xj)=K(xi,xj)。
(8)
則將KELM的目標(biāo)函數(shù)轉(zhuǎn)換為
(9)
當(dāng)核函數(shù)確定時(shí)即可求得F(x)。KELM可選擇線性、多項(xiàng)式、高斯和小波函數(shù)作為核函數(shù),其中最佳核函數(shù)由實(shí)驗(yàn)確定。
將Gabor濾波與KELM結(jié)合,構(gòu)成一個(gè)基于近紅外光譜的柑橘黃龍病檢測(cè)模型。當(dāng)特征矩陣為A=[A1,A2,…,AN]∈RN×M,i=1,2,…,N,標(biāo)簽為T=[T1,T2,…,TN]∈RN×1,i=1,2,…,N,實(shí)現(xiàn)步驟如下:
1)首對(duì)訓(xùn)練樣本每一列進(jìn)行歸一化處理,將測(cè)試樣本y表示為訓(xùn)練樣本中同類樣本的線性加權(quán),
y=ω1A1+ω2A2+…+ωNAN=Aω∈IRN×M。
(10)
‖Aω-y‖2+μ1‖ω‖2≤ε£,
(11)
(12)
4)確定隱含層神經(jīng)元個(gè)數(shù)、連接權(quán)重、偏置以及神經(jīng)元激活函數(shù),其中隱含層神經(jīng)元個(gè)數(shù)與樣本數(shù)相等,隨機(jī)選擇權(quán)重w和偏置b并在訓(xùn)練中保持不變。
Hij=g(wjxi+bj),
(13)
(14)
(15)
實(shí)驗(yàn)葉片包括4個(gè)地區(qū)主要種植的2個(gè)柑橘品種,具體信息如表1所示。主要采集樹木冠層葉片并涵蓋多種類型的葉片特征,如斑駁黃化、花葉、倒V黃化、革質(zhì)化等。將每棵樹上采集的葉片隨機(jī)分為2部分,其中2片送至廣西柑橘研究院使用熒光定量聚合酶鏈?zhǔn)椒磻?yīng)(fluorescence quantitative polymerase chain reaction,簡(jiǎn)稱FQ-PCR)確定柑橘葉片是否染病,剩余1片用于采集近紅外光譜。
表1 柑橘葉片采集數(shù)量
使用傅里葉變換近紅外光譜儀采集根部靠左的葉脈下方等間隔3個(gè)點(diǎn),具體位置如圖1所示。傅里葉變換近紅外光譜儀MAP(Bruker Optics,US)采用光纖探頭測(cè)量,測(cè)定范圍為12 500~4000 cm-1,分辨率為8 cm-1,測(cè)量點(diǎn)為直徑5 mm的圓斑,掃描次數(shù)32次。
按照國(guó)家標(biāo)準(zhǔn)[14],CT值大于35為健康,小于30為患病,在30~35是需要復(fù)測(cè)來(lái)確定是否患病。為了保證FQ-PCR檢測(cè)結(jié)果的可靠性和實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,將CT值在30~35的樣本舍棄,其中包括砂糖橘葉片17片,橙葉片14片。
橙和砂糖橘在4000~12500 cm-1近紅外全波段各點(diǎn)的吸光度稍有差異,但是整體趨勢(shì)相同,其中以砂糖橘的健康與患病的光譜曲線差異最為明顯,因此以砂糖橘為例進(jìn)行說(shuō)明,光譜如圖2所示。光譜圖中有2個(gè)明顯的吸收峰在5250 cm-1和6850 cm-1處。健康和黃龍病葉片在6850 cm-1吸收峰的區(qū)別較為明顯,水和糖中含有的O-H鍵的一級(jí)倍頻振動(dòng)可以引起該位置的吸收峰,這此猜測(cè)是由于黃龍病會(huì)對(duì)葉片吸收水分產(chǎn)生阻礙。在5250 cm-1處的吸收峰主要是由N-H鍵的非對(duì)稱振動(dòng)引起,可能是由于黃龍病使得葉片缺失所需的營(yíng)養(yǎng)元素造成的。
圖1 葉片采集光譜點(diǎn)
圖2 黃龍病和健康2類葉片的近紅外代表光譜
品種健康葉片患病葉片總數(shù)量砂糖橘11163174橙 8875163
葉片在采摘后由于溫度和濕度等原因?qū)е卤ur時(shí)間有限,易出現(xiàn)腐化損壞問(wèn)題,為保證結(jié)果準(zhǔn)確性,在實(shí)驗(yàn)過(guò)程中剔除腐化葉片,其中包括砂糖橘葉片10片,橙葉片6片。實(shí)驗(yàn)使用數(shù)據(jù)集的具體數(shù)量如表2所示,依據(jù)7∶3的比例將樣品隨機(jī)劃分為訓(xùn)練集和測(cè)試集,再對(duì)訓(xùn)練集按7∶3劃分為建模集和驗(yàn)證集,進(jìn)行光譜點(diǎn)處理分析和設(shè)置KELM參數(shù)。
表3 光譜點(diǎn)處理方法對(duì)比 %
首先對(duì)光譜進(jìn)行標(biāo)準(zhǔn)正態(tài)變換(standard normal variant,簡(jiǎn)稱SNV)消除表面散射和光程變化對(duì)光譜的影響。葉片的生物特性決定了病菌在葉片上分布不均,導(dǎo)致葉片局部的生物情況存在差異。本實(shí)驗(yàn)嘗試了4種對(duì)單一葉片上采集光譜點(diǎn)的處理方法:1)對(duì)一片葉片上所采集的光譜點(diǎn)分別判定類別,當(dāng)存在判定為黃龍病的光譜點(diǎn)即認(rèn)為葉片患?。?)將一片葉片上采集的所有光譜點(diǎn)取均值;3)僅考慮葉片上中心點(diǎn);4)隨機(jī)取葉片上任一光譜點(diǎn)。實(shí)驗(yàn)結(jié)果如表3所示,先對(duì)單個(gè)光譜點(diǎn)進(jìn)行預(yù)測(cè)標(biāo)簽再綜合判定方法的正確率為88.02%,精度為81.42%,靈敏度為84.34%,F(xiàn)1分?jǐn)?shù)為81.98%,均取得最優(yōu)結(jié)果。證明由于病菌在葉片上分布不均導(dǎo)致的內(nèi)部差異對(duì)光譜產(chǎn)生影響,導(dǎo)致部分光譜未能涵蓋有效信息。
本實(shí)驗(yàn)采用主成分分析方法對(duì)數(shù)據(jù)進(jìn)行降維,分類結(jié)果如圖3所示,盡管在降至4維時(shí),主成分貢獻(xiàn)率已經(jīng)達(dá)到99%,但是其判別黃龍病葉片的能力較差,說(shuō)明其剔除了黃龍病葉片的有效特征信息。為準(zhǔn)確判別黃龍病葉片,增加主成分得分向量的維度,在25維時(shí),各項(xiàng)指標(biāo)取得最優(yōu)值并高于降維前各項(xiàng)指標(biāo),表明其最大程度的保留了有效信息并且剔除了部分干擾信息。
圖3 PCA降維對(duì)結(jié)果的影響
KELM需要選擇核函數(shù),不同的核函數(shù)的分類結(jié)果如圖4所示,其中Liner表示線性函數(shù),RBF表示高斯函數(shù),Polynomial表示多項(xiàng)式函數(shù),Wavelet表示小波函數(shù)。由圖4可知,線性函數(shù)在靈敏度指標(biāo)中取得最優(yōu)值,但其精度僅高于小波函數(shù)并且F1分?jǐn)?shù)偏低,這可能是由于其將大量的健康樣本誤診為患病樣本,雖然可以有效地提高對(duì)有病樣本的檢測(cè),但是其造成大量不必要的損失,失去檢測(cè)的意義。高斯函數(shù)在4個(gè)指標(biāo)中表現(xiàn)穩(wěn)定,均達(dá)到最優(yōu)或次優(yōu)值。多項(xiàng)式函數(shù)的正確率和準(zhǔn)確率指標(biāo)均達(dá)到了較優(yōu)值,但是靈敏度值偏低,體現(xiàn)了其對(duì)于患病樣本的不敏感,這可能由于患病樣本數(shù)少于健康樣本數(shù)造成的。小波函數(shù)各項(xiàng)表現(xiàn)均最差。
圖4 核函數(shù)選擇
實(shí)驗(yàn)結(jié)果取10次測(cè)試結(jié)果的均值,選取ELM、KELM、偏最小二乘判別分析(partial least squares discriminant analysis,簡(jiǎn)稱PLS-DA)和支持向量機(jī)(support vector machine,簡(jiǎn)稱SVM)作為對(duì)比方法,分類結(jié)果如表4所示。
表4 實(shí)驗(yàn)結(jié)果對(duì)比 %
由表4可知,GKELM方法在砂糖橘葉片數(shù)據(jù)集中,正確率為97.12%,精度為97.06%,靈敏度為100%,F(xiàn)1分?jǐn)?shù)為98.51%;在橙葉片數(shù)據(jù)集中,正確率為96.94%,精度為97.44%,靈敏度為95%,F(xiàn)1分?jǐn)?shù)為96.2%,均較高于PLS-DA、SVM、ELM、KELM方法。
通過(guò)分析表4的數(shù)據(jù),可得到以下結(jié)論:1)核函數(shù)的引入加大了數(shù)據(jù)的可分程度,提高了分類算法的實(shí)際應(yīng)用能力;2)Gabor濾波能夠加強(qiáng)光譜的有效信息點(diǎn),排除差異信息,提高分類器的魯棒性,使分類模型性能有明顯提升。3)對(duì)比2個(gè)數(shù)據(jù)集中各項(xiàng)方法,SVM、ELM和KELM的各項(xiàng)指標(biāo)均存在一定差異,表明柑橘品種間的生物差異會(huì)影響模型對(duì)葉片的判別。4)GKELM算法與PLS-DA算法的正確率近似,準(zhǔn)確率和F1分?jǐn)?shù)有一定提升,表明GKELM從高信息含量中提取患病葉片特征的能力更優(yōu)。
本實(shí)驗(yàn)將Gabor濾波器結(jié)合核極限學(xué)習(xí)機(jī)構(gòu)建了一個(gè)基于近紅外光譜的黃龍病檢測(cè)模型,并且基于傅里葉變換近紅外光譜儀采集的4地區(qū)種植的2個(gè)主要柑橘品種的數(shù)據(jù)集,研究了對(duì)同一葉片上采集的多個(gè)光譜點(diǎn)的4種處理方法,分析了不同的特征維度對(duì)分類效果的影響。實(shí)驗(yàn)結(jié)果表明,GKELM分類模型具有良好的魯棒性,能有效實(shí)現(xiàn)對(duì)黃龍病葉片的檢測(cè),采用近紅外光譜結(jié)合GKELM方法對(duì)于柑橘黃龍病檢測(cè)具有可行性,為實(shí)際黃龍病檢測(cè)工作提供一種新方法。